Токенизация - это разделение текста на более мелкие сущности, называемые токенами. Токены - это разные вещи в зависимости от типа используемого токенизатора. Токен может быть либо словом, либо символом, либо подсловом (например, в английском языке слово "higher", есть 2 подслова: "high" и "er"). Такие знаки препинания, как "!", "." и ";", тоже могут быть лексемами.
Токенизация - это фундаментальный шаг в каждой операции обработки естественного языка. Учитывая различные существующие языковые структуры, токенизация в каждом языке происходит по-разному.
Лемматизация - это извлечение базовой формы слова (как правило, ее можно найти в словаре). Например, лемма слова "apple" по-прежнему будет "apple", а лемма слова "is" - "be".
Лемматизация, как и токенизация, является фундаментальным шагом в каждой операции обработки естественного языка. Учитывая различные существующие языковые структуры, лемматизация в каждом языке происходит по-разному.

Обычно токенизация и лемматизация используются не сами по себе, а в качестве первого шага в конвейере обработки естественного языка. Токенизация часто является дорогостоящей операцией, которая может значительно повлиять на производительность модели обработки естественного языка, поэтому выбор токенизатора очень важен.
NLP Cloud предлагает API для токенизации и лемматизации, который позволяет выполнять токенизацию и лемматизацию "из коробки", на основе spaCy и GiNZA, с отличными характеристиками. Токенизация и лемматизация не требуют больших ресурсов, поэтому время отклика (latency) при их выполнении из API NLP Cloud очень мало. Вы можете выполнять их на 15 различных языках.
Для получения более подробной информации см. нашу документацию о токенизации и лемматизации здесь.