Токенізація - це розбиття тексту на менші об'єкти, які називаються токенами. Токени - це різні речі, залежно від типу токенізатора, який ви використовуєте. Токен може бути словом, символом або підсловом (наприклад, в англійському слові "higher", є 2 підслова: "high" і "er"). Розділові знаки, такі як "!", "." та ";", також можуть бути токенами.
Токенізація - це фундаментальний крок у кожній операції обробки природної мови. Враховуючи різноманітність існуючих мовних структур, токенізація в кожній мові відбувається по-різному.
Лексифікація полягає у вилученні основної форми слова (як правило, це робота, яку ви можете знайти у словнику). Наприклад, лемою слова "яблуко" залишиться "яблуко", але лемою слова "є" буде "бути".
Лематизація, як і токенізація, є фундаментальним кроком у кожній операції обробки природної мови. Враховуючи різноманітність існуючих мовних структур, лематизація в кожній мові відбувається по-різному.

Зазвичай ви не використовуєте токенізацію та лематизацію окремо, а лише як перший крок у конвеєрі обробки природної мови. Токенізація часто є дорогою операцією, яка може суттєво вплинути на продуктивність моделі обробки природної мови, тому вибір токенізатора є важливим.
NLP Cloud пропонує API для токенізації та лематизації, який дозволяє виконувати токенізацію та лематизацію "з коробки", на основі spaCy та GiNZA, з відмінною продуктивністю. Токенізація і лематизація не дуже ресурсомісткі, тому час відгуку (латентність) при їх виконанні з NLP Cloud API дуже низький. Ви можете робити це на 15 різних мовах.
Детальніше про токенізацію та лематизацію читайте в нашій документації про токенізацію та лематизацію тут..