Токенизацията е разделяне на текста на по-малки единици, наречени токени. Токените са различни неща в зависимост от вида на токенизатора, който използвате. Токенът може да бъде или дума, или символ, или поддума (например в английската дума "higher", има 2 подслова: "high" и "er"). Пунктуационните знаци като "!", "." и ";" също могат да бъдат символи.
Токенизацията е основна стъпка във всяка операция за обработка на естествен език. Предвид различните съществуващи езикови структури, токенизацията е различна за всеки език.
Лематизацията е свързана с извличането на основната форма на дадена дума (обикновено това е работата, която можете да намерите в речник). Например лемата на "ябълка" все още ще бъде "ябълка", но лемата на "е" ще бъде "бъде".
Лематизацията, както и токенизацията, е основна стъпка във всяка операция по обработка на естествен език. Предвид различните съществуващи езикови структури, лематизацията е различна за всеки език.

Обикновено токенизацията и лематизацията не се използват самостоятелно, а като първа стъпка в конвейера за обработка на естествен език. Токенизацията често е скъпоструваща операция, която може да повлияе значително на производителността на модела за обработка на естествен език, така че изборът на токенизатор е важен.
NLP Cloud предлага API за токенизация и лематизация, който ви позволява да извършвате токенизация и лематизация в готов вид въз основа на spaCy и GiNZA с отлични резултати. Токенизацията и лематизацията не са много ресурсоемки, така че времето за отговор (латентността), когато ги извършвате от API на NLP Cloud, е много ниско. Можете да го правите на 15 различни езика.
За повече информация вижте нашата документация за лематизация и лематизиране тук.