Tokenizacja polega na dzieleniu tekstu na mniejsze jednostki zwane tokenami. Tokeny różnią się w zależności od typu używanego tokenizera. Tokenem może być słowo, znak lub podsłowo (na przykład w angielskim słowie "higher", są 2 podsłowa: "high" oraz "er"). Znaki interpunkcyjne takie jak "!", "." i ";" również mogą być tokenami.
Tokenizacja jest podstawowym krokiem w każdej operacji przetwarzania języka naturalnego. Biorąc pod uwagę różne istniejące struktury językowe, tokenizacja jest inna w każdym języku.
Lematyzacja polega na wyodrębnieniu podstawowej formy słowa (zazwyczaj jest to rodzaj pracy, którą można znaleźć w słowniku). Na przykład, lematem słowa "apple" nadal będzie "apple", ale lematem słowa "is" będzie "be".
Lematyzacja, podobnie jak tokenizacja, jest podstawowym krokiem w każdej operacji przetwarzania języka naturalnego. Biorąc pod uwagę różne istniejące struktury językowe, lematyzacja jest inna w każdym języku.

Tokenizacja i lematyzacja zwykle nie są stosowane samodzielnie, ale jako pierwszy krok w potoku przetwarzania języka naturalnego. Tokenizacja jest często kosztowną operacją, która może znacząco wpłynąć na wydajność modelu przetwarzania języka naturalnego, więc wybór tokenizera jest ważny.
NLP Cloud proponuje API tokenizacji i lematyzacji, które pozwala na wykonywanie tokenizacji i lematyzacji po wyjęciu z pudełka, w oparciu o spaCy i GiNZA, z doskonałą wydajnością. Tokenizacja i lematyzacja nie wymagają dużej ilości zasobów, więc czas odpowiedzi (opóźnienie) podczas ich wykonywania z NLP Cloud API jest bardzo niski. Można to zrobić w 15 różnych językach.
Więcej szczegółów można znaleźć w naszej dokumentacji dotyczącej tokenizacji i lematyzacji tutaj.