Teksto skirstymas į mažesnius vienetus, vadinamus žetonais. Žetonai yra skirtingi dalykai, priklausomai nuo tokenizatoriaus, kurį naudojate, tipo. Ženklas gali būti žodis, simbolis arba dalinis žodis (pvz. "higher", yra 2 posakiai: "high" ir "er"). Tokie skyrybos ženklai kaip "!", "." ir ";" taip pat gali būti simboliai.
Žetonavimas yra pagrindinis kiekvienos natūralios kalbos apdorojimo operacijos žingsnis. Atsižvelgiant į įvairias egzistuojančias kalbų struktūras, kiekvienoje kalboje tokenizavimas yra skirtingas.
Lemmatizacija - tai pagrindinės žodžio formos išskyrimas (paprastai toks darbas, kurį galima rasti žodyne). Pavyzdžiui, žodžio "obuolys" lema vis dar būtų "obuolys", bet žodžio "yra" lema būtų "būti".
Lemmatizavimas, kaip ir tokenizavimas, yra esminis kiekvienos natūralios kalbos apdorojimo operacijos žingsnis. Atsižvelgiant į įvairias egzistuojančias kalbų struktūras, kiekvienoje kalboje lemmatizacija yra skirtinga.

Paprastai tokenizavimą ir lemmatizavimą naudojate ne atskirai, o kaip pirmąjį natūralios kalbos apdorojimo proceso etapą. Tokenizavimas dažnai yra brangi operacija, kuri gali turėti didelės įtakos natūralios kalbos apdorojimo modelio našumui, todėl svarbu pasirinkti tokenizatorių.
"NLP Cloud" siūlo tokenizavimo ir lematizavimo API, kuri leidžia atlikti tokenizavimą ir lematizavimą iškart, remiantis spaCy ir GiNZA, ir pasižymi puikiu našumu. Tokenizavimas ir lemmatizavimas nereikalauja daug išteklių, todėl atsako laikas (latencija), atliekant juos iš NLP Cloud API, yra labai mažas. Galite tai atlikti 15 skirtingų kalbų.
Išsamesnės informacijos rasite mūsų dokumentuose apie žymėjimą ir lemmatizavimą čia.