Tokenizācija ir teksta sadalīšana mazākās vienībās, ko sauc par žetoniem. Atkarībā no izmantotā tokenizatora veida žetoni ir dažādas lietas. Žetons var būt vārds, rakstzīme vai apakšvārds (piemēram, angļu valodā vārds "higher", ir 2 apakšsvārdi: "high" un "er"). Arī tādi interpunkcijas zīmes kā "!", "." un ";" var būt žetoni.
Tokenizācija ir fundamentāls solis katrā dabiskās valodas apstrādes operācijā. Ņemot vērā dažādās pastāvošās valodu struktūras, katrā valodā tokenizācija ir atšķirīga.
Lemmatizācija ir saistīta ar vārda pamatformas iegūšanu (parasti tas ir darbs, ko var atrast vārdnīcā). Piemēram, vārda "ābols" lema joprojām būtu "ābols", bet vārda "ir" lema būtu "būt".
Lemmatizācija, tāpat kā tokenizācija, ir fundamentāls solis katrā dabiskās valodas apstrādes operācijā. Ņemot vērā dažādās pastāvošās valodas struktūras, katrā valodā lemmatizācija ir atšķirīga.

Parasti tokenizāciju un lemmatizāciju neizmantojat atsevišķi, bet gan kā pirmo soli dabiskās valodas apstrādes cauruļvadā. Tokenizācija bieži vien ir dārga operācija, kas var būtiski ietekmēt dabiskās valodas apstrādes modeļa veiktspēju, tāpēc ir svarīgi izvēlēties tokenizatoru.
NLP Cloud piedāvā tokenizācijas un lematizācijas API, kas ļauj veikt tokenizāciju un lematizāciju, pamatojoties uz spaCy un GiNZA, ar lielisku veiktspēju. Tokenizācija un lemmatizācija nav resursu ietilpīgas, tāpēc atbildes laiks (latence), veicot tās no NLP Cloud API, ir ļoti mazs. To var veikt 15 dažādās valodās.
Lai iegūtu sīkāku informāciju, skatiet mūsu dokumentāciju par tokenizāciju un lemmatizāciju. šeit.