Tokenizacija pomeni razdelitev besedila na manjše enote, imenovane žetoni. Tokeni so različne stvari, odvisno od vrste tokenizerja, ki ga uporabljate. Žeton je lahko beseda, znak ali podredna beseda (na primer v angleški besedi "higher", obstajata 2 podgesla: "high" in . "er"). Tudi ločila, kot so "!", "." in ";", so lahko žetoni.
Tokenizacija je temeljni korak pri vsaki obdelavi naravnega jezika. Zaradi različnih obstoječih jezikovnih struktur je tokenizacija v vsakem jeziku drugačna.
Pri lematizaciji gre za pridobivanje osnovne oblike besede (običajno gre za delo, ki ga lahko najdete v slovarju). Na primer, lemma besede "jabolko" bi bila še vedno "jabolko", lemma besede "je" pa bi bila "biti".
Lemmatizacija je tako kot tokenizacija temeljni korak pri vsaki obdelavi naravnega jezika. Zaradi različnih obstoječih jezikovnih struktur je lematizacija v vsakem jeziku drugačna.

Ponavadi tokenizacije in lemmatizacije ne uporabljate samostojno, temveč kot prvi korak v cevovodu za obdelavo naravnega jezika. Tokenizacija je pogosto draga operacija, ki lahko bistveno vpliva na zmogljivost modela obdelave naravnega jezika, zato je izbira tokenizatorja pomembna.
NLP Cloud predlaga API za tokenizacijo in lematizacijo, ki omogoča takojšnje izvajanje tokenizacije in lematizacije na podlagi spaCy in GiNZA z odličnimi zmogljivostmi. Tokenizacija in lemmatizacija ne zahtevata veliko virov, zato je odzivni čas (latenca) pri njunem izvajanju iz API-ja NLP Cloud zelo majhen. Izvajate ju lahko v 15 različnih jezikih.
Za več podrobnosti glejte našo dokumentacijo o tokenizaciji in lemmatizaciji. tukaj.