Tokeniseerimine tähendab teksti jagamist väiksemateks üksusteks, mida nimetatakse märkideks. Tokenid on erinevad asjad sõltuvalt kasutatava tokeniseerija tüübist. Token võib olla kas sõna, tähemärk või alamsõna (näiteks ingliskeelses sõnas "higher", on 2 allsõna: "high" ja "er"). Ka kirjavahemärgid nagu "!", "." ja ";" võivad olla märgendid.
Tokeniseerimine on iga loomuliku keele töötlemise operatsiooni põhiline samm. Arvestades erinevaid olemasolevaid keelestruktuure, on tokeniseerimine igas keeles erinev.
Lemmatiseerimine on sõna põhivormi väljavõtmine (tavaliselt selline töö, mida võib leida sõnaraamatust). Näiteks "õuna" lemma oleks endiselt "õun", kuid "on" lemma oleks "olla".
Lemmatiseerimine, nagu ka tokeniseerimine, on iga loomuliku keele töötlemise operatsiooni põhiline samm. Arvestades erinevaid olemasolevaid keelestruktuure, on lemmatiseerimine igas keeles erinev.

Tavaliselt ei kasutata tokeniseerimist ja lemmatiseerimist üksi, vaid esimese sammuna loomuliku keeletöötluse torujuhtmes. Tokeniseerimine on sageli kulukas toiming, mis võib märkimisväärselt mõjutada loomuliku keele töötlemise mudeli jõudlust, seega on tokeniseerija valik oluline.
NLP Cloud pakub välja tokeniseerimise ja lemmatiseerimise API, mis võimaldab teil teostada tokeniseerimist ja lemmatiseerimist out of the box, mis põhineb spaCy-l ja GiNZA-l ja on suurepärase tulemuslikkusega. Tokeniseerimine ja lemmatiseerimine ei ole väga ressursimahukad, seega on vastamisaeg (latentsus) nende teostamisel NLP Cloud API-st väga väike. Seda saab teha 15 erinevas keeles.
Lisateavet leiate meie dokumentatsioonist tokeniseerimise ja lemmatiseerimise kohta. siin.