Tokenizácia spočíva v rozdelení textu na menšie entity nazývané tokeny. Tokeny sú rôzne veci v závislosti od typu tokenizéra, ktorý používate. Token môže byť buď slovo, znak, alebo podslovo (napríklad v anglickom slove "higher", existujú 2 podheslá: "high" a "er"). Interpunkčné znamienka ako "!", "." a ";" môžu byť tiež tokeny.
Tokenizácia je základným krokom pri každej operácii spracovania prirodzeného jazyka. Vzhľadom na rôzne existujúce jazykové štruktúry je tokenizácia v každom jazyku odlišná.
Lemmatizácia spočíva v extrakcii základného tvaru slova (typicky ide o prácu, ktorú môžete nájsť v slovníku). Napríklad lema slova "apple" by bola stále "apple", ale lema slova "is" by bola "be".
Lemmatizácia, podobne ako tokenizácia, je základným krokom pri každej operácii spracovania prirodzeného jazyka. Vzhľadom na rôzne existujúce jazykové štruktúry je lematizácia v každom jazyku iná.

Tokenizáciu a lematizáciu zvyčajne nepoužívate samostatne, ale ako prvý krok v rámci procesu spracovania prirodzeného jazyka. Tokenizácia je často nákladná operácia, ktorá môže výrazne ovplyvniť výkon modelu spracovania prirodzeného jazyka, preto je výber tokenizátora dôležitý.
NLP Cloud ponúka API na tokenizáciu a lematizáciu, ktoré vám umožní vykonávať tokenizáciu a lematizáciu priamo z krabice, na základe spaCy a GiNZA, s vynikajúcim výkonom. Tokenizácia a lematizácia nie sú veľmi náročné na zdroje, takže čas odozvy (latencia) pri ich vykonávaní z API služby NLP Cloud je veľmi nízky. Môžete ich vykonávať v 15 rôznych jazykoch.
Ďalšie podrobnosti nájdete v našej dokumentácii o tokenizácii a lematizácii tu.