Tokenizace spočívá v rozdělení textu na menší celky nazývané tokeny. Tokeny jsou různé věci v závislosti na typu tokenizéru, který používáte. Tokenem může být buď slovo, znak, nebo podslovo (například v anglickém slově "higher", existují 2 podhesla: "high" a "er"). Interpunkční znaménka jako "!", "." a ";" mohou být také tokeny.
Tokenizace je základním krokem každé operace zpracování přirozeného jazyka. Vzhledem k různým existujícím jazykovým strukturám je tokenizace v každém jazyce jiná.
Lemmatizace spočívá v extrakci základního tvaru slova (typicky se jedná o práci, kterou můžete najít ve slovníku). Například lemma slova "jablko" by stále bylo "jablko", ale lemma slova "je" by bylo "být".
Lemmatizace, stejně jako tokenizace, je základním krokem každé operace zpracování přirozeného jazyka. Vzhledem k různým existujícím jazykovým strukturám je lemmatizace v každém jazyce jiná.

Tokenizaci a lemmatizaci obvykle nepoužíváte samostatně, ale jako první krok v procesu zpracování přirozeného jazyka. Tokenizace je často nákladná operace, která může výrazně ovlivnit výkon modelu zpracování přirozeného jazyka, proto je volba tokenizátoru důležitá.
NLP Cloud nabízí rozhraní API pro tokenizaci a lemmatizaci, které umožňuje provádět tokenizaci a lemmatizaci ihned po vybalení z krabice na základě spaCy a GiNZA s vynikajícími výsledky. Tokenizace a lemmatizace nejsou příliš náročné na zdroje, takže doba odezvy (latence) při jejich provádění z rozhraní API služby NLP Cloud je velmi nízká. Můžete je provádět v 15 různých jazycích.
Další podrobnosti naleznete v naší dokumentaci o tokenizaci a lemmatizaci. zde.