A tokenizálás a szöveg kisebb egységekre, úgynevezett tokenekre bontása. A tokenek különböző dolgok attól függően, hogy milyen típusú tokenizálót használunk. Egy token lehet szó, karakter vagy alszó (például az angolban a "higher", 2 alszót tartalmaz: "high" és "er"). Az olyan írásjelek, mint a "!", "." és ";", szintén lehetnek tokenek.
A tokenizálás minden természetes nyelvfeldolgozási művelet alapvető lépése. Tekintettel a különböző létező nyelvi struktúrákra, a tokenizáció minden nyelvben más és más.
A lemmatizálás egy szó alapformájának kinyerése (tipikusan az a fajta munka, amit egy szótárban találsz). Például az "alma" lemmája továbbra is "alma" lenne, de az "is" lemmája "be" lenne.
A lemmatizálás, akárcsak a tokenizálás, alapvető lépés minden természetes nyelvfeldolgozási műveletben. Tekintettel a különböző létező nyelvi struktúrákra, a lemmatizálás minden nyelvben más és más.
A tokenizálást és lemmatizálást általában nem önmagában, hanem a természetes nyelvi feldolgozási csővezeték első lépéseként használja. A tokenizálás gyakran költséges művelet, amely jelentősen befolyásolhatja egy természetes nyelvfeldolgozó modell teljesítményét, ezért fontos a tokenizáló kiválasztása.
Az NLP Cloud egy tokenizáló és lemmatizáló API-t javasol, amely lehetővé teszi a tokenizálás és lemmatizálás out of the box elvégzését, spaCy és GiNZA alapján, kiváló teljesítménnyel. A tokenizálás és lemmatizálás nem túl erőforrás-igényes, így a válaszidő (késleltetés), ha az NLP Cloud API-ból hajtjuk végre őket, nagyon alacsony. Tizenöt különböző nyelven végezheti el.
További részletekért lásd a tokenizálásról és lemmatizálásról szóló dokumentációnkat. itt.