Tokenisointi tarkoittaa tekstin jakamista pienemmiksi kokonaisuuksiksi, joita kutsutaan tunnuksiksi. Tokenit ovat eri asioita riippuen käyttämästäsi tokenisointityypistä. Merkki voi olla joko sana, merkki tai alasana (esimerkiksi englannin sanassa "higher", on 2 alasanaa: "high" ja "er"). Myös välimerkit, kuten "!", "." ja ";", voivat olla merkkejä.
Tokenisointi on perustavanlaatuinen vaihe jokaisessa luonnollisen kielen käsittelyssä. Koska kielten rakenteet ovat erilaisia, tokenisointi on erilainen jokaisessa kielessä.
Lemmatisoinnissa on kyse sanan perusmuodon poimimisesta (tyypillisesti sellaista työtä, joka löytyy sanakirjasta). Esimerkiksi sanan "omena" lemma olisi edelleen "omena", mutta sanan "on" lemma olisi "olla".
Lemmatisointi, kuten tokenisointi, on perustavanlaatuinen vaihe jokaisessa luonnollisen kielen käsittelyssä. Koska kielen rakenteet ovat erilaisia, lemmatisointi on erilainen jokaisessa kielessä.

Tokenisointia ja lemmatisointia ei yleensä käytetä yksinään, vaan ensimmäisenä vaiheena luonnollisen kielen käsittelyprosessissa. Tokenisointi on usein kallis operaatio, joka voi vaikuttaa merkittävästi luonnollisen kielen käsittelymallin suorituskykyyn, joten tokenisoijan valinta on tärkeää.
NLP Cloud tarjoaa tokenisointi- ja lemmatisointirajapinnan, jonka avulla voit suorittaa tokenisointia ja lemmatisointia suoraan laatikosta spaCy:n ja GiNZA:n pohjalta erinomaisin suorituskyvyin. Tokenisointi ja lemmatisointi eivät ole kovin resurssi-intensiivisiä, joten vasteaika (latenssi), kun niitä suoritetaan NLP Cloudin API:sta, on hyvin pieni. Voit tehdä sen 15 eri kielellä.
Lisätietoja on dokumentaatiossamme tokenisoinnista ja lemmatisoinnista. täällä.