Tokenizarea constă în divizarea unui text în entități mai mici, numite token-uri. Tokenurile sunt lucruri diferite în funcție de tipul de tokenizator pe care îl utilizați. Un token poate fi fie un cuvânt, fie un caracter, fie un subcuvânt (de exemplu, în cuvântul englezesc "higher", există 2 subcuvinte: "high" și "er"). Punctuația, cum ar fi "!", "." și ";", poate fi, de asemenea, un token.
Tokenizarea este un pas fundamental în orice operațiune de procesare a limbajului natural. Având în vedere diferitele structuri lingvistice existente, tokenizarea este diferită în fiecare limbă.
Lematizarea constă în extragerea formei de bază a unui cuvânt (de obicei, tipul de lucru pe care îl puteți găsi într-un dicționar). De exemplu, lemma lui "apple" ar fi tot "apple", dar lemma lui "is" ar fi "be".
Lematizarea, ca și tokenizarea, este un pas fundamental în orice operațiune de procesare a limbajului natural. Având în vedere diferitele structuri lingvistice existente, lematizarea este diferită în fiecare limbă.

De obicei, nu se utilizează tokenizarea și lematizarea singure, ci ca un prim pas în cadrul unui proces de prelucrare a limbajului natural. Tokenizarea este adesea o operațiune costisitoare care poate avea un impact semnificativ asupra performanței unui model de procesare a limbajului natural, astfel încât alegerea tokenizatorului este importantă.
NLP Cloud propune un API de tokenizare și lematizare care vă permite să efectuați tokenizarea și lematizarea out of the box, pe baza spaCy și GiNZA, cu performanțe excelente. Tokenizarea și lematizarea nu sunt foarte mari consumatoare de resurse, astfel încât timpul de răspuns (latența), atunci când le efectuați din API-ul NLP Cloud, este foarte scăzut. Puteți să le faceți în 15 limbi diferite.
Pentru mai multe detalii, consultați documentația noastră despre tokenizare și lematizare aici.