La tokenizzazione consiste nel dividere un testo in entità più piccole, chiamate token. I token sono diversi a seconda del tipo di tokenizzatore utilizzato. Un token può essere una parola, un carattere o una sottoparola (per esempio, nella parola inglese "higher", ci sono 2 sottoparole: "high" e "er"). Anche la punteggiatura, come "!", "." e ";", può essere un token.
La tokenizzazione è una fase fondamentale di ogni operazione di elaborazione del linguaggio naturale. Date le varie strutture linguistiche esistenti, la tokenizzazione è diversa in ogni lingua.
La lemmatizzazione consiste nell'estrarre la forma di base di una parola (tipicamente il tipo di lavoro che si può trovare in un dizionario). Ad esempio, il lemma di "mela" sarebbe ancora "mela", ma il lemma di "è" sarebbe "essere".
La lemmatizzazione, come la tokenizzazione, è una fase fondamentale di ogni operazione di elaborazione del linguaggio naturale. Date le varie strutture linguistiche esistenti, la lemmatizzazione è diversa in ogni lingua.
Di solito non si usano la tokenizzazione e la lemmatizzazione da sole, ma come primo passo di una pipeline di elaborazione del linguaggio naturale. La tokenizzazione è spesso un'operazione costosa che può avere un impatto significativo sulle prestazioni di un modello di elaborazione del linguaggio naturale, quindi la scelta del tokenizzatore è importante.
NLP Cloud propone un'API di tokenizzazione e lemmatizzazione che consente di eseguire tokenizzazione e lemmatizzazione in modo immediato, sulla base di spaCy e GiNZA, con prestazioni eccellenti. La tokenizzazione e la lemmatizzazione non richiedono molte risorse, quindi il tempo di risposta (latenza), quando vengono eseguite dall'API di NLP Cloud, è molto basso. È possibile eseguirle in 15 lingue diverse.
Per maggiori dettagli, consultare la documentazione sulla tokenizzazione e sulla lemmatizzazione. qui.