La tokenisation consiste à diviser un texte en entités plus petites appelées tokens. Les tokens sont différents selon le type de tokenizer que vous utilisez. Un token peut être un mot, un caractère ou un sous-mot (par exemple, dans le mot anglais "higher", il y a 2 sous-mots : "high" et "er"). Les signes de ponctuation tels que " !", "." et " ;" peuvent également être des jetons.
La tokenisation est une étape fondamentale de toute opération de traitement du langage naturel. Compte tenu des différentes structures linguistiques existantes, la tokenisation est différente dans chaque langue.
La lemmatisation consiste à extraire la forme de base d'un mot (typiquement le genre de travail que l'on trouve dans un dictionnaire). Par exemple, le lemme de "apple" serait toujours "apple" mais le lemme de "is" serait "be".
La lemmatisation, comme la tokenisation, est une étape fondamentale dans chaque opération de traitement du langage naturel. Compte tenu des différentes structures linguistiques existantes, la lemmatisation est différente dans chaque langue.
En général, la tokenisation et la lemmatisation ne sont pas utilisées seules, mais comme première étape d'un pipeline de traitement du langage naturel. La tokenisation est souvent une opération coûteuse qui peut avoir un impact significatif sur les performances d'un modèle de traitement du langage naturel, c'est pourquoi le choix du tokenizer est important.
NLP Cloud propose une API de tokénisation et de lemmatisation qui vous permet d'effectuer des opérations de tokénisation et de lemmatisation prêtes à l'emploi, basées sur spaCy et GiNZA, avec d'excellentes performances. La tokénisation et la lemmatisation ne sont pas très gourmandes en ressources, de sorte que le temps de réponse (latence), lorsqu'elles sont effectuées à partir de l'API de NLP Cloud, est très faible. Vous pouvez le faire dans 15 langues différentes.
Pour plus de détails, voir notre documentation sur la tokenisation et la lemmatisation. ici.