John Doe est développeur web chez Google.
NER signifie Named Entity Recognition (reconnaissance des entités nommées). Il s'agit d'une tâche secondaire qui consiste à identifier et à classer les entités nommées dans un texte dans des catégories prédéfinies telles que les noms de personnes, d'organisations, de lieux, les expressions temporelles, les quantités, les valeurs monétaires, les pourcentages, etc.
Les modèles génératifs tels que ChatGPT, GPT-3.5, GPT-4, LLaMA 3, Yi 34B, ou Mixtral 8x7B, sont très performants en matière d'extraction d'entités.
Le NER est crucial pour de nombreuses applications NLP telles que la réponse aux questions, le résumé de texte et la traduction automatique, car il fournit des informations détaillées sur les éléments clés d'un texte, permettant une compréhension et un traitement plus approfondis. Par exemple, le fait de savoir que "Paris" fait référence à un lieu dans un texte donné peut influencer de manière significative l'interprétation de ce texte et la réponse générée par un système de TAL.
Supposons que vous ayez la phrase suivante :
John Doe est développeur web chez Google.
Vous aimeriez détecter automatiquement que "John Doe" est un nom, que "développeur web" est un titre de poste et que "Google" est une entreprise. C'est exactement ce que NER va faire.
Le monde est rempli de données non structurées, en particulier le web. Pouvoir en extraire des informations structurées peut donner accès à un grand nombre d'informations précieuses. Voici quelques exemples.
Lorsque vous traitez un grand nombre de demandes de clients (support, ventes, ...), il est certainement utile d'appliquer le NER afin de trier automatiquement ces demandes entrantes. Par exemple, vous pouvez extraire automatiquement le type de produit mentionné dans la demande et l'acheminer vers le bon service en conséquence.
L'extraction et la consolidation des données financières peuvent être longues et fastidieuses. NER peut certainement stimuler votre productivité en vous aidant à extraire les bonnes données en une seconde.
Les services RH ont parfois du mal à lire toutes ces applications. Il peut être intéressant pour eux de mettre automatiquement en évidence les entités intéressantes telles que les noms d'entreprises, les compétences,... afin de gagner du temps.
De nombreux prospects B2B peuvent être trouvés sur des sites web publics ou des brochures d'entreprises, mais les extraire manuellement peut parfois s'avérer fastidieux. Grâce au NER, vous pouvez extraire automatiquement une personne, son titre de poste et son entreprise, s'ils existent.
NLP Cloud propose une API d'extraction d'entités qui permet d'effectuer une reconnaissance d'entités nommées, basée sur spaCy, Ginza, ou des modèles d'IA génératifs plus avancés équivalents à GPT-4, GPT-3.5, ou ChatGPT, comme LLaMA 3, Dolphin, Yi 34B, Mixtral 8x7B, et bien d'autres encore. Pour l'extraction avancée d'entités sur des documents spécifiques, nous vous recommandons d'affiner vos propres modèles génératifs pour le NER sur NLP Cloud.
Pour plus de détails, voir notre documentation sur l'extraction d'entités ici. Pour une utilisation avancée, voir le point de terminaison de l'API de génération de texte ici. Et tester facilement l'extraction d'entités sur notre terrain de jeu.
Tester le NER localement est une chose, mais l'utiliser de manière fiable en production en est une autre. Avec NLP Cloud, vous pouvez faire les deux !