ジョン・ドウはグーグルのウェブ開発者である。
NERとはNamed Entity Recognitionの略。これは、テキスト中の名前付きエンティティを識別し、人名、組織名、場所、時間、数量、金額、パーセンテージなどのあらかじめ定義されたカテゴリーに分類するサブタスクである。
ChatGPT、GPT-3.5、GPT-4、LLaMA 3、Yi 34B、Mixtral 8x7Bのような生成モデルは、エンティティ抽出が得意です。
NERは質問応答、テキスト要約、機械翻訳など多くのNLPアプリケーションにとって極めて重要である。なぜならNERはテキストの重要な要素に関する詳細な情報を提供し、より深い理解と処理を可能にするからである。例えば、あるテキストで「パリ」がある場所を指していることを知れば、そのテキストの解釈やNLPシステムが生成するレスポンスに大きな影響を与えることができる。
次のような文章があるとしよう:
ジョン・ドウはグーグルのウェブ開発者である。
あなたは、"John Doe "が名前であり、"Web developer "が職種であり、"Google "が会社であることを自動的に検出したい。そして、これこそがNERがやろうとしていることなのだ。
世界は非構造化データ、特にウェブで溢れている。そこから構造化された情報を抽出することができれば、多くの貴重な情報にアクセスすることができる。いくつか例を挙げよう。
多くの顧客からのリクエスト(サポート、セールス、...)に対応する場合、これらのリクエストを自動的にソートするためにNERを適用することは間違いなく役立ちます。例えば、リクエストに記載された製品の種類を自動的に抽出し、それに応じて適切なサービスにルーティングすることができます。
財務データの抽出と統合には時間がかかり、面倒な作業です。NERは適切なデータを瞬時に抽出する手助けをすることで、生産性を確実に向上させることができます。
HRサービスは、これらのアプリケーションをすべて読むのに苦労することがある。時間を節約するために、会社名やスキルなどの興味深いエンティティを自動的にハイライトすることは、彼らにとって興味深いことかもしれない。
B2Bのリードの多くは公開されているウェブサイトや会社案内で見つけることができますが、手作業で抽出するのは時に手間がかかります。NERのおかげで、人物、役職、会社が存在すれば自動的に抽出することができます。
NLPクラウドは、spaCy、Ginza、またはGPT-4、GPT-3.5、ChatGPTに相当する、LLaMA 3、Dolphin、Yi 34B、Mixtral 8x7Bなどの高度な生成AIモデルに基づいて、すぐに名前付き固有表現認識を実行できる固有表現抽出APIを提案します。特定の文書に対する高度な固有表現抽出については、NLPクラウド上のNER用に独自の生成モデルを微調整することをお勧めします。
詳細については、エンティティ抽出に関するドキュメントを参照してください。 これ. 高度な使用法については、テキスト生成APIエンドポイント これ. エンティティ抽出のテストも簡単に 私たちの運動場で。
NERをローカルでテストすることと、本番で確実に使うことは別のことです。NLPクラウドではその両方ができます!