John Doe is a Go developer at Google.
品詞タグ設定器の目的は、テキスト内のすべてのトークンに品詞を割り当てることです。トークンは、ほとんどの場合、単語ですが、「,」「.」「;」などの句読点であることもあります。最終的に、品詞タグ設定機能は、トークンが名詞なのか、動詞なのか、形容詞なのかなどを判断します。言語構造は言語ごとに根本的に異なるため、優れた品詞タガーは各言語に適応しなければなりません。分析が難しい言語もあります。
次のような文章があるとしよう:
John Doe is a Go developer at Google.
品詞タガーは次のように返す:
自然言語処理(NLP)における係り受け解析は、文の文法構造を分析する技術である。文中の単語が互いにどのように関連しているかを理解するのに役立つ。これは、単語間の依存関係を特定することによって達成され、基本的には、単語が意味を付与するために互いにどのように依存しているかをマークする。
係り受け解析の核となる考え方は、係り受けツリー(またはグラフ)を構築することである。係り受けツリーのノードは文中の単語を表し、エッジはこれらの単語間の関係を表す。係り受けツリーの各辺には、主語、目的語、修飾語など、接続された単語間に存在する文法的関係のタイプがラベル付けされます。ツリーのルートは通常、主動詞または主節で、他の単語はそれに関連します。
自然言語処理に携わるデータ・サイエンティストは、研究活動において品詞タグ付けに関心を持つことが多い。また、依存関係(複合語、名詞主語、限定詞...)を自動的に解析する必要があることもよくあります。
係り受け構文解析は、機械翻訳、情報抽出、質問応答、感情分析などの様々な自然言語処理タスクにとって極めて重要である。係り受け解析は、文の構成要素(主語、述語、目的語など)がどのように接続されているかを理解することで、アルゴリズムが文の意味をより正確に把握することを可能にする。
NLP クラウドは、spaCy と GiNZA に基づいて、この操作をすぐに実行できる品詞タグ付けと係り受け解析 API を提案します。品詞タグ付けと係り受け解析はあまりリソースを必要としないので、NLPクラウドAPIから実行する場合の応答時間(レイテンシ)は非常に低くなります。15種類の言語で実行できます。
詳細については、品詞タグ付けと係り受け解析に関するドキュメントをご覧ください。 これ.