トークン化とは、テキストをトークンと呼ばれる小さなエンティティに分割することです。トークンは、使用するトークナイザーの種類によって異なります。トークンには、単語、文字、またはサブワードがあります(たとえば、英単語の "higher", には2つのサブワードがある: "high" そして "er"). !"、"."、"; "などの句読点もトークンになり得る。
トークン化は、あらゆる自然言語処理の基本的なステップである。様々な言語構造が存在するため、トークン化は言語ごとに異なります。
レンマ化とは、単語の基本形を抽出することである(一般的には辞書に載っているような作業)。例えば、"apple "のレンマは "apple "のままだが、"is "のレンマは "be "となる。
レンマタイゼーションは、トークン化と同様、自然言語処理における基本的なステップである。様々な言語構造が存在するため、レンマタイゼーションは言語ごとに異なる。
通常、トークン化とレマタイゼーションは単独で使用されることはなく、自然言語処理パイプラインの最初のステップとして使用されます。トークン化は、多くの場合、自然言語処理モデルのパフォーマンスに大きく影響するコストのかかる操作であるため、トークナイザーの選択は重要です。
NLPクラウドは、spaCyとGiNZAに基づき、優れたパフォーマンスでトークン化とレマタイゼーションをすぐに実行できるトークン化とレマタイゼーションのAPIを提案します。トークン化とレムマタイゼーションはリソースをあまり消費しないため、NLPクラウドAPIから実行する際の応答時間(レイテンシ)は非常に低くなります。15種類の言語で実行できます。
詳細については、トークン化とレマタイゼーションに関するドキュメントを参照してください。 これ.