自動音声認識(音声テキスト)ウィスパーAPI

自動音声認識(SoT)とは?

自動音声認識(Speech-to-Textとも呼ばれる)とは、音声ファイルからテキストを抽出することである。これはしばしば、AIパイプラインの重要な第一歩となる。ここ数年で大きな進歩があり、音声ファイルやビデオファイルからテキストを高い精度で抽出できるようになりました。

例えば、これはArchive.orgに保存されているLibriVoxオーディオブック(エドモンド・ハミルトン著『The Metal Giants』)の一章である: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

自動音声認識

このファイルをNLPクラウド上で自動音声認識すると、次のようなテキストが得られる:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

スペルミスがないだけでなく、句読点も自動的に付加されている。

さらに、字幕を作成するために、単語レベルのタイムスタンプを取得することもできる。

生れてれてて

音声合成の品質は最近劇的に向上し、多くの興味深いアプリケーションにつながっている。以下はその例である:

カスタマーサポート

自動音声認識のおかげで、顧客からの電話を自動的に分析し、貴重な情報を抽出できるようになりました。例えば、どのサポート・ディスカッションがうまくいき、どのサポート・ディスカッションがうまくいかなかったかを自動的に知ることができ、それに応じて行動することができます。

ボーカル・メッセージ分析

このような声高なメッセージすべてにタイムリーに対応するのは、時に難しい。しかし、入ってきたメッセージを自動的に分析し、意図を抽出し、分類し、緊急度を検出することで、簡単に対応することができます。

メディカル・レポート

医師が患者との話し合いを記録したり、話し合いの要約を記録したりすることは非常に一般的である。現在では、これらのレポートを自動的にテキストに変換し、会話の要約やエンティティの抽出など、いくつかの種類の後処理を行うことができます。

ビデオ字幕

今日、動画はどこにでもあります。ー自動的なー動画字幕はーアクセシビリティをー向上させ、ー動画コンテンツをーコンテンツをーSEOーフレンドリーなー。ー第二段階としてーとしてー字幕をー簡単にー簡単にー簡単にー簡単にー世界的なー。

OpenAI Whisper Largeによる自動音声認識

Whisper Largeは、97言語の自動音声認識を飛躍的に向上させるためにOpenAIが発表した高度な音声認識AIモデルである。

このモデルは、入力されたオーディオまたはビデオファイルから言語を自動的に検出し、その結果に句読点を自動的に追加します。また、単語レベルのタイムスタンプを抽出することもでき、字幕作成に非常に便利です。 ウィスパーのオープンソース・プロジェクトはこちらでご覧いただけます。 このモデルは、Common Voice、Librispeech、VoxPopuli...のような一般的なデータセットで微調整されたもので、この記事を書いている時点では、最も先進的な多言語音声テキストモデルである。

NLPクラウド上のWhisper Large API

NLPクラウドは、OpenAI Whisper Largeをベースにした自動音声認識を手頃な価格ですぐに実行できる高速な音声テキストAPIを提案します。

詳しくは、自動音声認識に関するドキュメントをご覧ください。 これ.

音声合成をローカルでテストすることと、本番で確実に使用することは別のことです。NLP Cloud を使えば、その両方を行うことができます!

よくある質問

自動音声認識とは?

自動音声認識(ASR)は、コンピュータやその他のデバイスが人間の音声を認識し、テキストデータに書き起こすことを可能にする技術である。話し言葉を機械が読み取り可能な形式に変換し、音声からテキストへの書き起こし、音声によるコマンドの実行、自然言語処理など、さまざまな用途に使用することができます。

ウィスパーとは?

Whisperは、OpenAIによって作成された先進的なオープンソースのASR(音声テキスト化)モデルです。97言語の音声を非常に高い精度で書き起こすことができる。

Whisper APIを無料で試すことはできますか?

はい、NLPクラウドの他のモデルと同様、Whisper APIは無料でテストできます。

Whisper API を使って、複数の言語で音声を書き起こすことはできますか?

はい、Whisperは97ヶ国語の音声を書き起こせます。

ウィスパーは自動的に句読点を追加しますか?

はい

Whisperを使って音声を書き起こし、自動的に他の言語に翻訳することはできますか?

オーディオが抽出されたら、当社の翻訳エンドポイントを使用する必要があります: see our translation documentation here.

Whisperはタイムスタンプを返しますか?

はい

Whisper APIはライブトランススクリプション(トークンストリーミング)をサポートしていますか?

いや、今のところは

御社のAI APIは、音声認識プロセスにおけるデータのプライバシーとセキュリティをどのように扱っていますか?

NLPクラウドは設計上データプライバシーに重点を置いています。NLPクラウドはAPIでお客様が行ったリクエストの内容を記録したり保存したりしません。NLPクラウドはHIPAAとGDPRの両方に準拠しています。