正在为人工智能或全栈开发而苦恼?我们的专家将为您提供指导:量身定制的建议、技术整合等。联系我们 [email protected].

自动语音识别(语音到文本) Whisper API

什么是自动语音识别(语音转文字)?

自动语音识别(也称为语音到文本)是指从音频文件中提取文本。这通常是人工智能管道中重要的第一步。在过去的几年中,语音识别技术取得了长足的进步,现在已经可以非常准确地从音频或视频文件中提取文本。

例如,这是 LibriVox 有声读物(《金属巨人》,作者埃德蒙德-汉密尔顿)中的一章,存储在 Archive.org 上: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

自动语音识别

在 NLP Cloud 上对该文件进行自动语音识别后,我们会得到以下文本:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

这是一个非常好的文本提取,不仅因为没有拼写错误,还因为自动添加了标点符号。

此外,您还可以获取单词级别的时间戳,以便进行字幕制作。

为什么使用语音转文字?

语音转文字的质量最近有了显著提高,并产生了许多有趣的应用。下面是一些例子:

客户支持

借助自动语音识别功能,您现在可以自动分析客户来电,然后提取宝贵的信息。例如,您可以自动知道哪些支持讨论进行得顺利,哪些不顺利,以便采取相应行动。

声乐信息分析

有时很难及时处理所有这些声音信息。但是,您可以自动分析每一条接收到的信息,并提取其意图、对其进行分类、检测其紧迫性等,这样您就可以轻松地调整您的响应。

医疗报告

医生通常会记录与病人的讨论,或记录讨论摘要。现在,他们可以自动将这些报告转换成文本,然后进行对话摘要、实体提取等多种后处理。

视频字幕

如今,视频无处不在。自动为视频添加字幕是提高可访问性和使视频内容更利于搜索引擎优化的好方法。第二步,您可以轻松翻译字幕,使视频在全球范围内都能播放。

使用 OpenAI Whisper Large 进行自动语音识别

Whisper Large 是 OpenAI 发布的高级语音识别人工智能模型,可显著提高 97 种语言的自动语音识别能力。

该模型可从输入的音频或视频文件中自动检测语言,并自动为结果添加标点符号。它还能提取单词级的时间戳,这对字幕制作非常有用。 您可以在这里找到 Whisper 开源项目。 该模型在 Common Voice、Librispeech、VoxPopuli 等流行数据集上进行了微调,是目前最先进的多语言语音到文本模型。

NLP 云上的 Whisper Large API

NLP Cloud 基于 OpenAI Whisper Large 提出了一个快速语音到文本应用程序接口,使您能够以合理的价格进行开箱即用的自动语音识别。

更多详情,请参阅我们的自动语音识别文档 这里.

在本地测试语音转文本是一回事,但在生产中可靠地使用它又是另一回事。有了 NLP Cloud,您就可以同时做到这两点!

常见问题

什么是自动语音识别?

自动语音识别(ASR)是一种使计算机或其他设备能够识别人类语音并将其转录为文本数据的技术。它包括将口语转换成机器可读的格式,然后可用于各种应用,如语音到文本的转录、声控命令和自然语言处理。

什么是耳语?

Whisper 是一种先进的开源 ASR(语音到文本)模型,由 OpenAI 创建。它能准确转录 97 种语言的音频。

我可以免费试用 Whisper API 吗?

是的,与 NLP Cloud 上的所有模型一样,Whisper API 可以免费测试。

我可以使用 Whisper API 转录多种语言的音频吗?

是的,Whisper 可以转录 97 种语言的音频。

Whisper 是否会自动添加标点符号?

我可以使用 Whisper 转录音频并自动翻译成另一种语言吗?

提取音频后,您需要使用我们的翻译端点: see our translation documentation here.

Whisper 会返回时间戳吗?

Whisper API 是否支持实时转录(标记流)?

不,暂时没有

在语音识别过程中,您的人工智能应用程序接口是如何处理数据隐私和安全问题的?

NLP Cloud在设计上注重数据隐私:我们不会记录或存储您对我们API所做请求的内容。NLP Cloud符合HIPAA和GDPR标准。