Reconhecimento automático da fala (fala para texto) API Whisper

O que é o reconhecimento automático da fala (Speech-To-Text)?

O reconhecimento automático de voz (também conhecido por conversão de voz em texto) consiste em extrair texto de um ficheiro áudio. Este é frequentemente um primeiro passo importante numa cadeia de IA. Nos últimos anos, foram feitos grandes progressos e é agora possível extrair texto de um ficheiro de áudio ou vídeo com grande precisão.

Por exemplo, aqui está um capítulo de um livro áudio da LibriVox (The Metal Giants, de Edmond Hamilton), armazenado no Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Reconhecimento automático da fala

Quando realizamos o reconhecimento automático da fala neste ficheiro no NLP Cloud, obtemos o seguinte texto:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Trata-se de uma extração de texto muito boa, não só porque não há erros ortográficos, mas também porque a pontuação foi acrescentada automaticamente.

Além disso, também pode obter carimbos de data/hora ao nível das palavras, para efetuar a legendagem.

Porquê utilizar a conversão de voz em texto?

A qualidade da conversão de voz em texto melhorou drasticamente nos últimos tempos e deu origem a muitas aplicações interessantes. Eis alguns exemplos:

Apoio ao cliente

Graças ao reconhecimento automático de voz, pode agora analisar automaticamente as chamadas dos clientes e extrair informações preciosas. Por exemplo, pode saber automaticamente quais as discussões de apoio que correram bem e quais as que não correram, para poder atuar em conformidade.

Análise de mensagens vocais

Por vezes, é difícil responder a todas estas mensagens vocais de forma atempada. Mas pode analisar automaticamente cada mensagem recebida e extrair a intenção, categorizá-la, detetar a urgência, etc., para poder adaptar facilmente a sua resposta.

Relatórios médicos

É muito comum os médicos gravarem as suas conversas com os seus doentes ou registarem um resumo da conversa. Agora podem converter automaticamente estes relatórios em texto e depois fazer vários tipos de pós-processamento, como resumo da conversa, extração de entidades, etc.

Legendagem de vídeos

Atualmente, os vídeos estão em todo o lado. A legendagem automática de vídeos é uma óptima forma de aumentar a acessibilidade e de tornar o conteúdo do vídeo mais amigo do SEO. Numa segunda fase, pode traduzir facilmente as suas legendas para tornar o vídeo disponível em todo o mundo.

Reconhecimento automático da fala com o OpenAI Whisper Large

O Whisper Large é um modelo avançado de IA de reconhecimento de voz lançado pela OpenAI com o objetivo de melhorar drasticamente o reconhecimento automático de voz em 97 línguas.

Este modelo detecta automaticamente o idioma a partir do ficheiro de áudio ou vídeo de entrada e adiciona automaticamente pontuação ao resultado. Também pode extrair marcas temporais ao nível das palavras, o que é muito útil para a legendagem. Pode encontrar o projeto de código aberto Whisper aqui. Este modelo foi aperfeiçoado em conjuntos de dados populares como o Common Voice, Librispeech, VoxPopuli... e é o modelo multilingue mais avançado de conversão de voz em texto até ao momento da redação deste documento.

API Whisper Large na NLP Cloud

O NLP Cloud propõe uma API rápida de conversão da fala em texto que permite efetuar o reconhecimento automático da fala de forma imediata, com base no OpenAI Whisper Large, a um preço acessível.

Para mais informações, consulte a nossa documentação sobre o reconhecimento automático de voz aqui.

Testar a conversão da fala em texto localmente é uma coisa, mas utilizá-la de forma fiável na produção é outra coisa. Com o NLP Cloud, pode fazer as duas coisas!

Experimente o Whisper de voz para texto
gratuitamente

Perguntas mais frequentes

O que é o reconhecimento automático de voz?

O reconhecimento automático do discurso (ASR) é uma tecnologia que permite aos computadores ou a outros dispositivos reconhecer e transcrever o discurso humano em dados textuais. Envolve a conversão da linguagem falada num formato legível por máquina, que pode depois ser utilizado para várias aplicações, como a transcrição de voz para texto, comandos activados por voz e processamento de linguagem natural.

O que é o Whisper?

O Whisper é um modelo ASR (speech-to-text) avançado de código aberto criado pela OpenAI. É capaz de transcrever áudio em 97 línguas com uma precisão muito boa.

Posso experimentar a API Whisper gratuitamente?

Sim, tal como todos os modelos do NLP Cloud, a API Whisper pode ser testada gratuitamente.

Posso utilizar a API Whisper para transcrever áudio em várias línguas?

Sim, o Whisper é capaz de transcrever áudio em 97 idiomas.

O Whisper adiciona pontuação automaticamente?

Sim

Posso utilizar o Whisper para transcrever áudio e traduzir automaticamente para outra língua?

Não. Terá de utilizar o nosso ponto final de tradução assim que o seu áudio for extraído: see our translation documentation here.

O Whisper devolve os carimbos de data/hora?

Sim

A API do Whisper suporta transcrição em direto (transmissão de token)?

Não, de momento não

Como é que a sua API de IA lida com a privacidade e a segurança dos dados durante o processo de reconhecimento de voz?

O NLP Cloud está focado na privacidade dos dados desde a conceção: não registamos nem armazenamos o conteúdo dos pedidos que faz na nossa API. O NLP Cloud está em conformidade com a HIPAA e o GDPR.

Experimente o Whisper de voz para texto
gratuitamente