API Whisper de reconocimiento automático de voz (voz a texto)

¿Qué es el reconocimiento automático de voz?

El reconocimiento automático del habla (también conocido como "voz a texto") consiste en extraer texto de un archivo de audio. Suele ser un primer paso importante en un proceso de IA. En los últimos años se han hecho grandes progresos y ahora es posible extraer texto de un archivo de audio o vídeo con gran precisión.

Por ejemplo, aquí hay un capítulo de un audiolibro de LibriVox (The Metal Giants, de Edmond Hamilton), almacenado en Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Reconocimiento automático del habla

Una vez que realizamos el reconocimiento automático del habla sobre este archivo en NLP Cloud, obtenemos el siguiente texto:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Se trata de una extracción de texto muy buena, no sólo porque no hay faltas de ortografía, sino también porque se han añadido automáticamente los signos de puntuación.

Además, también puede obtener marcas de tiempo a nivel de palabra, con el fin de realizar el subtitulado.

¿Por qué utilizar la conversión de voz a texto?

La calidad de la conversión de voz a texto ha mejorado espectacularmente en los últimos tiempos y ha dado lugar a muchas aplicaciones interesantes. He aquí algunos ejemplos:

Atención al cliente

Gracias al reconocimiento automático del habla, ahora puede analizar automáticamente las llamadas de los clientes y extraer información valiosa. Por ejemplo, puede saber automáticamente qué conversaciones de asistencia fueron bien y cuáles no, para actuar en consecuencia.

Análisis de mensajes vocales

A veces es difícil atender todos estos mensajes vocales a tiempo. Pero puedes analizar automáticamente cada mensaje entrante y extraer la intención, categorizarlo, detectar la urgencia, etc. para poder adaptar fácilmente tu respuesta.

Informes médicos

Es muy habitual que los médicos graben las conversaciones con sus pacientes o registren un resumen de la conversación. Ahora pueden convertir automáticamente estos informes en texto y luego hacer varios tipos de posprocesamiento como resumen de la conversación, extracción de entidades, etc.

Subtitulación de vídeos

Hoy en día, los vídeos están en todas partes. La subtitulación automática de vídeos es una forma estupenda de aumentar la accesibilidad y de hacer que el contenido del vídeo sea más compatible con el SEO. Como segundo paso, puede traducir fácilmente los subtítulos para que el vídeo esté disponible en todo el mundo.

Reconocimiento automático del habla con OpenAI Whisper Large

Whisper Large es un modelo avanzado de IA de reconocimiento del habla lanzado por OpenAI con el fin de mejorar drásticamente el reconocimiento automático del habla en 97 idiomas.

Este modelo detecta automáticamente el idioma a partir del archivo de audio o vídeo de entrada y añade automáticamente puntuación al resultado. También puede extraer marcas de tiempo a nivel de palabra, lo que resulta muy útil para subtitular. Puede consultar el proyecto de código abierto Whisper aquí. Este modelo se ha perfeccionado en conjuntos de datos populares como Common Voice, Librispeech, VoxPopuli... y es el modelo multilingüe de voz a texto más avanzado en el momento de escribir este artículo.

Whisper Large API en NLP Cloud

NLP Cloud propone una rápida API de conversión de voz a texto que le permite realizar un reconocimiento automático del habla desde el primer momento, basado en OpenAI Whisper Large, a un precio asequible.

Para más detalles, consulte nuestra documentación sobre el reconocimiento automático del habla aquí.

Probar la conversión de voz a texto localmente es una cosa, pero utilizarla de forma fiable en producción es otra. Con NLP Cloud puede hacer ambas cosas.

Preguntas frecuentes

¿Qué es el reconocimiento automático del habla?

El reconocimiento automático del habla (ASR) es una tecnología que permite a los ordenadores u otros dispositivos reconocer y transcribir el habla humana en datos textuales. Consiste en convertir el lenguaje hablado en un formato legible por máquina, que luego puede utilizarse para diversas aplicaciones, como la transcripción de voz a texto, los comandos activados por voz y el procesamiento del lenguaje natural.

¿Qué es Whisper?

Whisper es un avanzado modelo ASR (voz a texto) de código abierto creado por OpenAI. Es capaz de transcribir audio en 97 idiomas con una precisión muy buena.

¿Puedo probar gratis la API Whisper?

Sí, como todos los modelos de NLP Cloud, la API Whisper puede probarse gratuitamente.

¿Puedo utilizar la API Whisper para transcribir audio en varios idiomas?

Sí, Whisper es capaz de transcribir audio en 97 idiomas.

¿Whisper añade automáticamente los signos de puntuación?

¿Puedo utilizar Whisper para transcribir audio y traducirlo automáticamente a otro idioma?

No. Tendrás que utilizar nuestro punto final de traducción una vez extraído el audio: see our translation documentation here.

¿Whisper devuelve las marcas de tiempo?

¿Es compatible la API Whisper con la transcripción en directo (token streaming)?

No, no por el momento

¿Cómo gestiona su API de IA la privacidad y seguridad de los datos durante el proceso de reconocimiento de voz?

NLP Cloud se centra en la privacidad de los datos por diseño: no registramos ni almacenamos el contenido de las solicitudes que realizas en nuestra API. NLP Cloud cumple tanto con la HIPAA como con el GDPR.