Riconoscimento vocale automatico (parlato-testo) Whisper API

Che cos'è il riconoscimento vocale automatico (Speech-To-Text)?

Il riconoscimento automatico del parlato (noto anche come speech-to-text) consiste nell'estrarre il testo da un file audio. Si tratta spesso di un primo passo importante in una pipeline di IA. Negli ultimi anni sono stati fatti grandi progressi e oggi è possibile estrarre il testo da un file audio o video con grande precisione.

Per esempio, ecco un capitolo di un audiolibro LibriVox (The Metal Giants, di Edmond Hamilton), archiviato su Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Riconoscimento vocale automatico

Una volta eseguito il riconoscimento vocale automatico su questo file su NLP Cloud, otteniamo il seguente testo:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Si tratta di un'ottima estrazione di testo, non solo perché non ci sono errori di ortografia, ma anche perché la punteggiatura è stata aggiunta automaticamente.

Inoltre, è possibile ottenere i timestamp a livello di parola, per eseguire la sottotitolazione.

Perché utilizzare la sintesi vocale?

La qualità della sintesi vocale è recentemente migliorata in modo significativo e ha portato a molte applicazioni interessanti. Ecco alcuni esempi:

Assistenza clienti

Grazie al riconoscimento vocale automatico, ora è possibile analizzare automaticamente le chiamate dei clienti ed estrarre informazioni preziose. Ad esempio, è possibile sapere automaticamente quali discussioni di assistenza sono andate bene e quali no, in modo da poter agire di conseguenza.

Analisi dei messaggi vocali

A volte è difficile rispondere a tutti questi messaggi vocali in modo tempestivo. Ma è possibile analizzare automaticamente ogni messaggio in arrivo ed estrarne l'intento, categorizzarlo, rilevarne l'urgenza e così via, in modo da poter adattare facilmente la propria risposta.

Rapporti medici

È molto comune che i medici registrino i colloqui con i loro pazienti, o che registrino un riassunto della discussione. Oggi è possibile convertire automaticamente questi resoconti in testo e quindi eseguire diversi tipi di post-elaborazione, come il riassunto della conversazione, l'estrazione di entità e così via.

Sottotitolazione di video

Oggi i video sono ovunque. La sottotitolazione automatica dei video è un ottimo modo per aumentare l'accessibilità e rendere il contenuto del video più SEO friendly. In un secondo momento, è possibile tradurre facilmente i sottotitoli per rendere il video disponibile in tutto il mondo.

Riconoscimento vocale automatico con OpenAI Whisper Large

Whisper Large è un modello avanzato di intelligenza artificiale per il riconoscimento vocale rilasciato da OpenAI per migliorare drasticamente il riconoscimento automatico del parlato in 97 lingue.

Questo modello rileva automaticamente la lingua dal file audio o video in ingresso e aggiunge automaticamente la punteggiatura al risultato. Può anche estrarre i timestamp a livello di parola, il che è molto utile per la sottotitolazione. Il progetto open-source Whisper è disponibile qui. Questo modello è stato messo a punto su dataset popolari come Common Voice, Librispeech, VoxPopuli... ed è il modello multilingue speech-to-text più avanzato al momento in cui scriviamo.

API Whisper Large su NLP Cloud

NLP Cloud propone un'API speech-to-text veloce che consente di eseguire il riconoscimento vocale automatico, basato su OpenAI Whisper Large, a un prezzo accessibile.

Per maggiori dettagli, consultare la documentazione sul riconoscimento vocale automatico. qui.

Testare il parlato in locale è una cosa, ma utilizzarlo in modo affidabile in produzione è un'altra cosa. Con NLP Cloud potete fare entrambe le cose!

Domande frequenti

Che cos'è il riconoscimento vocale automatico?

Il riconoscimento vocale automatico (ASR) è una tecnologia che consente ai computer o ad altri dispositivi di riconoscere e trascrivere il parlato umano in dati testuali. Si tratta di convertire il linguaggio parlato in un formato leggibile dalla macchina, che può essere utilizzato per varie applicazioni come la trascrizione da voce a testo, i comandi ad attivazione vocale e l'elaborazione del linguaggio naturale.

Che cos'è Whisper?

Whisper è un avanzato modello ASR (speech-to-text) open-source creato da OpenAI. È in grado di trascrivere audio in 97 lingue con un'ottima precisione.

Posso provare l'API Whisper gratuitamente?

Sì, come tutti i modelli di NLP Cloud, l'API di Whisper può essere testata gratuitamente.

È possibile utilizzare l'API Whisper per trascrivere l'audio in diverse lingue?

Sì, Whisper è in grado di trascrivere l'audio in 97 lingue.

Whisper aggiunge automaticamente la punteggiatura?

Posso usare Whisper per trascrivere l'audio e tradurlo automaticamente in un'altra lingua?

No. È necessario utilizzare il nostro endpoint di traduzione una volta estratto l'audio: see our translation documentation here.

Whisper restituisce i timestamp?

L'API Whisper supporta la trascrizione dal vivo (token streaming)?

No, non per il momento

In che modo la vostra API AI gestisce la privacy e la sicurezza dei dati durante il processo di riconoscimento vocale?

NLP Cloud si concentra sulla privacy dei dati: non registriamo né memorizziamo il contenuto delle richieste effettuate dall'utente sulla nostra API. NLP Cloud è conforme alle norme HIPAA e GDPR.