Recunoașterea automată a vorbirii (Speech-To-Text) Whisper API

Ce este recunoașterea automată a vorbirii (Speech-To-Text)?

Recunoașterea automată a vorbirii (cunoscută și sub numele de speech-to-text) constă în extragerea de text dintr-un fișier audio. Acesta este adesea un prim pas important în cadrul unui proces de inteligență artificială. În ultimii ani s-au făcut progrese mari, iar acum este posibil să se extragă text dintr-un fișier audio sau video cu o acuratețe deosebită.

De exemplu, iată un capitol dintr-o carte audio LibriVox (The Metal Giants, de Edmond Hamilton), stocată pe Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Recunoașterea automată a vorbirii

După ce efectuăm recunoașterea automată a vorbirii pe acest fișier în NLP Cloud, obținem următorul text:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Aceasta este o extracție de text foarte bună, nu numai pentru că nu există nicio greșeală de ortografie, ci și pentru că punctuația a fost adăugată automat.

În plus, puteți obține, de asemenea, marcaje temporale la nivel de cuvânt, pentru a realiza subtitrarea.

De ce să folosiți funcția Speech-To-Text?

Calitatea conversiei de la voce la text s-a îmbunătățit dramatic în ultima vreme și a condus la multe aplicații interesante. Iată câteva exemple:

Asistență pentru clienți

Datorită recunoașterii automate a vorbirii, acum puteți analiza automat apelurile clienților și apoi extrage informații prețioase. De exemplu, puteți ști automat ce discuții de asistență au decurs bine și care nu, astfel încât să puteți acționa în consecință.

Analiza mesajelor vocale

Uneori este greu să adresăm toate aceste mesaje vocale în timp util. Dar puteți analiza automat fiecare mesaj primit și extrage intenția, îl puteți clasifica, puteți detecta urgența etc., astfel încât să vă puteți adapta cu ușurință răspunsul.

Rapoarte medicale

Este foarte frecvent ca medicii să înregistreze discuțiile cu pacienții lor sau să înregistreze un rezumat al discuției. În prezent, aceștia pot converti automat aceste rapoarte în text și apoi pot efectua mai multe tipuri de postprocesare, cum ar fi rezumarea conversației, extragerea entităților etc.

Videoclipuri Subtitrare

Videoclipurile sunt peste tot astăzi. Subtitrarea automată a videoclipurilor este o modalitate excelentă de a crește accesibilitatea și de a face conținutul videoclipului mai prietenos pentru SEO. Ca un al doilea pas, puteți traduce cu ușurință subtitrările pentru a face videoclipul disponibil în întreaga lume.

Recunoașterea automată a vorbirii cu OpenAI Whisper Large

Whisper Large este un model avansat de recunoaștere vocală AI lansat de OpenAI cu scopul de a îmbunătăți dramatic recunoașterea automată a vorbirii în 97 de limbi.

Acest model detectează automat limba din fișierul audio sau video de intrare și adaugă automat semne de punctuație la rezultat. De asemenea, poate extrage marcaje temporale la nivel de cuvânt, ceea ce este foarte util pentru subtitrare. Puteți găsi proiectul open-source Whisper aici. Acest model a fost pus la punct pe seturi de date populare precum Common Voice, Librispeech, VoxPopuli... și este cel mai avansat model multilingv de vorbire la text la momentul redactării acestui articol.

API Whisper Large pe NLP Cloud

NLP Cloud propune un API rapid de conversie a vorbirii în text, care vă permite să efectuați recunoașterea automată a vorbirii din start, pe baza OpenAI Whisper Large, la un preț accesibil.

Pentru mai multe detalii, consultați documentația noastră despre recunoașterea automată a vorbirii aici.

Testarea locală a conversiei de la voce la text este un lucru, dar utilizarea fiabilă a acesteia în producție este un alt lucru. Cu NLP Cloud le puteți face pe amândouă!

Încercați funcția de conversie a vorbirii în text Whisper
gratuit

Întrebări frecvente

Ce este recunoașterea automată a vorbirii?

Recunoașterea automată a vorbirii (ASR) este o tehnologie care permite calculatoarelor sau altor dispozitive să recunoască și să transcrie vorbirea umană în date textuale. Aceasta presupune conversia limbajului vorbit într-un format care poate fi citit de către mașină, care poate fi apoi utilizat pentru diverse aplicații, cum ar fi transcrierea din voce în text, comenzile activate prin voce și procesarea limbajului natural.

Ce este Whisper?

Whisper este un model avansat de ASR (speech-to-text) cu sursă deschisă, creat de OpenAI. Acesta este capabil să transcrie audio în 97 de limbi cu o acuratețe foarte bună.

Pot să încerc gratuit API-ul Whisper?

Da, la fel ca toate modelele din NLP Cloud, API-ul Whisper poate fi testat gratuit.

Pot utiliza API-ul Whisper pentru a transcrie audio în mai multe limbi?

Da, Whisper este capabil să transcrie audio în 97 de limbi.

Whisper adaugă automat semne de punctuație?

Pot utiliza Whisper pentru a transcrie audio și a traduce automat într-o altă limbă?

Nu. Va trebui să utilizați punctul final de traducere după ce ați extras sunetul: see our translation documentation here.

Whisper returnează marcajele de timp?

Suportă API-ul Whisper transcrierea în direct (token streaming)?

Nu, nu pentru moment.

Cum gestionează API-ul dumneavoastră AI confidențialitatea și securitatea datelor în timpul procesului de recunoaștere vocală?

NLP Cloud se concentrează pe confidențialitatea datelor prin proiectare: nu înregistrăm sau stocăm conținutul cererilor pe care le faceți pe API-ul nostru. NLP Cloud este conform atât cu HIPAA, cât și cu GDPR.

Încercați funcția de conversie a vorbirii în text Whisper
gratuit