Grūtības ar mākslīgā intelekta vai pilnas paketes izstrādi? Mūsu eksperti ir gatavi jums palīdzēt: individuāli pielāgoti padomi, tehniskā integrācija un daudz kas cits. Sazinieties ar [email protected].

Automātiskās runas atpazīšanas (runas teksta) lietojumprogramma Whisper API

Kas ir automātiskā runas atpazīšana (runas pārveidošana tekstā)?

Automātiskā runas atpazīšana (saukta arī par runas pārvēršanu tekstā) ir teksta iegūšana no audio faila. Bieži vien tas ir svarīgs pirmais solis mākslīgā intelekta cauruļvadā. Pēdējos gados ir panākts liels progress, un tagad ir iespējams iegūt tekstu no audio vai video faila ar lielu precizitāti.

Piemēram, šeit ir nodaļa no LibriVox audio grāmatas (Edmonda Hamiltona (Edmond Hamilton) grāmata The Metal Giants), kas glabājas vietnē Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automātiskā runas atpazīšana

Kad mēs veicam automātisku runas atpazīšanu šajā failā NLP mākoņa programmā, mēs iegūstam šādu tekstu:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Šis ir ļoti labs teksta izvilkums ne tikai tāpēc, ka tajā nav nevienas pareizrakstības kļūdas, bet arī tāpēc, ka automātiski tika pievienota interpunkcija.

Turklāt varat iegūt arī vārdu līmeņa laika zīmogus, lai veiktu subtitrēšanu.

Kāpēc izmantot runas pārveidošanu tekstā?

Nesen ir ievērojami uzlabojusies teksta runas kvalitāte, un tas ir radījis daudzus interesantus lietojumus. Lūk, daži piemēri:

Klientu atbalsts

Pateicoties automātiskajai runas atpazīšanai, tagad varat automātiski analizēt klientu zvanus un pēc tam iegūt vērtīgu informāciju. Piemēram, jūs varat automātiski uzzināt, kuras atbalsta diskusijas ir bijušas veiksmīgas un kuras ne, lai varētu attiecīgi rīkoties.

Vokālo ziņojumu analīze

Dažkārt ir grūti laikus pievērsties visiem šiem vokālajiem vēstījumiem. Taču jūs varat automātiski analizēt katru ienākošo ziņu un iegūt nodomu, klasificēt to, noteikt steidzamību utt., lai varētu viegli pielāgot savu reakciju.

Medicīniskie ziņojumi

Ārsti ļoti bieži pieraksta savas sarunas ar pacientiem vai ieraksta to kopsavilkumu. Tagad viņi var automātiski pārvērst šos ziņojumus tekstā un pēc tam veikt vairāku veidu pēcapstrādi, piemēram, sarunas kopsavilkumu, būtību ieguvi utt.

Video subtitrēšana

Videoklipi mūsdienās ir visur. Automātiska video subtitrēšana ir lielisks veids, kā palielināt pieejamību un padarīt video saturu SEO ērtāku. Otrajā posmā varat viegli tulkot subtitrus, lai video būtu pieejams visā pasaulē.

Automātiskā runas atpazīšana ar OpenAI Whisper Large

Whisper Large ir uzlabots runas atpazīšanas mākslīgā intelekta modelis, ko izlaidusi OpenAI, lai ievērojami uzlabotu automātisko runas atpazīšanu 97 valodās.

Šis modelis automātiski nosaka valodu no ievadītā audio vai video faila un automātiski pievieno interpunkciju. Tas var arī iegūt vārdu līmeņa laika zīmes, kas ir ļoti noderīgi subtitrēšanai. Atvērtā koda projektu Whisper var atrast šeit. Šis modelis tika uzlabots, izmantojot tādas populāras datu kopas kā Common Voice, Librispeech, VoxPopuli..., un šobrīd tas ir vismodernākais daudzvalodu runas teksta modelis.

Whisper Large API par NLP Cloud

NLP Cloud piedāvā ātru runas-teksta API, kas ļauj veikt automātisku runas atpazīšanu, pamatojoties uz OpenAI Whisper Large, par pieejamu cenu.

Lai iegūtu sīkāku informāciju, skatiet mūsu dokumentāciju par automātisko runas atpazīšanu. šeit.

Viena lieta ir vietēji testēt runu uz tekstu, bet pavisam cita lieta ir to droši izmantot ražošanā. Izmantojot NLP Cloud, jūs varat veikt abas šīs darbības!

Biežāk uzdotie jautājumi

Kas ir automātiskā runas atpazīšana?

Automātiskā runas atpazīšana (ASR) ir tehnoloģija, kas ļauj datoriem vai citām ierīcēm atpazīt un pārrakstīt cilvēka runu teksta datos. Tā ietver runātas valodas pārvēršanu mašīnlasāmā formātā, ko pēc tam var izmantot dažādās lietojumprogrammās, piemēram, balss teksta transkripcijā, ar balsi aktivizētu komandu un dabiskās valodas apstrādē.

Kas ir Whisper?

Whisper ir uzlabots atvērtā pirmkoda ASR (runas pārvēršanas tekstā) modelis, ko izveidojusi OpenAI. Tas spēj transkribēt audio 97 valodās ar ļoti labu precizitāti.

Vai es varu izmēģināt Whisper API bez maksas?

Jā, tāpat kā visus NLP mākoņa modeļus, arī Whisper API var testēt bez maksas.

Vai es varu izmantot Whisper API, lai transkribētu audio ierakstus vairākās valodās?

Jā, Whisper spēj transkribēt audio 97 valodās.

Vai čukstiņš automātiski pievieno pieturzīmes?

Vai es varu izmantot čukstus, lai transkribētu audio un automātiski tulkotu uz citu valodu?

Nē. Pēc audioieraksta iegūšanas jums būs jāizmanto mūsu tulkošanas galapunkts: see our translation documentation here.

Vai Whisper atgriež laika zīmogus?

Vai Whisper API atbalsta tiešraides transkripciju (token straumēšanu)?

Nē, pagaidām nē

Kā jūsu AI API nodrošina datu konfidencialitāti un drošību runas atpazīšanas procesā?

NLP mākoņa uzmanības centrā ir datu konfidencialitāte: mēs nereģistrējam un neglabājam jūsu veikto API pieprasījumu saturu. NLP Cloud atbilst HIPAA un GDPR prasībām.