Automatinis kalbos atpažinimas (kalbėjimas į tekstą) "Whisper API

Kas yra automatinis kalbos atpažinimas (kalbėjimas į tekstą)?

Automatinis kalbos atpažinimas (taip pat žinomas kaip kalbos keitimas į tekstą) - tai teksto išgavimas iš garso failo. Dažnai tai yra svarbus pirmasis dirbtinio intelekto vamzdyno žingsnis. Per pastaruosius kelerius metus padaryta didelė pažanga ir dabar galima labai tiksliai išgauti tekstą iš garso ar vaizdo failo.

Pavyzdžiui, čia pateikiamas skyrius iš "LibriVox" garso knygos ("Metalo milžinai", autorius Edmondas Hamiltonas), saugomos Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automatinis kalbos atpažinimas

Atlikę automatinį kalbos atpažinimą šiame faile NLP debesyje, gausime tokį tekstą:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Tai labai geras teksto ištraukimas ne tik dėl to, kad nėra rašybos klaidų, bet ir dėl to, kad automatiškai buvo pridėta skyrybos ženklų.

Be to, galite gauti žodžių laiko žymas, kad galėtumėte atlikti subtitravimą.

Kodėl verta naudoti kalbėjimo į tekstą funkciją?

Pastaruoju metu labai pagerėjo kalbėjimo į tekstą kokybė, todėl atsirado daug įdomių programų. Štai keletas pavyzdžių:

Klientų aptarnavimas

Automatinio kalbos atpažinimo dėka dabar galite automatiškai analizuoti klientų skambučius ir išgauti vertingos informacijos. Pavyzdžiui, galite automatiškai sužinoti, kurios pagalbos diskusijos buvo sėkmingos, o kurios - ne, kad galėtumėte imtis atitinkamų veiksmų.

Vokalinių pranešimų analizė

Kartais sunku laiku reaguoti į visus šiuos balsinius pranešimus. Tačiau galite automatiškai išanalizuoti kiekvieną gautą pranešimą ir išskirti ketinimą, suskirstyti jį į kategorijas, nustatyti skubumą ir t. t., kad galėtumėte lengvai pritaikyti savo atsaką.

Medicininės ataskaitos

Gydytojai labai dažnai įrašinėja savo pokalbius su pacientais arba įrašo pokalbio santrauką. Dabar jie gali automatiškai konvertuoti šias ataskaitas į tekstą, o tada atlikti kelių rūšių tolesnį apdorojimą, pavyzdžiui, pokalbio apibendrinimą, esybių išskyrimą ir pan.

Vaizdo įrašų subtitravimas

Šiandien vaizdo įrašų yra visur. Automatinis vaizdo įrašų subtitravimas yra puikus būdas padidinti prieinamumą ir padaryti vaizdo įrašo turinį tinkamesnį SEO. Antruoju žingsniu galite lengvai išversti subtitrus, kad vaizdo įrašas būtų prieinamas visame pasaulyje.

Automatinis kalbos atpažinimas naudojant "OpenAI Whisper Large

"Whisper Large" yra pažangus kalbos atpažinimo dirbtinio intelekto modelis, kurį išleido "OpenAI", siekdama gerokai patobulinti automatinį kalbos atpažinimą 97 kalbomis.

Šis modelis automatiškai nustato kalbą iš įvesties garso ar vaizdo failo ir automatiškai prideda skyrybos ženklų. Jis taip pat gali išgauti žodžių lygmens laiko žymas, o tai labai naudinga subtitravimui. Atvirojo kodo projektą "Whisper" galite rasti čia. Šis modelis buvo tobulinamas naudojant populiarius duomenų rinkinius, tokius kaip "Common Voice", "Librispeech", "VoxPopuli", ir šiuo metu tai yra pažangiausias daugiakalbės kalbos į tekstą modelis.

"Whisper Large API" NLP debesyje

"NLP Cloud" siūlo greitą kalbos į tekstą API, kuri leidžia atlikti automatinį kalbos atpažinimą iškart, remiantis "OpenAI Whisper Large", už prieinamą kainą.

Daugiau informacijos rasite mūsų dokumentuose apie automatinį kalbos atpažinimą čia.

Vienas dalykas yra testuoti kalbą į tekstą vietoje, o kitas - patikimai naudoti gamyboje. Naudodami NLP Cloud galite atlikti abu šiuos veiksmus!

Išbandykite "Whisper" kalbos keitimą į tekstą
nemokamai

Dažnai užduodami klausimai

Kas yra automatinis kalbos atpažinimas?

Automatinis kalbos atpažinimas (ASR) - tai technologija, leidžianti kompiuteriams ar kitiems įrenginiams atpažinti ir transkribuoti žmogaus kalbą į tekstinius duomenis. Tai reiškia, kad šnekamoji kalba paverčiama į kompiuterio skaitomą formatą, kuris vėliau gali būti naudojamas įvairioms programoms, pavyzdžiui, balso transkripcijai į tekstą, balsu valdomoms komandoms ir natūralios kalbos apdorojimui.

Kas yra "Whisper"?

"Whisper" - tai pažangus atvirojo kodo ASR (kalbos į tekstą) modelis, kurį sukūrė "OpenAI". Jis gali labai tiksliai transkribuoti garsą 97 kalbomis.

Ar galiu išbandyti "Whisper API" nemokamai?

Taip, kaip ir visus "NLP Cloud" esančius modelius, "Whisper" API galima išbandyti nemokamai.

Ar galiu naudoti "Whisper API" garso įrašams transkribuoti keliomis kalbomis?

Taip, "Whisper" gali transkribuoti garsą 97 kalbomis.

Ar "Whisper" automatiškai prideda skyrybos ženklų?

Taip

Ar galiu naudoti "Whisper" garso įrašams transkribuoti ir automatiškai išversti į kitą kalbą?

Ne. Kai garso įrašas bus išskleistas, turėsite naudoti mūsų vertimo galinį tašką: see our translation documentation here.

Ar "Whisper" grąžina laiko žymas?

Taip

Ar "Whisper" API palaiko tiesioginę transkripciją (žetonų transliaciją)?

Ne, kol kas ne

Kaip jūsų dirbtinio intelekto sąsajos programinė įranga užtikrina duomenų privatumą ir saugumą kalbos atpažinimo proceso metu?

"NLP Cloud" yra orientuota į duomenų privatumą: mes neregistruojame ir nesaugome užklausų, kurias atliekate naudodamiesi mūsų API, turinio. "NLP Cloud" atitinka HIPAA ir BDAR reikalavimus.

Išbandykite "Whisper" kalbos keitimą į tekstą
nemokamai