Võitlevad tehisintellekti või täieliku arendusega? Meie eksperdid on siin, et teid juhendada: kohandatud nõuanded, tehniline integratsioon ja palju muud. Võtke ühendust aadressil [email protected].

Automaatne kõnetuvastus (kõne tekstiks) Whisper API

Mis on automaatne kõnetuvastus (kõne tekstiks)?

Automaatne kõnetuvastus (tuntud ka kui kõne tekstiks muutmine) tähendab teksti eraldamist helifailist. See on sageli oluline esimene samm tehisintellekti torujuhtmes. Viimastel aastatel on tehtud suuri edusamme ja nüüd on võimalik teksti heli- või videofailist suure täpsusega eraldada.

Siin on näiteks üks peatükk LibriVoxi audioraamatust (The Metal Giants, autor Edmond Hamilton), mis on salvestatud Archive.orgis: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automaatne kõnetuvastus

Kui me teostame selle faili automaatse kõnetuvastuse NLP Cloudis, saame järgmise teksti:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

See on väga hea teksti väljavõte, mitte ainult seetõttu, et selles ei ole õigekirjavigu, vaid ka seetõttu, et kirjavahemärgid lisati automaatselt.

Lisaks saate ka sõnade tasandi ajatemplit, et teha subtiitreid.

Miks kasutada kõne-teksti funktsiooni?

Viimasel ajal on kõne tekstiks tõlkimise kvaliteet oluliselt paranenud ja see on toonud kaasa palju huvitavaid rakendusi. Siin on mõned näited:

Klienditugi

Tänu automaatsele kõnetuvastusele saate nüüd automaatselt analüüsida kliendikõnesid ja seejärel eraldada väärtuslikku teavet. Näiteks saate automaatselt teada, millised tugiarutelud läksid hästi ja millised mitte, et saaksite vastavalt tegutseda.

Vokaalsete sõnumite analüüs

Mõnikord on raske kõiki neid sõnumeid õigeaegselt käsitleda. Kuid te saate automaatselt analüüsida iga sissetulevat sõnumit ja eraldada selle kavatsuse, kategoriseerida selle, tuvastada kiireloomulisuse jne, et saaksite oma reageeringut hõlpsasti kohandada.

Meditsiinilised aruanded

On väga tavaline, et arstid salvestavad oma arutelud patsientidega või salvestavad arutelu kokkuvõtte. Nüüd saavad nad need aruanded automaatselt tekstiks teisendada ja seejärel teha mitmesuguseid järeltöötlusi, näiteks vestluse kokkuvõtteid, üksuste ekstraheerimist jne.

Videote subtiitrid

Videod on tänapäeval kõikjal. Automaatne video subtiitrimine on suurepärane võimalus suurendada ligipääsetavust ja muuta video sisu SEO-sõbralikumaks. Teise sammuna saate hõlpsasti oma subtiitrid tõlkida, et muuta video kogu maailmas kättesaadavaks.

Automaatne kõnetuvastus koos OpenAI Whisper Large'iga

Whisper Large on täiustatud kõnetuvastuse tehisintellekti mudel, mille OpenAI on välja andnud, et oluliselt parandada automaatset kõnetuvastust 97 keeles.

See mudel tuvastab automaatselt keele sisestatud audio- või videofaili põhjal ja lisab tulemusele automaatselt kirjavahemärgid. Samuti saab see eraldada sõnade tasandi ajatemplid, mis on subtiitrite tegemisel väga kasulik. Avatud lähtekoodiga projekti Whisper leiate siit. Seda mudelit häälestati selliste populaarsete andmekogumite nagu Common Voice, Librispeech, VoxPopuli... põhjalikult ja see on käesoleva artikli kirjutamise ajal kõige arenenum mitmekeelne kõne-tekstimudel.

Whisper Large API NLP Cloudis

NLP Cloud pakub kiiret kõnest tekstiks API-d, mis võimaldab teil teostada automaatset kõnetuvastust, mis põhineb OpenAI Whisper Large'il ja on taskukohase hinnaga.

Lisateavet leiate meie dokumentatsioonist automaatse kõnetuvastuse kohta. siin.

Kohapeal kõne tekstiks muutmise testimine on üks asi, kuid selle usaldusväärne kasutamine tootmises on hoopis teine asi. NLP Cloudi abil saate teha mõlemat!

Korduma kippuvad küsimused

Mis on automaatne kõnetuvastus?

Automaatne kõnetuvastus (ASR) on tehnoloogia, mis võimaldab arvutitel või muudel seadmetel tuvastada ja transkribeerida inimkõnet tekstilisteks andmeteks. See hõlmab kõnekeele teisendamist masinloetavasse vormingusse, mida saab seejärel kasutada mitmesugustes rakendustes, näiteks hääle tekstiks transkribeerimiseks, hääljuhtimisega käskude andmiseks ja loomuliku keele töötlemiseks.

Mis on Whisper?

Whisper on OpenAI poolt loodud täiustatud avatud lähtekoodiga ASR-mudel (kõne tekstiks muutmise mudel). See on võimeline transkribeerima heli 97 keeles väga hea täpsusega.

Kas ma saan Whisper API-d tasuta proovida?

Jah, nagu kõiki NLP Cloudi mudeleid, saab ka Whisper API-d tasuta testida.

Kas ma saan kasutada Whisper API-d heli transkribeerimiseks mitmes keeles?

Jah, Whisper suudab transkribeerida heli 97 keeles.

Kas Whisper lisab automaatselt kirjavahemärke?

Jah

Kas ma saan kasutada Whisperit heli transkribeerimiseks ja automaatseks tõlkimiseks teise keelde?

Ei. Kui teie heli on ekstraheeritud, peate kasutama meie tõlke lõpp-punkti: see our translation documentation here.

Kas Whisper tagastab ajatemplid?

Jah

Kas Whisper API toetab otseülekannet (token streaming)?

Ei, hetkel mitte

Kuidas teie AI API käsitleb andmete privaatsust ja turvalisust kõnetuvastuse käigus?

NLP Cloud keskendub andmete privaatsusele: me ei logi ega salvesta meie API-le tehtud päringute sisu. NLP Cloud on nii HIPAA kui ka GDPR-i nõuetele vastav.