Samodejno prepoznavanje govora (govor v besedilo) API za šepetanje

Kaj je samodejno prepoznavanje govora (govor v besedilo)?

Samodejno prepoznavanje govora (znano tudi kot pretvorba govora v besedilo) je pridobivanje besedila iz zvočne datoteke. To je pogosto pomemben prvi korak v cevovodu umetne inteligence. V zadnjih nekaj letih je bil dosežen velik napredek in zdaj je mogoče iz zvočne ali video datoteke izluščiti besedilo z veliko natančnostjo.

Tukaj je na primer poglavje iz zvočne knjige LibriVox (The Metal Giants, Edmond Hamilton), ki je shranjena na portalu Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Samodejno prepoznavanje govora

Ko v oblaku NLP Cloud izvedemo samodejno prepoznavanje govora v tej datoteki, dobimo naslednje besedilo:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

To je zelo dober izvleček besedila, ne le zato, ker ni pravopisne napake, temveč tudi zato, ker je bilo ločilo dodano samodejno.

Poleg tega lahko za podnaslavljanje dobite tudi časovne žige na ravni besed.

Zakaj uporabljati govorno pretvorbo besedila?

Kakovost pretvorbe govora v besedilo se je v zadnjem času močno izboljšala in je pripeljala do številnih zanimivih aplikacij. Navajamo nekaj primerov:

Podpora strankam

S samodejnim prepoznavanjem govora lahko zdaj samodejno analizirate klice strank in pridobite dragocene informacije. Tako lahko na primer samodejno ugotovite, kateri pogovori o podpori so bili uspešni in kateri ne, da lahko ustrezno ukrepate.

Analiza vokalnih sporočil

Včasih je težko pravočasno obravnavati vsa ta glasovna sporočila. Lahko pa samodejno analizirate vsako prejeto sporočilo in izluščite namen, ga kategorizirate, določite nujnost itd., tako da lahko zlahka prilagodite svoj odziv.

Zdravniška poročila

Zelo pogosto se dogaja, da zdravniki zapisujejo svoje pogovore s pacienti ali pa si zapišejo povzetek pogovora. Zdaj lahko ta poročila samodejno pretvorijo v besedilo in nato opravijo več vrst naknadne obdelave, kot so povzemanje pogovora, ekstrakcija entitet itd.

Podnaslavljanje videoposnetkov

Videoposnetki so danes povsod. Samodejno podnaslavljanje videoposnetkov je odličen način za povečanje dostopnosti in boljšo prijaznost vsebine videoposnetka do SEO. V drugem koraku lahko podnapise preprosto prevedete, da bo videoposnetek dostopen po vsem svetu.

Samodejno prepoznavanje govora z OpenAI Whisper Large

Whisper Large je napreden model umetne inteligence za prepoznavanje govora, ki ga je izdala organizacija OpenAI, da bi bistveno izboljšala samodejno prepoznavanje govora v 97 jezikih.

Ta model iz vhodne zvočne ali video datoteke samodejno zazna jezik in rezultatu samodejno doda ločila. Prav tako lahko pridobi časovne oznake na ravni besed, kar je zelo uporabno za podnaslavljanje. Odprtokodni projekt Whisper lahko najdete tukaj. Ta model je bil izpopolnjen na priljubljenih naborih podatkov, kot so Common Voice, Librispeech, VoxPopuli ..., in je najnaprednejši večjezični model za pretvorbo govora v besedilo.

Veliki API za šepetanje v oblaku NLP

NLP Cloud ponuja hiter vmesnik API za pretvorbo govora v besedilo, ki vam omogoča samodejno prepoznavanje govora po dostopni ceni, ki temelji na OpenAI Whisper Large.

Za več podrobnosti glejte našo dokumentacijo o samodejnem prepoznavanju govora. tukaj.

Eno je lokalno preizkušanje prenosa govora na besedilo, drugo pa zanesljiva uporaba v produkciji. Z NLP Cloud lahko počnete oboje!

Preizkusite govorno-besedilni zapis Whisper
brezplačno

Pogosto zastavljena vprašanja

Kaj je samodejno prepoznavanje govora?

Samodejno prepoznavanje govora (ASR) je tehnologija, ki računalnikom ali drugim napravam omogoča prepoznavanje in prepisovanje človeškega govora v besedilne podatke. Gre za pretvorbo govorjenega jezika v strojno berljivo obliko, ki se lahko nato uporablja za različne aplikacije, kot so prepisovanje glasu v besedilo, glasovno aktivirani ukazi in obdelava naravnega jezika.

Kaj je Whisper?

Whisper je napreden odprtokodni model ASR (pretvorba govora v besedilo), ki ga je ustvarila organizacija OpenAI. Z zelo dobro natančnostjo lahko prepiše zvok v 97 jezikih.

Ali lahko API Whisper preizkusim brezplačno?

Da, tako kot vse modele v oblaku NLP lahko tudi API za šepetanje preizkusite brezplačno.

Ali lahko z vmesnikom API programa Whisper prepisujem zvok v več jezikih?

Da, Šepetalec lahko prepisuje zvok v 97 jezikih.

Ali Šepetalec samodejno doda ločila?

Ali lahko z aplikacijo Šepetalec prepisujem zvok in ga samodejno prevajam v drug jezik?

Ne. Ko bo vaš zvok pridobljen, boste morali uporabiti našo končno točko za prevajanje: see our translation documentation here.

Ali Šepetalec vrne časovne oznake?

Ali programski vmesnik API za šepetanje podpira transkripcijo v živo (pretočno predvajanje žetonov)?

Ne, za zdaj ne.

Kako vaš API umetne inteligence skrbi za zasebnost in varnost podatkov med postopkom prepoznavanja govora?

Oblak NLP se osredotoča na zasebnost podatkov že v zasnovi: ne beležimo in ne shranjujemo vsebine zahtevkov, ki jih opravite v našem API. NLP Cloud je skladen s HIPAA in GDPR.

Preizkusite govorno-besedilni zapis Whisper
brezplačno