Automatické rozpoznávání řeči (převod řeči na text) Whisper API

Co je automatické rozpoznávání řeči (převod řeči na text)?

Automatické rozpoznávání řeči (známé také jako převod řeči na text) spočívá v extrakci textu ze zvukového souboru. Často se jedná o důležitý první krok v procesu umělé inteligence. V posledních několika letech bylo dosaženo velkého pokroku a nyní je možné extrahovat text ze zvukového nebo video souboru s velkou přesností.

Například zde je kapitola z audioknihy LibriVox (The Metal Giants, Edmond Hamilton), která je uložena na Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automatické rozpoznávání řeči

Po provedení automatického rozpoznávání řeči na tomto souboru v NLP Cloud získáme následující text:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Jedná se o velmi dobrý výpis textu, a to nejen proto, že v něm není žádná pravopisná chyba, ale také proto, že byla automaticky doplněna interpunkce.

Kromě toho můžete získat také časové značky na úrovni slov, abyste mohli provádět titulky.

Proč používat převod řeči na text?

Kvalita převodu řeči na text se v poslední době výrazně zlepšila a vedla k mnoha zajímavým aplikacím. Zde je několik příkladů:

Zákaznická podpora

Díky automatickému rozpoznávání řeči můžete nyní automaticky analyzovat hovory zákazníků a následně z nich získat cenné informace. Například můžete automaticky zjistit, které rozhovory s podporou proběhly dobře a které ne, abyste podle toho mohli jednat.

Analýza hlasových zpráv

Někdy je těžké všechny tyto hlasové projevy řešit včas. Každou příchozí zprávu však můžete automaticky analyzovat a extrahovat z ní záměr, kategorizovat ji, zjistit naléhavost apod. a snadno tak přizpůsobit svou reakci.

Lékařské zprávy

Je zcela běžné, že si lékaři své rozhovory s pacienty nahrávají nebo si z nich pořizují shrnutí. Nyní mohou tyto zprávy automaticky převést do textové podoby a následně provést několik druhů následného zpracování, jako je shrnutí rozhovoru, extrakce entit atd.

Titulky k videím

Videa jsou dnes všude. Automatické titulkování videí je skvělým způsobem, jak zvýšit jejich dostupnost a zlepšit jejich obsah pro SEO. Ve druhém kroku můžete titulky snadno přeložit, aby bylo video dostupné po celém světě.

Automatické rozpoznávání řeči pomocí aplikace OpenAI Whisper Large

Whisper Large je pokročilý model AI pro rozpoznávání řeči, který vydala společnost OpenAI s cílem výrazně zlepšit automatické rozpoznávání řeči v 97 jazycích.

Tento model automaticky detekuje jazyk ze vstupního zvukového nebo video souboru a automaticky přidává interpunkci. Dokáže také extrahovat časové značky na úrovni slov, což je velmi užitečné pro tvorbu titulků. Open-source projekt Whisper najdete zde. Tento model byl vyladěn na populárních datových sadách, jako jsou Common Voice, Librispeech, VoxPopuli... a v současnosti je nejpokročilejším vícejazyčným modelem převodu řeči na text.

Rozhraní API Whisper Large v NLP Cloud

NLP Cloud nabízí rychlé rozhraní API pro převod řeči na text, které umožňuje provádět automatické rozpoznávání řeči ihned po vybalení z krabice, založené na OpenAI Whisper Large, a to za dostupnou cenu.

Další podrobnosti naleznete v naší dokumentaci o automatickém rozpoznávání řeči. zde.

Lokální testování převodu řeči na text je jedna věc, ale jeho spolehlivé používání v produkčním prostředí je věc druhá. S NLP Cloud můžete dělat obojí!

Vyzkoušejte převod řeči na text pomocí aplikace Whisper
zdarma

Často kladené otázky

Co je to automatické rozpoznávání řeči?

Automatické rozpoznávání řeči (ASR) je technologie, která umožňuje počítačům nebo jiným zařízením rozpoznávat a přepisovat lidskou řeč do textových dat. Jedná se o převod mluvené řeči do strojově čitelného formátu, který lze následně použít pro různé aplikace, jako je přepis hlasu na text, hlasem aktivované příkazy a zpracování přirozeného jazyka.

Co je Whisper?

Whisper je pokročilý open-source model ASR (převod řeči na text) vytvořený společností OpenAI. Dokáže přepsat zvuk v 97 jazycích s velmi dobrou přesností.

Mohu si Whisper API vyzkoušet zdarma?

Ano, stejně jako všechny modely na NLP Cloud lze i Whisper API testovat zdarma.

Mohu použít rozhraní Whisper API k přepisu zvuku v několika jazycích?

Ano, aplikace Whisper dokáže přepisovat zvuk v 97 jazycích.

Přidává našeptávač automaticky interpunkci?

Ano

Mohu použít našeptávač k přepisu zvuku a automatickému překladu do jiného jazyka?

Ne. Po extrakci zvuku budete muset použít náš koncový bod překladu: see our translation documentation here.

Vrací našeptávač časové značky?

Ano

Podporuje rozhraní Whisper API živý přepis (token streaming)?

Ne, v tuto chvíli ne

Jak vaše rozhraní API pro umělou inteligenci řeší ochranu osobních údajů a zabezpečení během procesu rozpoznávání řeči?

Služba NLP Cloud se zaměřuje na ochranu osobních údajů: obsah vašich požadavků na naše rozhraní API nezaznamenáváme ani neukládáme. Služba NLP Cloud je v souladu s předpisy HIPAA i GDPR.

Vyzkoušejte převod řeči na text pomocí aplikace Whisper
zdarma