Automatické rozpoznávanie reči (Speech-To-Text) Rozhranie API Whisper

Čo je automatické rozpoznávanie reči (prevod reči na text)?

Automatické rozpoznávanie reči (známe aj ako prevod reči na text) spočíva v extrahovaní textu zo zvukového súboru. Často ide o dôležitý prvý krok v procese umelej inteligencie. V posledných rokoch sa dosiahol veľký pokrok a v súčasnosti je možné extrahovať text zo zvukového alebo video súboru s veľkou presnosťou.

Napríklad tu je kapitola z audioknihy LibriVox (The Metal Giants, Edmond Hamilton), ktorá je uložená na Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automatické rozpoznávanie reči

Po vykonaní automatického rozpoznávania reči na tomto súbore v službe NLP Cloud získame nasledujúci text:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Ide o veľmi dobrý výpis textu, a to nielen preto, že v ňom nie je žiadna pravopisná chyba, ale aj preto, že interpunkcia bola pridaná automaticky.

Okrem toho môžete získať aj časové značky na úrovni slov, aby ste mohli vykonávať titulkovanie.

Prečo používať prevod reči na text?

Kvalita prevodu reči na text sa v poslednom čase výrazne zlepšila a viedla k mnohým zaujímavým aplikáciám. Tu je niekoľko príkladov:

Podpora zákazníkov

Vďaka automatickému rozpoznávaniu reči môžete teraz automaticky analyzovať hovory zákazníkov a následne z nich získať cenné informácie. Môžete napríklad automaticky zistiť, ktoré diskusie o podpore prebehli dobre a ktoré nie, aby ste mohli podľa toho konať.

Analýza hlasových správ

Niekedy je ťažké včas reagovať na všetky tieto hlasové posolstvá. Môžete však automaticky analyzovať každú prichádzajúcu správu a extrahovať zámer, kategorizovať ju, zistiť naliehavosť atď., aby ste mohli ľahko prispôsobiť svoju reakciu.

Lekárske správy

Je veľmi bežné, že lekári si svoje rozhovory s pacientmi nahrávajú alebo zaznamenávajú ich zhrnutie. V súčasnosti môžu tieto správy automaticky konvertovať na text a následne vykonať niekoľko druhov následného spracovania, ako je sumarizácia konverzácie, extrakcia entít atď.

Titulkovanie videí

Videá sú dnes všade. Automatické titulkovanie videí je skvelý spôsob, ako zvýšiť ich prístupnosť a zlepšiť SEO optimalizáciu obsahu videa. V druhom kroku môžete ľahko preložiť titulky, aby bolo video dostupné na celom svete.

Automatické rozpoznávanie reči pomocou aplikácie OpenAI Whisper Large

Whisper Large je pokročilý model AI na rozpoznávanie reči, ktorý vydala spoločnosť OpenAI s cieľom výrazne zlepšiť automatické rozpoznávanie reči v 97 jazykoch.

Tento model automaticky zisťuje jazyk zo vstupného zvukového alebo video súboru a do výsledku automaticky pridáva interpunkciu. Dokáže tiež extrahovať časové značky na úrovni slov, čo je veľmi užitočné pri titulkovaní. Open-source projekt Whisper nájdete tu. Tento model bol vyladený na populárnych súboroch dát, ako sú Common Voice, Librispeech, VoxPopuli... a v súčasnosti je to najpokročilejší viacjazyčný model prevodu reči na text.

Veľké rozhranie API Whisper v službe NLP Cloud

NLP Cloud ponúka rýchle rozhranie API na prevod reči na text, ktoré vám umožní vykonávať automatické rozpoznávanie reči hneď po vybalení z krabice na základe OpenAI Whisper Large za prijateľnú cenu.

Ďalšie podrobnosti nájdete v našej dokumentácii o automatickom rozpoznávaní reči tu.

Lokálne testovanie prevodu reči na text je jedna vec, ale jeho spoľahlivé používanie v produkcii je vec druhá. Vďaka službe NLP Cloud môžete robiť oboje!

Vyskúšajte funkciu Whisper speech-to-text
zadarmo

Často kladené otázky

Čo je automatické rozpoznávanie reči?

Automatické rozpoznávanie reči (ASR) je technológia, ktorá umožňuje počítačom alebo iným zariadeniam rozpoznávať a prepisovať ľudskú reč do textových údajov. Zahŕňa prevod hovorenej reči do strojovo čitateľného formátu, ktorý sa potom môže použiť na rôzne aplikácie, ako je prepis hlasu na text, hlasom aktivované príkazy a spracovanie prirodzeného jazyka.

Čo je Whisper?

Whisper je pokročilý model ASR (prevod reči na text) s otvoreným zdrojovým kódom, ktorý vytvorila spoločnosť OpenAI. Dokáže prepisovať zvuk v 97 jazykoch s veľmi dobrou presnosťou.

Môžem si Whisper API vyskúšať zadarmo?

Áno, rovnako ako všetky modely v službe NLP Cloud, aj rozhranie Whisper API je možné testovať bezplatne.

Môžem použiť rozhranie API aplikácie Whisper na prepis zvuku vo viacerých jazykoch?

Áno, aplikácia Whisper dokáže prepisovať zvuk v 97 jazykoch.

Pridáva Whisper automaticky interpunkciu?

Áno

Môžem používať program Whisper na prepis zvuku a automatický preklad do iného jazyka?

Nie. Po extrahovaní zvuku budete musieť použiť náš koncový bod prekladu: see our translation documentation here.

Vracia program Whisper časové značky?

Áno

Podporuje rozhranie Whisper API živý prepis (token streaming)?

Nie, momentálne nie

Ako vaše rozhranie API AI rieši ochranu osobných údajov a bezpečnosť počas procesu rozpoznávania reči?

Služba NLP Cloud sa zameriava na ochranu osobných údajov: obsah požiadaviek, ktoré zadávate do nášho rozhrania API, nezaznamenávame ani neukladáme. Služba NLP Cloud je v súlade s nariadeniami HIPAA aj GDPR.

Vyskúšajte funkciu Whisper speech-to-text
zadarmo