Automatikus beszédfelismerés (beszédből szövegbe) Whisper API

Mi az automatikus beszédfelismerés (beszéd a szöveghez)?

Az automatikus beszédfelismerés (más néven beszédből szöveggé alakítás) a szöveg kivonását jelenti egy hangfájlból. Ez gyakran fontos első lépés a mesterséges intelligencia csővezetékében. Az elmúlt néhány évben nagy előrelépés történt, és ma már lehetséges a szöveg nagy pontossággal történő kivonása egy hang- vagy videofájlból.

Itt van például egy fejezet egy LibriVox hangoskönyvből (The Metal Giants, írta Edmond Hamilton), amelyet az Archive.org tárol: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automatikus beszédfelismerés

Miután automatikus beszédfelismerést hajtunk végre ezen a fájlon az NLP Cloudon, a következő szöveget kapjuk:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Ez egy nagyon jó szövegkivonat, nemcsak azért, mert nincs benne helyesírási hiba, hanem azért is, mert az írásjelek automatikusan hozzá lettek adva.

Ezenfelül szószintű időbélyegeket is kaphat, hogy feliratozást végezzen.

Miért érdemes a beszédből szövegbe történő átvitelt használni?

A beszédből szöveggé alakítás minősége a közelmúltban drámaian javult, és számos érdekes alkalmazáshoz vezetett. Íme néhány példa:

Ügyfélszolgálat

Az automatikus beszédfelismerésnek köszönhetően mostantól automatikusan elemezheti az ügyfélhívásokat, majd értékes információkat nyerhet belőlük. Például automatikusan megtudhatja, hogy mely támogatási beszélgetések mentek jól, és melyek nem, így ennek megfelelően tud cselekedni.

Vokális üzenetek elemzése

Néha nehéz mindezeket a hangzatos üzeneteket időben megszólaltatni. De automatikusan elemezhet minden bejövő üzenetet, és kivonhatja a szándékot, kategorizálhatja, felismerheti a sürgősséget stb. így könnyedén hozzáigazíthatja válaszát.

Orvosi jelentések

Nagyon gyakori, hogy az orvosok rögzítik a betegekkel folytatott megbeszéléseiket, vagy rögzítik a megbeszélés összefoglalóját. Ezeket a jegyzőkönyveket most már automatikusan szöveggé alakíthatják, majd többféle utólagos feldolgozást végezhetnek, mint például a beszélgetés összefoglalása, entitás-kivonatolás stb.

Videók feliratozása

A videók ma már mindenütt jelen vannak. Az automatikus videofeliratozás nagyszerű módja a hozzáférhetőség növelésének, és a videó tartalmának SEO-barátabbá tételének. Második lépésként könnyedén lefordíthatja a feliratokat, hogy a videó világszerte elérhetővé váljon.

Automatikus beszédfelismerés az OpenAI Whisper Large segítségével

A Whisper Large egy fejlett beszédfelismerő mesterséges intelligencia modell, amelyet az OpenAI azért adott ki, hogy drámaian javítsa az automatikus beszédfelismerést 97 nyelven.

Ez a modell automatikusan felismeri a nyelvet a bemeneti hang- vagy videofájlból, és az eredményhez automatikusan hozzáadja az írásjeleket. Emellett képes a szószintű időbélyegek kinyerésére is, ami nagyon hasznos a feliratozáshoz. A Whisper nyílt forráskódú projektet itt találja. Ezt a modellt olyan népszerű adathalmazokon finomhangolták, mint a Common Voice, Librispeech, VoxPopuli..., és ez a legfejlettebb többnyelvű beszéd-szöveg modell e sorok írásakor.

Whisper Large API az NLP Cloudon

Az NLP Cloud egy gyors beszédből szöveggé alakító API-t kínál, amely lehetővé teszi az OpenAI Whisper Large-on alapuló automatikus beszédfelismerést, megfizethető áron.

További részletekért lásd az automatikus beszédfelismerésről szóló dokumentációnkat. itt.

A beszédből szöveggé alakítás helyi tesztelése egy dolog, de a megbízható használat a termelésben egy másik dolog. Az NLP Cloud segítségével mindkettőt megteheti!

Gyakran ismételt kérdések

Mi az automatikus beszédfelismerés?

Az automatikus beszédfelismerés (ASR) olyan technológia, amely lehetővé teszi a számítógépek vagy más eszközök számára, hogy felismerjék és szöveges adatokká írják át az emberi beszédet. A beszélt nyelvet gépileg olvasható formátumba konvertálja, amely aztán különböző alkalmazásokhoz, például hangról szövegre történő átíráshoz, hangvezérelt parancsokhoz és természetes nyelvi feldolgozáshoz használható.

Mi az a Whisper?

A Whisper egy fejlett, nyílt forráskódú ASR (beszédből szöveggé alakító) modell, amelyet az OpenAI hozott létre. Nagyon jó pontossággal képes 97 nyelv hanganyag átírására.

Kipróbálhatom a Whisper API-t ingyen?

Igen, az NLP Cloud összes modelljéhez hasonlóan a Whisper API is ingyenesen tesztelhető.

Használhatom a Whisper API-t hang átírására több nyelven?

Igen, a Whisper 97 nyelven képes átírni a hangot.

A Whisper automatikusan hozzáadja az írásjeleket?

Igen

Használhatom a Whisper-t a hang átírására és automatikus fordítására egy másik nyelvre?

Nem. A fordítási végpontunkat kell használnia, miután a hangot kinyertük: see our translation documentation here.

A Whisper visszaadja az időbélyegeket?

Igen

Támogatja a Whisper API az élő átírást (token streaming)?

Nem, egyelőre nem.

Hogyan kezeli az Ön AI API-ja az adatvédelmet és a biztonságot a beszédfelismerési folyamat során?

Az NLP Cloud az adatvédelemre összpontosít: nem naplózzuk és nem tároljuk az API-nkban tett kérések tartalmát. Az NLP Cloud megfelel a HIPAA- és a GDPR-szabályozásnak.