Автоматично разпознаване на реч (трансформиране на реч в текст) Whisper API

Какво представлява автоматичното разпознаване на речта (трансформиране на речта в текст)?

Автоматичното разпознаване на реч (известно също като преобразуване на реч в текст) е свързано с извличане на текст от аудиофайл. Често това е важна първа стъпка в тръбопровода за изкуствен интелект. През последните няколко години беше постигнат голям напредък и вече е възможно да се извлича текст от аудио или видео файл с голяма точност.

Например, тук е глава от аудиокнига на LibriVox (The Metal Giants, от Едмънд Хамилтън), съхранена в Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Автоматично разпознаване на речта

След като извършим автоматично разпознаване на речта върху този файл в NLP Cloud, ще получим следния текст:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Това е много добро извличане на текст, не само защото няма правописна грешка, но и защото препинателните знаци са добавени автоматично.

Освен това можете да получите времеви маркери на ниво дума, за да извършвате субтитриране.

Защо да използваме преобразуване на реч в текст?

Качеството на преобразуването на реч в текст напоследък се подобри значително и доведе до много интересни приложения. Ето някои примери:

Поддръжка на клиенти

Благодарение на автоматичното разпознаване на речта вече можете автоматично да анализирате обажданията на клиентите и да извличате ценна информация. Например можете автоматично да разберете кои дискусии по поддръжката са преминали добре и кои не, за да можете да действате по съответния начин.

Анализ на вокалните послания

Понякога е трудно да се отговори на всички тези гласовити послания своевременно. Но можете автоматично да анализирате всяко входящо съобщение и да извлечете намерението, да го категоризирате, да определите спешността и т.н., за да можете лесно да адаптирате отговора си.

Медицински доклади

Много често лекарите записват разговорите си с пациентите или правят резюме на разговора. Сега те могат автоматично да преобразуват тези доклади в текст и след това да извършват няколко вида последваща обработка, като обобщаване на разговорите, извличане на същности и др.

Субтитриране на видеоклипове

Днес видеоклиповете са навсякъде. Автоматичното субтитриране на видеоклипове е чудесен начин да увеличите достъпността и да направите съдържанието на видеоклипа по-подходящо за SEO. Като втора стъпка можете лесно да преведете субтитрите си, за да направите видеоклипа достъпен в целия свят.

Автоматично разпознаване на речта с OpenAI Whisper Large

Whisper Large е усъвършенстван модел на изкуствен интелект за разпознаване на реч, пуснат от OpenAI, за да подобри значително автоматичното разпознаване на реч на 97 езика.

Този модел автоматично разпознава езика от входния аудио- или видеофайл и автоматично добавя препинателни знаци към резултата. Той може също така да извлича времеви маркери на ниво дума, което е много полезно за субтитриране. Можете да намерите проекта с отворен код Whisper тук. Този модел е усъвършенстван върху популярни набори от данни като Common Voice, Librispeech, VoxPopuli и към момента е най-усъвършенстваният многоезичен модел за преобразуване на реч в текст.

Голям API на Whisper в NLP Cloud

NLP Cloud предлага бърз приложен програмен интерфейс за преобразуване на реч в текст, който ви позволява да извършвате автоматично разпознаване на реч на достъпна цена, базирано на OpenAI Whisper Large.

За повече информация вижте нашата документация за автоматично разпознаване на реч тук.

Тестването на локално преобразуване на реч в текст е едно, но надеждното му използване в производството е друго нещо. С NLP Cloud можете да направите и двете!

Изпробвайте трансформирането на речта в текст чрез Whisper
безплатно

Често задавани въпроси

Какво представлява автоматичното разпознаване на реч?

Автоматичното разпознаване на речта (ASR) е технология, която позволява на компютри или други устройства да разпознават и транскрибират човешка реч в текстови данни. Тя включва преобразуване на говоримия език в машинно четим формат, който след това може да се използва за различни приложения, като например транскрипция на глас в текст, гласово активирани команди и обработка на естествен език.

Какво е Whisper?

Whisper е усъвършенстван ASR модел с отворен код (преобразуване на реч в текст), създаден от OpenAI. Той може да транскрибира аудио на 97 езика с много добра точност.

Мога ли да изпробвам API на Whisper безплатно?

Да, както всички модели в NLP Cloud, API на Whisper може да се тества безплатно.

Мога ли да използвам API на Whisper за транскрибиране на аудио на няколко езика?

Да, Whisper може да транскрибира аудио на 97 езика.

Добавя ли Whisper автоматично препинателни знаци?

Да

Мога ли да използвам Whisper за транскрибиране на аудио и автоматично превеждане на друг език?

Не. Ще трябва да използвате нашата крайна точка за превод, след като аудиото ви бъде извлечено: see our translation documentation here.

Връща ли Whisper времевите маркери?

Да

Поддържа ли приложният програмен интерфейс на Whisper транскрипция в реално време (стрийминг на токени)?

Не, засега не

Как вашият API за изкуствен интелект се справя с поверителността и сигурността на данните по време на процеса на разпознаване на реч?

NLP Cloud се фокусира върху поверителността на данните по дизайн: ние не записваме и не съхраняваме съдържанието на заявките, които правите в нашия API. NLP Cloud е в съответствие с HIPAA и GDPR.

Изпробвайте трансформирането на речта в текст чрез Whisper
безплатно