API для автоматичного розпізнавання шепоту (Speech-To-Text)

Що таке автоматичне розпізнавання мовлення (Speech-To-Text)?

Автоматичне розпізнавання мови (також відоме як перетворення мови в текст) полягає у вилученні тексту з аудіофайлу. Це часто є важливим першим кроком у конвеєрі штучного інтелекту. За останні кілька років було досягнуто значного прогресу, і тепер можна з високою точністю витягувати текст з аудіо- чи відеофайлів.

Наприклад, ось глава з аудіокниги LibriVox ("Металеві гіганти", автор Едмонд Гамільтон), що зберігається на Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Автоматичне розпізнавання мови

Після того, як ми виконаємо автоматичне розпізнавання мови на цьому файлі в NLP Cloud, ми отримаємо наступний текст:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Це дуже гарне вилучення тексту, не тільки тому, що в ньому немає орфографічних помилок, але й тому, що автоматично додано розділові знаки.

Крім того, ви також можете отримати часові мітки на рівні слів, щоб виконати субтитрування.

Навіщо використовувати Speech-To-Text?

Якість перетворення мови в текст останнім часом значно покращилася, що призвело до появи багатьох цікавих застосувань. Ось кілька прикладів:

Підтримка клієнтів

Завдяки автоматичному розпізнаванню мови ви можете автоматично аналізувати дзвінки клієнтів і витягувати з них цінну інформацію. Наприклад, ви можете автоматично дізнатися, які обговорення підтримки пройшли добре, а які - ні, щоб діяти відповідно.

Аналіз голосових повідомлень

Іноді буває важко вчасно відповісти на всі ці голосові повідомлення. Але ви можете автоматично аналізувати кожне вхідне повідомлення і виокремлювати наміри, класифікувати його, визначати терміновість тощо, щоб легко адаптувати свою відповідь.

Медичні висновки

Дуже часто лікарі записують свої розмови зі своїми пацієнтами, або записують короткий зміст бесіди. Тепер вони можуть автоматично конвертувати ці звіти в текст, а потім виконати кілька видів пост-обробки, наприклад, узагальнення розмови, вилучення об'єктів тощо.

Субтитрування відео

Сьогодні відео є скрізь. Автоматичне субтитрування відео - це чудовий спосіб підвищити його доступність і зробити контент більш сприятливим для пошукової оптимізації. На другому етапі ви можете легко перекласти субтитри, щоб зробити відео доступним у всьому світі.

Автоматичне розпізнавання мови з OpenAI Whisper Large

Whisper Large - це вдосконалена модель штучного інтелекту, випущена OpenAI, щоб значно покращити автоматичне розпізнавання мови на 97 мовах.

Ця модель автоматично визначає мову вхідного аудіо- чи відеофайлу і автоматично додає пунктуацію до результату. Вона також може витягувати часові мітки на рівні слів, що дуже корисно для субтитрування. Ви можете знайти проект з відкритим вихідним кодом Whisper тут. Ця модель була доопрацьована на таких популярних наборах даних, як Common Voice, Librispeech, VoxPopuli... і на момент написання цієї статті вона є найдосконалішою багатомовною моделлю перетворення мовлення на текст.

Whisper Large API в NLP Cloud

NLP Cloud пропонує швидкий API для перетворення мови в текст, який дозволяє виконувати автоматичне розпізнавання мови "з коробки", на основі OpenAI Whisper Large, за доступною ціною.

Детальніше про автоматичне розпізнавання мови читайте в нашій документації тут..

Тестування локального перетворення мови в текст - це одне, а надійне використання у виробництві - зовсім інше. З NLP Cloud ви можете робити і те, і інше!

Спробуйте перетворення голосу в текст Whisper
безкоштовно

Поширені запитання

Що таке автоматичне розпізнавання мови?

Автоматичне розпізнавання мови (ASR) - це технологія, яка дозволяє комп'ютерам або іншим пристроям розпізнавати і перетворювати людську мову в текстові дані. Вона передбачає перетворення розмовної мови в машинозчитуваний формат, який потім може бути використаний для різних застосувань, таких як транскрипція голосу в текст, голосові команди та обробка природної мови.

Що таке "Шепіт"?

Whisper - це просунута модель ASR (перетворення мови в текст) з відкритим вихідним кодом, створена OpenAI. Вона здатна транскрибувати аудіо на 97 мовах з дуже високою точністю.

Чи можу я спробувати API Whisper безкоштовно?

Так, як і всі моделі в NLP Cloud, API Whisper можна протестувати безкоштовно.

Чи можна використовувати Whisper API для транскрибування аудіо кількома мовами?

Так, Whisper може транскрибувати аудіо на 97 мовах.

Чи додає Whisper автоматично розділові знаки?

Так.

Чи можна використовувати Whisper для транскрибування аудіо та автоматичного перекладу на іншу мову?

Ні, вам потрібно буде скористатися нашою кінцевою точкою перекладу після того, як аудіо буде витягнуто: see our translation documentation here.

Чи повертає Whisper мітки часу?

Так.

Чи підтримує API Whisper транскрипцію в реальному часі (потокове передавання токенів)?

Ні, поки що ні

Як ваш AI API забезпечує конфіденційність і безпеку даних під час процесу розпізнавання мови?

NLP Cloud за замовчуванням орієнтований на конфіденційність даних: ми не реєструємо і не зберігаємо вміст запитів, які ви робите через наш API. NLP Cloud відповідає вимогам HIPAA та GDPR.

Спробуйте перетворення голосу в текст Whisper
безкоштовно