Затрудняетесь с ИИ или разработкой полного стека? Наши эксперты готовы помочь вам: индивидуальные консультации, техническая интеграция и многое другое. Обращайтесь по адресу [email protected].

Автоматическое распознавание речи (Speech-To-Text) Whisper API

Что такое автоматическое распознавание речи (Speech-To-Text)?

Автоматическое распознавание речи (также известное как преобразование речи в текст) - это извлечение текста из аудиофайла. Это часто является важным первым шагом на пути к созданию ИИ. За последние несколько лет был достигнут большой прогресс, и теперь можно с высокой точностью извлекать текст из аудио- или видеофайлов.

Например, вот глава из аудиокниги LibriVox ("Металлические гиганты", автор Эдмонд Гамильтон), хранящаяся на сайте Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Автоматическое распознавание речи

Выполнив автоматическое распознавание речи для этого файла на NLP Cloud, мы получим следующий текст:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Это очень хорошее извлечение текста, не только потому, что в нем нет орфографических ошибок, но и потому, что пунктуация была добавлена автоматически.

Кроме того, вы можете получить временные метки на уровне слов, чтобы выполнить субтитрирование.

Зачем использовать технологию Speech-To-Text?

В последнее время качество преобразования речи в текст значительно улучшилось, что привело к появлению множества интересных приложений. Вот несколько примеров:

Поддержка клиентов

Благодаря автоматическому распознаванию речи вы теперь можете автоматически анализировать звонки клиентов и извлекать из них ценную информацию. Например, вы можете автоматически узнать, какие обсуждения в службе поддержки прошли успешно, а какие - нет, и принять соответствующие меры.

Анализ вокальных сообщений

Иногда трудно своевременно реагировать на все эти голосовые сообщения. Но вы можете автоматически анализировать каждое входящее сообщение, определять его цель, классифицировать его, определять срочность и т. д., чтобы легко адаптировать свой ответ.

Медицинские отчеты

Очень часто врачи записывают свои беседы с пациентами или записывают краткое содержание беседы. Теперь они могут автоматически преобразовывать эти отчеты в текст, а затем выполнять различные виды последующей обработки, такие как обобщение беседы, извлечение сущностей и т. д.

Субтитрирование видео

Видео сегодня повсюду. Автоматическое создание субтитров для видео - отличный способ повысить доступность и сделать содержание видео более SEO-дружелюбным. В качестве второго шага вы можете легко перевести субтитры, чтобы сделать видео доступным по всему миру.

Автоматическое распознавание речи с помощью OpenAI Whisper Large

Whisper Large - это продвинутая модель ИИ для распознавания речи, выпущенная OpenAI с целью значительно улучшить автоматическое распознавание речи на 97 языках.

Эта модель автоматически определяет язык по входному аудио- или видеофайлу и автоматически добавляет пунктуацию к результату. Она также может извлекать временные метки на уровне слов, что очень полезно для создания субтитров. Проект Whisper с открытым исходным кодом можно найти здесь. Эта модель была отлажена на таких популярных наборах данных, как Common Voice, Librispeech, VoxPopuli... и на данный момент является самой продвинутой многоязычной моделью преобразования речи в текст.

API Whisper Large на NLP Cloud

NLP Cloud предлагает быстрый API преобразования речи в текст, который позволяет выполнять автоматическое распознавание речи "из коробки" на основе OpenAI Whisper Large по доступной цене.

Более подробную информацию вы найдете в нашей документации по автоматическому распознаванию речи здесь.

Одно дело - тестировать речь в тексте локально, а другое - надежно использовать ее в производстве. С NLP Cloud вы можете сделать и то, и другое!

Часто задаваемые вопросы

Что такое автоматическое распознавание речи?

Автоматическое распознавание речи (ASR) - это технология, позволяющая компьютерам или другим устройствам распознавать и транскрибировать человеческую речь в текстовые данные. Она предполагает преобразование устной речи в машиночитаемый формат, который затем может быть использован в различных приложениях, таких как транскрипция голоса в текст, голосовые команды и обработка естественного языка.

Что такое шепот?

Whisper - это продвинутая ASR-модель (преобразование речи в текст) с открытым исходным кодом, созданная OpenAI. Она способна транскрибировать аудио на 97 языках с очень высокой точностью.

Могу ли я попробовать API Whisper бесплатно?

Да, как и все модели на NLP Cloud, API Whisper можно протестировать бесплатно.

Можно ли использовать API Whisper для транскрибирования аудио на нескольких языках?

Да, Whisper способен расшифровывать аудио на 97 языках.

Добавляет ли Whisper знаки препинания автоматически?

Да

Можно ли использовать Whisper для транскрибирования аудио и автоматического перевода на другой язык?

Нет. Вам нужно будет использовать нашу конечную точку перевода после извлечения аудио: see our translation documentation here.

Возвращает ли Whisper временные метки?

Да

Поддерживает ли API Whisper живую транскрипцию (потоковую передачу токенов)?

Нет, не сейчас.

Как ваш AI API обеспечивает конфиденциальность и безопасность данных в процессе распознавания речи?

NLP Cloud уделяет особое внимание конфиденциальности данных: мы не регистрируем и не храним содержимое запросов, которые вы делаете к нашему API. NLP Cloud соответствует требованиям HIPAA и GDPR.