Automatyczne rozpoznawanie mowy (mowa-tekst) Whisper API

Czym jest automatyczne rozpoznawanie mowy (mowa-tekst)?

Automatyczne rozpoznawanie mowy (znane również jako zamiana mowy na tekst) polega na wyodrębnianiu tekstu z pliku audio. Jest to często ważny pierwszy krok w potoku sztucznej inteligencji. W ciągu ostatnich kilku lat poczyniono ogromne postępy i obecnie możliwe jest wyodrębnianie tekstu z pliku audio lub wideo z dużą dokładnością.

Na przykład, oto rozdział z książki audio LibriVox (The Metal Giants, autorstwa Edmonda Hamiltona), przechowywanej na Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automatyczne rozpoznawanie mowy

Po przeprowadzeniu automatycznego rozpoznawania mowy na tym pliku w NLP Cloud, otrzymujemy następujący tekst:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Jest to bardzo dobra ekstrakcja tekstu, nie tylko dlatego, że nie ma błędów ortograficznych, ale także dlatego, że interpunkcja została dodana automatycznie.

Dodatkowo, można również uzyskać znaczniki czasu na poziomie słów, w celu tworzenia napisów.

Dlaczego warto korzystać z funkcji mowy-tekstu?

Jakość zamiany mowy na tekst uległa ostatnio znacznej poprawie i doprowadziła do wielu interesujących zastosowań. Oto kilka przykładów:

Obsługa klienta

Dzięki automatycznemu rozpoznawaniu mowy możesz teraz automatycznie analizować połączenia z klientami, a następnie wydobywać cenne informacje. Na przykład możesz automatycznie dowiedzieć się, które rozmowy z działem wsparcia poszły dobrze, a które nie, dzięki czemu możesz podjąć odpowiednie działania.

Analiza komunikatów głosowych

Czasami trudno jest odnieść się do tych wszystkich wiadomości głosowych w odpowiednim czasie. Możesz jednak automatycznie analizować każdą przychodzącą wiadomość i wyodrębniać jej intencje, kategoryzować ją, wykrywać pilność itp. dzięki czemu możesz łatwo dostosować swoją odpowiedź.

Raporty medyczne

Lekarze bardzo często nagrywają swoje rozmowy z pacjentami lub nagrywają podsumowanie dyskusji. Mogą teraz automatycznie konwertować te raporty na tekst, a następnie wykonywać kilka rodzajów przetwarzania końcowego, takich jak podsumowanie rozmowy, ekstrakcja encji itp.

Napisy do filmów

Filmy są dziś wszędzie. Automatyczne napisy do filmów to świetny sposób na zwiększenie dostępności i uczynienie treści wideo bardziej przyjazną dla SEO. W drugim kroku można łatwo przetłumaczyć napisy, aby film był dostępny na całym świecie.

Automatyczne rozpoznawanie mowy z OpenAI Whisper Large

Whisper Large to zaawansowany model sztucznej inteligencji do rozpoznawania mowy wydany przez OpenAI w celu radykalnej poprawy automatycznego rozpoznawania mowy w 97 językach.

Model ten automatycznie wykrywa język z wejściowego pliku audio lub wideo i automatycznie dodaje interpunkcję do wyniku. Może również wyodrębniać znaczniki czasu na poziomie słów, co jest bardzo przydatne w przypadku napisów. Projekt open-source Whisper można znaleźć tutaj. Model ten został dopracowany na popularnych zbiorach danych, takich jak Common Voice, Librispeech, VoxPopuli... i jest najbardziej zaawansowanym wielojęzycznym modelem zamiany mowy na tekst w chwili pisania tego tekstu.

Whisper Large API na NLP Cloud

NLP Cloud proponuje szybki interfejs API zamiany mowy na tekst, który umożliwia automatyczne rozpoznawanie mowy po wyjęciu z pudełka, w oparciu o OpenAI Whisper Large, w przystępnej cenie.

Więcej szczegółów można znaleźć w naszej dokumentacji dotyczącej automatycznego rozpoznawania mowy tutaj.

Lokalne testowanie funkcji zamiany mowy na tekst to jedno, ale niezawodne korzystanie z niej w środowisku produkcyjnym to zupełnie inna sprawa. Dzięki NLP Cloud możesz zrobić jedno i drugie!

Wypróbuj funkcję zamiany mowy na tekst Whisper
za darmo

Często zadawane pytania

Czym jest automatyczne rozpoznawanie mowy?

Automatyczne rozpoznawanie mowy (ASR) to technologia, która umożliwia komputerom lub innym urządzeniom rozpoznawanie i transkrypcję ludzkiej mowy na dane tekstowe. Polega ona na konwersji języka mówionego na format czytelny dla maszyn, który może być następnie wykorzystywany do różnych zastosowań, takich jak transkrypcja głosu na tekst, polecenia aktywowane głosem i przetwarzanie języka naturalnego.

Czym jest Whisper?

Whisper to zaawansowany model ASR (zamiany mowy na tekst) o otwartym kodzie źródłowym stworzony przez OpenAI. Jest on w stanie transkrybować dźwięk w 97 językach z bardzo dobrą dokładnością.

Czy mogę wypróbować Whisper API za darmo?

Tak, podobnie jak wszystkie modele w NLP Cloud, Whisper API można przetestować za darmo.

Czy mogę używać Whisper API do transkrypcji dźwięku w kilku językach?

Tak, Whisper jest w stanie transkrybować dźwięk w 97 językach.

Czy Whisper automatycznie dodaje znaki interpunkcyjne?

Tak

Czy mogę używać Whisper do transkrypcji audio i automatycznego tłumaczenia na inny język?

Po wyodrębnieniu dźwięku konieczne będzie skorzystanie z naszego punktu końcowego tłumaczenia: see our translation documentation here.

Czy Whisper zwraca znaczniki czasu?

Tak

Czy interfejs API Whisper obsługuje transkrypcję na żywo (przesyłanie strumieniowe tokenów)?

Nie, na razie nie

Jak interfejs AI API radzi sobie z prywatnością i bezpieczeństwem danych podczas procesu rozpoznawania mowy?

NLP Cloud koncentruje się na prywatności danych: nie rejestrujemy ani nie przechowujemy treści żądań wysyłanych przez nasze API. NLP Cloud jest zgodna zarówno z HIPAA, jak i RODO.

Wypróbuj funkcję zamiany mowy na tekst Whisper
za darmo