Automatisk taligenkänning (tal-till-text) Whisper API

Vad är automatisk taligenkänning (tal-till-text)?

Automatisk taligenkänning (även kallat tal-till-text) handlar om att extrahera text från en ljudfil. Detta är ofta ett viktigt första steg i en AI-pipeline. Stora framsteg har gjorts under de senaste åren, och det är nu möjligt att extrahera text från en ljud- eller videofil med stor noggrannhet.

Här är till exempel ett kapitel från en LibriVox ljudbok (The Metal Giants, av Edmond Hamilton), lagrad på Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automatisk taligenkänning

När vi utför automatisk taligenkänning på den här filen på NLP Cloud får vi följande text:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Detta är en mycket bra textextrahering, inte bara för att det inte finns några stavfel, utan också för att skiljetecken lades till automatiskt.

Dessutom kan du även få tidsstämplar på ordnivå för att utföra undertextning.

Varför använda tal-till-text?

Kvaliteten på tal-till-text har nyligen förbättrats dramatiskt och har lett till många intressanta tillämpningar. Här är några exempel:

Kundtjänst

Tack vare automatisk taligenkänning kan du nu automatiskt analysera kundsamtal och sedan extrahera värdefull information. Du kan till exempel automatiskt få veta vilka supportsamtal som gick bra och vilka som gick mindre bra, så att du kan agera därefter.

Analys av vokala budskap

Ibland är det svårt att hantera alla dessa meddelanden i rätt tid. Men du kan automatiskt analysera varje inkommande meddelande och extrahera avsikten, kategorisera det, känna av hur brådskande det är osv. så att du enkelt kan anpassa ditt svar.

Medicinska rapporter

Det är mycket vanligt att läkare spelar in sina diskussioner med sina patienter, eller spelar in en sammanfattning av diskussionen. Nu kan de automatiskt konvertera dessa rapporter till text och sedan göra flera typer av efterbearbetning, t.ex. sammanfattning av samtal, entitetsextraktion osv.

Videor Undertextning

Videor finns överallt idag. Automatisk textning av video är ett bra sätt att öka tillgängligheten och göra innehållet i videon mer SEO-vänligt. Som ett andra steg kan du enkelt översätta dina undertexter för att göra videon tillgänglig över hela världen.

Automatisk taligenkänning med OpenAI Whisper Large

Whisper Large är en avancerad AI-modell för taligenkänning som släppts av OpenAI för att dramatiskt förbättra automatisk taligenkänning på 97 språk.

Den här modellen identifierar automatiskt språket från den inmatade ljud- eller videofilen och lägger automatiskt till skiljetecken i resultatet. Den kan också extrahera tidsstämplar på ordnivå, vilket är mycket användbart för undertextning. Du hittar Whisper-projektet med öppen källkod här. Modellen finjusterades på populära dataset som Common Voice, Librispeech, VoxPopuli... och är i skrivande stund den mest avancerade flerspråkiga tal-till-text-modellen.

Whisper Large API på NLP Cloud

NLP Cloud erbjuder ett snabbt API för tal-till-text som gör att du kan utföra automatisk taligenkänning direkt från start, baserat på OpenAI Whisper Large, till ett överkomligt pris.

Mer information finns i vår dokumentation om automatisk taligenkänning här.

Att testa tal-till-text lokalt är en sak, men att använda det på ett tillförlitligt sätt i produktionen är en annan sak. Med NLP Cloud kan du göra både och!

Vanliga frågor och svar

Vad är automatisk taligenkänning?

Automatisk taligenkänning (ASR) är en teknik som gör det möjligt för datorer eller andra enheter att känna igen och transkribera mänskligt tal till textdata. Det innebär att talat språk omvandlas till ett maskinläsbart format, som sedan kan användas för olika tillämpningar, t.ex. röst-till-text-transkription, röstaktiverade kommandon och bearbetning av naturligt språk.

Vad är Whisper?

Whisper är en avancerad ASR-modell (tal-till-text) med öppen källkod som skapats av OpenAI. Den kan transkribera ljud på 97 språk med mycket god noggrannhet.

Kan jag prova Whisper API gratis?

Ja, som alla modeller på NLP Cloud kan Whisper API testas gratis.

Kan jag använda Whisper API för att transkribera ljud på flera språk?

Ja, Whisper kan transkribera ljud på 97 språk.

Lägger Whisper automatiskt till skiljetecken?

Ja

Kan jag använda Whisper för att transkribera ljud och automatiskt översätta till ett annat språk?

Nej, du måste använda vår slutpunkt för översättning när ditt ljud har extraherats: see our translation documentation here.

Returnerar Whisper tidsstämplarna?

Ja

Har Whisper API stöd för livetranskription (token streaming)?

Nej, inte för tillfället

Hur hanterar ert AI-API datasekretess och datasäkerhet under taligenkänningsprocessen?

NLP Cloud fokuserar på dataintegritet genom design: vi loggar eller lagrar inte innehållet i de förfrågningar du gör på vårt API. NLP Cloud är både HIPAA- och GDPR-kompatibel.