Automatische spraakherkenning (spraak-naar-tekst) Whisper API

Wat is automatische spraakherkenning (spraak-naar-tekst)?

Automatische spraakherkenning (ook bekend als spraak-naar-tekst) gaat over het extraheren van tekst uit een audiobestand. Dit is vaak een belangrijke eerste stap in een AI-pijplijn. Er is de laatste jaren grote vooruitgang geboekt en het is nu mogelijk om tekst met grote nauwkeurigheid uit een audio- of videobestand te extraheren.

Hier is bijvoorbeeld een hoofdstuk uit een LibriVox audioboek (The Metal Giants, door Edmond Hamilton), opgeslagen op Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automatische spraakherkenning

Zodra we automatische spraakherkenning uitvoeren op dit bestand op NLP Cloud, krijgen we de volgende tekst:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Dit is een zeer goede tekstextractie, niet alleen omdat er geen spelfout in staat, maar ook omdat interpunctie automatisch is toegevoegd.

Daarnaast kun je ook tijdstempels op woordniveau krijgen om ondertiteling uit te voeren.

Waarom spraak-naar-tekst gebruiken?

De kwaliteit van spraak-naar-tekst is onlangs drastisch verbeterd en heeft geleid tot veel interessante toepassingen. Hier zijn enkele voorbeelden:

Klantenservice

Dankzij automatische spraakherkenning kun je klantgesprekken nu automatisch analyseren en er vervolgens waardevolle informatie uithalen. Zo weet je bijvoorbeeld automatisch welke supportgesprekken goed gingen en welke niet, zodat je daarop kunt inspelen.

Analyse van vocale boodschappen

Het is soms moeilijk om al deze vocale berichten tijdig te beantwoorden. Maar je kunt elk inkomend bericht automatisch analyseren en de intentie eruit halen, het categoriseren, de urgentie detecteren, enz. zodat je gemakkelijk je reactie kunt aanpassen.

Medische rapporten

Het is heel gebruikelijk voor artsen om hun gesprekken met hun patiënten op te nemen, of om een samenvatting van het gesprek op te nemen. Ze kunnen deze verslagen nu automatisch omzetten in tekst en vervolgens verschillende soorten nabewerking uitvoeren, zoals het samenvatten van gesprekken, entiteitsextractie, enz.

Video's Ondertiteling

Video's zijn tegenwoordig overal. Automatische video-ondertiteling is een geweldige manier om de toegankelijkheid te vergroten en de inhoud van de video SEO-vriendelijker te maken. Als tweede stap kun je eenvoudig je ondertitels vertalen om de video wereldwijd beschikbaar te maken.

Automatische spraakherkenning met OpenAI Whisper Large

Whisper Large is een geavanceerd spraakherkennings-AI model uitgebracht door OpenAI om automatische spraakherkenning in 97 talen drastisch te verbeteren.

Dit model detecteert automatisch de taal van het ingevoerde audio- of videobestand en voegt automatisch interpunctie toe aan het resultaat. Het kan ook tijdstempels op woordniveau extraheren, wat erg handig is voor ondertiteling. Je kunt het Whisper open-source project hier vinden. Dit model werd verfijnd op populaire datasets zoals Common Voice, Librispeech, VoxPopuli... en het is op dit moment het meest geavanceerde meertalige spraak-naar-tekst model.

Fluister grote API op NLP Cloud

NLP Cloud biedt een snelle spraak-naar-tekst API waarmee je out of the box automatische spraakherkenning kunt uitvoeren, gebaseerd op OpenAI Whisper Large, tegen een betaalbare prijs.

Raadpleeg voor meer informatie onze documentatie over automatische spraakherkenning hier.

Lokaal spraak-naar-tekst testen is één ding, maar het betrouwbaar in productie gebruiken is iets anders. Met NLP Cloud kunt u het gewoon allebei doen!

Probeer Fluister spraak-naar-tekst
gratis

Veelgestelde vragen

Wat is automatische spraakherkenning?

Automatische spraakherkenning (ASR) is een technologie waarmee computers of andere apparaten menselijke spraak kunnen herkennen en omzetten in tekstgegevens. Hierbij wordt gesproken taal omgezet in een machinaal leesbaar formaat, dat vervolgens kan worden gebruikt voor verschillende toepassingen zoals spraak-naar-tekst transcriptie, spraakgestuurde commando's en natuurlijke taalverwerking.

Wat is Whisper?

Whisper is een geavanceerd open-source ASR (spraak-naar-tekst) model gemaakt door OpenAI. Het is in staat om audio te transcriberen in 97 talen met een zeer goede nauwkeurigheid.

Kan ik de Whisper API gratis uitproberen?

Ja, net als alle modellen op NLP Cloud kan de Whisper API gratis worden getest.

Kan ik de Whisper API gebruiken om audio in verschillende talen te transcriberen?

Ja, Whisper kan audio in 97 talen transcriberen.

Voegt Whisper automatisch leestekens toe?

Kan ik Whisper gebruiken om audio te transcriberen en automatisch te vertalen naar een andere taal?

Nee. U moet ons vertaal-eindpunt gebruiken zodra uw audio is uitgepakt: see our translation documentation here.

Geeft Whisper de tijdstempels terug?

Ondersteunt de Whisper API live transcriptie (token streaming)?

Nee, nu nog niet

Hoe gaat jullie AI API om met gegevensprivacy en -beveiliging tijdens het spraakherkenningsproces?

NLP Cloud is gericht op data privacy by design: we loggen of slaan de inhoud van de verzoeken die je doet op onze API niet op. NLP Cloud voldoet zowel aan HIPAA als GDPR.

Probeer Fluister spraak-naar-tekst
gratis