Automatisk talegenkendelse (tale-til-tekst) Whisper API

Hvad er automatisk talegenkendelse (tale-til-tekst)?

Automatisk talegenkendelse (også kendt som tale-til-tekst) handler om at udtrække tekst fra en lydfil. Det er ofte et vigtigt første skridt i en AI-pipeline. Der er sket store fremskridt de sidste par år, og det er nu muligt at udtrække tekst fra en lyd- eller videofil med stor nøjagtighed.

Her er for eksempel et kapitel fra en LibriVox-lydbog (The Metal Giants, af Edmond Hamilton), gemt på Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automatisk talegenkendelse

Når vi udfører automatisk talegenkendelse på denne fil i NLP Cloud, får vi følgende tekst:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Dette er en meget god tekstudtrækning, ikke kun fordi der ikke er nogen stavefejl, men også fordi tegnsætning blev tilføjet automatisk.

Derudover kan du også få tidsstempler på ordniveau for at udføre undertekstning.

Hvorfor bruge tale-til-tekst?

Kvaliteten af tale-til-tekst er for nylig blevet dramatisk forbedret og har ført til mange interessante anvendelser. Her er nogle eksempler:

Kundeservice

Takket være automatisk talegenkendelse kan du nu automatisk analysere kundeopkald og derefter udtrække værdifuld information. For eksempel kan du automatisk få at vide, hvilke supportsamtaler der gik godt, og hvilke der ikke gjorde, så du kan handle derefter.

Analyse af vokale budskaber

Det kan være svært at nå at svare på alle disse beskeder i tide. Men du kan automatisk analysere hver indgående besked og uddrage hensigten, kategorisere den, registrere hastegraden osv. så du nemt kan tilpasse dit svar.

Medicinske rapporter

Det er meget almindeligt, at læger optager deres samtaler med deres patienter eller laver et resumé af samtalen. De kan nu automatisk konvertere disse rapporter til tekst og derefter foretage forskellige former for efterbehandling, f.eks. opsummering af samtaler, udtrækning af entiteter osv.

Undertekstning af videoer

Videoer er overalt i dag. Automatisk undertekstning af videoer er en god måde at øge tilgængeligheden på og gøre videoens indhold mere SEO-venligt. Som et andet trin kan du nemt oversætte dine undertekster for at gøre videoen tilgængelig over hele verden.

Automatisk talegenkendelse med OpenAI Whisper Large

Whisper Large er en avanceret AI-model til talegenkendelse udgivet af OpenAI med henblik på dramatisk at forbedre automatisk talegenkendelse på 97 sprog.

Denne model registrerer automatisk sproget fra input-lyd- eller videofilen, og den tilføjer automatisk tegnsætning til resultatet. Den kan også udtrække tidsstempler på ordniveau, hvilket er meget nyttigt til undertekstning. Du kan finde Whisper open source-projektet her. Denne model blev finjusteret på populære datasæt som Common Voice, Librispeech, VoxPopuli ... og det er den mest avancerede flersprogede tale-til-tekst-model i skrivende stund.

Whisper Large API på NLP Cloud

NLP Cloud tilbyder en hurtig tale-til-tekst API, der giver dig mulighed for at udføre automatisk talegenkendelse ud af boksen, baseret på OpenAI Whisper Large, til en overkommelig pris.

For flere detaljer, se vores dokumentation om automatisk talegenkendelse. her.

At teste tale-til-tekst lokalt er én ting, men at bruge det pålideligt i produktionen er en anden ting. Med NLP Cloud kan du bare gøre begge dele!

Prøv Whisper tale-til-tekst
gratis

Ofte stillede spørgsmål

Hvad er automatisk talegenkendelse?

Automatisk talegenkendelse (ASR) er en teknologi, der gør det muligt for computere eller andre enheder at genkende og transskribere menneskelig tale til tekstdata. Det involverer konvertering af talesprog til et maskinlæsbart format, som derefter kan bruges til forskellige applikationer såsom stemme-til-tekst-transskription, stemmeaktiverede kommandoer og naturlig sprogbehandling.

Hvad er Whisper?

Whisper er en avanceret open source ASR-model (tale-til-tekst) skabt af OpenAI. Den er i stand til at transskribere lyd på 97 sprog med en meget god nøjagtighed.

Kan jeg prøve Whisper API gratis?

Ja, som alle modellerne på NLP Cloud kan Whisper API testes gratis.

Kan jeg bruge Whisper API til at transskribere lyd på flere sprog?

Ja, Whisper er i stand til at transskribere lyd på 97 sprog.

Tilføjer Whisper automatisk tegnsætning?

Kan jeg bruge Whisper til at transskribere lyd og automatisk oversætte til et andet sprog?

Nej, du skal bruge vores oversættelsesslutpunkt, når din lyd er udpakket: see our translation documentation here.

Returnerer Whisper tidsstemplerne?

Understøtter Whisper API live transskription (token streaming)?

Nej, ikke lige nu

Hvordan håndterer din AI API databeskyttelse og sikkerhed under talegenkendelsesprocessen?

NLP Cloud er fokuseret på databeskyttelse gennem design: Vi logger eller gemmer ikke indholdet af de anmodninger, du foretager på vores API. NLP Cloud er både HIPAA- og GDPR-kompatibel.

Prøv Whisper tale-til-tekst
gratis