Sliter du med AI eller fullstack-utvikling? Ekspertene våre er her for å veilede deg: skreddersydde råd, teknisk integrasjon og mer. Ta kontakt på [email protected].

Automatisk talegjenkjenning (tale-til-tekst) Whisper API

Hva er automatisk talegjenkjenning (tale-til-tekst)?

Automatisk talegjenkjenning (også kjent som tale-til-tekst) handler om å trekke ut tekst fra en lydfil. Dette er ofte et viktig første trinn i en AI-pipeline. Det har skjedd store fremskritt de siste årene, og det er nå mulig å trekke ut tekst fra en lyd- eller videofil med stor nøyaktighet.

Her er for eksempel et kapittel fra en LibriVox-lydbok (The Metal Giants, av Edmond Hamilton), lagret på Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automatisk talegjenkjenning

Når vi utfører automatisk talegjenkjenning på denne filen i NLP Cloud, får vi følgende tekst:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Dette er et svært godt tekstutdrag, ikke bare fordi det ikke er noen stavefeil, men også fordi tegnsetting ble lagt til automatisk.

I tillegg kan du også få tidsstempler på ordnivå for å utføre underteksting.

Hvorfor bruke tale-til-tekst?

Kvaliteten på tale-til-tekst har i det siste blitt dramatisk forbedret og har ført til mange interessante anvendelser. Her er noen eksempler:

Kundestøtte

Takket være automatisk talegjenkjenning kan du nå automatisk analysere kundesamtaler og trekke ut verdifull informasjon. Du kan for eksempel automatisk få vite hvilke supportsamtaler som gikk bra, og hvilke som gikk dårlig, slik at du kan handle deretter.

Analyse av vokale budskap

Noen ganger kan det være vanskelig å svare på alle disse meldingene i tide. Men du kan automatisk analysere alle innkommende meldinger og trekke ut hensikten, kategorisere dem, registrere hvor mye det haster osv. slik at du enkelt kan tilpasse responsen.

Medisinske rapporter

Det er svært vanlig at leger tar opp samtaler med pasientene sine, eller lager et sammendrag av samtalen. Nå kan de automatisk konvertere disse rapportene til tekst og deretter gjøre flere typer etterbehandling, som oppsummering av samtaler, utvinning av entiteter osv.

Teksting av videoer

Videoer er overalt i dag. Automatisk teksting av videoer er en fin måte å øke tilgjengeligheten på og gjøre innholdet i videoen mer SEO-vennlig. I neste omgang kan du enkelt oversette undertekstene for å gjøre videoen tilgjengelig over hele verden.

Automatisk talegjenkjenning med OpenAI Whisper Large

Whisper Large er en avansert AI-modell for talegjenkjenning lansert av OpenAI for å forbedre automatisk talegjenkjenning på 97 språk.

Denne modellen oppdager automatisk språket fra lyd- eller videofilen, og den legger automatisk til tegnsetting i resultatet. Den kan også trekke ut tidsstempler på ordnivå, noe som er svært nyttig ved teksting. Du finner Whisper-prosjektet med åpen kildekode her. Denne modellen ble finjustert på populære datasett som Common Voice, Librispeech, VoxPopuli ... og er i skrivende stund den mest avanserte flerspråklige tale-til-tekst-modellen.

Whisper Large API på NLP Cloud

NLP Cloud tilbyr et raskt tale-til-tekst-API som gjør det mulig å utføre automatisk talegjenkjenning, basert på OpenAI Whisper Large, til en overkommelig pris.

For mer informasjon, se vår dokumentasjon om automatisk talegjenkjenning. her.

En ting er å teste tale-til-tekst lokalt, noe annet er å bruke det pålitelig i produksjon. Med NLP Cloud kan du gjøre begge deler!

Ofte stilte spørsmål

Hva er automatisk talegjenkjenning?

Automatisk talegjenkjenning (ASR) er en teknologi som gjør det mulig for datamaskiner eller andre enheter å gjenkjenne og transkribere menneskelig tale til tekstdata. Det innebærer at talespråk konverteres til et maskinlesbart format, som deretter kan brukes til ulike formål, for eksempel transkripsjon fra tale til tekst, talestyrte kommandoer og naturlig språkbehandling.

Hva er Whisper?

Whisper er en avansert ASR-modell (tale-til-tekst) med åpen kildekode utviklet av OpenAI. Den er i stand til å transkribere lyd på 97 språk med svært god nøyaktighet.

Kan jeg prøve Whisper API gratis?

Ja, i likhet med alle modellene på NLP Cloud kan Whisper API testes gratis.

Kan jeg bruke Whisper API til å transkribere lyd på flere språk?

Ja, Whisper kan transkribere lyd på 97 språk.

Legger Whisper automatisk til tegnsetting?

Ja

Kan jeg bruke Whisper til å transkribere lyd og automatisk oversette til et annet språk?

Nei, du må bruke oversettelsesendepunktet vårt når lyden er hentet ut: see our translation documentation here.

Returnerer Whisper tidsstemplene?

Ja

Støtter Whisper API live transkripsjon (token streaming)?

Nei, ikke for øyeblikket

Hvordan håndterer AI-API-et ditt personvern og datasikkerhet under talegjenkjenningsprosessen?

NLP Cloud er fokusert på personvern: Vi logger eller lagrer ikke innholdet i forespørslene du sender til API-et vårt. NLP Cloud er i samsvar med både HIPAA og GDPR.