Automaattinen puheentunnistus (puhe-teksti) Whisper API (Kuiskaus API)

Mikä on automaattinen puheentunnistus (puhe-teksti)?

Automaattinen puheentunnistus (tunnetaan myös nimellä speech-to-text) tarkoittaa tekstin poimimista äänitiedostosta. Tämä on usein tärkeä ensimmäinen vaihe tekoälyn kehittämisessä. Viime vuosina on tapahtunut suurta edistystä, ja nyt on mahdollista poimia tekstiä ääni- tai videotiedostosta suurella tarkkuudella.

Tässä on esimerkiksi luku LibriVox-äänikirjasta (The Metal Giants, Edmond Hamilton), joka on tallennettu Archive.orgiin: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automaattinen puheentunnistus

Kun suoritamme automaattisen puheentunnistuksen tälle tiedostolle NLP Cloudissa, saamme seuraavan tekstin:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Tämä on erittäin hyvä tekstin poiminta, ei ainoastaan siksi, että siinä ei ole kirjoitusvirheitä, vaan myös siksi, että välimerkit lisättiin automaattisesti.

Lisäksi voit myös saada sanatason aikaleimoja tekstitystä varten.

Miksi käyttää puhe-tekstiä?

Puheesta tekstiin -tekstin laatu on viime aikoina parantunut huomattavasti, ja se on johtanut moniin mielenkiintoisiin sovelluksiin. Seuraavassa on joitakin esimerkkejä:

Asiakastuki

Automaattisen puheentunnistuksen ansiosta voit nyt automaattisesti analysoida asiakaspuhelut ja poimia niistä arvokasta tietoa. Voit esimerkiksi automaattisesti tietää, mitkä tukikeskustelut sujuivat hyvin ja mitkä eivät, jotta voit toimia niiden mukaisesti.

Vokaaliviestien analyysi

Joskus on vaikea vastata kaikkiin näihin ääniviesteihin ajoissa. Voit kuitenkin automaattisesti analysoida jokaisen saapuvan viestin ja poimia sen tarkoituksen, luokitella sen, havaita kiireellisyyden jne., jotta voit helposti mukauttaa vastauksesi.

Lääketieteelliset raportit

On hyvin tavallista, että lääkärit kirjaavat potilaan kanssa käymänsä keskustelut tai tallentavat niistä yhteenvedon. He voivat nyt muuntaa nämä raportit automaattisesti tekstiksi ja tehdä sen jälkeen monenlaisia jälkikäsittelyjä, kuten keskustelun tiivistämisen, entiteettien poimimisen jne.

Videoiden tekstitys

Videoita on nykyään kaikkialla. Automaattinen videotekstitys on loistava tapa lisätä videon saavutettavuutta ja tehdä videon sisällöstä SEO-ystävällisempi. Toisena vaiheena voit helposti kääntää tekstityksen ja tehdä videosta maailmanlaajuisesti saatavilla olevan.

Automaattinen puheentunnistus OpenAI Whisper Large -ohjelmalla

Whisper Large on kehittynyt puheentunnistus tekoälymalli, jonka OpenAI on julkaissut parantaakseen huomattavasti automaattista puheentunnistusta 97 kielellä.

Tämä malli tunnistaa automaattisesti kielen syötetystä ääni- tai videotiedostosta ja lisää automaattisesti välimerkit tulokseen. Se voi myös poimia sanatason aikaleimat, mikä on erittäin hyödyllistä tekstitystä varten. Löydät Whisperin avoimen lähdekoodin projektin täältä. Mallia hienosäädettiin suosituilla tietokannoilla, kuten Common Voice, Librispeech, VoxPopuli..., ja se on kehittynein monikielinen puheesta tekstiin -malli tätä kirjoitettaessa.

Whisper Large API NLP Cloudissa

NLP Cloud tarjoaa nopean puheesta tekstiksi -rajapinnan, jonka avulla voit suorittaa automaattisen puheentunnistuksen suoraan laatikosta OpenAI Whisper Large -ohjelmistoon perustuen kohtuuhintaan.

Lisätietoja on automaattista puheentunnistusta koskevassa dokumentaatiossamme. täällä.

Puheesta tekstiin -toiminnon testaaminen paikallisesti on yksi asia, mutta sen luotettava käyttö tuotannossa on toinen asia. NLP Cloudin avulla voit tehdä molempia!

Kokeile Whisperin puhe-tekstiä
ilmaiseksi

Usein kysytyt kysymykset

Mitä on automaattinen puheentunnistus?

Automaattinen puheentunnistus (ASR) on tekniikka, jonka avulla tietokoneet tai muut laitteet pystyvät tunnistamaan ihmisen puheen ja muuntamaan sen tekstidataksi. Siinä puhuttu kieli muunnetaan koneellisesti luettavaan muotoon, jota voidaan sitten käyttää erilaisissa sovelluksissa, kuten puheesta tekstiksi -kirjoituksessa, ääniaktivoiduissa komennoissa ja luonnollisen kielen käsittelyssä.

Mikä on Whisper?

Whisper on OpenAI:n kehittynyt avoimen lähdekoodin ASR-malli (speech-to-text). Se pystyy transkriboimaan ääntä 97 kielellä erittäin hyvällä tarkkuudella.

Voinko kokeilla Whisper APIa ilmaiseksi?

Kyllä, kuten kaikkia NLP Cloudin malleja, Whisper API:ta voi testata ilmaiseksi.

Voinko käyttää Whisper API:ta äänen transkriptioon useilla kielillä?

Kyllä, Whisper pystyy transkriboimaan ääntä 97 kielellä.

Lisääkö Whisper automaattisesti välimerkit?

Kyllä

Voinko käyttää Whisperiä äänen transkriptioon ja automaattiseen kääntämiseen toiselle kielelle?

Ei. Sinun täytyy käyttää käännös päätepiste, kun ääni on purettu: see our translation documentation here.

Palauttaako Whisper aikaleimat?

Kyllä

Tukeeko Whisper API suoraa transkriptiota (token streaming)?

Ei, ei tällä hetkellä

Miten tekoälyrajapintasi käsittelee tietosuojaa ja tietoturvaa puheentunnistusprosessin aikana?

NLP Cloud on keskittynyt tietosuojaan: emme kirjaa emmekä tallenna API-pyyntöjesi sisältöä. NLP Cloud on sekä HIPAA- että GDPR-vaatimusten mukainen.

Kokeile Whisperin puhe-tekstiä
ilmaiseksi