Haben Sie Probleme mit KI oder Full-Stack-Entwicklung? Unsere Experten sind für Sie da: maßgeschneiderte Beratung, technische Integration und mehr. Erreichen Sie uns unter [email protected].

Automatische Spracherkennung (Speech-To-Text) Whisper API

Was ist automatische Spracherkennung (Speech-To-Text)?

Bei der automatischen Spracherkennung (auch bekannt als Sprache-zu-Text) geht es um die Extraktion von Text aus einer Audiodatei. Dies ist oft ein wichtiger erster Schritt in einer KI-Pipeline. In den letzten Jahren wurden große Fortschritte erzielt, und es ist nun möglich, Text mit großer Genauigkeit aus einer Audio- oder Videodatei zu extrahieren.

Hier ist zum Beispiel ein Kapitel aus einem LibriVox-Hörbuch (The Metal Giants, von Edmond Hamilton), das auf Archive.org gespeichert ist: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Automatische Spracherkennungssysteme

Wenn wir diese Datei in der NLP Cloud einer automatischen Spracherkennung unterziehen, erhalten wir den folgenden Text:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Dies ist eine sehr gute Textextraktion, nicht nur weil es keinen Rechtschreibfehler gibt, sondern auch weil die Interpunktion automatisch hinzugefügt wurde.

Darüber hinaus können Sie auch Zeitstempel auf Wortebene abrufen, um eine Untertitelung durchzuführen.

Warum Speech-To-Text verwenden?

Die Qualität von Sprache-zu-Text hat sich in letzter Zeit dramatisch verbessert und zu vielen interessanten Anwendungen geführt. Hier sind einige Beispiele:

Kundenbetreuung

Dank der automatischen Spracherkennung können Sie jetzt Kundenanrufe automatisch analysieren und daraus wertvolle Informationen gewinnen. So wissen Sie zum Beispiel automatisch, welche Supportgespräche gut gelaufen sind und welche nicht, sodass Sie entsprechend handeln können.

Analyse stimmlicher Botschaften

Es ist manchmal schwierig, all diese lautstarken Nachrichten rechtzeitig zu beantworten. Aber Sie können jede eingehende Nachricht automatisch analysieren und die Absicht extrahieren, sie kategorisieren, die Dringlichkeit erkennen usw., sodass Sie Ihre Antwort leicht anpassen können.

Medizinische Berichte

Es ist sehr üblich, dass Ärzte ihre Gespräche mit ihren Patienten aufzeichnen oder eine Zusammenfassung des Gesprächs aufzeichnen. Sie können diese Berichte nun automatisch in Text umwandeln und dann verschiedene Arten der Nachbearbeitung wie Gesprächszusammenfassung, Entitätsextraktion usw. vornehmen.

Videos Untertitelung

Videos sind heute allgegenwärtig. Die automatische Untertitelung von Videos ist eine gute Möglichkeit, die Zugänglichkeit zu erhöhen und den Inhalt des Videos SEO-freundlicher zu gestalten. In einem zweiten Schritt können Sie Ihre Untertitel leicht übersetzen, um das Video weltweit verfügbar zu machen.

Automatische Spracherkennung mit OpenAI Whisper Large

Whisper Large ist ein fortschrittliches KI-Modell für die Spracherkennung, das von OpenAI veröffentlicht wurde, um die automatische Spracherkennung in 97 Sprachen drastisch zu verbessern.

Dieses Modell erkennt automatisch die Sprache aus der eingegebenen Audio- oder Videodatei und fügt dem Ergebnis automatisch Interpunktion hinzu. Es kann auch Zeitstempel auf Wortebene extrahieren, was für die Untertitelung sehr nützlich ist. Das Open-Source-Projekt Whisper finden Sie hier. Dieses Modell wurde an beliebten Datensätzen wie Common Voice, Librispeech, VoxPopuli... feinabgestimmt und ist zum Zeitpunkt der Erstellung dieses Artikels das fortschrittlichste mehrsprachige Sprache-zu-Text-Modell.

Whisper Large API auf NLP Cloud

NLP Cloud bietet eine schnelle Sprache-zu-Text-API, die es Ihnen ermöglicht, automatische Spracherkennung auf der Grundlage von OpenAI Whisper Large zu einem erschwinglichen Preis durchzuführen.

Weitere Einzelheiten finden Sie in unserer Dokumentation zur automatischen Spracherkennung hier.

Sprache-zu-Text lokal zu testen ist eine Sache, sie aber zuverlässig in der Produktion einzusetzen eine andere. Mit NLP Cloud können Sie einfach beides tun!

Häufig gestellte Fragen

Was ist automatische Spracherkennung?

Automatische Spracherkennung (ASR) ist eine Technologie, die es Computern oder anderen Geräten ermöglicht, menschliche Sprache zu erkennen und in Textdaten umzuwandeln. Dabei wird gesprochene Sprache in ein maschinenlesbares Format umgewandelt, das dann für verschiedene Anwendungen verwendet werden kann, z. B. für die Umwandlung von Sprache in Text, sprachgesteuerte Befehle und die Verarbeitung natürlicher Sprache.

Was ist Whisper?

Whisper ist ein fortschrittliches Open-Source-ASR-Modell (Sprache-zu-Text), das von OpenAI entwickelt wurde. Es ist in der Lage, Audio in 97 Sprachen mit einer sehr guten Genauigkeit zu transkribieren.

Kann ich die Whisper API kostenlos testen?

Ja, wie alle Modelle auf NLP Cloud kann auch die Whisper API kostenlos getestet werden.

Kann ich die Whisper API verwenden, um Audio in mehreren Sprachen zu transkribieren?

Ja, Whisper ist in der Lage, Audiodaten in 97 Sprachen zu transkribieren.

Fügt Whisper automatisch Satzzeichen hinzu?

Ja

Kann ich Whisper verwenden, um Audiodaten zu transkribieren und automatisch in eine andere Sprache zu übersetzen?

Nein. Sie müssen unseren Übersetzungsendpunkt verwenden, sobald Ihr Audio extrahiert ist: see our translation documentation here.

Gibt Whisper die Zeitstempel zurück?

Ja

Unterstützt die Whisper-API die Live-Transkription (Token-Streaming)?

Nein, im Moment nicht

Wie geht Ihre KI-API mit dem Datenschutz und der Sicherheit während des Spracherkennungsprozesses um?

NLP Cloud konzentriert sich auf den Datenschutz: wir protokollieren oder speichern den Inhalt der Anfragen, die Sie an unsere API stellen, nicht. NLP Cloud ist sowohl mit dem HIPAA als auch mit der GDPR konform.