Δυσκολεύεστε με το AI ή την ανάπτυξη πλήρους πακέτου; Οι ειδικοί μας είναι εδώ για να σας καθοδηγήσουν: εξατομικευμένες συμβουλές, τεχνική ενσωμάτωση και πολλά άλλα. Επικοινωνήστε μαζί μας στο [email protected].

Αυτόματη αναγνώριση ομιλίας (ομιλία σε κείμενο) Whisper API

Τι είναι η αυτόματη αναγνώριση ομιλίας (ομιλία σε κείμενο);

Η αυτόματη αναγνώριση ομιλίας (επίσης γνωστή ως μετατροπή ομιλίας σε κείμενο) αφορά την εξαγωγή κειμένου από ένα αρχείο ήχου. Αυτό είναι συχνά ένα σημαντικό πρώτο βήμα σε έναν αγωγό τεχνητής νοημοσύνης. Τα τελευταία χρόνια έχει σημειωθεί μεγάλη πρόοδος και πλέον είναι δυνατή η εξαγωγή κειμένου από ένα αρχείο ήχου ή βίντεο με μεγάλη ακρίβεια.

Για παράδειγμα, εδώ είναι ένα κεφάλαιο από ένα ηχητικό βιβλίο LibriVox (The Metal Giants, του Edmond Hamilton), αποθηκευμένο στο Archive.org: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Αυτόματη αναγνώριση ομιλίας

Μόλις εκτελέσουμε αυτόματη αναγνώριση ομιλίας σε αυτό το αρχείο στο NLP Cloud, λαμβάνουμε το ακόλουθο κείμενο:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Πρόκειται για μια πολύ καλή εξαγωγή κειμένου, όχι μόνο επειδή δεν υπάρχει κανένα ορθογραφικό λάθος, αλλά και επειδή τα σημεία στίξης προστέθηκαν αυτόματα.

Επιπλέον, μπορείτε επίσης να λάβετε χρονοσφραγίδες σε επίπεδο λέξης, προκειμένου να εκτελέσετε υποτιτλισμό.

Γιατί να χρησιμοποιήσετε το Speech-To-Text;

Η ποιότητα της μετατροπής ομιλίας σε κείμενο έχει πρόσφατα βελτιωθεί δραματικά και έχει οδηγήσει σε πολλές ενδιαφέρουσες εφαρμογές. Ακολουθούν ορισμένα παραδείγματα:

Υποστήριξη πελατών

Χάρη στην αυτόματη αναγνώριση ομιλίας, μπορείτε πλέον να αναλύετε αυτόματα τις κλήσεις πελατών και στη συνέχεια να εξάγετε πολύτιμες πληροφορίες. Για παράδειγμα, μπορείτε να γνωρίζετε αυτόματα ποιες συζητήσεις υποστήριξης πήγαν καλά και ποιες όχι, ώστε να μπορείτε να δράσετε αναλόγως.

Ανάλυση φωνητικών μηνυμάτων

Μερικές φορές είναι δύσκολο να αντιμετωπιστούν όλα αυτά τα φωνητικά μηνύματα εγκαίρως. Μπορείτε όμως να αναλύσετε αυτόματα κάθε εισερχόμενο μήνυμα και να εξάγετε την πρόθεση, να το κατηγοριοποιήσετε, να ανιχνεύσετε τον επείγοντα χαρακτήρα του κ.λπ. ώστε να μπορείτε εύκολα να προσαρμόσετε την απάντησή σας.

Ιατρικές εκθέσεις

Είναι πολύ συνηθισμένο για τους γιατρούς να καταγράφουν τις συζητήσεις τους με τους ασθενείς τους ή να καταγράφουν μια περίληψη της συζήτησης. Μπορούν τώρα να μετατρέψουν αυτόματα αυτές τις αναφορές σε κείμενο και στη συνέχεια να κάνουν διάφορα είδη μεταγενέστερης επεξεργασίας, όπως περίληψη της συζήτησης, εξαγωγή οντοτήτων κ.λπ.

Υποτιτλισμός βίντεο

Τα βίντεο βρίσκονται παντού σήμερα. Ο αυτόματος υποτιτλισμός βίντεο είναι ένας πολύ καλός τρόπος για να αυξηθεί η προσβασιμότητα και να γίνει το περιεχόμενο του βίντεο πιο φιλικό προς το SEO. Ως δεύτερο βήμα μπορείτε εύκολα να μεταφράσετε τους υπότιτλους σας για να κάνετε το βίντεο διαθέσιμο παγκοσμίως.

Αυτόματη αναγνώριση ομιλίας με το OpenAI Whisper Large

Το Whisper Large είναι ένα προηγμένο μοντέλο τεχνητής νοημοσύνης αναγνώρισης ομιλίας που κυκλοφόρησε από την OpenAI με σκοπό να βελτιώσει δραματικά την αυτόματη αναγνώριση ομιλίας σε 97 γλώσσες.

Αυτό το μοντέλο ανιχνεύει αυτόματα τη γλώσσα από το αρχείο ήχου ή βίντεο εισόδου και προσθέτει αυτόματα σημεία στίξης στο αποτέλεσμα. Μπορεί επίσης να εξάγει χρονοσφραγίδες σε επίπεδο λέξεων, πράγμα πολύ χρήσιμο για τον υποτιτλισμό. Μπορείτε να βρείτε το έργο ανοιχτού κώδικα Whisper εδώ. Αυτό το μοντέλο τελειοποιήθηκε σε δημοφιλή σύνολα δεδομένων, όπως το Common Voice, το Librispeech, το VoxPopuli... και είναι το πιο προηγμένο πολύγλωσσο μοντέλο μετατροπής ομιλίας σε κείμενο από τη στιγμή που γράφονται αυτές οι γραμμές.

Whisper Large API στο NLP Cloud

Το NLP Cloud προτείνει ένα γρήγορο API μετατροπής ομιλίας σε κείμενο που σας επιτρέπει να εκτελείτε αυτόματη αναγνώριση ομιλίας από το κουτί, με βάση το OpenAI Whisper Large, σε προσιτή τιμή.

Για περισσότερες λεπτομέρειες, ανατρέξτε στην τεκμηρίωσή μας σχετικά με την αυτόματη αναγνώριση ομιλίας εδώ.

Το να δοκιμάζετε τοπικά τη λειτουργία ομιλίας-προς-κείμενο είναι ένα πράγμα, αλλά το να τη χρησιμοποιείτε αξιόπιστα στην παραγωγή είναι ένα άλλο πράγμα. Με το NLP Cloud μπορείτε να κάνετε και τα δύο!

Συχνές ερωτήσεις

Τι είναι η αυτόματη αναγνώριση ομιλίας;

Η αυτόματη αναγνώριση ομιλίας (ASR) είναι μια τεχνολογία που επιτρέπει σε υπολογιστές ή άλλες συσκευές να αναγνωρίζουν και να μεταγράφουν την ανθρώπινη ομιλία σε δεδομένα κειμένου. Περιλαμβάνει τη μετατροπή του προφορικού λόγου σε μορφή αναγνώσιμη από μηχανήματα, η οποία μπορεί στη συνέχεια να χρησιμοποιηθεί για διάφορες εφαρμογές, όπως μεταγραφή φωνής σε κείμενο, φωνητικές εντολές και επεξεργασία φυσικής γλώσσας.

Τι είναι το Whisper;

Το Whisper είναι ένα προηγμένο μοντέλο ASR (ομιλία σε κείμενο) ανοικτού κώδικα που δημιουργήθηκε από την OpenAI. Είναι σε θέση να μεταγράψει ήχο σε 97 γλώσσες με πολύ καλή ακρίβεια.

Μπορώ να δοκιμάσω το API του Whisper δωρεάν;

Ναι, όπως όλα τα μοντέλα στο NLP Cloud, το Whisper API μπορεί να δοκιμαστεί δωρεάν.

Μπορώ να χρησιμοποιήσω το API του Whisper για να μεταγράψω ήχο σε διάφορες γλώσσες;

Ναι, το Whisper μπορεί να μεταγράψει ήχο σε 97 γλώσσες.

Το Whisper προσθέτει αυτόματα σημεία στίξης;

Ναι

Μπορώ να χρησιμοποιήσω το Whisper για την απομαγνητοφώνηση ήχου και την αυτόματη μετάφραση σε άλλη γλώσσα;

Όχι. Θα πρέπει να χρησιμοποιήσετε το τελικό σημείο μετάφρασης μόλις εξαχθεί ο ήχος σας: see our translation documentation here.

Το Whisper επιστρέφει τις χρονοσφραγίδες;

Ναι

Υποστηρίζει το API του Whisper ζωντανή μεταγραφή (token streaming);

Όχι, όχι προς το παρόν

Πώς χειρίζεται το AI API σας το απόρρητο και την ασφάλεια των δεδομένων κατά τη διαδικασία αναγνώρισης ομιλίας;

Το NLP Cloud επικεντρώνεται στην προστασία της ιδιωτικότητας των δεδομένων από το σχεδιασμό του: δεν καταγράφουμε ούτε αποθηκεύουμε το περιεχόμενο των αιτημάτων που κάνετε στο API μας. Το NLP Cloud συμμορφώνεται τόσο με το HIPAA όσο και με το GDPR.