Otomatik Konuşma Tanıma (Konuşmadan Metne) Whisper API

Otomatik Konuşma Tanıma (Speech-To-Text) Nedir?

Otomatik konuşma tanıma (konuşmadan metne olarak da bilinir), bir ses dosyasından metin çıkarmakla ilgilidir. Bu genellikle bir yapay zeka işlem hattında önemli bir ilk adımdır. Son birkaç yılda büyük ilerleme kaydedildi ve artık bir ses veya video dosyasından büyük bir doğrulukla metin çıkarmak mümkün.

Örneğin, Archive.org'da depolanan bir LibriVox sesli kitabından (The Metal Giants, Edmond Hamilton) bir bölüm: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Otomatik Konuşma Tanıma

NLP Cloud'da bu dosya üzerinde otomatik konuşma tanıma gerçekleştirdiğimizde aşağıdaki metni elde ederiz:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Bu çok iyi bir metin çıkarımıdır, sadece yazım hatası olmadığı için değil, aynı zamanda noktalama işaretleri otomatik olarak eklendiği için.

Ayrıca, altyazı gerçekleştirmek için kelime düzeyinde zaman damgaları da alabilirsiniz.

Neden Konuşma-Metin Kullanılmalı?

Konuşmayı metne dönüştürme kalitesi son zamanlarda önemli ölçüde artmış ve birçok ilginç uygulamaya yol açmıştır. İşte bazı örnekler:

Müşteri Desteği

Otomatik konuşma tanıma sayesinde artık müşteri çağrılarını otomatik olarak analiz edebilir ve ardından değerli bilgileri çıkarabilirsiniz. Örneğin, hangi destek görüşmelerinin iyi geçtiğini ve hangilerinin geçmediğini otomatik olarak öğrenebilir ve buna göre hareket edebilirsiniz.

Sesli Mesajların Analizi

Tüm bu sesli mesajlara zamanında yanıt vermek bazen zor olabilir. Ancak gelen her mesajı otomatik olarak analiz edebilir ve amacı çıkarabilir, kategorize edebilir, aciliyeti tespit edebilir, vb. böylece yanıtınızı kolayca uyarlayabilirsiniz.

Tıbbi Raporlar

Doktorların hastalarıyla yaptıkları görüşmeleri kaydetmeleri veya görüşmenin bir özetini kaydetmeleri çok yaygındır. Artık bu raporları otomatik olarak metne dönüştürebilir ve ardından konuşma özetleme, varlık çıkarma vb. gibi çeşitli son işlemler yapabilirler.

Videolar Altyazı

Videolar bugün her yerde. Otomatik video altyazısı, erişilebilirliği artırmanın ve videonun içeriğini daha SEO dostu hale getirmenin harika bir yoludur. İkinci bir adım olarak, videoyu dünya çapında kullanılabilir hale getirmek için altyazılarınızı kolayca çevirebilirsiniz.

OpenAI Whisper Large ile Otomatik Konuşma Tanıma

Whisper Large, 97 dilde otomatik konuşma tanımayı önemli ölçüde iyileştirmek için OpenAI tarafından piyasaya sürülen gelişmiş bir konuşma tanıma yapay zeka modelidir.

Bu model, giriş ses veya video dosyasından dili otomatik olarak algılar ve sonuca otomatik olarak noktalama işaretleri ekler. Ayrıca, altyazı için çok yararlı olan kelime düzeyinde zaman damgalarını da çıkarabilir. Whisper açık kaynak projesine buradan ulaşabilirsiniz. Bu model Common Voice, Librispeech, VoxPopuli... gibi popüler veri kümeleri üzerinde ince ayar yapılmıştır ve bu yazı itibariyle en gelişmiş çok dilli konuşmadan metne modelidir.

NLP Cloud üzerinde Whisper Large API

NLP Cloud, uygun bir fiyata OpenAI Whisper Large'a dayalı olarak kutudan çıkar çıkmaz otomatik konuşma tanıma gerçekleştirmenize olanak tanıyan hızlı bir konuşmadan metne API önermektedir.

Daha fazla ayrıntı için otomatik konuşma tanıma hakkındaki belgelerimize bakın Burada.

Yerel olarak konuşmadan metne test etmek bir şeydir, ancak bunu üretimde güvenilir bir şekilde kullanmak başka bir şeydir. NLP Cloud ile her ikisini de yapabilirsiniz!

Whisper konuşmadan metne'yi deneyin
ücretsiz

Sıkça Sorulan Sorular

Otomatik konuşma tanıma nedir?

Otomatik konuşma tanıma (ASR), bilgisayarların veya diğer cihazların insan konuşmasını tanımasını ve metinsel verilere dönüştürmesini sağlayan bir teknolojidir. Konuşma dilinin makine tarafından okunabilir bir formata dönüştürülmesini içerir; bu format daha sonra sesten metne transkripsiyon, sesle etkinleştirilen komutlar ve doğal dil işleme gibi çeşitli uygulamalar için kullanılabilir.

Whisper nedir?

Whisper, OpenAI tarafından oluşturulan gelişmiş bir açık kaynaklı ASR (konuşmadan metne) modelidir. Çok iyi bir doğrulukla 97 dilde ses transkripsiyonu yapabilmektedir.

Whisper API'yi ücretsiz deneyebilir miyim?

Evet, NLP Cloud'daki tüm modeller gibi Whisper API de ücretsiz olarak test edilebilir.

Sesi birkaç dilde yazıya dökmek için Whisper API'sini kullanabilir miyim?

Evet, Whisper 97 dilde ses transkripsiyonu yapabiliyor.

Whisper otomatik olarak noktalama işareti ekliyor mu?

Evet

Sesi yazıya dökmek ve otomatik olarak başka bir dile çevirmek için Whisper'ı kullanabilir miyim?

Hayır. Sesiniz çıkarıldıktan sonra çeviri uç noktamızı kullanmanız gerekecektir: see our translation documentation here.

Whisper zaman damgalarını döndürüyor mu?

Evet

Whisper API canlı transkripsiyonu (token streaming) destekliyor mu?

Hayır, şu an için değil.

Yapay zeka API'niz konuşma tanıma süreci sırasında veri gizliliği ve güvenliğini nasıl ele alıyor?

NLP Cloud, tasarım gereği veri gizliliğine odaklanmıştır: API'mizde yaptığınız isteklerin içeriğini kaydetmiyor veya saklamıyoruz. NLP Cloud hem HIPAA hem de GDPR uyumludur.

Whisper konuşmadan metne'yi deneyin
ücretsiz