İngilizce dışındaki dillerde doğal dil işleme gerçekleştirmek zorlu bir iştir. Günümüzde çok dilli doğal dil işleme ile harika sonuçlar elde etmek mümkün. Nihayet herkes Fransızca, Japonca, İspanyolca, Rusça, Çince, Almanca... ve çok daha fazlasında doğal dil işleme gerçekleştirebilir.

Bugün dünyada neredeyse 7000 farklı dil konuşuluyor! Her dilin kendine özgü kuralları vardır ve bazı diller çok farklı çalışabilir. Örneğin Fransızca, İspanyolca ve İtalyanca birbirine çok benzer, ancak Asya dilleriyle hiçbir ilgisi yoktur Çince ve Japonca gibi ideograflara veya sembollere dayanır.
Sonuç olarak, tüm bu dillerle başa çıkabilen dil modelleri oluşturmak için farklı teknikler kullanılmalıdır.
Kısacası, önceden eğitilmiş bazı dil katıştırmaları zaten mevcut olsa bile, farklı diller farklı vektör uzayları gerektirebilir. Bu aktif bir araştırma alanıdır.
Peki çözümler nelerdir?
İlk yaklaşım, belirli bir dil için bir model eğitmektir. Örneğin, BERT'in birkaç yeni sürümü çeşitli dillerde eğitilmiştir. Deepset AI tarafından geliştirilen German BERT, BERT'in Almanca dilinde eğitilmiş yeni bir versiyonuna iyi bir örnektir. çizik: Almanca BERT'e buradan bakabilirsiniz.
Sorun şu ki, bu teknik iyi ölçeklenemiyor. Yeni bir modelin eğitilmesi zaman alır ve çok paraya mal olur. Birkaç modeli eğitmek spaCy gibi küçük modeller için hala uygun maliyetlidir ve Explosion AI (spaCy'nin arkasındaki şirket) birçok dilde önceden eğitilmiş çeşitli modelleri sürdürmede harika bir iş çıkarıyor: daha fazlasını burada görebilirsiniz. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.
Ayrıca çıkarım açısından da iyi ölçeklenemiyor. Bir şirketin üretimde doğal dil işleme kullanması gerekiyorsa birkaç dilde, birkaç modelin bakımını yapmak ve birkaç sunucu ve GPU sağlamak zorunda kalacaktır. Bu da son derece maliyetli olabilir. Bu NLP Cloud'da bu stratejiden mümkün olduğunca kaçınmaya çalışmamızın nedenlerinden biri de budur.
İkinci bir yaklaşım ise çok dilli modellerden yararlanmaktır.
Son yıllarda, yeni çok dilli modeller ortaya çıktı ve çok doğru oldukları kanıtlandı. Bazen İngilizce olmayan belirli modellerden bile daha doğrudur. En popüler olanları mBERT, XLM ve XLM Roberta'dır. XLM Roberta en doğru çok dilli model gibi görünmektedir ve XNLI değerlendirme veri kümesinde çok iyi performans göstermektedir (bir dizi değerlendirme çok dilli modellerin kalitesini değerlendirmek için).
XLM Roberta'ya dayalı bazı çok iyi önceden eğitilmiş modeller mevcuttur. Örneğin, metin sınıflandırması için birçok dilleri arasında en iyisi XLM Roberta Large XNLI'dir: bu modeli burada görebilirsiniz.
Şu an için metin üretimi için çok dilli iyi bir model bulunmamaktadır. Örneğin GPT İngilizce'de mükemmeldir ve o kadar da kötü değildir İngilizce olmayan birkaç dilde, ancak etkileyici olmaktan uzak. Big Science şu anda çok büyük çok dilli metin oluşturma modelleri üzerinde çalışıyor. Umut verici görünüyor! Daha fazlasını burada görebilirsiniz..

Big Science çok dilli 176 milyar parametreli transformatör modelini duyurdu
Son strateji ise çeviri kullanmaktır. Buradaki fikir, İngilizce olmayan içeriğinizi İngilizceye çevirmeniz gerektiğidir, İngilizce içeriği modele gönderin ve sonucu orijinal dilinize geri çevirin.
Bu teknik kulağa bir hack gibi gelebilir, ancak avantajları vardır. Bir çeviri iş akışını sürdürmek daha az maliyetli olabilir ve dünyadaki tüm diller kolaylıkla desteklenebilir.
Son yıllarda, derin öğrenmeye dayalı gelişmiş çeviri modelleri oluşturulmuştur. Bunlar hem hızlıdır hem de çok iyi sonuçlar elde etmiştir. Örneğin, Helsinki NLP derin öğrenmeye dayalı bir dizi çeviri modeli yayınladı. En çok kullanabileceğiniz NLP Cloud'da popüler olanlar: daha fazlasını burada görebilirsiniz.
Ancak iş akışınıza çeviri eklemek genel yanıt süresini artıracaktır. Bu yüzden aşağıdakileri arıyorsanız uygun olmayabilir çok hızlı sonuçlar.
Çok dilli doğal dil işleme çözülmüş bir problem değildir, ancak son yıllarda çok fazla ilerleme kaydedilmiştir. Belirli modeller sayesinde artık İngilizce dışındaki dillerde de doğal dil işleme yapmak ve çok iyi sonuçlar elde etmek mümkün, çok dilli modeller ve çeviri.
NLP Cloud'da, birçok dilde metin anlamanın ve üretmenin çok önemli olduğuna inanıyoruz, bu nedenle özel bir eklenti yayınladık "çok dilli eklenti" olarak adlandırılır. Etkinleştirildikten sonra, tüm AI modellerimiz GPT-J gibi GPT modelleri de dahil olmak üzere 20'den fazla dilde iyi çalışabilir ve GPT-NeoX: Burada gör.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}
Julien Salinas
NLP Cloud'da CTO