Bu NLP Cloud kursunda, dil yapay zekasının (Doğal Dil İşleme olarak da bilinir) tarihindeki önemli kilometre taşlarını vurguluyoruz.
İşte kursun yapısı:
Merhaba, ben bir sonraki yapay zeka projeniz için gelişmiş bir yapay zeka platformu olan NLP Cloud'dan Julien Salinas.
YZ uygulayıcıları için YZ'nin tarihini anlamak ve hangi önemli kilometre taşlarının bugün hepimizin kullandığı son teknoloji üretken modellere yol açtığını görmek ilginçtir.
Bu derste, 20. yüzyıldan günümüze dil modellerinin tarihini hızlıca gözden geçireceğim.
Yapay zeka yeni bir şey değil.
Mühendisler ve dilbilimciler 1950 civarında metin anlama için yapay zeka üzerinde çalışmaya başladılar.
Bu, 90'lı yıllara kadar sembolik doğal dil işleme dönemiydi.
O zamanlar ana motivasyon makine çevirisiydi ve yapay zeka bir dizi kurala dayanıyordu.
Bir yapay zeka algoritmasını geliştirmek, esas olarak programa daha fazla kural eklemekle ilgiliydi.
Araştırmacılar ilk sonuçları konusunda oldukça hevesliydi ve makine çevirisinin birkaç yıl içinde çözülmüş bir sorun olacağını düşünüyorlardı.
Bugün hala tam olarak çözülmüş değil.
Bu kural tabanlı sistemler, Elisa adlı ilk, çok basit sohbet robotunun da ortaya çıkmasını sağladı.
1990'dan itibaren istatistiksel NLP çağına girdik.
Yapay zekayı önceden tanımlanmış kurallar yerine istatistiklerle kullanmak, tüm senaryoları önceden düşünmek zorunda kalmadan çok daha güçlü sistemler oluşturmaya başlayabileceğimiz anlamına geliyordu.
Bu, matematiksel araştırmalardaki ilerlemenin yanı sıra yeni CPU'ların sağladığı artan hesaplama gücü sayesinde mümkün olmuştur.
Sistemler, denetimli öğrenme olarak da bilinen insan geri bildirimlerine dayalı olarak ve hatta daha sonra denetimsiz öğrenme olarak da bilinen hiçbir insan müdahalesi olmadan öğrenecektir.
Böylece internetten gelen devasa hacimdeki yapılandırılmamış verilere dayanarak ilginç modeller eğitmek mümkün oldu.
O dönemde üretimde makine öğrenimini kullanan yeni işletmeler vardı ve en popüler kullanım alanı, varlık çıkarma olarak da bilinen isimlendirilmiş varlık tanımaydı.
Sinir ağları yeni değildir.
20. yüzyılın ortalarında bazı araştırmacılar, insan beynini taklit edecek nöronlardan oluşan bir yapay zeka sistemi yaratma sezgisine sahipti.
Ancak sinir ağları ancak 2010 yılı civarında ilginç sonuçlar vermeye başladı.
GPU'lar sayesinde çok daha büyük sinir ağlarını eğitmek mümkün oldu.
Bu, derin öğrenme olarak adlandırılan dönemin başlangıcıydı.
İlk etkileyici sonuçlar, gelişmiş görüntü sınıflandırmasına olanak tanıyan konvolüsyonel sinir ağları sayesinde bilgisayarla görmeden geldi.
Dil, derin öğrenmeden ancak bir süre sonra gerçekten yararlandı.
2010 yılına ve derin öğrenmenin yükselişine kadar, dil yapay zekası esasen bir araştırma alanıydı ve çok az işletme ürünlerinde doğal dil işlemeyi kullandı.
Şimdi hangi yeni buluşun bugün hepimizin bildiği üretken yapay zeka teknolojisine yol açtığını görelim.
Dil modelleri için gerçek atılım 2017 yılında bazı Google araştırmacılarının Attention is All You Need adlı bir makale yayınlamasıyla gerçekleşti.
Bu makale, öz dikkat adı verilen yeni bir ilkeye dayanan transformatör adı verilen yeni bir tür sinir ağı mimarisini tanımlamaktadır.
Transformatör mimarisi, 2017'den bu yana gördüğümüz tüm etkileyici dil modellerinin kalbinde yer alıyor.
Bundan çok kısa bir süre sonra, ilk model Google tarafından transformatör mimarisi izlenerek eğitildi.
Bu modele BERT adı verilmiştir.
BERT, özetleme, varlık çıkarma, soru yanıtlama, çeviri ve daha fazlası gibi her türlü kullanım durumu için kullanılabilen ilk üretim sınıfı dil modeliydi.
BERT gerçekten ilginçti çünkü ilk kez transfer öğrenmede iyi olan bir model oluşturuldu.
Temel olarak model, geniş bir açıklamasız veri seti üzerinde önceden eğitilmiş ve daha sonra çok az ek veri gerektiren hızlı ince ayarlar sayesinde birçok kullanım durumunu hızlı bir şekilde öğrenebilmiştir.
OpenAI başlangıçta, transformatöre dayalı yeni bir mimari türü olan GPT'yi piyasaya süren kar amacı gütmeyen bir yapay zeka girişimiydi.
2019'da GPT-2'yi piyasaya sürdüklerinde, herkes bu metin nesil modelin yeteneklerinden etkilendi.
GPT-2 ilk üretim sınıfı üretken modeldir.
Özellikle metin tamamlama konusunda çok iyiydi.
Örneğin, Microsoft tarafından Microsoft Office'te otomatik tamamlama için kullanılmıştır.
Bu model 8 milyon web sayfası ve 7.000 kitap üzerinde eğitilmişti ve 1,5 milyar parametre içeriyordu ki bu da bugün sahip olduğumuz modellerle karşılaştırıldığında elbette çok fazla değil.
2020'de OpenAI ikinci bir devrim yaptı.
Kâr amacı güden bir şirket haline geldiler ve GPT-3 adlı güçlü bir üretici modeli piyasaya sürdüler.
GPT-3 hala GPT mimarisine dayanıyordu ancak daha fazla içerik üzerinde eğitilmişti.
175 milyar parametre içeriyordu ve binlerce GPU'nun birkaç ay boyunca eğitilmesini gerektiriyordu.
Resmi olmasa bile, araştırmacılar GPT-3 ön eğitiminin yaklaşık 5 milyon dolara mal olduğunu düşünüyor.
Her türlü kullanım durumuna hitap edebilen ilk çok yönlü jeneratif modeldi.
Bu modelden en iyi şekilde yararlanmak için artık ince ayar yapmaya bile gerek kalmadı.
Çoğu zaman, birkaç atışlık öğrenme yeterli oldu ve aslında sıfır atış öğrenme modunda bile çok iyi çalıştı.
Ardından, aynı ruhla ChatGPT ve GPT-4 geldi.
Bundan kısa bir süre sonra OpenAI başka türden yıkıcı modeller de piyasaya sürdü.
DALI sayesinde metinden güzel görüntüler üretmek mümkün oldu.
Ve Whisper sayesinde konuşmadan metne sektöründe çıtayı önemli ölçüde yükselttiler.
Bu kursta birçok farklı terim fark etmiş olabilirsiniz.
Makine öğrenimi, derin öğrenme, sinir ağları, doğal dil işleme, yapay zeka, üretken yapay zeka.
Bazıları spesifik teknik terimlerken, diğerleri sadece moda sözcüklerdir.
Ben şahsen doğal dil işlemenin bugün kullandığımız dil yapay zekası teknolojisi için doğru terim olduğunu düşünüyorum.
Ancak bu çok önemli değil.
Artık yapay zeka modellerimizin nereden geldiğine dair temel bir anlayışa sahipsiniz.