ChatGPT Açık Kaynak Alternatifleri

ChatGPT, OpenAI tarafından GPT-3.5 ve GPT-4 modellerine dayanan gelişmiş bir sohbet robotu motorudur. Güçlü bir modeldir, ancak açık kaynaklı alternatifleri düşünmek ilginç olabilir.

ChatGPT'ye açık kaynaklı alternatiflerin araştırılması, özel ihtiyaçlara veya projelere göre özelleştirme ve uyarlama yapılmasına olanak tanıyarak potansiyel olarak veri gizliliğini korurken teknoloji üzerinde daha fazla kontrol sağlar. Açık kaynaklı modeller şeffaflık sağlar ve kullanıcıların yapay zeka modelinin altında yatan mekanizmaları anlamasına olanak tanır.

Günümüzde LLaMA 3, Mixtral 8x7B, Yi 34B ve DBRX gibi çok iyi açık kaynaklı ChatGPT alternatifleri mevcuttur. Bu alternatifleri inceleyelim.

Üretken Yapay Zeka Modelleri: Nasıl Çalışıyorlar

ChatGPT, Transformer mimarisine dayanan modern üretken yapay zeka modelleri olan GPT-3.5 ve GPT-4'ten türetilmiştir. Transformatör mimarisi, 2017 yılında Google tarafından icat edilen özel bir sinir ağı türüdür. Daha fazlasını burada görebilirsiniz.

Üretken yapay zeka modelleri temel olarak belirli bir girdiye dayalı olarak bazı metinler üretmede iyidir. Girdinize bağlı olarak, yapay zeka modelinize sizin için çeşitli şeyler yapmasını söyleyebilirsiniz. Örneğin, modelinizden bir metin parçasını kategorize etmesini, bir metin parçasından belirli varlıkları çıkarmasını, büyük içerikleri özetlemesini, bazı içerikleri yeniden ifade etmesini, soruları yanıtlamasını... ve tabii ki bir sohbet robotu olarak hareket etmesini isteyebilirsiniz.

Aşağıda tanıtılan tüm modeller "temel" modellerdir, yani talimatlarınızı düzgün bir şekilde takip etmek için genellikle birkaç atışlık öğrenme veya ince ayar gerektiren ham modellerdir. Bu aynı zamanda bu modellerin varsayılan olarak herhangi bir kısıtlama uygulamadığı anlamına gelir.

Bu üretken yapay zeka modellerinden nasıl daha derinlemesine yararlanılacağını anlamak için, üretken modellerin az vuruşlu öğrenme ile nasıl kullanılacağına ilişkin kılavuzumuzu okumanızı öneririz: buradan okuyun.

ChatGPT, bir sohbet robotu gibi davranması için özel olarak talimat verilen üretken bir modeldir. Bu makalenin geri kalanında ChatGPT'ye açık kaynaklı alternatifleri inceleyeceğiz. Bunları konuşma modunda kullanmak için ya konuşma yapay zekası için birkaç atışlık öğrenme kullanmanız ya da ince ayar yapmanız gerekecektir. Diyaloğa dayalı yapay zeka için birkaç vuruşluk öğrenme hakkında daha fazla bilgi edinin. İnce ayar hakkında daha fazla bilgiyi buradan edinebilirsiniz.

Meta tarafından LLaMA 3

Meta, boyutları 7 ila 70 milyar parametre arasında değişen, önceden eğitilmiş ve ince ayarlanmış bir üretici metin modelleri paketi olan LLaMA 3 serisi büyük dil modellerini (LLM'ler) piyasaya sürdü. Bu modellerin Llama-2-Chat olarak bilinen sohbet için özel olarak ince ayarlanmış versiyonları diyalog uygulamaları için tasarlanmıştır. Serbestçe kullanılabilen sohbet modelleriyle karşılaştırıldığında, Llama-2-Chat modelleri değerlendirilen çoğu kıyaslama ölçütünde üstün performans göstermekte ve kullanışlılık ve güvenlik değerlendirmelerimize göre ChatGPT ve PaLM gibi iyi bilinen bazı tescilli modellerin performansıyla eşleşmektedir.

LLaMA 3, geliştirilmiş bir transformatör çerçevesi üzerine inşa edilmiş otomatik regresif bir dil modeli içermektedir. Geliştirilmiş versiyonları, kullanışlılık ve güvenlikle ilgili insan beklentileriyle daha iyi uyum sağlamak için denetimli ince ayar (SFT) ve insan geri bildirimli takviyeli öğrenmeden (RLHF) geçmektedir.

LLaMA 3'ün geliştirilmesi Ocak ayından Temmuz 2023'e kadar sürmüş ve ön eğitim aşamasında kamuya açık verilerden 2 trilyondan fazla token kullanılmıştır. İnce ayar aşamasında kamuya açık talimat veri kümeleri kullanıldı ve insanlar tarafından açıklanan bir milyondan fazla yeni örnek dahil edildi. Ön eğitim veya ince ayar aşamalarında kullanılan verilerin hiçbiri Meta'nın kullanıcı verilerinden gelmemektedir. Ön eğitim verileri Eylül 2022'ye kadar toplanırken, ince ayar için kullanılan verilerin bir kısmı Temmuz 2023'e kadar uzanan daha yeni verilerdir.

LLaMA 3, öncelikle İngilizce dilinde hem ticari hem de araştırma uygulamaları için tasarlanmıştır. İnce ayarlı modeller, dijital asistanlara benzer sohbet uygulamaları oluşturmak için uyarlanırken, önceden eğitilmiş modeller çeşitli doğal dil oluşturma kullanımları için ayarlanabilecek kadar çok yönlüdür.

LLaMA 3'ü NLP Cloud üzerinde kolayca kullanabilirsiniz: burada deneyin.

Mistral AI tarafından Mixtral 8x7B

Mixtral, değerlendirmelerin çoğunda LLaMA 3 70B'yi geride bırakıyor ve altı kat daha hızlı çıkarım oranları sunuyor. Açık erişime sahip en güçlü model ve maliyet verimliliği göz önünde bulundurulduğunda en iyi seçim olarak öne çıkmaktadır. Özellikle, tanınmış testlerin çoğunda GPT3.5'in performansına eşit veya daha yüksektir.

Mixtral'in yetenekleri arasında 32 bine kadar jetonu sorunsuz bir şekilde yönetmek, İngilizce, Fransızca, İtalyanca, Almanca ve İspanyolca gibi birden fazla dili desteklemek, olağanüstü kod oluşturma yetenekleri sergilemek ve MT-Bench'te 8,3 puan elde ederek talimatları takip etmek için ince ayar yapma yeteneği bulunmaktadır.

Mixtral, özünde seyrek bir uzmanlar karışımı ağıdır ve yalnızca kod çözücü bir model olarak işlev görür. Yapısı, ileri besleme bloğu içinde 8 farklı parametre grubunun seçilmesine izin verir. Her katmandaki özel bir yönlendirici ağ, her bir belirteci işlemek için bu gruplardan ikisini veya "uzmanları" seçer ve sonuçlarını eklemeli bir şekilde birleştirir.

Bu yöntem, her bir token için mevcut parametrelerin yalnızca bir kısmını kullanarak maliyet ve gecikmeyi verimli bir şekilde yönetirken bir modelin parametrelerinin genişletilmesini sağlar. Özellikle, Mixtral toplam 46,7 milyar parametreye sahiptir ancak token başına yalnızca 12,9 milyar parametre uygular ve böylece 12,9 milyarlık bir modele eşdeğer işlem hızı ve maliyet elde eder.

Mixtral, uzmanların ve yönlendiricilerin eğitiminin eş zamanlı olarak gerçekleştiği kamuya açık internetten alınan veriler kullanılarak geliştirilmiştir.

Mixtral 8x7B'yi NLP Cloud üzerinde kolayca deneyebilirsiniz: burada deneyin.

01 AI tarafından Yi 34B

Yi serisi modeller, 01.AI tarafından sıfırdan geliştirilen açık kaynaklı büyük dil modellerindeki en son gelişmeyi temsil etmektedir. İki dilli kullanımı hedefleyen bu modeller, 3 terabaytlık çok dilli devasa bir veri kümesi üzerinde eğitilmiş olup, dili anlama, muhakeme etme ve okuduğunu anlama konularında güçlü yeteneklere sahip küresel çapta en güçlü büyük dil modelleri arasında yer almaktadır.

Yi-34B-Chat modeli, GPT-4 Turbo'nun hemen arkasında ikinci sırayı aldı ve AlpacaEval Liderlik Tablosunda GPT-4, Mixtral ve Claude gibi diğer büyük dil modellerini geride bıraktı; bu sıralama Ocak 2024'e kadar olan verilere dayanmaktadır. Açık kaynaklı modeller açısından Yi-34B, Kasım 2023'e kadar olan verilerin değerlendirildiği Hugging Face Open LLM Leaderboard (önceden eğitilmiş) ve C-Eval'deki sıralamalara göre Falcon-180B, Llama-70B ve Claude gibi modelleri geride bırakarak çeşitli kıyaslamalarda hem İngilizce hem de Çince dil görevleri için en üst sırada yer aldı.

Llama model mimarisine benzer şekilde yapılandırılan Yi serisi, kullanıcıların Llama için tasarlanmış mevcut araç, kütüphane ve kaynak ekosistemine erişmesine ve bunları kullanmasına olanak tanır. Bu uyumluluk, geliştiriciler için süreci basitleştirerek yeni araç geliştirme ihtiyacını ortadan kaldırır ve geliştirme süreçlerinde verimliliği artırır.

Yi 34B'yi NLP Cloud'da kolayca deneyebilirsiniz: burada deneyin.

DBRX by Databricks

DBRX, yalnızca kod çözmeye odaklanan bir dönüştürücü mimarisi üzerine inşa edilmiş büyük bir dil modelidir ve eğitimi için sonraki sözcük tahmini olarak bilinen bir yöntem kullanır. Ayrıntılı bir uzmanlar karışımı (MoE) yapısına sahiptir ve herhangi bir girdi için 36 milyarı kullanılan toplam 132 milyar parametreye sahiptir. Model, Aralık 2023'teki bir kesintiye kadar hem metin hem de kodu kapsayan 12 trilyon jetondan oluşan geniş bir külliyat üzerinde ön eğitimden geçirildi. Bu eğitim verisi karışımı, önemli bir kısmı İngilizce olmak üzere, doğal dilin yanı sıra kodlama örneklerini de içermektedir.

DBRX, Mixtral-8x7B ve Grok-1 gibi 8 uzmana sahip olan ancak yalnızca 2 uzman seçen diğer MoE modellerinin aksine, 16 uzmanla çalışan ve her görev için 4 uzman seçen uzman kullanımındaki ince taneli yaklaşımıyla öne çıkmaktadır. Bu yaklaşım 65 kat daha fazla potansiyel uzman kombinasyonu sağlayarak modelin performansında kayda değer bir artışa yol açmaktadır. DBRX, işlemleri için döner konum kodlamaları (RoPE), geçitli doğrusal birimler (GLU) ve gruplandırılmış sorgu dikkati (GQA) gibi gelişmiş özellikler içermektedir.

Ön eğitimi için DBRX, titizlikle derlenmiş bir veri setinden 12 trilyon token ile beslendi ve bağlam aralığı 32.000 token'a kadar uzandı. Arkasındaki ekip olan Databricks, bu veri setinin MPT model ailesi için kullanılan verilere kıyasla token başına iki kat daha fazla kalite sunduğuna inanıyor.

Veri seti, verilerin işlenmesi için Apache Spark™ ve Databricks notebook'larının yanı sıra verilerin yönetilmesi ve idare edilmesi için Unity Catalog'u içeren Databricks'in kapsamlı araç seti kullanılarak oluşturuldu. Databricks, ön eğitim aşamasında bir müfredat öğrenme yaklaşımı uygulayarak veri karışımını modelin kalitesini önemli ölçüde artıracak şekilde ayarladı.

DBRX yalnızca metin tabanlı girdileri işlemek üzere programlanmıştır ve 32.768 jeton uzunluğuna kadar girdileri işleme kapasitesine sahiptir.

Sonuç

ChatGPT, çok gelişmiş soruları yanıtlayabilen inanılmaz bir chatbot motorudur. Bu yapay zeka motoru aslında birçok alanda çoğu insandan bile daha alakalı.

Bununla birlikte, ChatGPT veri gizliliği sorunlarına yol açabilir ve birçok kullanım durumu için kısıtlıdır. ChatGPT'yi en gelişmiş açık kaynak alternatifleriyle karşılaştırmak ilginçtir: LLaMA 3, Mixtral 8x7B, Yi 34B ve DBRX. Ve hiç şüphe yok ki daha da gelişmiş açık kaynaklı yapay zeka modelleri yakında piyasaya sürülecek.

LLaMA 3, Yi 34B ve Mixtral 8x7B'yi üretimde kullanmak istiyorsanız, NLP Cloud API'sini denemekten çekinmeyin (burada deneyin)!

Juliette
NLP Cloud'da pazarlama müdürü