A ChatGPT nyílt forráskódú alternatívái

A ChatGPT egy fejlett chatbot motor, amely az OpenAI GPT-3.5 és GPT-4 modelljein alapul. Ez egy nagy teljesítményű modell, de érdekes lehet megvizsgálni a nyílt forráskódú alternatívákat.

A ChatGPT nyílt forráskódú alternatíváinak feltárása lehetővé teszi a testreszabást és az egyedi igényekhez vagy projektekhez való alkalmazkodást, ami potenciálisan nagyobb ellenőrzést biztosít a technológia felett, miközben megőrzi az adatvédelmet. A nyílt forráskódú modellek biztosítják az átláthatóságot, és lehetővé teszik a felhasználók számára, hogy megértsék a mesterséges intelligencia modell mögöttes mechanizmusait.

Ma már nagyon jó nyílt forráskódú ChatGPT alternatívák állnak rendelkezésre, mint például a LLaMA 3, a Mixtral 8x7B, a Yi 34B és a DBRX. Vizsgáljuk meg ezeket az alternatívákat.

Chatbot

Generatív AI modellek: Hogyan működnek

A ChatGPT a GPT-3.5 és GPT-4, a Transformer architektúrán alapuló modern generatív AI modellekből származik. A Transformer architektúra a neurális hálózatok egy speciális típusa, amelyet a Google 2017-ben talált fel. További részletek itt.

A generatív mesterséges intelligencia modellek alapvetően arra jók, hogy egy adott bemenet alapján szöveget generáljanak. A bemenettől függően az AI-modellnek különböző dolgokat mondhat, hogy tegyen meg Ön helyett. Például megkérheti a modelljét, hogy kategorizáljon egy szövegrészletet, vonjon ki bizonyos entitásokat egy szövegből, foglaljon össze nagy tartalmakat, parafrazáljon valamilyen tartalmat, válaszoljon kérdésekre... és persze működjön chatbotként.

Az alább bemutatott modellek mindegyike "alapozó" modell, ami azt jelenti, hogy nyers modellek, amelyek általában néhány lövéses tanulást vagy finomhangolást igényelnek ahhoz, hogy megfelelően kövessék az utasításokat. Ez azt is jelenti, hogy ezek a modellek alapértelmezésben nem hajtanak végre semmiféle korlátozást.

Annak érdekében, hogy megértse, hogyan lehet ezeket a generatív AI-modelleket mélyebben kihasználni, javasoljuk, hogy olvassa el a generatív modellek használatáról szóló útmutatónkat, amely a néhány lövéses tanulásról szól: itt olvasható.

A ChatGPT egy generatív modell, amelyet kifejezetten arra utasítottak, hogy chatbotként viselkedjen. A cikk további részében a ChatGPT nyílt forráskódú alternatíváit fogjuk megvizsgálni. Ahhoz, hogy ezeket társalgási üzemmódban használhassa, vagy a társalgási AI néhány lövéses tanulását, vagy finomhangolást kell alkalmaznia. Itt tudhat meg többet a beszélgetésalapú mesterséges intelligenciához szükséges néhány lépéses tanulásról. A finomhangolásról itt tudhat meg többet.

LLaMA 3 a Meta által

A Meta elindította a nagyméretű nyelvi modellek (LLaMA 3) sorozatát, amely egy olyan generatív szövegmodellekből álló, előre betanított és finomhangolt sorozat, amelynek mérete 7 és 70 milliárd paraméter között változik. E modellek kifejezetten társalgásra finomhangolt változatait, a Llama-2-Chat nevet viselő változatokat párbeszédes alkalmazásokhoz tervezték. A szabadon elérhető csevegőmodellekkel összehasonlítva a Llama-2-Chat modellek a legtöbb értékelt benchmarkban jobb teljesítményt mutatnak, és a hasznosság és biztonság értékelése alapján megfelelnek néhány jól ismert, saját fejlesztésű modell, például a ChatGPT és a PaLM teljesítményének.

A LLaMA 3 egy továbbfejlesztett transzformációs keretrendszerre épülő automatikus regresszív nyelvi modellt tartalmaz. Továbbfejlesztett változatai felügyelt finomhangoláson (SFT) és emberi visszajelzéssel történő megerősített tanuláson (RLHF) esnek át, hogy jobban igazodjanak az emberi elvárásokhoz a hasznosság és a biztonság tekintetében.

A LLaMA 3 fejlesztése 2023 januárjától júliusáig tartott, és az előképzési fázisban több mint 2 trillió tokent használtak fel a nyilvánosság számára hozzáférhető adatokból. A finomhangolási fázis nyilvánosan elérhető utasítási adathalmazokat használt, és több mint egymillió új, emberek által jegyzetelt példát tartalmazott. Sem az előképzési, sem a finomhangolási fázisban felhasznált adatok egyike sem származik a Meta felhasználói adataiból. Míg az előképzési adatokat 2022 szeptemberéig gyűjtötték, addig a finomhangoláshoz használt adatok egy része frissebb, 2023 júliusáig terjedt.

Az LLaMA 3 kereskedelmi és kutatási célú alkalmazásokra egyaránt alkalmas, elsősorban angol nyelven. A finomhangolt modellek a digitális asszisztensekhez hasonló csevegőalkalmazások létrehozására vannak szabva, míg az előre betanított modellek elég sokoldalúak ahhoz, hogy különféle természetes nyelvi generálási célokra lehessen őket beállítani.

A LLaMA 3-at könnyedén használhatod az NLP Cloudon: próbálja ki itt.

Mixtral 8x7B a Mistral AI-tól

A Mixtral az értékelések többségében felülmúlja az LLaMA 3 70B-t, és hatszor gyorsabb következtetési sebességet biztosít. A nyílt hozzáféréssel rendelkező legerősebb modellként tűnik ki, és a költséghatékonyságot figyelembe véve a legjobb választás. Konkrétan a legtöbb elismert tesztben eléri vagy meghaladja a GPT3.5 teljesítményét.

A Mixtral képességei közé tartozik az akár 32k tokenek zökkenőmentes kezelése, több nyelv, például angol, francia, olasz, olasz, német és spanyol támogatása, kivételes kódgenerálási képességek és az utasítások követésére való finomhangolás képessége, amely 8,3-as pontszámot ért el az MT-Bench-en.

A Mixtral alapvetően egy ritka szakértői hálózat, amely csak dekódoló modellként működik. Szerkezete lehetővé teszi 8 különböző paramétercsoport kiválasztását a feedforward blokkban. Egy dedikált útválasztó hálózat minden rétegben kiválaszt két ilyen csoportot, vagy "szakértőt", hogy feldolgozzon minden egyes tokent, és additív módon kombinálja eredményeiket.

Ez a módszer lehetővé teszi a modell paramétereinek bővítését, miközben hatékonyan kezeli a költségeket és a késleltetést azáltal, hogy minden egyes tokenhez csak a rendelkezésre álló paraméterek egy részét használja fel. Konkrétan, a Mixtral összesen 46,7B paraméterrel rendelkezik, de tokenenként csak 12,9B paramétert alkalmaz, így elérve a 12,9B modellnek megfelelő feldolgozási sebességet és költséget.

A Mixtralt a nyilvános internet adatainak felhasználásával fejlesztették ki, a szakértők és a routerek képzése egyidejűleg történt.

A Mixtral 8x7B-t könnyedén kipróbálhatod az NLP Cloudon: próbálja ki itt.

Yi 34B által 01 AI

A Yi sorozatú modellek a 01.AI által az alapoktól kezdve kifejlesztett nyílt forráskódú nagy nyelvi modellek legújabb fejlesztését képviselik. Ezeket a kétnyelvű használatra szánt modelleket egy hatalmas, 3 terabájtos, többnyelvű adathalmazon képeztük ki, és ezzel a világ legerősebb nagy nyelvi modelljei közé soroltuk őket, amelyek erős képességekkel rendelkeznek a nyelv megértésében, az érvelésben és az olvasásértésben.

A Yi-34B-Chat modell a második helyet szerezte meg, közvetlenül a GPT-4 Turbo mögött, és megelőzte a többi nagy nyelvi modellt, mint a GPT-4, a Mixtral és a Claude az AlpacaEval Leaderboardon, ez a rangsor a 2024 januárjáig terjedő adatokon alapul. Ami a nyílt forráskódú modelleket illeti, a Yi-34B több benchmarkban is az első helyet szerezte meg mind az angol, mind a kínai nyelvi feladatok esetében, olyan modelleket megelőzve, mint a Falcon-180B, a Llama-70B és a Claude, a Hugging Face Open LLM Leaderboard (pre-trained) és a C-Eval rangsorai szerint, a 2023 novemberéig figyelembe vett adatok alapján.

A Llama modell architektúrájához hasonlóan felépített Yi sorozat lehetővé teszi a felhasználók számára, hogy hozzáférjenek a Llama számára tervezett eszközök, könyvtárak és erőforrások meglévő ökoszisztémájához és használják azokat. Ez a kompatibilitás leegyszerűsíti a fejlesztők számára a folyamatot, megszünteti az új eszközök fejlesztésének szükségességét, és növeli a fejlesztési folyamatok termelékenységét.

A Yi 34B-t könnyedén kipróbálhatod az NLP Cloudon: próbálja ki itt.

DBRX a Databricks által

A DBRX egy nagyméretű nyelvi modell, amely egy transzformátor-architektúrára épül, és kizárólag a dekódolásra összpontosít, és a képzéshez a next-token prediction nevű módszert alkalmazza. Részletes szakértői keverék (MoE) struktúrával rendelkezik, amely összesen 132 milliárd paraméterrel büszkélkedhet, amelyből 36 milliárdot használnak fel egy adott bemenethez. A modell egy hatalmas, 12 trillió tokenből álló, szöveget és kódot egyaránt magában foglaló korpuszon esett át előzetes tréningeken, egészen 2023 decemberéig. A képzési adatok e keveréke kiemelkedő mértékben tartalmaz természetes nyelvi és kódolási példákat, jelentős részben angol nyelven.

A DBRX kiemelkedik a szakértők felhasználásának finom szemléletű megközelítésével, mivel 16 szakértővel dolgozik, és minden feladathoz 4 szakértőt választ ki, szemben más MoE modellekkel, mint a Mixtral-8x7B és a Grok-1, amelyek 8 szakértővel dolgoznak, de csak 2 szakértőt választanak ki. Ez a megközelítés 65-ször több lehetséges szakértői kombinációt eredményez, ami a modell teljesítményének jelentős javulását eredményezi. A DBRX olyan fejlett funkciókat épít be a műveleteihez, mint a rotációs helyzetkódolás (RoPE), a gated lineáris egységek (GLU) és a csoportosított lekérdezési figyelem (GQA).

A DBRX-et az előképzéshez 12 trillió tokent tápláltak egy aprólékosan összeállított adathalmazból, amelynek kontextus-tartománya 32 000 tokenig terjedt. A mögötte álló csapat, a Databricks úgy véli, hogy ez az adathalmaz kétszer jobb minőséget kínál tokenenként, mint az MPT modellcsaládhoz használt adatok.

Az adatkészletet a Databricks átfogó eszközkészletével hozták létre, amely magában foglalja az Apache Spark™ és a Databricks notebookokat az adatok feldolgozásához, valamint a Unity Catalogot az adatok kezeléséhez és irányításához. A Databricks az előképzési fázisban tananyagtanulási megközelítést alkalmazott, és az adatmixet olyan módon igazította ki, amely jelentősen feljavította a modell minőségét.

A DBRX úgy van programozva, hogy csak szövegalapú bemeneteket dolgozzon fel, és legfeljebb 32 768 token hosszúságú bemenetet képes kezelni.

Következtetés

A ChatGPT egy csodálatos chatbot motor, amely képes nagyon fejlett kérdésekre válaszolni. Ez a mesterséges intelligenciamotor valójában még az emberek többségénél is relevánsabb számos területen.

A ChatGPT azonban adatvédelmi problémákat vethet fel, és számos felhasználási esetben korlátozott. Érdekes összehasonlítani a ChatGPT-t a legfejlettebb nyílt forráskódú alternatívákkal: LLaMA 3, Mixtral 8x7B, Yi 34B és DBRX. És nem kétséges, hogy hamarosan még fejlettebb nyílt forráskódú mesterséges intelligenciamodelleket fognak kiadni.

Ha a LLaMA 3, a Yi 34B és a Mixtral 8x7B programokat szeretnéd használni a termelésben, ne habozz, próbáld ki az NLP Cloud API-t. (próbálja ki itt)!

Juliette
Marketing menedzser az NLP Cloudnál