Alternatívy ChatGPT s otvoreným zdrojovým kódom

ChatGPT je pokročilý chatbot engine založený na modeloch GPT-3.5 a GPT-4 od OpenAI. Je to výkonný model, ale môže byť zaujímavé zvážiť alternatívy s otvoreným zdrojovým kódom.

Skúmanie alternatív s otvoreným zdrojovým kódom k ChatGPT umožňuje prispôsobenie a prispôsobenie konkrétnym potrebám alebo projektom, čo môže ponúknuť väčšiu kontrolu nad technológiou pri zachovaní súkromia údajov. Modely s otvoreným zdrojovým kódom zabezpečujú transparentnosť a umožňujú používateľom pochopiť základné mechanizmy modelu umelej inteligencie.

V súčasnosti sú k dispozícii veľmi dobré alternatívy ChatGPT s otvoreným zdrojovým kódom, napríklad LLaMA 3, Mixtral 8x7B, Yi 34B a DBRX. Poďme tieto alternatívy preskúmať.

Generatívne modely AI: Ako fungujú

ChatGPT je odvodený od GPT-3.5 a GPT-4, moderných generatívnych modelov umelej inteligencie založených na architektúre Transformer. Architektúra Transformer je špecifický typ neurónovej siete, ktorý vynašla spoločnosť Google v roku 2017. Viac informácií nájdete tu.

Generatívne modely umelej inteligencie sú v podstate dobré pri generovaní určitého textu na základe konkrétneho vstupu. V závislosti od vstupných údajov môžete modelu umelej inteligencie prikázať, aby pre vás urobil rôzne veci. Môžete napríklad požiadať svoj model, aby kategorizoval časť textu, extrahoval konkrétne entity z časti textu, zhrnul rozsiahly obsah, parafrázoval nejaký obsah, odpovedal na otázky... a samozrejme, aby fungoval ako chatbot.

Všetky modely predstavené nižšie sú "základné" modely, čo znamená, že ide o nespracované modely, ktoré si zvyčajne vyžadujú niekoľko záberov na naučenie alebo doladenie, aby sa správne riadili vašimi pokynmi. Znamená to tiež, že tieto modely štandardne neimplementujú žiadne obmedzenia.

Ak chcete hlbšie pochopiť, ako tieto generatívne modely AI využívať, odporúčame vám prečítať si nášho sprievodcu o tom, ako používať generatívne modely s učením s niekoľkými zábermi: prečítajte si ho tu.

ChatGPT je generatívny model, ktorý bol špeciálne inštruovaný, aby sa správal ako chatbot. Vo zvyšku tohto článku sa budeme venovať alternatívam ChatGPT s otvoreným zdrojovým kódom. Aby ste ich mohli používať v konverzačnom režime, budete musieť použiť buď niekoľkozáberové učenie pre konverzačnú AI, alebo jemné ladenie. Viac informácií o učení niekoľkých snímok pre konverzačnú umelú inteligenciu nájdete tu. Viac informácií o dolaďovaní nájdete tu.

LLaMA 3 od Meta

Spoločnosť Meta uviedla na trh sériu veľkých jazykových modelov LLaMA 3, čo je súbor generatívnych textových modelov, ktoré boli vopred natrénované a jemne vyladené a ktorých veľkosť sa pohybuje od 7 do 70 miliárd parametrov. Verzie týchto modelov špeciálne vyladené na konverzáciu, známe ako Llama-2-Chat, sú určené pre aplikácie na dialóg. V porovnaní s voľne dostupnými modelmi konverzácie vykazujú modely Llama-2-Chat vo väčšine hodnotených referenčných hodnôt lepší výkon a na základe našich hodnotení užitočnosti a bezpečnosti sa vyrovnajú niektorým známym proprietárnym modelom, ako sú ChatGPT a PaLM.

LLaMA 3 obsahuje autoregresívny model jazyka postavený na rozšírenom transformačnom rámci. Jeho vylepšené verzie prechádzajú dolaďovaním pod dohľadom (SFT) a posilňovaním učenia so spätnou väzbou od človeka (RLHF), aby sa lepšie prispôsobili očakávaniam človeka, pokiaľ ide o užitočnosť a bezpečnosť.

Vývoj LLaMA 3 trval od januára do júla 2023, pričom v jeho predvývojovej fáze sa využilo viac ako 2 bilióny tokenov z údajov prístupných verejnosti. Fáza dolaďovania využívala verejne dostupné súbory inštrukčných údajov a zahŕňala viac ako milión nových príkladov anotovaných ľuďmi. Žiadne z údajov použitých v predtréningovej ani dolaďovacej fáze nepochádzajú z údajov používateľov Meta. Zatiaľ čo údaje pre predtréning boli zozbierané do septembra 2022, niektoré údaje pre jemné ladenie sú novšie, siahajú až do júla 2023.

LLaMA 3 je určený na komerčné aj výskumné aplikácie predovšetkým v angličtine. Vyladené modely sú prispôsobené na vytváranie chatových aplikácií podobných digitálnym asistentom, zatiaľ čo predtrénované modely sú dostatočne univerzálne na to, aby sa dali upraviť na rôzne spôsoby použitia pri vytváraní prirodzeného jazyka.

LLaMA 3 môžete jednoducho používať v službe NLP Cloud: vyskúšajte to tu.

Mixtral 8x7B od Mistral AI

Mixtral prekonáva LLaMA 3 70B vo väčšine hodnotení a poskytuje šesťkrát vyššiu rýchlosť odvodzovania. Vyniká ako najvýkonnejší model s otvoreným prístupom a najlepšia voľba pri posudzovaní nákladovej efektívnosti. Konkrétne sa vo väčšine uznávaných testov vyrovná alebo prekoná výkonnosť modelu GPT3.5.

Medzi schopnosti programu Mixtral patrí plynulá správa až 32 tisíc tokenov, podpora viacerých jazykov, ako je angličtina, francúzština, taliančina, nemčina a španielčina, výnimočné schopnosti generovania kódu a schopnosť jemného doladenia podľa pokynov, pričom v teste MT-Bench dosiahol skóre 8,3.

V jadre je Mixtral riedkou sieťou zmesi expertov, ktorá funguje len ako dekódovací model. Jeho štruktúra umožňuje výber 8 rôznych skupín parametrov v rámci bloku feedforward. Špeciálna sieť smerovača v každej vrstve vyberá dve z týchto skupín alebo "expertov" na spracovanie každého tokenu, pričom ich výsledky kombinuje aditívnym spôsobom.

Táto metóda umožňuje rozšíriť parametre modelu a zároveň efektívne riadiť náklady a latenciu tým, že sa pre každý token využíva len časť dostupných parametrov. Konkrétne, Mixtral disponuje celkovo 46,7B parametrami, ale na jeden token aplikuje len 12,9B parametrov, čím dosahuje rýchlosť spracovania a náklady zodpovedajúce 12,9B modelu.

Systém Mixtral bol vyvinutý s použitím údajov z verejného internetu, pričom školenie expertov a smerovačov prebiehalo súčasne.

Mixtral 8x7B si môžete jednoducho vyskúšať v službe NLP Cloud: vyskúšajte to tu.

Yi 34B od 01 AI

Modely série Yi predstavujú najnovší pokrok v oblasti veľkých jazykových modelov s otvoreným zdrojovým kódom, ktoré od základu vyvinula spoločnosť 01.AI. Tieto modely, zamerané na dvojjazyčné použitie, boli vyškolené na obrovskom 3-terabajtovom viacjazyčnom súbore údajov, čo ich radí medzi celosvetovo najvýkonnejšie veľké jazykové modely so silnými schopnosťami v oblasti porozumenia jazyka, uvažovania a čítania s porozumením.

Model Yi-34B-Chat sa umiestnil na druhom mieste hneď za modelom GPT-4 Turbo a v rebríčku AlpacaEval predbehol ďalšie modely s veľkým jazykom, ako sú GPT-4, Mixtral a Claude, pričom toto poradie vychádza z údajov do januára 2024. Pokiaľ ide o modely s otvoreným zdrojovým kódom, model Yi-34B si vybojoval prvé miesto pre úlohy v anglickom aj čínskom jazyku vo viacerých referenčných hodnotách, pričom predstihol modely ako Falcon-180B, Llama-70B a Claude, a to podľa poradia v rebríčku Hugging Face Open LLM Leaderboard (predtrénované) a C-Eval, pričom údaje boli zohľadnené do novembra 2023.

Séria Yi, ktorá je štruktúrovaná podobne ako architektúra modelu Llama, umožňuje používateľom prístup k existujúcemu ekosystému nástrojov, knižníc a zdrojov určených pre Llama a ich využívanie. Táto kompatibilita zjednodušuje proces pre vývojárov, čím sa eliminuje potreba vývoja nových nástrojov a zvyšuje sa produktivita vývojových procesov.

Yi 34B si môžete jednoducho vyskúšať na NLP Cloud: vyskúšajte to tu.

DBRX od spoločnosti Databricks

DBRX je veľký jazykový model postavený na transformátorovej architektúre, ktorý sa zameriava výlučne na dekódovanie a na svoje trénovanie využíva metódu známu ako predikcia nasledujúceho tokenu. Je vybavený podrobnou štruktúrou zmesi expertov (MoE), ktorá sa môže pochváliť celkovým počtom 132 miliárd parametrov, z ktorých sa 36 miliárd využíva pre akýkoľvek vstup. Model prešiel predtréningom na rozsiahlom korpuse 12 biliónov tokenov, ktorý zahŕňal text aj kód, až do uzávierky v decembri 2023. Táto zmes tréningových údajov výrazne zahŕňa príklady prirodzeného jazyka, ako aj kódovanie, pričom značná časť je v angličtine.

DBRX sa vyznačuje jemným prístupom k používaniu expertov, keďže pracuje so 16 expertmi a pre každú úlohu vyberá 4, na rozdiel od iných modelov MoE, ako sú Mixtral-8x7B a Grok-1, ktoré majú 8 expertov, ale vyberajú len 2. Tento prístup prináša 65-krát viac potenciálnych kombinácií expertov, čo vedie k výraznému zvýšeniu výkonnosti modelu. DBRX pre svoje operácie využíva pokročilé funkcie, ako sú kódovanie rotačnej polohy (RoPE), brány lineárnych jednotiek (GLU) a zoskupená pozornosť na otázky (GQA).

Na predtréning bol DBRX zásobený 12 biliónmi tokenov z dôkladne zostaveného súboru údajov s kontextovým rozsahom až 32 000 tokenov. Tím, ktorý za ním stojí, spoločnosť Databricks, sa domnieva, že tento súbor údajov ponúka dvojnásobnú kvalitu na jeden token v porovnaní s údajmi použitými pre rodinu modelov MPT.

Súbor údajov bol vytvorený pomocou komplexnej sady nástrojov Databricks, ktorá zahŕňa Apache Spark™ a Databricks notebooky na spracovanie údajov spolu s Unity Catalog na ich správu a riadenie. Spoločnosť Databricks počas fázy pred tréningom implementovala prístup učenia pomocou osnovy, pričom upravila mix údajov spôsobom, ktorý výrazne zvýšil kvalitu modelu.

DBRX je naprogramovaný na spracovanie iba textových vstupov a je schopný spracovať vstupy s dĺžkou až 32 768 tokenov.

Záver

ChatGPT je úžasný chatbot, ktorý dokáže odpovedať na veľmi pokročilé otázky. Tento motor s umelou inteligenciou je v mnohých oblastiach dokonca relevantnejší ako väčšina ľudí.

ChatGPT však môže vyvolávať problémy s ochranou osobných údajov a v mnohých prípadoch použitia je obmedzený. Je zaujímavé porovnať ChatGPT s najpokročilejšími alternatívami s otvoreným zdrojovým kódom: LLaMA 3, Mixtral 8x7B,Yi 34B a DBRX. A niet pochýb o tom, že čoskoro budú vydané ešte pokročilejšie modely AI s otvoreným zdrojovým kódom.

Ak chcete používať LLaMA 3, Yi 34B a Mixtral 8x7B vo výrobe, neváhajte a vyskúšajte si NLP Cloud API (vyskúšajte to tu)!

Juliette
Marketingový manažér v spoločnosti NLP Cloud