Odprtokodne alternative ChatGPT

ChatGPT je napreden motor za klepetalnike, ki temelji na modelih GPT-3.5 in GPT-4 podjetja OpenAI. Gre za zmogljiv model, vendar je zanimivo razmisliti o odprtokodnih alternativah.

Raziskovanje odprtokodnih alternativ ChatGPT omogoča prilagajanje in prilagajanje posebnim potrebam ali projektom, kar lahko omogoči večji nadzor nad tehnologijo in hkrati ohranja zasebnost podatkov. Odprtokodni modeli zagotavljajo preglednost in uporabnikom omogočajo razumevanje osnovnih mehanizmov modela umetne inteligence.

Danes so na voljo zelo dobre odprtokodne alternative ChatGPT, kot so LLaMA 3, Mixtral 8x7B, Yi 34B in DBRX. Preučimo te alternative.

Generativni modeli umetne inteligence: Kako delujejo

ChatGPT izhaja iz GPT-3.5 in GPT-4, sodobnih generativnih modelov umetne inteligence, ki temeljijo na arhitekturi Transformer. Arhitektura Transformer je posebna vrsta nevronske mreže, ki jo je Google izumil leta 2017. Več o tem si oglejte tukaj.

Generativni modeli umetne inteligence so v osnovi dobri pri ustvarjanju besedila na podlagi določenega vnosa. Glede na vhodne podatke lahko modelu umetne inteligence naročite, naj za vas opravi različne stvari. Model lahko na primer prosite, naj kategorizira del besedila, iz besedila izlušči določene entitete, povzame obsežno vsebino, parafrazira določeno vsebino, odgovarja na vprašanja ... in seveda deluje kot klepetalni robot.

Vsi spodaj predstavljeni modeli so "temeljni" modeli, kar pomeni, da gre za neobdelane modele, ki se jih je običajno treba naučiti z nekaj posnetki ali jih natančno prilagoditi, da pravilno sledijo vašim navodilom. To tudi pomeni, da ti modeli privzeto ne izvajajo nobenih omejitev.

Da bi bolje razumeli, kako uporabiti te generativne modele umetne inteligence, vam priporočamo, da preberete naš vodnik o uporabi generativnih modelov z učenjem z nekaj posnetki: Preberite tukaj.

ChatGPT je generativni model, ki smo mu posebej naročili, naj se obnaša kot klepetalni robot. V nadaljevanju tega članka bomo raziskali odprtokodne alternative ChatGPT. Za njihovo uporabo v pogovornem načinu boste morali bodisi uporabiti nekajdelno učenje za pogovorno umetno inteligenco bodisi natančno prilagajanje. Več o učenju z nekaj posnetki za pogovorno umetno inteligenco si preberite tukaj. Več informacij o natančnem prilagajanju najdete tukaj.

LLaMA 3 z Meta

Meta je predstavila serijo velikih jezikovnih modelov LLaMA 3, ki je sklop generativnih besedilnih modelov, ki so bili predhodno usposobljeni in natančno uglašeni ter se razlikujejo po velikosti od 7 do 70 milijard parametrov. Različice teh modelov, ki so posebej uglašene za pogovor, znane pod imenom Llama-2-Chat, so namenjene aplikacijam za dialoge. V primerjavi s prosto dostopnimi modeli za pogovor so modeli Llama-2-Chat v večini ocenjenih primerjalnih meril uspešnejši, na podlagi naših ocen uporabnosti in varnosti pa se lahko primerjajo z nekaterimi znanimi lastniškimi modeli, kot sta ChatGPT in PaLM.

LLaMA 3 vključuje avtoregresivni jezikovni model, ki temelji na izboljšanem transformatorskem ogrodju. Njegove izboljšane različice so podvržene nadzorovanemu finemu uglaševanju (SFT) in učenju z okrepitvijo s povratnimi informacijami od ljudi (RLHF), da se bolje prilagodijo pričakovanjem ljudi glede uporabnosti in varnosti.

Razvoj sistema LLaMA 3 je trajal od januarja do julija 2023, pri čemer je bilo v fazi predhodnega usposabljanja uporabljenih več kot 2 bilijona žetonov iz javno dostopnih podatkov. Faza natančnega prilagajanja je uporabljala javno dostopne nabore podatkov o navodilih in vključevala več kot milijon novih primerov, ki so jih komentirali ljudje. Nobeden od podatkov, uporabljenih v fazah pred učenjem ali finega uglaševanja, ne izvira iz podatkov o uporabnikih Mete. Medtem ko so bili podatki pred učenjem zbrani do septembra 2022, so nekateri podatki za fino uravnavanje novejši in segajo do julija 2023.

LLaMA 3 je zasnovan za komercialne in raziskovalne aplikacije predvsem v angleščini. Natančno nastavljeni modeli so prilagojeni za ustvarjanje aplikacij za klepet, ki so podobne digitalnim pomočnikom, medtem ko so predhodno usposobljeni modeli dovolj vsestranski, da jih je mogoče prilagoditi za različne uporabe pri ustvarjanju naravnega jezika.

LLaMA 3 lahko preprosto uporabljate v oblaku NLP Cloud: poskusite tukaj.

Mixtral 8x7B proizvajalca Mistral AI

Mixtral presega LLaMA 3 70B v večini ocen in zagotavlja šestkrat hitrejše sklepanje. Izstopa kot najzmogljivejši model z odprtim dostopom in najboljša izbira, če upoštevamo stroškovno učinkovitost. Natančneje, v večini priznanih testov je enak ali presega zmogljivost GPT3.5.

Med zmožnosti programa Mixtral sodijo nemoteno upravljanje do 32 tisoč žetonov, podpora več jezikov, kot so angleščina, francoščina, italijanščina, nemščina in španščina, izjemne zmožnosti ustvarjanja kode in možnost natančnega prilagajanja navodilom, pri čemer je v programu MT-Bench dosegel oceno 8,3.

Mixtral je v osnovi redko omrežje mešanice strokovnjakov, ki deluje samo kot dekodirni model. Njegova struktura omogoča izbiro 8 različnih skupin parametrov znotraj napajalnega bloka. Posebno usmerjevalno omrežje na vsaki plasti izbere dve od teh skupin ali "strokovnjakov" za obdelavo vsakega žetona in združi njune rezultate na aditivni način.

Ta metoda omogoča razširitev parametrov modela ob učinkovitem upravljanju stroškov in zakasnitve z uporabo le dela razpoložljivih parametrov za vsak žeton. Natančneje, Mixtral ima skupaj 46,7B parametrov, vendar uporabi le 12,9B parametrov na žeton, s čimer doseže hitrost obdelave in stroške, enakovredne modelu z 12,9B.

Mixtral je bil razvit z uporabo podatkov iz javnega interneta, pri čemer je usposabljanje strokovnjakov in usmerjevalnikov potekalo sočasno.

Mixtral 8x7B lahko preprosto preizkusite v oblaku NLP Cloud: poskusite tukaj.

Yi 34B z 01 AI

Modeli serije Yi predstavljajo najnovejši napredek na področju odprtokodnih velikih jezikovnih modelov, ki jih je podjetje 01.AI razvilo od samega začetka. Ti modeli, namenjeni dvojezični uporabi, so bili usposobljeni na obsežnem 3-terabajtnem večjezičnem naboru podatkov, kar jih uvršča med najzmogljivejše velike jezikovne modele na svetu z močnimi zmogljivostmi pri razumevanju jezika, sklepanju in bralnem razumevanju.

Model Yi-34B-Chat je na lestvici AlpacaEval zasedel drugo mesto, takoj za modelom GPT-4 Turbo, in prehitel druge modele velikih jezikov, kot so GPT-4, Mixtral in Claude, pri čemer ta lestvica temelji na podatkih do januarja 2024. Kar zadeva odprtokodne modele, je Yi-34B osvojil prvo mesto za angleške in kitajske jezikovne naloge v več primerjalnih testih ter prehitel modele, kot so Falcon-180B, Llama-70B in Claude, glede na uvrstitev na lestvici Hugging Face Open LLM Leaderboard (predhodno usposobljeni) in C-Eval, pri čemer so bili upoštevani podatki do novembra 2023.

Serija Yi je strukturirana podobno kot arhitektura modela Llama in uporabnikom omogoča dostop do obstoječega ekosistema orodij, knjižnic in virov, zasnovanih za Llamo, ter njihovo uporabo. Ta združljivost poenostavlja postopek za razvijalce, odpravlja potrebo po razvoju novih orodij in povečuje produktivnost razvojnih procesov.

Yi 34B lahko preprosto preizkusite v oblaku NLP: poskusite tukaj.

DBRX podjetja Databricks

DBRX je velik jezikovni model, zgrajen na arhitekturi transformatorja, ki se osredotoča izključno na dekodiranje in za usposabljanje uporablja metodo, znano kot napovedovanje naslednjih znakov. Ima podrobno strukturo mešanice strokovnjakov (MoE), ki se ponaša s skupno 132 milijardami parametrov, od katerih se jih 36 milijard uporabi za kateri koli vhodni podatek. Model je bil predhodno usposobljen na obsežnem korpusu z 12 bilijoni žetonov, ki vključuje tako besedilo kot kodo, do zaključka decembra 2023. Ta mešanica podatkov za usposabljanje vključuje tako primere naravnega jezika kot tudi kodiranje, pri čemer je velik del v angleščini.

DBRX se odlikuje po svojem natančnem pristopu k uporabi strokovnjakov, saj uporablja 16 strokovnjakov in za vsako nalogo izbere 4, v nasprotju z drugimi modeli MoE, kot sta Mixtral-8x7B in Grok-1, ki imata 8 strokovnjakov, vendar izbereta le 2. Ta pristop omogoča 65-krat več možnih kombinacij strokovnjakov, kar znatno izboljša učinkovitost modela. DBRX za svoje delovanje vključuje napredne funkcije, kot so rotacijsko kodiranje položaja (RoPE), linearne enote (GLU) in pozornost na skupinske poizvedbe (GQA).

Za predhodno učenje je bil DBRX oskrbljen z 12 bilijoni žetonov iz skrbno pripravljenega nabora podatkov, pri čemer je obseg konteksta segal do 32.000 žetonov. Ekipa Databricks, ki stoji za njim, je prepričana, da ta nabor podatkov ponuja dvakrat višjo kakovost na žeton v primerjavi s podatki, uporabljenimi za družino modelov MPT.

Nabor podatkov je bil ustvarjen z uporabo obsežnega nabora orodij Databricks, ki vključuje Apache Spark™ in prenosnike Databricks za obdelavo podatkov ter Unity Catalog za upravljanje in vodenje podatkov. Databricks je v fazi pred učenjem uporabil pristop učenja s kurikulumom in prilagodil mešanico podatkov na način, ki je znatno izboljšal kakovost modela.

DBRX je programiran za obdelavo samo besedilnih vnosov in je sposoben obdelati do 32 768 znakov dolžine.

Zaključek

ChatGPT je neverjeten motor klepetalnega robota, ki lahko odgovarja na zelo napredna vprašanja. Ta motor umetne inteligence je na številnih področjih celo bolj ustrezen od večine ljudi.

Vendar lahko ChatGPT sproži vprašanja v zvezi z zasebnostjo podatkov in je za številne primere uporabe omejen. Zanimivo je primerjati ChatGPT z najnaprednejšimi odprtokodnimi alternativami: LLaMA 3, Mixtral 8x7B, Yi 34B in DBRX. In nedvomno bodo kmalu objavljeni še naprednejši odprtokodni modeli umetne inteligence.

Če želite uporabljati LLaMA 3, Yi 34B in Mixtral 8x7B v produkciji, ne oklevajte in preizkusite API NLP Cloud. (poskusite tukaj)!

Juliette
Vodja trženja v podjetju NLP Cloud