ChatGPT avatud lähtekoodiga alternatiivid

ChatGPT on täiustatud vestlusroboti mootor, mis põhineb OpenAI GPT-3.5 ja GPT-4 mudelitel. See on võimas mudel, kuid võib olla huvitav kaaluda avatud lähtekoodiga alternatiive.

Avatud lähtekoodiga alternatiivide uurimine ChatGPT-le võimaldab kohandamist ja kohandamist konkreetsetele vajadustele või projektidele, pakkudes potentsiaalselt suuremat kontrolli tehnoloogia üle, säilitades samal ajal andmete privaatsust. Avatud lähtekoodiga mudelid tagavad läbipaistvuse ja võimaldavad kasutajatel mõista tehisintellekti mudeli aluseks olevaid mehhanisme.

Tänapäeval on saadaval väga häid avatud lähtekoodiga ChatGPT alternatiive, nagu LLaMA 3, Mixtral 8x7B, Yi 34B ja DBRX. Uurime neid alternatiive.

Generatiivsed tehisintellekti mudelid: Kuidas nad töötavad

ChatGPT on tuletatud GPT-3.5 ja GPT-4 mudelitest, mis on kaasaegsed genereeriva tehisintellekti mudelid, mis põhinevad Transformeri arhitektuuril. Transformer-arhitektuur on Google'i poolt 2017. aastal leiutatud eriline neurovõrgu tüüp. Vaata lähemalt siit.

Generatiivsed tehisintellekti mudelid on põhimõtteliselt head mingi teksti genereerimiseks konkreetse sisendi põhjal. Sõltuvalt teie sisendist saate öelda oma tehisintellekti mudelile, et see teeks teie eest erinevaid asju. Näiteks võite paluda oma mudelil kategoriseerida tekstiosa, eraldada tekstist konkreetseid üksusi, teha kokkuvõtteid suurest sisust, parafraseerida sisu, vastata küsimustele... ja muidugi tegutseda juturobotina.

Kõik allpool tutvustatud mudelid on "põhilised" mudelid, mis tähendab, et need on toormudelid, mis nõuavad tavaliselt mõne lasu õppimist või peenhäälestamist, et järgida korralikult teie juhiseid. See tähendab ka seda, et need mudelid ei rakenda vaikimisi mingeid piiranguid.

Selleks, et mõista, kuidas neid genereerivaid tehisintellekti mudeleid põhjalikumalt kasutada, soovitame teil lugeda meie juhendit selle kohta, kuidas kasutada genereerivaid mudeleid koos väheste sammude õppimisega: loe seda siit.

ChatGPT on genereeriv mudel, mida on spetsiaalselt juhendatud käituma nagu juturobot. Selle artikli ülejäänud osas uurime avatud lähtekoodiga alternatiive ChatGPT-le. Selleks, et neid vestlusrežiimis kasutada, peate kas kasutama vestlusliku AI jaoks paarikordset õppimist või peenhäälestamist. Lisateave vestlusliku tehisintellekti õppimise kohta leiate siit. Lisateavet peenhäälestuse kohta leiate siit.

LLaMA 3 Meta poolt

Meta on käivitanud suurte keelemudelite (LLaMA 3) sarja, mis on eelnevalt treenitud ja peenhäälestatud genereerivate tekstimudelite komplekt, mille suurus varieerub 7-70 miljardi parameetrini. Nende mudelite spetsiaalselt vestluse jaoks peenhäälestatud versioonid, mida nimetatakse Llama-2-Chat, on mõeldud dialoogirakenduste jaoks. Võrreldes vabalt kättesaadavate vestlusmudelitega näitavad Llama-2-Chati mudelid paremat jõudlust enamikes hinnatud võrdlusnäitajates ning meie hinnangute põhjal kasulikkuse ja ohutuse osas vastavad nad mõne tuntud patenteeritud mudeli, nagu ChatGPT ja PaLM, jõudlusele.

LLaMA 3 sisaldab automaatset regressiivset keelemudelit, mis põhineb täiustatud transformaatori raamistikul. Selle täiustatud versioonid läbivad järelevalve all toimuva peenhäälestuse (SFT) ja tugevdava õppimise koos inimliku tagasisidega (RLHF), et viia see paremini vastavusse inimese ootustega kasulikkuse ja ohutuse osas.

LLaMA 3 väljatöötamine kestis jaanuarist kuni juulini 2023, kusjuures selle eeltreeningufaasis kasutati üle 2 triljoni tokeni avalikkusele kättesaadavatest andmetest. Peenhäälestusfaasis kasutati avalikult kättesaadavaid õpetamise andmekogumeid ja see hõlmas üle miljoni uue näite, mida kommenteerisid inimesed. Ükski eeltreening- ega peenhäälestusfaasis kasutatud andmetest ei pärine Meta kasutajaandmetest. Kui eelkoolituse andmed koguti kuni septembrini 2022, siis osa peenhäälestuse andmeid on värskemad, ulatudes kuni juulini 2023.

LLaMA 3 on mõeldud nii äri- kui ka teadusrakenduste jaoks peamiselt inglise keeles. Peenhäälestatud mudelid on kohandatud digitaalsete assistentide sarnaste vestlusrakenduste loomiseks, samas kui eelnevalt treenitud mudelid on piisavalt mitmekülgsed, et neid saaks kohandada mitmesuguste loomuliku keele genereerimise kasutusviiside jaoks.

LLaMA 3 saab hõlpsasti kasutada NLP Cloudis: proovige seda siin.

Mixtral 8x7B by Mistral AI

Mixtral ületab LLaMA 3 70B enamikus hinnangutes ja pakub kuus korda kiiremat järelduste tegemise kiirust. See paistab silma kui kõige võimsam avatud juurdepääsuga mudel ja parim valik, kui arvestada kulutõhusust. Konkreetselt on see võrdne või ületab GPT3.5 jõudlust enamikus tunnustatud testides.

Mixtrali võimete hulka kuulub kuni 32k märgendi sujuv haldamine, mitme keele, näiteks inglise, prantsuse, itaalia, saksa ja hispaania keele toetamine, erakordne koodi genereerimise võime ja võime olla peenhäälestatud juhiste järgimiseks, saavutades MT-Benchil 8,3 punkti.

Põhimõtteliselt on Mixtral hõreda ekspertide segu võrk, mis toimib ainult dekodeeriva mudelina. Selle struktuur võimaldab valida 8 erinevat parameetrirühma ettepoole suunatud plokis. Igal kihil asuv spetsiaalne marsruutervõrk valib iga märgi töötlemiseks kaks sellist rühma ehk "eksperti", kombineerides nende tulemusi aditiivselt.

See meetod võimaldab mudeli parameetrite laiendamist, hallates samal ajal tõhusalt kulusid ja latentsust, kasutades iga sümboli jaoks ainult osa olemasolevatest parameetritest. Konkreetsemalt öeldes on Mixtralil kokku 46,7B parameetrit, kuid ta kasutab ainult 12,9B parameetrit iga sümboli kohta, saavutades seeläbi 12,9B mudeli töötlemiskiiruse ja -kulu.

Mixtrali väljatöötamisel kasutati andmeid avalikust internetist, kusjuures ekspertide ja marsruuterite koolitamine toimus samaaegselt.

Saate hõlpsasti proovida Mixtral 8x7B NLP Cloudis: proovige seda siin.

Yi 34B 01 AI

Yi seeria mudelid esindavad 01.AI poolt algusest peale välja töötatud avatud lähtekoodiga suurte keelemudelite uusimat arengut. Need mudelid, mis on mõeldud kakskeelseks kasutamiseks, on treenitud tohutu 3 terabaidi suurusel mitmekeelsel andmekogumil, mis teeb neist maailma kõige võimsamaid suuri keelemudeleid, millel on tugevad võimed keele mõistmisel, arutlemisel ja lugemismõistmisel.

Mudel Yi-34B-Chat saavutas AlpacaEvali edetabelis kohe GPT-4 Turbo järel teise koha ja edestas teisi suuri keelemudeleid nagu GPT-4, Mixtral ja Claude, kusjuures see edetabel põhineb kuni 2024. aasta jaanuarini esitatud andmetel. Avatud lähtekoodiga mudelite puhul saavutas Yi-34B nii inglise kui ka hiina keele ülesannete puhul esikoha mitmes võrdlusuuringus, edestades selliseid mudeleid nagu Falcon-180B, Llama-70B ja Claude, vastavalt Hugging Face Open LLM Leaderboardi (eeltreenitud) ja C-Evali edetabelile, kusjuures andmeid vaadeldi kuni novembrini 2023. aastal.

Yi seeria on üles ehitatud sarnaselt Llama mudeli arhitektuuriga ja võimaldab kasutajatel kasutada olemasolevat Llamale loodud tööriistade, raamatukogude ja ressursside ökosüsteemi. Selline ühilduvus lihtsustab arendajate jaoks protsessi, kaotades vajaduse uute tööriistade arendamiseks ja suurendades arendusprotsesside tootlikkust.

Võite hõlpsasti proovida Yi 34B NLP Cloudis: proovige seda siin.

DBRX by Databricks

DBRX on suur keelemudel, mis on ehitatud transformaatorite arhitektuurile, mis keskendub ainult dekodeerimisele ja kasutab treenimiseks meetodit, mida tuntakse järgmise sõna ennustamise nime all. Mudelil on üksikasjalik ekspertide segu (MoE) struktuur, millel on kokku 132 miljardit parameetrit, millest 36 miljardit kasutatakse mis tahes sisendi puhul. Mudel läbis eelkoolituse 12 triljoni tokeni ulatusliku korpuse põhjal, mis hõlmas nii teksti kui ka koodi, kuni 2023. aasta detsembris toimuva katkestamiseni. See treeninguandmete segu sisaldab silmapaistvalt nii loomulikku keelt kui ka koodinäiteid, kusjuures märkimisväärne osa neist on inglise keeles.

DBRX paistab silma ekspertide kasutamise peenekoelise lähenemisviisi poolest, kuna ta töötab 16 eksperdiga ja valib iga ülesande jaoks 4 eksperti, erinevalt teistest MoE-mudelitest nagu Mixtral-8x7B ja Grok-1, kus on 8 eksperti, kuid valitakse ainult 2 eksperti. Selline lähenemisviis annab 65 korda rohkem võimalikke ekspertide kombinatsioone, mis suurendab märkimisväärselt mudeli jõudlust. DBRX sisaldab oma operatsioonide jaoks täiustatud funktsioone, nagu pöörlev positsioonikodeerimine (RoPE), gated lineaarüksused (GLU) ja rühmitatud päringu tähelepanu (GQA).

Eeltreeninguks kasutati DBRXi jaoks 12 triljonit tokenit hoolikalt koostatud andmekogumist, mille kontekstivahemik ulatus kuni 32 000 tokenini. Selle taga olev meeskond Databricks usub, et see andmekogum pakub kaks korda paremat kvaliteeti ühe märgi kohta võrreldes MPT mudeliperekonna jaoks kasutatud andmetega.

Andmekogumi loomisel kasutati Databricks'i terviklikku tööriistakomplekti, mis sisaldab Apache Spark™ ja Databricks'i märkmikke andmete töötlemiseks ning Unity Catalogi andmete haldamiseks ja haldamiseks. Databricks rakendas eeltreeningufaasis õppekavaõpet, kohandades andmesegu viisil, mis tõstis oluliselt mudeli kvaliteeti.

DBRX on programmeeritud töötlema ainult tekstipõhiseid sisendeid ja on võimeline töötlema sisendeid pikkusega kuni 32 768 märki.

Kokkuvõte

ChatGPT on hämmastav juturobot, mis suudab vastata väga keerulistele küsimustele. See tehisintellekti mootor on tegelikult isegi asjakohasem kui enamik inimesi paljudes valdkondades.

ChatGPT võib siiski tekitada probleeme andmete privaatsusega ja on paljude kasutusviiside puhul piiratud. Huvitav on võrrelda ChatGPT-d kõige arenenumate avatud lähtekoodiga alternatiividega: LLaMA 3, Mixtral 8x7B, Yi 34B ja DBRX. Ja pole kahtlust, et peagi ilmuvad veelgi arenenumad avatud lähtekoodiga tehisintellekti mudelid.

Kui soovite kasutada LLaMA 3, Yi 34B ja Mixtral 8x7B tootmises, ärge kartke proovida NLP Cloud API-d. (proovige seda siin)!

Juliette
NLP Cloudi turundusjuht