ChatGPT atvērtā koda alternatīvas

ChatGPT ir uzlabots tērzēšanas robotu dzinējs, kura pamatā ir OpenAI izstrādātie GPT-3.5 un GPT-4 modeļi. Tas ir jaudīgs modelis, taču var būt interesanti apsvērt atvērtā koda alternatīvas.

Izpētot ChatGPT atvērtā koda alternatīvas, ir iespējams pielāgot un pielāgot īpašām vajadzībām vai projektiem, tādējādi, iespējams, nodrošinot lielāku kontroli pār tehnoloģiju, vienlaikus saglabājot datu konfidencialitāti. Atvērtā koda modeļi nodrošina pārredzamību un ļauj lietotājiem izprast AI modeļa pamatā esošos mehānismus.

Šodien ir pieejamas ļoti labas atvērtā koda ChatGPT alternatīvas, piemēram, LLaMA 3, Mixtral 8x7B, Yi 34B un DBRX. Izpētīsim šīs alternatīvas.

Ģeneratīvie mākslīgā intelekta modeļi: Kā tie darbojas

ChatGPT ir atvasināts no GPT-3.5 un GPT-4, mūsdienīgiem ģeneratīvajiem mākslīgā intelekta modeļiem, kas balstīti uz Transformatora arhitektūru. Transformatora arhitektūra ir īpaša veida neironu tīkls, ko 2017. gadā izgudroja Google. Skatīt vairāk šeit.

Ģeneratīvie mākslīgā intelekta modeļi būtībā labi spēj ģenerēt noteiktu tekstu, pamatojoties uz konkrētu ievades informāciju. Atkarībā no ievadītajiem datiem jūs varat likt savam mākslīgā intelekta modelim veikt dažādas darbības. Piemēram, jūs varat lūgt, lai jūsu modelis kategorizē teksta fragmentu, izraksta no teksta fragmenta konkrētas vienības, apkopo lielu saturu, pārfrāzē kādu saturu, atbild uz jautājumiem... un, protams, darbojas kā tērzēšanas robots.

Visi turpmāk minētie modeļi ir "pamatmodeļi", kas nozīmē, ka tie ir neapstrādāti modeļi, kurus parasti ir nepieciešams apgūt vai precizēt, lai pareizi izpildītu jūsu norādījumus. Tas arī nozīmē, ka šie modeļi pēc noklusējuma neievieš nekādus ierobežojumus.

Lai dziļāk izprastu, kā izmantot šos ģeneratīvos mākslīgā intelekta modeļus, iesakām izlasīt mūsu ceļvedi par to, kā izmantot ģeneratīvos modeļus ar dažu kadru mācīšanos: lasīt šeit.

ChatGPT ir ģeneratīvs modelis, kam ir īpaši uzdots uzvesties kā tērzēšanas robotam. Šajā rakstā mēs izpētīsim ChatGPT atvērtā koda alternatīvas. Lai tās izmantotu sarunvalodas režīmā, jums būs jāizmanto vai nu dažu kadru mācīšanās sarunvalodas mākslīgajam intelektam, vai arī precīza pielāgošana. Uzziniet vairāk par dažu kadru mācīšanos sarunvalodas mākslīgajam intelektam šeit. Uzziniet vairāk par smalko regulēšanu šeit.

LLaMA 3 pēc Meta

Uzņēmums Meta ir laidis klajā LLaMA 3 lielo valodas modeļu (LLM) sēriju, kas ir iepriekš apmācītu un precīzi noregulētu ģeneratīvo teksta modeļu kopums, kuru lielums variē no 7 līdz 70 miljardiem parametru. Šo modeļu versijas, kas īpaši pielāgotas sarunām, pazīstamas kā Llama-2-Chat, ir paredzētas dialoga lietojumiem. Salīdzinot ar brīvi pieejamiem tērzēšanas modeļiem, Llama-2-Chat modeļi uzrāda augstāku veiktspēju lielākajā daļā novērtēto etalonu, un, pamatojoties uz mūsu vērtējumiem par lietderību un drošību, tie atbilst dažu labi zināmu patentētu modeļu, piemēram, ChatGPT un PaLM, veiktspējai.

LLaMA 3 ietver autoregresīvo valodas modeli, kas balstīts uz uzlabotu transformatoru sistēmu. Tā uzlabotās versijas tiek pakļautas uzraudzītai precizēšanai (SFT) un pastiprinātas mācīšanās ar atgriezenisko saiti (RLHF), lai labāk pielāgotos cilvēka gaidām attiecībā uz lietderību un drošību.

LLaMA 3 izstrāde ilga no 2023. gada janvāra līdz 2023. gada jūlijam, un tās pirmsapmācības posmā tika izmantoti vairāk nekā 2 triljoni žetonu no publiski pieejamiem datiem. Precizēšanas fāzē tika izmantotas publiski pieejamas mācību datu kopas, un tajā tika iekļauti vairāk nekā miljons jaunu piemēru, kurus anotēja cilvēki. Neviens no pirmapmācības, ne precizēšanas fāzē izmantotajiem datiem netika iegūts no Meta lietotāju datiem. Lai gan pirmapmācības dati tika vākti līdz 2022. gada septembrim, daži no precizēšanas datiem ir jaunāki - līdz 2023. gada jūlijam.

LLaMA 3 ir paredzēta gan komerciāliem, gan pētniecības lietojumiem, galvenokārt angļu valodā. Uzlabotie modeļi ir pielāgoti tērzēšanas lietojumprogrammu izveidei, kas līdzinās digitālajiem asistentiem, savukārt iepriekš apmācītie modeļi ir pietiekami universāli, lai tos varētu pielāgot dažādiem dabiskās valodas ģenerēšanas lietojumiem.

LLaMA 3 var viegli izmantot NLP mākoņa vidē: izmēģiniet to šeit.

Mistral 8x7B no Mistral AI

Mixtral pārspēj LLaMA 3 70B lielākajā daļā novērtējumu un nodrošina sešas reizes ātrāku secinājumu izdarīšanas ātrumu. Tas izceļas kā jaudīgākais modelis ar atvērtu piekļuvi un labākā izvēle, ņemot vērā izmaksu efektivitāti. Konkrētāk, tas ir līdzvērtīgs vai pārsniedz GPT3.5 veiktspēju vairumā atzītu testu.

Mixtral spējas ietver līdz pat 32 k žetonu vienmērīgu pārvaldību, vairāku valodu, piemēram, angļu, franču, itāļu, itāļu, vācu un spāņu valodas, atbalstu, izcilas koda ģenerēšanas spējas un spēju precīzi pielāgot, lai sekotu instrukcijām, MT-Bench testā sasniedzot 8,3 punktus.

Savā būtībā Mixtral ir reti sastopams ekspertu maisījuma tīkls, kas darbojas tikai kā dekodēšanas modelis. Tā struktūra ļauj izvēlēties 8 dažādas parametru grupas barošanas blokā. Katrā slānī īpašs maršrutētāju tīkls izvēlas divas no šīm grupām jeb "ekspertus", lai apstrādātu katru žetonu, apvienojot to rezultātus aditīvā veidā.

Šī metode ļauj paplašināt modeļa parametrus, vienlaikus efektīvi pārvaldot izmaksas un latentumu, izmantojot tikai daļu pieejamo parametru katram žetonam. Konkrēti, Mixtral rīcībā ir 46,7 B parametru, bet katram žetonam piemēro tikai 12,9 B parametru, tādējādi sasniedzot apstrādes ātrumu un izmaksas, kas līdzvērtīgas 12,9 B modelim.

Mixtral tika izstrādāts, izmantojot datus no publiskā interneta, vienlaikus apmācot ekspertus un maršrutētājus.

Jūs varat viegli izmēģināt Mixtral 8x7B NLP Cloud: izmēģiniet to šeit.

Yi 34B līdz 01 AI

Yi sērijas modeļi ir jaunākais sasniegums 01.AI izstrādātajos atvērtā pirmkoda lielo valodu modeļos. Šie modeļi, kas paredzēti bilingvālai lietošanai, ir apmācīti, izmantojot milzīgu 3 terabaitu daudzvalodu datu kopu, kas tos ierindo starp visjaudīgākajiem lielajiem valodas modeļiem pasaulē ar spēcīgām valodas izpratnes, spriešanas un lasīšanas izpratnes spējām.

Yi-34B-Chat modelis ieņēma otro vietu, uzreiz aiz GPT-4 Turbo, un apsteidza citus lielvalodu modeļus, piemēram, GPT-4, Mixtral un Claude, AlpacaEval līderu sarakstā, kura pamatā ir dati līdz 2024. gada janvārim. Runājot par atvērtā koda modeļiem, Yi-34B ieņēma pirmo vietu gan angļu, gan ķīniešu valodas uzdevumu izpildē vairākos etalonuzdevumos, apsteidzot tādus modeļus kā Falcon-180B, Llama-70B un Claude, kā norādīts reitingā Hugging Face Open LLM Leaderboard (iepriekš apmācīts) un C-Eval, ņemot vērā datus līdz 2023. gada novembrim.

Strukturēta līdzīgi Llama modeļa arhitektūrai, Yi sērija ļauj lietotājiem piekļūt un izmantot esošo rīku, bibliotēku un resursu ekosistēmu, kas izstrādāta Llama. Šī savietojamība vienkāršo procesu izstrādātājiem, novēršot nepieciešamību izstrādāt jaunus rīkus un palielinot izstrādes procesu produktivitāti.

Jūs varat viegli izmēģināt Yi 34B uz NLP Cloud: izmēģiniet to šeit.

DBRX by Databricks

DBRX ir liels valodas modelis, kas ir veidots uz transformatora arhitektūras, kas koncentrējas tikai uz dekodēšanu, un tā apmācībai tiek izmantota metode, kas pazīstama kā nākamo zīmju prognozēšana. Tam ir detalizēta ekspertu maisījuma (MoE) struktūra, kurā kopumā ir 132 miljardi parametru, no kuriem 36 miljardi tiek izmantoti jebkurai ievades vienībai. Līdz 2023. gada decembrim modelis tika iepriekš apmācīts, izmantojot plašu 12 triljonu teksta un koda žetonu korpusu, kurā bija iekļauti 12 triljoni žetonu, līdz pat 2023. gada decembrim, kad tika noteikts beigu termiņš. Šis mācību datu maisījums ietver gan dabiskās valodas, gan kodēšanas piemērus, no kuriem ievērojama daļa ir angļu valodā.

DBRX izceļas ar precīzu pieeju ekspertu izmantošanā, izmantojot 16 ekspertus un katram uzdevumam izvēloties 4, atšķirībā no citiem MoE modeļiem, piemēram, Mixtral-8x7B un Grok-1, kuros ir 8 eksperti, bet tiek izvēlēti tikai 2. Šī pieeja dod 65 reizes vairāk potenciālo ekspertu kombināciju, kas ievērojami uzlabo modeļa veiktspēju. DBRX savās operācijās izmanto tādas uzlabotas funkcijas kā rotācijas stāvokļa kodēšana (RoPE), gated lineārās vienības (GLU) un grupēta uzmanība pieprasījumam (GQA).

Priekšapmācībai DBRX tika ievadīti 12 triljoni žetonu no rūpīgi apkopotas datu kopas, kuras konteksta diapazons sniedzas līdz 32 000 žetonu. Tā izveides komanda Databricks uzskata, ka šī datu kopa nodrošina divreiz augstāku kvalitāti uz vienu žetonu salīdzinājumā ar datiem, kas izmantoti MPT modeļu saimē.

Datu kopa tika izveidota, izmantojot Databricks visaptverošo rīku komplektu, kas ietver Apache Spark™ un Databricks piezīmjdatorus datu apstrādei, kā arī Unity Catalog datu pārvaldībai un pārvaldīšanai. Pirmsapmācības posmā Databricks ieviesa mācību programmu pieeju, pielāgojot datu kombināciju tā, lai ievērojami uzlabotu modeļa kvalitāti.

DBRX ir ieprogrammēts apstrādāt tikai teksta ievades datus un spēj apstrādāt ievades datus, kuru garums ir līdz 32 768 žetoniem.

Secinājums

ChatGPT ir pārsteidzošs tērzēšanas robots, kas spēj atbildēt uz ļoti sarežģītiem jautājumiem. Šis mākslīgā intelekta dzinējs daudzās jomās patiesībā ir pat atbilstošāks nekā lielākā daļa cilvēku.

Tomēr ChatGPT var radīt datu konfidencialitātes problēmas, un daudzos lietošanas gadījumos tā ir ierobežota. Ir interesanti salīdzināt ChatGPT ar vismodernākajām atvērtā koda alternatīvām: LLaMA 3, Mixtral 8x7B, Yi 34B un DBRX. Un nav šaubu, ka drīzumā tiks publicēti vēl modernāki atvērtā koda mākslīgā intelekta modeļi.

Ja vēlaties izmantot LLaMA 3, Yi 34B un Mixtral 8x7B ražošanā, nevilcinieties izmēģināt NLP Cloud API. (izmēģiniet to šeit)!

Juliette
NLP Cloud mārketinga vadītājs