"ChatGPT" atvirojo kodo alternatyvos

"ChatGPT" yra pažangus pokalbių robotų variklis, pagrįstas "OpenAI" sukurtais GPT-3.5 ir GPT-4 modeliais. Tai galingas modelis, tačiau gali būti įdomu apsvarstyti atvirojo kodo alternatyvas.

Nagrinėjant atvirojo kodo alternatyvas ChatGPT galima pritaikyti ir pritaikyti konkretiems poreikiams ar projektams, taip užtikrinant didesnę technologijos kontrolę ir išsaugant duomenų privatumą. Atvirojo kodo modeliai užtikrina skaidrumą ir leidžia naudotojams suprasti pagrindinius dirbtinio intelekto modelio mechanizmus.

Šiandien yra labai gerų atvirojo kodo ChatGPT alternatyvų, pavyzdžiui, LLaMA 3, Mixtral 8x7B, Yi 34B ir DBRX. Panagrinėkime šias alternatyvas.

Generatyviniai dirbtinio intelekto modeliai: Kaip jie veikia

"ChatGPT" yra išvestas iš GPT-3.5 ir GPT-4 - šiuolaikinių generatyvinių dirbtinio intelekto modelių, pagrįstų "Transformer" architektūra. Transformatoriaus architektūra yra specifinis neuroninio tinklo tipas, kurį 2017 m. išrado "Google". Daugiau informacijos rasite čia.

Generatyviniai dirbtinio intelekto modeliai iš esmės gerai sugeneruoja tam tikrą tekstą pagal tam tikrą įvestį. Atsižvelgdami į įvestį, galite nurodyti dirbtinio intelekto modeliui atlikti įvairius veiksmus. Pavyzdžiui, galite paprašyti savo modelio kategorizuoti teksto dalį, išskirti iš teksto dalies konkrečius subjektus, apibendrinti didelės apimties turinį, perfrazuoti tam tikrą turinį, atsakyti į klausimus... ir, žinoma, veikti kaip pokalbių robotas.

Visi toliau pateikti modeliai yra "pamatiniai" modeliai, t. y. neapdoroti modeliai, kuriuos paprastai reikia išmokti iš keleto kadrų arba tiksliai sureguliuoti, kad būtų tinkamai vykdomi jūsų nurodymai. Tai taip pat reiškia, kad šiuose modeliuose pagal nutylėjimą neįdiegti jokie apribojimai.

Kad geriau suprastumėte, kaip panaudoti šiuos generatyvinius AI modelius, rekomenduojame perskaityti mūsų vadovą apie tai, kaip naudoti generatyvinius modelius su mokymusi keliais kadrais: skaitykite čia.

"ChatGPT" yra generatyvinis modelis, kuriam specialiai nurodyta elgtis kaip pokalbių robotui. Likusioje šio straipsnio dalyje nagrinėsime atvirojo kodo alternatyvas ChatGPT. Norėdami jas naudoti pokalbio režimu, turėsite arba naudoti pokalbių AI mokymąsi keliais kadrais, arba tikslinti. Sužinokite daugiau apie pokalbių dirbtiniam intelektui skirtą mokymąsi keliais kadrais čia. Sužinokite daugiau apie derinimą čia.

LLaMA 3 iš "Meta

Bendrovė "Meta" pristatė LLaMA 3 didelių kalbos modelių (LLM) seriją - tai iš anksto apmokytų ir tiksliai sureguliuotų generatyvinių teksto modelių rinkinys, kurio dydis svyruoja nuo 7 iki 70 mlrd. parametrų. Šių modelių versijos, specialiai pritaikytos pokalbiams, žinomos kaip Llama-2-Chat, skirtos dialogo programoms. Palyginti su laisvai prieinamais pokalbių modeliais, "Llama-2-Chat" modeliai pasižymi geresniais rezultatais daugumoje įvertintų lyginamųjų rodiklių ir, remiantis mūsų naudingumo ir saugumo vertinimais, jie prilygsta kai kuriems gerai žinomiems nuosavybiniams modeliams, tokiems kaip "ChatGPT" ir "PaLM".

"LLaMA 3" turi autoregresinį kalbos modelį, sukurtą pagal patobulintą transformatorių sistemą. Jo patobulintoms versijoms taikomas prižiūrimas tikslus derinimas (SFT) ir mokymasis pastiprinant su žmogaus grįžtamuoju ryšiu (RLHF), kad geriau atitiktų žmogaus lūkesčius dėl naudingumo ir saugumo.

LLaMA 3 buvo kuriama nuo 2023 m. sausio iki liepos mėn., o jos parengiamajame mokymo etape buvo panaudota daugiau kaip 2 trilijonai žetonų iš viešai prieinamų duomenų. Tikslinimo etape buvo naudojami viešai prieinami instrukcijų duomenų rinkiniai ir įtraukta daugiau kaip milijonas naujų pavyzdžių, kuriuos anotavo žmonės. Nė vienas iš duomenų, naudotų nei išankstinio mokymo, nei tikslinimo etapuose, nėra gautas iš "Meta" naudotojų duomenų. Išankstinio mokymo duomenys buvo renkami iki 2022 m. rugsėjo, o kai kurie tikslaus derinimo duomenys yra naujesni - iki 2023 m. liepos.

"LLaMA 3" skirta komercinėms ir mokslinių tyrimų programoms, daugiausia anglų kalba. Patikslinti modeliai pritaikyti pokalbių programoms, panašioms į skaitmeninius asistentus, kurti, o iš anksto apmokyti modeliai yra pakankamai universalūs, kad juos būtų galima pritaikyti įvairioms natūralios kalbos kūrimo reikmėms.

LLaMA 3 galite lengvai naudoti NLP debesyje: pabandykite čia.

Mistral 8x7B iš Mistral AI

Daugumoje vertinimų "Mixtral" pranoksta LLaMA 3 70B ir šešis kartus pagreitina išvadų darymą. Jis išsiskiria kaip galingiausias atviros prieigos modelis ir geriausias pasirinkimas vertinant ekonomiškumą. Tiksliau, jis prilygsta arba viršija GPT3.5 našumą daugumoje pripažintų testų.

"Mixtral" gebėjimai - sklandžiai valdyti iki 32 tūkst. ženklų, palaikyti kelias kalbas, pavyzdžiui, anglų, prancūzų, italų, italų, vokiečių ir ispanų, pasižymėti išskirtinėmis kodo generavimo galimybėmis ir galimybe tiksliai pritaikyti pagal instrukcijas, o "MT-Bench" pasiekė 8,3 balo.

Iš esmės "Mixtral" yra retas ekspertų mišinio tinklas, veikiantis tik kaip dekoderio modelis. Jo struktūroje galima pasirinkti 8 skirtingas parametrų grupes maitinimo bloke. Specialus maršrutizatorių tinklas kiekviename sluoksnyje parenka dvi iš šių grupių, arba "ekspertų", kiekvienam ženklui apdoroti, sujungdamas jų rezultatus adityviuoju būdu.

Šis metodas leidžia išplėsti modelio parametrus, kartu efektyviai valdant sąnaudas ir uždelsimą, nes kiekviename simbolyje naudojama tik dalis galimų parametrų. Konkrečiai, "Mixtral" iš viso turi 46,7B parametrų, tačiau kiekvienam simboliui taiko tik 12,9B parametrų, taip pasiekdamas apdorojimo spartą ir sąnaudas, prilygstančias 12,9B modeliui.

Sistema "Mixtral" buvo sukurta naudojant viešojo interneto duomenis, o ekspertai ir maršrutizatoriai buvo mokomi vienu metu.

Galite lengvai išbandyti "Mixtral 8x7B" NLP debesyje: pabandykite čia.

Yi 34B iki 01 AI

"Yi" serijos modeliai yra naujausia atvirojo kodo didelių kalbų modelių, kuriuos nuo pat pradžių sukūrė 01.AI, pažanga. Šie modeliai, skirti dvikalbiam naudojimui, buvo apmokyti naudojant didžiulį 3 terabaitų daugiakalbį duomenų rinkinį, todėl jie yra vieni galingiausių didelių kalbos modelių pasaulyje, pasižyminčių stipriomis kalbos supratimo, samprotavimo ir skaitymo supratimo galimybėmis.

"Yi-34B-Chat" modelis užėmė antrąją vietą, nusileisdamas tik "GPT-4 Turbo", ir aplenkė kitus didelių kalbų modelius, tokius kaip "GPT-4", "Mixtral" ir "Claude", "AlpacaEval" reitingų lentelėje, sudarytoje remiantis duomenimis iki 2024 m. sausio mėn. Kalbant apie atvirojo kodo modelius, Yi-34B užėmė pirmąją vietą atliekant anglų ir kinų kalbų užduotis keliuose lyginamuosiuose testuose, aplenkdamas tokius modelius kaip Falcon-180B, Llama-70B ir Claude, remiantis reitingais Hugging Face Open LLM Leaderboard (iš anksto apmokytas) ir C-Eval, kai duomenys vertinami iki 2023 m. lapkričio mėn.

Yi serijos struktūra panaši į Llama modelio architektūrą, todėl naudotojai gali naudotis esama Llama skirtų įrankių, bibliotekų ir išteklių ekosistema. Šis suderinamumas supaprastina kūrėjų procesą, todėl nebereikia kurti naujų įrankių ir padidėja kūrimo procesų produktyvumas.

Galite lengvai išbandyti Yi 34B NLP debesyje: pabandykite čia.

DBRX iš Databricks

DBRX yra didelės apimties kalbos modelis, sukurtas naudojant transformatoriaus architektūrą, kurioje daugiausia dėmesio skiriama tik dekodavimui, o jo mokymui naudojamas metodas, žinomas kaip "next-token prediction". Jis turi išsamią ekspertų mišinio (angl. mixture-of-experts, MoE) struktūrą, kurioje iš viso yra 132 mlrd. parametrų, iš kurių 36 mlrd. naudojami bet kokiai įvesties informacijai. Iki 2023 m. gruodžio mėn. pabaigos modelis buvo iš anksto apmokytas naudojant didžiulį 12 trilijonų ženklų korpusą, apimantį ir tekstą, ir kodą. Šis mokymo duomenų mišinys apima natūralios kalbos ir kodavimo pavyzdžius, kurių didelė dalis yra anglų kalba.

DBRX išsiskiria tuo, kad jo ekspertų naudojimo metodas yra smulkmeniškas - jis dirba su 16 ekspertų ir kiekvienai užduočiai atrenka 4, priešingai nei kiti MoE modeliai, pavyzdžiui, Mixtral-8x7B ir Grok-1, kurie turi 8 ekspertus, bet atrenka tik 2. Taikant šį metodą gaunama 65 kartus daugiau galimų ekspertų derinių, todėl modelio našumas pastebimai padidėja. DBRX savo veikloje naudoja pažangias funkcijas, tokias kaip sukamųjų padėčių kodavimas (RoPE), gated linear units (GLU) ir grouped query attention (GQA).

Pirminiam mokymui DBRX buvo pateikta 12 trilijonų žetonų iš kruopščiai sudaryto duomenų rinkinio, kurio konteksto diapazonas siekė iki 32 000 žetonų. Jį sukūrusi "Databricks" komanda mano, kad šis duomenų rinkinys užtikrina dvigubai geresnę kokybę vienam žetonui, palyginti su duomenimis, naudojamais MPT modelių šeimai.

Duomenų rinkinys sukurtas naudojant išsamų "Databricks" priemonių rinkinį, kurį sudaro "Apache Spark™" ir "Databricks" užrašų knygelės duomenims apdoroti, taip pat "Unity Catalog", skirtas duomenims valdyti ir tvarkyti. Išankstinio mokymo etape "Databricks" įgyvendino mokymo programą, pritaikydama duomenų derinį taip, kad gerokai pagerėjo modelio kokybė.

DBRX užprogramuotas apdoroti tik tekstinius įvesties duomenis ir gali apdoroti iki 32 768 simbolių ilgio įvesties duomenis.

Išvada

"ChatGPT" yra nuostabus pokalbių roboto variklis, galintis atsakyti į labai sudėtingus klausimus. Šis dirbtinio intelekto variklis daugelyje sričių iš tikrųjų yra net tinkamesnis už daugumą žmonių.

Tačiau dėl ChatGPT gali kilti duomenų privatumo problemų, todėl daugeliu naudojimo atvejų ji yra ribota. Įdomu palyginti ChatGPT su pažangiausiomis atvirojo kodo alternatyvomis: LLaMA 3, Mixtral 8x7B, Yi 34B ir DBRX. Ir neabejoju, kad netrukus bus išleisti dar pažangesni atvirojo kodo dirbtinio intelekto modeliai.

Jei norite naudoti "LLaMA 3", "Yi 34B" ir "Mixtral 8x7B" gamyboje, nedvejodami išbandykite "NLP Cloud API". (pabandykite čia)!

Juliette
"NLP Cloud" rinkodaros vadovas