Aveți probleme cu inteligența artificială sau cu dezvoltarea full-stack? Experții noștri sunt aici pentru a vă ghida: consiliere personalizată, integrare tehnică și multe altele. Contactați-ne la [email protected].

Alternativele ChatGPT Open-Source

ChatGPT este un motor de chatbot avansat, bazat pe modelele GPT-3.5 și GPT-4 de la OpenAI. Este un model puternic, dar poate fi interesant să se ia în considerare alternative open-source.

Explorarea alternativelor open-source la ChatGPT permite personalizarea și adaptarea la nevoi sau proiecte specifice, oferind potențial un control mai mare asupra tehnologiei, păstrând în același timp confidențialitatea datelor. Modelele open-source asigură transparența și permit utilizatorilor să înțeleagă mecanismele care stau la baza modelului de inteligență artificială.

Există alternative ChatGPT cu sursă deschisă foarte bune disponibile în prezent, cum ar fi LLaMA 3, Mixtral 8x7B, Yi 34B și DBRX. Haideți să investigăm aceste alternative.

Chatbot

Modele generative de inteligență artificială: Cum funcționează acestea

ChatGPT este derivat din GPT-3.5 și GPT-4, modele generative AI moderne bazate pe arhitectura Transformer. Arhitectura Transformer este un tip specific de rețea neuronală inventată de Google în 2017. Vedeți mai multe aici.

Modelele de inteligență artificială generativă sunt, în principiu, bune la generarea unui text pe baza unui anumit input. În funcție de datele de intrare, puteți spune modelului de inteligență artificială să facă diverse lucruri pentru dumneavoastră. De exemplu, îi puteți cere modelului dvs. să clasifice un text, să extragă entități specifice dintr-un text, să rezume conținuturi mari, să parafrazeze un anumit conținut, să răspundă la întrebări... și, desigur, să acționeze ca un chatbot.

Toate modelele prezentate mai jos sunt modele "de bază", ceea ce înseamnă că sunt modele brute care necesită de obicei o învățare sau o reglare fină în câteva rânduri pentru a urma corect instrucțiunile dumneavoastră. Aceasta înseamnă, de asemenea, că aceste modele nu implementează în mod implicit niciun fel de restricții.

Pentru a înțelege mai bine cum să valorificați aceste modele generative de inteligență artificială, vă recomandăm să citiți ghidul nostru despre cum să folosiți modelele generative cu învățare în câteva momente: citiți aici.

ChatGPT este un model generativ care a fost instruit în mod special să se comporte ca un chatbot. În restul acestui articol vom explora alternative open-source la ChatGPT. Pentru a le utiliza în modul conversațional, va trebui fie să folosiți învățarea în câteva rânduri pentru AI conversațională, fie reglarea fină. Aflați mai multe despre învățarea în câteva focuri pentru inteligența artificială conversațională aici. Aflați mai multe despre reglajul fin aici.

LLaMA 3 by Meta

Meta a lansat seria LLaMA 3 de modele lingvistice de mari dimensiuni (LLM), care este o suită de modele textuale generative care au fost pre-antrenate și reglate cu precizie, variind în dimensiune de la 7 la 70 de miliarde de parametri. Versiunile acestor modele special ajustate pentru conversație, cunoscute sub numele de Llama-2-Chat, sunt concepute pentru aplicații de dialog. În comparație cu modelele de conversație disponibile în mod liber, modelele Llama-2-Chat demonstrează performanțe superioare în majoritatea criteriilor de referință evaluate și, pe baza evaluărilor noastre privind utilitatea și siguranța, ele egalează performanțele unor modele proprietare bine cunoscute, cum ar fi ChatGPT și PaLM.

LLaMA 3 încorporează un model lingvistic autoregresiv construit pe un cadru de transformare îmbunătățit. Versiunile sale îmbunătățite sunt supuse unui reglaj fin supravegheat (SFT) și învățării prin întărire cu feedback uman (RLHF) pentru a se alinia mai bine la așteptările umane în ceea ce privește utilitatea și siguranța.

Dezvoltarea LLaMA 3 s-a întins din ianuarie până în iulie 2023, iar faza de preformare a folosit peste 2 trilioane de jetoane din datele accesibile publicului. Faza de reglaj fin a utilizat seturi de date de instruire accesibile publicului și a inclus peste un milion de exemple noi adnotate de oameni. Niciuna dintre datele utilizate în fazele de preinstruire sau de reglare fină nu provine din datele utilizatorilor Meta. În timp ce datele de preinstruire au fost colectate până în septembrie 2022, unele dintre datele pentru reglajul fin sunt mai recente, extinzându-se până în iulie 2023.

LLaMA 3 este conceput atât pentru aplicații comerciale, cât și de cercetare, în principal în limba engleză. Modelele cu reglaj fin sunt adaptate pentru crearea de aplicații de chat asemănătoare asistenților digitali, în timp ce modelele preformate sunt suficient de versatile pentru a fi ajustate pentru diverse utilizări de generare de limbaj natural.

Puteți utiliza cu ușurință LLaMA 3 pe NLP Cloud: încercați-o aici.

Mixtral 8x7B de Mistral AI

Mixtral depășește LLaMA 3 70B în majoritatea evaluărilor și oferă rate de inferență de șase ori mai rapide. Acesta se evidențiază ca fiind cel mai puternic model cu acces liber și alegerea de top atunci când se ia în considerare rentabilitatea. Mai exact, egalează sau depășește performanța GPT3.5 în majoritatea testelor recunoscute.

Printre capacitățile lui Mixtral se numără gestionarea fără probleme a până la 32k token-uri, suportul pentru mai multe limbi, cum ar fi engleza, franceza, italiana, germana și spaniola, capacitățile excepționale de generare a codurilor și capacitatea de a fi reglat cu precizie pentru a urma instrucțiunile, obținând un scor de 8,3 în MT-Bench.

În esența sa, Mixtral este o rețea mixtă de experți, care funcționează ca un model exclusiv de decodificare. Structura sa permite selectarea a 8 grupuri de parametri diferiți în cadrul blocului de alimentare. O rețea de rutere dedicată la fiecare strat selectează două dintre aceste grupuri, sau "experți", pentru a procesa fiecare jeton, combinând rezultatele lor într-o manieră aditivă.

Această metodă permite extinderea parametrilor unui model, gestionând în același timp în mod eficient costurile și latența prin utilizarea doar a unei părți din parametrii disponibili pentru fiecare jeton. Mai exact, Mixtral posedă un total de 46,7B parametri, dar aplică doar 12,9B parametri pentru fiecare jeton, obținând astfel o viteză de procesare și costuri echivalente cu un model de 12,9B.

Mixtral a fost dezvoltat folosind date de pe internetul public, iar formarea experților și a routerelor a avut loc simultan.

Puteți încerca cu ușurință Mixtral 8x7B pe NLP Cloud: încercați-o aici.

Yi 34B de 01 AI

Modelele din seria Yi reprezintă cea mai recentă evoluție în domeniul modelelor lingvistice de mari dimensiuni cu sursă deschisă, dezvoltate de la zero de 01.AI. Aceste modele, destinate utilizării bilingve, au fost antrenate pe un set de date multilingve masive de 3 terabyte, poziționându-le ca fiind printre cele mai puternice modele lingvistice mari la nivel global, cu capacități puternice de înțelegere a limbajului, de raționament și de înțelegere a lecturii.

Modelul Yi-34B-Chat și-a asigurat poziția a doua, imediat după GPT-4 Turbo, și a depășit alte modele lingvistice mari, precum GPT-4, Mixtral și Claude, în clasamentul AlpacaEval Leaderboard, acest clasament fiind realizat pe baza datelor până în ianuarie 2024. În ceea ce privește modelele open-source, Yi-34B a ocupat prima poziție atât pentru sarcinile lingvistice în limba engleză, cât și pentru cele în limba chineză în mai multe criterii de referință, depășind modele precum Falcon-180B, Llama-70B și Claude, conform clasamentului din Hugging Face Open LLM Leaderboard (pre-antrenat) și C-Eval, cu date luate în considerare până în noiembrie 2023.

Structurată în mod similar cu arhitectura modelului Llama, seria Yi permite utilizatorilor să acceseze și să utilizeze ecosistemul existent de instrumente, biblioteci și resurse concepute pentru Llama. Această compatibilitate simplifică procesul pentru dezvoltatori, eradicând necesitatea dezvoltării de noi instrumente și sporind productivitatea în procesele de dezvoltare.

Puteți încerca cu ușurință Yi 34B pe NLP Cloud: încercați-o aici.

DBRX de Databricks

DBRX este un model lingvistic de mari dimensiuni construit pe o arhitectură de transformare care se concentrează exclusiv pe decodare și utilizează o metodă cunoscută sub numele de predicție a următoarelor simboluri pentru instruirea sa. Acesta dispune de o structură detaliată de amestec de experți (MoE), cu un total de 132 de miliarde de parametri, din care 36 de miliarde sunt utilizați pentru orice intrare dată. Modelul a fost supus unei pre-antrenări pe un corpus vast de 12 trilioane de token-uri, care cuprinde atât text, cât și coduri, până la o limită în decembrie 2023. Acest amestec de date de instruire include în mod proeminent exemple de limbaj natural, precum și exemple de codare, cu o parte semnificativă în limba engleză.

DBRX se remarcă prin abordarea sa fină în ceea ce privește utilizarea experților, operând cu 16 experți și selectând 4 pentru fiecare sarcină, spre deosebire de alte modele MoE, cum ar fi Mixtral-8x7B și Grok-1, care au 8 experți, dar aleg doar 2. Această abordare produce de 65 de ori mai multe combinații potențiale de experți, ceea ce duce la o îmbunătățire notabilă a performanțelor modelului. DBRX încorporează caracteristici avansate, cum ar fi codificarea pozițiilor rotative (RoPE), unitățile liniare cu porți (GLU) și atenția la interogări grupate (GQA) pentru operațiunile sale.

Pentru preformare, DBRX a fost alimentat cu 12 trilioane de jetoane dintr-un set de date compilat cu meticulozitate, cu o gamă de contexte care se extinde până la 32.000 de jetoane. Echipa din spatele său, Databricks, consideră că acest set de date oferă o calitate dublă per token în comparație cu datele utilizate pentru familia de modele MPT.

Setul de date a fost creat cu ajutorul setului de instrumente cuprinzător al Databricks, care include Apache Spark™ și notebook-uri Databricks pentru procesarea datelor, împreună cu Unity Catalog pentru gestionarea și guvernarea acestora. Databricks a implementat o abordare de învățare curriculară în timpul fazei de preînvățare, ajustând mixul de date într-o manieră care a îmbunătățit semnificativ calitatea modelului.

DBRX este programat pentru a procesa numai intrări bazate pe text și este capabil să gestioneze intrări de până la 32 768 de simboluri (tokens).

Concluzie

ChatGPT este un motor de chatbot uimitor, capabil să răspundă la întrebări foarte avansate. Acest motor de inteligență artificială este, de fapt, chiar mai relevant decât majoritatea oamenilor în multe domenii.

Cu toate acestea, ChatGPT poate ridica probleme legate de confidențialitatea datelor și este restricționat pentru multe cazuri de utilizare. Este interesant să comparăm ChatGPT cu cele mai avansate alternative open-source: LLaMA 3, Mixtral 8x7B, Yi 34B și DBRX. Și fără îndoială că în curând vor fi lansate modele de inteligență artificială open-source și mai avansate.

Dacă doriți să folosiți LLaMA 3, Yi 34B și Mixtral 8x7B în producție, nu ezitați să faceți o încercare pe NLP Cloud API. (încercați-o aici)!

Juliette
Manager de marketing la NLP Cloud