Alternatywy ChatGPT o otwartym kodzie źródłowym

ChatGPT to zaawansowany silnik chatbota, oparty na modelach GPT-3.5 i GPT-4 firmy OpenAI. Jest to potężny model, ale interesujące może być rozważenie alternatyw open-source.

Badanie alternatywnych rozwiązań typu open-source dla ChatGPT pozwala na dostosowanie i adaptację do konkretnych potrzeb lub projektów, potencjalnie oferując większą kontrolę nad technologią przy jednoczesnym zachowaniu prywatności danych. Modele open-source zapewniają przejrzystość i pozwalają użytkownikom zrozumieć podstawowe mechanizmy modelu AI.

Obecnie dostępne są bardzo dobre alternatywy ChatGPT o otwartym kodzie źródłowym, takie jak LLaMA 3, Mixtral 8x7B, Yi 34B i DBRX. Przyjrzyjmy się tym alternatywom.

Generatywne modele sztucznej inteligencji: Jak działają

ChatGPT wywodzi się z GPT-3.5 i GPT-4, nowoczesnych generatywnych modeli sztucznej inteligencji opartych na architekturze Transformer. Architektura Transformer to specyficzny typ sieci neuronowej wynaleziony przez Google w 2017 roku. Zobacz więcej tutaj.

Generatywne modele sztucznej inteligencji są zasadniczo dobre w generowaniu tekstu na podstawie określonych danych wejściowych. W zależności od danych wejściowych, można nakazać modelowi AI wykonanie różnych czynności. Na przykład możesz poprosić model o skategoryzowanie fragmentu tekstu, wyodrębnienie określonych jednostek z fragmentu tekstu, podsumowanie dużych treści, parafrazowanie niektórych treści, odpowiadanie na pytania... i oczywiście działanie jako chatbot.

Wszystkie modele przedstawione poniżej są modelami "podstawowymi", co oznacza, że są to surowe modele, które zwykle wymagają kilkukrotnego uczenia się lub dostrajania, aby prawidłowo postępować zgodnie z instrukcjami użytkownika. Oznacza to również, że modele te domyślnie nie implementują żadnych ograniczeń.

Aby lepiej zrozumieć, jak wykorzystać te generatywne modele sztucznej inteligencji, zalecamy przeczytanie naszego przewodnika na temat korzystania z modeli generatywnych z uczeniem kilkukrotnym: przeczytaj tutaj.

ChatGPT to model generatywny, który został specjalnie poinstruowany, aby zachowywać się jak chatbot. W dalszej części tego artykułu zamierzamy zbadać alternatywy open source dla ChatGPT. Aby używać ich w trybie konwersacyjnym, będziesz musiał albo użyć uczenia kilkustrzałowego do konwersacyjnej sztucznej inteligencji, albo precyzyjnego dostrajania. Dowiedz się więcej o uczeniu się z kilku ujęć dla konwersacyjnej sztucznej inteligencji tutaj. Dowiedz się więcej o dostrajaniu tutaj.

LLaMA 3 by Meta

Meta wprowadziła na rynek serię dużych modeli językowych LLaMA 3, która jest zestawem generatywnych modeli tekstowych, które zostały wstępnie wytrenowane i dostrojone, o wielkości od 7 do 70 miliardów parametrów. Wersje tych modeli specjalnie dostrojone do konwersacji, znane jako Llama-2-Chat, są przeznaczone do zastosowań dialogowych. W porównaniu z ogólnodostępnymi modelami czatu, modele Llama-2-Chat wykazują wyższą wydajność w większości ocenianych testów porównawczych i, w oparciu o nasze oceny użyteczności i bezpieczeństwa, dorównują wydajnością niektórym dobrze znanym zastrzeżonym modelom, takim jak ChatGPT i PaLM.

LLaMA 3 zawiera autoregresyjny model językowy zbudowany na ulepszonej strukturze transformatora. Jego ulepszone wersje są poddawane nadzorowanemu dostrajaniu (SFT) i uczeniu wzmacniającemu z ludzką informacją zwrotną (RLHF), aby lepiej dostosować się do ludzkich oczekiwań dotyczących użyteczności i bezpieczeństwa.

Prace nad LLaMA 3 trwały od stycznia do lipca 2023 r., a w fazie wstępnego szkolenia wykorzystano ponad 2 biliony tokenów z publicznie dostępnych danych. Faza dostrajania wykorzystywała publicznie dostępne zbiory danych instrukcji i obejmowała ponad milion nowych przykładów opatrzonych adnotacjami przez ludzi. Żadne z danych wykorzystanych w fazie wstępnego szkolenia lub dostrajania nie pochodzą z danych użytkownika Meta. Podczas gdy dane przedtreningowe zostały zebrane do września 2022 r., niektóre dane do dostrajania są nowsze i obejmują okres do lipca 2023 r.

LLaMA 3 jest przeznaczona zarówno do zastosowań komercyjnych, jak i badawczych, głównie w języku angielskim. Dopracowane modele są dostosowane do tworzenia aplikacji czatu podobnych do cyfrowych asystentów, podczas gdy wstępnie wytrenowane modele są wystarczająco wszechstronne, aby można je było dostosować do różnych zastosowań generowania języka naturalnego.

LLaMA 3 można z łatwością używać w NLP Cloud: wypróbuj tutaj.

Mixtral 8x7B by Mistral AI

Mixtral przewyższa LLaMA 3 70B w większości ocen i zapewnia sześciokrotnie szybsze wnioskowanie. Wyróżnia się jako najpotężniejszy model z otwartym dostępem i najlepszy wybór, jeśli chodzi o efektywność kosztową. W szczególności dorównuje lub przewyższa wydajność GPT3.5 w większości uznanych testów.

Możliwości Mixtral obejmują płynne zarządzanie do 32 tys. tokenów, obsługę wielu języków, takich jak angielski, francuski, włoski, niemiecki i hiszpański, wykazując wyjątkowe możliwości generowania kodu i zdolność do precyzyjnego dostosowywania się do instrukcji, osiągając wynik 8,3 w MT-Bench.

U podstaw Mixtral leży rzadka sieć typu mix-of-experts, funkcjonująca wyłącznie jako model dekodera. Jej struktura pozwala na wybór 8 różnych grup parametrów w bloku sprzężenia zwrotnego. Dedykowana sieć routera w każdej warstwie wybiera dwie z tych grup lub "ekspertów" do przetwarzania każdego tokena, łącząc ich wyniki w sposób addytywny.

Metoda ta umożliwia rozszerzenie parametrów modelu przy jednoczesnym efektywnym zarządzaniu kosztami i opóźnieniami poprzez wykorzystanie tylko części dostępnych parametrów dla każdego tokena. W szczególności Mixtral posiada łącznie 46,7B parametrów, ale stosuje tylko 12,9B parametrów na token, osiągając w ten sposób szybkość przetwarzania i koszt równoważny modelowi 12,9B.

Mixtral został opracowany przy użyciu danych z publicznego Internetu, przy jednoczesnym szkoleniu ekspertów i routerów.

Możesz łatwo wypróbować Mixtral 8x7B na NLP Cloud: wypróbuj tutaj.

Yi 34B by 01 AI

Modele z serii Yi stanowią najnowszy postęp w dużych modelach językowych typu open source opracowanych od podstaw przez 01.AI. Modele te, przeznaczone do użytku dwujęzycznego, zostały przeszkolone na ogromnym 3-terabajtowym wielojęzycznym zbiorze danych, co plasuje je wśród najpotężniejszych dużych modeli językowych na świecie z silnymi możliwościami rozumienia języka, rozumowania i czytania ze zrozumieniem.

Model Yi-34B-Chat zapewnił sobie drugą pozycję, tuż za GPT-4 Turbo, i wyprzedził inne duże modele językowe, takie jak GPT-4, Mixtral i Claude w rankingu AlpacaEval Leaderboard, przy czym ranking ten opiera się na danych do stycznia 2024 roku. Jeśli chodzi o modele open-source, Yi-34B zajął pierwsze miejsce zarówno w zadaniach języka angielskiego, jak i chińskiego w kilku testach porównawczych, wyprzedzając modele takie jak Falcon-180B, Llama-70B i Claude, zgodnie z rankingami Hugging Face Open LLM Leaderboard (wstępnie wytrenowany) i C-Eval, z danymi uwzględnionymi do listopada 2023 roku.

Zbudowana podobnie do architektury modelu Llama, seria Yi umożliwia użytkownikom dostęp i wykorzystanie istniejącego ekosystemu narzędzi, bibliotek i zasobów zaprojektowanych dla Llama. Ta kompatybilność upraszcza proces dla deweloperów, eliminując potrzebę opracowywania nowych narzędzi i zwiększając produktywność w procesach rozwojowych.

Możesz łatwo wypróbować Yi 34B na NLP Cloud: wypróbuj tutaj.

DBRX by Databricks

DBRX to duży model językowy zbudowany na architekturze transformatorowej, koncentrujący się wyłącznie na dekodowaniu i wykorzystujący do uczenia metodę znaną jako przewidywanie następnego tokena. Charakteryzuje się on szczegółową strukturą mieszanki ekspertów (MoE), szczycącą się łącznie 132 miliardami parametrów, z których 36 miliardów jest wykorzystywanych dla dowolnego wejścia. Model przeszedł wstępne szkolenie na ogromnym korpusie 12 bilionów tokenów, obejmującym zarówno tekst, jak i kod, aż do odcięcia w grudniu 2023 roku. Ta mieszanka danych treningowych obejmuje zarówno język naturalny, jak i przykłady kodowania, ze znaczną częścią w języku angielskim.

DBRX wyróżnia się drobnoziarnistym podejściem do korzystania z ekspertów, działając z 16 ekspertami i wybierając 4 dla każdego zadania, w przeciwieństwie do innych modeli MoE, takich jak Mixtral-8x7B i Grok-1, które mają 8 ekspertów, ale wybierają tylko 2. Takie podejście daje 65 razy więcej potencjalnych kombinacji ekspertów, co prowadzi do znacznej poprawy wydajności modelu. DBRX zawiera zaawansowane funkcje, takie jak kodowanie pozycji obrotowej (RoPE), bramkowane jednostki liniowe (GLU) i zgrupowaną uwagę zapytań (GQA) dla swoich operacji.

Do wstępnego szkolenia DBRX został zasilony 12 bilionami tokenów ze skrupulatnie skompilowanego zbioru danych, z zakresem kontekstu sięgającym 32 000 tokenów. Zespół stojący za nim, Databricks, uważa, że ten zestaw danych oferuje dwukrotnie wyższą jakość na token w porównaniu z danymi używanymi w rodzinie modeli MPT.

Zbiór danych został utworzony przy użyciu kompleksowego zestawu narzędzi Databricks, który obejmuje Apache Spark™ i Databricks notebooks do przetwarzania danych, a także Unity Catalog do zarządzania nimi. Firma Databricks wdrożyła podejście oparte na uczeniu programowym podczas fazy wstępnego szkolenia, dostosowując zestaw danych w sposób, który znacznie podniósł jakość modelu.

DBRX jest zaprogramowany do przetwarzania tylko tekstowych danych wejściowych i jest w stanie obsługiwać dane wejściowe o długości do 32 768 tokenów.

Wnioski

ChatGPT to niesamowity silnik chatbota, który jest w stanie odpowiedzieć na bardzo zaawansowane pytania. Ten silnik AI jest w rzeczywistości nawet bardziej odpowiedni niż większość ludzi w wielu dziedzinach.

ChatGPT może jednak podnosić kwestie prywatności danych i jest ograniczony dla wielu przypadków użycia. Interesujące jest porównanie ChatGPT z najbardziej zaawansowanymi alternatywami open-source: LLaMA 3, Mixtral 8x7B,Yi 34B i DBRX. Bez wątpienia wkrótce pojawią się jeszcze bardziej zaawansowane modele AI typu open-source.

Jeśli chcesz używać LLaMA 3, Yi 34B i Mixtral 8x7B w produkcji, nie wahaj się wypróbować NLP Cloud API (wypróbuj tutaj)!

Juliette
Menedżer ds. marketingu w NLP Cloud