ChatGPT-alternativ med öppen källkod

ChatGPT är en avancerad chatbotmotor, baserad på modellerna GPT-3.5 och GPT-4 från OpenAI. Det är en kraftfull modell men det kan vara intressant att överväga alternativ med öppen källkod.

Att utforska open source-alternativ till ChatGPT möjliggör anpassning och anpassning till specifika behov eller projekt, vilket potentiellt ger större kontroll över tekniken samtidigt som dataintegriteten bevaras. Modeller med öppen källkod säkerställer transparens och gör det möjligt för användare att förstå de underliggande mekanismerna i AI-modellen.

Det finns mycket bra öppen källkod ChatGPT alternativ tillgängliga idag som LLaMA 3, Mixtral 8x7B, Yi 34B, och DBRX. Låt oss undersöka dessa alternativ.

Generativa AI-modeller: Hur de fungerar

ChatGPT härstammar från GPT-3.5 och GPT-4, moderna generativa AI-modeller baserade på Transformer-arkitekturen. Transformer-arkitekturen är en specifik typ av neuralt nätverk som uppfanns av Google 2017. Se mer här.

Generativa AI-modeller är i princip bra på att generera text baserat på en specifik indata. Beroende på din input kan du be din AI-modell att göra olika saker åt dig. Du kan till exempel be modellen att kategorisera ett textstycke, extrahera specifika enheter från ett textstycke, sammanfatta ett stort innehåll, parafrasera ett innehåll, svara på frågor ... och naturligtvis agera som en chatbot.

Alla modeller som presenteras nedan är "grundmodeller", vilket innebär att de är råmodeller som vanligtvis kräver några få inlärningstillfällen eller finjustering för att korrekt följa dina instruktioner. Det innebär också att dessa modeller inte implementerar någon form av begränsningar som standard.

För att förstå hur du kan utnyttja dessa generativa AI-modeller mer djupgående rekommenderar vi att du läser vår guide om hur du använder generativa modeller med few-shot learning: Läs det här.

ChatGPT är en generativ modell som specifikt har instruerats att bete sig som en chatbot. I resten av den här artikeln kommer vi att utforska open source-alternativ till ChatGPT. För att kunna använda dem i konversationsläge måste du antingen använda few-shot learning för konversations-AI eller finjustering. Läs mer om few-shot learning för konversationell AI här. Läs mer om finjustering här.

LLaMA 3 av Meta

Meta har lanserat LLaMA 3-serien av stora språkmodeller (LLM), som är en svit av generativa textmodeller som har förutbildats och finjusterats, varierande i storlek från 7 till 70 miljarder parametrar. De versioner av dessa modeller som är särskilt finjusterade för konversation, kända som Llama-2-Chat, är utformade för dialogtillämpningar. Jämfört med fritt tillgängliga chattmodeller visar Llama-2-Chat-modellerna överlägsen prestanda i de flesta utvärderade riktmärken och, baserat på våra bedömningar av användbarhet och säkerhet, matchar de prestandan hos några välkända proprietära modeller som ChatGPT och PaLM.

LLaMA 3 innehåller en automatiskt regressiv språkmodell som bygger på ett förbättrat transformatorramverk. De förbättrade versionerna genomgår övervakad finjustering (SFT) och förstärkningsinlärning med mänsklig feedback (RLHF) för att bättre anpassas till människors förväntningar på användbarhet och säkerhet.

Utvecklingen av LLaMA 3 sträckte sig från januari till juli 2023, där förträningsfasen utnyttjade över 2 biljoner tokens från data som var tillgängliga för allmänheten. Finjusteringsfasen använde offentligt tillgängliga instruktionsdatauppsättningar och inkluderade mer än en miljon nya exempel som kommenterats av människor. Ingen av de data som används i vare sig förtränings- eller finjusteringsfasen kommer från Metas användardata. Förutbildningsdata samlades in fram till september 2022, medan en del av data för finjustering är nyare och sträcker sig till juli 2023.

LLaMA 3 är utformat för både kommersiella och forskningsrelaterade tillämpningar, främst på engelska. De finjusterade modellerna är skräddarsydda för att skapa chattillämpningar som liknar digitala assistenter, medan de förtränade modellerna är tillräckligt mångsidiga för att kunna anpassas till olika användningsområden för generering av naturligt språk.

Du kan enkelt använda LLaMA 3 på NLP Cloud: prova här.

Mixtral 8x7B av Mistral AI

Mixtral överträffar LLaMA 3 70B i de flesta bedömningar och levererar sex gånger snabbare inferenshastigheter. Den framstår som den mest kraftfulla modellen med öppen åtkomst och det bästa valet när det gäller kostnadseffektivitet. I synnerhet är den lika med eller överträffar GPT3.5 i de flesta erkända tester.

Mixtrals kapacitet inkluderar smidig hantering av upp till 32k tokens, stöd för flera språk som engelska, franska, italienska, tyska och spanska, exceptionell kodgenereringsförmåga och förmågan att finjusteras för att följa instruktioner, vilket gav 8,3 poäng på MT-Bench.

Mixtral är i grunden ett nätverk med glesa expertblandningar som fungerar som en ren avkodningsmodell. Dess struktur gör det möjligt att välja 8 olika parametergrupper inom feedforward-blocket. Ett dedikerat routernätverk i varje lager väljer ut två av dessa grupper, eller "experter", för att bearbeta varje token och kombinera deras resultat på ett additivt sätt.

Denna metod gör det möjligt att utöka en modells parametrar och samtidigt effektivt hantera kostnader och latens genom att endast använda en del av de tillgängliga parametrarna för varje token. Mixtral har totalt 46,7 B parametrar men använder endast 12,9 B parametrar per token, vilket ger en bearbetningshastighet och kostnad som motsvarar en 12,9 B-modell.

Mixtral utvecklades med hjälp av data från det offentliga Internet, och utbildningen av experter och routrar skedde samtidigt.

Du kan enkelt prova Mixtral 8x7B på NLP Cloud: prova här.

Yi 34B by 01 AI

Modellerna i Yi-serien är det senaste framsteget inom stora språkmodeller med öppen källkod som utvecklats från grunden av 01.AI. Dessa modeller, som är avsedda för tvåspråkig användning, har tränats på ett massivt flerspråkigt dataset på 3 terabyte, vilket placerar dem bland de mest kraftfulla stora språkmodellerna globalt med stark kapacitet för språkförståelse, resonemang och läsförståelse.

Yi-34B-Chat-modellen säkrade andraplatsen, strax bakom GPT-4 Turbo, och överträffade andra stora språkmodeller som GPT-4, Mixtral och Claude på AlpacaEval Leaderboard, med denna ranking baserad på data fram till januari 2024. När det gäller modeller med öppen källkod tog Yi-34B förstaplatsen för både engelska och kinesiska språkuppgifter i flera benchmarks, och överglänste modeller som Falcon-180B, Llama-70B och Claude, enligt ställningarna på Hugging Face Open LLM Leaderboard (förtränade) och C-Eval, med data som beaktats fram till november 2023.

Yi-serien är uppbyggd på samma sätt som Llamas modellarkitektur och ger användarna tillgång till och möjlighet att använda det befintliga ekosystemet av verktyg, bibliotek och resurser som utformats för Llama. Denna kompatibilitet förenklar processen för utvecklare, eliminerar behovet av utveckling av nya verktyg och ökar produktiviteten i utvecklingsprocesserna.

Du kan enkelt prova Yi 34B på NLP Cloud: prova här.

DBRX från Databricks

DBRX är en stor språkmodell som bygger på en transformatorarkitektur som enbart fokuserar på avkodning och använder en metod som kallas next-token prediction för sin träning. Den har en detaljerad MoE-struktur (mixture-of-experts) med totalt 132 miljarder parametrar, varav 36 miljarder används för varje given indata. Modellen genomgick förträning på en stor korpus med 12 biljoner tokens, som omfattar både text och kod, fram till en cutoff i december 2023. Denna blandning av träningsdata innehåller både naturligt språk och kodningsexempel, med en betydande del på engelska.

DBRX utmärker sig genom sin finkorniga metod för användning av experter, som arbetar med 16 experter och väljer 4 för varje uppgift, i motsats till andra MoE-modeller som Mixtral-8x7B och Grok-1, som har 8 experter men bara väljer 2. Detta tillvägagångssätt ger 65 gånger fler potentiella expertkombinationer, vilket leder till en anmärkningsvärd förbättring av modellens prestanda. DBRX innehåller avancerade funktioner som rotary position encodings (RoPE), gated linear units (GLU) och grouped query attention (GQA) för sina operationer.

För sin förträning matades DBRX med 12 biljoner tokens från ett noggrant sammanställt dataset, med ett kontextintervall som sträcker sig upp till 32 000 tokens. Teamet bakom, Databricks, anser att detta dataset erbjuder dubbelt så hög kvalitet per token jämfört med data som används för MPT-modellfamiljen.

Datasetet skapades med hjälp av Databricks omfattande verktygslåda, som inkluderar Apache Spark™ och Databricks notebooks för bearbetning av data, tillsammans med Unity Catalog för hantering och styrning av den. Databricks implementerade en läroplansinlärningsmetod under förträningsfasen och justerade datamixen på ett sätt som avsevärt höjde modellens kvalitet.

DBRX är programmerad för att endast bearbeta textbaserade inmatningar och kan hantera inmatningar upp till 32 768 tokens i längd.

Slutsats

ChatGPT är en fantastisk chatbot-motor som kan svara på mycket avancerade frågor. Denna AI-motor är faktiskt till och med mer relevant än de flesta människor inom många områden.

ChatGPT kan dock ge upphov till problem med dataintegritet och är begränsad för många användningsområden. Det är intressant att jämföra ChatGPT med de mest avancerade alternativen med öppen källkod: LLaMA 3, Mixtral 8x7B, Yi 34B och DBRX. Och det råder ingen tvekan om att ännu mer avancerade AI-modeller med öppen källkod kommer att släppas snart.

Om du vill använda LLaMA 3, Yi 34B och Mixtral 8x7B i produktion, tveka inte att prova på NLP Cloud API (prova här)!

Juliette
Marknadschef på NLP Cloud