ChatGPT er en avanceret chatbot-motor, der er baseret på GPT-3.5- og GPT-4-modellerne fra OpenAI. Det er en kraftfuld model, men det kan være interessant at overveje open source-alternativer.
Udforskning af open source-alternativer til ChatGPT giver mulighed for tilpasning og tilpasning til specifikke behov eller projekter, hvilket potentielt giver større kontrol over teknologien, samtidig med at databeskyttelsen bevares. Open source-modeller sikrer gennemsigtighed og giver brugerne mulighed for at forstå de underliggende mekanismer i AI-modellen.
Der findes rigtig gode open source ChatGPT-alternativer i dag som LLaMA 3, Mixtral 8x7B, Yi 34B og DBRX. Lad os undersøge disse alternativer.

ChatGPT er afledt af GPT-3.5 og GPT-4, moderne generative AI-modeller baseret på Transformer-arkitekturen. Transformer-arkitekturen er en specifik type neuralt netværk, der blev opfundet af Google i 2017. Se mere her.
Generative AI-modeller er dybest set gode til at generere tekst baseret på et specifikt input. Afhængigt af dit input kan du bede din AI-model om at gøre forskellige ting for dig. For eksempel kan du bede din model om at kategorisere et stykke tekst, udtrække specifikke enheder fra et stykke tekst, opsummere stort indhold, parafrasere noget indhold, besvare spørgsmål ... og selvfølgelig fungere som en chatbot.
Alle de modeller, der præsenteres nedenfor, er "grundlæggende" modeller, hvilket betyder, at de er rå modeller, der normalt kræver nogle få læringsforsøg eller finjustering for at følge dine instruktioner korrekt. Det betyder også, at disse modeller ikke implementerer nogen form for begrænsninger som standard.
For at forstå, hvordan man udnytter disse generative AI-modeller mere indgående, anbefaler vi, at du læser vores guide om, hvordan man bruger generative modeller med few-shot learning: Læs det her.
ChatGPT er en generativ model, der specifikt er blevet instrueret i at opføre sig som en chatbot. I resten af denne artikel vil vi udforske open source-alternativer til ChatGPT. For at kunne bruge dem i konversationstilstand skal du enten bruge few-shot learning til konversations-AI eller finjustering. Læs mere om few-shot learning til samtale-AI her. Læs mere om finjustering her.
Meta har lanceret LLaMA 3-serien af store sprogmodeller (LLM'er), som er en serie af generative tekstmodeller, der er blevet fortrænet og finjusteret, og som varierer i størrelse fra 7 til 70 milliarder parametre. De versioner af disse modeller, der er specifikt finjusteret til samtale, kendt som Llama-2-Chat, er designet til dialogapplikationer. Sammenlignet med frit tilgængelige chatmodeller viser Llama-2-Chat-modeller overlegen ydeevne på tværs af de fleste evaluerede benchmarks, og baseret på vores vurderinger af anvendelighed og sikkerhed matcher de ydeevnen hos nogle velkendte proprietære modeller som ChatGPT og PaLM.
LLaMA 3 indeholder en auto-regressiv sprogmodel, der bygger på en forbedret transformer-ramme. De forbedrede versioner gennemgår supervised fine-tuning (SFT) og reinforcement learning with human feedback (RLHF) for bedre at tilpasse sig menneskets forventninger til anvendelighed og sikkerhed.
Udviklingen af LLaMA 3 strakte sig fra januar til juli 2023, hvor fortræningsfasen udnyttede over 2 billioner tokens fra offentligt tilgængelige data. Finjusteringsfasen benyttede offentligt tilgængelige instruktionsdatasæt og inkluderede mere end en million nye eksempler, der var kommenteret af mennesker. Ingen af de data, der blev brugt i hverken fortrænings- eller finjusteringsfasen, kommer fra Metas brugerdata. Mens fortræningsdataene blev indsamlet indtil september 2022, er nogle af dataene til finjustering nyere og strækker sig til juli 2023.
LLaMA 3 er designet til både kommercielle og forskningsmæssige anvendelser, primært på engelsk. De finjusterede modeller er skræddersyet til at skabe chat-applikationer, der minder om digitale assistenter, mens de forudindlærte modeller er alsidige nok til at blive justeret til forskellige anvendelser inden for generering af naturligt sprog.
Du kan nemt bruge LLaMA 3 på NLP Cloud: Prøv det her.
Mixtral overgår LLaMA 3 70B i de fleste vurderinger og leverer seks gange hurtigere inferensrater. Den skiller sig ud som den mest kraftfulde model med åben adgang og det bedste valg, når man overvejer omkostningseffektivitet. Specifikt er den lig med eller bedre end GPT3.5 i de fleste anerkendte tests.
Mixtrals evner omfatter håndtering af op til 32.000 tokens uden problemer, understøttelse af flere sprog som engelsk, fransk, italiensk, tysk og spansk, enestående kodegenereringsfunktioner og evnen til at blive finjusteret til at følge instruktioner og opnå en score på 8,3 på MT-Bench.
Kernen i Mixtral er et sparsomt mixture-of-experts-netværk, der udelukkende fungerer som en dekodermodel. Dets struktur gør det muligt at vælge 8 forskellige parametergrupper inden for feedforward-blokken. Et dedikeret routernetværk i hvert lag vælger to af disse grupper, eller "eksperter", til at behandle hvert token og kombinere deres resultater på en additiv måde.
Denne metode gør det muligt at udvide en models parametre og samtidig styre omkostninger og ventetid effektivt ved kun at bruge en del af de tilgængelige parametre for hvert token. Specifikt har Mixtral i alt 46,7 B parametre, men anvender kun 12,9 B parametre pr. token og opnår derved en behandlingshastighed og omkostning, der svarer til en 12,9 B-model.
Mixtral blev udviklet ved hjælp af data fra det offentlige internet, hvor uddannelsen af eksperter og routere foregik samtidigt.
Du kan nemt prøve Mixtral 8x7B på NLP Cloud: Prøv det her.
Yi-seriens modeller repræsenterer det seneste fremskridt inden for store open source-sprogmodeller, der er udviklet fra bunden af 01.AI. Disse modeller, der er rettet mod tosproget brug, er blevet trænet på et massivt 3-terabyte flersproget datasæt, hvilket placerer dem som blandt de mest kraftfulde store sprogmodeller globalt med stærke evner inden for sprogforståelse, ræsonnement og læseforståelse.
Yi-34B-Chat-modellen sikrede sig andenpladsen, lige efter GPT-4 Turbo, og overgik andre store sprogmodeller som GPT-4, Mixtral og Claude på AlpacaEval Leaderboard, hvor denne rangering er baseret på data frem til januar 2024. Når det gælder open source-modeller, vandt Yi-34B førstepladsen for både engelsk- og kinesisksprogede opgaver på tværs af flere benchmarks og overgik modeller som Falcon-180B, Llama-70B og Claude, ifølge placeringer på Hugging Face Open LLM Leaderboard (pre-trained) og C-Eval, med data frem til november 2023.
Yi-serien er struktureret på samme måde som Llama-modelarkitekturen og giver brugerne adgang til og mulighed for at bruge det eksisterende økosystem af værktøjer, biblioteker og ressourcer, der er designet til Llama. Denne kompatibilitet forenkler processen for udviklere, eliminerer behovet for udvikling af nye værktøjer og øger produktiviteten i udviklingsprocesserne.
Du kan nemt prøve Yi 34B på NLP Cloud: Prøv det her.
DBRX er en stor sprogmodel bygget på en transformerarkitektur, der udelukkende fokuserer på afkodning og anvender en metode kendt som next-token prediction til sin træning. Den har en detaljeret MoE-struktur (mixture-of-experts) med i alt 132 milliarder parametre, hvoraf 36 milliarder bruges til et givet input. Modellen gennemgik fortræning på et stort korpus af 12 billioner tokens, der omfatter både tekst og kode, indtil et cutoff i december 2023. Denne blanding af træningsdata omfatter både naturligt sprog og kodeeksempler, hvoraf en stor del er på engelsk.
DBRX skiller sig ud ved sin finkornede tilgang til brugen af eksperter, idet den opererer med 16 eksperter og vælger 4 til hver opgave, i modsætning til andre MoE-modeller som Mixtral-8x7B og Grok-1, der har 8 eksperter, men kun vælger 2. Denne tilgang giver 65 gange flere potentielle ekspertkombinationer, hvilket fører til en bemærkelsesværdig forbedring af modellens ydeevne. DBRX indeholder avancerede funktioner som roterende positionskodninger (RoPE), gated lineære enheder (GLU) og grouped query attention (GQA) til sine operationer.
Til fortræningen blev DBRX fodret med 12 billioner tokens fra et omhyggeligt sammensat datasæt, med et kontekstområde, der strækker sig op til 32.000 tokens. Holdet bag, Databricks, mener, at dette datasæt giver dobbelt så høj kvalitet pr. token sammenlignet med de data, der bruges til MPT-modelfamilien.
Datasættet blev skabt ved hjælp af Databricks' omfattende værktøjssæt, som omfatter Apache Spark™ og Databricks notebooks til behandling af data, sammen med Unity Catalog til styring og administration af dem. Databricks implementerede en curriculum learning-tilgang i fortræningsfasen og justerede datamixet på en måde, der øgede modellens kvalitet betydeligt.
DBRX er programmeret til kun at behandle tekstbaserede input og er i stand til at håndtere input på op til 32.768 tokens i længden.
ChatGPT er en fantastisk chatbot-motor, der er i stand til at besvare meget avancerede spørgsmål. Denne AI-motor er faktisk endnu mere relevant end de fleste mennesker på mange områder.
ChatGPT kan dog give problemer med databeskyttelse og er begrænset til mange anvendelsesområder. Det er interessant at sammenligne ChatGPT med de mest avancerede open source-alternativer: LLaMA 3, Mixtral 8x7B, Yi 34B og DBRX. Og der er ingen tvivl om, at endnu mere avancerede open source AI-modeller snart vil blive frigivet.
Hvis du vil bruge LLaMA 3, Yi 34B og Mixtral 8x7B i produktionen, skal du ikke tøve med at prøve NLP Cloud API'en. (Prøv det her)!
Juliette
Marketingchef hos NLP Cloud