Alternativy otevřeného zdroje ChatGPT

ChatGPT je pokročilý chatbot engine založený na modelech GPT-3.5 a GPT-4 od společnosti OpenAI. Jedná se o výkonný model, ale může být zajímavé zvážit alternativy s otevřeným zdrojovým kódem.

Zkoumání open-source alternativ k ChatGPT umožňuje přizpůsobení a adaptaci konkrétním potřebám nebo projektům, což potenciálně nabízí větší kontrolu nad technologií při zachování soukromí dat. Modely s otevřeným zdrojovým kódem zajišťují transparentnost a umožňují uživatelům pochopit základní mechanismy modelu umělé inteligence.

V současné době jsou k dispozici velmi dobré alternativy ChatGPT s otevřeným zdrojovým kódem, například LLaMA 3, Mixtral 8x7B, Yi 34B a DBRX. Pojďme tyto alternativy prozkoumat.

Generativní modely AI: Jak fungují

ChatGPT je odvozen z GPT-3.5 a GPT-4, moderních generativních modelů AI založených na architektuře Transformer. Architektura Transformer je specifický typ neuronové sítě vynalezený společností Google v roce 2017. Více informací naleznete zde.

Generativní modely umělé inteligence jsou v podstatě dobré při generování určitého textu na základě konkrétního vstupu. V závislosti na zadání můžete modelu umělé inteligence říci, aby pro vás udělal různé věci. Můžete například požádat svůj model, aby kategorizoval část textu, extrahoval konkrétní entity z části textu, shrnul rozsáhlý obsah, parafrázoval nějaký obsah, odpovídal na otázky... a samozřejmě fungoval jako chatbot.

Všechny níže představené modely jsou "základní" modely, což znamená, že se jedná o nezpracované modely, které obvykle vyžadují několik záběrů učení nebo doladění, aby se správně řídily vašimi pokyny. To také znamená, že tyto modely ve výchozím nastavení neimplementují žádná omezení.

Abyste lépe pochopili, jak tyto generativní modely umělé inteligence využívat, doporučujeme vám přečíst si našeho průvodce používáním generativních modelů s několikanásobným učením: přečtěte si ji zde.

ChatGPT je generativní model, který byl speciálně instruován, aby se choval jako chatbot. Ve zbytku tohoto článku se budeme zabývat open-source alternativami k ChatGPT. Abyste je mohli použít v konverzačním režimu, budete muset buď použít několikanásobné učení pro konverzační AI, nebo jemné doladění. Více informací o učení několika snímků pro konverzační umělou inteligenci najdete zde. Další informace o jemném doladění najdete zde.

LLaMA 3 by Meta

Společnost Meta uvedla na trh řadu velkých jazykových modelů LLaMA 3, což je sada předem natrénovaných a vyladěných generativních textových modelů s velikostí od 7 do 70 miliard parametrů. Verze těchto modelů speciálně vyladěné pro konverzaci, známé jako Llama-2-Chat, jsou určeny pro dialogové aplikace. V porovnání s volně dostupnými konverzačními modely vykazují modely Llama-2-Chat ve většině hodnocených benchmarků lepší výkonnost a na základě našeho hodnocení užitečnosti a bezpečnosti se vyrovnají výkonnosti některých známých proprietárních modelů, jako jsou ChatGPT a PaLM.

LLaMA 3 obsahuje autoregresivní jazykový model postavený na vylepšeném transformačním rámci. Jeho vylepšené verze procházejí dolaďováním pod dohledem (SFT) a posilováním učení s lidskou zpětnou vazbou (RLHF), aby lépe odpovídaly očekáváním člověka ohledně užitečnosti a bezpečnosti.

Vývoj systému LLaMA 3 probíhal od ledna do července 2023, přičemž v jeho předvývojové fázi byly využity více než 2 biliony tokenů z veřejně přístupných dat. Fáze dolaďování využívala veřejně dostupné datové sady instrukcí a zahrnovala více než milion nových příkladů anotovaných lidmi. Žádná z dat použitých v předtréninkové ani dolaďovací fázi nepochází z uživatelských dat společnosti Meta. Zatímco data pro předtrénink byla shromážděna do září 2022, některá data pro jemné doladění jsou novější a sahají až do července 2023.

LLaMA 3 je určena pro komerční i výzkumné aplikace především v angličtině. Vyladěné modely jsou přizpůsobeny pro vytváření chatovacích aplikací podobných digitálním asistentům, zatímco předtrénované modely jsou dostatečně univerzální, aby je bylo možné upravit pro různá použití při generování přirozeného jazyka.

Aplikaci LLaMA 3 můžete snadno používat v NLP Cloud: zkuste to zde.

Mixtral 8x7B od Mistral AI

Mixtral překonává LLaMA 3 70B ve většině hodnocení a poskytuje šestkrát rychlejší odvozování. Vyniká jako nejvýkonnější model s otevřeným přístupem a nejlepší volba při zohlednění nákladové efektivity. Konkrétně se ve většině uznávaných testů vyrovná nebo překoná výkonnost modelu GPT3.5.

Mezi schopnosti nástroje Mixtral patří plynulá správa až 32 tisíc tokenů, podpora více jazyků, jako je angličtina, francouzština, italština, němčina a španělština, výjimečné schopnosti generování kódu a možnost jemného doladění podle pokynů, přičemž v testu MT-Bench dosáhl skóre 8,3.

V jádru je Mixtral řídká síť směsi expertů, která funguje pouze jako dekódovací model. Jeho struktura umožňuje výběr 8 různých skupin parametrů v rámci bloku feedforward. Speciální směrovačová síť v každé vrstvě vybírá dvě z těchto skupin neboli "expertů" ke zpracování každého tokenu a kombinuje jejich výsledky aditivním způsobem.

Tato metoda umožňuje rozšiřovat parametry modelu a zároveň efektivně řídit náklady a latenci využitím pouze části dostupných parametrů pro každý token. Konkrétně Mixtral disponuje celkem 46,7B parametry, ale na jeden token použije pouze 12,9B parametrů, čímž dosáhne rychlosti zpracování a nákladů odpovídajících 12,9B modelu.

Systém Mixtral byl vyvinut s využitím dat z veřejného internetu, přičemž školení odborníků a směrovačů probíhalo současně.

Službu Mixtral 8x7B si můžete snadno vyzkoušet na platformě NLP Cloud: zkuste to zde.

Yi 34B od 01 AI

Modely řady Yi představují nejnovější pokrok v oblasti velkých jazykových modelů s otevřeným zdrojovým kódem, které společnost 01.AI vyvinula od základu. Tyto modely, zaměřené na dvojjazyčné použití, byly vycvičeny na rozsáhlé vícejazyčné datové sadě o velikosti 3 terabajtů, což je řadí mezi nejvýkonnější velké jazykové modely na světě se silnými schopnostmi v oblasti porozumění jazyku, uvažování a porozumění čtenému textu.

Model Yi-34B-Chat se umístil na druhém místě hned za modelem GPT-4 Turbo a v žebříčku AlpacaEval předstihl další velkojazyčné modely jako GPT-4, Mixtral a Claude, přičemž toto pořadí vychází z údajů do ledna 2024. Co se týče modelů s otevřeným zdrojovým kódem, Yi-34B si v několika benchmarcích vydobyl první místo pro úlohy v anglickém i čínském jazyce a předstihl modely jako Falcon-180B, Llama-70B a Claude, a to podle pořadí v žebříčku Hugging Face Open LLM Leaderboard (pre-trained) a C-Eval, přičemž data byla uvažována až do listopadu 2023.

Řada Yi je strukturována podobně jako architektura modelu Llama a umožňuje uživatelům přistupovat k existujícímu ekosystému nástrojů, knihoven a zdrojů určených pro Lamu a využívat je. Tato kompatibilita zjednodušuje proces pro vývojáře, odstraňuje potřebu vývoje nových nástrojů a zvyšuje produktivitu vývojových procesů.

Yi 34B si můžete snadno vyzkoušet na NLP Cloud: zkuste to zde.

DBRX od společnosti Databricks

DBRX je rozsáhlý jazykový model postavený na transformační architektuře, který se zaměřuje výhradně na dekódování a pro své trénování používá metodu známou jako predikce dalších tokenů. Je vybaven podrobnou strukturou směsi expertů (MoE) a může se pochlubit celkem 132 miliardami parametrů, z nichž 36 miliard je využito pro jakýkoli vstup. Model prošel předběžným tréninkem na rozsáhlém korpusu 12 bilionů tokenů, zahrnujícím text i kód, a to až do uzávěrky v prosinci 2023. Tato směs tréninkových dat výrazně zahrnuje příklady přirozeného jazyka i kódování, přičemž značná část je v angličtině.

DBRX se vyznačuje jemným přístupem k využívání expertů, neboť pracuje s 16 experty a pro každou úlohu vybírá 4, na rozdíl od jiných modelů MoE, jako jsou Mixtral-8x7B a Grok-1, které mají 8 expertů, ale vybírají pouze 2. Tento přístup poskytuje 65krát více možných kombinací expertů, což vede k výraznému zvýšení výkonnosti modelu. DBRX pro své operace využívá pokročilé funkce, jako jsou rotační kódování polohy (RoPE), gated linear units (GLU) a grouped query attention (GQA).

Při předběžném tréninku bylo systému DBRX dodáno 12 bilionů tokenů z pečlivě sestavené sady dat s rozsahem kontextu až 32 000 tokenů. Tým Databricks, který za ním stojí, se domnívá, že tato datová sada nabízí dvojnásobnou kvalitu na jeden token ve srovnání s daty používanými pro rodinu modelů MPT.

Datová sada byla vytvořena pomocí komplexní sady nástrojů Databricks, která zahrnuje Apache Spark™ a Databricks notebooky pro zpracování dat spolu s Unity Catalog pro jejich správu a řízení. Společnost Databricks zavedla ve fázi před tréninkem přístup založený na učení podle osnov a upravila skladbu dat způsobem, který výrazně zvýšil kvalitu modelu.

DBRX je naprogramován tak, aby zpracovával pouze textové vstupy a je schopen zpracovat vstupy o délce až 32 768 tokenů.

Závěr

ChatGPT je úžasný chatbot, který dokáže odpovídat na velmi pokročilé otázky. Tento motor s umělou inteligencí je ve skutečnosti v mnoha oblastech ještě relevantnější než většina lidí.

Služba ChatGPT však může vyvolat problémy s ochranou osobních údajů a pro mnoho případů použití je omezená. Je zajímavé porovnat ChatGPT s nejpokročilejšími alternativami s otevřeným zdrojovým kódem: LLaMA 3, Mixtral 8x7B,Yi 34B a DBRX. A není pochyb o tom, že brzy budou uvolněny ještě pokročilejší open-source modely AI.

Pokud chcete používat LLaMA 3, Yi 34B a Mixtral 8x7B ve výrobě, neváhejte a vyzkoušejte si NLP Cloud API. (zkuste to zde)!

Juliette
Marketingový manažer ve společnosti NLP Cloud