ChatGPT on kehittynyt chatbot-moottori, joka perustuu OpenAI:n GPT-3.5- ja GPT-4-malleihin. Se on tehokas malli, mutta voi olla mielenkiintoista tarkastella avoimen lähdekoodin vaihtoehtoja.
Avoimen lähdekoodin vaihtoehtojen tutkiminen ChatGPT:lle mahdollistaa räätälöinnin ja mukauttamisen erityistarpeisiin tai -hankkeisiin, mikä saattaa tarjota paremman teknologian hallinnan samalla kun tietosuoja säilyy. Avoimen lähdekoodin mallit takaavat avoimuuden ja antavat käyttäjille mahdollisuuden ymmärtää tekoälymallin taustalla olevat mekanismit.
Nykyään on saatavilla erittäin hyviä avoimen lähdekoodin ChatGPT-vaihtoehtoja, kuten LLaMA 3, Mixtral 8x7B, Yi 34B ja DBRX. Tutkitaanpa näitä vaihtoehtoja.

ChatGPT on johdettu GPT-3.5:stä ja GPT-4:stä, jotka ovat moderneja generatiivisia tekoälymalleja, jotka perustuvat Transformer-arkkitehtuuriin. Transformer-arkkitehtuuri on erityinen neuroverkkotyyppi, jonka Google keksi vuonna 2017. Katso lisää täältä.
Generatiiviset tekoälymallit ovat periaatteessa hyviä tuottamaan tekstiä tietyn syötteen perusteella. Syötteestäsi riippuen voit käskeä tekoälymalliasi tekemään erilaisia asioita puolestasi. Voit esimerkiksi pyytää malliasi luokittelemaan tekstin, poimimaan tekstistä tiettyjä kokonaisuuksia, tiivistämään laajoja sisältöjä, muotoilemaan sisältöä, vastaamaan kysymyksiin... ja tietysti toimimaan chatbotina.
Kaikki alla esitellyt mallit ovat "perustavia" malleja, mikä tarkoittaa, että ne ovat raakamalleja, jotka vaativat yleensä muutaman laukauksen opettelua tai hienosäätöä, jotta ne noudattaisivat ohjeitasi oikein. Se tarkoittaa myös sitä, että nämä mallit eivät oletusarvoisesti toteuta minkäänlaisia rajoituksia.
Jotta ymmärtäisit, miten näitä generatiivisia tekoälymalleja voidaan hyödyntää syvällisemmin, suosittelemme, että luet oppaamme generatiivisten mallien käytöstä few-shot-oppimisen kanssa: lue se täältä.
ChatGPT on generatiivinen malli, joka on erityisesti ohjeistettu käyttäytymään kuin chatbot. Tämän artikkelin loppuosassa tarkastelemme avoimen lähdekoodin vaihtoehtoja ChatGPT:lle. Jotta voit käyttää niitä keskustelutilassa, sinun on joko käytettävä muutaman laukauksen oppimista keskustelevaa tekoälyä varten tai hienosäätöä. Lue lisää keskustelevaa tekoälyä koskevasta muutaman kuvan oppimisesta täältä. Lue lisää hienosäädöstä täältä.
Meta on tuonut markkinoille LLaMA 3 -sarjan suuret kielimallit (LLM), joka on sarja generatiivisia tekstimalleja, jotka on esivalmennettu ja hienosäädetty ja joiden koko vaihtelee 7-70 miljardin parametrin välillä. Näiden mallien erityisesti keskustelua varten hienosäädetyt versiot, jotka tunnetaan nimellä Llama-2-Chat, on suunniteltu dialogisovelluksia varten. Vapaasti saatavilla oleviin keskustelumalleihin verrattuna Llama-2-Chat-mallit osoittavat parempaa suorituskykyä useimmissa arvioiduissa vertailuarvoissa, ja hyödyllisyyttä ja turvallisuutta koskevien arvioidemme perusteella ne vastaavat suorituskyvyltään eräitä tunnettuja omia malleja, kuten ChatGPT:tä ja PaLM:ää.
LLaMA 3 sisältää automaattisen regressiivisen kielimallin, joka perustuu parannettuun muuntajakehykseen. Sen parannetuissa versioissa käytetään valvottua hienosäätöä (SFT) ja vahvistusoppimista ihmisen palautteen avulla (RLHF), jotta ne vastaisivat paremmin ihmisen odotuksia hyödyllisyydestä ja turvallisuudesta.
LLaMA 3:n kehittäminen kesti tammikuusta heinäkuuhun 2023, ja sen esiharjoitteluvaiheessa käytettiin yli 2 biljoonaa julkisesti saatavilla olevasta datasta peräisin olevaa tokenia. Hienosäätövaiheessa hyödynnettiin julkisesti saatavilla olevia opetustietokantoja, ja siihen sisältyi yli miljoona uutta esimerkkiä, jotka ihmiset olivat kommentoineet. Mikään esiharjoittelu- tai hienosäätövaiheessa käytetyistä tiedoista ei ole peräisin Metan käyttäjätiedoista. Esikoulutusdata kerättiin syyskuuhun 2022 asti, mutta osa hienosäätöä varten kerätystä datasta on tuoreempaa, heinäkuuhun 2023 asti.
LLaMA 3 on suunniteltu sekä kaupallisiin että tutkimussovelluksiin ensisijaisesti englanniksi. Hienosäädetyt mallit on räätälöity digitaalisia avustajia muistuttavien chattisovellusten luomiseen, kun taas esivalmennetut mallit ovat riittävän monipuolisia, jotta niitä voidaan mukauttaa erilaisiin luonnollisen kielen tuottamisen käyttötarkoituksiin.
Voit käyttää LLaMA 3:a helposti NLP Cloudissa: kokeile sitä täällä.
Mixtral ylittää LLaMA 3 70B:n suurimmassa osassa arviointeja ja tarjoaa kuusi kertaa nopeamman päättelynopeuden. Se on tehokkain malli, johon on avoin pääsy, ja se on paras valinta, kun otetaan huomioon kustannustehokkuus. Erityisesti se vastaa GPT3.5:n suorituskykyä tai ylittää sen useimmissa tunnustetuissa testeissä.
Mixtralin ominaisuuksiin kuuluu jopa 32k tokenin sujuva hallinta, useiden kielten, kuten englannin, ranskan, italian, saksan ja espanjan, tukeminen, poikkeukselliset koodinluontiominaisuudet ja kyky hienosäätää ohjeiden noudattamista, ja se saavutti MT-Benchissä 8,3 pistettä.
Mixtral on pohjimmiltaan harva asiantuntijoiden sekoitusverkko, joka toimii pelkkänä dekooderimallina. Sen rakenne mahdollistaa 8 eri parametriryhmän valinnan feedforward-lohkossa. Kussakin kerroksessa sijaitseva reititinverkko valitsee kaksi näistä ryhmistä eli "asiantuntijaa" käsittelemään kutakin merkkiä ja yhdistää niiden tulokset additiivisesti.
Tämä menetelmä mahdollistaa mallin parametrien laajentamisen ja samalla kustannusten ja viiveen tehokkaan hallinnan käyttämällä vain osaa käytettävissä olevista parametreista kutakin merkkiä varten. Mixtralilla on yhteensä 46,7B parametria, mutta se käyttää vain 12,9B parametria merkkiä kohden, jolloin saavutetaan 12,9B-mallia vastaava käsittelynopeus ja kustannukset.
Mixtral kehitettiin käyttäen julkisesta internetistä saatuja tietoja, ja asiantuntijoiden ja reitittimien koulutus tapahtui samanaikaisesti.
Voit helposti kokeilla Mixtral 8x7B:tä NLP Cloudissa: kokeile sitä täällä.
Yi-sarjan mallit edustavat uusinta kehitystä 01.AI:n alusta alkaen kehittämissä avoimen lähdekoodin suurissa kielimalleissa. Nämä kaksikieliseen käyttöön tarkoitetut mallit on koulutettu massiivisella 3 teratavun monikielisellä tietokokonaisuudella, minkä ansiosta ne ovat yksi maailman tehokkaimmista suurista kielimalleista, joilla on vahvat valmiudet kielen ymmärtämiseen, päättelyyn ja luetun ymmärtämiseen.
Yi-34B-Chat-malli varmisti toisen sijan heti GPT-4 Turbon jälkeen ja ohitti muut suurikieliset mallit, kuten GPT-4, Mixtral ja Claude, AlpacaEval Leaderboard -listalla, ja tämä sijoitus perustuu tammikuuhun 2024 asti oleviin tietoihin. Avoimen lähdekoodin malleista Yi-34B saavutti ykkössijan sekä englannin- että kiinankielisissä tehtävissä useissa vertailuarvoissa ja päihitti Falcon-180B:n, Llama-70B:n ja Clauden kaltaiset mallit Hugging Face Open LLM Leaderboardin (esivalmennettu) ja C-Evalin sijoitusten mukaan, kun tiedot on otettu huomioon marraskuuhun 2023 asti.
Yi-sarja on rakenteeltaan samanlainen kuin Llama-malliarkkitehtuuri, ja sen avulla käyttäjät voivat käyttää ja hyödyntää olemassa olevaa Llamaa varten suunniteltujen työkalujen, kirjastojen ja resurssien ekosysteemiä. Tämä yhteensopivuus yksinkertaistaa kehittäjien prosessia, poistaa tarpeen uusien työkalujen kehittämiseen ja parantaa kehitysprosessien tuottavuutta.
Voit helposti kokeilla Yi 34B:tä NLP Cloudissa: kokeile sitä täällä.
DBRX on suuri kielimalli, joka on rakennettu muuntajaarkkitehtuuriin ja keskittyy pelkästään dekoodaukseen, ja sen koulutuksessa käytetään menetelmää, joka tunnetaan nimellä next-token prediction. Siinä on yksityiskohtainen MoE-rakenne (mixture-of-experts), jossa on yhteensä 132 miljardia parametria, joista 36 miljardia käytetään mihin tahansa syötteeseen. Mallia esiharjoitettiin joulukuussa 2023 tapahtuvaan rajaukseen asti 12 biljoonan merkin laajuisella korpuksella, joka sisälsi sekä tekstiä että koodia. Koulutusdatan sekoitus sisältää runsaasti luonnollisen kielen ja koodausesimerkkejä, joista merkittävä osa on englanninkielisiä.
DBRX erottuu edukseen hienojakoisella lähestymistavallaan asiantuntijoiden käyttöön: se käyttää 16 asiantuntijaa ja valitsee neljä asiantuntijaa kuhunkin tehtävään, toisin kuin muut MoE-mallit, kuten Mixtral-8x7B ja Grok-1, joissa on 8 asiantuntijaa mutta joista valitaan vain kaksi. Tällä lähestymistavalla saadaan 65 kertaa enemmän mahdollisia asiantuntijayhdistelmiä, mikä parantaa huomattavasti mallin suorituskykyä. DBRX:n toiminnoissa käytetään kehittyneitä ominaisuuksia, kuten rotaatiokoodausta (RoPE), gated lineaarisia yksiköitä (GLU) ja ryhmiteltyä kyselyhuomiota (GQA).
DBRX:n esiharjoittelua varten sille syötettiin 12 biljoonaa merkkiä huolellisesti kootusta tietokokonaisuudesta, jonka kontekstin vaihteluväli ulottui 32 000 merkkiin asti. Databricks-tiimi, joka on sen takana, uskoo, että tämä tietokokonaisuus tarjoaa kaksi kertaa enemmän laatua merkkiä kohden kuin MPT-malliperheessä käytetty data.
Tietokokonaisuus luotiin Databricksin kattavalla työkalupaketilla, joka sisältää Apache Spark™- ja Databricks-tietokirjat tietojen käsittelyyn sekä Unity Catalog -työkalupaketin tietojen hallintaan ja hallintaan. Databricks toteutti esiharjoitteluvaiheessa curriculum learning -lähestymistavan, jossa datayhdistelmää muokattiin tavalla, joka paransi mallin laatua merkittävästi.
DBRX on ohjelmoitu käsittelemään vain tekstipohjaisia syötteitä, ja se pystyy käsittelemään enintään 32 768 merkin pituisia syötteitä.
ChatGPT on hämmästyttävä chatbot-moottori, joka pystyy vastaamaan hyvin kehittyneisiin kysymyksiin. Tämä tekoälymoottori on itse asiassa jopa merkityksellisempi kuin useimmat ihmiset monilla aloilla.
ChatGPT voi kuitenkin herättää tietosuojaongelmia, ja sen käyttö on monissa tapauksissa rajoitettua. On mielenkiintoista verrata ChatGPT:tä edistyneimpiin avoimen lähdekoodin vaihtoehtoihin: LLaMA 3, Mixtral 8x7B, Yi 34B ja DBRX. Eikä ole epäilystäkään siitä, että vielä kehittyneempiä avoimen lähdekoodin tekoälymalleja julkaistaan pian.
Jos haluat käyttää LLaMA 3:a, Yi 34B:tä ja Mixtral 8x7B:tä tuotannossa, älä epäröi kokeilla NLP Cloud API:ta. (kokeile sitä täällä)!
Juliette
Markkinointipäällikkö NLP Cloudissa