Le alternative open source di ChatGPT

ChatGPT è un motore di chatbot avanzato, basato sui modelli GPT-3.5 e GPT-4 di OpenAI. È un modello potente, ma può essere interessante considerare alternative open-source.

L'esplorazione di alternative open-source a ChatGPT consente la personalizzazione e l'adattamento a esigenze o progetti specifici, offrendo potenzialmente un maggiore controllo sulla tecnologia e preservando la privacy dei dati. I modelli open-source garantiscono la trasparenza e consentono agli utenti di comprendere i meccanismi sottostanti al modello di IA.

Esistono ottime alternative open-source a ChatGPT, come LLaMA 3, Mixtral 8x7B, Yi 34B e DBRX. Analizziamo queste alternative.

Modelli generativi di intelligenza artificiale: Come funzionano

ChatGPT deriva da GPT-3.5 e GPT-4, moderni modelli di intelligenza artificiale generativa basati sull'architettura Transformer. L'architettura Transformer è un tipo specifico di rete neurale inventato da Google nel 2017. Per saperne di più, vedere qui.

I modelli di intelligenza artificiale generativa sono fondamentalmente in grado di generare del testo sulla base di un input specifico. A seconda dell'input, si può chiedere al modello AI di fare diverse cose per noi. Ad esempio, si può chiedere al modello di categorizzare un testo, di estrarre entità specifiche da un testo, di riassumere grandi contenuti, di parafrasare un contenuto, di rispondere a domande... e naturalmente di agire come un chatbot.

Tutti i modelli presentati qui di seguito sono modelli "fondazionali", cioè modelli grezzi che di solito richiedono un apprendimento a pochi colpi o una messa a punto per seguire correttamente le istruzioni dell'utente. Ciò significa anche che questi modelli non implementano alcun tipo di restrizione per impostazione predefinita.

Per capire come sfruttare questi modelli generativi di intelligenza artificiale in modo più approfondito, vi consigliamo di leggere la nostra guida su come utilizzare i modelli generativi con l'apprendimento a pochi colpi: leggi qui.

ChatGPT è un modello generativo che è stato specificamente istruito per comportarsi come un chatbot. Nel resto dell'articolo esploreremo le alternative open-source a ChatGPT. Per utilizzarle in modalità conversazionale è necessario utilizzare l'apprendimento a pochi colpi per l'IA conversazionale o la messa a punto. Per saperne di più sull'apprendimento a pochi colpi per l'IA conversazionale, cliccate qui. Per saperne di più sulla messa a punto, cliccate qui.

LLaMA 3 di Meta

Meta ha lanciato la serie LLaMA 3 di modelli linguistici di grandi dimensioni (LLM), una suite di modelli generativi di testo pre-addestrati e messi a punto, con dimensioni variabili da 7 a 70 miliardi di parametri. Le versioni di questi modelli specificamente tarate per la conversazione, note come Llama-2-Chat, sono progettate per applicazioni di dialogo. Rispetto ai modelli di chat liberamente disponibili, i modelli Llama-2-Chat dimostrano prestazioni superiori nella maggior parte dei benchmark valutati e, in base alle nostre valutazioni di utilità e sicurezza, eguagliano le prestazioni di alcuni noti modelli proprietari come ChatGPT e PaLM.

LLaMA 3 incorpora un modello linguistico autoregressivo costruito su un framework trasformatore migliorato. Le sue versioni migliorate sono sottoposte a una messa a punto supervisionata (SFT) e all'apprendimento per rinforzo con feedback umano (RLHF) per allinearsi meglio alle aspettative umane in termini di utilità e sicurezza.

Lo sviluppo di LaMa 3 è durato da gennaio a luglio 2023, con una fase di pre-addestramento che ha utilizzato oltre 2.000 miliardi di token da dati accessibili al pubblico. La fase di messa a punto ha utilizzato set di dati di istruzioni disponibili pubblicamente e ha incluso più di un milione di nuovi esempi annotati da persone. Nessuno dei dati utilizzati nelle fasi di pre-addestramento o di messa a punto proviene dai dati degli utenti di Meta. Mentre i dati di pre-formazione sono stati raccolti fino a settembre 2022, alcuni dei dati per la messa a punto sono più recenti, fino a luglio 2023.

LLaMA 3 è stato progettato per applicazioni commerciali e di ricerca, principalmente in lingua inglese. I modelli perfezionati sono adatti alla creazione di applicazioni di chat simili ad assistenti digitali, mentre i modelli pre-addestrati sono abbastanza versatili da poter essere adattati a diversi usi di generazione del linguaggio naturale.

È possibile utilizzare facilmente LLaMA 3 su NLP Cloud: provalo qui.

Mixtral 8x7B di Mistral AI

Mixtral supera LLaMA 3 70B nella maggior parte delle valutazioni e offre tassi di inferenza sei volte più veloci. Si distingue come il modello più potente ad accesso libero e come la scelta migliore se si considera l'efficienza dei costi. In particolare, eguaglia o supera le prestazioni di GPT3.5 nella maggior parte dei test riconosciuti.

Le capacità di Mixtral includono la gestione di fino a 32k token senza problemi, il supporto di più lingue come l'inglese, il francese, l'italiano, il tedesco e lo spagnolo, l'eccezionale capacità di generare codice e la capacità di essere ottimizzato per seguire le istruzioni, ottenendo un punteggio di 8,3 su MT-Bench.

Nel suo nucleo, Mixtral è una rete rada a miscela di esperti, che funziona come modello di sola decodifica. La sua struttura consente la selezione di 8 diversi gruppi di parametri all'interno del blocco feedforward. Una rete di router dedicata a ogni livello seleziona due di questi gruppi, o "esperti", per elaborare ogni token, combinando i loro risultati in modo additivo.

Questo metodo consente di espandere i parametri di un modello gestendo in modo efficiente i costi e la latenza, utilizzando solo una parte dei parametri disponibili per ogni token. In particolare, Mixtral possiede un totale di 46,7B parametri ma ne applica solo 12,9B per ogni token, ottenendo così una velocità di elaborazione e un costo equivalenti a un modello da 12,9B.

Mixtral è stato sviluppato utilizzando i dati della rete Internet pubblica, con la formazione di esperti e router in contemporanea.

È possibile provare facilmente Mixtral 8x7B su NLP Cloud: provalo qui.

Yi 34B da 01 AI

I modelli della serie Yi rappresentano l'ultimo progresso dei modelli linguistici di grandi dimensioni open-source sviluppati da 01.AI. Questi modelli, destinati all'uso bilingue, sono stati addestrati su un enorme set di dati multilingue di 3 terabyte, che li posiziona tra i più potenti modelli linguistici di grandi dimensioni a livello globale, con forti capacità di comprensione del linguaggio, ragionamento e comprensione della lettura.

Il modello Yi-34B-Chat si è assicurato la seconda posizione, subito dopo il GPT-4 Turbo, e ha superato altri modelli linguistici di grandi dimensioni come il GPT-4, il Mixtral e il Claude nella classifica di AlpacaEval, basata su dati aggiornati a gennaio 2024. Per quanto riguarda i modelli open-source, il modello Yi-34B ha conquistato il primo posto per i compiti in lingua inglese e cinese in diversi benchmark, superando modelli come Falcon-180B, Llama-70B e Claude, secondo le classifiche Hugging Face Open LLM Leaderboard (pre-trained) e C-Eval, con dati considerati fino a novembre 2023.

Strutturata in modo simile all'architettura del modello Llama, la serie Yi consente agli utenti di accedere e utilizzare l'ecosistema esistente di strumenti, librerie e risorse progettate per Llama. Questa compatibilità semplifica il processo per gli sviluppatori, eliminando la necessità di sviluppare nuovi strumenti e migliorando la produttività dei processi di sviluppo.

Potete facilmente provare Yi 34B su NLP Cloud: provalo qui.

DBRX di Databricks

DBRX è un modello linguistico di grandi dimensioni costruito su un'architettura a trasformatori che si concentra esclusivamente sulla decodifica e impiega un metodo noto come next-token prediction per il suo addestramento. Presenta una dettagliata struttura a miscela di esperti (MoE), con un totale di 132 miliardi di parametri, di cui 36 miliardi vengono utilizzati per qualsiasi input. Il modello è stato sottoposto a pre-addestramento su un vasto corpus di 12 trilioni di token, comprendente sia testo che codice, fino al cutoff del dicembre 2023. Questa miscela di dati di addestramento comprende esempi di linguaggio naturale e di codifica, con una parte significativa in inglese.

DBRX si distingue per il suo approccio a grana fine nell'uso degli esperti, operando con 16 esperti e selezionandone 4 per ogni compito, a differenza di altri modelli MoE come Mixtral-8x7B e Grok-1, che hanno 8 esperti ma ne scelgono solo 2. Questo approccio produce un numero 65 volte maggiore di potenziali combinazioni di esperti. Questo approccio consente di ottenere un numero di combinazioni di esperti 65 volte superiore, con un notevole miglioramento delle prestazioni del modello. DBRX incorpora caratteristiche avanzate come le codifiche di posizione rotante (RoPE), le unità lineari gated (GLU) e la grouped query attention (GQA) per le sue operazioni.

Per il pre-addestramento, DBRX è stato alimentato con 12 trilioni di token provenienti da un set di dati meticolosamente compilato, con un intervallo di contesto che si estende fino a 32.000 token. Il team che lo ha creato, Databricks, ritiene che questo set di dati offra il doppio della qualità per token rispetto ai dati utilizzati per la famiglia di modelli MPT.

Il set di dati è stato creato utilizzando il kit di strumenti completo di Databricks, che comprende Apache Spark™ e Databricks notebooks per l'elaborazione dei dati, oltre a Unity Catalog per la gestione e il governo degli stessi. Databricks ha implementato un approccio di apprendimento curriculare durante la fase di pre-addestramento, regolando il mix di dati in modo da aumentare significativamente la qualità del modello.

DBRX è programmato per elaborare solo input di tipo testuale ed è in grado di gestire input fino a 32.768 token.

Conclusione

ChatGPT è un incredibile motore di chatbot in grado di rispondere a domande molto avanzate. Questo motore di intelligenza artificiale è addirittura più rilevante della maggior parte degli esseri umani in molti campi.

Tuttavia, ChatGPT può sollevare problemi di privacy dei dati ed è limitato per molti casi d'uso. È interessante confrontare ChatGPT con le alternative open-source più avanzate: LLaMA 3, Mixtral 8x7B, Yi 34B e DBRX. E non c'è dubbio che presto verranno rilasciati modelli di IA open-source ancora più avanzati.

Se volete utilizzare LLaMA 3, Yi 34B e Mixtral 8x7B in produzione, non esitate a provare le API di NLP Cloud. (provalo qui)!

Juliette
Responsabile marketing presso NLP Cloud