As alternativas de código aberto do ChatGPT

O ChatGPT é um motor de chatbot avançado, baseado nos modelos GPT-3.5 e GPT-4 da OpenAI. É um modelo poderoso, mas pode ser interessante considerar alternativas de código aberto.

A exploração de alternativas de código aberto ao ChatGPT permite a personalização e a adaptação a necessidades ou projectos específicos, oferecendo potencialmente um maior controlo sobre a tecnologia, preservando simultaneamente a privacidade dos dados. Os modelos de código aberto garantem a transparência e permitem aos utilizadores compreender os mecanismos subjacentes ao modelo de IA.

Existem atualmente muito boas alternativas de código aberto ao ChatGPT, como o LLaMA 3, o Mixtral 8x7B, o Yi 34B e o DBRX. Vamos investigar estas alternativas.

Modelos generativos de IA: Como funcionam

O ChatGPT é derivado do GPT-3.5 e do GPT-4, modelos modernos de IA generativa baseados na arquitetura Transformer. A arquitetura Transformer é um tipo específico de rede neural inventada pela Google em 2017. Ver mais aqui.

Os modelos de IA generativa são basicamente bons a gerar algum texto com base numa entrada específica. Dependendo da sua entrada, pode dizer ao seu modelo de IA para fazer várias coisas por si. Por exemplo, pode pedir ao seu modelo para categorizar um texto, extrair entidades específicas de um texto, resumir grandes conteúdos, parafrasear algum conteúdo, responder a perguntas... e, claro, atuar como um chatbot.

Todos os modelos introduzidos abaixo são modelos "fundamentais", o que significa que são modelos em bruto que normalmente requerem uma aprendizagem de poucos disparos ou um ajuste fino para seguir corretamente as suas instruções. Isto também significa que estes modelos não implementam qualquer tipo de restrições por defeito.

Para compreender como tirar partido destes modelos generativos de IA de forma mais aprofundada, recomendamos que leia o nosso guia sobre como utilizar modelos generativos com aprendizagem de poucos disparos: leia aqui.

O ChatGPT é um modelo generativo que foi especificamente instruído para se comportar como um chatbot. No resto deste artigo, vamos explorar alternativas de código aberto ao ChatGPT. Para as utilizar no modo de conversação, será necessário utilizar a aprendizagem de poucos disparos para a IA de conversação ou o ajuste fino. Saiba mais sobre a aprendizagem de poucos disparos para IA de conversação aqui. Saiba mais sobre o ajuste fino aqui.

LLaMA 3 por Meta

A Meta lançou a série LLaMA 3 de modelos de linguagem de grande dimensão (LLM), que é um conjunto de modelos de texto generativos pré-treinados e aperfeiçoados, com um tamanho que varia entre 7 e 70 mil milhões de parâmetros. As versões destes modelos especificamente ajustadas para conversação, conhecidas como Llama-2-Chat, foram concebidas para aplicações de diálogo. Em comparação com os modelos de conversação disponíveis gratuitamente, os modelos Llama-2-Chat demonstram um desempenho superior na maior parte dos parâmetros de referência avaliados e, com base nas nossas avaliações de utilidade e segurança, igualam o desempenho de alguns modelos proprietários bem conhecidos, como o ChatGPT e o PaLM.

O LLaMA 3 incorpora um modelo de linguagem auto-regressivo construído sobre uma estrutura de transformação melhorada. As suas versões melhoradas são submetidas a uma afinação supervisionada (SFT) e a uma aprendizagem por reforço com feedback humano (RLHF) para melhor se alinharem com as expectativas humanas em termos de utilidade e segurança.

O desenvolvimento do LLaMA 3 decorreu entre janeiro e julho de 2023, tendo a sua fase de pré-treino aproveitado mais de 2 biliões de tokens de dados acessíveis ao público. A fase de aperfeiçoamento utilizou conjuntos de dados de instruções disponíveis publicamente e incluiu mais de um milhão de novos exemplos anotados por humanos. Nenhum dos dados utilizados nas fases de pré-treino ou de aperfeiçoamento provém dos dados dos utilizadores do Meta. Embora os dados de pré-treino tenham sido recolhidos até setembro de 2022, alguns dos dados para o ajuste fino são mais recentes, estendendo-se até julho de 2023.

O LLaMA 3 foi concebido para aplicações comerciais e de investigação, principalmente em inglês. Os modelos aperfeiçoados são adaptados à criação de aplicações de conversação semelhantes a assistentes digitais, enquanto os modelos pré-treinados são suficientemente versáteis para serem ajustados a diversas utilizações de geração de linguagem natural.

Pode utilizar facilmente o LLaMA 3 no NLP Cloud: experimentar aqui.

Mixtral 8x7B da Mistral AI

O Mixtral ultrapassa o LLaMA 3 70B na maioria das avaliações e apresenta taxas de inferência seis vezes mais rápidas. Destaca-se como o modelo mais poderoso com acesso aberto e a melhor escolha quando se considera a relação custo-eficácia. Especificamente, iguala ou excede o desempenho do GPT3.5 na maioria dos testes reconhecidos.

As capacidades do Mixtral incluem a gestão de até 32k tokens sem problemas, o suporte de vários idiomas, como inglês, francês, italiano, alemão e espanhol, a exibição de capacidades excepcionais de geração de código e a capacidade de ser ajustado para seguir instruções, obtendo uma pontuação de 8,3 no MT-Bench.

No seu núcleo, a Mixtral é uma rede esparsa de mistura de especialistas, funcionando como um modelo apenas descodificador. A sua estrutura permite a seleção de 8 grupos de parâmetros diferentes dentro do bloco feedforward. Uma rede de encaminhamento dedicada em cada camada selecciona dois destes grupos, ou "peritos", para processar cada token, combinando os seus resultados de forma aditiva.

Este método permite a expansão dos parâmetros de um modelo, ao mesmo tempo que gere eficazmente o custo e a latência, utilizando apenas uma parte dos parâmetros disponíveis para cada ficha. Especificamente, o Mixtral possui um total de 46.7B parâmetros, mas aplica apenas 12.9B parâmetros por token, alcançando assim a velocidade de processamento e o custo equivalente a um modelo de 12.9B.

O Mixtral foi desenvolvido utilizando dados da Internet pública, com a formação de peritos e de encaminhadores a decorrer em simultâneo.

Pode facilmente experimentar o Mixtral 8x7B no NLP Cloud: experimentar aqui.

Yi 34B por 01 AI

Os modelos da série Yi representam o mais recente avanço em modelos linguísticos de grande dimensão de código aberto desenvolvidos de raiz pela 01.AI. Estes modelos, destinados à utilização bilingue, foram treinados num enorme conjunto de dados multilingues de 3 terabytes, posicionando-os entre os mais poderosos modelos linguísticos de grande dimensão a nível mundial, com fortes capacidades de compreensão da linguagem, raciocínio e compreensão da leitura.

O modelo Yi-34B-Chat assegurou a segunda posição, logo a seguir ao GPT-4 Turbo, e ultrapassou outros modelos de grande dimensão linguística como o GPT-4, Mixtral e Claude na tabela de classificação AlpacaEval, com esta classificação baseada em dados até janeiro de 2024. Em termos de modelos de código aberto, o Yi-34B conquistou o primeiro lugar nas tarefas de língua inglesa e chinesa em vários parâmetros de referência, superando modelos como o Falcon-180B, o Llama-70B e o Claude, de acordo com as classificações na tabela de classificação do Hugging Face Open LLM (pré-treinado) e do C-Eval, com dados considerados até novembro de 2023.

Estruturada de forma semelhante à arquitetura do modelo Llama, a série Yi permite aos utilizadores aceder e utilizar o ecossistema existente de ferramentas, bibliotecas e recursos concebidos para o Llama. Esta compatibilidade simplifica o processo para os programadores, eliminando a necessidade de desenvolvimento de novas ferramentas e aumentando a produtividade nos processos de desenvolvimento.

Pode facilmente experimentar o Yi 34B no NLP Cloud: experimentar aqui.

DBRX da Databricks

O DBRX é um modelo linguístico de grandes dimensões construído numa arquitetura transformadora que se centra exclusivamente na descodificação e utiliza um método conhecido como previsão do token seguinte para a sua formação. Apresenta uma estrutura detalhada de mistura de especialistas (MoE), com um total de 132 mil milhões de parâmetros, dos quais 36 mil milhões são utilizados para qualquer entrada. O modelo foi submetido a um pré-treino num vasto corpus de 12 biliões de tokens, abrangendo texto e código, até um limite em dezembro de 2023. Esta mistura de dados de treino inclui, de forma proeminente, linguagem natural, bem como exemplos de codificação, com uma parte significativa em inglês.

O DBRX distingue-se pela sua abordagem refinada na utilização de peritos, operando com 16 peritos e seleccionando 4 para cada tarefa, em contraste com outros modelos MoE como o Mixtral-8x7B e o Grok-1, que têm 8 peritos mas apenas escolhem 2. Esta abordagem permite obter 65 vezes mais combinações de peritos potenciais, o que conduz a uma melhoria notável do desempenho do modelo. O DBRX incorpora recursos avançados, como codificações de posição rotativa (RoPE), unidades lineares fechadas (GLU) e atenção de consulta agrupada (GQA) para suas operações.

Para o seu pré-treino, o DBRX foi alimentado com 12 biliões de tokens de um conjunto de dados meticulosamente compilado, com um intervalo de contexto que se estende até 32 000 tokens. A equipa responsável, a Databricks, acredita que este conjunto de dados oferece o dobro da qualidade por token em comparação com os dados utilizados para a família de modelos MPT.

O conjunto de dados foi criado usando o kit de ferramentas abrangente da Databricks, que inclui o Apache Spark™ e os notebooks da Databricks para processar os dados, juntamente com o Unity Catalog para gerenciá-los e administrá-los. A Databricks implementou uma abordagem de aprendizagem curricular durante a fase de pré-treinamento, ajustando a combinação de dados de uma forma que elevou significativamente a qualidade do modelo.

O DBRX está programado para processar apenas entradas baseadas em texto e é capaz de processar entradas de até 32.768 tokens de comprimento.

Conclusão

O ChatGPT é um fantástico motor de chatbot capaz de responder a perguntas muito avançadas. Este motor de IA é, de facto, ainda mais relevante do que a maioria dos humanos em muitos domínios.

No entanto, o ChatGPT pode levantar problemas de privacidade dos dados e é limitado para muitos casos de utilização. É interessante comparar o ChatGPT com as alternativas de código aberto mais avançadas: LLaMA 3, Mixtral 8x7B, Yi 34B e DBRX. E não há dúvida de que, em breve, serão lançados modelos de IA de código aberto ainda mais avançados.

Se quiser utilizar LLaMA 3, Yi 34B e Mixtral 8x7B na produção, não hesite em experimentar a API NLP Cloud (experimentar aqui)!

Juliette
Diretor de marketing na NLP Cloud