Neste artigo do blogue, exploramos as alternativas de código aberto GPT-4 e ChatGPT: LLaMA 3 e Mixtral 8x7b. Estes modelos de linguagem de ponta estão a fazer ondas na comunidade de IA e a abrir caminho para um processamento de linguagem natural mais eficiente e eficaz. Junte-se a nós para conhecermos as características e capacidades destes modelos emergentes e como se comparam aos seus homólogos mais conhecidos.
O ChatGPT e o GPT-4 são modelos linguísticos avançados desenvolvidos pela OpenAI. O ChatGPT é um modelo de IA de conversação que utiliza o processamento de linguagem natural para gerar respostas semelhantes às humanas às entradas do utilizador, enquanto o GPT-4 é um modelo mais poderoso e complexo capaz de gerar texto praticamente indistinguível da escrita humana.
Ambos os modelos foram treinados com grandes quantidades de dados de texto, o que lhes permite gerar respostas altamente precisas e contextualmente adequadas a uma vasta gama de perguntas e pedidos. Têm uma vasta gama de aplicações em áreas como o serviço ao cliente, a criação de conteúdos e a tradução de línguas, e continuam a evoluir e a melhorar à medida que a tecnologia avança.
Embora a OpenAI tenha, sem dúvida, revolucionado o campo da inteligência artificial, particularmente no domínio do processamento de linguagem natural, os seus modelos têm algumas desvantagens quando comparados com alternativas de código aberto como o LLaMA 3 ou o Mixtral 8x7b.
Um dos principais inconvenientes é o custo associado à utilização dos serviços da OpenAI, uma vez que exigem uma subscrição ou pagamento por utilização, o que pode ser proibitivamente caro para alguns indivíduos e organizações.
Outra preocupação em relação ao ChatGPT e ao GPT-4 é o aspeto da privacidade dos dados: A OpenAI não oferece grandes garantias sobre a forma como os dados do cliente são processados, o que é um problema para aplicações sensíveis como as aplicações médicas ou financeiras.
Por último, a OpenAI implementou restrições de conteúdo no ChatGPT e no GPT-4 para garantir que o texto gerado pela IA cumpre as suas directrizes, monitorizando e regulando o conteúdo gerado pelos seus modelos. Alguns casos de utilização não são simplesmente compatíveis com os modelos da OpenAI e há quem pense que estas restrições tornam o ChatGPT e o GPT-4 menos originais e exactos do que os seus homólogos sem restrições.
Vejamos quais as opções que pode considerar como alternativas ao ChatGPT e ao GPT-4.
A família de modelos LLaMA 3, lançada pela Meta, é a sucessora dos modelos LLaMa 1 originais, fornecendo modelos de base e modelos de "chat" aperfeiçoados. Ao contrário dos modelos LLaMa 1, lançados em 2022 ao abrigo de uma licença não comercial, os modelos LLaMA 3 estão disponíveis gratuitamente tanto para investigação em IA como para utilização comercial.
Os modelos Llama da Meta têm como objetivo democratizar o ecossistema de IA generativa, disponibilizando gratuitamente o código e os pesos dos modelos e concentrando-se no avanço das capacidades de desempenho de modelos mais pequenos, em vez de aumentar o número de parâmetros. Com 7 mil milhões, 13 mil milhões ou 70 mil milhões de parâmetros, as organizações mais pequenas podem implementar instâncias locais de modelos LLaMA 3 ou modelos baseados em Llama desenvolvidos pela comunidade de IA sem necessitar de tempo de computação dispendioso ou investimentos em infra-estruturas.
Em comparação com os seus homólogos proprietários, o LLaMA 3 demonstra um desempenho superior em aspectos como a segurança e a correção factual. Embora o LLaMA 3 possa não possuir as capacidades abrangentes de modelos muito maiores, a sua natureza aberta e maior eficiência oferecem vantagens distintas.
O LLaMA 3 pode ser implementado manualmente no local ou utilizado através de uma API dedicada, como o NLP Cloud.
A Mixtral, lançada pela startup francesa Mistral AI, é uma rede que combina a funcionalidade de vários especialistas num único modelo. É um modelo apenas descodificador, o que significa que apenas descodifica informação, não a codifica. No modelo, existem 8 grupos diferentes de parâmetros e, em cada camada e para cada token, uma rede de encaminhamento selecciona dois destes grupos para processar o token e combina os seus resultados.
Esta abordagem permite que o modelo aumente o seu número de parâmetros sem deixar de controlar o custo e a latência, uma vez que apenas uma fração do conjunto total de parâmetros é utilizada por token. Por exemplo, o Mixtral tem um total de 46,7 mil milhões de parâmetros, mas apenas 12,9 mil milhões são utilizados por ficha. Isto significa que processa a entrada e gera a saída à mesma velocidade e custo que um modelo de 12,9 mil milhões de parâmetros.
Em comparação com outros modelos, o Mixtral supera o LLaMA 3 70B na maioria dos benchmarks com uma inferência 6x mais rápida. É o modelo de peso aberto mais forte com uma licença permissiva e oferece a melhor relação custo/desempenho. É igual ou superior ao GPT3.5 na maior parte dos testes de referência.
O Mixtral 8x7b pode ser implementado manualmente no local ou utilizado através de uma API dedicada, como o NLP Cloud.
Os modelos linguísticos de grande dimensão, como o LLaMA 3 e o Mixtral, são opções interessantes porque pode implementá-los por si ou recorrer a um fornecedor de IA que forneça estes modelos prontos a utilizar.
Implementar o LLaMA 3 e o Mixtral por si próprio pode ser interessante se tiver as competências certas de Devops e IA na sua equipa, e se tiver a sorte de ter acesso ao hardware certo. Isto permitir-lhe-á manter uma privacidade de dados avançada para a sua aplicação, uma vez que não terá de partilhar os seus dados com um fornecedor de serviços na nuvem.
No entanto, não se esqueça que a implementação de um modelo generativo pode ser entediante, e a manutenção desses LLMs para que se comportem de forma fiável na produção é ainda mais difícil. Encontrar os engenheiros certos para esse trabalho pode ser um desafio. Por exemplo, os requisitos de hardware para instalar o LLaMA 3 70b no modo fp16 sem quantização serão de pelo menos 140 GB de vRAM. Dada a elevada procura atual de GPUs NVIDIA, o aprovisionamento de GPUs avançadas com 140 GB ou vRAM é muito complexo.
Se preferir utilizar o LLaMA 3 ou o Mixtral através de uma API de IA gerida que não sacrifique a privacidade dos dados, recomendamos-lhe que experimente a nossa API NLP Cloud. (Veja a API de IA generativa do NLP Cloud aqui)! E pode também afinar o LLaMA 3 e o Mixtral 8x7b no NLP Cloud, para que o modelo seja perfeitamente adaptado ao seu caso de utilização.

O GPT-4 e o ChatGPT são modelos de IA fantásticos que mudaram realmente o jogo da IA. Pela primeira vez na história da IA, é impossível dizer se o conteúdo gerado é proveniente de um humano ou de uma máquina, o que leva muitas empresas a integrar o GPT-4 e o ChatGPT no seu produto ou nos seus fluxos de trabalho internos.
No entanto, o GPT-4 e o ChatGPT podem ser decepcionantes devido às suas fracas garantias em termos de privacidade de dados e às suas limitações de utilização devido às restrições do OpenAI. A comunidade de código aberto fez um excelente trabalho ao conceber alternativas de código aberto ao GPT-4 e ao ChatGPT, como o LLaMA 3 e o Mixtral 8x7b.
Se quiser tirar partido do LLaMA 3 e do Mixtral, não hesite em experimentar a API NLP Cloud (experimentar aqui)!
Juliette
Diretor de marketing na NLP Cloud