Afinação GPT-J, a alternativa de código aberto GPT-3

O GPT-J pode ser o modelo de processamento de linguagem natural de código aberto mais poderoso actualmente (é a única alternativa de código aberto a competir com GPT-3), poderá considerá-lo demasiado geral e não perfeitamente adequado ao seu caso de utilização. Nesse caso, o ajuste fino do GPT-J com os seus próprios dados é a chave.

O Poder do GPT-J

Desde que foi lançado em Junho de 2021, o GPT-J tem atraído toneladas de utilizadores de Processamento de Linguagem Natural - data scientists ou desenvolvedores - que acreditam que este poderoso modelo de Processamento de Linguagem Natural irá ajudá-los a levar a sua aplicação de IA para o próximo nível (ver o website da EleutherAI).

Logotipo da EleutherAI

O GPT-J é tão poderoso porque foi treinado em 6 mil milhões de parâmetros. A consequência é que este é um modelo muito versátil que pode utilizar para quase todos os casos de processamento avançado de linguagem natural (análise de sentimentos, texto classificação, chatbots, tradução, geração de códigos, geração de paráfrases, e muito mais). Quando devidamente afinado, O GPT-J é tão fluente que é impossível dizer que o texto é gerado por uma máquina...

É possível adaptar facilmente o GPT-J ao seu caso de utilização em tempo real, utilizando a chamada técnica (ver como utilizá-lo aqui). No entanto, se a aprendizagem com poucos tiros não for Basta, é preciso ir para uma técnica mais avançada: afinação fina.

O que é a afinação fina?

Quando se trata de criar o seu próprio modelo, a técnica tradicional é sobre a formação de um novo modelo a partir de riscar com os seus próprios dados. O problema é que os modelos modernos como o GPT-J são tão grandes que é quase impossível para qualquer pessoa treinar este modelo a partir do zero. A EleutherAI disse que demorou 5 semanas a treinar GPT-J em TPUs v3-256, o que significa que custou centenas de milhares de dólares...

A boa notícia é que não é necessário re-treinar GPT-J porque temos afinação! A afinação é sobre pegando no modelo GPT-J existente e adaptando-o ligeiramente. No passado, a formação de modelos tradicionais de Processamento de Linguagem Natural a partir do zero, usado para tomar toneladas de exemplos. Com a nova geração de modelos baseados em transformadores, é diferente: são necessários menos exemplos e podem conduzir a grandes resultados. Se alguma vez ouviu falar de "transfer-learning", é disso que se trata.

Como afinar o GPT-J?

Mesmo que o ajuste fino do GPT-J seja muito mais fácil do que treinar o modelo a partir do zero, continua a ser um desafio por várias razões:

• É uma operação muito computacional intensiva que pode ser dolorosamente longa na GPU. A melhor opção é utilizar uma TPU para isso.
• O processo de afinação requer alguma prática, alguns parâmetros devem ser afinados, e pode acabam facilmente com uma precisão subaproveitada.
• Uma vez que tenha o seu novíssimo modelo afinado, ainda não acabou: tem de o implantar e utilizá-lo de forma fiável na produção.

Se quiser afinar o GPT-J sozinho, eis como o poderia fazer:

• Siga os how-to da equipa Mesh Transformer Jax aqui.
• Assegure-se de efectuar o ajuste fino num TPU V3, uma vez que ficará sem memória num TPU V2. Pode pedir um acesso gratuito à TPU durante 1 mês graças ao programa TPU research cloud (TRC).
• Não se esqueça de transformar o seu resultado numa versão GPT-J mais fina que seja mais adequada para a produção inferência.

Afinação GPT-J na Nuvem NLP

Na NLP Cloud trabalhámos arduamente numa plataforma de afinação para o GPT-J. É agora possível afinar facilmente GPT-J: basta carregar o seu conjunto de dados contendo os seus exemplos, e deixe-nos afinar e implementar o modelo para si. Uma vez terminado o processo, pode utilizar o seu novo modelo como modelo privado no nosso API.

GPT-J Fine-Tuning na Nuvem NLP

O próprio processo de afinação é gratuito, e depois é necessário seleccionar um plano de afinação, dependendo do volume de pedidos que deseja fazer no seu modelo recém-desdobrado.

Se não quiser gastar demasiado tempo com as operações de afinação e implantação, é uma opção que talvez queira considerar.

Conclusão

O GPT-J é um incrível modelo de processamento de linguagem natural. Misture-o com pouca aprendizagem e afinação, e obterá uma aplicação de IA de última geração!

Se tiver dúvidas, por favor não hesite em contactar-nos.

Julien Salinas
CTO em NLP Cloud