Perfeccionamiento de GPT-J, la alternativa de código abierto a GPT-3

GPT-J puede ser el modelo de NLP de código abierto más potente en la actualidad (es la única alternativa de código abierto que compite con GPT-3), puede que lo encuentre demasiado general y no se adapte perfectamente a su caso de uso. En ese caso la clave está en ajustar GPT-J con sus propios datos.

El poder de GPT-J

Desde su lanzamiento en junio de 2021, GPT-J ha atraído a toneladas de usuarios de NLP -científicos de datos o desarrolladores, que creen que este potente modelo de NLP les ayudará a llevar su aplicación de IA al siguiente nivel (ver el sitio web de EleutherAI).

Logotipo de EleutherAI

GPT-J es tan potente porque se ha entrenado con 6.000 millones de parámetros. La consecuencia es que se trata de un modelo modelo muy versátil que se puede utilizar para casi cualquier caso de uso avanzado de PLN (análisis de sentimientos, clasificación de texto, chatbots, traducción, generación de código, generación de paráfrasis y mucho más). clasificación de texto, chatbots, traducción, generación de código, generación de paráfrasis y mucho más). Cuando está bien ajustado, GPT-J es tan fluido que es imposible decir que el texto ha sido generado por una máquina...

Es posible adaptar fácilmente GPT-J a su caso de uso sobre la marcha mediante la técnica denominada (vea cómo utilizarlo aquí). Sin embargo, si el aprendizaje de unos pocos disparos no es es suficiente, hay que recurrir a una técnica más avanzada: la puesta a punto.

¿Qué es la puesta a punto?

Cuando se trata de crear su propio modelo, la técnica tradicional consiste en entrenar un nuevo modelo desde desde cero con sus propios datos. El problema es que los modelos modernos como el GPT-J son tan enormes que es casi imposible para cualquiera entrenar este modelo desde cero. EleutherAI dijo que les llevó 5 semanas entrenar GPT-J en TPUs v3-256, lo que significa que costó cientos de miles de dólares...

La buena noticia es que no es necesario volver a entrenar la GPT-J porque tenemos el ajuste fino. El ajuste fino consiste en tomar el modelo GPT-J existente y adaptarlo ligeramente. En el pasado, el entrenamiento de los modelos tradicionales de NLP desde cero solía requerir toneladas de ejemplos. Con la nueva generación de modelos basados en Transformer, es diferente: se necesitan menos ejemplos y se pueden obtener grandes resultados. Si alguna vez ha oído hablar del el "aprendizaje por transferencia", se trata de esto.

¿Cómo afinar la GPT-J?

Aunque el ajuste de GPT-J es mucho más fácil que entrenar el modelo desde cero, sigue siendo un reto por varias razones:

• Es una operación muy intensiva en computación que puede ser dolorosamente larga en la GPU. La mejor opción es utilizar una TPU para ello.
• El proceso de ajuste requiere algo de práctica, algunos parámetros deben ser ajustados, y puedes terminar fácilmente con una precisión subóptima.
• Una vez que tenga su flamante modelo afinado, no ha terminado: tiene que desplegarlo y utilizarlo de forma fiable en producción.

Si quieres afinar la GPT-J por ti mismo, aquí tienes cómo puedes hacerlo:

• Siga los pasos del equipo del equipo de Mesh Transformer Jax aquí.
• Asegúrate de realizar el ajuste fino en una TPU V3 ya que te quedarás sin memoria en una TPU V2. Puedes solicitar un acceso gratuito a la TPU durante 1 mes gracias al programa TPU research cloud (TRC).
• No olvide convertir su resultado en una versión GPT-J delgada que sea más adecuada para la producción inferencia.

Ajuste de GPT-J en NLP Cloud

En NLP Cloud hemos trabajado mucho en una plataforma de ajuste para GPT-J. Ahora es posible ajustar fácilmente GPT-J: simplemente cargue su conjunto de datos con sus ejemplos, y déjenos afinar y desplegar el modelo por usted. Una vez terminado el proceso, podrá utilizar su nuevo modelo como modelo privado en nuestra API.

Ajuste de GPT-J en NLP Cloud

El proceso de ajuste en sí es gratuito, y luego hay que seleccionar un plan de ajuste en función del volumen de solicitudes que desee realizar en su modelo recién desplegado.

Si no quiere dedicar demasiado tiempo a las operaciones de ajuste y despliegue, es una opción que puede considerar.

Conclusión:

GPT-J es un modelo de NLP increíble. Mézclalo con el aprendizaje de pocos disparos y la puesta a punto, ¡y obtendrás una aplicación de IA de última generación!

Si tiene preguntas, no dude en ponerse en contacto con nosotros.

Julien Salinas
CTO en NLP Cloud