En este curso de NLP Cloud destacamos los hitos importantes en la historia de la IA del lenguaje (también conocida como Procesamiento del Lenguaje Natural).
Esta es la estructura del curso:
Hola, soy Julien Salinas de NLP Cloud, una plataforma de IA avanzada para su próximo proyecto de IA.
Para los profesionales de la IA es interesante comprender la historia de la IA y ver qué hitos importantes condujeron a los modelos generativos de vanguardia que todos utilizamos hoy en día.
En este curso, repasaré rápidamente la historia de los modelos lingüísticos desde el siglo XX hasta nuestros días.
La IA no es algo nuevo.
Ingenieros y lingüistas empezaron a trabajar en la inteligencia artificial para la comprensión de textos hacia 1950.
Esta fue la era del procesamiento simbólico del lenguaje natural hasta los años 90.
En aquel momento, la principal motivación era la traducción automática y la IA se basaba en un conjunto de reglas.
Mejorar un algoritmo de IA consistía principalmente en añadir más reglas al programa.
Los investigadores estaban bastante entusiasmados con sus primeros resultados y pensaban que la traducción automática sería un problema resuelto en un par de años.
A día de hoy sigue sin estar totalmente resuelto.
Estos sistemas basados en reglas también dieron lugar al primer chatbot, muy sencillo, llamado Elisa.
A partir de 1990, entramos en la era de la PNL estadística.
Utilizar IA con estadísticas en lugar de reglas predefinidas significaba que podíamos empezar a construir sistemas mucho más potentes sin tener que pensar en todos los escenarios de antemano.
Esto fue posible gracias a los avances de la investigación matemática, pero también a la mayor capacidad de cálculo que ofrecían las nuevas CPU.
Los sistemas aprenderían basándose en la información recibida de los humanos, lo que se conoce como aprendizaje supervisado, y más adelante incluso sin ninguna intervención humana, lo que se conoce como aprendizaje no supervisado.
Así fue posible entrenar modelos interesantes a partir del enorme volumen de datos no estructurados procedentes de Internet.
En aquel momento, nuevas empresas utilizaban el aprendizaje automático en producción y el caso de uso más popular era el reconocimiento de entidades con nombre, también conocido como extracción de entidades.
Las redes neuronales no son nuevas.
A mediados del siglo XX, algunos investigadores ya tenían la intuición de crear un sistema de IA hecho de neuronas que imitara el cerebro humano.
Pero las redes neuronales no empezaron a dar resultados interesantes hasta 2010.
Gracias a las GPU, entonces era posible entrenar redes neuronales mucho más grandes.
Este fue el comienzo de la llamada era del aprendizaje profundo.
Los primeros resultados impresionantes llegaron de la mano de la visión por ordenador gracias a las redes neuronales convolucionales, que permitieron una clasificación avanzada de imágenes.
El lenguaje no se benefició realmente del aprendizaje profundo hasta un poco más tarde.
Hasta 2010 y el auge del aprendizaje profundo, la IA del lenguaje era esencialmente un área de investigación y pocas empresas utilizaban el procesamiento del lenguaje natural en sus productos.
Veamos ahora qué avance reciente condujo a la tecnología de IA generativa que todos conocemos hoy.
El verdadero avance para los modelos lingüísticos se produjo en 2017, cuando algunos investigadores de Google publicaron un artículo titulado Attention is All You Need.
Este artículo describe un nuevo tipo de arquitectura de red neuronal denominada transformador, basada en un nuevo principio denominado autoatención.
La arquitectura de transformadores está en el corazón de todos los impresionantes modelos lingüísticos que hemos visto desde 2017.
Muy pronto, Google entrenó el primer modelo siguiendo la arquitectura de transformadores.
Este modelo se denominó BERT.
BERT fue el primer modelo lingüístico de producción que podía utilizarse para todo tipo de casos de uso: resumen, extracción de entidades, respuesta a preguntas, traducción, etc.
El BERT fue realmente interesante porque, por primera vez, se creó un modelo que era bueno en el aprendizaje por transferencia.
Básicamente, el modelo se preentrenó en un gran conjunto de datos no anotados y, a continuación, fue capaz de aprender rápidamente muchos tipos de casos de uso gracias a rápidos ajustes que requerían muy pocos datos adicionales.
OpenAI era inicialmente una startup de IA sin ánimo de lucro que lanzó un nuevo tipo de arquitectura, GPT, basada en el transformador.
Cuando lanzaron GPT-2 en 2019, todo el mundo quedó impresionado por las capacidades de este modelo de generación de texto.
GPT-2 fue el primer modelo generativo de producción.
Era especialmente bueno para completar textos.
Por ejemplo, fue utilizado por Microsoft para el autocompletado en Microsoft Office.
Se entrenó con 8 millones de páginas web y 7.000 libros y contenía 1.500 millones de parámetros, lo que desde luego no es mucho comparado con los modelos que tenemos hoy en día.
En 2020, OpenAI hizo una segunda revolución.
Se convirtieron en una empresa con ánimo de lucro y lanzaron un potente modelo generativo llamado GPT-3.
GPT-3 seguía basándose en la arquitectura GPT, pero entrenaba más contenidos.
Contenía 175.000 millones de parámetros y requirió el entrenamiento de miles de GPU durante varios meses.
Aunque no sea oficial, los investigadores creen que el preentrenamiento GPT-3 costó unos 5 millones de dólares.
Fue el primer modelo generativo versátil capaz de abordar todo tipo de casos de uso.
Para sacar el máximo partido de este modelo, ya ni siquiera era necesario el ajuste fino.
La mayoría de las veces, el aprendizaje con pocos disparos era suficiente y, de hecho, incluso funcionaba muy bien en el modo de aprendizaje sin disparos.
Luego, con el mismo espíritu, llegaron ChatGPT y GPT-4.
Poco después, OpenAI lanzó otro tipo de modelos disruptivos.
Gracias a DALI, fue posible generar bellas imágenes a partir de texto.
Y, gracias a Whisper, han subido el listón del sector de la conversión de voz a texto.
Es posible que haya notado muchos términos diferentes en este curso.
Aprendizaje automático, aprendizaje profundo, redes neuronales, procesamiento del lenguaje natural, IA, IA generativa.
Algunos son términos técnicos específicos, mientras que otros son simplemente palabras de moda.
Personalmente, creo que procesamiento del lenguaje natural es el término adecuado para la tecnología de IA lingüística que utilizamos hoy en día.
Pero esto no es muy importante.
Ahora ya sabe de dónde proceden nuestros modelos de IA.