Las alternativas de código abierto de ChatGPT

ChatGPT es un motor de chatbot avanzado, basado en los modelos GPT-3.5 y GPT-4 de OpenAI. Es un modelo potente, pero puede ser interesante considerar alternativas de código abierto.

Explorar alternativas de código abierto a ChatGPT permite la personalización y adaptación a necesidades o proyectos específicos, ofreciendo potencialmente un mayor control sobre la tecnología al tiempo que se preserva la privacidad de los datos. Los modelos de código abierto garantizan la transparencia y permiten a los usuarios comprender los mecanismos subyacentes del modelo de IA.

Hay muy buenas alternativas de código abierto ChatGPT disponibles hoy en día como LLaMA 3, Mixtral 8x7B, Yi 34B, y DBRX. Vamos a investigar estas alternativas.

Modelos Generativos de IA: Cómo funcionan

ChatGPT se deriva de GPT-3.5 y GPT-4, modelos modernos de IA generativa basados en la arquitectura Transformer. La arquitectura Transformer es un tipo específico de red neuronal inventada por Google en 2017. Más información aquí.

Los modelos generativos de IA son básicamente buenos generando texto a partir de una entrada específica. Dependiendo de lo que introduzca, puede pedirle a su modelo de IA que haga varias cosas por usted. Por ejemplo, puedes pedirle que categorice un texto, que extraiga entidades específicas de un texto, que resuma contenidos extensos, que parafrasee un contenido, que responda preguntas... y, por supuesto, que actúe como un chatbot.

Todos los modelos que se presentan a continuación son modelos "fundacionales", lo que significa que son modelos brutos que suelen requerir pocos aprendizajes o ajustes finos para seguir correctamente sus instrucciones. También significa que estos modelos no implementan ningún tipo de restricciones por defecto.

Para entender cómo aprovechar estos modelos generativos de IA con mayor profundidad, le recomendamos que lea nuestra guía sobre cómo utilizar modelos generativos con aprendizaje de pocos disparos: léalo aquí.

ChatGPT es un modelo generativo que ha sido específicamente instruido para comportarse como un chatbot. En el resto de este artículo vamos a explorar alternativas de código abierto a ChatGPT. Para utilizarlos en modo conversacional necesitarás o bien utilizar el aprendizaje de pocos disparos para la IA conversacional o el ajuste fino. Obtenga más información sobre el aprendizaje en pocos pasos para la IA conversacional aquí. Más información sobre el ajuste fino aquí.

LLaMA 3 de Meta

Meta ha lanzado la serie LLaMA 3 de grandes modelos lingüísticos (LLM), un conjunto de modelos generativos de texto preentrenados y ajustados que varían entre 7.000 y 70.000 millones de parámetros. Las versiones de estos modelos específicamente afinadas para la conversación, conocidas como Llama-2-Chat, están diseñadas para aplicaciones de diálogo. En comparación con los modelos de conversación disponibles gratuitamente, los modelos Llama-2-Chat demuestran un rendimiento superior en la mayoría de los parámetros evaluados y, según nuestras valoraciones de utilidad y seguridad, igualan el rendimiento de algunos modelos propietarios conocidos como ChatGPT y PaLM.

LLaMA 3 incorpora un modelo de lenguaje autorregresivo basado en un marco transformador mejorado. Sus versiones mejoradas se someten a un ajuste fino supervisado (SFT) y a un aprendizaje de refuerzo con retroalimentación humana (RLHF) para ajustarse mejor a las expectativas humanas en cuanto a utilidad y seguridad.

El desarrollo de LLaMA 3 se extendió de enero a julio de 2023, y su fase de preentrenamiento aprovechó más de 2 billones de tokens de datos accesibles al público. En la fase de perfeccionamiento se utilizaron conjuntos de datos de instrucción de acceso público y se incluyeron más de un millón de ejemplos nuevos anotados por humanos. Ninguno de los datos utilizados en las fases de preentrenamiento o de ajuste procede de los datos de usuario de Meta. Mientras que los datos de preentrenamiento se recopilaron hasta septiembre de 2022, algunos de los datos para el ajuste fino son más recientes, llegando hasta julio de 2023.

LLaMA 3 está diseñado para aplicaciones comerciales y de investigación principalmente en inglés. Los modelos ajustados están pensados para crear aplicaciones de chat similares a los asistentes digitales, mientras que los modelos preentrenados son lo suficientemente versátiles como para ajustarse a diversos usos de generación de lenguaje natural.

Puede utilizar fácilmente LLaMA 3 en NLP Cloud: Pruébelo aquí.

Mixtral 8x7B de Mistral AI

Mixtral supera a LLaMA 3 70B en la mayoría de las evaluaciones y ofrece tasas de inferencia seis veces más rápidas. Destaca como el modelo más potente con acceso abierto y la mejor opción si se tiene en cuenta la rentabilidad. En concreto, iguala o supera el rendimiento de GPT3.5 en la mayoría de las pruebas reconocidas.

Las capacidades de Mixtral incluyen la gestión de hasta 32k tokens sin problemas, el soporte de múltiples idiomas como inglés, francés, italiano, alemán y español, la exhibición de capacidades excepcionales de generación de código y la capacidad de ser ajustado para seguir instrucciones, logrando una puntuación de 8,3 en MT-Bench.

En esencia, Mixtral es una red dispersa de mezcla de expertos que funciona como un modelo de sólo descodificador. Su estructura permite la selección de 8 grupos de parámetros diferentes dentro del bloque feedforward. En cada capa, una red dedicada selecciona dos de estos grupos, o "expertos", para procesar cada señal, combinando sus resultados de forma aditiva.

Este método permite ampliar los parámetros de un modelo al tiempo que gestiona eficazmente el coste y la latencia utilizando sólo una parte de los parámetros disponibles para cada ficha. En concreto, Mixtral posee un total de 46,7B de parámetros, pero solo aplica 12,9B de parámetros por token, con lo que consigue la velocidad de procesamiento y el coste equivalentes a un modelo de 12,9B.

Mixtral se desarrolló utilizando datos de la Internet pública, y la formación de expertos y enrutadores tuvo lugar simultáneamente.

Puede probar Mixtral 8x7B fácilmente en NLP Cloud: Pruébelo aquí.

Yi 34B por 01 AI

Los modelos de la serie Yi representan el último avance en grandes modelos lingüísticos de código abierto desarrollados desde cero por 01.AI. Estos modelos, orientados al uso bilingüe, se han entrenado en un enorme conjunto de datos multilingües de 3 terabytes, lo que los sitúa entre los modelos lingüísticos de gran tamaño más potentes del mundo, con grandes capacidades de comprensión del lenguaje, razonamiento y comprensión lectora.

El modelo Yi-34B-Chat se aseguró la segunda posición, justo por detrás de GPT-4 Turbo, y superó a otros grandes modelos lingüísticos como GPT-4, Mixtral y Claude en la clasificación de AlpacaEval, basada en datos hasta enero de 2024. En cuanto a los modelos de código abierto, el Yi-34B se hizo con el primer puesto tanto en tareas en inglés como en chino en varias pruebas comparativas, superando a modelos como Falcon-180B, Llama-70B y Claude, según las clasificaciones de Hugging Face Open LLM Leaderboard (preentrenado) y C-Eval, con datos considerados hasta noviembre de 2023.

Con una estructura similar a la arquitectura del modelo Llama, la serie Yi permite a los usuarios acceder y utilizar el ecosistema existente de herramientas, bibliotecas y recursos diseñados para Llama. Esta compatibilidad simplifica el proceso para los desarrolladores, erradicando la necesidad de desarrollar nuevas herramientas y mejorando la productividad en los procesos de desarrollo.

Puedes probar fácilmente Yi 34B en NLP Cloud: Pruébelo aquí.

DBRX de Databricks

DBRX es un gran modelo lingüístico basado en una arquitectura de transformadores que se centra exclusivamente en la descodificación y emplea para su entrenamiento un método conocido como predicción del siguiente token. Presenta una estructura detallada de mezcla de expertos (MoE), con un total de 132.000 millones de parámetros, de los cuales 36.000 millones se utilizan para cualquier entrada. El modelo se sometió a un preentrenamiento con un amplio corpus de 12 billones de tokens, tanto de texto como de código, hasta diciembre de 2023. Esta mezcla de datos de entrenamiento incluye ejemplos tanto de lenguaje natural como de código, con una parte significativa en inglés.

DBRX destaca por su enfoque detallado en el uso de expertos, operando con 16 expertos y seleccionando 4 para cada tarea, en contraste con otros modelos MoE como Mixtral-8x7B y Grok-1, que tienen 8 expertos pero sólo eligen 2. Este enfoque produce 65 veces más combinaciones potenciales de expertos, lo que mejora notablemente el rendimiento del modelo. Este enfoque produce 65 veces más combinaciones potenciales de expertos, lo que supone una notable mejora en el rendimiento del modelo. DBRX incorpora funciones avanzadas, como codificaciones de posición rotatoria (RoPE), unidades lineales con compuerta (GLU) y atención a consultas agrupadas (GQA) para sus operaciones.

Para su preentrenamiento, DBRX se alimentó con 12 billones de tokens de un conjunto de datos meticulosamente compilado, con un rango de contexto que se extiende hasta 32.000 tokens. El equipo que lo creó, Databricks, cree que este conjunto de datos ofrece el doble de calidad por token en comparación con los datos utilizados para la familia de modelos MPT.

El conjunto de datos se creó utilizando el completo conjunto de herramientas de Databricks, que incluye Apache Spark™ y cuadernos Databricks para procesar los datos, junto con Unity Catalog para gestionarlos y gobernarlos. Databricks aplicó un enfoque de aprendizaje curricular durante la fase de preentrenamiento, ajustando la combinación de datos de forma que mejoró significativamente la calidad del modelo.

El DBRX está programado para procesar sólo entradas basadas en texto y es capaz de manejar entradas de hasta 32.768 tokens de longitud.

Conclusión

ChatGPT es un increíble motor de chatbot capaz de responder a preguntas muy avanzadas. Este motor de IA es en realidad incluso más relevante que la mayoría de los humanos en muchos campos.

Sin embargo, ChatGPT puede plantear problemas de privacidad de datos y está restringido para muchos casos de uso. Es interesante comparar ChatGPT con las alternativas de código abierto más avanzadas: LLaMA 3, Mixtral 8x7B,Yi 34B y DBRX. Y no cabe duda de que pronto aparecerán modelos de IA de código abierto aún más avanzados.

Si desea utilizar LLaMA 3, Yi 34B y Mixtral 8x7B en producción, no dude en probar la API de NLP Cloud. (Pruébelo aquí)!

Juliette
Responsable de marketing de NLP Cloud