Альтернативы ChatGPT с открытым исходным кодом

ChatGPT - это продвинутый движок для чатботов, основанный на моделях GPT-3.5 и GPT-4 от OpenAI. Это мощная модель, но может быть интересно рассмотреть альтернативы с открытым исходным кодом.

Изучение альтернатив ChatGPT с открытым исходным кодом позволяет настраивать и адаптировать их под конкретные нужды или проекты, потенциально обеспечивая больший контроль над технологией при сохранении конфиденциальности данных. Модели с открытым исходным кодом обеспечивают прозрачность и позволяют пользователям понять механизмы, лежащие в основе модели ИИ.

Сегодня существуют очень хорошие альтернативы ChatGPT с открытым исходным кодом, такие как LLaMA 3, Mixtral 8x7B, Yi 34B и DBRX. Давайте изучим эти альтернативы.

Генеративные модели искусственного интеллекта: Как они работают

ChatGPT создан на основе GPT-3.5 и GPT-4, современных генеративных моделей ИИ, основанных на архитектуре Transformer. Архитектура Transformer - это особый тип нейронных сетей, изобретенный компанией Google в 2017 году. Смотрите больше здесь.

Генеративные модели ИИ в основном умеют генерировать текст на основе определенных входных данных. В зависимости от исходных данных вы можете попросить модель искусственного интеллекта сделать для вас различные вещи. Например, вы можете попросить модель классифицировать фрагмент текста, извлечь из него конкретные сущности, обобщить большой контент, перефразировать его, ответить на вопросы... и, конечно, выступить в роли чат-бота.

Все представленные ниже модели являются "основополагающими", что означает, что это необработанные модели, которые обычно требуют нескольких попыток обучения или тонкой настройки, чтобы правильно следовать вашим инструкциям. Это также означает, что в этих моделях по умолчанию не реализованы какие-либо ограничения.

Для более глубокого понимания того, как использовать эти генеративные модели ИИ, мы рекомендуем вам прочитать наше руководство о том, как использовать генеративные модели с обучением в несколько кадров: читайте здесь.

ChatGPT - это генеративная модель, которая была специально обучена вести себя как чатбот. В этой статье мы рассмотрим альтернативы ChatGPT с открытым исходным кодом. Для того чтобы использовать их в разговорном режиме, вам потребуется либо использовать обучение с несколькими выстрелами для разговорного ИИ, либо тонкую настройку. Подробнее об обучении с помощью нескольких кадров для разговорного ИИ можно узнать здесь. Подробнее о тонкой настройке можно узнать здесь.

LLaMA 3 by Meta

Компания Meta выпустила серию больших языковых моделей (LLM) LLaMA 3, представляющую собой набор предварительно обученных и тонко настроенных генеративных текстовых моделей, размер которых варьируется от 7 до 70 миллиардов параметров. Версии этих моделей, специально настроенные для общения, известные как Llama-2-Chat, предназначены для диалоговых приложений. По сравнению со свободно распространяемыми моделями чатов, модели Llama-2-Chat демонстрируют более высокую производительность в большинстве оцениваемых эталонов и, по нашим оценкам полезности и безопасности, они соответствуют производительности некоторых известных собственных моделей, таких как ChatGPT и PaLM.

LLaMA 3 включает в себя авторегрессивную языковую модель, построенную на улучшенной системе трансформации. Ее улучшенные версии подвергаются контролируемой тонкой настройке (SFT) и обучению с подкреплением и обратной связью (RLHF), чтобы лучше соответствовать ожиданиям человека в отношении полезности и безопасности.

Разработка LLaMA 3 велась с января по июль 2023 года. На этапе предварительного обучения было использовано более 2 триллионов жетонов из общедоступных данных. На этапе тонкой настройки использовались общедоступные наборы данных инструкций, включающие более миллиона новых примеров, аннотированных людьми. Ни одна из данных, использованных на этапах предварительного обучения или тонкой настройки, не была получена из пользовательских данных Meta. В то время как данные для предварительного обучения были собраны до сентября 2022 года, некоторые данные для тонкой настройки являются более свежими - до июля 2023 года.

LLaMA 3 предназначен как для коммерческих, так и для исследовательских приложений, преимущественно на английском языке. Настроенные модели предназначены для создания чат-приложений, напоминающих цифровые помощники, а предварительно обученные модели достаточно универсальны и могут быть адаптированы для различных целей генерации естественного языка.

Вы можете легко использовать LLaMA 3 на NLP Cloud: попробуйте здесь.

Mixtral 8x7B от Mistral AI

Mixtral превосходит LLaMA 3 70B по большинству оценок и обеспечивает в шесть раз более высокую скорость вывода. Это самая мощная модель с открытым доступом и лучший выбор с точки зрения экономичности. В частности, она равна или превосходит производительность GPT3.5 в большинстве признанных тестов.

Возможности Mixtral включают в себя бесперебойную работу с 32 тыс. токенов, поддержку нескольких языков, таких как английский, французский, итальянский, немецкий и испанский, исключительные возможности генерации кода и возможность тонкой настройки на выполнение инструкций, а также достижение оценки 8,3 балла на MT-Bench.

По своей сути Mixtral - это сеть с разреженной смесью экспертов, функционирующая как модель только декодера. Ее структура позволяет выбирать 8 различных групп параметров в блоке фидфорварда. Специальная сеть маршрутизаторов на каждом уровне выбирает две из этих групп, или "экспертов", для обработки каждого токена, объединяя их результаты аддитивным образом.

Этот метод позволяет расширять параметры модели и при этом эффективно управлять стоимостью и задержкой, используя только часть доступных параметров для каждого токена. В частности, Mixtral имеет в общей сложности 46,7 ББ параметров, но применяет только 12,9 ББ параметров для каждого токена, тем самым достигая скорости обработки и стоимости, эквивалентной 12,9 ББ модели.

Mixtral был разработан на основе данных из публичного интернета, причем обучение экспертов и маршрутизаторов происходило одновременно.

Вы можете легко попробовать Mixtral 8x7B на NLP Cloud: попробуйте здесь.

Yi 34B by 01 AI

Модели серии Yi представляют собой последнее достижение в области больших языковых моделей с открытым исходным кодом, разработанных с нуля компанией 01.AI. Эти модели, предназначенные для двуязычного использования, были обучены на огромном многоязычном наборе данных объемом 3 терабайта, что делает их одними из самых мощных больших языковых моделей в мире с сильными возможностями в понимании языка, рассуждениях и понимании прочитанного.

Модель Yi-34B-Chat заняла второе место, уступив GPT-4 Turbo, и опередила другие крупноязычные модели, такие как GPT-4, Mixtral и Claude, в таблице лидеров AlpacaEval, причем этот рейтинг основан на данных до января 2024 года. Что касается моделей с открытым исходным кодом, то Yi-34B занял первое место в задачах на английском и китайском языках в нескольких бенчмарках, опередив такие модели, как Falcon-180B, Llama-70B и Claude, согласно рейтингу Hugging Face Open LLM Leaderboard (pre-trained) и C-Eval, с учетом данных до ноября 2023 года.

Структурированная аналогично архитектуре модели Llama, серия Yi позволяет пользователям получать доступ и использовать существующую экосистему инструментов, библиотек и ресурсов, разработанных для Llama. Такая совместимость упрощает процесс для разработчиков, устраняя необходимость в разработке новых инструментов и повышая производительность процессов разработки.

Вы можете легко попробовать Yi 34B на NLP Cloud: попробуйте здесь.

DBRX от Databricks

DBRX - это большая языковая модель, построенная на архитектуре трансформатора, ориентированная исключительно на декодирование и использующая для обучения метод, известный как предсказание следующих слов. Модель имеет подробную структуру смеси экспертов (MoE), насчитывающую в общей сложности 132 миллиарда параметров, из которых 36 миллиардов используются для любого заданного входного сигнала. Модель прошла предварительное обучение на обширном корпусе из 12 триллионов лексем, включающем как текст, так и код, вплоть до отсечки в декабре 2023 года. Эта смесь обучающих данных включает в себя как естественный язык, так и примеры кодирования, причем значительная часть - на английском языке.

DBRX отличается тонким подходом к использованию экспертов, оперируя 16 экспертами и выбирая 4 для каждой задачи, в отличие от других моделей MoE, таких как Mixtral-8x7B и Grok-1, которые имеют 8 экспертов, но выбирают только 2. Такой подход позволяет получить в 65 раз больше потенциальных комбинаций экспертов, что заметно повышает производительность модели. DBRX использует в своей работе такие передовые функции, как кодирование поворотных позиций (RoPE), линейные блоки (GLU) и сгруппированное внимание к запросу (GQA).

Для предварительного обучения в DBRX было загружено 12 триллионов токенов из тщательно собранного набора данных с контекстным диапазоном до 32 000 токенов. Команда Databricks, создавшая эту систему, считает, что этот набор данных обеспечивает вдвое более высокое качество на токен по сравнению с данными, используемыми для семейства моделей MPT.

Набор данных был создан с помощью комплексного инструментария Databricks, который включает в себя Apache Spark™ и ноутбуки Databricks для обработки данных, а также Unity Catalog для управления и контроля над ними. На этапе предварительного обучения Databricks применила подход, основанный на обучении на основе учебных программ, скорректировав набор данных таким образом, что качество модели значительно повысилось.

DBRX запрограммирован на обработку только текстовых данных и способен обрабатывать вводы длиной до 32 768 лексем.

Заключение

ChatGPT - это удивительный чатбот, способный отвечать на самые сложные вопросы. Этот искусственный интеллект во многих областях даже превосходит людей.

Однако ChatGPT может вызывать проблемы с конфиденциальностью данных и ограничен для многих случаев использования. Интересно сравнить ChatGPT с наиболее продвинутыми альтернативами с открытым исходным кодом: LLaMA 3, Mixtral 8x7B, Yi 34B и DBRX. И нет сомнений, что в скором времени появятся еще более продвинутые модели ИИ с открытым исходным кодом.

Если вы хотите использовать LLaMA 3, Yi 34B и Mixtral 8x7B в производстве, не стесняйтесь попробовать NLP Cloud API. (попробуйте здесь)!

Juliette
Менеджер по маркетингу в NLP Cloud