Альтернативи ChatGPT з відкритим кодом

ChatGPT - це просунутий рушій чат-бота, заснований на моделях GPT-3.5 і GPT-4 від OpenAI. Це потужна модель, але може бути цікаво розглянути альтернативи з відкритим вихідним кодом.

Вивчення альтернатив ChatGPT з відкритим вихідним кодом дозволяє кастомізувати та адаптувати їх до конкретних потреб або проектів, що потенційно забезпечує більший контроль над технологією, зберігаючи при цьому конфіденційність даних. Моделі з відкритим вихідним кодом забезпечують прозорість і дозволяють користувачам зрозуміти механізми, що лежать в основі моделі штучного інтелекту.

Сьогодні існують дуже хороші альтернативи ChatGPT з відкритим вихідним кодом, такі як LLaMA 3, Mixtral 8x7B, Yi 34B та DBRX. Давайте розглянемо ці альтернативи.

Генеративні моделі АІ: Як вони працюють

ChatGPT походить від GPT-3.5 і GPT-4, сучасних генеративних моделей ШІ, заснованих на архітектурі Transformer. Трансформаторна архітектура - це особливий тип нейронної мережі, винайдений компанією Google у 2017 році. Дивіться більше тут.

Генеративні моделі ШІ в основному добре генерують текст на основі певних даних. Залежно від вхідних даних, ви можете попросити модель ШІ виконати для вас різні дії. Наприклад, ви можете попросити модель класифікувати фрагмент тексту, виокремити певні об'єкти з тексту, підсумувати великий вміст, перефразувати певний вміст, відповісти на запитання... і, звісно ж, виступити в ролі чат-бота.

Всі моделі, представлені нижче, є "базовими", тобто це сирі моделі, які, як правило, потребують навчання або доопрацювання для того, щоб правильно виконувати ваші інструкції. Це також означає, що за замовчуванням ці моделі не застосовують жодних обмежень.

Щоб глибше зрозуміти, як використовувати генеративні моделі ШІ, ми рекомендуємо вам прочитати наш посібник про те, як використовувати генеративні моделі з навчанням за допомогою декількох пострілів: читайте тут.

ChatGPT - це генеративна модель, яка була спеціально навчена поводитися як чат-бот. У решті статті ми розглянемо альтернативи ChatGPT з відкритим вихідним кодом. Для того, щоб використовувати їх у розмовному режимі, вам знадобиться або навчання з кількох пострілів для розмовного ШІ, або точне налаштування. Дізнайтеся більше про навчання з кількох пострілів для розмовного ШІ тут. Дізнайтеся більше про тонке налаштування тут.

LLaMA 3 від Meta

Компанія Meta випустила серію великих мовних моделей LLaMA 3, яка являє собою набір генеративних текстових моделей, що пройшли попереднє навчання та доопрацювання і мають розмір від 7 до 70 мільярдів параметрів. Версії цих моделей, спеціально налаштовані для розмови, відомі як Llama-2-Chat, призначені для діалогових додатків. Порівняно з вільно доступними моделями чату, моделі Llama-2-Chat демонструють вищу продуктивність у більшості оцінених тестів і, виходячи з наших оцінок корисності та безпеки, вони відповідають продуктивності деяких відомих пропрієтарних моделей, таких як ChatGPT і PaLM.

LLaMA 3 використовує авторегресивну мовну модель, побудовану на вдосконаленому трансформаторному фреймворку. Її вдосконалені версії проходять контрольоване точне налаштування (SFT) і навчання з підкріпленням і зворотним зв'язком з людиною (RLHF), щоб краще відповідати людським очікуванням щодо корисності та безпеки.

Розробка LLaMA 3 тривала з січня по липень 2023 року, причому на етапі попереднього навчання було використано понад 2 трильйони токенів з загальнодоступних даних. На етапі доопрацювання були використані загальнодоступні набори даних з інструкціями і додано понад мільйон нових прикладів, анотованих людьми. Жодна з даних, використаних на етапі попереднього навчання або на етапі доопрацювання, не походить від даних користувачів Meta. Якщо дані для попереднього навчання були зібрані до вересня 2022 року, то деякі з даних для доопрацювання є більш свіжими, починаючи з липня 2023 року.

LLaMA 3 розроблено для комерційних і дослідницьких програм, переважно англійською мовою. Точно налаштовані моделі призначені для створення чат-додатків, подібних до цифрових асистентів, тоді як попередньо навчені моделі є достатньо універсальними, щоб їх можна було адаптувати для різноманітних застосувань, пов'язаних з генерацією природної мови.

Ви можете легко використовувати LLaMA 3 на NLP Cloud: Спробуй тут..

Mixtral 8x7B від Mistral AI

Mixtral перевершує LLaMA 3 70B у більшості оцінок і забезпечує в шість разів вищу швидкість висновків. Він є найпотужнішою моделлю з відкритим доступом і найкращим вибором з точки зору економічної ефективності. Зокрема, він дорівнює або перевищує продуктивність GPT3.5 у більшості визнаних тестів.

Можливості Mixtral включають безперебійне управління до 32 тис. токенів, підтримку декількох мов, таких як англійська, французька, італійська, німецька та іспанська, виняткові можливості генерації коду та можливість тонкого налаштування для виконання інструкцій, що дозволило отримати 8.3 бали на MT-Bench.

За своєю суттю Mixtral є розрідженою мережею експертів, яка функціонує як модель, що працює лише з декодером. Її структура дозволяє вибрати 8 різних груп параметрів у блоці прямого зв'язку. Виділена мережа маршрутизаторів на кожному рівні вибирає дві з цих груп, або "експертів", для обробки кожного токена, об'єднуючи їх результати в адитивний спосіб.

Цей метод дозволяє розширити параметри моделі, одночасно ефективно керуючи вартістю та затримками, використовуючи лише частину доступних параметрів для кожного токена. Зокрема, Mixtral має загалом 46,7B параметрів, але застосовує лише 12,9B параметрів для кожного токена, таким чином досягаючи швидкості обробки та вартості, еквівалентної моделі з 12,9B параметрами.

Mixtral був розроблений з використанням даних з відкритих джерел в Інтернеті, а навчання експертів і маршрутизаторів відбувалося одночасно.

Ви можете легко спробувати Mixtral 8x7B на NLP Cloud: Спробуй тут..

Yi 34B на 01 AI

Моделі серії Yi є останнім досягненням у галузі великих мовних моделей з відкритим вихідним кодом, розроблених з нуля компанією 01.AI. Ці моделі, призначені для двомовного використання, були навчені на величезному багатомовному наборі даних обсягом 3 терабайти, що позиціонує їх як одні з найпотужніших моделей великих мов у світі з потужними можливостями розуміння мови, міркувань і читання.

Модель Yi-34B-Chat посіла другу позицію, відразу після GPT-4 Turbo, і випередила інші великі лінгвістичні моделі, такі як GPT-4, Mixtral і Claude, у рейтингу AlpacaEval Leaderboard, складеному на основі даних до січня 2024 року. Що стосується моделей з відкритим вихідним кодом, то Yi-34B посів перше місце у виконанні завдань з англійської та китайської мов за кількома показниками, випередивши такі моделі, як Falcon-180B, Llama-70B і Claude, згідно з рейтингом Hugging Face Open LLM Leaderboard (з попередньою підготовкою) і C-Eval, дані якого розглядалися до листопада 2023 року.

Структурована подібно до архітектури моделі Llama, серія Yi дозволяє користувачам отримати доступ до існуючої екосистеми інструментів, бібліотек і ресурсів, розроблених для Llama, і використовувати їх. Ця сумісність спрощує процес для розробників, усуваючи необхідність розробки нових інструментів і підвищуючи продуктивність процесів розробки.

Ви можете легко спробувати Yi 34B на NLP Cloud: Спробуй тут..

DBRX від Databricks

DBRX - це велика мовна модель, побудована на трансформаторній архітектурі, яка фокусується виключно на декодуванні та використовує для навчання метод, відомий як передбачення наступної лексеми. Вона має детальну структуру суміші експертів (MoE), що налічує 132 мільярди параметрів, з яких 36 мільярдів використовуються для будь-якого входу. Модель пройшла попереднє навчання на величезному корпусі з 12 трильйонів токенів, що охоплює як текст, так і код, аж до припинення навчання в грудні 2023 року. Ця суміш навчальних даних включає як природну мову, так і приклади кодування, значна частина яких написана англійською мовою.

DBRX вирізняється своїм дрібнозернистим підходом до використання експертів, працюючи з 16 експертами і обираючи 4 для кожного завдання, на відміну від інших моделей МО, таких як Mixtral-8x7B і Grok-1, які мають 8 експертів, але обирають лише 2. Такий підхід дає в 65 разів більше потенційних комбінацій експертів, що призводить до значного покращення продуктивності моделі. DBRX включає в себе такі передові функції, як кодування поворотних позицій (RoPE), закриті лінійні одиниці (GLU) і згрупована увага до запитів (GQA) для своїх операцій.

Для попереднього навчання DBRX отримав 12 трильйонів токенів з ретельно зібраного набору даних, контекстний діапазон яких сягав 32 000 токенів. Команда розробників, Databricks, вважає, що цей набір даних забезпечує вдвічі вищу якість на токен порівняно з даними, що використовуються для сімейства моделей MPT.

Набір даних було створено за допомогою комплексного інструментарію Databricks, який включає Apache Spark™ та блокноти Databricks для обробки даних, а також Unity Catalog для управління та контролю над ними. Databricks реалізував підхід до навчання за навчальною програмою на етапі підготовки, скоригувавши набір даних таким чином, що значно підвищив якість моделі.

DBRX запрограмований на обробку лише текстових вхідних даних і здатний обробляти вхідні дані довжиною до 32 768 токенів.

Висновок

ChatGPT - це дивовижний движок чат-бота, який здатен відповідати на дуже складні запитання. Цей штучний інтелект у багатьох сферах є навіть більш затребуваним, ніж більшість людей.

Однак ChatGPT може порушувати питання конфіденційності даних і є обмеженим для багатьох випадків використання. Цікаво порівняти ChatGPT з найсучаснішими альтернативами з відкритим вихідним кодом: LLaMA 3, Mixtral 8x7B, Yi 34B і DBRX. І немає сумнівів, що незабаром з'являться ще більш досконалі моделі ШІ з відкритим вихідним кодом.

Якщо ви хочете використовувати LLaMA 3, Yi 34B та Mixtral 8x7B у виробництві, не вагаючись, спробуйте NLP Cloud API (Спробуй тут.)!

Juliette
Менеджер з маркетингу в NLP Cloud