Доопрацювання GPT-J, альтернатива GPT-3 з відкритим вихідним кодом

GPT-J може бути найпотужнішою моделлю обробки природної мови з відкритим вихідним кодом на сьогоднішній день (це єдина альтернатива з відкритим вихідним кодом, яка конкурує з GPT-3), ви можете вважати її занадто загальною і такою, що не ідеально підходить для вашого випадку використання. В такому випадку тонка настройка GPT-J з вашими власними даними є ключовим моментом.

Потужність GPT-J

З моменту свого випуску в червні 2021 року GPT-J привернув увагу величезної кількості користувачів обробки природної мови - аналітиків даних або розробників, які вважають, що ця потужна модель обробки природної мови допоможе їм вивести свої програми ШІ на наступний рівень (дивіться на сайті EleutherAI).

Логотип EleutherAI

GPT-J настільки потужний, тому що він пройшов навчання на 6 мільярдах параметрів. Наслідком цього є те, що це дуже універсальна модель, яку можна використовувати практично для будь-якого розширеного варіанту використання Natural Language Processing (аналіз настроїв, класифікація текстів, чат-боти). класифікація тексту, чат-боти, переклад, генерація коду, генерація переказу та багато іншого). При правильному налаштуванні, GPT-J настільки вільний, що неможливо сказати, що текст згенерований машиною...

Можна легко адаптувати GPT-J до вашого варіанту використання "на льоту", використовуючи так звану техніку (як ним користуватися дивіться тут). Однак, якщо навчання з кількох пострілів недостатньо недостатньо, потрібно переходити до більш досконалої методики - точного налаштування.

Що таке тонка настройка?

Коли мова йде про створення власної моделі, традиційна методика полягає в навчанні нової моделі з нуля з власними даними. з нуля з власними даними. Проблема полягає в тому, що сучасні моделі, такі як GPT-J, настільки величезні, що майже що навчити цю модель з нуля практично нікому не під силу. В EleutherAI заявили, що їм знадобилося 5 тижнів, щоб навчити GPT-J на TPU v3-256, що означає, що це коштувало сотні тисяч доларів...

Гарна новина - перепідготовка GPT-J не потрібна, адже у нас є доопрацювання! Доопрацювання полягає в тому, що взяти існуючу модель GPT-J і трохи адаптувати її. У минулому навчання традиційних моделей обробки природної мови з нуля вимагало великої кількості прикладів. З моделями нового покоління, заснованими на трансформаторах, все інакше інакше: потрібно менше прикладів, і це може призвести до чудових результатів. Якщо ви коли-небудь чули про "трансферне навчання", то це саме те, про що йдеться.

Як налаштувати GPT-J?

Навіть якщо точне налаштування GPT-J набагато простіше, ніж навчання моделі з нуля, воно все одно є складним завданням з кількох причин:

• Це дуже трудомістка операція, яка може бути болісно довгою для графічного процесора. Найкращим варіантом буде використовувати для цього TPU.
• Процес точного налаштування вимагає певної практики, деякі параметри слід підлаштовувати, і ви можете легко отримати неоптимальну точність.
• Після того, як ви отримали свою нову досконалу модель, це ще не кінець: ви маєте розгорнути її та надійно використовувати її у виробництві.

Якщо ви хочете налаштувати GPT-J самостійно, ось як ви можете це зробити:

• Дотримуйтесь інструкції від команди Mesh Transformer Jax тут.
• Переконайтеся, що ви виконуєте точне налаштування на TPU V3, оскільки у вас закінчиться пам'ять на TPU V2. Ви можете запросити безкоштовний доступ до TPU на 1 місяць завдяки програмі TPU research cloud (TRC).
• Не забудьте перетворити свій результат в тонку версію GPT-J, яка більше підходить для виробництва висновок.

Тонке налаштування GPT-J на NLP Cloud

У NLP Cloud ми багато працювали над платформою для тонкого налаштування GPT-J. Тепер можна легко налаштувати GPT-J: просто завантажте свій набір даних, що містить ваші приклади, і дозвольте нам налаштувати і розгорнути модель для вас. Після завершення процесу ви зможете використовувати вашу нову модель як приватну модель в нашому API.

GPT-J Тонке налаштування на NLP Cloud

Сам процес налаштування є безкоштовним, після чого необхідно вибрати план налаштування в залежності від обсягу запитів, які ви хочете робити на вашій новій розгорнутій моделі.

Якщо ви не хочете витрачати занадто багато часу на тонке налаштування та розгортання, це варіант який ви можете розглянути.

Висновок

GPT-J - це дивовижна модель обробки природної мови. Поєднайте її з навчанням і тонким налаштуванням, і ви отримаєте найсучасніший додаток зі штучним інтелектом!

Якщо у Вас виникли запитання, будь ласка, звертайтеся до нас. Спробуйте спробувати точне налаштування GPT-J в NLP Cloud!

Julien Salinas
CTO в NLP Cloud