Тонкая настройка GPT-J, альтернативы GPT-3 с открытым исходным кодом

GPT-J может быть самой мощной моделью обработки естественного языка с открытым исходным кодом на сегодняшний день (это единственная альтернатива с открытым исходным кодом, конкурирующая с GPT-3), вы можете счесть ее слишком общей и не вполне подходящей для вашего случая использования. В таком случае точная настройка GPT-J с помощью ваших собственных данных является ключевым моментом.

Сила GPT-J

С момента своего выхода в июне 2021 года GPT-J привлек тонны пользователей технологии обработки естественного языка - ученых, изучающих данные. или разработчиков, которые считают, что эта мощная модель обработки естественного языка поможет им вывести свои приложения ИИ на новый уровень. следующий уровень (см. веб-сайт EleutherAI).

Логотип EleutherAI

GPT-J настолько мощный, потому что он был обучен на 6 миллиардах параметров. Следствием этого является то, что это очень универсальная модель, которую можно использовать практически для любого продвинутого случая применения обработки естественного языка (анализ настроений, классификация текстов, чат-боты, перевод, генерация кода, создание пересказов и многое другое). классификация, чат-боты, перевод, генерация кода, генерация парафраз и многое другое). При правильной настройке, GPT-J настолько беглая, что невозможно сказать, что текст сгенерирован машиной...

Можно легко адаптировать GPT-J к вашему случаю использования "на лету", используя так называемую технику (посмотрите, как его использовать здесь). Однако, если обучения по нескольким снимкам недостаточно недостаточно, необходимо прибегнуть к более продвинутой технике: тонкой настройке.

Что такое точная настройка?

Когда речь идет о создании собственной модели, традиционная техника заключается в обучении новой модели с нуля с нуля на собственных данных. Проблема в том, что современные модели, такие как GPT-J, настолько огромны, что практически практически невозможно обучить эту модель с нуля. Компания EleutherAI заявила, что им потребовалось 5 недель, чтобы обучить GPT-J на TPU v3-256, что означает, что это стоило сотни тысяч долларов...

Хорошая новость заключается в том, что повторное обучение GPT-J не требуется, потому что у нас есть тонкая настройка! Тонкая настройка - это взять существующую модель GPT-J и слегка адаптировать ее. В прошлом обучение традиционных моделей обработки естественного языка с нуля требовались тонны примеров. С моделями нового поколения, основанными на трансформаторах, все обстоит иначе. другое: требуется меньшее количество примеров, и это может привести к отличным результатам. Если вы когда-нибудь слышали о "трансферном обучении", то это то, о чем идет речь.

Как точно настроить GPT-J?

Даже если точная настройка GPT-J намного проще, чем обучение модели с нуля, это все равно является сложной задачей по нескольким причинам:

• Это очень интенсивная вычислительная операция, которая может быть мучительно долгой на GPU. Лучший вариант - использовать для этого TPU.
• Процесс точной настройки требует некоторой практики, некоторые параметры должны быть подстроены, и вы можете легко получить неоптимальную точность.
• После того, как у вас есть совершенно новая отлаженная модель, это еще не все: вы должны развернуть ее и надежно использовать ее в производстве.

Если вы хотите самостоятельно настроить GPT-J, вот как вы можете это сделать:

• Следуйте инструкциям от команды Mesh Transformer Jax здесь.
• Обязательно выполните тонкую настройку на TPU V3, так как на TPU V2 у вас закончится память. Вы можете запросить бесплатный доступ к TPU на 1 месяц благодаря программе TPU research cloud (TRC).
• Не забудьте превратить ваш результат в тонкую версию GPT-J, которая больше подходит для производственных выводы.

Тонкая настройка GPT-J на NLP Cloud

В NLP Cloud мы много работали над платформой тонкой настройки для GPT-J. Теперь стало возможным легко настроить GPT-J: просто загрузите свой набор данных с примерами, и мы настроим и развернем модель для вас. После завершения процесса вы сможете использовать свою новую модель в качестве частной модели на нашем API.

Тонкая настройка GPT-J на NLP Cloud

Сам процесс тонкой настройки является бесплатным, а затем вам нужно выбрать план тонкой настройки в зависимости от объема запросов, которые вы хотите выполнять на новой развернутой модели.

Если вы не хотите тратить слишком много времени на тонкую настройку и развертывание, это вариант можно рассмотреть.

Заключение

GPT-J - это удивительная модель обработки естественного языка. Смешайте ее с обучением в несколько приемов и тонкой настройкой, и вы получите современное приложение для искусственного интеллекта!

Если у вас есть вопросы, пожалуйста, не стесняйтесь обращаться к нам.

Julien Salinas
Технический директор NLP Cloud