Фина настройка на GPT-J, алтернативата на GPT-3 с отворен код

GPT-J може би е най-мощният модел за обработка на естествен език с отворен код днес (това е единствената алтернатива с отворен код, която се конкурира с GPT-3), може да ви се стори твърде общ и да не е напълно подходящ за вашия случай на употреба. В такъв случай, ключът е в прецизното настройване на GPT-J с вашите собствени данни.

Силата на GPT-J

Откакто е пуснат през юни 2021 г., GPT-J привлича много потребители на обработка на естествен език - учени, занимаващи се с обработка на данни или разработчици - които вярват, че този мощен модел за обработка на естествен език ще им помогне да издигнат своето приложение за изкуствен интелект до следващото ниво (вижте уебсайта на EleutherAI).

Логото на EleutherAI

GPT-J е толкова мощен, защото е обучен на 6 милиарда параметри. В резултат на това това е много гъвкав модел, който можете да използвате за почти всички случаи на разширена обработка на естествен език (анализ на настроения, анализ на текст, анализ на класификация, чатботове, превод, генериране на код, генериране на парафрази и много други). Когато е правилно настроен, GPT-J е толкова плавен, че е невъзможно да се каже, че текстът е генериран от машина...

Възможно е лесно да адаптирате GPT-J към вашия случай на употреба в движение, като използвате т.нар. техника (вижте как да го използвате тук). Въпреки това, ако обучението с няколко снимки не е достатъчно, трябва да преминете към по-напреднала техника: фина настройка.

Какво представлява фината настройка?

Когато става въпрос за създаване на собствен модел, традиционната техника е свързана с обучение на нов модел от от нулата със собствени данни. Проблемът е, че съвременните модели като GPT-J са толкова огромни, че е почти невъзможно да се невъзможно за всеки да обучи този модел от нулата. От EleutherAI твърдят, че обучението им е отнело 5 седмици. GPT-J на TPU v3-256, което означава, че това е струвало стотици хиляди долари...

Добрата новина е, че повторното обучение на GPT-J не е необходимо, защото имаме фина настройка! Фината настройка е свързана с вземане на съществуващия модел GPT-J и неговото леко адаптиране. В миналото обучението на традиционните модели за обработка на естествен език от нулата изискваше тонове примери. С новото поколение модели, базирани на трансформатори, е различно: необходими са по-малко примери, които могат да доведат до отлични резултати. Ако някога сте чували за "трансферно учене", става въпрос за това.

Как да настроите GPT-J?

Въпреки че прецизната настройка на GPT-J е много по-лесна от обучението на модела от нулата, тя все още е предизвикателство. по няколко причини:

• Това е много интензивна изчислителна операция, която може да отнеме много време на GPU. Най-добрият вариант е да използвате TPU за тази цел.
• Процесът на фина настройка изисква известна практика, някои параметри трябва да бъдат променени и можете да лесно да се стигне до неоптимална точност.
• След като сте създали своя чисто нов, добре настроен модел, работата не е приключила: трябва да го внедрите и да го използвате надеждно в производството.

Ако искате сами да настроите GPT-J, ето как можете да го направите:

• Следвайте указанията за употреба от екипа на Mesh Transformer Jax тук.
• Уверете се, че сте извършили фината настройка на TPU V3, тъй като паметта на TPU V2 ще свърши. Можете да поискате безплатен достъп до TPU за 1 месец благодарение на програмата TPU research cloud (TRC).
• Не забравяйте да превърнете резултата си в тънка версия на GPT-J, която е по-подходяща за производство извод.

Фина настройка на GPT-J в облака на NLP

В NLP Cloud работихме усилено върху платформа за фина настройка на GPT-J. Сега е възможно лесно да се извършва фина настройка на GPT-J: просто качете набор от данни с вашите примери и ни позволете да ги настроим и внедрим. модела за вас. След като процесът приключи, можете да използвате новия си модел като частен модел в нашия API.

Фина настройка на GPT-J в облака на NLP

Самият процес на фина настройка е безплатен, а след това трябва да изберете план за фина настройка в зависимост от обема на заявките, които искате да направите за новоразположения модел.

Ако не искате да отделяте твърде много време за фини настройки и операции по внедряване, това е опция. който може да обмислите.

Заключение

GPT-J е невероятен модел за обработка на естествен език. Смесете го с обучение с няколко изстрела и фина настройка и ще получите най-модерното приложение за изкуствен интелект!

Ако имате въпроси, моля, не се колебайте да се свържете с нас.

Julien Salinas
Технически директор в NLP Cloud