Dopracowanie GPT-J, alternatywy dla GPT-3 na licencji open-source

GPT-J może być najpotężniejszym obecnie modelem open-source Natural Language Processing (jest to jedyna alternatywa open-source konkurująca z GPT-3), możesz uznać, że jest zbyt ogólny i nie jest idealnie dopasowany do Twojego przypadku użycia. W takim przypadku, kluczem jest dostrojenie GPT-J z własnymi danymi.

Siła GPT-J

Od momentu udostępnienia w czerwcu 2021 roku, GPT-J przyciągnęło mnóstwo użytkowników Natural Language Processing - naukowców zajmujących się danymi lub programistów, którzy wierzą, że ten potężny model Natural Language Processing pomoże im przenieść ich aplikacje AI na następny poziom (zobacz stronę EleutherAI).

Logo EleutherAI

GPT-J jest tak potężny, ponieważ został wytrenowany na 6 miliardach parametrów. Konsekwencją tego jest to, że jest to bardzo wszechstronny model, który można wykorzystać do niemal każdego zaawansowanego przypadku użycia Natural Language Processing (analiza sentymentu, klasyfikacja tekstów klasyfikacja tekstu, chatboty, tłumaczenia, generowanie kodu, generowanie parafraz i wiele innych). Gdy jest odpowiednio dostrojony, GPT-J jest tak płynny, że nie sposób powiedzieć, że tekst został wygenerowany przez maszynę...

Możliwe jest łatwe dostosowanie GPT-J do Twojego przypadku użycia w locie poprzez użycie tzw. techniki (zobacz jak go używać tutaj). Jednakże, jeśli nauka kilku ujęć nie jest nie wystarcza, trzeba sięgnąć po bardziej zaawansowaną technikę: dostrajanie.

Co to jest dostrajanie?

Jeśli chodzi o tworzenie własnego modelu, tradycyjna technika polega na trenowaniu nowego modelu od zera na własnych danych. od podstaw z własnymi danymi. Problem polega na tym, że nowoczesne modele takie jak GPT-J są tak ogromne, że jest prawie niemożliwe dla każdego, aby wytrenować ten model od zera. EleutherAI powiedział, że zajęło im to 5 tygodni, aby wytrenować GPT-J na TPU v3-256, co oznacza, że kosztowało to setki tysięcy dolarów...

Dobra wiadomość jest taka, że ponowne szkolenie GPT-J nie jest konieczne, ponieważ mamy dostrajanie! Precyzyjne dostrajanie polega na wzięciu istniejącego modelu GPT-J i lekkim dostosowaniu go. W przeszłości, trenowanie tradycyjnych modeli przetwarzania języka naturalnego od zera wymagało tony przykładów. Z modelami nowej generacji, opartymi na Transformerach, jest jest inaczej: mniejsza ilość przykładów jest potrzebna i może prowadzić do świetnych rezultatów. Jeśli kiedykolwiek słyszałeś o "transfer-learning", to właśnie o to chodzi.

Jak dopracować GPT-J?

Nawet jeśli dostrojenie GPT-J jest znacznie łatwiejsze niż wyszkolenie modelu od zera, nadal stanowi to wyzwanie z kilku powodów:

• Jest to bardzo intensywna obliczeniowo operacja, która może być boleśnie długa na GPU. Najlepszą opcją jest użycie TPU do tego celu.
• Proces dostrajania wymaga trochę praktyki, niektóre parametry powinny być dostrojone i można łatwo łatwo skończyć z suboptymalną dokładnością.
• Kiedy masz już swój nowy, dopracowany model, to jeszcze nie koniec: musisz go wdrożyć i niezawodnie używać go w produkcji.

Jeśli chcesz samodzielnie dostroić GPT-J, oto jak możesz to zrobić:

• Postępuj zgodnie z instrukcją od zespołu Mesh Transformer Jax tutaj.
• Upewnij się, że wykonujesz dostrajanie na TPU V3, ponieważ zabraknie Ci pamięci na TPU V2. Możesz poprosić o darmowy dostęp do TPU na okres 1 miesiąca dzięki programowi TPU research cloud (TRC).
• Nie zapomnij przekształcić swojego wyniku w szczupłą wersję GPT-J, która jest bardziej odpowiednia do produkcji wnioskowanie.

Precyzyjne dostrajanie GPT-J w chmurze NLP

W NLP Cloud ciężko pracowaliśmy nad platformą dostrajania dla GPT-J. Teraz możliwe jest łatwe dostrojenie GPT-J: po prostu prześlij swój zbiór danych zawierający Twoje przykłady, a my pozwolimy Ci dostroić i wdrożyć model dla Ciebie. Po zakończeniu tego procesu, możesz używać swojego nowego modelu jako modelu prywatnego w naszym API.

GPT-J Fine-Tuning na NLP Cloud

Sam proces dostrajania jest darmowy, a następnie należy wybrać plan dostrajania w zależności od ilości żądań, które chcesz wykonać na nowo wdrożonym modelu.

Jeśli nie chcesz spędzać zbyt wiele czasu na dostrajaniu i wdrażaniu operacji, jest to opcja którą warto rozważyć.

Wniosek

GPT-J jest niesamowitym modelem przetwarzania języka naturalnego. Wymieszaj go z uczeniem się w kilku ujęciach i dostrajaniem, a otrzymasz najnowocześniejszą aplikację AI!

Jeśli masz pytania, nie wahaj się z nami skontaktować.

Julien Salinas
CTO w NLP Cloud