Fijnafstelling van GPT-J, het GPT-3 open-source alternatief

GPT-J mag dan het krachtigste open-source Natural Language Processing model van vandaag zijn (het is het enige open-source alternatief dat concurreert met GPT-3), misschien vindt u het te algemeen en niet perfect geschikt voor uw toepassing. In dat geval, GPT-J fijn afstellen met uw eigen gegevens is de sleutel.

De kracht van GPT-J

Sinds de lancering in juni 2021, heeft GPT-J vele Natural Language Processing gebruikers aangetrokken - data scientists of ontwikkelaars - die geloven dat dit krachtige Natural Language Processing-model hen zal helpen hun AI-toepassing naar het volgend niveau (zie EleutherAI's website).

EleutherAI's logo

GPT-J is zo krachtig omdat het is getraind op 6 miljard parameters. Het gevolg is dat dit een zeer veelzijdig model is dat je kunt gebruiken voor bijna elke geavanceerde Natural Language Processing use case (sentimentanalyse, tekst classificatie, chatbots, vertaling, code generatie, parafrase generatie, en nog veel meer). Wanneer het goed is afgesteld, is GPT-J zo vloeiend dat het onmogelijk is om te zeggen dat de tekst door een machine is gegenereerd...

Het is mogelijk om GPT-J gemakkelijk on-the-fly aan te passen aan uw gebruikssituatie door gebruik te maken van de zogenaamde techniek (zie hier hoe het te gebruiken). Echter, als het leren van een paar shots niet genoeg is, moet u een meer geavanceerde techniek gebruiken: fijnafstemming.

Wat is Fine-Tuning?

Als het gaat om het maken van je eigen model, bestaat de traditionele techniek uit het trainen van een nieuw model vanaf met je eigen gegevens. Het probleem is dat moderne modellen zoals GPT-J zo groot zijn dat het bijna onmogelijk is om dit model van de grond af aan te trainen. EleutherAI zei dat het hen 5 weken kostte om GPT-J op TPUs v3-256, wat betekent dat het honderdduizenden dollars kostte...

Het goede nieuws is dat het opnieuw trainen van GPT-J niet nodig is, want we hebben fine-tuning! Fine-tuning gaat over het nemen van het bestaande GPT-J model en het lichtjes aan te passen. In het verleden kostte het trainen van traditionele Natural Language Processing modellen vanuit het niets, tonnen voorbeelden vergen. Met de nieuwe generatie op Transformer gebaseerde modellen is het anders: er zijn minder voorbeelden nodig en dat kan tot geweldige resultaten leiden. Als je ooit gehoord hebt van "transfer-learning", dan is dit waar het om gaat.

Hoe kan ik GPT-J afstellen?

Ook al is de fijnafstelling van GPT-J veel gemakkelijker dan het model helemaal vanaf nul te trainen, toch blijft het een uitdaging om verschillende redenen:

• Het is een zeer rekenintensieve bewerking die pijnlijk lang kan duren op GPU. De beste optie is om daar een TPU voor te gebruiken.
• Het fijnafstemmingsproces vergt enige oefening, sommige parameters moeten worden bijgesteld, en u kunt gemakkelijk eindigen met een suboptimale nauwkeurigheid.
• Zodra u uw gloednieuwe, fijn afgestemde model hebt, is het nog niet voorbij: u moet het inzetten en en het betrouwbaar in productie gebruiken.

Als u GPT-J zelf wilt afstellen, kunt u dat als volgt doen:

• Volg de how-to van het Mesh Transformer Jax team hier.
• Zorg ervoor dat u de fijnafstelling uitvoert op een TPU V3, omdat u op een TPU V2 te weinig geheugen hebt. Je kunt een gratis TPU-toegang voor 1 maand aanvragen dankzij het TPU research cloud (TRC) programma.
• Vergeet niet om je resultaat om te zetten in een slanke GPT-J versie die meer geschikt is voor productie gevolgtrekking.

Fijnafstelling GPT-J op NLP-cloud

Bij NLP Cloud hebben we hard gewerkt aan een fine-tuning platform voor GPT-J. Het is nu mogelijk om gemakkelijk GPT-J: upload gewoon uw dataset met uw voorbeelden, en laat ons het model model voor u afstemmen en implementeren. Zodra het proces is voltooid, kunt u uw nieuwe model gebruiken als een privémodel op onze API.

GPT-J Fine-Tuning op NLP Cloud

Het fijnafstemmingsproces zelf is gratis, en daarna moet u een fijnafstemmingsplan kiezen afhankelijk van het volume van verzoeken die u wilt doen op uw nieuw ingezette model.

Als u niet te veel tijd wilt besteden aan de fijnafstelling en uitrol, is dit een optie die u zou kunnen overwegen.

Conclusie

GPT-J is een verbazingwekkend Natural Language Processing model. Meng het met leren in een paar stappen en fine-tuning, en je krijgt een state of the art AI-toepassing!

Als u vragen heeft, aarzel dan niet om contact met ons op te nemen.

Julien Salinas
CTO bij NLP Cloud