Λεπτομερής ρύθμιση του GPT-J, της εναλλακτικής λύσης GPT-3 ανοικτού κώδικα

Το GPT-J μπορεί να είναι το πιο ισχυρό μοντέλο επεξεργασίας φυσικής γλώσσας ανοιχτού κώδικα σήμερα (είναι η μόνη εναλλακτική λύση ανοιχτού κώδικα που ανταγωνίζεται το GPT-3), μπορεί να το βρείτε πολύ γενικό και να μην είναι απόλυτα κατάλληλο για την περίπτωσή σας. Σε αυτή την περίπτωση, η λεπτομερής ρύθμιση του GPT-J με τα δικά σας δεδομένα είναι το κλειδί.

Η δύναμη του GPT-J

Από τότε που κυκλοφόρησε τον Ιούνιο του 2021, το GPT-J έχει προσελκύσει πολλούς χρήστες Επεξεργασίας Φυσικής Γλώσσας - επιστήμονες δεδομένων ή προγραμματιστές - οι οποίοι πιστεύουν ότι αυτό το ισχυρό μοντέλο Επεξεργασίας Φυσικής Γλώσσας θα τους βοηθήσει να πάνε την εφαρμογή τεχνητής νοημοσύνης τους στο επόμενο επίπεδο (δείτε τον ιστότοπο της EleutherAI).

Λογότυπο του EleutherAI

Το GPT-J είναι τόσο ισχυρό επειδή εκπαιδεύτηκε σε 6 δισεκατομμύρια παραμέτρους. Αυτό έχει ως συνέπεια ότι πρόκειται για ένα πολύ ευπροσάρμοστο μοντέλο που μπορείτε να χρησιμοποιήσετε για σχεδόν κάθε περίπτωση χρήσης προηγμένης επεξεργασίας φυσικής γλώσσας (ανάλυση συναισθήματος, ανάλυση κειμένου ταξινόμηση, chatbots, μετάφραση, παραγωγή κώδικα, παραγωγή παραφράσεων και πολλά άλλα). Όταν είναι σωστά ρυθμισμένο, το GPT-J είναι τόσο ευχέρεια που είναι αδύνατο να πούμε ότι το κείμενο παράγεται από μηχανή...

Είναι δυνατό να προσαρμόσετε εύκολα το GPT-J στην περίπτωσή σας on-the-fly χρησιμοποιώντας τη λεγόμενη τεχνική (δείτε πώς να το χρησιμοποιήσετε εδώ). Ωστόσο, εάν η εκμάθηση λίγων βολών δεν είναι αρκετή, πρέπει να επιλέξετε μια πιο προηγμένη τεχνική: τη λεπτομερή ρύθμιση.

Τι είναι το Fine-Tuning;

Όταν πρόκειται για τη δημιουργία του δικού σας μοντέλου, η παραδοσιακή τεχνική αφορά την εκπαίδευση ενός νέου μοντέλου από από το μηδέν με τα δικά σας δεδομένα. Το πρόβλημα είναι ότι τα σύγχρονα μοντέλα όπως το GPT-J είναι τόσο τεράστια που είναι σχεδόν αδύνατο για οποιονδήποτε να εκπαιδεύσει αυτό το μοντέλο από το μηδέν. Η EleutherAI δήλωσε ότι τους πήρε 5 εβδομάδες για να εκπαιδεύσουν GPT-J σε TPUs v3-256, πράγμα που σημαίνει ότι κόστισε εκατοντάδες χιλιάδες δολάρια...

Τα καλά νέα είναι ότι η επανεκπαίδευση του GPT-J δεν είναι απαραίτητη, επειδή έχουμε fine-tuning! Το fine-tuning αφορά να πάρουμε το υπάρχον μοντέλο GPT-J και να το προσαρμόσουμε ελαφρώς. Στο παρελθόν, η εκπαίδευση παραδοσιακών μοντέλων επεξεργασίας φυσικής γλώσσας από το μηδέν απαιτούσε τόνους παραδειγμάτων. Με τα μοντέλα νέας γενιάς που βασίζονται σε μετασχηματιστές, είναι διαφορετικό: απαιτούνται λιγότερα παραδείγματα και μπορούν να οδηγήσουν σε εξαιρετικά αποτελέσματα. Αν έχετε ακούσει ποτέ για "εκμάθηση μεταφοράς", πρόκειται για αυτό.

Πώς να ρυθμίσετε το GPT-J;

Ακόμη και αν η λεπτομερής ρύθμιση του GPT-J είναι πολύ πιο εύκολη από την εκπαίδευση του μοντέλου από την αρχή, εξακολουθεί να αποτελεί πρόκληση. για διάφορους λόγους:

• Πρόκειται για μια πολύ απαιτητική σε υπολογισμούς λειτουργία που μπορεί να είναι οδυνηρά χρονοβόρα σε GPU. Η καλύτερη επιλογή είναι να χρησιμοποιήσετε μια TPU γι' αυτό.
• Η διαδικασία της τελειοποίησης απαιτεί κάποια εξάσκηση, κάποιες παράμετροι πρέπει να ρυθμιστούν και μπορείτε να εύκολα να καταλήξετε σε μια μη βέλτιστη ακρίβεια.
• Μόλις αποκτήσετε το ολοκαίνουργιο, καλοκουρδισμένο μοντέλο σας, δεν έχει τελειώσει: πρέπει να το αναπτύξετε και να το να το χρησιμοποιήσετε αξιόπιστα στην παραγωγή.

Αν θέλετε να ρυθμίσετε το GPT-J μόνοι σας, μπορείτε να το κάνετε με τον εξής τρόπο:

• Ακολουθήστε τον τρόπο λειτουργίας από την ομάδα Mesh Transformer Jax εδώ.
• Βεβαιωθείτε ότι εκτελείτε τη λεπτομερή ρύθμιση σε μια TPU V3, καθώς θα εξαντληθεί η μνήμη σε μια TPU V2. Μπορείτε να ζητήσετε δωρεάν πρόσβαση στην TPU για 1 μήνα χάρη στο πρόγραμμα TPU research cloud (TRC).
• Μην ξεχάσετε να μετατρέψετε το αποτέλεσμά σας σε μια λεπτή έκδοση GPT-J που είναι πιο κατάλληλη για παραγωγή. εξαγωγή συμπερασμάτων.

Λεπτομερής ρύθμιση του GPT-J στο NLP Cloud

Στο NLP Cloud δουλέψαμε σκληρά σε μια πλατφόρμα τελειοποίησης για το GPT-J. Τώρα είναι δυνατή η εύκολη ρύθμιση GPT-J: απλά ανεβάστε το σύνολο δεδομένων σας που περιέχει τα παραδείγματά σας και αφήστε μας να ρυθμίσουμε και να αναπτύξουμε το μοντέλο για εσάς. Μόλις ολοκληρωθεί η διαδικασία, μπορείτε να χρησιμοποιήσετε το νέο σας μοντέλο ως ιδιωτικό μοντέλο στο API μας.

GPT-J Fine-Tuning στο NLP Cloud

Η ίδια η διαδικασία τελειοποίησης είναι δωρεάν και στη συνέχεια πρέπει να επιλέξετε ένα σχέδιο τελειοποίησης ανάλογα με τις όγκου των αιτήσεων που θέλετε να κάνετε στο νέο σας μοντέλο.

Εάν δεν θέλετε να αφιερώσετε πολύ χρόνο στις εργασίες τελειοποίησης και ανάπτυξης, είναι μια επιλογή που θα θέλατε να εξετάσετε.

Συμπέρασμα

Το GPT-J είναι ένα καταπληκτικό μοντέλο επεξεργασίας φυσικής γλώσσας. Αναμείξτε το με μάθηση λίγων βολών και λεπτομερή ρύθμιση, και θα έχετε μια κορυφαία εφαρμογή τεχνητής νοημοσύνης!

Εάν έχετε ερωτήσεις, μη διστάσετε να επικοινωνήσετε μαζί μας.

Julien Salinas
CTO στο NLP Cloud