Τι είναι η εκμάθηση μηδενικών βολών και πώς μπορεί να εφαρμοστεί αποτελεσματικά, στην Επεξεργασία Φυσικής Γλώσσας, στην ταξινόμηση κειμένων, χάρη με τους μετασχηματιστές αγκαλιάς προσώπου;
Χάρη στα σύγχρονα μοντέλα επεξεργασίας φυσικής γλώσσας που βασίζονται σε μετασχηματιστές, η μάθηση μηδενικών λήψεων έχει αποκτήσει μεγάλη απήχηση. δημοτικότητα στον κόσμο της Επεξεργασίας Φυσικής Γλώσσας. Η ιδέα είναι ότι ένα μοντέλο μπορεί πλέον να αναγνωρίζει κάποιες κλάσεις, ακόμη και αν δεν έχει έχει εκπαιδευτεί γι' αυτό.
Αυτό είναι που κάνουν τα ανθρώπινα όντα από τη φύση τους. Για παράδειγμα, αν το παιδί σας ξέρει τι είναι η καμήλα, απλά πρέπει να να του πείτε ότι υπάρχει ένα άλλο ζώο που λέγεται Δρομέδαρος, που μοιάζει πολύ με την καμήλα, μόνο που έχει 1 καμπούρα στο κεφάλι. στην πλάτη του αντί για 2! Την επόμενη φορά που το παιδί σας θα δει μια εικόνα ενός Δρομέα, θα ξέρει τι είναι ενώ είναι η πρώτη φορά που θα δει ένα!
Οι τεχνικές μηδενικού πυροβολισμού συνδέουν τις παρατηρούμενες και τις μη παρατηρούμενες κλάσεις μέσω κάποιας μορφής λεγόμενης "βοηθητικής" πληροφορίας, η οποία κωδικοποιεί διακριτικές ιδιότητες των αντικειμένων. Αυτό ήταν ένα πολύ δημοφιλές τεχνική στην όραση υπολογιστών εδώ και πολύ καιρό, η οποία τώρα χρησιμοποιείται όλο και περισσότερο στην Επεξεργασία Φυσικής Γλώσσας.
Η εκμάθηση μηδενικών λήψεων λειτουργεί εξαιρετικά για την ταξινόμηση κειμένου. Η ταξινόμηση κειμένου αφορά την εφαρμογή ενός ή περισσότερων κατηγοριών σε ένα κομμάτι κειμένου (χώρος, επιχειρήσεις, αθλητισμός κ.λπ.).
Μέχρι πρόσφατα, τα μοντέλα ταξινόμησης κειμένου μπορούσαν να κατηγοριοποιήσουν κομμάτια κειμένου μόνο με έναν προκαθορισμένο αριθμό υποψήφιες κατηγορίες. Αυτές οι κατηγορίες έπρεπε να οριστούν εκ των προτέρων κατά τη διάρκεια της εκπαίδευσης. Αυτό ήταν οδυνηρό επειδή σήμαινε ότι, κάθε φορά που θέλατε να προσθέσετε μια κατηγορία, έπρεπε να εκπαιδεύσετε εκ νέου το μοντέλο σας με περισσότερες παραδείγματα.
Από τη δημιουργία πολύ μεγαλύτερων μοντέλων Επεξεργασίας Φυσικής Γλώσσας (τις περισσότερες φορές βασισμένων σε Transformers), έχει γίνει δυνατό να εκπαιδεύονται τα μοντέλα μόνο σε έναν συγκεκριμένο κατάλογο κατηγοριών και στη συνέχεια να αφήνονται οι χρήστες να δημιουργούν νέες κατηγορίες εν κινήσει χωρίς να χρειάζεται να εκπαιδεύσουν εκ νέου το μοντέλο.
Για παράδειγμα, ας υποθέσουμε ότι το μοντέλο ταξινόμησης κειμένου με μηδενική λήψη εκπαιδεύτηκε να αναγνωρίζει μόνο 3 κατηγορίες: διάστημα, φύση και αθλητισμός. Μπορείτε ακόμα να το χρησιμοποιήσετε για την κατηγοριοποίηση κειμένων για άλλες κατηγορίες, όπως για παράδειγμα επιχειρήσεις, τρόφιμα ή επιστήμη.
Πρόκειται για μια πολύ ισχυρή τεχνική που επιτρέπει μεγάλη ευελιξία, ενώ παράλληλα δίνει εξαιρετικά αποτελέσματα.
Υπάρχουν εξαιρετικά μοντέλα επεξεργασίας φυσικής γλώσσας ανοικτού κώδικα, βασισμένα σε μετασχηματιστές αγκαλιάς προσώπου, που λειτουργούν πολύ καλά για την ταξινόμηση κειμένου με μηδενική λήψη.
Στο NLP Cloud επιλέξαμε αυτά τα 2 μοντέλα που είναι, κατά τη γνώμη μας, τα καλύτερα μοντέλα τελευταίας τεχνολογίας για ταξινόμηση κειμένου με μηδενική λήψη προς το παρόν:
Ακόμη και αν η ακρίβειά τους είναι εντυπωσιακή και η καθυστέρησή τους αρκετά καλή, αυτά τα 2 μοντέλα εξακολουθούν να είναι εντατικά μοντέλα υπολογισμών και η καθυστέρηση μπορεί εύκολα να αυξηθεί αν το κείμενο που θέλετε να αναλύσετε γίνει πολύ μεγάλο ή ο αριθμός των υποψήφιων κατηγοριών είναι πολύ μεγάλος. Εάν η ακρίβεια δεν είναι το πρωταρχικό σας μέλημα και θα προτιμούσατε ένα ταχύτερο και λιγότερο απαιτητικό σε πόρους μοντέλο, μπορείτε εύκολα να επιλέξετε ένα άλλο μοντέλο. Για το παράδειγμα, υπάρχουν αποσταγμένες εκδόσεις του Bart, που ονομάζονται "DistilBart", και είναι ιδανικές για το σκοπό αυτό.
Εκμάθηση μηδενικών βολών, μαζί με εκμάθηση λίγων βολών, είναι σύγχρονες τεχνικές που εμφανίστηκαν με τη δημιουργία μεγάλων μοντέλων επεξεργασίας φυσικής γλώσσας (δείτε περισσότερα για την εκμάθηση λίγων βολών εδώ). Παρέχουν μεγάλη ευελιξία και κάνουν την Επεξεργασία Φυσικής Γλώσσας όλο και πιο εντυπωσιακή!
Δοκιμάστε ελεύθερα την ταξινόμηση μηδενικού πυροβολισμού και δείτε αν σας αρέσει κι εσάς.
Julien Salinas
CTO στο NLP Cloud