Πολύγλωσση επεξεργασία φυσικής γλώσσας: NLP σε μη αγγλικές γλώσσες

Η επεξεργασία φυσικής γλώσσας σε μη αγγλικές γλώσσες αποτελεί πρόκληση. Σήμερα, είναι δυνατόν να έχουμε εξαιρετικά αποτελέσματα με την πολύγλωσση επεξεργασία φυσικής γλώσσας. Επιτέλους, ο καθένας μπορεί να εκτελέσει επεξεργασία φυσικής γλώσσας στα γαλλικά, ιαπωνικά, ισπανικά, ρωσικά, κινέζικα, γερμανικά... και πολλά άλλα.

Πολύγλωσσο

Γιατί η πολύγλωσση επεξεργασία φυσικής γλώσσας αποτελεί πρόκληση

Σχεδόν 7000 διαφορετικές γλώσσες ομιλούνται σήμερα στον κόσμο! Κάθε γλώσσα έχει τους δικούς της κανόνες και ορισμένες γλώσσες μπορούν να λειτουργήσουν πολύ διαφορετικά. Για παράδειγμα, τα γαλλικά, τα ισπανικά και τα ιταλικά μοιάζουν πολύ, αλλά δεν έχουν καμία σχέση με τις ασιατικές γλώσσες που βασίζονται σε ιδεογράμματα ή σύμβολα όπως τα κινέζικα και τα ιαπωνικά.

Αυτό έχει ως συνέπεια να πρέπει να χρησιμοποιηθούν διαφορετικές τεχνικές για τη δημιουργία γλωσσικών μοντέλων που να μπορούν να χειριστούν όλες αυτές τις γλώσσες.

Εν συντομία, διαφορετικές γλώσσες μπορεί να απαιτούν διαφορετικούς διανυσματικούς χώρους, ακόμη και αν υπάρχουν ήδη κάποιες προ-εκπαιδευμένες γλωσσικές ενσωματώσεις. Αυτό είναι ένα ενεργό ερευνητικό πεδίο.

Ποιες είναι λοιπόν οι λύσεις;

Εκπαίδευση ειδικών μη-αγγλικών μοντέλων

Μια πρώτη προσέγγιση είναι η εκπαίδευση ενός μοντέλου για μια συγκεκριμένη γλώσσα. Για παράδειγμα, αρκετές νέες εκδόσεις του BERT έχουν εκπαιδευτεί σε διάφορες γλώσσες. Το γερμανικό BERT, από την Deepset AI, είναι ένα καλό παράδειγμα μιας νέας έκδοσης του BERT που εκπαιδεύτηκε στη γερμανική γλώσσα από το από το μηδέν: δείτε το γερμανικό BERT εδώ.

Το πρόβλημα είναι ότι αυτή η τεχνική δεν κλιμακώνεται καλά. Η εκπαίδευση ενός νέου μοντέλου απαιτεί χρόνο και κοστίζει πολλά χρήματα. Η εκπαίδευση πολλών μοντέλων εξακολουθεί να είναι προσιτή για μικρά μοντέλα όπως το spaCy, και η Explosion AI (η εταιρεία πίσω από το spaCy) κάνει κάνει εξαιρετική δουλειά στη διατήρηση πολλών προ-εκπαιδευμένων μοντέλων σε πολλές γλώσσες: δείτε περισσότερα εδώ. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Επίσης, δεν κλιμακώνεται καλά από την άποψη της εξαγωγής συμπερασμάτων. Αν μια εταιρεία χρειάζεται να χρησιμοποιήσει επεξεργασία φυσικής γλώσσας στην παραγωγή σε διάφορες γλώσσες, θα πρέπει να διατηρεί διάφορα μοντέλα και να παρέχει αρκετούς διακομιστές και GPU. Αυτό μπορεί να αποδειχθεί εξαιρετικά δαπανηρό. Αυτό το είναι ένας από τους λόγους για τους οποίους, στο NLP Cloud, προσπαθούμε να αποφύγουμε αυτή τη στρατηγική όσο το δυνατόν περισσότερο.

Πολύγλωσσα μοντέλα

Μια δεύτερη προσέγγιση είναι η αξιοποίηση πολύγλωσσων μοντέλων.

Τα τελευταία χρόνια εμφανίστηκαν νέα πολύγλωσσα μοντέλα που αποδείχθηκαν πολύ ακριβή. Μερικές φορές ακόμη και πιο ακριβή από συγκεκριμένα μη-αγγλικά μοντέλα. Τα πιο δημοφιλή είναι το mBERT, το XLM και το XLM Roberta. Το XLM Roberta φαίνεται να είναι το πιο ακριβές πολύγλωσσο μοντέλο και έχει πολύ καλές επιδόσεις στο σύνολο δεδομένων αξιολόγησης XNLI (μια σειρά αξιολογήσεων για την αξιολόγηση της ποιότητας των πολύγλωσσων μοντέλων).

Διατίθενται ορισμένα πολύ καλά προ-εκπαιδευμένα μοντέλα που βασίζονται στην XLM Roberta. Για παράδειγμα, για την ταξινόμηση κειμένου σε πολλά γλώσσες, το καλύτερο είναι το XLM Roberta Large XNLI: δείτε αυτό το μοντέλο εδώ.

Προς το παρόν δεν υπάρχει κανένα καλό πολύγλωσσο μοντέλο για την παραγωγή κειμένου. Για παράδειγμα, το GPT είναι εξαιρετικό στα αγγλικά και όχι τόσο κακό σε πολλές μη αγγλικές γλώσσες, αλλά κάθε άλλο παρά εντυπωσιακό. Η Big Science εργάζεται επί του παρόντος σε πολύ μεγάλα πολύγλωσσα μοντέλα παραγωγής κειμένου. Φαίνεται πολλά υποσχόμενο! Δείτε περισσότερα εδώ..

Big Science πολύγλωσσο μοντέλο μετασχηματιστών 176 δισεκατομμυρίων παραμέτρων
Το Big Science μόλις ανακοίνωσε ένα πολύγλωσσο μοντέλο μετασχηματιστών 176 δισεκατομμυρίων παραμέτρων

Η μετάφραση στη διάσωση

Η τελευταία στρατηγική είναι η μετάφραση. Η ιδέα είναι ότι θα πρέπει να μεταφράσετε το μη αγγλικό περιεχόμενό σας στα αγγλικά, να στείλετε το αγγλικό περιεχόμενο στο μοντέλο και να μεταφράσετε το αποτέλεσμα πίσω στην αρχική σας γλώσσα.

Αυτή η τεχνική μπορεί να ακούγεται σαν χακάρισμα, αλλά έχει πλεονεκτήματα. Η διατήρηση μιας ροής εργασίας μετάφρασης μπορεί να είναι λιγότερο δαπανηρή από την εκπαίδευση εξειδικευμένων μοντέλων, και όλες οι γλώσσες του κόσμου μπορούν εύκολα να υποστηριχθούν.

Τα τελευταία χρόνια έχουν δημιουργηθεί προηγμένα μοντέλα μετάφρασης που βασίζονται στη βαθιά μάθηση. Είναι και γρήγορα και δίνουν πολύ καλά αποτελέσματα. Για παράδειγμα, η Helsinki NLP κυκλοφόρησε μια σειρά μεταφραστικών μοντέλων που βασίζονται στη βαθιά μάθηση. Μπορείτε να χρησιμοποιήσετε τα πιο δημοφιλή στο NLP Cloud: δείτε περισσότερα εδώ.

Η προσθήκη της μετάφρασης στη ροή εργασίας σας θα αυξήσει όμως το συνολικό χρόνο απόκρισης. Έτσι, μπορεί να μην είναι κατάλληλη αν ψάχνετε για πολύ γρήγορα αποτελέσματα.

Συμπέρασμα

Η πολύγλωσση επεξεργασία φυσικής γλώσσας δεν είναι ένα λυμένο πρόβλημα, αλλά τα τελευταία χρόνια έχει σημειωθεί μεγάλη πρόοδος. Είναι πλέον δυνατή η επεξεργασία φυσικής γλώσσας σε μη αγγλικές γλώσσες με πολύ καλά αποτελέσματα, χάρη σε ειδικά μοντέλα, πολύγλωσσα μοντέλα και τη μετάφραση.

Στο NLP Cloud, πιστεύουμε ότι η κατανόηση και η παραγωγή κειμένου σε πολλές γλώσσες είναι ζωτικής σημασίας, γι' αυτό κυκλοφορήσαμε ένα ειδικό πρόσθετο που ονομάζεται "πολύγλωσσο πρόσθετο". Μόλις ενεργοποιηθεί, όλα τα μοντέλα τεχνητής νοημοσύνης μας μπορούν να λειτουργούν καλά σε περισσότερες από 20 γλώσσες, συμπεριλαμβανομένων των μοντέλων GPT όπως το GPT-J και GPT-NeoX: δείτε το εδώ.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

Julien Salinas
CTO στο NLP Cloud