Η αγορά της επεξεργασίας φυσικής γλώσσας γνωρίζει μεγάλη ανάπτυξη και πολλά νέα εργαλεία εμφανίστηκαν πρόσφατα στο οικοσύστημα. Ακολουθούν οι βιβλιοθήκες, τα πλαίσια, οι γλώσσες, οι υπηρεσίες και οι φορείς που πρέπει να γνωρίζετε προκειμένου να ενσωματώσετε την κατανόηση κειμένου και τη δημιουργία κειμένου στο έργο σας το 2022.

Η Python είναι η de facto τυπική γλώσσα στην επιστήμη των δεδομένων εδώ και πολλά χρόνια. Εάν εργάζεστε σε ένα έργο επεξεργασίας φυσικής γλώσσας, είναι πολύ πιθανό να υπάρχει κάπου κώδικας Python.
Η Python είναι μια πολύ εκφραστική και απλή γλώσσα υψηλού επιπέδου που την καθιστά ιδανική για εφαρμογές μηχανικής μάθησης. Αλλά ακόμη πιο σημαντικό είναι ότι η Python επωφελείται από ένα ολοκληρωμένο οικοσύστημα βιβλιοθηκών και πλαισίων που κάνουν τη ζωή των επιστημόνων δεδομένων ευκολότερη.
Είτε εργάζεστε σε ένα ερευνητικό έργο είτε σε ένα έργο παραγωγής, είτε εκπαιδεύετε νέα μοντέλα είτε τα χρησιμοποιείτε για εξαγωγή συμπερασμάτων, πιθανότατα θα χρειαστεί να χρησιμοποιήσετε την Python. Αν πρέπει οπωσδήποτε να χρησιμοποιήσετε μια άλλη γλώσσα, μπορεί να βρείτε ωραίες βιβλιοθήκες και σε άλλες γλώσσες, αλλά μόνο για βασικές περιπτώσεις χρήσης (για πιο προηγμένες περιπτώσεις χρήσης, η λύση θα είναι να υιοθετήσετε μια στρατηγική μικρουπηρεσιών και να χρησιμοποιήσετε ένα REST API).

Το Hugging Face Hub είναι ένα κεντρικό αποθετήριο που αποθηκεύει τα περισσότερα μοντέλα επεξεργασίας φυσικής γλώσσας ανοικτού κώδικα.
Στο Hugging Face, είναι εύκολο να ανακαλύψετε νέα μοντέλα τεχνητής νοημοσύνης, αλλά και να ανεβάσετε και να μοιραστείτε τα δικά σας. Είναι επίσης ένα εξαιρετικό μέρος για να περιηγηθείτε και να βρείτε σύνολα δεδομένων για το επόμενο έργο σας. Τα μοντέλα και τα σύνολα δεδομένων μπορούν εύκολα να μεταφορτωθούν και να χρησιμοποιηθούν μέσω του πλαισίου Transformers (βλ. παρακάτω).
Το όραμα της Hugging Face είναι να "εκδημοκρατίσει" την επεξεργασία φυσικής γλώσσας και να γίνει το "Github της μηχανικής μάθησης".

Η OpenAI είναι η εταιρεία που βρίσκεται πίσω από το GPT-3, το πιο προηγμένο γλωσσικό μοντέλο τεχνητής νοημοσύνης που έχει δημιουργηθεί ποτέ.
Οι 2 πρώτες εκδόσεις αυτού του μοντέλου (GPT και GPT-2) ήταν ανοιχτού κώδικα, αλλά η OpenAI αποφάσισε ότι το GPT-3 δεν θα είναι πλέον ανοιχτού κώδικα. Αν θέλετε να χρησιμοποιήσετε το GPT-3, πρέπει να εγγραφείτε στο API του OpenAI. Μόνο η Microsoft έχει πρόσβαση στον πηγαίο κώδικα του GPT-3, καθώς αγόρασε αποκλειστική άδεια χρήσης.
Τα μοντέλα GPT είναι μοντέλα τεχνητής νοημοσύνης παραγωγής κειμένου που είναι πολύ καλά στο να γράφουν κείμενο όπως ένας άνθρωπος. Στην πραγματικότητα είναι αρκετά δύσκολο για έναν άνθρωπο να εντοπίσει αν ένα κείμενο γράφτηκε από ένα πραγματικό άτομο ή από GPT-3...
Ο σχεδιασμός και η εκπαίδευση αυτής της νέας τεχνητής νοημοσύνης κόστισε εκατομμύρια δολάρια στην OpenAI. Αν θέλετε να τη χρησιμοποιήσετε, θα πρέπει να περάσετε από μια απαιτητική διαδικασία επικύρωσης, καθώς η OpenAI δεν επιτρέπει σε όλους τους τύπους εφαρμογών να χρησιμοποιούν το μοντέλο της.
Τώρα κυκλοφορούν νέα μοντέλα ανοιχτού κώδικα για να προλάβουν το OpenAI, όπως το GPT-J και το GPT-NeoX.

Αυτό είμαστε εμείς!
Το NLP Cloud είναι ένα API που σας επιτρέπει να χρησιμοποιείτε εύκολα τα πιο προηγμένα μοντέλα τεχνητής νοημοσύνης επεξεργασίας φυσικής γλώσσας στην παραγωγή.
Για παράδειγμα, μπορείτε να δημιουργήσετε κείμενο με το GPT-J και το GPT-NeoX, να συνοψίσετε περιεχόμενο με το Bart Large CNN του Facebook, να ταξινομήσετε ένα κομμάτι κειμένου με το Roberta, να εξάγετε οντότητες με το spaCy, να μεταφράσετε περιεχόμενο με το Opus MT... και πολλά άλλα.
Στο NLP Cloud είναι επίσης δυνατό να εκπαιδεύσετε και να συντονίσετε τη δική σας τεχνητή νοημοσύνη ή να αναπτύξετε τα δικά σας εσωτερικά μοντέλα. Για παράδειγμα, αν θέλετε να δημιουργήσετε το δικό σας ιατρικό chatbot με βάση το GPT-J, πρέπει απλώς να ανεβάσετε το σύνολο δεδομένων σας που αποτελείται από δικά σας παραδείγματα που προέρχονται από τον κλάδο σας, στη συνέχεια να ξεκινήσετε τη διαδικασία εκπαίδευσης και να χρησιμοποιήσετε το τελικό σας μοντέλο στην παραγωγή μέσω του API.

Το Deepspeed είναι ένα πλαίσιο ανοικτού κώδικα της Microsoft που επικεντρώνεται στον παραλληλισμό μοντέλων.
Τι σημαίνει ακριβώς;
Τα μοντέλα τεχνητής νοημοσύνης γίνονται όλο και μεγαλύτερα (βλέπε GPT-3, GPT-J, GPT-NeoX 20B, T0, Fairseq 13B...). Αυτά τα τεράστια μοντέλα ανοίγουν την πόρτα σε τόνους νέων εφαρμογών, αλλά είναι επίσης πολύ δύσκολο να εκτελεστούν.
Η εκπαίδευση αυτών των μοντέλων και η αξιόπιστη εκτέλεσή τους στην παραγωγή για εξαγωγή συμπερασμάτων μπορεί να γίνει είτε μέσω της κάθετης κλιμάκωσης (χρησιμοποιώντας τεράστιες GPU όπως η NVIDIA A100 ή η Google TPU) είτε μέσω της οριζόντιας κλιμάκωσης (χρησιμοποιώντας πολλές μικρές GPU παράλληλα).
Η 2η προσέγγιση είναι όλο και πιο δημοφιλής, καθώς είναι φθηνότερη και κλιμακώνεται καλύτερα. Παρ' όλα αυτά, η εκτέλεση κατανεμημένης εκπαίδευσης και συμπερασμού δεν είναι καθόλου εύκολη, και γι' αυτό το λόγο το Deepspeed βοηθάει πραγματικά.
Το Deepspeed απευθυνόταν αρχικά σε εργασίες εκπαίδευσης, αλλά τώρα χρησιμοποιείται όλο και περισσότερο για εξαγωγή συμπερασμάτων, καθώς είναι εύκολο στη χρήση και ενσωματώνεται με τους Hugging Face Transformers (βλ. παρακάτω).

Το Big Science είναι μια συλλογικότητα ερευνητών και εταιρειών που εργάζονται σε μεγάλα γλωσσικά μοντέλα.
Το πρώτο τους εργαστήριο παρήγαγε ένα μοντέλο τεχνητής νοημοσύνης με την ονομασία T0 που έχει πολύ καλές επιδόσεις στην κατανόηση των ανθρώπινων οδηγιών.
Τώρα εργάζονται σε πολύ μεγαλύτερα μοντέλα: στόχος τους είναι να δημιουργήσουν πολύγλωσσα μοντέλα τεχνητής νοημοσύνης ανοικτού κώδικα που θα είναι μεγαλύτερα και πιο προηγμένα από το GPT-3.

Το SpaCy είναι ένα πλαίσιο επεξεργασίας φυσικής γλώσσας Python που είναι απόλυτα κατάλληλο για παραγωγή: είναι γρήγορο και εύκολο στο παιχνίδι.
Πρόκειται για ένα πλαίσιο που συντηρείται από μια γερμανική εταιρεία τεχνητής νοημοσύνης που ονομάζεται Explosion AI.
Το SpaCy είναι πολύ καλό στην Αναγνώριση ονομαστικών οντοτήτων (επίσης γνωστή ως εξαγωγή οντοτήτων) και σε περίπου 50 διαφορετικές γλώσσες. Παρέχει προ-εκπαιδευμένα μοντέλα και μπορείτε εύκολα να δημιουργήσετε τα δικά σας μοντέλα μέσω σχολιασμένων παραδειγμάτων.
Το πλαίσιο Transformers κυκλοφόρησε από την Hugging Face πριν από μερικά χρόνια. Τα περισσότερα από τα προηγμένα μοντέλα επεξεργασίας φυσικής γλώσσας βασίζονται πλέον στο Transformers.
Πρόκειται για μια ενότητα Python που βασίζεται στις PyTorch, Tensorflow και Jax, η οποία μπορεί να χρησιμοποιηθεί είτε για εκπαίδευση είτε για εξαγωγή συμπερασμάτων.
Οι μετασχηματιστές Hugging Face Transformers καθιστούν πολύ εύκολη τη λήψη και τη μεταφόρτωση μοντέλων στο Hugging Face Hub.
Η βιβλιοθήκη tokenizers της Hugging Face είναι ένα σύνολο προηγμένων tokenizers επεξεργασίας φυσικής γλώσσας, που χρησιμοποιούνται από μοντέλα που βασίζονται σε μετασχηματιστές.
Η τοκενικοποίηση αφορά τη διάσπαση ενός κειμένου εισόδου σε μικρές λέξεις υπολέξεων που μπορούν στη συνέχεια να κωδικοποιηθούν και να υποστούν επεξεργασία από το μοντέλο ΤΝ.
Το Tokenization μπορεί να ακούγεται σαν λεπτομέρεια, αλλά δεν είναι. Είναι στην πραγματικότητα ένα κρίσιμο μέρος της επεξεργασίας φυσικής γλώσσας και η χρήση του σωστού tokenizer κάνει τεράστια διαφορά όσον αφορά την ποιότητα των αποτελεσμάτων και τις επιδόσεις.
NLTK σημαίνει Natural Language Toolkit. Πρόκειται για ένα πλαίσιο Python που υπάρχει εδώ και πολλά χρόνια και είναι εξαιρετικό για την έρευνα και την εκπαίδευση.
Το NLTK δεν είναι ένα πλαίσιο προσανατολισμένο στην παραγωγή, αλλά είναι ιδανικό για επιστήμονες δεδομένων που προσπαθούν να αναπτύξουν την επεξεργασία φυσικής γλώσσας.
Ο τομέας της επεξεργασίας φυσικής γλώσσας έχει εξελιχθεί σημαντικά το 2021. Σήμερα, όλο και περισσότερες εταιρείες θέλουν να χρησιμοποιήσουν γλωσσικά μοντέλα τεχνητής νοημοσύνης στην παραγωγή, και αυτό είναι ενδιαφέρον να δούμε ότι το 2022 το οικοσύστημα δεν έχει σχεδόν καμία σχέση με αυτό που ήταν πριν από 5 χρόνια.
Οι βιβλιοθήκες και τα πλαίσια γίνονται όλο και πιο προηγμένα και η δημιουργία μεγάλων γλωσσικών μοντέλων όπως το GPT-3 δημιουργεί νέες ενδιαφέρουσες προκλήσεις.
Ανυπομονώ να δω πώς θα είναι το 2023!
Julien Salinas