Ιστορία της γλώσσας AI

Transcript

Γεια σας, είμαι ο Julien Salinas από το NLP Cloud, μια προηγμένη πλατφόρμα τεχνητής νοημοσύνης για το επόμενο έργο τεχνητής νοημοσύνης σας.

Είναι ενδιαφέρον για τους επαγγελματίες της ΤΝ να κατανοήσουν την ιστορία της ΤΝ και να δουν ποια σημαντικά ορόσημα οδήγησαν στα πρωτοποριακά παραγωγικά μοντέλα που όλοι χρησιμοποιούμε σήμερα.

Σε αυτό το μάθημα, θα εξετάσω γρήγορα την ιστορία των γλωσσικών μοντέλων από τον 20ό αιώνα μέχρι σήμερα.

Η τεχνητή νοημοσύνη δεν είναι κάτι καινούργιο.

Μηχανικοί και γλωσσολόγοι άρχισαν να ασχολούνται με την τεχνητή νοημοσύνη για την κατανόηση κειμένων γύρω στο 1950.

Αυτή ήταν η εποχή της συμβολικής επεξεργασίας φυσικής γλώσσας μέχρι τη δεκαετία του '90.

Εκείνη την εποχή, το κύριο κίνητρο ήταν η μηχανική μετάφραση και η τεχνητή νοημοσύνη βασιζόταν σε ένα σύνολο κανόνων.

Η βελτίωση ενός αλγορίθμου τεχνητής νοημοσύνης αφορούσε κυρίως την προσθήκη περισσότερων κανόνων στο πρόγραμμα.

Οι ερευνητές ήταν αρκετά ενθουσιασμένοι με τα πρώτα τους αποτελέσματα και πίστευαν ότι η μηχανική μετάφραση θα ήταν ένα πρόβλημα που θα λυνόταν σε μερικά χρόνια.

Λοιπόν, δεν έχει λυθεί ακόμη και σήμερα.

Αυτά τα συστήματα που βασίζονται σε κανόνες οδήγησαν επίσης στο πρώτο, πολύ απλό, chatbot που ονομάζεται Elisa.

Από το 1990, μπήκαμε στην εποχή του στατιστικού NLP.

Η χρήση τεχνητής νοημοσύνης με στατιστικά στοιχεία αντί για προκαθορισμένους κανόνες σήμαινε ότι μπορούσαμε να αρχίσουμε να δημιουργούμε πολύ πιο ισχυρά συστήματα χωρίς να χρειάζεται να σκεφτούμε όλα τα σενάρια εκ των προτέρων.

Αυτό κατέστη δυνατό χάρη στην πρόοδο της μαθηματικής έρευνας αλλά και στην αυξημένη υπολογιστική ισχύ που παρείχαν οι νέες CPU.

Τα συστήματα θα μαθαίνουν με βάση την ανθρώπινη ανατροφοδότηση, γνωστή και ως μάθηση με επίβλεψη, και αργότερα ακόμη και χωρίς καμία ανθρώπινη παρέμβαση, γνωστή και ως μάθηση χωρίς επίβλεψη.

Έτσι, ήταν δυνατή η εκπαίδευση ενδιαφερουσών μοντέλων με βάση τον τεράστιο όγκο αδόμητων δεδομένων που προέρχονται από το διαδίκτυο.

Νέες επιχειρήσεις χρησιμοποιούσαν τότε τη μηχανική μάθηση στην παραγωγή και η πιο δημοφιλής περίπτωση χρήσης ήταν η αναγνώριση ονομαστικών οντοτήτων, γνωστή και ως εξαγωγή οντοτήτων.

Τα νευρωνικά δίκτυα δεν είναι καινούργια.

Στα μέσα του 20ού αιώνα, ορισμένοι ερευνητές είχαν ήδη τη διαίσθηση να δημιουργήσουν ένα σύστημα τεχνητής νοημοσύνης από νευρώνες που θα μιμούνταν τον ανθρώπινο εγκέφαλο.

Αλλά τα νευρωνικά δίκτυα άρχισαν να δίνουν ενδιαφέροντα αποτελέσματα μόνο γύρω στο 2010.

Χάρη στις GPU, ήταν τότε δυνατή η εκπαίδευση πολύ μεγαλύτερων νευρωνικών δικτύων.

Αυτή ήταν η αρχή της επονομαζόμενης εποχής της βαθιάς μάθησης.

Τα πρώτα εντυπωσιακά αποτελέσματα προήλθαν από την όραση υπολογιστών χάρη στα νευρωνικά δίκτυα συνελίξεων, τα οποία επέτρεψαν την προηγμένη ταξινόμηση εικόνων.

Η γλώσσα επωφελήθηκε πραγματικά από τη βαθιά μάθηση μόνο λίγο αργότερα.

Μέχρι το 2010 και την άνοδο της βαθιάς μάθησης, η τεχνητή νοημοσύνη της γλώσσας ήταν ουσιαστικά ένας ερευνητικός τομέας και λίγες επιχειρήσεις χρησιμοποιούσαν την επεξεργασία φυσικής γλώσσας στα προϊόντα τους.

Ας δούμε τώρα ποια πρόσφατη ανακάλυψη οδήγησε στη γενεσιουργό τεχνολογία τεχνητής νοημοσύνης που όλοι γνωρίζουμε σήμερα.

Η πραγματική ανακάλυψη για τα γλωσσικά μοντέλα έγινε το 2017, όταν ορισμένοι ερευνητές της Google δημοσίευσαν ένα έγγραφο με τίτλο Attention is All You Need.

Η παρούσα εργασία περιγράφει ένα νέο είδος αρχιτεκτονικής νευρωνικού δικτύου που ονομάζεται μετασχηματιστής και βασίζεται σε μια νέα αρχή που ονομάζεται αυτοπροσοχή.

Η αρχιτεκτονική του μετασχηματιστή βρίσκεται στην καρδιά όλων των εντυπωσιακών γλωσσικών μοντέλων που έχουμε δει από το 2017.

Πολύ γρήγορα μετά από αυτό, το πρώτο μοντέλο εκπαιδεύτηκε από την Google ακολουθώντας την αρχιτεκτονική του μετασχηματιστή.

Το μοντέλο αυτό ονομάστηκε BERT.

Το BERT ήταν το πρώτο γλωσσικό μοντέλο παραγωγής που μπορούσε να χρησιμοποιηθεί για όλα τα είδη των περιπτώσεων χρήσης, σύνοψη, εξαγωγή οντοτήτων, απάντηση ερωτήσεων, μετάφραση και άλλα.

Η BERT ήταν πραγματικά ενδιαφέρουσα, διότι για πρώτη φορά δημιουργήθηκε ένα μοντέλο που ήταν καλό στη μάθηση μεταφοράς.

Βασικά, το μοντέλο προ-εκπαιδεύτηκε σε ένα μεγάλο σύνολο μη σχολιασμένων δεδομένων και στη συνέχεια μπόρεσε να μάθει γρήγορα πολλά είδη περιπτώσεων χρήσης χάρη σε γρήγορες τελειοποιήσεις που απαιτούσαν πολύ λίγα πρόσθετα δεδομένα.

Το OpenAI ήταν αρχικά μια μη κερδοσκοπική νεοφυής επιχείρηση τεχνητής νοημοσύνης που κυκλοφόρησε ένα νέο είδος αρχιτεκτονικής, το GPT, βασισμένο στον μετασχηματιστή.

Όταν κυκλοφόρησε το GPT-2 το 2019, όλοι εντυπωσιάστηκαν από τις δυνατότητες αυτού του μοντέλου γενιάς κειμένου.

Το GPT-2 ήταν το πρώτο παραγωγικής ποιότητας παραγωγικό μοντέλο.

Ήταν ιδιαίτερα καλό για τη συμπλήρωση κειμένου.

Για παράδειγμα, χρησιμοποιήθηκε από τη Microsoft για την αυτόματη συμπλήρωση στο Microsoft Office.

Εκπαιδεύτηκε σε 8 εκατομμύρια ιστοσελίδες και 7.000 βιβλία και περιείχε 1,5 δισεκατομμύριο παραμέτρους, που φυσικά δεν είναι πολλές σε σύγκριση με τα μοντέλα που έχουμε σήμερα.

Το 2020, το OpenAI έκανε μια δεύτερη επανάσταση.

Έγιναν μια κερδοσκοπική εταιρεία και κυκλοφόρησαν ένα ισχυρό παραγωγικό μοντέλο που ονομάζεται GPT-3.

Το GPT-3 εξακολουθούσε να βασίζεται στην αρχιτεκτονική GPT, αλλά εκπαιδεύτηκε σε περισσότερο περιεχόμενο.

Περιελάμβανε 175 δισεκατομμύρια παραμέτρους και απαιτούσε χιλιάδες GPUs για να εκπαιδευτούν για αρκετούς μήνες.

Ακόμη και αν δεν είναι επίσημο, οι ερευνητές πιστεύουν ότι η προ-εκπαίδευση GPT-3 κοστίζει περίπου 5 εκατομμύρια δολάρια.

Ήταν το πρώτο ευέλικτο παραγωγικό μοντέλο που μπορούσε να αντιμετωπίσει όλα τα είδη των περιπτώσεων χρήσης.

Προκειμένου να αξιοποιηθεί στο έπακρο αυτό το μοντέλο, δεν χρειαζόταν πλέον καν λεπτομερής ρύθμιση.

Τις περισσότερες φορές, η εκμάθηση με λίγες βολές ήταν αρκετή και μάλιστα δούλευε πολύ καλά και στη λειτουργία εκμάθησης με μηδέν βολές.

Στη συνέχεια, στο ίδιο πνεύμα, ήρθαν οι ChatGPT και GPT-4.

Αμέσως μετά, το OpenAI κυκλοφόρησε άλλα είδη ανατρεπτικών μοντέλων.

Χάρη στο DALI, ήταν δυνατή η δημιουργία όμορφων εικόνων από κείμενο.

Και χάρη στο Whisper ανέβασαν δραματικά τον πήχη στον κλάδο της μετατροπής ομιλίας σε κείμενο.

Μπορεί να έχετε παρατηρήσει πολλούς διαφορετικούς όρους σε αυτό το μάθημα.

Μηχανική μάθηση, βαθιά μάθηση, νευρωνικά δίκτυα, επεξεργασία φυσικής γλώσσας, ΤΝ, γεννητική ΤΝ.

Ορισμένοι είναι ειδικοί τεχνικοί όροι, ενώ άλλοι είναι απλώς μοντέρνες λέξεις της μόδας.

Προσωπικά πιστεύω ότι η επεξεργασία φυσικής γλώσσας είναι ο σωστός όρος για τη γλωσσική τεχνολογία τεχνητής νοημοσύνης που χρησιμοποιούμε σήμερα.

Αλλά αυτό δεν είναι πολύ σημαντικό.

Έχετε τώρα μια βασική κατανόηση του από πού προέρχονται τα μοντέλα τεχνητής νοημοσύνης μας.

Ιστορία της γλώσσας AI

Summary

Transcript