Οι εναλλακτικές λύσεις ανοικτού κώδικα του ChatGPT

Το ChatGPT είναι μια προηγμένη μηχανή chatbot, βασισμένη στα μοντέλα GPT-3.5 και GPT-4 της OpenAI. Πρόκειται για ένα ισχυρό μοντέλο, αλλά μπορεί να είναι ενδιαφέρον να εξεταστούν εναλλακτικές λύσεις ανοικτού κώδικα.

Η διερεύνηση εναλλακτικών λύσεων ανοικτού κώδικα για το ChatGPT επιτρέπει την προσαρμογή και την προσαρμογή σε συγκεκριμένες ανάγκες ή έργα, προσφέροντας ενδεχομένως μεγαλύτερο έλεγχο της τεχνολογίας, διατηρώντας παράλληλα το απόρρητο των δεδομένων. Τα μοντέλα ανοικτού κώδικα εξασφαλίζουν διαφάνεια και επιτρέπουν στους χρήστες να κατανοήσουν τους υποκείμενους μηχανισμούς του μοντέλου ΤΝ.

Υπάρχουν σήμερα πολύ καλές εναλλακτικές λύσεις ανοιχτού κώδικα για το ChatGPT, όπως το LLaMA 3, το Mixtral 8x7B, το Yi 34B και το DBRX. Ας ερευνήσουμε αυτές τις εναλλακτικές λύσεις.

Παραγωγικά μοντέλα τεχνητής νοημοσύνης: Πώς λειτουργούν

Το ChatGPT προέρχεται από τα GPT-3.5 και GPT-4, σύγχρονα μοντέλα γεννητικής τεχνητής νοημοσύνης που βασίζονται στην αρχιτεκτονική Transformer. Η αρχιτεκτονική transformer είναι ένας συγκεκριμένος τύπος νευρωνικού δικτύου που εφευρέθηκε από την Google το 2017. Δείτε περισσότερα εδώ.

Τα παραγωγικά μοντέλα τεχνητής νοημοσύνης είναι βασικά καλά στο να παράγουν κάποιο κείμενο με βάση μια συγκεκριμένη είσοδο. Ανάλογα με την είσοδό σας, μπορείτε να πείτε στο μοντέλο τεχνητής νοημοσύνης σας να κάνει διάφορα πράγματα για εσάς. Για παράδειγμα, μπορείτε να ζητήσετε από το μοντέλο σας να κατηγοριοποιήσει ένα κομμάτι κειμένου, να εξάγει συγκεκριμένες οντότητες από ένα κομμάτι κειμένου, να συνοψίσει μεγάλο περιεχόμενο, να παραφράσει κάποιο περιεχόμενο, να απαντήσει σε ερωτήσεις... και φυσικά να ενεργήσει ως chatbot.

Όλα τα μοντέλα που παρουσιάζονται παρακάτω είναι "θεμελιώδη" μοντέλα, που σημαίνει ότι πρόκειται για ακατέργαστα μοντέλα που συνήθως απαιτούν εκμάθηση με λίγες βολές ή λεπτομερή ρύθμιση για να ακολουθήσουν σωστά τις οδηγίες σας. Αυτό σημαίνει επίσης ότι αυτά τα μοντέλα δεν εφαρμόζουν κανενός είδους περιορισμούς από προεπιλογή.

Για να καταλάβετε πώς να αξιοποιήσετε αυτά τα παραγωγικά μοντέλα ΤΝ βαθύτερα, σας συνιστούμε να διαβάσετε τον οδηγό μας σχετικά με τη χρήση παραγωγικών μοντέλων με μάθηση λίγων βολών: διαβάστε το εδώ.

Το ChatGPT είναι ένα παραγωγικό μοντέλο που έχει λάβει ειδική εντολή να συμπεριφέρεται σαν chatbot. Στο υπόλοιπο αυτού του άρθρου θα εξερευνήσουμε εναλλακτικές λύσεις ανοικτού κώδικα για το ChatGPT. Για να τις χρησιμοποιήσετε σε λειτουργία συνομιλίας θα πρέπει είτε να χρησιμοποιήσετε μάθηση λίγων βολών για συνομιλιακή ΤΝ είτε λεπτομερή ρύθμιση. Μάθετε περισσότερα σχετικά με την εκμάθηση λίγων στιγμών για τη συνομιλιακή τεχνητή νοημοσύνη εδώ. Μάθετε περισσότερα για τη ρύθμιση εδώ.

LLaMA 3 από την Meta

Η Meta ξεκίνησε τη σειρά μεγάλων γλωσσικών μοντέλων (LLaMA 3), η οποία είναι μια σουίτα παραγωγικών μοντέλων κειμένου που έχουν προ-εκπαιδευτεί και ρυθμιστεί λεπτομερώς, με μέγεθος που κυμαίνεται από 7 έως 70 δισεκατομμύρια παραμέτρους. Οι εκδόσεις αυτών των μοντέλων που είναι ειδικά ρυθμισμένες για συνομιλίες, γνωστές ως Llama-2-Chat, έχουν σχεδιαστεί για εφαρμογές διαλόγου. Σε σύγκριση με τα ελεύθερα διαθέσιμα μοντέλα συνομιλίας, τα μοντέλα Llama-2-Chat επιδεικνύουν ανώτερες επιδόσεις στα περισσότερα αξιολογημένα σημεία αναφοράς και, με βάση τις εκτιμήσεις μας σχετικά με τη χρησιμότητα και την ασφάλεια, αντιστοιχούν στις επιδόσεις ορισμένων γνωστών ιδιόκτητων μοντέλων όπως το ChatGPT και το PaLM.

Το LLaMA 3 ενσωματώνει ένα αυτοπαλινδρομούμενο γλωσσικό μοντέλο που βασίζεται σε ένα βελτιωμένο πλαίσιο μετασχηματιστών. Οι βελτιωμένες εκδόσεις του υποβάλλονται σε επιτηρούμενη λεπτομερή ρύθμιση (SFT) και ενισχυτική μάθηση με ανθρώπινη ανατροφοδότηση (RLHF) για την καλύτερη ευθυγράμμιση με τις ανθρώπινες προσδοκίες όσον αφορά τη χρησιμότητα και την ασφάλεια.

Η ανάπτυξη του LLaMA 3 διήρκεσε από τον Ιανουάριο έως τον Ιούλιο του 2023, με τη φάση προ-εκπαίδευσης να αξιοποιεί πάνω από 2 τρισεκατομμύρια μάρκες από δεδομένα προσβάσιμα στο κοινό. Η φάση τελειοποίησης χρησιμοποίησε δημόσια διαθέσιμα σύνολα δεδομένων διδασκαλίας και περιλάμβανε περισσότερα από ένα εκατομμύριο νέα παραδείγματα σχολιασμένα από ανθρώπους. Κανένα από τα δεδομένα που χρησιμοποιήθηκαν είτε στη φάση προ-εκπαίδευσης είτε στη φάση τελειοποίησης δεν προέρχεται από τα δεδομένα χρηστών της Meta. Ενώ τα δεδομένα της προ-εκπαίδευσης συλλέχθηκαν μέχρι τον Σεπτέμβριο του 2022, ορισμένα από τα δεδομένα για τη λεπτομερή ρύθμιση είναι πιο πρόσφατα και εκτείνονται μέχρι τον Ιούλιο του 2023.

Το LLaMA 3 έχει σχεδιαστεί για εμπορικές και ερευνητικές εφαρμογές κυρίως στα αγγλικά. Τα λεπτομερώς ρυθμισμένα μοντέλα είναι προσαρμοσμένα για τη δημιουργία εφαρμογών συνομιλίας που μοιάζουν με ψηφιακούς βοηθούς, ενώ τα προ-εκπαιδευμένα μοντέλα είναι αρκετά ευέλικτα ώστε να προσαρμόζονται για ποικίλες χρήσεις παραγωγής φυσικής γλώσσας.

Μπορείτε εύκολα να χρησιμοποιήσετε το LLaMA 3 στο NLP Cloud: δοκιμάστε το εδώ.

Mixtral 8x7B από την Mistral AI

Το Mixtral ξεπερνά το LLaMA 3 70B στην πλειονότητα των αξιολογήσεων και παρέχει έξι φορές ταχύτερους ρυθμούς εξαγωγής συμπερασμάτων. Ξεχωρίζει ως το πιο ισχυρό μοντέλο με ανοικτή πρόσβαση και η κορυφαία επιλογή όταν εξετάζεται η σχέση κόστους-αποτελεσματικότητας. Συγκεκριμένα, ισοδυναμεί ή υπερβαίνει τις επιδόσεις του GPT3.5 στις περισσότερες αναγνωρισμένες δοκιμές.

Οι δυνατότητες του Mixtral περιλαμβάνουν την ομαλή διαχείριση έως και 32k tokens, την υποστήριξη πολλαπλών γλωσσών, όπως αγγλικά, γαλλικά, ιταλικά, γερμανικά και ισπανικά, τις εξαιρετικές δυνατότητες παραγωγής κώδικα και την ικανότητα να προσαρμόζεται ώστε να ακολουθεί οδηγίες, επιτυγχάνοντας βαθμολογία 8,3 στο MT-Bench.

Στον πυρήνα του, το Mixtral είναι ένα αραιό δίκτυο μίξης εμπειρογνωμόνων, το οποίο λειτουργεί ως μοντέλο αποκωδικοποιητή μόνο. Η δομή του επιτρέπει την επιλογή 8 διαφορετικών ομάδων παραμέτρων εντός του μπλοκ τροφοδότησης. Ένα ειδικό δίκτυο δρομολόγησης σε κάθε επίπεδο επιλέγει δύο από αυτές τις ομάδες, ή "ειδικούς", για να επεξεργαστούν κάθε μάρκα, συνδυάζοντας τα αποτελέσματά τους με προσθετικό τρόπο.

Αυτή η μέθοδος επιτρέπει την επέκταση των παραμέτρων ενός μοντέλου, ενώ παράλληλα διαχειρίζεται αποτελεσματικά το κόστος και την καθυστέρηση, χρησιμοποιώντας μόνο ένα μέρος των διαθέσιμων παραμέτρων για κάθε μάρκα. Συγκεκριμένα, το Mixtral διαθέτει συνολικά 46,7B παραμέτρους, αλλά εφαρμόζει μόνο 12,9B παραμέτρους ανά μάρκα, επιτυγχάνοντας έτσι ταχύτητα επεξεργασίας και κόστος ισοδύναμα με ένα μοντέλο 12,9B.

Το Mixtral αναπτύχθηκε χρησιμοποιώντας δεδομένα από το δημόσιο διαδίκτυο, ενώ η εκπαίδευση των εμπειρογνωμόνων και των δρομολογητών έγινε ταυτόχρονα.

Μπορείτε εύκολα να δοκιμάσετε το Mixtral 8x7B στο NLP Cloud: δοκιμάστε το εδώ.

Yi 34B από 01 AI

Τα μοντέλα της σειράς Yi αντιπροσωπεύουν την τελευταία εξέλιξη στα μεγάλα γλωσσικά μοντέλα ανοιχτού κώδικα που αναπτύχθηκαν από την αρχή από την 01.AI. Αυτά τα μοντέλα, που προορίζονται για δίγλωσση χρήση, έχουν εκπαιδευτεί σε ένα τεράστιο πολύγλωσσο σύνολο δεδομένων 3 terabyte, τοποθετώντας τα ως ένα από τα πιο ισχυρά μεγάλα γλωσσικά μοντέλα παγκοσμίως, με ισχυρές ικανότητες στην κατανόηση της γλώσσας, τη συλλογιστική και την κατανόηση της ανάγνωσης.

Το μοντέλο Yi-34B-Chat εξασφάλισε τη δεύτερη θέση, ακριβώς πίσω από το GPT-4 Turbo, και ξεπέρασε άλλα μοντέλα μεγάλων γλωσσών όπως το GPT-4, το Mixtral και το Claude στον πίνακα κατάταξης του AlpacaEval, με την κατάταξη αυτή να βασίζεται σε δεδομένα μέχρι τον Ιανουάριο του 2024. Όσον αφορά τα μοντέλα ανοικτού κώδικα, το Yi-34B κατέκτησε την πρώτη θέση τόσο για τις αγγλικές όσο και για τις κινεζικές γλωσσικές εργασίες σε διάφορα benchmarks, ξεπερνώντας μοντέλα όπως το Falcon-180B, το Llama-70B και το Claude, σύμφωνα με την κατάταξη στο Hugging Face Open LLM Leaderboard (προ-εκπαιδευμένο) και το C-Eval, με δεδομένα που εξετάστηκαν έως τον Νοέμβριο του 2023.

Δομημένη παρόμοια με την αρχιτεκτονική του μοντέλου Llama, η σειρά Yi επιτρέπει στους χρήστες να έχουν πρόσβαση και να χρησιμοποιούν το υπάρχον οικοσύστημα εργαλείων, βιβλιοθηκών και πόρων που έχουν σχεδιαστεί για το Llama. Αυτή η συμβατότητα απλοποιεί τη διαδικασία για τους προγραμματιστές, εξαλείφοντας την ανάγκη ανάπτυξης νέων εργαλείων και ενισχύοντας την παραγωγικότητα των διαδικασιών ανάπτυξης.

Μπορείτε εύκολα να δοκιμάσετε το Yi 34B στο NLP Cloud: δοκιμάστε το εδώ.

DBRX από Databricks

Το DBRX είναι ένα μεγάλο γλωσσικό μοντέλο βασισμένο σε μια αρχιτεκτονική μετασχηματιστή που επικεντρώνεται αποκλειστικά στην αποκωδικοποίηση και χρησιμοποιεί μια μέθοδο γνωστή ως πρόβλεψη επόμενης λέξης για την εκπαίδευσή του. Διαθέτει μια λεπτομερή δομή μίξης εμπειρογνωμόνων (MoE), διαθέτοντας συνολικά 132 δισεκατομμύρια παραμέτρους, εκ των οποίων 36 δισεκατομμύρια χρησιμοποιούνται για κάθε δεδομένη είσοδο. Το μοντέλο υποβλήθηκε σε προ-εκπαίδευση σε ένα τεράστιο σώμα 12 τρισεκατομμυρίων tokens, που περιλαμβάνει τόσο κείμενο όσο και κώδικα, μέχρι την αποκοπή του Δεκεμβρίου 2023. Αυτό το μείγμα δεδομένων εκπαίδευσης περιλαμβάνει σε περίοπτη θέση παραδείγματα φυσικής γλώσσας καθώς και παραδείγματα κωδικοποίησης, με ένα σημαντικό μέρος στα αγγλικά.

Το DBRX ξεχωρίζει για τη λεπτομερή προσέγγισή του στη χρήση των εμπειρογνωμόνων, καθώς λειτουργεί με 16 εμπειρογνώμονες και επιλέγει 4 για κάθε εργασία, σε αντίθεση με άλλα μοντέλα MoE, όπως το Mixtral-8x7B και το Grok-1, τα οποία έχουν 8 εμπειρογνώμονες αλλά επιλέγουν μόνο 2. Αυτή η προσέγγιση αποδίδει 65 φορές περισσότερους πιθανούς συνδυασμούς εμπειρογνωμόνων, οδηγώντας σε αξιοσημείωτη βελτίωση των επιδόσεων του μοντέλου. Το DBRX ενσωματώνει προηγμένα χαρακτηριστικά, όπως κωδικοποιήσεις περιστροφικών θέσεων (RoPE), γραμμικές μονάδες με πύλες (GLU) και ομαδοποιημένη προσοχή ερωτήσεων (GQA) για τις λειτουργίες του.

Για την προ-εκπαίδευσή του, το DBRX τροφοδοτήθηκε με 12 τρισεκατομμύρια tokens από ένα σχολαστικά καταρτισμένο σύνολο δεδομένων, με ένα εύρος πλαισίου που εκτείνεται έως και 32.000 tokens. Η ομάδα πίσω από αυτό, η Databricks, πιστεύει ότι αυτό το σύνολο δεδομένων προσφέρει διπλάσια ποιότητα ανά token σε σύγκριση με τα δεδομένα που χρησιμοποιούνται για την οικογένεια μοντέλων MPT.

Το σύνολο δεδομένων δημιουργήθηκε με τη χρήση της ολοκληρωμένης εργαλειοθήκης της Databricks, η οποία περιλαμβάνει το Apache Spark™ και τα Databricks notebooks για την επεξεργασία των δεδομένων, καθώς και το Unity Catalog για τη διαχείριση και τη διαχείρισή τους. Η Databricks εφάρμοσε μια προσέγγιση εκμάθησης προγραμμάτων σπουδών κατά τη φάση της προ-εκπαίδευσης, προσαρμόζοντας το μείγμα δεδομένων με τρόπο που ανέβασε σημαντικά την ποιότητα του μοντέλου.

Το DBRX είναι προγραμματισμένο να επεξεργάζεται μόνο εισόδους που βασίζονται σε κείμενο και είναι σε θέση να χειρίζεται εισόδους μήκους έως 32.768 tokens.

Συμπέρασμα

Το ChatGPT είναι μια καταπληκτική μηχανή chatbot που είναι σε θέση να απαντά σε πολύ προηγμένες ερωτήσεις. Αυτή η μηχανή τεχνητής νοημοσύνης είναι στην πραγματικότητα ακόμη πιο σχετική από τους περισσότερους ανθρώπους σε πολλούς τομείς.

Ωστόσο, το ChatGPT μπορεί να εγείρει ζητήματα απορρήτου δεδομένων και είναι περιορισμένο για πολλές περιπτώσεις χρήσης. Είναι ενδιαφέρον να συγκρίνουμε το ChatGPT με τις πιο προηγμένες εναλλακτικές λύσεις ανοικτού κώδικα: LLaMA 3, Mixtral 8x7B,Yi 34B και DBRX. Και δεν υπάρχει αμφιβολία ότι σύντομα θα κυκλοφορήσουν ακόμη πιο προηγμένα μοντέλα τεχνητής νοημοσύνης ανοιχτού κώδικα.

Αν θέλετε να χρησιμοποιήσετε τα LLaMA 3, Yi 34B και Mixtral 8x7B στην παραγωγή, μη διστάσετε να δοκιμάσετε το NLP Cloud API. (δοκιμάστε το εδώ)!

Juliette
Διευθυντής μάρκετινγκ στο NLP Cloud