Haben Sie Probleme mit KI oder Full-Stack-Entwicklung? Unsere Experten sind für Sie da: maßgeschneiderte Beratung, technische Integration und mehr. Erreichen Sie uns unter [email protected].

Die ChatGPT-Open-Source-Alternativen

ChatGPT ist eine fortschrittliche Chatbot-Engine, die auf den Modellen GPT-3.5 und GPT-4 von OpenAI basiert. Es ist ein leistungsstarkes Modell, aber es kann interessant sein, Open-Source-Alternativen in Betracht zu ziehen.

Die Erforschung von Open-Source-Alternativen zu ChatGPT ermöglicht die Anpassung an spezifische Bedürfnisse oder Projekte und bietet möglicherweise eine größere Kontrolle über die Technologie bei gleichzeitiger Wahrung des Datenschutzes. Open-Source-Modelle gewährleisten Transparenz und ermöglichen es den Nutzern, die zugrunde liegenden Mechanismen des KI-Modells zu verstehen.

Es gibt heute sehr gute Open-Source ChatGPT-Alternativen wie LLaMA 3, Mixtral 8x7B, Yi 34B und DBRX. Lassen Sie uns diese Alternativen untersuchen.

Chatbot

Generative KI-Modelle: Wie sie funktionieren

ChatGPT ist von GPT-3.5 und GPT-4 abgeleitet, modernen generativen KI-Modellen, die auf der Transformer-Architektur basieren. Die Transformer-Architektur ist ein spezieller Typ von neuronalen Netzen, der 2017 von Google entwickelt wurde. Sehen Sie hier mehr.

Generative KI-Modelle sind grundsätzlich gut darin, einen Text auf der Grundlage einer bestimmten Eingabe zu generieren. Je nach Eingabe können Sie Ihr KI-Modell beauftragen, verschiedene Dinge für Sie zu tun. Sie können Ihr Modell zum Beispiel bitten, einen Text zu kategorisieren, bestimmte Entitäten aus einem Text zu extrahieren, umfangreiche Inhalte zusammenzufassen, Inhalte zu paraphrasieren, Fragen zu beantworten... und natürlich als Chatbot zu agieren.

Alle im Folgenden vorgestellten Modelle sind "Grundmodelle", d. h. es handelt sich um Rohmodelle, die in der Regel nur wenige Lernschritte oder eine Feinabstimmung benötigen, um Ihren Anweisungen richtig zu folgen. Das bedeutet auch, dass diese Modelle standardmäßig keine Einschränkungen implementieren.

Um zu verstehen, wie man diese generativen KI-Modelle tiefergehend nutzen kann, empfehlen wir Ihnen, unseren Leitfaden zur Verwendung generativer Modelle mit few-shot learning zu lesen: Lesen Sie es hier.

ChatGPT ist ein generatives Modell, das speziell angewiesen wurde, sich wie ein Chatbot zu verhalten. Im weiteren Verlauf dieses Artikels werden wir Open-Source-Alternativen zu ChatGPT untersuchen. Um sie im Konversationsmodus zu verwenden, müssen Sie entweder das "few-shot"-Lernen für konversationelle KI oder die Feinabstimmung verwenden. Erfahren Sie hier mehr über das Lernen mit wenigen Ausschnitten für konversationelle KI. Hier erfahren Sie mehr über die Feinabstimmung.

LLaMA 3 von Meta

Meta hat die LLaMA 3 Serie von großen Sprachmodellen (LLMs) auf den Markt gebracht. Dabei handelt es sich um eine Reihe von generativen Textmodellen, die vortrainiert und feinabgestimmt wurden und deren Größe zwischen 7 und 70 Milliarden Parametern liegt. Die speziell auf Konversation abgestimmten Versionen dieser Modelle, bekannt als Llama-2-Chat, sind für Dialoganwendungen konzipiert. Im Vergleich zu frei verfügbaren Chat-Modellen zeigen die Llama-2-Chat-Modelle bei den meisten bewerteten Benchmarks eine überlegene Leistung, und basierend auf unseren Bewertungen von Nützlichkeit und Sicherheit entsprechen sie der Leistung einiger bekannter proprietärer Modelle wie ChatGPT und PaLM.

LLaMA 3 beinhaltet ein autoregressives Sprachmodell, das auf einem verbesserten Transformer Framework aufbaut. Seine verbesserten Versionen werden einer überwachten Feinabstimmung (SFT) und einem Verstärkungslernen mit menschlichem Feedback (RLHF) unterzogen, um sich besser an die menschlichen Erwartungen hinsichtlich Nützlichkeit und Sicherheit anzupassen.

Die Entwicklung von LLaMA 3 erstreckte sich von Januar bis Juli 2023, wobei in der Pre-Trainingsphase über 2 Billionen Token aus öffentlich zugänglichen Daten verwendet wurden. In der Feinabstimmungsphase wurden öffentlich zugängliche Anweisungsdatensätze verwendet und mehr als eine Million neuer, von Menschen annotierter Beispiele einbezogen. Keine der Daten, die in der Pre-Training- oder Feinabstimmungsphase verwendet wurden, stammen aus Metas Nutzerdaten. Während die Pre-Training-Daten bis September 2022 gesammelt wurden, sind einige der Daten für die Feinabstimmung aktueller und reichen bis Juli 2023.

LLaMA 3 ist sowohl für kommerzielle als auch für Forschungsanwendungen, hauptsächlich in englischer Sprache, konzipiert. Die fein abgestimmten Modelle sind auf die Erstellung von Chat-Anwendungen zugeschnitten, die digitalen Assistenten ähneln, während die vortrainierten Modelle vielseitig genug sind, um für verschiedene Anwendungen zur Erzeugung natürlicher Sprache angepasst zu werden.

Sie können LLaMA 3 ganz einfach auf der NLP Cloud nutzen: Versuchen Sie es hier.

Mixtral 8x7B von Mistral AI

Mixtral übertrifft LLaMA 3 70B in der Mehrzahl der Bewertungen und liefert sechsmal schnellere Inferenzraten. Es ist das leistungsfähigste Modell mit offenem Zugang und die erste Wahl, wenn es um Kosteneffizienz geht. Insbesondere erreicht oder übertrifft es die Leistung von GPT3.5 in den meisten anerkannten Tests.

Zu den Fähigkeiten von Mixtral gehören die reibungslose Verwaltung von bis zu 32k Token, die Unterstützung mehrerer Sprachen wie Englisch, Französisch, Italienisch, Deutsch und Spanisch, die außergewöhnliche Fähigkeit zur Codegenerierung und die Fähigkeit, Anweisungen zu befolgen, was zu einer Note von 8,3 auf MT-Bench führte.

Im Kern ist Mixtral ein spärliches Mixed-of-Experts-Netz, das als reines Decoder-Modell funktioniert. Seine Struktur ermöglicht die Auswahl von 8 verschiedenen Parametergruppen innerhalb des Feedforward-Blocks. Ein spezielles Routernetzwerk in jeder Schicht wählt zwei dieser Gruppen oder "Experten" aus, um jedes Token zu verarbeiten, und kombiniert ihre Ergebnisse auf additive Weise.

Diese Methode ermöglicht die Erweiterung der Parameter eines Modells bei gleichzeitiger effizienter Verwaltung von Kosten und Latenz, indem nur ein Teil der verfügbaren Parameter für jedes Token verwendet wird. Konkret verfügt Mixtral über insgesamt 46,7B Parameter, wendet aber nur 12,9B Parameter pro Token an und erreicht damit die Verarbeitungsgeschwindigkeit und die Kosten, die einem 12,9B-Modell entsprechen.

Mixtral wurde unter Verwendung von Daten aus dem öffentlichen Internet entwickelt, wobei die Ausbildung von Experten und Routern gleichzeitig stattfand.

Sie können Mixtral 8x7B ganz einfach auf NLP Cloud ausprobieren: Versuchen Sie es hier.

Yi 34B von 01 AI

Die Modelle der Yi-Serie sind der neueste Fortschritt bei großen Open-Source-Sprachmodellen, die von Grund auf von 01.AI entwickelt wurden. Diese Modelle, die für den zweisprachigen Einsatz gedacht sind, wurden auf einem riesigen mehrsprachigen 3-Terabyte-Datensatz trainiert und zählen damit zu den leistungsstärksten großen Sprachmodellen weltweit mit starken Fähigkeiten in den Bereichen Sprachverständnis, logisches Denken und Leseverständnis.

Das Modell Yi-34B-Chat sicherte sich den zweiten Platz, gleich hinter GPT-4 Turbo, und übertraf andere große Sprachmodelle wie GPT-4, Mixtral und Claude auf dem AlpacaEval Leaderboard, wobei dieses Ranking auf Daten bis Januar 2024 basiert. Bei den Open-Source-Modellen beanspruchte das Yi-34B sowohl für englische als auch für chinesische Sprachaufgaben über mehrere Benchmarks hinweg den Spitzenplatz und ließ Modelle wie Falcon-180B, Llama-70B und Claude hinter sich. Dies geht aus den Ranglisten des Hugging Face Open LLM Leaderboard (pre-trained) und C-Eval hervor, wobei Daten bis November 2023 berücksichtigt wurden.

Die Yi-Serie ist ähnlich strukturiert wie die Llama-Modellarchitektur und ermöglicht es den Benutzern, auf das bestehende Ökosystem von Tools, Bibliotheken und Ressourcen zuzugreifen, die für Llama entwickelt wurden. Diese Kompatibilität vereinfacht den Prozess für Entwickler, macht die Entwicklung neuer Tools überflüssig und steigert die Produktivität der Entwicklungsprozesse.

Du kannst Yi 34B ganz einfach auf NLP Cloud ausprobieren: Versuchen Sie es hier.

DBRX von Databricks

DBRX ist ein umfangreiches Sprachmodell, das auf einer Transformator-Architektur basiert, die sich ausschließlich auf die Dekodierung konzentriert und für das Training eine Methode verwendet, die als Next-Token-Prediction bekannt ist. Es verfügt über eine detaillierte Mixture-of-Experts-Struktur (MoE) mit insgesamt 132 Milliarden Parametern, von denen 36 Milliarden für jede beliebige Eingabe verwendet werden. Das Modell wurde mit einem riesigen Korpus von 12 Billionen Token, die sowohl Text als auch Code umfassen, bis zu einem Stichtag im Dezember 2023 trainiert. Diese Mischung aus Trainingsdaten enthält sowohl natürlichsprachliche als auch kodierte Beispiele, wobei ein großer Teil auf Englisch ist.

DBRX zeichnet sich durch seinen feinkörnigen Ansatz bei der Verwendung von Experten aus. Es arbeitet mit 16 Experten und wählt 4 für jede Aufgabe aus, im Gegensatz zu anderen MoE-Modellen wie Mixtral-8x7B und Grok-1, die 8 Experten haben, aber nur 2 auswählen. Mit diesem Ansatz ergeben sich 65 Mal mehr mögliche Expertenkombinationen, was zu einer deutlichen Leistungssteigerung des Modells führt. DBRX enthält fortschrittliche Funktionen wie Rotationspositionskodierungen (RoPE), Gated Linear Units (GLU) und Grouped Query Attention (GQA) für seine Operationen.

Für das Pre-Training wurde DBRX mit 12 Billionen Token aus einem sorgfältig zusammengestellten Datensatz gefüttert, wobei sich der Kontextbereich auf bis zu 32.000 Token erstreckt. Das dahinter stehende Team, Databricks, ist der Ansicht, dass dieser Datensatz im Vergleich zu den für die MPT-Modellfamilie verwendeten Daten eine doppelt so hohe Qualität pro Token bietet.

Der Datensatz wurde mit dem umfassenden Toolkit von Databricks erstellt, das Apache Spark™ und Databricks Notebooks für die Verarbeitung der Daten sowie Unity Catalog für die Verwaltung und Steuerung der Daten umfasst. Databricks implementierte in der Pre-Training-Phase einen Curriculum-Learning-Ansatz und passte den Datenmix so an, dass die Qualität des Modells deutlich verbessert wurde.

DBRX ist so programmiert, dass nur textbasierte Eingaben verarbeitet werden und kann Eingaben mit einer Länge von bis zu 32.768 Token verarbeiten.

Schlussfolgerung

ChatGPT ist eine erstaunliche Chatbot-Maschine, die in der Lage ist, sehr fortgeschrittene Fragen zu beantworten. Diese KI-Maschine ist in vielen Bereichen sogar kompetenter als die meisten Menschen.

ChatGPT kann jedoch Datenschutzprobleme aufwerfen und ist für viele Anwendungsfälle eingeschränkt. Es ist interessant, ChatGPT mit den fortschrittlichsten Open-Source-Alternativen zu vergleichen: LLaMA 3, Mixtral 8x7B, Yi 34B und DBRX. Und es besteht kein Zweifel, dass bald noch fortschrittlichere Open-Source-KI-Modelle auf den Markt kommen werden.

Wenn Sie LLaMA 3, Yi 34B und Mixtral 8x7B in der Produktion einsetzen möchten, zögern Sie nicht, die NLP Cloud API auszuprobieren (Versuchen Sie es hier)!

Juliette
Marketingleiter bei NLP Cloud