Geschichte der Sprach-KI

Transcript

Hallo, hier ist Julien Salinas von NLP Cloud, einer fortschrittlichen KI-Plattform für Ihr nächstes KI-Projekt.

Für KI-Praktiker ist es interessant, die Geschichte der KI zu verstehen und zu sehen, welche wichtigen Meilensteine zu den hochmodernen generativen Modellen führten, die wir heute alle verwenden.

In diesem Kurs werde ich einen kurzen Überblick über die Geschichte der Sprachmodelle vom 20. Jahrhundert bis heute geben.

KI ist keine neue Sache.

Ingenieure und Linguisten begannen um 1950 mit der Arbeit an künstlicher Intelligenz für das Textverständnis.

Dies war die Ära der symbolischen natürlichen Sprachverarbeitung bis in die 90er Jahre.

Damals war die Hauptmotivation die maschinelle Übersetzung, und die KI basierte auf einem Satz von Regeln.

Bei der Verbesserung eines KI-Algorithmus ging es hauptsächlich darum, dem Programm weitere Regeln hinzuzufügen.

Die Forscher waren von ihren ersten Ergebnissen begeistert und glaubten, dass die maschinelle Übersetzung in ein paar Jahren ein gelöstes Problem sein würde.

Nun, das Problem ist auch heute noch nicht vollständig gelöst.

Diese regelbasierten Systeme führten auch zur Entwicklung des ersten, sehr einfachen Chatbots namens Elisa.

Ab 1990 begann die Ära des statistischen NLP.

Der Einsatz von KI mit Statistiken anstelle von vordefinierten Regeln bedeutete, dass wir viel leistungsfähigere Systeme entwickeln konnten, ohne alle Szenarien im Voraus durchdenken zu müssen.

Ermöglicht wurde dies durch die Fortschritte in der mathematischen Forschung, aber auch durch die höhere Rechenleistung der neuen CPUs.

Systeme würden auf der Grundlage menschlicher Rückmeldungen lernen, auch bekannt als überwachtes Lernen, und später sogar ganz ohne menschliches Eingreifen, auch bekannt als unbeaufsichtigtes Lernen.

So war es möglich, interessante Modelle auf der Grundlage der riesigen Menge unstrukturierter Daten aus dem Internet zu trainieren.

Zu dieser Zeit setzten neue Unternehmen maschinelles Lernen in der Produktion ein, und der beliebteste Anwendungsfall war die Erkennung von benannten Entitäten, auch bekannt als Entitätsextraktion.

Neuronale Netze sind nicht neu.

Mitte des 20. Jahrhunderts hatten einige Forscher bereits die Intuition, ein KI-System aus Neuronen zu schaffen, das das menschliche Gehirn imitieren sollte.

Neuronale Netze liefern jedoch erst seit 2010 interessante Ergebnisse.

Dank der GPUs war es dann möglich, viel größere neuronale Netze zu trainieren.

Dies war der Beginn der sogenannten Deep-Learning-Ära.

Die ersten beeindruckenden Ergebnisse kamen aus dem Bereich der Computer Vision dank der Faltungsneuronalen Netze, die eine fortgeschrittene Bildklassifizierung ermöglichten.

Die Sprache profitierte erst etwas später vom Deep Learning.

Bis 2010 und dem Aufkommen von Deep Learning war Sprach-KI im Wesentlichen ein Forschungsgebiet, und nur wenige Unternehmen nutzten die Verarbeitung natürlicher Sprache in ihren Produkten.

Sehen wir uns nun an, welcher jüngste Durchbruch zu der generativen KI-Technologie geführt hat, die wir heute alle kennen.

Der eigentliche Durchbruch für Sprachmodelle erfolgte 2017, als einige Google-Forscher ein Papier mit dem Titel Attention is All You Need veröffentlichten.

In diesem Beitrag wird eine neuartige Architektur eines neuronalen Netzes beschrieben, die als Transformator bezeichnet wird und auf dem neuen Prinzip der Selbstbeobachtung beruht.

Die Transformer-Architektur ist das Herzstück aller beeindruckenden Sprachmodelle, die wir seit 2017 gesehen haben.

Schon bald darauf wurde das erste Modell von Google nach der Transformer-Architektur trainiert.

Dieses Modell wurde BERT genannt.

BERT war das erste produktionsreife Sprachmodell, das für alle möglichen Anwendungsfälle eingesetzt werden konnte: Zusammenfassung, Entitätsextraktion, Beantwortung von Fragen, Übersetzung und vieles mehr.

BERT war wirklich interessant, weil zum ersten Mal ein Modell geschaffen wurde, das gut im Transferlernen war.

Das Modell wurde mit einem großen Satz unkommentierter Daten trainiert und war dann in der Lage, dank schneller Feinabstimmungen, die nur sehr wenige zusätzliche Daten erforderten, viele Arten von Anwendungsfällen schnell zu erlernen.

OpenAI war ursprünglich ein gemeinnütziges KI-Startup, das eine neue Art von Architektur, GPT, auf der Grundlage des Transformators veröffentlichte.

Als das GPT-2 im Jahr 2019 auf den Markt kam, waren alle von den Fähigkeiten dieses Modells der Textgeneration beeindruckt.

GPT-2 war das erste produktionsreife generative Modell.

Es war besonders gut für die Textvervollständigung geeignet.

So wurde sie beispielsweise von Microsoft für die automatische Vervollständigung in Microsoft Office verwendet.

Es wurde mit 8 Millionen Webseiten und 7.000 Büchern trainiert und enthielt 1,5 Milliarden Parameter, was im Vergleich zu den heutigen Modellen natürlich nicht viel ist.

Im Jahr 2020 wird OpenAI eine zweite Revolution auslösen.

Sie wurden zu einem gewinnorientierten Unternehmen und brachten ein leistungsstarkes generatives Modell namens GPT-3 heraus.

GPT-3 basierte immer noch auf der GPT-Architektur, wurde aber für mehr Inhalte trainiert.

Es enthielt 175 Milliarden Parameter und erforderte Tausende von GPUs, um mehrere Monate lang zu trainieren.

Auch wenn es nicht offiziell ist, gehen die Forscher davon aus, dass das Pre-Training GPT-3 rund 5 Millionen Dollar kostet.

Es war das erste vielseitige generative Modell, das für alle möglichen Anwendungsfälle geeignet war.

Um das Beste aus diesem Modell herauszuholen, war nicht einmal mehr eine Feinabstimmung erforderlich.

Meistens genügte es, mit wenigen Schüssen zu lernen, und es funktionierte sogar sehr gut im Null-Schuss-Lernmodus.

Dann kamen im gleichen Sinne ChatGPT und GPT-4.

Bald darauf veröffentlichte OpenAI andere Arten von disruptiven Modellen.

Dank DALI war es möglich, aus Text schöne Bilder zu erzeugen.

Und dank Whisper haben sie die Messlatte in der Sprach-zu-Text-Branche drastisch angehoben.

Vielleicht haben Sie in diesem Kurs viele verschiedene Begriffe bemerkt.

Maschinelles Lernen, Deep Learning, neuronale Netze, Verarbeitung natürlicher Sprache, KI, generative KI.

Bei einigen handelt es sich um spezifische Fachbegriffe, bei anderen einfach nur um trendige Schlagworte.

Ich persönlich bin der Meinung, dass die Verarbeitung natürlicher Sprache der richtige Begriff für die KI-Sprachtechnologie ist, die wir heute einsetzen.

Aber das ist nicht sehr wichtig.

Sie haben nun ein grundlegendes Verständnis dafür, woher unsere KI-Modelle kommen.

Geschichte der Sprach-KI

Summary

Transcript