In deze NLP Cloud cursus belichten we de belangrijke mijlpalen in de geschiedenis van taal-AI (ook bekend als Natural Language Processing).
Dit is de structuur van de cursus:
Hallo, dit is Julien Salinas van NLP Cloud, een geavanceerd AI-platform voor uw volgende AI-project.
Het is interessant voor AI-beoefenaars om de geschiedenis van AI te begrijpen en te zien welke belangrijke mijlpalen hebben geleid tot de geavanceerde generatieve modellen die we vandaag allemaal gebruiken.
In deze cursus ga ik snel door de geschiedenis van taalmodellen van de 20e eeuw tot nu.
AI is niet nieuw.
Ingenieurs en taalkundigen begonnen rond 1950 te werken aan kunstmatige intelligentie voor tekstbegrip.
Dit was het tijdperk van symbolische natuurlijke taalverwerking tot de jaren 90.
In die tijd was machinevertaling de belangrijkste motivatie en was AI gebaseerd op een set regels.
Het verbeteren van een AI-algoritme bestond voornamelijk uit het toevoegen van meer regels aan het programma.
Onderzoekers waren behoorlijk enthousiast over hun eerste resultaten en ze dachten dat machinevertaling binnen een paar jaar een opgelost probleem zou zijn.
Het is nog steeds niet helemaal opgelost.
Deze op regels gebaseerde systemen hebben ook geleid tot de eerste, zeer eenvoudige chatbot genaamd Elisa.
Vanaf 1990 is het tijdperk van statistische NLP aangebroken.
Het gebruik van AI met statistieken in plaats van vooraf gedefinieerde regels betekende dat we veel krachtigere systemen konden gaan bouwen zonder vooraf over alle scenario's na te hoeven denken.
Dit werd mogelijk gemaakt door de vooruitgang in het wiskundig onderzoek, maar ook door de grotere rekenkracht die de nieuwe CPU's boden.
Systemen zouden leren op basis van menselijke feedback, ook bekend als supervised learning, en later zelfs zonder enige menselijke tussenkomst, ook bekend als unsupervised learning.
Het was dus mogelijk om interessante modellen te trainen op basis van de enorme hoeveelheid ongestructureerde gegevens van het internet.
Nieuwe bedrijven gebruikten machine learning in die tijd in de productie en de populairste use case was named entity recognition, ook wel bekend als entity extraction.
Neurale netwerken zijn niet nieuw.
In het midden van de 20e eeuw hadden sommige onderzoekers al de intuïtie om een AI-systeem van neuronen te maken dat het menselijk brein zou imiteren.
Maar neurale netwerken begonnen pas rond 2010 interessante resultaten op te leveren.
Dankzij GPU's was het toen mogelijk om veel grotere neurale netwerken te trainen.
Dit was het begin van het zogenaamde deep learning-tijdperk.
De eerste indrukwekkende resultaten kwamen van computer vision dankzij convolutionele neurale netwerken, die geavanceerde beeldclassificatie mogelijk maakten.
Taal profiteerde pas iets later echt van deep learning.
Tot 2010 en de opkomst van deep learning was AI van taal vooral een onderzoeksgebied en maakten maar weinig bedrijven gebruik van natuurlijke taalverwerking in hun producten.
Laten we eens kijken welke recente doorbraak heeft geleid tot de generatieve AI-technologie die we nu allemaal kennen.
De echte doorbraak voor taalmodellen kwam in 2017, toen enkele Google-onderzoekers een artikel uitbrachten met de titel Attention is All You Need.
Dit artikel beschrijft een nieuw soort neurale netwerkarchitectuur genaamd de transformator, gebaseerd op een nieuw principe genaamd zelfattentie.
De transformatorarchitectuur vormt het hart van alle indrukwekkende taalmodellen die we sinds 2017 hebben gezien.
Zeer snel daarna werd het eerste model getraind door Google volgens de transformatorarchitectuur.
Dit model werd BERT genoemd.
BERT was het eerste taalmodel van productiekwaliteit dat gebruikt kon worden voor allerlei toepassingen, zoals samenvatten, entiteitextractie, vragen beantwoorden, vertalen en nog veel meer.
BERT was echt interessant omdat er voor het eerst een model werd gemaakt dat goed was in transfer learning.
In principe werd het model voorgetraind op een grote set niet-geannoteerde gegevens en was het vervolgens in staat om snel vele soorten gebruikssituaties te leren dankzij snelle fijnafstellingen waarvoor zeer weinig extra gegevens nodig waren.
OpenAI was aanvankelijk een non-profit AI startup die een nieuw soort architectuur, GPT, uitbracht, gebaseerd op de transformator.
Toen ze GPT-2 in 2019 uitbrachten, was iedereen onder de indruk van de mogelijkheden van dit tekstgeneratiemodel.
GPT-2 was het eerste generatieve model van productiekwaliteit.
Het was vooral goed voor tekstaanvulling.
Het werd bijvoorbeeld door Microsoft gebruikt voor automatisch aanvullen in Microsoft Office.
Het was getraind op 8 miljoen webpagina's en 7000 boeken en bevatte 1,5 miljard parameters, wat natuurlijk niet veel is vergeleken met de modellen die we vandaag de dag hebben.
In 2020 zorgde OpenAI voor een tweede revolutie.
Ze werden een bedrijf met winstoogmerk en brachten een krachtig generatief model uit met de naam GPT-3.
GPT-3 was nog steeds gebaseerd op de GPT-architectuur, maar trainde op meer inhoud.
Het bevatte 175 miljard parameters en er waren duizenden GPU's nodig om gedurende enkele maanden te trainen.
Ook al is het niet officieel, onderzoekers denken dat het voortrainen van GPT-3 ongeveer 5 miljoen dollar heeft gekost.
Het was het eerste veelzijdige generatieve model dat geschikt was voor allerlei soorten gebruik.
Om het beste uit dit model te halen, was fijnafstemming niet eens meer nodig.
Meestal was het aanleren van een paar schoten voldoende en het werkte zelfs heel goed in de leermodus zonder schoten.
Daarna, in dezelfde geest, kwamen ChatGPT en GPT-4.
Kort daarna bracht OpenAI andere soorten ontwrichtende modellen uit.
Dankzij DALI was het mogelijk om prachtige afbeeldingen uit tekst te genereren.
En ze hebben de lat in de spraak-naar-tekst industrie drastisch hoger gelegd dankzij Whisper.
Je hebt misschien al veel verschillende termen opgemerkt in deze cursus.
Machinaal leren, diep leren, neurale netwerken, natuurlijke taalverwerking, AI, generatieve AI.
Sommige zijn specifieke technische termen, terwijl andere gewoon trendy modewoorden zijn.
Persoonlijk denk ik dat natuurlijke taalverwerking de juiste term is voor de AI-taaltechnologie die we vandaag de dag gebruiken.
Maar dit is niet erg belangrijk.
Je hebt nu een basisbegrip van waar onze AI-modellen vandaan komen.