Språkhistoria AI

Summary

I denna NLP Cloud-kurs lyfter vi fram de viktigaste milstolparna i historien om språk-AI (även känt som Natural Language Processing).

Här är kursens struktur:

Transcript

Hej, det här är Julien Salinas från NLP Cloud, en avancerad AI-plattform för ditt nästa AI-projekt.

Det är intressant för AI-utövare att förstå AI:s historia och se vilka viktiga milstolpar som ledde fram till de banbrytande generativa modeller som vi alla använder idag.

I den här kursen kommer jag snabbt att gå igenom språkmodellernas historia från 1900-talet till idag.

AI är inte något nytt.

Ingenjörer och lingvister började arbeta med artificiell intelligens för textförståelse runt 1950.

Detta var eran för symbolisk naturlig språkbehandling fram till 90-talet.

På den tiden var det främsta motivet maskinöversättning och AI byggde på en uppsättning regler.

Att förbättra en AI-algoritm handlade främst om att lägga till fler regler i programmet.

Forskarna var ganska entusiastiska över sina första resultat och de trodde att maskinöversättning skulle vara ett problem som skulle lösas inom ett par år.

Det är fortfarande inte helt löst.

Dessa regelbaserade system ledde också till den första, mycket enkla, chatboten som hette Elisa.

Från och med 1990 började vi med statistisk NLP.

Att använda AI med statistik istället för fördefinierade regler innebar att vi kunde börja bygga mycket kraftfullare system utan att behöva tänka på alla scenarier i förväg.

Detta möjliggjordes av framsteg inom matematisk forskning, men också av den ökade beräkningskraft som de nya processorerna gav.

Systemen skulle lära sig baserat på återkoppling från människor, så kallad supervised learning, och senare till och med utan någon mänsklig inblandning alls, så kallad unsupervised learning.

Det var alltså möjligt att träna intressanta modeller baserat på den enorma mängden ostrukturerad data från internet.

Nya företag använde faktiskt maskininlärning i produktion vid den tiden och det mest populära användningsområdet var igenkänning av namngivna enheter, även känt som entitetsutvinning.

Neurala nätverk är inget nytt.

I mitten av 1900-talet hade vissa forskare redan intuitionen att skapa ett AI-system bestående av neuroner som skulle efterlikna den mänskliga hjärnan.

Men det var först runt 2010 som neurala nätverk började ge intressanta resultat.

Tack vare GPU:er var det sedan möjligt att träna mycket större neurala nätverk.

Detta var början på den så kallade deep learning-eran.

De första imponerande resultaten kom från datorseende tack vare faltningsneurala nätverk, som möjliggjorde avancerad bildklassificering.

Det var först lite senare som språket verkligen drog nytta av deep learning.

Fram till 2010 och framväxten av deep learning var språk-AI i huvudsak ett forskningsområde och få företag använde naturlig språkbehandling i sina produkter.

Låt oss nu se vilket av de senaste genombrotten som ledde till den generativa AI-teknik som vi alla känner till idag.

Det verkliga genombrottet för språkmodeller kom 2017, när några Google-forskare publicerade en artikel med titeln Attention is All You Need.

I detta dokument beskrivs en ny typ av neuralt nätverk som kallas transformatorn och som bygger på en ny princip som kallas självuppmärksamhet.

Transformatorarkitekturen är kärnan i alla de imponerande språkmodeller som vi har sett sedan 2017.

Mycket snabbt efter det tränades den första modellen av Google enligt transformatorarkitekturen.

Denna modell kallades BERT.

BERT var den första språkmodellen i produktionsklass som kunde användas för alla möjliga användningsområden: sammanfattning, entitetsutvinning, frågesvar, översättning med mera.

BERT var verkligen intressant eftersom man för första gången skapade en modell som var bra på överföringsinlärning.

I grund och botten förutbildades modellen på en stor uppsättning okommenterade data och den kunde sedan snabbt lära sig många olika typer av användningsfall tack vare snabba finjusteringar som krävde mycket lite ytterligare data.

OpenAI var ursprungligen en ideell AI-startup som lanserade en ny typ av arkitektur, GPT, baserad på transformatorn.

När de släppte GPT-2 2019 blev alla imponerade av kapaciteten hos denna textgenerationsmodell.

GPT-2 var den första generativa modellen i produktionsklass.

Det var särskilt bra för textkomplettering.

Den användes t.ex. av Microsoft för automatisk komplettering i Microsoft Office.

Den tränades på 8 miljoner webbsidor och 7 000 böcker och innehöll 1,5 miljarder parametrar, vilket naturligtvis inte är mycket jämfört med de modeller vi har idag.

År 2020 gjorde OpenAI en andra revolution.

De blev ett vinstdrivande företag och lanserade en kraftfull generativ modell kallad GPT-3.

GPT-3 byggde fortfarande på GPT-arkitekturen men hade mer innehåll.

Den innehöll 175 miljarder parametrar och krävde tusentals GPU:er för att tränas under flera månader.

Även om det inte är officiellt, tror forskarna att förutbildningen GPT-3 kostar cirka 5 miljoner dollar.

Det var den första mångsidiga generativa modellen som kunde hantera alla typer av användningsfall.

För att få ut mesta möjliga av denna modell behövdes inte ens finjustering längre.

För det mesta räckte det med att lära sig några få bilder och det fungerade faktiskt till och med mycket bra i inlärningsläget med noll bilder.

I samma anda kom sedan ChatGPT och GPT-4.

Strax därefter lanserade OpenAI andra typer av disruptiva modeller.

Tack vare DALI var det möjligt att skapa vackra bilder av text.

Och tack vare Whisper har de höjt ribban dramatiskt inom tal-till-text-branschen.

Du kanske har lagt märke till många olika termer i den här kursen.

Maskininlärning, djupinlärning, neurala nätverk, naturlig språkbehandling, AI, generativ AI.

Vissa är specifika tekniska termer, medan andra helt enkelt är trendiga modeord.

Personligen tycker jag att natural language processing är rätt term för den språkliga AI-teknik som vi använder idag.

Men detta är inte särskilt viktigt.

Nu har du en grundläggande förståelse för var våra AI-modeller kommer ifrån.