Zgodovina jezikovne umetne inteligence

Transcript

Pozdravljeni, to je Julien Salinas iz NLP Cloud, napredne platforme umetne inteligence za vaš naslednji projekt umetne inteligence.

Za strokovnjake s področja umetne inteligence je zanimivo razumeti zgodovino umetne inteligence in ugotoviti, kateri pomembni mejniki so pripeljali do vrhunskih generativnih modelov, ki jih uporabljamo danes.

V tem tečaju bom na kratko predstavil zgodovino jezikovnih modelov od 20. stoletja do danes.

Umetna inteligenca ni novost.

Inženirji in jezikoslovci so se začeli ukvarjati z umetno inteligenco za razumevanje besedil okoli leta 1950.

To je bilo obdobje simbolne obdelave naravnega jezika do 90. let prejšnjega stoletja.

Takrat je bila glavna motivacija strojno prevajanje in umetna inteligenca je temeljila na nizu pravil.

Izboljšanje algoritma umetne inteligence je pomenilo predvsem dodajanje dodatnih pravil programu.

Raziskovalci so bili nad prvimi rezultati navdušeni in menili so, da bo problem strojnega prevajanja rešen v nekaj letih.

No, še danes ni povsem rešena.

Na podlagi teh sistemov, ki temeljijo na pravilih, je nastal tudi prvi, zelo preprost klepetalni robot, imenovan Elisa.

Z letom 1990 smo vstopili v obdobje statističnega NLP.

Uporaba umetne inteligence s statistiko namesto vnaprej določenih pravil je pomenila, da smo lahko začeli graditi veliko zmogljivejše sisteme, ne da bi nam bilo treba vnaprej razmišljati o vseh scenarijih.

To je bilo mogoče zaradi napredka matematičnih raziskav, pa tudi zaradi večje računske moči, ki so jo zagotavljali novi procesorji.

Sistemi bi se učili na podlagi povratnih informacij od človeka, kar je znano tudi kot nadzorovano učenje, pozneje pa celo brez posredovanja človeka, kar je znano tudi kot nenadzorovano učenje.

Tako je bilo mogoče na podlagi velike količine nestrukturiranih podatkov, ki prihajajo iz interneta, usposobiti zanimive modele.

Takrat so nova podjetja dejansko uporabljala strojno učenje v proizvodnji, najbolj priljubljen primer uporabe pa je bilo prepoznavanje poimenovanih entitet, znano tudi kot ekstrakcija entitet.

Nevronska omrežja niso novost.

Sredi 20. stoletja so nekateri raziskovalci že slutili, da bodo ustvarili sistem umetne inteligence iz nevronov, ki bi posnemal človeške možgane.

Vendar so nevronske mreže začele dajati zanimive rezultate šele okoli leta 2010.

Zahvaljujoč grafičnim procesorjem je bilo takrat mogoče usposobiti veliko večje nevronske mreže.

To je bil začetek tako imenovanega obdobja globokega učenja.

Prve impresivne rezultate je prinesel računalniški vid s pomočjo konvolucijskih nevronskih mrež, ki so omogočile napredno klasifikacijo slik.

Jezik je od globokega učenja zares pridobil šele nekoliko pozneje.

Do leta 2010 in pojava globokega učenja je bila umetna inteligenca jezika predvsem raziskovalno področje in le malo podjetij je v svojih izdelkih uporabljalo obdelavo naravnega jezika.

Poglejmo, kateri nedavni preboj je pripeljal do generativne tehnologije umetne inteligence, ki jo poznamo danes.

Pravi preboj na področju jezikovnih modelov se je zgodil leta 2017, ko so nekateri Googlovi raziskovalci objavili članek z naslovom Attention is All You Need.

V tem članku je opisana nova vrsta arhitekture nevronskega omrežja, imenovana transformator, ki temelji na novem načelu, imenovanem samopozornost.

Arhitektura transformatorja je osnova vseh impresivnih jezikovnih modelov, ki smo jih videli od leta 2017.

Zelo hitro zatem je Google po arhitekturi transformatorja usposobil prvi model.

Ta model se je imenoval BERT.

BERT je bil prvi produkcijski jezikovni model, ki ga je bilo mogoče uporabiti za vse vrste primerov uporabe, povzemanje, ekstrakcijo entitet, odgovarjanje na vprašanja, prevajanje in drugo.

BERT je bil zelo zanimiv, saj je bil prvič ustvarjen model, ki je bil dober pri transfernem učenju.

V osnovi je bil model predhodno usposobljen na velikem naboru neanotiranih podatkov, nato pa se je lahko hitro naučil številnih vrst primerov uporabe zaradi hitrega prilagajanja, ki je zahtevalo zelo malo dodatnih podatkov.

OpenAI je bilo sprva neprofitno zagonsko podjetje za umetno inteligenco, ki je izdalo novo vrsto arhitekture GPT, ki temelji na transformatorju.

Ko so leta 2019 izdali GPT-2, so bili vsi navdušeni nad zmogljivostmi tega modela generacije besedila.

GPT-2 je bil prvi generativni model za proizvodnjo.

Še posebej dober je bil pri dopolnjevanju besedila.

Microsoft ga je na primer uporabljal za samodejno dokončanje v pisarni Microsoft Office.

Usposobljen je bil na 8 milijonih spletnih strani in 7000 knjigah ter je vseboval 1,5 milijarde parametrov, kar seveda ni veliko v primerjavi z današnjimi modeli.

Leta 2020 je OpenAI naredila drugo revolucijo.

Postali so profitno podjetje in izdali zmogljiv generativni model GPT-3.

GPT-3 je še vedno temeljil na arhitekturi GPT, vendar se je usposabljal za več vsebine.

Vseboval je 175 milijard parametrov, za večmesečno usposabljanje pa je bilo potrebnih več tisoč grafičnih procesorjev.

Četudi ni uradno, raziskovalci menijo, da je cena pred treningom GPT-3 znašala približno 5 milijonov dolarjev.

To je bil prvi vsestranski generativni model, ki je lahko obravnaval vse vrste primerov uporabe.

Da bi ta model kar najbolje izkoristili, fino prilagajanje sploh ni bilo več potrebno.

Večino časa je bilo dovolj učenje z nekaj posnetki in dejansko je zelo dobro deloval tudi v načinu učenja brez posnetkov.

Nato sta se v istem duhu pojavila ChatGPT in GPT-4.

Kmalu zatem je OpenAI izdal druge vrste prelomnih modelov.

Zahvaljujoč DALI je bilo mogoče iz besedila ustvariti čudovite slike.

Z aplikacijo Whisper so močno dvignili letvico na področju pretvorbe govora v besedilo.

V tem tečaju ste morda opazili veliko različnih izrazov.

Strojno učenje, globoko učenje, nevronske mreže, obdelava naravnega jezika, umetna inteligenca, generativna umetna inteligenca.

Nekateri so specifični tehnični izrazi, drugi pa so preprosto modne besedne zveze.

Osebno menim, da je obdelava naravnega jezika pravi izraz za tehnologijo umetne inteligence za jezik, ki jo uporabljamo danes.

Vendar to ni zelo pomembno.

Zdaj že razumete, od kod prihajajo naši modeli umetne inteligence.

Zgodovina jezikovne umetne inteligence

Summary

Transcript