Keele tehisintellekti ajalugu

Transcript

Tere, siin on Julien Salinas NLP Cloudist, mis on täiustatud AI platvorm teie järgmise AI projekti jaoks.

Tehisintellekti praktikute jaoks on huvitav mõista tehisintellekti ajalugu ja näha, millised olulised verstapostid viisid tipptasemel genereerivate mudeliteni, mida me kõik täna kasutame.

Selles kursuses vaatan kiiresti läbi keelemudelite ajaloo 20. sajandist kuni tänapäevani.

Tehisintellekt ei ole uus asi.

Insenerid ja keeleteadlased alustasid tööd tehisintellekti kallal teksti mõistmiseks umbes 1950. aastal.

See oli sümboolse loomuliku keeletöötluse ajastu kuni 90ndateni.

Tol ajal oli peamine motivatsioon masintõlge ja tehisintellekt põhines reeglite kogumil.

Tehisintellekti algoritmi täiustamine seisnes peamiselt selles, et programmi lisati rohkem reegleid.

Teadlased olid oma esimestest tulemustest üsna entusiastlikud ja arvasid, et masintõlge on paari aastaga probleem lahendatud.

Noh, see ei ole tänaseni täielikult lahendatud.

Need reeglipõhised süsteemid viisid ka esimese, väga lihtsa juturobotini nimega Elisa.

Alates 1990. aastast astusime statistilise NLP ajastusse.

Tehisintellekti kasutamine koos statistikaga etteantud reeglite asemel tähendas, et me võisime hakata ehitama palju võimsamaid süsteeme, ilma et oleksime pidanud kõiki stsenaariume eelnevalt läbi mõtlema.

Selle tegid võimalikuks matemaatiliste teadusuuringute edusammud, aga ka uute protsessorite pakutav suurem arvutusvõimsus.

Süsteemid õpivad inimese tagasiside põhjal, mida nimetatakse ka juhitavaks õppeks, ja hiljem isegi ilma inimese sekkumiseta, mida nimetatakse ka juhitamatuks õppeks.

Seega oli võimalik treenida huvitavaid mudeleid internetist pärinevate tohutute struktureerimata andmete põhjal.

Uued ettevõtted kasutasid tol ajal tegelikult masinõpet tootmises ja kõige populaarsem kasutusjuhtum oli nimede tuvastamine, mida tuntakse ka kui üksuste väljavõtteid.

Neuronivõrgud ei ole midagi uut.

Juba 20. sajandi keskel oli mõnel teadlasel intuitsioon luua neuronitest koosnev tehisintellekti süsteem, mis imiteeriks inimese aju.

Kuid neurovõrgud hakkasid huvitavaid tulemusi andma alles 2010. aasta paiku.

Tänu GPUdele oli siis võimalik treenida palju suuremaid neuronivõrke.

See oli nn sügava õppimise ajastu algus.

Esimesed muljetavaldavad tulemused tulid arvutinägemisest tänu konvolutsioonilistele närvivõrkudele, mis võimaldasid täiustatud pildiklassifikatsiooni.

Keel sai sügavast õppimisest tõeliselt kasu alles veidi hiljem.

Kuni 2010. aastani ja süvaõppe tekkimiseni oli keelte tehisintellekt sisuliselt uurimisvaldkond ning vähesed ettevõtted kasutasid oma toodetes loomulikku keeletöötlust.

Nüüd vaatame, milline hiljutine läbimurre viis meid kõiki tänapäeval teadaoleva genereeriva tehisintellekti tehnoloogiani.

Tõeline läbimurre keelemudelite puhul toimus 2017. aastal, kui mõned Google'i teadlased avaldasid artikli "Attention is All You Need" (Tähelepanu on kõik, mida vajate).

Käesolevas artiklis kirjeldatakse uut tüüpi närvivõrgu arhitektuuri, mida nimetatakse transformaatoriks ja mis põhineb uuel põhimõttel, mida nimetatakse enesehäälestuseks.

Trafo arhitektuur on kõigi muljetavaldavate keelemudelite keskmes, mida oleme alates 2017. aastast näinud.

Väga kiiresti pärast seda koolitas Google esimese mudeli, mis järgis transformaatori arhitektuuri.

Selle mudeli nimi oli BERT.

BERT oli esimene tootmiskõlblik keelemudel, mida sai kasutada kõikvõimalikel kasutusjuhtudel, kokkuvõtete tegemiseks, entiteetide ekstraheerimiseks, küsimustele vastamiseks, tõlkimiseks ja muuks.

BERT oli tõesti huvitav, sest esimest korda loodi mudel, mis oli hea ülekandeõppes.

Põhimõtteliselt oli mudel eelnevalt treenitud suurel hulgal märkimata andmetega ja seejärel suutis see tänu kiirele peenhäälestusele, mis nõudis väga vähe täiendavaid andmeid, kiiresti õppida paljusid erinevaid kasutusjuhtumeid.

OpenAI oli algselt mittetulunduslik AI-startup, mis avaldas uut tüüpi arhitektuuri, GPT, mis põhineb trafol.

Kui nad 2019. aastal GPT-2 välja andsid, avaldasid selle tekstipõlvkonna mudeli võimalused kõigile muljet.

GPT-2 oli esimene tootmiskõlblik generatiivne mudel.

See oli eriti hea teksti lõpetamiseks.

Näiteks kasutas Microsoft seda Microsoft Office'i automaatseks täiteks.

Seda treeniti 8 miljoni veebilehe ja 7000 raamatu põhjal ning see sisaldas 1,5 miljardit parameetrit, mis ei ole muidugi palju võrreldes tänaste mudelitega.

2020. aastal tegi OpenAI teise revolutsiooni.

Neist sai kasumlik ettevõte ja nad andsid välja võimsa generatiivse mudeli nimega GPT-3.

GPT-3 põhines endiselt GPT arhitektuuril, kuid koolitas rohkem sisu.

See sisaldas 175 miljardit parameetrit ja vajas tuhandeid GPUsid, et treenida mitu kuud.

Isegi kui see ei ole ametlik, arvavad teadlased, et GPT-3 eelkoolitus maksab umbes 5 miljonit dollarit.

See oli esimene mitmekülgne generatiivne mudel, mis suutis käsitleda igasuguseid kasutusjuhtumeid.

Selle mudeli maksimaalseks ärakasutamiseks ei olnud enam isegi peenhäälestust vaja.

Enamasti piisas mõne lasu õppimisest ja see töötas isegi väga hästi nulllaskurežiimis.

Seejärel tulid samas vaimus ChatGPT ja GPT-4.

Varsti pärast seda avaldas OpenAI muud liiki häirivaid mudeleid.

Tänu DALI-le oli võimalik tekstist ilusaid pilte luua.

Ja tänu Whisperile tõstsid nad kõnest tekstiks kõnetamise valdkonnas oluliselt lati kõrgemale.

Selles kursuses olete võib-olla märganud palju erinevaid termineid.

Masinõpe, süvaõpe, närvivõrgud, loomulik keele töötlemine, tehisintellekt, genereeriv tehisintellekt.

Mõned neist on konkreetsed tehnilised terminid, teised aga lihtsalt trendikad märksõnad.

Mina isiklikult arvan, et loomulik keeletöötlus on õige termin keelelise tehisintellekti tehnoloogia kohta, mida me täna kasutame.

Kuid see ei ole väga oluline.

Nüüd on teil põhiline arusaam sellest, kust meie tehisintellekti mudelid pärit on.

Keele tehisintellekti ajalugu

Summary

Transcript