Kalbos dirbtinio intelekto istorija

Transcript

Sveiki, tai Julienas Salinas iš "NLP Cloud" - pažangios dirbtinio intelekto platformos, skirtos kitam jūsų dirbtinio intelekto projektui.

Praktikuojantiems dirbtinio intelekto specialistams įdomu susipažinti su dirbtinio intelekto istorija ir sužinoti, kokie svarbūs etapai lėmė pažangiausius generatyvinius modelius, kuriuos šiandien visi naudojame.

Šiame kurse trumpai apžvelgsiu kalbos modelių istoriją nuo XX a. iki šių dienų.

Dirbtinis intelektas nėra naujas dalykas.

Inžinieriai ir lingvistai apie 1950 m. pradėjo dirbti su dirbtiniu intelektu teksto supratimo srityje.

Tai buvo simbolinio natūralios kalbos apdorojimo era iki 90-ųjų.

Tuo metu pagrindinė motyvacija buvo mašininis vertimas, o dirbtinis intelektas buvo pagrįstas taisyklių rinkiniu.

Tobulinant dirbtinio intelekto algoritmą daugiausia reikėjo į programą įtraukti daugiau taisyklių.

Mokslininkai buvo gana entuziastingai nusiteikę dėl pirmųjų rezultatų ir manė, kad mašininio vertimo problema bus išspręsta per porą metų.

Na, šiandien ji vis dar nėra visiškai išspręsta.

Šios taisyklėmis pagrįstos sistemos taip pat padėjo sukurti pirmąjį labai paprastą pokalbių robotą Elisa.

Nuo 1990 m. prasidėjo statistinio NLP era.

Naudodami dirbtinį intelektą su statistika, o ne iš anksto nustatytomis taisyklėmis, galėjome pradėti kurti daug galingesnes sistemas, nereikėjo iš anksto galvoti apie visus scenarijus.

Tai tapo įmanoma ne tik dėl matematinių tyrimų pažangos, bet ir dėl didesnės skaičiavimo galios, kurią suteikė nauji procesoriai.

Sistemos mokytųsi remdamosi žmogaus grįžtamąja informacija, dar vadinamos prižiūrimuoju mokymusi, o vėliau - net be jokio žmogaus įsikišimo, dar vadinamos neprižiūrimuoju mokymusi.

Taigi, remiantis didžiuliu kiekiu nestruktūrizuotų duomenų, gaunamų iš interneto, buvo galima sukurti įdomius modelius.

Tuo metu naujos įmonės iš tikrųjų naudojo mašininį mokymąsi gamyboje, o populiariausias naudojimo atvejis buvo įvardytų esybių atpažinimas, dar vadinamas esybių išskyrimu.

Neuroniniai tinklai nėra naujiena.

XX a. viduryje kai kurie mokslininkai jau buvo sumanę sukurti dirbtinio intelekto sistemą iš neuronų, kuri imituotų žmogaus smegenis.

Tačiau neuroniniai tinklai pradėjo duoti įdomių rezultatų tik apie 2010 m.

Dėl GPU buvo galima mokyti daug didesnius neuroninius tinklus.

Tai buvo vadinamosios gilaus mokymosi eros pradžia.

Pirmieji įspūdingi rezultatai buvo pasiekti kompiuterinės regos srityje, naudojant konvoliucinius neuroninius tinklus, kurie leido atlikti pažangų vaizdų klasifikavimą.

Tik šiek tiek vėliau kalba iš tikrųjų pasinaudojo giliuoju mokymusi.

Iki 2010 m. ir gilaus mokymosi atsiradimo kalbos dirbtinis intelektas iš esmės buvo mokslinių tyrimų sritis ir tik nedaugelis įmonių savo produktuose naudojo natūralios kalbos apdorojimą.

Dabar pažiūrėkime, koks neseniai įvykęs proveržis lėmė šiandien mums visiems žinomą generatyvinio dirbtinio intelekto technologiją.

Tikrasis kalbos modelių proveržis įvyko 2017 m., kai keli "Google" tyrėjai paskelbė dokumentą pavadinimu "Attention is All You Need".

Šiame straipsnyje aprašoma naujos rūšies neuroninio tinklo architektūra, vadinama transformatoriumi, pagrįsta nauju principu, vadinamu savastimi.

Transformatoriaus architektūra yra visų įspūdingų kalbų modelių, kuriuos matėme nuo 2017 m., pagrindas.

Labai greitai po to "Google" išmoko pirmąjį modelį pagal transformatoriaus architektūrą.

Šis modelis buvo pavadintas BERT.

BERT buvo pirmasis gamybinės klasės kalbos modelis, kurį buvo galima naudoti įvairiais naudojimo atvejais, apibendrinant, išskiriant esybes, atsakant į klausimus, verčiant ir kt.

BERT buvo tikrai įdomus, nes pirmą kartą buvo sukurtas modelis, kuris gerai mokėsi perkelti duomenis.

Iš esmės modelis buvo iš anksto apmokytas naudojant didelį neanotuotų duomenų rinkinį, o tada jis galėjo greitai išmokti daugybę įvairių naudojimo atvejų, nes greitai buvo galima atlikti tikslius nustatymus, kuriems reikėjo labai nedaug papildomų duomenų.

Iš pradžių "OpenAI" buvo ne pelno siekiantis dirbtinio intelekto startuolis, kuris išleido naujo tipo architektūrą, GPT, pagrįstą transformatoriumi.

Kai 2019 m. jie išleido "GPT-2", visi buvo sužavėti šio teksto kartos modelio galimybėmis.

GPT-2 buvo pirmasis gamybinės klasės generatyvinis modelis.

Ji buvo ypač gera teksto pildymui.

Pavyzdžiui, "Microsoft" jį naudojo automatiniam užbaigimui "Microsoft Office" programoje.

Jis buvo apmokytas iš 8 milijonų tinklalapių ir 7000 knygų ir turėjo 1,5 milijardo parametrų, o tai, žinoma, nėra daug, palyginti su šiandien turimais modeliais.

2020 m. "OpenAI" įvykdė antrą revoliuciją.

Jie tapo pelno siekiančia įmone ir išleido galingą generatyvinį modelį GPT-3.

GPT-3 vis dar buvo grindžiama GPT architektūra, tačiau buvo mokoma daugiau turinio.

Jame buvo 175 mlrd. parametrų, o jo mokymui kelis mėnesius reikėjo tūkstančių GPU.

Net jei ir ne oficialiai, mokslininkai mano, kad išankstinis mokymas GPT-3 kainavo apie 5 mln. dolerių.

Tai buvo pirmasis universalus generatyvinis modelis, kuriuo buvo galima naudotis įvairiais naudojimo atvejais.

Norint kuo geriau išnaudoti šį modelį, nebereikėjo atlikti tikslaus derinimo.

Dažniausiai pakakdavo mokytis iš kelių kadrų, o mokymosi iš nulinio kadro režimas iš tiesų veikė labai gerai.

Po to ta pačia dvasia pasirodė "ChatGPT" ir "GPT-4".

Netrukus po to "OpenAI" išleido kitų rūšių trikdančių modelių.

DALI dėka iš teksto buvo galima sukurti gražius vaizdus.

Sukūrę "Whisper", jie gerokai pakėlė kalbos į tekstą pramonės kartelę.

Galbūt pastebėjote, kad šiame kurse vartojama daug įvairių terminų.

mašininis mokymasis, gilusis mokymasis, neuroniniai tinklai, natūralios kalbos apdorojimas, dirbtinis intelektas, generatyvinis dirbtinis intelektas.

Kai kurie jų yra specifiniai techniniai terminai, kiti - tiesiog madingi žodžiai.

Aš asmeniškai manau, kad natūralios kalbos apdorojimas yra tinkamas terminas šiandien naudojamai kalbos dirbtinio intelekto technologijai apibūdinti.

Tačiau tai nėra labai svarbu.

Dabar iš esmės suprantate, iš kur atsiranda mūsų dirbtinio intelekto modeliai.

Kalbos dirbtinio intelekto istorija

Summary

Transcript