Kielen tekoälyn historia

Transcript

Hei, tässä on Julien Salinas NLP Cloudista, joka on kehittynyt tekoälyalusta seuraavaa tekoälyprojektia varten.

Tekoälyn ammattilaisten on mielenkiintoista ymmärtää tekoälyn historiaa ja nähdä, mitkä tärkeät virstanpylväät johtivat nykyisin käyttämiimme huippuluokan generatiivisiin malleihin.

Tällä kurssilla käyn nopeasti läpi kielimallien historiaa 1900-luvulta tähän päivään.

Tekoäly ei ole uusi asia.

Insinöörit ja kielitieteilijät alkoivat työskennellä tekoälyn parissa tekstin ymmärtämiseksi noin vuonna 1950.

Tämä oli symbolisen luonnollisen kielen käsittelyn aikakausi 90-luvulle asti.

Tuolloin tärkein motivaatio oli konekääntäminen, ja tekoäly perustui sääntöihin.

Tekoälyalgoritmin parantamisessa oli kyse lähinnä sääntöjen lisäämisestä ohjelmaan.

Tutkijat olivat varsin innostuneita ensimmäisistä tuloksistaan ja uskoivat, että konekääntäminen olisi ongelma, joka olisi ratkaistu parissa vuodessa.

No, sitä ei ole vieläkään täysin ratkaistu.

Näiden sääntöpohjaisten järjestelmien ansiosta syntyi myös ensimmäinen, hyvin yksinkertainen chatrobotti nimeltä Elisa.

Vuodesta 1990 alkaen siirryimme tilastollisen NLP:n aikakauteen.

Tekoälyn käyttäminen tilastojen avulla ennalta määritettyjen sääntöjen sijaan tarkoitti sitä, että pystyimme rakentamaan paljon tehokkaampia järjestelmiä ilman, että meidän olisi tarvinnut miettiä kaikkia skenaarioita etukäteen.

Tämän mahdollisti paitsi matemaattisen tutkimuksen edistyminen myös uusien suorittimien tarjoama lisääntynyt laskentateho.

Järjestelmät oppisivat ihmisen antaman palautteen perusteella, jota kutsutaan myös valvotuksi oppimiseksi, ja myöhemmin jopa ilman ihmisen puuttumista lainkaan, jota kutsutaan myös valvomattomaksi oppimiseksi.

Näin oli mahdollista kouluttaa mielenkiintoisia malleja internetistä tulevan valtavan määrän strukturoimattoman datan perusteella.

Tuolloin koneoppimista käytettiin tuotannossa uusissa yrityksissä, ja suosituin käyttötapaus oli nimettyjen entiteettien tunnistaminen, joka tunnetaan myös nimellä entiteettien louhinta.

Neuroverkot eivät ole uusi asia.

Jo 1900-luvun puolivälissä joillakin tutkijoilla oli intuitio luoda neuroneista koostuva tekoälyjärjestelmä, joka jäljittelisi ihmisaivoja.

Neuroverkot alkoivat kuitenkin antaa mielenkiintoisia tuloksia vasta vuoden 2010 tienoilla.

GPU:iden ansiosta voitiin kouluttaa paljon suurempia neuroverkkoja.

Tämä oli niin sanotun syväoppimisen aikakauden alku.

Ensimmäiset vaikuttavat tulokset saatiin tietokonenäköalalla konvoluutiohermoverkkojen ansiosta, jotka mahdollistivat kehittyneen kuvien luokittelun.

Kieli todella hyötyi syväoppimisesta vasta hieman myöhemmin.

Ennen vuotta 2010 ja syväoppimisen yleistymistä kielellinen tekoäly oli lähinnä tutkimusalue, ja vain harvat yritykset käyttivät luonnollisen kielen käsittelyä tuotteissaan.

Katsotaanpa nyt, mikä viimeaikainen läpimurto johti nykyisin tuntemaamme generatiiviseen tekoälyteknologiaan.

Todellinen läpimurto kielimalleissa tapahtui vuonna 2017, kun Googlen tutkijat julkaisivat artikkelin Attention is All You Need.

Tässä artikkelissa kuvataan uudenlainen neuroverkkoarkkitehtuuri, jota kutsutaan muuntajaksi ja joka perustuu uuteen periaatteeseen, jota kutsutaan itsehuomioinniksi.

Transformer-arkkitehtuuri on kaikkien vuoden 2017 jälkeen nähtyjen vaikuttavien kielimallien ytimessä.

Hyvin nopeasti tämän jälkeen Google koulutti ensimmäisen mallin transformer-arkkitehtuurin mukaisesti.

Tätä mallia kutsuttiin nimellä BERT.

BERT oli ensimmäinen tuotantokelpoinen kielimalli, jota voitiin käyttää monenlaisiin käyttötarkoituksiin, kuten tiivistämiseen, entiteettien poimimiseen, kysymyksiin vastaamiseen ja kääntämiseen.

BERT oli todella mielenkiintoinen, koska ensimmäistä kertaa luotiin malli, joka oli hyvä siirto-oppimisessa.

Periaatteessa malli esivalmennettiin suurella joukolla kommentoimatonta dataa, ja se pystyi sitten oppimaan nopeasti monenlaisia käyttötapauksia nopeiden hienosäätöjen ansiosta, jotka vaativat hyvin vähän lisätietoa.

OpenAI oli alun perin voittoa tavoittelematon tekoälyalan startup-yritys, joka julkaisi uudenlaisen arkkitehtuurin, GPT:n, joka perustui muuntajaan.

Kun GPT-2 julkaistiin vuonna 2019, kaikki olivat vaikuttuneita tämän tekstisukupolven mallin ominaisuuksista.

GPT-2 oli ensimmäinen tuotantokelpoinen generatiivinen malli.

Se oli erityisen hyvä tekstin täydentämisessä.

Esimerkiksi Microsoft käytti sitä Microsoft Officen automaattiseen täydentämiseen.

Se koulutettiin 8 miljoonalla verkkosivulla ja 7000 kirjalla, ja se sisälsi 1,5 miljardia parametria, mikä ei tietenkään ole paljon nykyisiin malleihin verrattuna.

Vuonna 2020 OpenAI teki toisen vallankumouksen.

Heistä tuli voittoa tavoitteleva yritys ja he julkaisivat tehokkaan generatiivisen mallin nimeltä GPT-3.

GPT-3 perustui edelleen GPT-arkkitehtuuriin, mutta siinä käytettiin enemmän sisältöä.

Se sisälsi 175 miljardia parametria, ja sen harjoitteluun tarvittiin tuhansia grafiikkasuorittimia useiden kuukausien ajan.

Vaikka se ei olekaan virallinen, tutkijat uskovat, että GPT-3:n esivalmennus maksaa noin 5 miljoonaa dollaria.

Se oli ensimmäinen monipuolinen generatiivinen malli, jolla pystyttiin käsittelemään kaikenlaisia käyttötapauksia.

Jotta tästä mallista saataisiin kaikki irti, hienosäätöä ei enää edes tarvittu.

Useimmiten muutaman laukauksen oppiminen riitti, ja se toimi jopa erittäin hyvin nollalaukauksen oppimistilassa.

Sitten tulivat samassa hengessä ChatGPT ja GPT-4.

Pian tämän jälkeen OpenAI julkaisi toisenlaisia häiritseviä malleja.

DALI:n ansiosta tekstistä voitiin luoda kauniita kuvia.

Whisperin ansiosta he nostivat rimaa puheesta tekstiin -alalla dramaattisesti.

Olet ehkä huomannut monia eri termejä tällä kurssilla.

Koneoppiminen, syväoppiminen, neuroverkot, luonnollisen kielen käsittely, tekoäly, generatiivinen tekoäly.

Jotkut ovat erityisiä teknisiä termejä, kun taas toiset ovat vain trendikkäitä muotisanoja.

Itse olen sitä mieltä, että luonnollisen kielen prosessointi on oikea termi nykyisin käyttämällemme tekoälyteknologialle.

Mutta tämä ei ole kovin tärkeää.

Sinulla on nyt perusymmärrys siitä, mistä tekoälymallimme tulevat.

Kielen tekoälyn historia

Summary

Transcript