História jazykovej umelej inteligencie

Transcript

Dobrý deň, tu je Julien Salinas zo spoločnosti NLP Cloud, ktorá je pokročilou platformou AI pre váš ďalší projekt v oblasti AI.

Pre odborníkov v oblasti umelej inteligencie je zaujímavé pochopiť históriu umelej inteligencie a zistiť, ktoré dôležité míľniky viedli k najmodernejším generatívnym modelom, ktoré dnes všetci používame.

V tomto kurze si v krátkosti prejdem históriu jazykových modelov od 20. storočia až po súčasnosť.

Umelá inteligencia nie je novinka.

Inžinieri a lingvisti začali pracovať na umelej inteligencii na porozumenie textu okolo roku 1950.

To bola éra symbolického spracovania prirodzeného jazyka až do 90. rokov.

V tom čase bol hlavnou motiváciou strojový preklad a umelá inteligencia bola založená na súbore pravidiel.

Zlepšovanie algoritmu umelej inteligencie spočívalo najmä v pridávaní ďalších pravidiel do programu.

Výskumníci boli zo svojich prvých výsledkov nadšení a mysleli si, že strojový preklad bude vyriešený do niekoľkých rokov.

No ani dnes to nie je úplne vyriešené.

Tieto systémy založené na pravidlách viedli aj k vytvoreniu prvého, veľmi jednoduchého chatbota s názvom Elisa.

Od roku 1990 sme vstúpili do éry štatistickej NLP.

Použitie umelej inteligencie so štatistikami namiesto vopred definovaných pravidiel znamenalo, že sme mohli začať vytvárať oveľa výkonnejšie systémy bez toho, aby sme museli vopred premýšľať o všetkých scenároch.

Umožnil to pokrok v matematickom výskume, ale aj zvýšený výpočtový výkon nových procesorov.

Systémy by sa učili na základe spätnej väzby od človeka, čo je známe aj ako učenie pod dohľadom, a neskôr dokonca bez akéhokoľvek zásahu človeka, čo je známe aj ako učenie bez dohľadu.

Bolo teda možné trénovať zaujímavé modely na základe obrovského objemu neštruktúrovaných údajov pochádzajúcich z internetu.

V tom čase sa v nových podnikoch skutočne používalo strojové učenie v produkcii a najobľúbenejším prípadom použitia bolo rozpoznávanie pomenovaných entít, známe aj ako extrakcia entít.

Neurónové siete nie sú novinkou.

Už v polovici 20. storočia mali niektorí výskumníci intuíciu vytvoriť systém umelej inteligencie z neurónov, ktorý by napodobňoval ľudský mozog.

Neurónové siete však začali prinášať zaujímavé výsledky až okolo roku 2010.

Vďaka GPU bolo možné trénovať oveľa väčšie neurónové siete.

To bol začiatok takzvanej éry hlbokého učenia.

Prvé pôsobivé výsledky prinieslo počítačové videnie vďaka konvolučným neurónovým sieťam, ktoré umožnili pokročilú klasifikáciu obrazu.

Jazyk skutočne využil hlboké učenie až o niečo neskôr.

Do roku 2010 a do nástupu hlbokého učenia bola umelá inteligencia jazyka v podstate výskumnou oblasťou a len málo podnikov využívalo spracovanie prirodzeného jazyka vo svojich produktoch.

Pozrime sa teraz, ktorý nedávny prielom viedol ku generatívnej technológii umelej inteligencie, ktorú dnes všetci poznáme.

Skutočný prelom v oblasti jazykových modelov nastal v roku 2017, keď niektorí výskumníci spoločnosti Google vydali dokument s názvom Attention is All You Need.

Tento článok opisuje nový druh architektúry neurónovej siete nazývanej transformátor, ktorá je založená na novom princípe nazývanom samopozornosť.

Architektúra transformátora je základom všetkých pôsobivých jazykových modelov, ktoré sme videli od roku 2017.

Veľmi rýchlo potom bol spoločnosťou Google vycvičený prvý model podľa architektúry transformátora.

Tento model sa nazýval BERT.

BERT bol prvým produkčným jazykovým modelom, ktorý sa dal použiť na všetky druhy použitia, sumarizáciu, extrakciu entít, odpovedanie na otázky, preklad a ďalšie.

BERT bol naozaj zaujímavý, pretože po prvýkrát bol vytvorený model, ktorý bol dobrý v transferovom učení.

Model bol v podstate predtrénovaný na veľkom súbore neanotovaných údajov a potom sa dokázal rýchlo naučiť mnoho druhov prípadov použitia vďaka rýchlemu doladeniu, ktoré si vyžadovalo len veľmi málo dodatočných údajov.

OpenAI bol pôvodne neziskový startup AI, ktorý vydal nový druh architektúry GPT založený na transformátore.

Keď v roku 2019 vydali GPT-2, všetci boli ohromení schopnosťami tohto modelu generácie textu.

GPT-2 bol prvým generatívnym modelom výrobnej triedy.

Bola dobrá najmä na dopĺňanie textu.

Spoločnosť Microsoft ho napríklad používala na automatické dokončovanie v balíku Microsoft Office.

Bol vycvičený na 8 miliónoch webových stránok a 7 000 knihách a obsahoval 1,5 miliardy parametrov, čo samozrejme nie je veľa v porovnaní s dnešnými modelmi.

V roku 2020 OpenAI uskutočnila druhú revolúciu.

Stali sa ziskovou spoločnosťou a vydali výkonný generatívny model s názvom GPT-3.

GPT-3 bol stále založený na architektúre GPT, ale bol zameraný na viac obsahu.

Obsahoval 175 miliárd parametrov a na jeho niekoľkomesačné trénovanie boli potrebné tisíce GPU.

Aj keď to nie je oficiálne, vedci sa domnievajú, že predvýcvik GPT-3 stál približne 5 miliónov dolárov.

Bol to prvý univerzálny generatívny model, ktorý bol schopný riešiť všetky druhy prípadov použitia.

Na to, aby sa tento model čo najlepšie využil, už nebolo potrebné ani jemné doladenie.

Väčšinu času stačilo naučiť sa niekoľko záberov a v skutočnosti dokonca veľmi dobre fungoval aj v režime učenia bez záberov.

Potom sa v rovnakom duchu objavili ChatGPT a GPT-4.

Krátko na to spoločnosť OpenAI vydala ďalšie druhy prevratných modelov.

Vďaka DALI bolo možné z textu vytvárať krásne obrázky.

A vďaka aplikácii Whisper výrazne zvýšili latku v oblasti prevodu reči na text.

Možno ste si v tomto kurze všimli veľa rôznych pojmov.

Strojové učenie, hlboké učenie, neurónové siete, spracovanie prirodzeného jazyka, umelá inteligencia, generatívna umelá inteligencia.

Niektoré z nich sú špecifické technické termíny, iné sú len módne módne slová.

Osobne si myslím, že spracovanie prirodzeného jazyka je správny termín pre technológiu umelej inteligencie jazyka, ktorú dnes používame.

To však nie je veľmi dôležité.

Teraz už máte základnú predstavu o tom, odkiaľ pochádzajú naše modely umelej inteligencie.

História jazykovej umelej inteligencie

Summary

Transcript