V tomto kurzu NLP Cloud se zaměříme na důležité milníky v historii umělé inteligence jazyka (známé také jako zpracování přirozeného jazyka).
Zde je struktura kurzu:
Dobrý den, tady Julien Salinas z NLP Cloud, pokročilé platformy pro umělou inteligenci, která se hodí pro váš další projekt v oblasti umělé inteligence.
Pro odborníky na umělou inteligenci je zajímavé pochopit historii umělé inteligence a zjistit, které důležité milníky vedly ke špičkovým generativním modelům, které dnes všichni používáme.
V tomto kurzu se v rychlosti seznámím s historií jazykových modelů od 20. století do současnosti.
Umělá inteligence není novinkou.
Inženýři a lingvisté začali pracovat na umělé inteligenci pro porozumění textu kolem roku 1950.
To byla éra symbolického zpracování přirozeného jazyka až do 90. let.
V té době byl hlavní motivací strojový překlad a umělá inteligence byla založena na souboru pravidel.
Vylepšování algoritmu umělé inteligence spočívalo především v přidávání dalších pravidel do programu.
Vědci byli z prvních výsledků nadšeni a domnívali se, že strojový překlad bude za pár let vyřešen.
No, dodnes to není zcela vyřešeno.
Tyto systémy založené na pravidlech vedly také k vytvoření prvního, velmi jednoduchého chatbota s názvem Elisa.
Od roku 1990 jsme vstoupili do éry statistické NLP.
Použití umělé inteligence se statistikami namísto předem definovaných pravidel znamenalo, že jsme mohli začít vytvářet mnohem výkonnější systémy, aniž bychom museli předem promýšlet všechny scénáře.
Umožnil to pokrok v matematickém výzkumu, ale také vyšší výpočetní výkon nových procesorů.
Systémy by se učily na základě zpětné vazby od člověka, což je také známé jako učení pod dohledem, a později dokonce bez jakéhokoli zásahu člověka, což je také známé jako učení bez dohledu.
Bylo tedy možné trénovat zajímavé modely na základě obrovského objemu nestrukturovaných dat pocházejících z internetu.
V té době se v nových podnicích skutečně používalo strojové učení ve výrobě a nejoblíbenějším případem použití bylo rozpoznávání pojmenovaných entit, známé také jako extrakce entit.
Neuronové sítě nejsou novinkou.
Již v polovině 20. století někteří vědci tušili, že vytvoří systém umělé inteligence složený z neuronů, který by napodoboval lidský mozek.
Neuronové sítě však začaly přinášet zajímavé výsledky až kolem roku 2010.
Díky grafickým procesorům pak bylo možné trénovat mnohem větší neuronové sítě.
To byl začátek takzvané éry hlubokého učení.
První působivé výsledky přineslo počítačové vidění díky konvolučním neuronovým sítím, které umožnily pokročilou klasifikaci obrazu.
Jazyk skutečně využil hluboké učení až o něco později.
Až do roku 2010 a nástupu hlubokého učení byla umělá inteligence jazyka v podstatě výzkumnou oblastí a jen málo firem používalo zpracování přirozeného jazyka ve svých produktech.
Podívejme se nyní, který nedávný průlom vedl ke generativní technologii AI, kterou dnes všichni známe.
Skutečný průlom v oblasti jazykových modelů nastal v roce 2017, kdy někteří výzkumníci společnosti Google vydali článek s názvem Attention is All You Need.
Tento článek popisuje nový typ architektury neuronové sítě zvané transformátor, který je založen na novém principu zvaném sebepozorování.
Architektura transformátoru je základem všech působivých jazykových modelů, které jsme viděli od roku 2017.
Velmi rychle poté byl společností Google vycvičen první model podle architektury transformátoru.
Tento model byl nazván BERT.
BERT byl prvním produkčním jazykovým modelem, který bylo možné použít pro nejrůznější případy použití, shrnutí, extrakci entit, odpovědi na otázky, překlady a další.
BERT byl opravdu zajímavý, protože poprvé byl vytvořen model, který byl dobrý v transferovém učení.
Model byl v podstatě předem natrénován na velkém souboru neanotovaných dat a díky rychlému doladění vyžadujícímu jen velmi málo dodatečných dat se pak dokázal rychle naučit mnoho druhů případů použití.
OpenAI byl původně neziskový startup zabývající se umělou inteligencí, který vydal nový typ architektury GPT založený na transformátoru.
Když v roce 2019 vydali GPT-2, všichni byli ohromeni schopnostmi tohoto modelu textové generace.
GPT-2 byl prvním generativním modelem pro výrobní účely.
Zvláště dobře se osvědčil při doplňování textu.
Společnost Microsoft jej například používala pro automatické dokončování v Microsoft Office.
Byl vycvičen na 8 milionech webových stránek a 7000 knih a obsahoval 1,5 miliardy parametrů, což samozřejmě není mnoho ve srovnání s dnešními modely.
V roce 2020 provedla OpenAI druhou revoluci.
Stali se ziskovou společností a vydali výkonný generativní model GPT-3.
GPT-3 byl stále založen na architektuře GPT, ale trénoval více obsahu.
Obsahoval 175 miliard parametrů a k jeho tréninku bylo zapotřebí tisíce GPU po dobu několika měsíců.
I když to není oficiální, vědci se domnívají, že předškolní výcvik GPT-3 stál kolem 5 milionů dolarů.
Byl to první univerzální generativní model, který byl schopen řešit nejrůznější případy použití.
Aby bylo možné tento model co nejlépe využít, nebylo už ani potřeba jemného doladění.
Většinu času stačilo učení několika snímků a dokonce velmi dobře fungovalo i v režimu učení nulového počtu snímků.
Ve stejném duchu pak přišly i ChatGPT a GPT-4.
Brzy poté společnost OpenAI vydala další druhy převratných modelů.
Díky DALI bylo možné z textu generovat krásné obrázky.
A díky aplikaci Whisper výrazně zvýšili laťku v oblasti převodu řeči na text.
Možná jste si v tomto kurzu všimli mnoha různých termínů.
Strojové učení, hluboké učení, neuronové sítě, zpracování přirozeného jazyka, AI, generativní AI.
Některé z nich jsou specifické technické termíny, jiné jsou jen módní hesla.
Osobně se domnívám, že zpracování přirozeného jazyka je správný termín pro technologii umělé inteligence jazyka, kterou dnes používáme.
To však není příliš důležité.
Nyní máte základní představu o tom, odkud naše modely umělé inteligence pocházejí.