W tym kursie NLP Cloud podkreślamy ważne kamienie milowe w historii sztucznej inteligencji językowej (znanej również jako przetwarzanie języka naturalnego).
Oto struktura kursu:
Cześć, tu Julien Salinas z NLP Cloud, zaawansowanej platformy AI do następnego projektu AI.
Dla praktyków sztucznej inteligencji interesujące jest zrozumienie historii sztucznej inteligencji i zobaczenie, które ważne kamienie milowe doprowadziły do najnowocześniejszych modeli generatywnych, z których wszyscy dziś korzystamy.
W tym kursie szybko przejdę przez historię modeli językowych od XX wieku do dziś.
Sztuczna inteligencja nie jest niczym nowym.
Inżynierowie i lingwiści zaczęli pracować nad sztuczną inteligencją do rozumienia tekstu około 1950 roku.
Była to era symbolicznego przetwarzania języka naturalnego aż do lat 90-tych.
W tamtym czasie główną motywacją było tłumaczenie maszynowe, a sztuczna inteligencja opierała się na zestawie reguł.
Ulepszanie algorytmu sztucznej inteligencji polegało głównie na dodawaniu kolejnych reguł do programu.
Naukowcy byli dość entuzjastycznie nastawieni do swoich pierwszych wyników i uważali, że tłumaczenie maszynowe będzie problemem rozwiązanym w ciągu kilku lat.
Cóż, do dziś nie jest to całkowicie rozwiązane.
Te systemy oparte na regułach doprowadziły również do powstania pierwszego, bardzo prostego chatbota o nazwie Elisa.
Od 1990 roku wkroczyliśmy w erę statystycznego NLP.
Wykorzystanie sztucznej inteligencji ze statystykami zamiast predefiniowanych reguł oznaczało, że mogliśmy zacząć budować znacznie potężniejsze systemy bez konieczności wcześniejszego przemyślenia wszystkich scenariuszy.
Było to możliwe dzięki postępowi badań matematycznych, ale także dzięki zwiększonej mocy obliczeniowej zapewnianej przez nowe procesory.
Systemy będą uczyć się w oparciu o informacje zwrotne od człowieka, znane również jako uczenie nadzorowane, a później nawet bez jakiejkolwiek interwencji człowieka, znane również jako uczenie nienadzorowane.
Dzięki temu możliwe było trenowanie interesujących modeli w oparciu o ogromną ilość nieustrukturyzowanych danych pochodzących z Internetu.
W tym czasie nowe firmy faktycznie wykorzystywały uczenie maszynowe w produkcji, a najpopularniejszym przypadkiem użycia było rozpoznawanie nazwanych encji, znane również jako ekstrakcja encji.
Sieci neuronowe nie są niczym nowym.
W połowie XX wieku niektórzy badacze mieli już intuicję stworzenia systemu sztucznej inteligencji zbudowanego z neuronów, który naśladowałby ludzki mózg.
Jednak sieci neuronowe zaczęły dawać interesujące wyniki dopiero około 2010 roku.
Dzięki procesorom graficznym możliwe było trenowanie znacznie większych sieci neuronowych.
Był to początek tak zwanej ery głębokiego uczenia.
Pierwsze imponujące wyniki pojawiły się w wizji komputerowej dzięki konwolucyjnym sieciom neuronowym, które pozwoliły na zaawansowaną klasyfikację obrazów.
Język naprawdę skorzystał z głębokiego uczenia się dopiero nieco później.
Do 2010 roku i pojawienia się głębokiego uczenia się, sztuczna inteligencja językowa była zasadniczo obszarem badań i niewiele firm wykorzystywało przetwarzanie języka naturalnego w swoich produktach.
Zobaczmy teraz, który z ostatnich przełomów doprowadził do powstania technologii generatywnej sztucznej inteligencji, którą wszyscy dziś znamy.
Prawdziwy przełom dla modeli językowych nastąpił w 2017 roku, kiedy to niektórzy badacze Google opublikowali artykuł zatytułowany Attention is All You Need.
W artykule opisano nowy rodzaj architektury sieci neuronowej zwanej transformatorem, opartej na nowej zasadzie zwanej samoobserwacją.
Architektura transformatorowa jest sercem wszystkich imponujących modeli językowych, które widzieliśmy od 2017 roku.
Bardzo szybko pierwszy model został wytrenowany przez Google zgodnie z architekturą transformatora.
Model ten został nazwany BERT.
BERT był pierwszym modelem językowym klasy produkcyjnej, który mógł być wykorzystywany do wszelkiego rodzaju zastosowań, podsumowywania, ekstrakcji encji, odpowiadania na pytania, tłumaczenia i innych.
BERT był naprawdę interesujący, ponieważ po raz pierwszy stworzono model, który był dobry w uczeniu transferowym.
Zasadniczo model został wstępnie wytrenowany na dużym zestawie nieanotowanych danych, a następnie był w stanie szybko nauczyć się wielu rodzajów przypadków użycia dzięki szybkiemu dostrojeniu wymagającemu bardzo niewielkiej ilości dodatkowych danych.
OpenAI był początkowo startupem non-profit zajmującym się sztuczną inteligencją, który wypuścił nowy rodzaj architektury, GPT, oparty na transformatorze.
Kiedy w 2019 roku wypuścili GPT-2, wszyscy byli pod wrażeniem możliwości tego modelu generacji tekstowej.
GPT-2 był pierwszym modelem generatywnym klasy produkcyjnej.
Szczególnie dobrze sprawdza się przy uzupełnianiu tekstu.
Na przykład był on używany przez Microsoft do automatycznego uzupełniania w pakiecie Microsoft Office.
Został on przeszkolony na 8 milionach stron internetowych i 7000 książek i zawierał 1,5 miliarda parametrów, co oczywiście nie jest dużo w porównaniu z modelami, które mamy dzisiaj.
W 2020 roku OpenAI dokonało drugiej rewolucji.
Stali się firmą nastawioną na zysk i wypuścili potężny model generatywny o nazwie GPT-3.
GPT-3 nadal opierał się na architekturze GPT, ale trenował więcej treści.
Zawierał on 175 miliardów parametrów i wymagał tysięcy procesorów graficznych do trenowania przez kilka miesięcy.
Nawet jeśli nie jest to oficjalne, naukowcy uważają, że przedtreningowy GPT-3 kosztował około 5 milionów dolarów.
Był to pierwszy wszechstronny model generatywny, który był w stanie uwzględnić wszystkie rodzaje przypadków użycia.
Aby w pełni wykorzystać możliwości tego modelu, precyzyjne dostrojenie nie było już nawet potrzebne.
W większości przypadków wystarczyło nauczyć się kilku strzałów, a nawet działało to bardzo dobrze w trybie uczenia się bez strzałów.
Następnie, w tym samym duchu, pojawiły się ChatGPT i GPT-4.
Wkrótce potem OpenAI wypuściło inne rodzaje przełomowych modeli.
Dzięki DALI możliwe było generowanie pięknych obrazów z tekstu.
Dzięki Whisper znacznie podnieśli poprzeczkę w branży zamiany mowy na tekst.
Być może zauważyłeś wiele różnych terminów w tym kursie.
Uczenie maszynowe, głębokie uczenie, sieci neuronowe, przetwarzanie języka naturalnego, sztuczna inteligencja, generatywna sztuczna inteligencja.
Niektóre z nich są specyficznymi terminami technicznymi, podczas gdy inne są po prostu modnymi hasłami.
Osobiście uważam, że przetwarzanie języka naturalnego jest właściwym terminem dla technologii językowej sztucznej inteligencji, z której obecnie korzystamy.
Nie jest to jednak zbyt ważne.
Masz teraz podstawową wiedzę na temat tego, skąd pochodzą nasze modele AI.