Šajā NLP mākoņkursā mēs izceļam svarīgus pagrieziena punktus valodas mākslīgā intelekta (pazīstama arī kā dabiskās valodas apstrāde) vēsturē.
Šeit ir izklāstīta kursa struktūra:
Sveiki, šeit ir Julien Salinas no NLP Cloud, progresīvas mākslīgā intelekta platformas jūsu nākamajam mākslīgā intelekta projektam.
Mākslīgā intelekta praktiķiem ir interesanti izprast mākslīgā intelekta vēsturi un uzzināt, kuri svarīgi pavērsieni noveda pie mūsdienās izmantotajiem progresīvajiem ģeneratīvajiem modeļiem.
Šajā kursā es īsumā apskatīšu valodas modeļu vēsturi no 20. gadsimta līdz mūsdienām.
Mākslīgais intelekts nav nekas jauns.
Inženieri un lingvisti ap 1950. gadu sāka strādāt pie mākslīgā intelekta teksta izpratnes jomā.
Tā bija simboliskās dabiskās valodas apstrādes ēra līdz 90. gadiem.
Tolaik galvenā motivācija bija mašīntulkošana, un mākslīgā intelekta pamatā bija noteikumu kopums.
Mākslīgā intelekta algoritma uzlabošana galvenokārt bija saistīta ar to, lai programmai pievienotu vairāk noteikumu.
Pētnieki bija diezgan sajūsmināti par pirmajiem rezultātiem un uzskatīja, ka mašīntulkošana būs atrisināta dažu gadu laikā.
Nu, tas joprojām nav pilnībā atrisināts.
Šo uz noteikumiem balstīto sistēmu rezultātā tika izveidots arī pirmais, ļoti vienkāršais tērzēšanas robots Elisa.
No 1990. gada sākās statistiskās NLP ēra.
Izmantojot mākslīgo intelektu ar statistiku, nevis iepriekš definētus noteikumus, mēs varējām sākt veidot daudz jaudīgākas sistēmas, iepriekš nepārdomājot visus scenārijus.
Tas bija iespējams, pateicoties ne tikai matemātisko pētījumu progresam, bet arī palielinātajai skaitļošanas jaudai, ko nodrošināja jaunie procesori.
Sistēmas varētu mācīties, pamatojoties uz cilvēka atgriezenisko saiti, ko dēvē arī par uzraudzītu mācīšanos, un vēlāk pat bez jebkādas cilvēka iejaukšanās, ko dēvē arī par neuzraudzītu mācīšanos.
Tādējādi bija iespējams apmācīt interesantus modeļus, pamatojoties uz milzīgu nestrukturētu datu apjomu, kas nāk no interneta.
Tajā laikā jauni uzņēmumi faktiski izmantoja mašīnmācīšanos ražošanā, un vispopulārākais izmantošanas gadījums bija nosaukto vienību atpazīšana, ko dēvē arī par vienību ieguvi.
Neironu tīkli nav nekas jauns.
20. gadsimta vidū dažiem pētniekiem jau bija radusies intuīcija izveidot mākslīgā intelekta sistēmu no neironiem, kas atdarinātu cilvēka smadzenes.
Taču neironu tīkli sāka sniegt interesantus rezultātus tikai ap 2010. gadu.
Pateicoties GPU, bija iespējams apmācīt daudz lielākus neironu tīklus.
Tas bija tā sauktās dziļās mācīšanās ēras sākums.
Pirmie iespaidīgie rezultāti tika sasniegti datorredzes jomā, pateicoties konvolūcijas neironu tīkliem, kas ļāva veikt uzlabotu attēlu klasifikāciju.
Valoda patiešām guva labumu no dziļās mācīšanās tikai nedaudz vēlāk.
Līdz 2010. gadam un dziļās mācīšanās uzplaukumam valodas mākslīgais intelekts būtībā bija pētniecības joma, un tikai daži uzņēmumi izmantoja dabiskās valodas apstrādi savos produktos.
Tagad aplūkosim, kurš nesenais atklājums noveda pie mums šodien zināmās ģeneratīvā mākslīgā intelekta tehnoloģijas.
Reāls izrāviens valodas modeļu jomā notika 2017. gadā, kad daži Google pētnieki publicēja darbu ar nosaukumu "Attention is All You Need".
Šajā rakstā aprakstīta jauna veida neironu tīkla arhitektūra, ko sauc par transformatoru un kas balstās uz jaunu principu, ko sauc par pašatcerību.
Transformatora arhitektūra ir pamatā visiem iespaidīgajiem valodas modeļiem, ko esam redzējuši kopš 2017. gada.
Ļoti ātri pēc tam Google apmācīja pirmo modeli, izmantojot transformatora arhitektūru.
Šo modeli nosauca par BERT.
BERT bija pirmais ražošanas klases valodas modelis, ko varēja izmantot visdažādākajos lietojuma gadījumos, apkopojot, iegūstot būtības, atbildot uz jautājumiem, tulkojot un citos.
BERT bija patiešām interesants, jo pirmo reizi tika izveidots modelis, kas labi mācījās no pārneses.
Būtībā modelis tika iepriekš apmācīts, izmantojot lielu neanotētu datu kopu, un pēc tam tas spēja ātri apgūt daudzus izmantošanas gadījumu veidus, pateicoties ātrai precizēšanai, kam bija nepieciešams ļoti maz papildu datu.
OpenAI sākotnēji bija bezpeļņas mākslīgā intelekta jaunuzņēmums, kas izlaida jauna veida arhitektūru GPT, kuras pamatā ir transformators.
Kad 2019. gadā tika izlaists GPT-2, visi bija pārsteigti par šī teksta paaudzes modeļa iespējām.
GPT-2 bija pirmais ražošanas klases ģeneratīvais modelis.
Tas bija īpaši labs teksta aizpildīšanai.
Piemēram, Microsoft to izmantoja automātiskai pabeigšanai Microsoft Office lietojumprogrammā.
Tas tika apmācīts, izmantojot 8 miljonus tīmekļa lapu un 7000 grāmatu, un tajā bija iekļauti 1,5 miljardi parametru, kas, protams, nav daudz, salīdzinot ar mūsdienās pieejamajiem modeļiem.
2020. gadā OpenAI veica otru revolūciju.
Viņi kļuva par peļņu nesošu uzņēmumu un izlaida jaudīgu ģeneratīvo modeli GPT-3.
GPT-3 joprojām balstījās uz GPT arhitektūru, taču tika apmācīts plašākam saturam.
Tas ietvēra 175 miljardus parametru, un tā trenēšanai vairākus mēnešus bija nepieciešami tūkstošiem GPU.
Pat ja tas nav oficiāli, pētnieki uzskata, ka GPT-3 pirmapmācības izmaksas ir aptuveni 5 miljoni dolāru.
Tas bija pirmais universālais ģeneratīvais modelis, kas varēja izmantot visdažādākajos lietošanas gadījumos.
Lai maksimāli izmantotu šo modeli, vairs nebija nepieciešama smalka regulēšana.
Lielākoties pietika ar dažu kadru apguvi, un tas pat ļoti labi darbojās nulles kadru apguves režīmā.
Pēc tam tādā pašā garā parādījās ChatGPT un GPT-4.
Drīz pēc tam OpenAI izlaida cita veida revolucionārus modeļus.
Pateicoties DALI, no teksta bija iespējams ģenerēt skaistus attēlus.
Un, pateicoties Whisper, viņi ievērojami paaugstināja latiņu runas teksta pārvēršanas nozarē.
Iespējams, šajā kursā esat pamanījis daudz dažādu terminu.
Mašīnmācīšanās, dziļā mācīšanās, neironu tīkli, dabiskās valodas apstrāde, mākslīgais intelekts, ģeneratīvais mākslīgais intelekts.
Daži no tiem ir specifiski tehniski termini, bet citi ir vienkārši moderns modes vārds.
Es personīgi uzskatu, ka dabiskās valodas apstrāde ir pareizais termins valodas mākslīgā intelekta tehnoloģijai, ko mēs šodien izmantojam.
Taču tas nav ļoti svarīgi.
Tagad jums ir pamatizpratne par to, no kurienes nāk mūsu mākslīgā intelekta modeļi.