Natūralios kalbos apdorojimo rinka sparčiai auga, o ekosistemoje pastaruoju metu atsirado daug naujų įrankių. Čia pateikiamos bibliotekos, karkasai, kalbos, paslaugos ir veikėjai, apie kuriuos turėtumėte žinoti, kad 2022 m. į savo projektą galėtumėte integruoti teksto supratimą ir teksto generavimą.

Jau daugelį metų "Python" yra de facto standartinė duomenų mokslo kalba. Jei dirbate su natūralios kalbos apdorojimo projektu, greičiausiai kažkur bus Python kodas.
"Python" yra labai išraiškinga ir paprasta aukšto lygio kalba, todėl ji puikiai tinka mašininio mokymosi programoms. Tačiau dar svarbiau yra tai, kad Python kalba pasižymi išsamia bibliotekų ir struktūrų ekosistema, kuri palengvina duomenų mokslininkų gyvenimą.
Nesvarbu, ar dirbate su mokslinių tyrimų projektu, ar su gamybiniu projektu, ar mokote naujus modelius, ar naudojate juos išvadoms daryti, greičiausiai teks naudoti "Python". Jei jums būtinai reikia naudoti kitą kalbą, galite rasti gerų bibliotekų ir kitomis kalbomis, bet tik pagrindiniams naudojimo atvejams (sudėtingesniems naudojimo atvejams reikės taikyti mikroservisų strategiją ir naudoti REST API).

"Hugging Face Hub" yra centrinė saugykla, kurioje saugoma dauguma atvirojo kodo natūraliosios kalbos apdorojimo modelių.
Svetainėje "Hugging Face" lengva ne tik atrasti naujus dirbtinio intelekto modelius, bet ir įkelti bei dalytis savaisiais. Tai taip pat puiki vieta naršyti ir rasti duomenų rinkinius kitam projektui. Modelius ir duomenų rinkinius galima lengvai atsisiųsti ir naudoti naudojant jų Transformers sistemą (žr. toliau).
"Hugging Face" vizija - "demokratizuoti" natūralios kalbos apdorojimą ir tapti "mašinų mokymosi "Github".

"OpenAI" - tai bendrovė, sukūrusi pažangiausią kada nors sukurtą kalbos dirbtinio intelekto modelį GPT-3.
Pirmosios dvi šio modelio versijos (GPT ir GPT-2) buvo atvirojo kodo, tačiau "OpenAI" nusprendė, kad GPT-3 nebebus atvirojo kodo. Jei norite naudoti GPT-3, turite užsiprenumeruoti "OpenAI" API. Prieigą prie GPT-3 išeities kodo turi tik "Microsoft", nes ji įsigijo išskirtinę licenciją.
GPT modeliai yra teksto kūrimo dirbtinio intelekto modeliai, kurie labai gerai rašo tekstą kaip žmogus. Iš tikrųjų žmogui gana sunku nustatyti, ar tekstą parašė tikras žmogus, ar GPT-3...
Šiam naujam dirbtiniam intelektui sukurti ir apmokyti "OpenAI" prireikė milijonų dolerių. Jei norite jį naudoti, turėsite pereiti sudėtingą patvirtinimo procesą, nes "OpenAI" neleidžia naudoti savo modelio visų tipų programoms.
Siekiant pasivyti "OpenAI", išleidžiami nauji atvirojo kodo modeliai, pavyzdžiui, GPT-J ir GPT-NeoX.

Tai mes!
"NLP Cloud" - tai API, kuri leidžia lengvai naudoti pažangiausius natūralios kalbos apdorojimo dirbtinio intelekto modelius gamyboje.
Pavyzdžiui, galite kurti tekstą naudodami GPT-J ir GPT-NeoX, apibendrinti turinį naudodami "Facebook" Bart Large CNN, klasifikuoti tekstą naudodami "Roberta", išskirti esybes naudodami spaCy, versti turinį naudodami "Opus MT" ir dar daugiau.
"NLP Cloud" taip pat galima mokyti ir tobulinti savo dirbtinį intelektą arba diegti savo vidaus modelius. Pavyzdžiui, jei norite sukurti savo medicininį pokalbių robotą, paremtą GPT-J, jums tereikia įkelti duomenų rinkinį, sudarytą iš savo pramonės pavyzdžių, tada pradėti mokymo procesą ir naudoti galutinį modelį gamyboje per API.

"Deepspeed" yra "Microsoft" atvirojo kodo sistema, kurioje daugiausia dėmesio skiriama modelių lygiagretinimui.
Ką tiksliai tai reiškia?
Dirbtinio intelekto modeliai tampa vis didesni ir didesni (žr. GPT-3, GPT-J, GPT-NeoX 20B, T0, Fairseq 13B...). Šie didžiuliai modeliai atveria duris daugybei naujų taikomųjų programų, tačiau juos taip pat labai sunku paleisti.
Šių modelių mokymas ir patikimas jų paleidimas gamyboje išvadoms daryti gali būti vykdomas vertikalaus (naudojant didžiulius GPU, pvz., NVIDIA A100 arba "Google TPU") arba horizontalaus (lygiagrečiai naudojant kelis mažus GPU) masteliavimo būdu.
Antrasis būdas vis populiaresnis, nes jis pigesnis ir geriau pritaikomas. Nepaisant to, atlikti paskirstytą mokymą ir išvadų darymą toli gražu nėra lengva, todėl "Deepspeed" tikrai padeda.
Iš pradžių "Deepspeed" buvo skirta mokymo užduotims, tačiau dabar ji vis dažniau naudojama išvadoms daryti, nes ją lengva naudoti ir ji integruota su "Hugging Face Transformers" (žr. toliau).

"Big Science" - tai tyrėjų ir įmonių, dirbančių su dideliais kalbos modeliais, kolektyvas.
Pirmosiose dirbtuvėse buvo sukurtas dirbtinio intelekto modelis T0, kuris labai gerai supranta žmogaus nurodymus.
Dabar jie kuria daug didesnius modelius: jų tikslas - sukurti atvirojo kodo daugiakalbius dirbtinio intelekto modelius, kurie būtų didesni ir pažangesni nei GPT-3.

"SpaCy" yra "Python" natūralios kalbos apdorojimo sistema, kuri puikiai tinka gamybai: su ja lengva ir greita dirbti.
Tai Vokietijos dirbtinio intelekto bendrovės "Explosion AI" palaikoma sistema.
"SpaCy" labai gerai atpažįsta pavadintus objektus (dar vadinamus objektų išskyrimu) ir moka apie 50 skirtingų kalbų. Jie pateikia iš anksto apmokytus modelius, o jūs galite lengvai sukurti savo modelius, naudodamiesi anotuotais pavyzdžiais.
Prieš porą metų Hugging Face išleido "Transformers" rėmus. Dauguma pažangių natūralios kalbos apdorojimo modelių dabar yra pagrįsti "Transformers".
Tai Python modulis, pagrįstas PyTorch, Tensorflow ir Jax, kurį galima naudoti mokymui arba išvadoms daryti.
"Hugging Face Transformers" leidžia labai lengvai atsisiųsti ir įkelti modelius į "Hugging Face" centrą.
"Hugging Face" tokenizatorių biblioteka yra pažangių natūralios kalbos apdorojimo tokenizatorių rinkinys, naudojamas transformatoriais pagrįstuose modeliuose.
Tokenizacija - tai įvesties teksto skaidymas į nedidelius žodžius, kuriuos vėliau dirbtinio intelekto modelis gali koduoti ir apdoroti.
Žetonavimas gali atrodyti kaip smulkmena, tačiau taip nėra. Iš tikrųjų tai labai svarbi natūralios kalbos apdorojimo dalis, o tinkamo tokenizatoriaus naudojimas turi didelę reikšmę rezultatų kokybei ir našumui.
NLTK reiškia natūralios kalbos įrankių rinkinį. Tai jau daugelį metų naudojama Python sistema, kuri puikiai tinka moksliniams tyrimams ir švietimui.
NLTK nėra į gamybą orientuota sistema, tačiau ji puikiai tinka duomenų mokslininkams, bandantiems pradėti apdoroti natūralią kalbą.
2021 m. natūraliosios kalbos apdorojimo sritis gerokai išsivystė. Šiandien vis daugiau įmonių nori naudoti kalbos dirbtinio intelekto modelius gamyboje, todėl įdomu matyti, kad 2022 m. ekosistema beveik neturi nieko bendra su tuo, kas buvo prieš 5 metus.
Bibliotekos ir struktūros tampa vis pažangesnės, o kuriant didelius kalbos modelius, tokius kaip GPT-3, kyla naujų įdomių iššūkių.
Nekantrauju pamatyti, kokie bus 2023 m.!
Julien Salinas