10 labākie dabiskās valodas apstrādes ietvari, pakalpojumi un dalībnieki 2022. gadā

Dabiskās valodas apstrādes tirgus strauji attīstās, un ekosistēmā nesen parādījās daudzi jauni rīki. Šeit ir uzskaitītas bibliotēkas, ietvari, valodas, pakalpojumi un dalībnieki, par kuriem jums būtu jāzina, lai 2022. gadā savā projektā integrētu teksta izpratni un teksta ģenerēšanu.

10 populārākās sistēmas, pakalpojumi un dalībnieki

1. Python | Labākā programmēšanas valoda NLP
2. Hugging Face | Centrāla visu modeļu krātuve
3. OpenAI | Uzņēmums, kas ražo GPT-3
4. NLP Cloud | API dabiskās valodas apstrādei ražošanā
5. Deepspeed | Mācību un secinājumu paralēlošana
6. Big Science | Mākslīgā intelekta pētniecības grupa Hugging Face
7. spaCy | Ātra un ražošanai gatava sistēma NLP
8. HF Transformers | Uzlabota sistēma NLP
9. HF Tokenizers | Uzlabots tokenizatoru kopums NLP
10. NLTK | Pētniecības un izglītības sistēma NLP

1. Python

Python

Python jau daudzus gadus ir de facto standarta valoda datu zinātnē. Ja strādājat pie dabiskās valodas apstrādes projekta, visticamāk, kaut kur būs atrodams Python kods.

Python ir ļoti izteiksmīga un vienkārša augsta līmeņa valoda, tāpēc tā ir lieliski piemērota mašīnmācīšanās lietojumprogrammām. Taču vēl svarīgāk ir tas, ka Python ir plaša bibliotēku un ietvaru ekosistēma, kas atvieglo datu zinātnieku dzīvi.

Neatkarīgi no tā, vai strādājat pie pētniecības projekta vai ražošanas projekta, vai apmācāt jaunus modeļus vai izmantojat tos secinājumiem, visticamāk, jums būs jāizmanto Python. Ja jums noteikti ir nepieciešams izmantot citu valodu, varat atrast labas bibliotēkas arī citās valodās, bet tikai pamata lietošanas gadījumiem (sarežģītākiem lietošanas gadījumiem risinājums būs pieņemt mikropakalpojumu stratēģiju un izmantot REST API).

2. Hugging Face Hub

Hugging Face

"Hugging Face Hub" ir centrālais repozitorijs, kurā glabājas lielākā daļa atvērtā koda dabiskās valodas apstrādes modeļu.

Pakalpojumā Hugging Face ir viegli atklāt jaunus mākslīgā intelekta modeļus, kā arī augšupielādēt un kopīgot savus. Tā ir arī lieliska vieta, kur pārlūkot un atrast datu kopas nākamajam projektam. Modeļus un datu kopas var viegli lejupielādēt un izmantot, izmantojot to Transformers sistēmu (skatīt tālāk).

Uzņēmuma Hugging Face vīzija ir "demokratizēt" dabiskās valodas apstrādi un kļūt par "mašīnmācīšanās Github".

3. OpenAI

OpenAI

OpenAI ir uzņēmums, kas izstrādājis GPT-3 - līdz šim modernāko valodas mākslīgā intelekta modeli.

Pirmās divas šā modeļa versijas (GPT un GPT-2) bija atvērtā koda, taču OpenAI nolēma, ka GPT-3 vairs nebūs atvērtā koda. Ja vēlaties izmantot GPT-3, jums jāpiesakās OpenAI API. Tikai Microsoft ir piekļuve GPT-3 pirmkodam, jo tā ir iegādājusies ekskluzīvu licenci.

GPT modeļi ir teksta ģenerēšanas mākslīgā intelekta modeļi, kas ļoti labi prot rakstīt tekstu kā cilvēks. Patiesībā cilvēkam ir diezgan grūti noteikt, vai tekstu ir uzrakstījis īsts cilvēks vai GPT-3...

Lai izstrādātu un apmācītu šo jauno mākslīgo intelektu, OpenAI tas izmaksāja miljoniem dolāru. Ja vēlaties to izmantot, jums būs jāiziet sarežģīts validācijas process, jo OpenAI neļauj izmantot visu veidu lietojumprogrammas.

Lai panāktu OpenAI, tiek izdoti jauni atvērtā koda modeļi, piemēram, GPT-J un GPT-NeoX.

4. NLP Cloud

Tas esam mēs!

NLP Cloud ir API, kas ļauj viegli izmantot vismodernākos dabiskās valodas apstrādes mākslīgā intelekta modeļus ražošanā.

Piemēram, varat ģenerēt tekstu ar GPT-J un GPT-NeoX, apkopot saturu ar Facebook Bart Large CNN, klasificēt teksta fragmentu ar Roberta, iegūt vienības ar spaCy, tulkot saturu ar Opus MT... un daudz ko citu.

NLP mākoņa tīklā ir iespējams arī apmācīt un precizēt savu mākslīgo intelektu vai izvietot savus iekšējos modeļus. Piemēram, ja vēlaties izveidot savu medicīnisko tērzēšanas robotu, kas balstīts uz GPT-J, jums vienkārši jāaugšupielādē datu kopa, kas sastāv no jūsu nozares piemēriem, pēc tam jāuzsāk apmācības process un galīgais modelis jāizmanto ražošanā, izmantojot API.

5. Deepspeed

Deepspeed

Deepspeed ir Microsoft atklātā koda ietvars, kas koncentrējas uz modeļu paralēlizāciju.

Ko tieši tas nozīmē?

Mākslīgā intelekta modeļi kļūst aizvien lielāki un lielāki (sk. GPT-3, GPT-J, GPT-NeoX 20B, T0, Fairseq 13B...). Šie milzīgie modeļi paver durvis daudzām jaunām lietojumprogrammām, taču tos ir arī ļoti grūti palaist.

Šos modeļus var apmācīt un droši izmantot ražošanā, lai izdarītu secinājumus, izmantojot vertikālo mērogojamību (izmantojot milzīgus GPU, piemēram, NVIDIA A100 vai Google TPU) vai horizontālo mērogojamību (paralēli izmantojot vairākus mazus GPU).

Otrā pieeja kļūst arvien populārāka, jo tā ir lētāka un labāk mērogojama. Tomēr veikt sadalītu apmācību un secinājumu izdarīšanu nebūt nav viegli, tāpēc Deepspeed patiešām palīdz.

Sākotnēji Deepspeed bija paredzēts apmācības uzdevumiem, taču tagad to arvien biežāk izmanto secinājumiem, jo to ir viegli lietot un integrēt kopā ar "Hugging Face Transformers" (sk. tālāk).

6. Big Science

Big Science

Big Science ir kolektīvs jeb pētnieki un uzņēmumi, kas strādā ar lieliem valodas modeļiem.

Pirmajā darbnīcā tika izveidots mākslīgā intelekta modelis T0, kas ļoti labi saprot cilvēka norādījumus.

Tagad viņi strādā pie daudz lielākiem modeļiem: viņu mērķis ir izveidot atvērtā koda daudzvalodu mākslīgā intelekta modeļus, kas ir lielāki un attīstītāki par GPT-3.

7. SpaCy

spaCy

SpaCy ir Python dabiskās valodas apstrādes ietvarstruktūra, kas ir lieliski piemērota ražošanai: tā ir ātra un viegli lietojama.

Šo sistēmu uztur Vācijas mākslīgā intelekta uzņēmums Explosion AI.

SpaCy ļoti labi veic nosaukto būtņu atpazīšanu (pazīstama arī kā būtņu ieguve), un aptuveni 50 dažādās valodās. Tā nodrošina iepriekš apmācītus modeļus, un jūs varat viegli izveidot savus modeļus, izmantojot anotētus piemērus.

8. HF Transformers

Pirms pāris gadiem Hugging Face izdeva Transformers ietvaru. Lielākā daļa modernu dabiskās valodas apstrādes modeļu tagad ir balstīti uz Transformers.

Tas ir Python modulis, kas ir balstīts uz PyTorch, Tensorflow un Jax un ko var izmantot apmācībai vai secinājumiem.

Ar pakalpojuma Hugging Face Transformers palīdzību ir ļoti viegli lejupielādēt un augšupielādēt modeļus pakalpojumā Hugging Face Hub.

9. HF Tokenizers

Bibliotēka Hugging Face tokenizers ir modernu dabiskās valodas apstrādes tokenizeru kopums, ko izmanto uz transformatoriem balstīti modeļi.

Tokenizācija ir ievades teksta sadalīšana mazos apakšvārdos, kurus pēc tam var kodēt un apstrādāt ar mākslīgā intelekta modeli.

Tokenizācija var šķist sīkums, taču tā nav. Patiesībā tā ir būtiska dabiskās valodas apstrādes daļa, un pareizas tokenizēšanas metodes izmantošana būtiski ietekmē rezultātu kvalitāti un veiktspēju.

10. NLTK

NLTK nozīmē Natural Language Toolkit. Tā ir Python ietvarstruktūra, kas tiek izmantota jau daudzus gadus un ir lieliski piemērota pētniecībai un izglītībai.

NLTK nav uz ražošanu orientēta sistēma, taču tā ir ideāli piemērota datu zinātniekiem, kas cenšas apgūt dabiskās valodas apstrādi.

Secinājums

2021. gadā ir ievērojami attīstījusies dabiskās valodas apstrādes joma. Šodien arvien vairāk uzņēmumu vēlas izmantot valodas mākslīgā intelekta modeļus ražošanā, un ir interesanti redzēt, ka 2022. gadā ekosistēmai nav gandrīz nekā kopīga ar to, kāda tā bija pirms 5 gadiem.

Bibliotēkas un ietvari kļūst arvien modernāki, un lielu valodas modeļu, piemēram, GPT-3, izveide rada jaunus interesantus izaicinājumus.

Nevaru sagaidīt, lai redzētu, kāds būs 2023. gads!

Julien Salinas
NLP Cloud tehniskais direktors