Top 10 loodusliku keele töötlemise raamistikud, teenused ja osalejad 2022. aastal

Loomuliku keeletöötluse turg õitseb ja viimasel ajal on ökosüsteemi ilmunud palju uusi vahendeid. Siin on raamatukogud, raamistikud, keeled, teenused ja osalejad, mida peaksite teadma, et integreerida tekstimõistmine ja tekstilooming oma projekti 2022. aastal.

10 parimat raamistikku, teenust ja tegijat

1. Python | Parim programmeerimiskeel NLP
2. Hugging Face | Kõigi mudelite keskne hoidla
3. OpenAI | GPT-3 taga olev ettevõte
4. NLP Cloud | API loomuliku keele töötlemiseks tootmises
5. Deepspeed | Paralleelselt oma koolituse ja järelduste tegemine
6. Big Science | Hugging Face'i tehisintellekti uurimisrühm
7. spaCy | Kiire ja tootmisvalmis raamistik NLP
8. HF Transformers | Täiustatud raamistik NLP
9. HF Tokenizers | Täiustatud tokenizerite komplekt NLP
10. NLTK | Teadus- ja haridusraamistik NLP

1. Python

Python

Python on juba aastaid olnud de facto standardkeel andmetöötluse valdkonnas. Kui te töötate loomuliku keele töötlemise projektiga, siis on tõenäoliselt kuskil ka Python-koodi.

Python on väga väljendusrikas ja lihtne kõrgetasemeline keel, mistõttu sobib see ideaalselt masinõppe rakenduste jaoks. Veelgi olulisem on aga see, et Pythonil on olemas ulatuslik raamatukogude ja raamistike ökosüsteem, mis teeb andmeteadlaste elu lihtsamaks.

Olenemata sellest, kas te töötate uurimisprojektis või tootmisprojektis, kas te treenite uusi mudeleid või kasutate neid järelduste tegemiseks, peate tõenäoliselt kasutama Pythoni keelt. Kui teil on tingimata vaja kasutada mõnda muud keelt, võite leida toredaid raamatukogusid ka teistes keeltes, kuid ainult põhiliste kasutusjuhtumite jaoks (keerukamate kasutusjuhtumite puhul on lahendus võtta kasutusele mikroteenuste strateegia ja kasutada REST API-d).

2. Hugging Face Hub

Hugging Face

Hugging Face Hub on keskne repositoorium, kus hoitakse enamikku avatud lähtekoodiga loomuliku keele töötlemise mudeleid.

Hugging Face'is on lihtne avastada uusi AI-mudeleid, aga ka laadida üles ja jagada oma mudeleid. Samuti on see suurepärane koht, kus saate oma järgmise projekti jaoks andmekogumeid sirvida ja leida. Mudeleid ja andmekogumeid saab hõlpsasti alla laadida ja kasutada nende Transformersi raamistiku kaudu (vt allpool).

Hugging Face'i visioon on "demokratiseerida" loomulikku keeletöötlust ja saada "masinõppe Githubiks".

3. OpenAI

OpenAI

OpenAI on ettevõte, mis seisab GPT-3, kõige arenenuma keelelise tehisintellekti mudeli taga, mis on kunagi loodud.

Selle mudeli kaks esimest versiooni (GPT ja GPT-2) olid avatud lähtekoodiga, kuid OpenAI otsustas, et GPT-3 ei ole enam avatud lähtekoodiga. Kui soovite kasutada GPT-3, peate tellima OpenAI API. Ainult Microsoftil on juurdepääs GPT-3 lähtekoodile, kuna nad on ostnud ainuõigusliku litsentsi.

GPT-mudelid on teksti genereerivad AI-mudelid, mis oskavad väga hästi kirjutada teksti nagu inimene. Inimesel on tegelikult üsna raske tuvastada, kas teksti on kirjutanud tõeline inimene või GPT-3...

Selle uue tehisintellekti väljatöötamine ja treenimine läks OpenAI-le maksma miljoneid dollareid. Kui soovite seda kasutada, peate läbima nõudliku valideerimisprotsessi, sest OpenAI ei luba igat tüüpi rakendustel oma mudelit kasutada.

OpenAI-le järele jõudmiseks avaldatakse nüüd uusi avatud lähtekoodiga mudeleid, nagu GPT-J ja GPT-NeoX.

4. NLP Cloud

See oleme meie!

NLP Cloud on API, mis võimaldab teil hõlpsasti kasutada kõige arenenumaid loomuliku keeletöötluse tehisintellekti mudeleid tootmises.

Näiteks saab teksti genereerida GPT-J ja GPT-NeoXiga, sisu kokku võtta Facebooki Bart Large CNNiga, teksti klassifitseerida Roberta abil, eraldada üksusi spaCy abil, tõlkida sisu Opus MTga... ja palju muud.

NLP Cloudis on võimalik koolitada ja häälestada ka oma tehisintellekti või võtta kasutusele oma majasiseseid mudeleid. Näiteks kui soovite luua GPT-J-l põhineva oma meditsiinilise juturobotiga, peate lihtsalt üles laadima oma tööstusharust pärit näidetest koosneva andmekogumi, seejärel alustama treeningprotsessi ja kasutama oma lõplikku mudelit API kaudu tootmises.

5. Deepspeed

Deepspeed

Deepspeed on Microsofti avatud lähtekoodiga raamistik, mis keskendub mudelite paralleelsusele.

Mida see täpselt tähendab?

AI-mudelid muutuvad üha suuremaks (vt GPT-3, GPT-J, GPT-NeoX 20B, T0, Fairseq 13B...). Need suured mudelid avavad ukse tonnidele uutele rakendustele, kuid neid on ka väga raske käivitada.

Nende mudelite treenimine ja nende usaldusväärne käivitamine tootmises järelduste tegemiseks võib toimuda kas vertikaalse skaleeritavuse (kasutades suuri GPUsid nagu NVIDIA A100 või Google TPUd) või horisontaalse skaleeritavuse (kasutades paralleelselt mitut väikest GPUd) abil.

Teine lähenemisviis on üha populaarsem, sest see on odavam ja paremini skaleeritav. Sellegipoolest ei ole hajutatud koolituse ja järelduste tegemine kaugeltki lihtne, mistõttu Deepspeed on tõesti abiks.

Deepspeed oli algselt suunatud treeningülesannetele, kuid nüüd kasutatakse seda üha enam järelduste tegemiseks, kuna seda on lihtne kasutada ja see on integreeritud Hugging Face Transformersiga (vt allpool).

6. Big Science

Big Science

Big Science on kollektiiv või teadlased ja ettevõtted, kes töötavad suurte keelemudelite kallal.

Nende esimene töötuba andis tulemuseks tehisintellekti mudeli nimega T0, mis mõistab väga hästi inimese juhiseid.

Nüüd töötavad nad palju suuremate mudelite kallal: nende eesmärk on luua avatud lähtekoodiga mitmekeelsed tehisintellekti mudelid, mis on suuremad ja arenenumad kui GPT-3.

7. SpaCy

spaCy

SpaCy on Pythoni keeletöötlusraamistik, mis sobib ideaalselt tootmiseks: see on kiire ja lihtsasti mängitav.

See on raamistik, mida haldab Saksa tehisintellekti ettevõte nimega Explosion AI.

SpaCy on väga hea nimetuste tuvastamisel (tuntud ka kui entiteetide väljavõtmine) ja seda umbes 50 erinevas keeles. Nad pakuvad eelnevalt treenitud mudeleid ja te saate hõlpsasti luua oma mudeleid annoteeritud näidete abil.

8. HF Transformers

Transformersi raamistiku andis paar aastat tagasi välja Hugging Face. Enamik arenenud loodusliku keele töötlemise mudeleid põhineb nüüd Transformersil.

See on Python-moodul, mis põhineb PyTorchil, Tensorflow'il ja Jaxil ja mida saab kasutada nii treenimiseks kui ka järelduste tegemiseks.

Hugging Face Transformers teeb mudelite allalaadimise ja üleslaadimise Hugging Face Hubi väga lihtsaks.

9. HF Tokenizers

Hugging Face'i tokenizerite raamatukogu on komplekt täiustatud loodusliku keele töötlemise tokenizeritest, mida kasutavad transformaatoripõhised mudelid.

Tokeniseerimine tähendab sisendteksti jagamist väikesteks alamsõnadeks, mida AI-mudel saab seejärel kodeerida ja töödelda.

Tokeniseerimine võib tunduda detailina, kuid seda see ei ole. Tegelikult on see loomuliku keeletöötluse kriitiline osa ning õige tokeniseerija kasutamine muudab tulemuste kvaliteedi ja jõudluse osas väga palju.

10. NLTK

NLTK tähendab Natural Language Toolkit. See on Pythoni raamistik, mis on olnud kasutusel juba aastaid ja mis sobib suurepäraselt teadusuuringuteks ja hariduseks.

NLTK ei ole tootmisele orienteeritud raamistik, kuid see sobib ideaalselt andmeteadlastele, kes üritavad loomuliku keeletöötluse valdkonnas tegutseda.

Kokkuvõte

Loomuliku keeletöötluse valdkond on 2021. aastal märkimisväärselt arenenud. Tänapäeval soovib üha rohkem ettevõtteid kasutada keeletehnoloogilisi tehisintellekti mudeleid tootmises ja see on huvitav, et 2022. aastal ei ole ökosüsteemil enamvähem midagi pistmist sellega, mis see oli 5 aastat tagasi.

Raamatukogud ja raamistikud muutuvad üha arenenumaks ning suurte keelemudelite, nagu GPT-3, loomine tõstatab uusi huvitavaid väljakutseid.

Ei jõua ära oodata, milliseks kujuneb 2023. aasta!

Julien Salinas
NLP Cloud tehnoloogiajuht

Top 10 loodusliku keele töötlemise raamistikud, teenused ja tegijad 2022. aastal

21. märts 2022