Top 10 természetes nyelvi feldolgozási keretrendszerek, szolgáltatások és szereplők 2022-ben

A természetes nyelvi feldolgozás piaca virágzik, és az utóbbi időben számos új eszköz jelent meg az ökoszisztémában. Íme, melyek azok a könyvtárak, keretrendszerek, nyelvek, szolgáltatások és szereplők, amelyeket érdemes ismernie ahhoz, hogy 2022-ben integrálni tudja a szövegértést és a szöveggenerálást a projektjébe.

AI

Top 10 keretrendszer, szolgáltatás és szereplő

1. Python

Python

A Python már évek óta az adattudomány de facto standard nyelve. Ha természetes nyelvi feldolgozási projekten dolgozik, akkor nagy valószínűséggel valahol Python kód is található.

A Python egy nagyon kifejező és egyszerű, magas szintű nyelv, ami tökéletesen alkalmassá teszi a gépi tanulási alkalmazásokhoz. De ami még ennél is fontosabb, a Python a könyvtárak és keretrendszerek átfogó ökoszisztémájából profitál, amelyek megkönnyítik az adattudósok életét.

Akár egy kutatási, akár egy gyártási projekten dolgozik, akár új modelleket képez ki, akár következtetésre használja őket, nagy valószínűséggel Pythont kell használnia. Ha feltétlenül más nyelvet kell használnia, más nyelveken is találhat szép könyvtárakat, de csak az alapvető felhasználási esetekhez (a fejlettebb felhasználási esetekhez a megoldás a mikroszolgáltatási stratégia elfogadása és a REST API használata lesz).

2. Hugging Face Hub

Hugging Face

Az Hugging Face Hub egy központi tároló, amely a legtöbb nyílt forráskódú természetes nyelvi feldolgozó modellt tárolja.

Az Hugging Face oldalon könnyen felfedezhetsz új AI modelleket, de a sajátjaidat is feltöltheted és megoszthatod. Ez egy remek hely arra is, hogy böngészhessen és adathalmazokat találjon a következő projektjéhez. A modellek és adatkészletek könnyen letölthetők és felhasználhatók a Transformers keretrendszerükön keresztül (lásd alább).

A Hugging Face célja a természetes nyelvi feldolgozás "demokratizálása" és a "gépi tanulás Githubjává" válása.

3. OpenAI

OpenAI

Az OpenAI a GPT-3, a valaha létrehozott legfejlettebb nyelvi mesterséges intelligenciamodell mögött álló vállalat.

A modell két első verziója (GPT és GPT-2) nyílt forráskódú volt, de az OpenAI úgy döntött, hogy a GPT-3 már nem lesz nyílt forráskódú. Ha a GPT-3-at szeretné használni, elő kell iratkoznia az OpenAI API-ra. A GPT-3 forráskódjához csak a Microsoft fér hozzá, mivel kizárólagos licencet vásárolt.

A GPT modellek olyan szöveggeneráló mesterséges intelligenciamodellek, amelyek nagyon jól tudnak emberi módon szöveget írni. Egy embernek valójában elég nehéz felismerni, hogy egy szöveget egy valódi ember vagy a GPT-3...

Az OpenAI-nak dollármilliókba került ennek az új mesterséges intelligenciának a megtervezése és betanítása. Ha használni szeretné, akkor egy igényes validálási folyamaton kell átesnie, mivel az OpenAI nem engedi, hogy minden típusú alkalmazás használhassa a modelljét.

Az OpenAI felzárkózása érdekében most új nyílt forráskódú modelleket adnak ki, mint például a GPT-J és a GPT-NeoX.

4. NLP Cloud

NLP Cloud

Ez mi vagyunk!

Az NLP Cloud egy olyan API, amely lehetővé teszi a legfejlettebb természetes nyelvfeldolgozó AI modellek egyszerű használatát a termelésben.

Például a GPT-J és a GPT-NeoX segítségével szöveget generálhat, a Facebook Bart Large CNN segítségével tartalmat foglalhat össze, a Roberta segítségével osztályozhat egy szöveget, a spaCy segítségével entitásokat vonhat ki, az Opus MT segítségével tartalmat fordíthat... és még sok más.

Az NLP Cloudon lehetőség van saját mesterséges intelligencia képzésére és finomhangolására, illetve saját házon belüli modellek telepítésére is. Ha például saját orvosi chatbotot szeretne létrehozni a GPT-J alapján, egyszerűen csak fel kell töltenie az iparágából származó saját példákból álló adatkészletét, majd el kell indítania a képzési folyamatot, és a végleges modellt az API-n keresztül használhatja a termelésben.

5. Deepspeed

Deepspeed

A Deepspeed a Microsoft nyílt forráskódú keretrendszere, amely a modellek párhuzamosítására összpontosít.

Mit jelent ez pontosan?

Az AI modellek egyre nagyobbak és nagyobbak (lásd GPT-3, GPT-J, GPT-NeoX 20B, T0, Fairseq 13B...). Ezek a hatalmas modellek rengeteg új alkalmazás előtt nyitnak kaput, de nagyon nehéz őket futtatni.

Ezeknek a modelleknek a kiképzése és megbízható futtatása a termelésben a következtetések levonásához vagy vertikális skálázhatósággal (hatalmas GPU-k, például NVIDIA A100 vagy Google TPU-k használatával) vagy horizontális skálázhatósággal (több kis GPU párhuzamos használatával) történhet.

A 2. megközelítés egyre népszerűbb, mivel olcsóbb és jobban skálázható. Mindazonáltal az elosztott képzés és következtetés elvégzése korántsem egyszerű, ezért a Deepspeed nagy segítség.

A Deepspeed eredetileg képzési feladatokra készült, de mostanában egyre gyakrabban használják következtetésre, mivel könnyen használható és integrálható az Hugging Face Transformers (lásd alább) programmal.

6. Big Science

Big Science

A Big Science egy olyan kutatói és vállalati kollektíva, amely nagy nyelvi modelleken dolgozik.

Első workshopjukon egy T0 nevű mesterséges intelligenciamodellt hoztak létre, amely nagyon jól érti az emberi utasításokat.

Most sokkal nagyobb modelleken dolgoznak: céljuk, hogy a GPT-3-nál nagyobb és fejlettebb, nyílt forráskódú, többnyelvű mesterséges intelligencia modelleket hozzanak létre.

7. SpaCy

spaCy

A SpaCy egy Python természetes nyelvi feldolgozó keretrendszer, amely tökéletesen alkalmas a termelésre: gyors és könnyen játszható.

Ezt a keretrendszert az Explosion AI nevű német AI vállalat tartja fenn.

A SpaCy nagyon jó a Named Entity Recognition (más néven entitás-kivonatolás) területén, és körülbelül 50 különböző nyelven. Előre betanított modelleket biztosítanak, és a saját modelleket is könnyen létrehozhatja a megjegyzésekkel ellátott példákon keresztül.

8. HF Transformers

A Transformers keretet az Hugging Face adta ki néhány évvel ezelőtt. A legtöbb fejlett természetes nyelvfeldolgozó modell ma már a Transformersre épül.

Ez egy PyTorch-ra, Tensorflow-ra és Jax-ra épülő Python modul, amely akár képzésre, akár következtetésre használható.

Az Hugging Face Transformers nagyon megkönnyíti a modellek letöltését és feltöltését az Hugging Face Hub-ra.

9. HF Tokenizers

A Hugging Face tokenizers könyvtára egy sor fejlett természetes nyelvfeldolgozó tokenizer, amelyet transzformátor-alapú modellek használnak.

A tokenizálás a bemeneti szöveget apró részszavakra bontja, amelyeket aztán a mesterséges intelligenciamodell kódolhat és feldolgozhat.

A tokenizálás apróságnak tűnhet, de nem az. Valójában ez a természetes nyelvi feldolgozás kritikus része, és a megfelelő tokenizáló használata óriási különbséget jelent az eredmények minősége és a teljesítmény szempontjából.

10. NLTK

Az NLTK a Natural Language Toolkit rövidítése. Ez egy évek óta létező Python keretrendszer, amely kiválóan alkalmas kutatásra és oktatásra.

Az NLTK nem egy termelésorientált keretrendszer, de tökéletes az adattudósok számára, akik a természetes nyelvfeldolgozással próbálkoznak.

Következtetés

A természetes nyelvi feldolgozás területe 2021-ben jelentősen fejlődött. Ma már egyre több vállalat szeretne nyelvi AI modelleket használni a termelésben, és érdekes látni, hogy 2022-ben az ökoszisztémának nagyjából semmi köze sincs ahhoz, ami 5 évvel ezelőtt volt.

A könyvtárak és keretrendszerek egyre fejlettebbek, és a GPT-3-hoz hasonló nagy nyelvi modellek létrehozása új, érdekes kihívásokat vet fel.

Alig várom, hogy lássam, milyen lesz 2023!

Julien Salinas
CTO az NLP Cloud-nál