10 najlepších rámcov, služieb a aktérov spracovania prirodzeného jazyka v roku 2022

Trh so spracovaním prirodzeného jazyka je na vzostupe a v ekosystéme sa nedávno objavilo mnoho nových nástrojov. Tu sú knižnice, rámce, jazyky, služby a aktéri, o ktorých by ste mali vedieť, aby ste mohli do svojho projektu v roku 2022 integrovať porozumenie textu a generovanie textu.

10 najlepších rámcov, služieb a aktérov

1. Python | Najlepší programovací jazyk pre NLP
2. Hugging Face | Centrálne úložisko pre všetky modely
3. OpenAI | Spoločnosť stojaca za GPT-3
4. NLP Cloud | Rozhranie API pre spracovanie prirodzeného jazyka vo výrobe
5. Deepspeed | Paralelizácia školenia a odvodzovania
6. Big Science | Výskumná skupina AI Hugging Face
7. spaCy | Rýchly a na výrobu pripravený rámec pre NLP
8. HF Transformers | Pokročilý rámec pre NLP
9. HF Tokenizers | Rozšírená sada tokenizátorov pre NLP
10. NLTK | Rámec výskumu a vzdelávania pre NLP

1. Python

Python

Python je už mnoho rokov de facto štandardným jazykom v oblasti dátovej vedy. Ak pracujete na projekte spracovania prirodzeného jazyka, s najväčšou pravdepodobnosťou sa niekde nachádza kód v jazyku Python.

Python je veľmi expresívny a jednoduchý vysokoúrovňový jazyk, ktorý sa dokonale hodí na aplikácie strojového učenia. Ešte dôležitejšie však je, že Python ťaží z rozsiahleho ekosystému knižníc a rámcov, ktoré dátovým vedcom uľahčujú život.

Či už pracujete na výskumnom alebo produkčnom projekte, či už trénujete nové modely alebo ich používate na odvodzovanie, s najväčšou pravdepodobnosťou budete musieť používať Python. Ak nevyhnutne potrebujete použiť iný jazyk, môžete nájsť pekné knižnice aj v iných jazykoch, ale len pre základné prípady použitia (pre pokročilejšie prípady použitia bude riešením prijať stratégiu mikroslužieb a použiť REST API).

2. Hugging Face Hub

Hugging Face

Hugging Face Hub je centrálne úložisko, v ktorom je uložená väčšina modelov spracovania prirodzeného jazyka s otvoreným zdrojovým kódom.

Na stránke Hugging Face môžete ľahko objavovať nové modely s umelou inteligenciou, ale aj nahrávať a zdieľať tie svoje. Je to tiež skvelé miesto na prezeranie a vyhľadávanie súborov údajov pre váš ďalší projekt. Modely a súbory údajov možno ľahko stiahnuť a používať prostredníctvom ich rámca Transformers (pozri nižšie).

Víziou spoločnosti Hugging Face je "demokratizovať" spracovanie prirodzeného jazyka a stať sa "Githubom strojového učenia".

3. OpenAI

OpenAI

OpenAI je spoločnosť, ktorá stojí za GPT-3, najpokročilejším modelom jazykovej umelej inteligencie, aký bol kedy vytvorený.

Prvé dve verzie tohto modelu (GPT a GPT-2) boli open-source, ale OpenAI sa rozhodla, že GPT-3 už nebude open-source. Ak chcete používať GPT-3, musíte si predplatiť API OpenAI. Prístup k zdrojovému kódu GPT-3 má len spoločnosť Microsoft, ktorá si zakúpila exkluzívnu licenciu.

Modely GPT sú modely umelej inteligencie na generovanie textu, ktoré sú veľmi dobré pri písaní textu ako človek. Pre človeka je v skutočnosti dosť ťažké zistiť, či text napísal skutočný človek alebo GPT-3...

Spoločnosť OpenAI stála milióny dolárov, aby mohla túto novú umelú inteligenciu navrhnúť a vycvičiť. Ak ju chcete používať, budete musieť prejsť náročným procesom validácie, pretože OpenAI neumožňuje všetkým typom aplikácií používať ich model.

V súčasnosti sa vydávajú nové modely s otvoreným zdrojovým kódom, aby sa vyrovnali OpenAI, ako napríklad GPT-J a GPT-NeoX.

4. NLP Cloud

To sme my!

NLP Cloud je rozhranie API, ktoré vám umožňuje jednoducho používať najpokročilejšie modely spracovania prirodzeného jazyka AI vo výrobe.

Môžete napríklad generovať text pomocou GPT-J a GPT-NeoX, sumarizovať obsah pomocou Bart Large CNN od Facebooku, klasifikovať časť textu pomocou Roberta, extrahovať entity pomocou spaCy, prekladať obsah pomocou Opus MT... a mnoho ďalšieho.

V službe NLP Cloud je tiež možné trénovať a dolaďovať vlastnú umelú inteligenciu alebo nasadiť vlastné interné modely. Ak chcete napríklad vytvoriť vlastného chatbota v oblasti medicíny založeného na GPT-J, stačí nahrať súbor údajov zložený z vlastných príkladov pochádzajúcich z vášho odvetvia, potom spustiť proces trénovania a prostredníctvom rozhrania API používať svoj konečný model v produkcii.

5. Deepspeed

Deepspeed

Deepspeed je open-source framework od spoločnosti Microsoft, ktorý sa zameriava na paralelizáciu modelov.

Čo to presne znamená?

Modely AI sú čoraz väčšie (pozri GPT-3, GPT-J, GPT-NeoX 20B, T0, Fairseq 13B...). Tieto obrovské modely otvárajú dvere množstvu nových aplikácií, ale zároveň sa veľmi ťažko spúšťajú.

Trénovanie týchto modelov a ich spoľahlivé spustenie v produkcii na odvodzovanie sa môže uskutočniť buď prostredníctvom vertikálnej škálovateľnosti (pomocou obrovských GPU, ako sú NVIDIA A100 alebo Google TPU), alebo horizontálnej škálovateľnosti (pomocou niekoľkých malých paralelných GPU).

Druhý prístup je čoraz populárnejší, pretože je lacnejší a lepšie sa škáluje. Napriek tomu vykonávanie distribuovaného trénovania a odvodzovania nie je zďaleka jednoduché, a preto Deepspeed naozaj pomáha.

Deepspeed bol pôvodne zameraný na úlohy trénovania, ale v súčasnosti sa čoraz viac používa na odvodzovanie, pretože sa ľahko používa a integruje s funkciou Hugging Face Transformers (pozri nižšie).

6. Big Science

Big Science

Big Science je kolektív výskumníkov a spoločností, ktoré pracujú na veľkých jazykových modeloch.

Na ich prvom workshope vznikol model umelej inteligencie s názvom T0, ktorý veľmi dobre rozumie ľudským pokynom.

V súčasnosti pracujú na oveľa väčších modeloch: ich cieľom je vytvoriť viacjazyčné modely AI s otvoreným zdrojovým kódom, ktoré budú väčšie a pokročilejšie ako GPT-3.

7. SpaCy

spaCy

SpaCy je rámec na spracovanie prirodzeného jazyka v jazyku Python, ktorý sa dokonale hodí na produkciu: je rýchly a ľahko sa s ním hrá.

Ide o rámec, ktorý spravuje nemecká spoločnosť Explosion AI.

SpaCy je veľmi dobrý v rozpoznávaní pomenovaných entít (známom aj ako extrakcia entít), a to v približne 50 rôznych jazykoch. Poskytuje predtrénované modely a môžete si ľahko vytvoriť vlastné modely prostredníctvom anotovaných príkladov.

8. HF Transformers

Rámec Transformers vydala spoločnosť Hugging Face pred niekoľkými rokmi. Väčšina pokročilých modelov spracovania prirodzeného jazyka je teraz založená na Transformers.

Ide o modul Pythonu založený na PyTorch, Tensorflow a Jax, ktorý možno použiť na trénovanie alebo inferenciu.

Transformátory Hugging Face umožňujú veľmi jednoduché sťahovanie a nahrávanie modelov do centra Hugging Face.

9. HF Tokenizers

Knižnica tokenizátorov od spoločnosti Hugging Face je súbor pokročilých tokenizátorov na spracovanie prirodzeného jazyka, ktoré sa používajú v modeloch založených na transformátoroch.

Tokenizácia spočíva v rozdelení vstupného textu na malé slová, ktoré potom môže model umelej inteligencie zakódovať a spracovať.

Tokenizácia môže znieť ako detail, ale nie je to tak. V skutočnosti je to kritická časť spracovania prirodzeného jazyka a použitie správneho tokenizéra má obrovský význam z hľadiska kvality výsledkov a výkonnosti.

10. NLTK

NLTK je skratka pre Natural Language Toolkit. Je to rámec v jazyku Python, ktorý existuje už mnoho rokov a ktorý je skvelý pre výskum a vzdelávanie.

NLTK nie je produkčne orientovaný framework, ale je ideálny pre dátových vedcov, ktorí sa snažia rozvíjať spracovanie prirodzeného jazyka.

Záver

Oblasť spracovania prirodzeného jazyka sa v roku 2021 výrazne rozvinula. Dnes chce čoraz viac spoločností využívať modely umelej inteligencie jazyka vo výrobe, a to je zaujímavé, že v roku 2022 nemá ekosystém takmer nič spoločné s tým, čo bolo pred 5 rokmi.

Knižnice a rámce sú čoraz pokročilejšie a vytváranie veľkých jazykových modelov, ako je GPT-3, prináša nové zaujímavé výzvy.

Už sa neviem dočkať, aký bude rok 2023!

Julien Salinas
Technický riaditeľ spoločnosti NLP Cloud

10 najlepších rámcov, služieb a aktérov spracovania prirodzeného jazyka v roku 2022

marec 21th, 2022