Trh se zpracováním přirozeného jazyka je na vzestupu a v ekosystému se v poslední době objevilo mnoho nových nástrojů. Zde jsou knihovny, rámce, jazyky, služby a aktéři, o kterých byste měli vědět, abyste mohli v roce 2022 integrovat porozumění textu a jeho generování do svého projektu.

Python je de facto standardním jazykem v datové vědě již mnoho let. Pokud pracujete na projektu zpracování přirozeného jazyka, je pravděpodobné, že se někde objeví kód v jazyce Python.
Python je velmi expresivní a jednoduchý vysokoúrovňový jazyk, který se dokonale hodí pro aplikace strojového učení. Ještě důležitější však je, že Python těží z rozsáhlého ekosystému knihoven a frameworků, které datovým vědcům usnadňují život.
Ať už pracujete na výzkumném nebo produkčním projektu, ať už trénujete nové modely nebo je používáte k odvozování, s největší pravděpodobností budete muset použít Python. Pokud nutně potřebujete použít jiný jazyk, můžete najít pěkné knihovny i v jiných jazycích, ale pouze pro základní případy použití (pro pokročilejší případy použití bude řešením přijmout strategii mikroslužeb a použít REST API).

Hugging Face Hub je centrální úložiště, které uchovává většinu modelů zpracování přirozeného jazyka s otevřeným zdrojovým kódem.
Na webu Hugging Face můžete snadno objevovat nové modely s umělou inteligencí, ale také nahrávat a sdílet ty své. Je to také skvělé místo pro prohlížení a vyhledávání datových sad pro váš další projekt. Modely a datové sady lze snadno stahovat a používat prostřednictvím jejich rámce Transformers (viz níže).
Vizí společnosti Hugging Face je "demokratizovat" zpracování přirozeného jazyka a stát se "Githubem strojového učení".

Společnost OpenAI stojí za GPT-3, nejpokročilejším modelem jazykové umělé inteligence, který byl kdy vytvořen.
První dvě verze tohoto modelu (GPT a GPT-2) byly open-source, ale společnost OpenAI se rozhodla, že GPT-3 již nebude open-source. Pokud chcete používat GPT-3, musíte se přihlásit k odběru rozhraní OpenAI API. Přístup ke zdrojovému kódu GPT-3 má pouze společnost Microsoft, která si zakoupila exkluzivní licenci.
Modely GPT jsou modely umělé inteligence pro generování textu, které umí velmi dobře psát text jako člověk. Ve skutečnosti je pro člověka poměrně těžké zjistit, zda text napsal skutečný člověk, nebo GPT-3...
Společnost OpenAI stály miliony dolarů, aby mohla tuto novou umělou inteligenci navrhnout a vycvičit. Pokud ji chcete používat, budete muset projít náročným validačním procesem, protože OpenAI neumožňuje všem typům aplikací používat jejich model.
Nyní jsou vydávány nové modely s otevřeným zdrojovým kódem, které mají dohnat OpenAI, jako například GPT-J a GPT-NeoX.

To jsme my!
NLP Cloud je rozhraní API, které vám umožní snadno používat nejpokročilejší modely zpracování přirozeného jazyka s umělou inteligencí ve výrobě.
Můžete například generovat text pomocí GPT-J a GPT-NeoX, shrnout obsah pomocí Bart Large CNN od Facebooku, klasifikovat kus textu pomocí Roberta, extrahovat entity pomocí spaCy, překládat obsah pomocí Opus MT... a mnoho dalšího.
Na platformě NLP Cloud je také možné trénovat a ladit vlastní umělou inteligenci nebo nasadit vlastní interní modely. Chcete-li například vytvořit vlastního lékařského chatbota založeného na GPT-J, stačí nahrát datovou sadu složenou z vlastních příkladů pocházejících z vašeho oboru, poté spustit proces trénování a prostřednictvím rozhraní API používat finální model v produkci.

Deepspeed je open-source framework společnosti Microsoft, který se zaměřuje na paralelizaci modelů.
Co to přesně znamená?
Modely AI jsou stále větší a větší (viz GPT-3, GPT-J, GPT-NeoX 20B, T0, Fairseq 13B...). Tyto obrovské modely otevírají dveře spoustě nových aplikací, ale jsou také velmi náročné na provoz.
Trénování těchto modelů a jejich spolehlivé provozování v produkčním prostředí za účelem odvozování závěrů lze provádět buď prostřednictvím vertikální škálovatelnosti (s využitím obrovských grafických procesorů, jako je NVIDIA A100 nebo Google TPU), nebo horizontální škálovatelnosti (s paralelním využitím několika malých grafických procesorů).
Druhý přístup je stále oblíbenější, protože je levnější a lépe se škáluje. Nicméně provádění distribuovaného trénování a odvozování není zdaleka tak snadné, což je důvod, proč Deepspeed opravdu pomáhá.
Deepspeed byl původně zaměřen na tréninkové úlohy, ale nyní se stále častěji používá k odvozování, protože se snadno používá a je integrován s funkcí Hugging Face Transformers (viz níže).

Big Science je kolektiv výzkumníků a společností, které pracují na velkých jazykových modelech.
Z jejich prvního workshopu vzešel model umělé inteligence nazvaný T0, který velmi dobře rozumí lidským pokynům.
Nyní pracují na mnohem větších modelech: jejich cílem je vytvořit vícejazyčné modely AI s otevřeným zdrojovým kódem, které budou větší a pokročilejší než GPT-3.

SpaCy je framework pro zpracování přirozeného jazyka v jazyce Python, který se dokonale hodí pro produkci: je rychlý a snadno se s ním hraje.
Jedná se o rámec spravovaný německou společností Explosion AI.
Aplikace SpaCy je velmi dobrá v rozpoznávání pojmenovaných entit (známé také jako extrakce entit), a to přibližně v 50 různých jazycích. Poskytuje předtrénované modely a můžete si snadno vytvořit vlastní modely pomocí anotovaných příkladů.
Rámec Transformers vydala před několika lety společnost Hugging Face. Většina pokročilých modelů zpracování přirozeného jazyka je nyní založena na Transformers.
Jedná se o modul Pythonu založený na PyTorch, Tensorflow a Jax, který lze použít buď pro trénování, nebo pro inferenci.
Transformátory Hugging Face umožňují velmi snadné stahování a nahrávání modelů do centra Hugging Face.
Knihovna tokenizérů od společnosti Hugging Face je sada pokročilých tokenizérů pro zpracování přirozeného jazyka, které se používají v modelech založených na transformátorech.
Tokenizace spočívá v rozdělení vstupního textu na malá slova a podhesla, která pak může model umělé inteligence zakódovat a zpracovat.
Tokenizace může znít jako detail, ale není tomu tak. Ve skutečnosti je to kritická součást zpracování přirozeného jazyka a použití správného tokenizéru má obrovský význam pro kvalitu výsledků a výkonnost.
NLTK je zkratka pro Natural Language Toolkit. Jedná se o framework v jazyce Python, který existuje již mnoho let a který je skvělý pro výzkum a vzdělávání.
NLTK není produkčně orientovaný framework, ale je ideální pro datové vědce, kteří se snaží začít se zpracováním přirozeného jazyka.
Oblast zpracování přirozeného jazyka se v roce 2021 značně rozvinula. Dnes chce stále více společností využívat modely umělé inteligence jazyka ve výrobě a je zajímavé, že v roce 2022 nemá ekosystém v podstatě nic společného s tím, co bylo před pěti lety.
Knihovny a rámce jsou stále pokročilejší a vytváření rozsáhlých jazykových modelů, jako je GPT-3, přináší nové zajímavé výzvy.
Nemůžeme se dočkat, až uvidíme, jak bude vypadat rok 2023!
Julien Salinas