Top 10 cadre, servicii și actori de procesare a limbajului natural în 2022

Piața de procesare a limbajului natural este în plină expansiune și multe instrumente noi au apărut recent în ecosistem. Iată care sunt bibliotecile, cadrele, limbajele, serviciile și actorii despre care ar trebui să știți pentru a integra înțelegerea și generarea de text în proiectul dumneavoastră în 2022.

Cele mai importante 10 cadre, servicii și actori

1. Python | Cel mai bun limbaj de programare pentru NLP
2. Hugging Face | Un depozit central pentru toate modelele
3. OpenAI | Compania din spatele GPT-3
4. NLP Cloud | Un API pentru procesarea limbajului natural în producție
5. Deepspeed | Paralelizați instruirea și inferența
6. Big Science | Grupul de cercetare AI al lui Hugging Face
7. spaCy | Un cadru rapid și gata de producție pentru NLP
8. HF Transformers | Un cadru avansat pentru NLP
9. HF Tokenizers | Un set avansat de tokenizatori pentru NLP
10. NLTK | Un cadru de cercetare și educație pentru NLP

1. Python

Python

Python a fost limbajul standard de facto în domeniul științei datelor timp de mulți ani. Dacă lucrați la un proiect de procesare a limbajului natural, cel mai probabil va exista undeva un cod Python.

Python este un limbaj de nivel înalt foarte expresiv și simplu, ceea ce îl face perfect potrivit pentru aplicațiile de învățare automată. Dar și mai important este faptul că Python beneficiază de un ecosistem cuprinzător de biblioteci și cadre care ușurează viața cercetătorilor de date.

Fie că lucrați la un proiect de cercetare sau la un proiect de producție, fie că instruiți noi modele sau le utilizați pentru inferență, cel mai probabil va trebui să utilizați Python. Dacă trebuie neapărat să folosiți un alt limbaj, s-ar putea să găsiți biblioteci frumoase și în alte limbaje, dar numai pentru cazuri de utilizare de bază (pentru cazuri de utilizare mai avansate, soluția va fi adoptarea unei strategii de microservicii și utilizarea unui API REST).

2. Hugging Face Hub

Hugging Face

Hugging Face Hub este un depozit central care stochează majoritatea modelelor de procesare a limbajului natural cu sursă deschisă.

Pe Hugging Face, este ușor să descoperi noi modele AI, dar și să le încarci și să le împărtășești pe ale tale. Este, de asemenea, un loc minunat pentru a naviga și a găsi seturi de date pentru următorul dvs. proiect. Modelele și seturile de date pot fi descărcate și utilizate cu ușurință prin intermediul cadrului lor Transformers (a se vedea mai jos).

Viziunea lui Hugging Face este de a "democratiza" procesarea limbajului natural și de a deveni "Github-ul învățării automate".

3. OpenAI

OpenAI

OpenAI este compania din spatele GPT-3, cel mai avansat model de inteligență artificială lingvistică creat vreodată.

Primele două versiuni ale acestui model (GPT și GPT-2) au fost open-source, dar OpenAI a decis că GPT-3 nu va mai fi open-source. Dacă doriți să utilizați GPT-3, trebuie să vă abonați la API OpenAI. Doar Microsoft are acces la codul sursă al GPT-3, deoarece a cumpărat o licență exclusivă.

Modelele GPT sunt modele AI de generare de text care se pricep foarte bine la scrierea de text ca un om. De fapt, este destul de greu pentru un om să detecteze dacă un text a fost scris de o persoană reală sau de GPT-3...

Proiectarea și antrenarea acestei noi inteligențe artificiale a costat OpenAI milioane de dolari. Dacă doriți să o utilizați, va trebui să treceți printr-un proces de validare dificil, deoarece OpenAI nu permite tuturor tipurilor de aplicații să utilizeze modelul lor.

În prezent, sunt lansate noi modele open-source pentru a recupera decalajul față de OpenAI, cum ar fi GPT-J și GPT-NeoX.

4. NLP Cloud

Ăștia suntem noi!

NLP Cloud este un API care vă permite să utilizați cu ușurință în producție cele mai avansate modele AI de procesare a limbajului natural.

De exemplu, puteți să generați text cu GPT-J și GPT-NeoX, să rezumați conținut cu Bart Large CNN de la Facebook, să clasificați un text cu Roberta, să extrageți entități cu spaCy, să traduceți conținut cu Opus MT... și multe altele.

Pe NLP Cloud este, de asemenea, posibil să vă antrenați și să vă ajustați propria inteligență artificială sau să vă implementați propriile modele interne. De exemplu, dacă doriți să vă creați propriul chatbot medical bazat pe GPT-J, trebuie doar să încărcați setul de date alcătuit din exemple proprii provenind din industria dumneavoastră, apoi să începeți procesul de instruire și să utilizați modelul final în producție prin intermediul API.

5. Deepspeed

Deepspeed

Deepspeed este un cadru open-source de la Microsoft care se concentrează pe paralelizarea modelelor.

Ce înseamnă mai exact?

Modelele de inteligență artificială devin din ce în ce mai mari (a se vedea GPT-3, GPT-J, GPT-NeoX 20B, T0, Fairseq 13B...). Aceste modele uriașe deschid ușa către tone de aplicații noi, dar sunt, de asemenea, foarte greu de executat.

Pregătirea acestor modele și rularea lor fiabilă în producție pentru inferență se poate face fie prin scalabilitate verticală (utilizând GPU-uri uriașe precum NVIDIA A100 sau Google TPU), fie prin scalabilitate orizontală (utilizând mai multe GPU-uri mici în paralel).

A doua abordare este din ce în ce mai populară, deoarece este mai ieftină și se adaptează mai bine. Cu toate acestea, realizarea unei instruiri și a unei inferențe distribuite este departe de a fi ușoară, motiv pentru care Deepspeed este de mare ajutor.

Deepspeed a fost inițial destinat sarcinilor de formare, dar acum este din ce în ce mai mult folosit pentru inferență, deoarece este ușor de utilizat și se integrează cu Hugging Face Transformers (a se vedea mai jos).

6. Big Science

Big Science

Big Science este un colectiv de cercetători și companii care lucrează la modele de limbaj de mari dimensiuni.

Primul lor atelier de lucru a produs un model de inteligență artificială numit T0, care se descurcă foarte bine în înțelegerea instrucțiunilor umane.

În prezent, lucrează la modele mult mai mari: obiectivul lor este de a crea modele de inteligență artificială multilingvă cu sursă deschisă, mai mari și mai avansate decât GPT-3.

7. SpaCy

spaCy

SpaCy este un cadru Python de procesare a limbajului natural, perfect adaptat pentru producție: este atât rapid, cât și ușor de utilizat.

Acesta este un cadru întreținut de o companie germană de inteligență artificială numită Explosion AI.

SpaCy se pricepe foarte bine la recunoașterea entităților numite (cunoscută și sub numele de extracție de entități) și în aproximativ 50 de limbi diferite. Oferă modele pre-antrenate și vă puteți crea cu ușurință propriile modele prin intermediul exemplelor adnotate.

8. HF Transformers

Cadrul Transformers a fost lansat de Hugging Face în urmă cu câțiva ani. Majoritatea modelelor avansate de procesare a limbajului natural se bazează acum pe Transformers.

Acesta este un modul Python bazat pe PyTorch, Tensorflow și Jax, care poate fi utilizat fie pentru instruire, fie pentru inferență.

Transformatoarele Hugging Face facilitează foarte mult descărcarea și încărcarea modelelor în Hugging Face Hub.

9. HF Tokenizers

Biblioteca de tokenizatori de la Hugging Face este un set de tokenizatori avansați pentru procesarea limbajului natural, utilizați de modelele bazate pe transformatoare.

Tokenizarea constă în împărțirea unui text de intrare în cuvinte mici de subcuvinte care pot fi apoi codificate și procesate de modelul de inteligență artificială.

Tokenizarea poate părea un detaliu, dar nu este. De fapt, este o parte esențială a procesării limbajului natural, iar utilizarea tokenizatorului potrivit face o diferență uriașă în ceea ce privește calitatea rezultatelor și performanțele.

10. NLTK

NLTK este acronimul de la Natural Language Toolkit. Acesta este un cadru Python care există de mulți ani și care este excelent pentru cercetare și educație.

NLTK nu este un cadru orientat spre producție, dar este perfect pentru cercetătorii de date care încearcă să se dezvolte în domeniul prelucrării limbajului natural.

Concluzie

Domeniul prelucrării limbajului natural a evoluat considerabil în 2021. În prezent, tot mai multe companii doresc să utilizeze modele de inteligență artificială a limbajului în producție, iar acest lucru este interesant de observat că în 2022 ecosistemul nu are aproape nimic de-a face cu ceea ce era în urmă cu 5 ani.

Bibliotecile și cadrele devin din ce în ce mai avansate, iar crearea unor modele lingvistice de mari dimensiuni, precum GPT-3, ridică noi provocări interesante.

Abia aștept să văd cum va fi în 2023!

Julien Salinas
CTO la NLP Cloud