Topp 10 rammeverk, tjenester og aktører innen naturlig språkbehandling i 2022

Markedet for naturlig språkbehandling blomstrer, og mange nye verktøy har nylig dukket opp i økosystemet. Her er bibliotekene, rammeverkene, språkene, tjenestene og aktørene du bør kjenne til for å integrere tekstforståelse og tekstgenerering i prosjektet ditt i 2022.

Topp 10 rammeverk, tjenester og aktører

1. Python | Det beste programmeringsspråket for NLP
2. Hugging Face | Et sentralt arkiv for alle modellene
3. OpenAI | Selskapet bak GPT-3
4. NLP Cloud | Et API for behandling av naturlig språk i produksjonen
5. Deepspeed | Parallelliser opplæring og slutning
6. Big Science | Hugging Face's AI-forskningsgruppe
7. spaCy | Et raskt og produksjonsklart rammeverk for NLP
8. HF Transformers | Et avansert rammeverk for NLP
9. HF Tokenizers | Et avansert sett med tokenizers for NLP
10. NLTK | Et rammeverk for forskning og utdanning for NLP

1. Python

Python

Python har vært de facto standardspråket innen datavitenskap i mange år. Hvis du jobber med et naturlig språkbehandlingsprosjekt, vil det mest sannsynlig være noe Python-kode et eller annet sted.

Python er et veldig uttrykksfullt og enkelt høynivåspråk som gjør det perfekt egnet for maskinlæringsapplikasjoner. Men enda viktigere er det at Python drar nytte av et omfattende økosystem av biblioteker og rammeverk som gjør livet enklere for dataforskere.

Enten du jobber med et forskningsprosjekt eller et produksjonsprosjekt, enten du trener nye modeller eller bruker dem til inferens, vil du mest sannsynlig måtte bruke Python. Hvis du absolutt må bruke et annet språk, kan du finne fine biblioteker på andre språk også, men bare for grunnleggende brukstilfeller (for mer avanserte brukstilfeller vil løsningen være å ta i bruk en mikrotjenestestrategi og bruke et REST API).

2. Hugging Face Hub

Hugging Face

Hugging Face Hub er et sentralt depot som lagrer de fleste modeller for naturlig språkbehandling med åpen kildekode.

På Hugging Face er det enkelt å oppdage nye AI-modeller, men også laste opp og dele dine egne. Det er også et flott sted å bla gjennom og finne datasett for ditt neste prosjekt. Modeller og datasett kan enkelt lastes ned og brukes gjennom deres Transformers-rammeverk (se nedenfor).

Hugging Faces visjon er å "demokratisere" naturlig språkbehandling og bli "Github for maskinlæring".

3. OpenAI

OpenAI

OpenAI er selskapet bak GPT-3, den mest avanserte AI-modellen for språk noensinne.

De to første versjonene av denne modellen (GPT og GPT-2) var åpen kildekode, men OpenAI besluttet at GPT-3 ikke lenger skulle være åpen kildekode. Hvis du vil bruke GPT-3, må du abonnere på OpenAI API. Bare Microsoft har tilgang til kildekoden til GPT-3 ettersom de har kjøpt en eksklusiv lisens.

GPT-modellene er AI-modeller for tekstgenerering som er veldig flinke til å skrive tekst som et menneske. Det er faktisk ganske vanskelig for et menneske å oppdage om en tekst er skrevet av en ekte person eller av GPT-3....

Det kostet OpenAI millioner av dollar å utforme og trene opp denne nye AI-en. Hvis du vil bruke den, må du gjennom en krevende valideringsprosess, ettersom OpenAI ikke tillater alle typer applikasjoner å bruke modellen deres.

Nye modeller med åpen kildekode lanseres nå for å ta igjen OpenAI som GPT-J og GPT-NeoX.

4. NLP Cloud

Dette er oss!

NLP Cloud er et API som lar deg enkelt bruke de mest avanserte AI-modellene for naturlig språkbehandling i produksjonen.

Du kan for eksempel generere tekst med GPT-J og GPT-NeoX, oppsummere innhold med Facebooks Bart Large CNN, klassifisere et stykke tekst med Roberta, trekke ut enheter med spaCy, oversette innhold med NLLB 200 ... og mye mer.

På NLP Cloud er det også mulig å trene og finjustere din egen AI, eller distribuere dine egne interne modeller. Hvis du for eksempel vil lage din egen medisinske chatbot basert på GPT-J, trenger du bare å laste opp datasettet ditt som består av dine egne eksempler fra din bransje, deretter starte opplæringsprosessen og bruke den endelige modellen i produksjon gjennom API-et.

Ta gjerne en titt på plattformen vår.

5. Deepspeed

Deepspeed

Deepspeed er et rammeverk med åpen kildekode fra Microsoft som fokuserer på modellparallellisering.

Hva betyr det egentlig?

AI-modeller blir større og større (se GPT-3, GPT-J, GPT-NeoX 20B, T0, Fairseq 13B ...). Disse enorme modellene åpner døren til tonnevis av nye applikasjoner, men de er også veldig vanskelige å kjøre.

Opplæring av disse modellene, og pålitelig kjøring av dem i produksjon for inferens, kan enten gjøres gjennom vertikal skalerbarhet (ved hjelp av store GPUer som NVIDIA A100 eller Google TPUer) eller horisontal skalerbarhet (ved hjelp av flere små GPUer parallelt).

Den andre tilnærmingen er mer og mer populær ettersom den er billigere og skalerer bedre. Likevel er det langt fra enkelt å utføre distribuert trening og inferens, og det er derfor Deepspeed virkelig hjelper.

Deepspeed var opprinnelig rettet mot treningsoppgaver, men det brukes nå mer og mer til inferens ettersom det er enkelt å bruke og integreres med Hugging Face Transformers (se nedenfor).

6. Big Science

Big Science

Big Science er et kollektiv av forskere og selskaper som arbeider med store språkmodeller.

Den første workshopen resulterte i en AI-modell kalt T0 som er svært god til å forstå menneskelige instruksjoner.

De jobber nå med mye større modeller: Målet er å lage flerspråklige AI-modeller med åpen kildekode som er større og mer avanserte enn GPT-3.

7. SpaCy

spaCy

SpaCy er et Python-rammeverk for naturlig språkbehandling som er perfekt egnet for produksjon: det er både raskt og enkelt å leke med.

Dette er et rammeverk som vedlikeholdes av et tysk AI-selskap som heter Explosion AI.

SpaCy er veldig god på Named Entity Recognition (også kjent som entitetsekstraksjon), og på rundt 50 forskjellige språk. De tilbyr forhåndsopplærte modeller, og du kan enkelt lage dine egne modeller ved hjelp av kommenterte eksempler.

8. HF Transformers

Transformers-rammeverket ble utgitt av Hugging Face for et par år siden. De fleste avanserte modeller for behandling av naturlig språk er nå basert på Transformers.

Dette er en Python-modul som er basert på PyTorch, Tensorflow og Jax, som kan brukes enten til opplæring eller inferens.

Hugging Face Transformers gjør det veldig enkelt å laste ned og laste opp modeller til Hugging Face Hub.

9. HF Tokenizers

Tokenizers-biblioteket fra Hugging Face er et sett med avanserte tokenizers for naturlig språkbehandling som brukes av transformatorbaserte modeller.

Tokenisering handler om å dele opp en inngangstekst i små ord med underord som deretter kan kodes og behandles av AI-modellen.

Tokenisering kan høres ut som en detalj, men det er det ikke. Det er faktisk en kritisk del av naturlig språkbehandling, og bruk av riktig tokenizer utgjør en stor forskjell når det gjelder kvaliteten på resultatene og ytelsene.

10. NLTK

NLTK står for Natural Language Toolkit. Det er et Python-rammeverk som har eksistert i mange år og som er flott for forskning og utdanning.

NLTK er ikke et produksjonsorientert rammeverk, men det er perfekt for dataforskere som prøver å øke på naturlig språkbehandling.

Konklusjon

Det naturlige språkbehandlingsfeltet har utviklet seg betydelig i 2021. I dag ønsker flere og flere selskaper å bruke språk AI-modeller i produksjonen, og det er interessant å se at økosystemet i 2022 stort sett ikke har noe å gjøre med hva det var for 5 år siden.

Biblioteker og rammeverk blir stadig mer avanserte, og opprettelsen av store språkmodeller som GPT-3 reiser nye interessante utfordringer.

Jeg gleder meg til å se hvordan 2023 blir!

Juliette
Markedssjef hos NLP Cloud

Topp 10 rammeverk, tjenester og aktører innen naturlig språkbehandling i 2022

21. mars 2022