Flerspråklig naturlig språkbehandling: NLP på andre språk enn engelsk

Å utføre naturlig språkbehandling på andre språk enn engelsk er en utfordring. I dag er det mulig å oppnå gode resultater med flerspråklig naturlig språkbehandling. Endelig kan hvem som helst utføre naturlig språkbehandling på fransk, japansk, spansk, russisk, kinesisk, tysk ... og mye mer.

Flerspråklig

Hvorfor flerspråklig naturlig språkbehandling er en utfordring

Det snakkes nesten 7000 forskjellige språk i verden i dag! Hvert språk har sine egne regler, og noen språk kan fungere veldig forskjellig. For eksempel er fransk, spansk og italiensk veldig like, men de har ingenting med asiatiske språk å gjøre. basert på ideogrammer eller symboler som kinesisk og japansk.

Konsekvensen er at ulike teknikker må brukes for å lage språkmodeller som kan håndtere alle disse språkene.

For å gjøre det kort, forskjellige språk kan kreve forskjellige vektorrom, selv om det allerede finnes noen forhåndsopplærte språkinnbygginger. Dette er et aktivt forskningsfelt.

Så hva er løsningene?

Opplæringsspesifikke ikke-engelskspråklige modeller

En første tilnærming er å trene opp en modell for et bestemt språk. For eksempel har flere nye versjoner av BERT har blitt trent på forskjellige språk. German BERT, fra Deepset AI, er et godt eksempel på en ny versjon av BERT som er trent på det tyske språket fra helt fra bunnen av: se tyske BERT her.

Problemet er at denne teknikken ikke skalerer godt. Opplæring av en ny modell tar tid og koster mye penger. Opplæring av flere modeller er fortsatt overkommelig for små modeller som spaCy, og Explosion AI (selskapet bak spaCy) gjør en god jobb med å vedlikeholde flere forhåndsopplærte modeller på mange språk: se mer her. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Det skalerer heller ikke godt fra et slutningsperspektiv. Hvis et selskap har behov for å bruke naturlig språkbehandling i produksjonen på flere språk, må den vedlikeholde flere modeller og skaffe flere servere og GPU-er. Det kan vise seg å være ekstremt kostbart. Dette er en av grunnene til at vi i NLP Cloud prøver å unngå denne strategien så mye som mulig.

Flerspråklige modeller

En annen tilnærming er å utnytte flerspråklige modeller.

De siste årene har det dukket opp nye flerspråklige modeller som har vist seg å være svært nøyaktige. Noen ganger til og med mer nøyaktige enn spesifikke ikke-engelske modeller. De mest populære er mBERT, XLM og XLM Roberta. XLM Roberta ser ut til å være den mest nøyaktige flerspråklige modellen, og gjør det veldig bra i XNLI-evalueringsdatasettet (en serie evalueringer for å vurdere kvaliteten på flerspråklige modeller). for å vurdere kvaliteten på flerspråklige modeller).

Noen svært gode forhåndstrenede modeller basert på XLM Roberta er tilgjengelige. For eksempel, for tekstklassifisering på mange språk er XLM Roberta Large XNLI den beste: se denne modellen her.

For øyeblikket finnes det ingen god flerspråklig modell for tekstgenerering. For eksempel er GPT utmerket på engelsk og ikke så dårlig på flere ikke-engelske språk, men langt fra imponerende. Big Science jobber for tiden med svært store flerspråklige tekstgenereringsmodeller. Det virker lovende! Se mer her..

Big Science flerspråklig 176 milliarder parametere transformatormodell
Big Science har nettopp kunngjort en flerspråklig transformatormodell med 176 milliarder parametere.

Oversettelse til unnsetning

Den siste strategien er å bruke oversettelse. Tanken er at du skal oversette ikke-engelsk innhold til engelsk, sende det engelske innholdet til modellen og oversette resultatet tilbake til originalspråket.

Denne teknikken høres kanskje ut som et hack, men den har fordeler. Det kan være rimeligere å vedlikeholde en arbeidsflyt for oversettelse enn å lære opp dedikerte modeller, og alle verdens språk kan enkelt støttes.

De siste årene har det blitt utviklet avanserte oversettelsesmodeller basert på dyplæring. De er både raske og gir svært gode resultater. For eksempel ga Helsinki NLP ut en serie oversettelsesmodeller basert på dyp læring. Du kan bruke de mest populære på NLP Cloud: se mer her.

Å legge til oversettelse i arbeidsflyten din vil imidlertid øke den totale responstiden. Så det er kanskje ikke egnet hvis du er ute etter veldig raske resultater. veldig raske resultater.

Konklusjon

Flerspråklig naturlig språkbehandling er ikke et løst problem, men det er gjort store fremskritt de siste årene. Det er nå mulig å utføre naturlig språkbehandling på andre språk enn engelsk med svært gode resultater, takket være spesifikke modeller, flerspråklige modeller og oversettelse.

Hos NLP Cloud mener vi at det er avgjørende å forstå og generere tekst på mange språk, så vi har lansert et eget tilleggsprogram kalt "flerspråklig tillegg". Når den er aktivert, kan alle våre AI-modeller fungere godt på mer enn 20 språk, inkludert GPT-modeller som GPT-J og GPT-NeoX: se den her.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

François
Fullstack-ingeniør hos NLP Cloud