Behandling af flersprogede naturlige sprog: NLP på ikke-engelske sprog

Det er en udfordring at udføre naturlig sprogbehandling på ikke-engelske sprog. I dag er det muligt at opnå gode resultater med flersproget naturlig sprogbehandling. Endelig kan alle udføre naturlig sprogbehandling på fransk, japansk, spansk, russisk, kinesisk, kinesisk, tysk ... og meget mere.

Flersproget

Hvorfor flersproget behandling af naturlige sprog er en udfordring

Der tales næsten 7000 forskellige sprog i verden i dag! Hvert sprog har sine egne regler, og nogle sprog kan fungere meget forskelligt. F.eks. ligner fransk, spansk og italiensk hinanden meget, men de har intet at gøre med asiatiske sprog. der er baseret på ideogrammer eller symboler som kinesisk og japansk.

Konsekvensen er, at der skal anvendes forskellige teknikker til at skabe sprogmodeller, der kan håndtere alle disse sprog.

Kort sagt kan forskellige sprog kræve forskellige vektorrum, selv om der allerede findes nogle forud trænede sprogindlejringer. Dette er et aktivt forskningsområde.

Hvad er så løsningerne?

Uddannelse af specifikke ikke-engelske modeller

En første metode er at træne en model for et specifikt sprog. F.eks. er der flere nye versioner af BERT er blevet trænet på forskellige sprog. German BERT fra Deepset AI er et godt eksempel på en ny version af BERT, der er trænet på det tyske sprog fra scratch: se tysk BERT her.

Problemet er, at denne teknik ikke kan skaleres godt. Det tager tid og koster mange penge at oplære en ny model. Det er stadig overkommeligt at træne flere modeller for små modeller som spaCy, og Explosion AI (firmaet bag spaCy) gør et godt stykke arbejde med at vedligeholde flere prætrænede modeller på mange sprog: Se mere her. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Det er heller ikke særlig godt ud fra et inferensperspektiv. Hvis en virksomhed har brug for at bruge naturlig sprogbehandling i produktionen på flere sprog, skal den vedligeholde flere modeller og stille flere servere og GPU'er til rådighed. Det kan vise sig at være ekstremt dyrt. Dette er en af grundene til, at vi i NLP Cloud forsøger at undgå denne strategi så vidt muligt.

Flersprogede modeller

En anden metode er at udnytte flersprogede modeller.

I de seneste år er der dukket nye flersprogede modeller op, som har vist sig at være meget præcise. Nogle gange endog mere nøjagtige end specifikke ikke-engelske modeller. De mest populære er mBERT, XLM og XLM Roberta. XLM Roberta synes at være den mest præcise flersprogede model og klarer sig meget godt på XNLI-evalueringsdatasættet (en række evalueringer til at vurdere kvaliteten af flersprogede modeller).

Der findes nogle meget gode forudtrænede modeller baseret på XLM Roberta. F.eks. til tekstklassificering i mange sprog, er den bedste XLM Roberta Large XNLI: se denne model her.

I øjeblikket findes der ingen god flersproget model til tekstgenerering. GPT er f.eks. fremragende på engelsk og ikke så dårlig på flere ikke-engelske sprog, men langt fra imponerende. Big Science arbejder i øjeblikket på meget store flersprogede modeller til tekstgenerering på flere sprog. Det ser lovende ud! Se mere her..

Big Science flersproget 176 milliarder parametre transformatorer model
Big Science har netop annonceret en flersproget model med 176 milliarder parametre for transformere

Oversættelse til undsætning

Den sidste strategi er at bruge oversættelse. Ideen er, at du skal oversætte dit ikke-engelske indhold til engelsk, sende det engelske indhold til modellen og oversætte resultatet tilbage til dit oprindelige sprog.

Denne teknik lyder måske som et hack, men den har fordele. Det kan være billigere at vedligeholde et oversættelsesworkflow end at træne dedikerede modeller, og alle sprog i verden kan nemt understøttes.

I de seneste år er der blevet udviklet avancerede oversættelsesmodeller baseret på deep learning. De er både hurtige og giver meget gode resultater. Helsinki NLP har f.eks. udgivet en række oversættelsesmodeller baseret på deep learning. Du kan bruge de mest populære af dem på NLP Cloud: Se mere her.

Hvis du tilføjer oversættelse til din arbejdsgang, vil det dog øge den samlede svartid. Så det egner sig måske ikke, hvis du leder efter meget hurtige resultater.

Konklusion

Flersproget naturlig sprogbehandling er ikke et løst problem, men der er gjort store fremskridt i de seneste år. Det er nu muligt at udføre naturlig sprogbehandling på andre sprog end engelsk med meget gode resultater takket være specifikke modeller, flersprogede modeller og oversættelse.

Hos NLP Cloud mener vi, at det er vigtigt at forstå og generere tekst på mange sprog, så vi har frigivet en særlig tilføjelse kaldet "multilingual add-on". Når det er aktiveret, kan alle vores AI-modeller fungere godt på mere end 20 sprog, herunder GPT-modeller som GPT-J og GPT-NeoX: se den her.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

Julien Salinas
Teknisk direktør hos NLP Cloud