Behandling av flerspråkiga naturliga språk: NLP på andra språk än engelska

Det är en utmaning att bearbeta naturliga språk på andra språk än engelska. I dag är det möjligt att få bra resultat med flerspråkig behandling av naturliga språk. Äntligen kan vem som helst utföra naturlig språkbehandling på franska, japanska, spanska, ryska, kinesiska, tyska och mycket mer.

Flerspråkig

Varför flerspråkig behandling av naturliga språk är en utmaning

Nästan 7000 olika språk talas i världen idag! Varje språk har sina egna regler och vissa språk kan fungera väldigt olika. Franska, spanska och italienska är till exempel mycket lika varandra, men de har inget att göra med asiatiska språk. som bygger på ideografer eller symboler som kinesiska och japanska.

Följden är att olika tekniker måste användas för att skapa språkmodeller som kan hantera alla dessa språk.

Kort sagt kan olika språk kräva olika vektorrum, även om det redan finns förtränade språkinbäddningar. Detta är ett aktivt forskningsområde.

Vilka är då lösningarna?

Utbildning av särskilda modeller som inte är engelskspråkiga

En första metod är att träna en modell för ett visst språk. Flera nya versioner av BERT har tränats på olika språk. German BERT, från Deepset AI, är ett bra exempel på en ny version av BERT som tränats för det tyska språket från från grunden: se tyska BERT här.

Problemet är att den här tekniken inte går att skala upp. Att utbilda en ny modell tar tid och kostar mycket pengar. Att träna flera modeller är fortfarande överkomligt för små modeller som spaCy, och Explosion AI (företaget bakom spaCy) gör följande. ett bra jobb med att upprätthålla flera förtränade modeller på många språk: Se mer här. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Det är inte heller bra ur ett inferensperspektiv. Om ett företag behöver använda behandling av naturligt språk i produktionen på flera språk måste företaget underhålla flera modeller och tillhandahålla flera servrar och GPU:er. Det kan visa sig vara extremt kostsamt. Detta är en av anledningarna till att vi på NLP Cloud försöker undvika den här strategin så mycket som möjligt.

Flerspråkiga modeller

En andra metod är att utnyttja flerspråkiga modeller.

Under de senaste åren har nya flerspråkiga modeller dykt upp och visat sig vara mycket exakta. Ibland kan till och med mer exakt än specifika icke-engelska modeller. De mest populära är mBERT, XLM och XLM Roberta. XLM Roberta verkar vara den mest exakta flerspråkiga modellen och presterar mycket bra på XNLI-utvärderingsdatasetet (en serie utvärderingar av för att bedöma kvaliteten på flerspråkiga modeller).

Det finns några mycket bra förtränade modeller baserade på XLM Roberta. För textklassificering i många språk är XLM Roberta Large XNLI den bästa: se den här modellen här.

För närvarande finns det ingen bra flerspråkig modell för textgenerering. GPT är till exempel utmärkt på engelska och inte så dålig på engelska. på flera icke-engelska språk, men långt ifrån imponerande. Big Science arbetar för närvarande på mycket stora flerspråkiga modeller för textgenerering. Det verkar lovande! Se mer här..

Big Science flerspråkig 176 miljarder parametrar transformatorer modell
Big Science har just tillkännagivit en flerspråkig modell med 176 miljarder parametrar för omvandlare.

Översättning till undsättning

Den sista strategin är att använda översättning. Tanken är att du ska översätta ditt icke-engelska innehåll till engelska, skicka det engelska innehållet till modellen och översätta resultatet tillbaka till ditt originalspråk.

Denna teknik kan låta som ett hack, men den har fördelar. Det kan vara billigare att upprätthålla ett arbetsflöde för översättning. än att träna dedikerade modeller, och alla världens språk kan enkelt stödjas.

Under de senaste åren har det skapats avancerade översättningsmodeller baserade på djupinlärning. De är både snabba och ger och ger mycket goda resultat. Helsinki NLP släppte till exempel en serie översättningsmodeller som bygger på djupinlärning. Du kan använda de mest populäraste på NLP Cloud: Se mer här.

Om du lägger till översättning i ditt arbetsflöde ökar dock den totala svarstiden. Så det kanske inte är lämpligt om du letar efter mycket snabba resultat.

Slutsats

Flerspråkig behandling av naturliga språk är inte ett löst problem, men det har gjorts stora framsteg under de senaste åren. Det är nu möjligt att utföra naturlig språkbehandling på andra språk än engelska med mycket goda resultat, tack vare särskilda modeller, flerspråkiga modeller och översättning.

På NLP Cloud anser vi att det är viktigt att förstå och generera text på många språk, så vi har släppt en särskild tilläggsmodul som heter "flerspråkigt tillägg". När det är aktiverat kan alla våra AI-modeller fungera bra på mer än 20 språk, inklusive GPT-modeller som GPT-J och GPT-NeoX: se den här.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

Julien Salinas
CTO på NLP Cloud