Natūralios kalbos apdorojimas ne anglų kalba yra iššūkis. Šiandien galima pasiekti puikių rezultatų apdorojant daugiakalbę natūraliąją kalbą. Pagaliau kiekvienas gali atlikti natūralios kalbos apdorojimą prancūzų, japonų, ispanų, rusų, kinų, vokiečių... ir dar daugiau kalbų.

Šiandien pasaulyje kalbama beveik 7000 skirtingų kalbų! Kiekviena kalba turi savo taisykles, o kai kurios kalbos gali veikti labai skirtingai. Pavyzdžiui, prancūzų, ispanų ir italų kalbos yra labai panašios, tačiau jos neturi nieko bendra su Azijos kalbomis. pagrįstomis ideografais arba simboliais, pavyzdžiui, kinų ir japonų.
Todėl norint sukurti kalbos modelius, kurie galėtų dirbti su visomis šiomis kalbomis, reikia taikyti skirtingus metodus.
Trumpai tariant, skirtingoms kalboms gali prireikti skirtingų vektorių erdvių, net jei jau yra iš anksto apmokytų kalbų įterpinių. Tai aktyvi mokslinių tyrimų sritis.
Taigi, kokie yra sprendimai?
Pirmasis būdas - išmokyti konkrečios kalbos modelį. Pavyzdžiui, kelios naujos ETRI versijos buvo apmokyti įvairiomis kalbomis. "Deepset AI" sukurta vokiečių BERT yra geras naujos BERT versijos, apmokytos vokiečių kalbai, pavyzdys. iš naujo: žr. Vokietijos BERT čia.
Problema ta, kad šis metodas nėra gerai pritaikomas. Naujo modelio mokymas užima daug laiko ir kainuoja daug pinigų. Kelių modelių mokymas vis dar įperkamas mažiems modeliams, tokiems kaip spaCy, o Explosion AI (bendrovė, sukūrusi spaCy) puikiai dirba palaikydama keletą iš anksto apmokytų modelių daugeliu kalbų: Daugiau informacijos rasite čia. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.
Be to, jis nėra gerai pritaikomas išvadų požiūriu. Jei įmonei reikia naudoti natūralios kalbos apdorojimą gamyboje keliomis kalbomis, jai teks prižiūrėti kelis modelius ir aprūpinti kelis serverius bei GPU. Tai gali būti labai brangu. Šis yra viena iš priežasčių, kodėl "NLP Cloud" stengiamės kuo labiau vengti šios strategijos.
Antrasis būdas - naudoti daugiakalbius modelius.
Pastaraisiais metais atsirado naujų daugiakalbių modelių, kurie pasirodė esantys labai tikslūs. Kartais net tikslesni už konkrečius ne anglų kalbos modelius. Populiariausi iš jų yra mBERT, XLM ir XLM Roberta. Atrodo, kad XLM Roberta yra tiksliausias daugiakalbis modelis, kuris labai gerai veikia XNLI vertinimo duomenų rinkinyje (vertinimų serija daugiakalbių modelių kokybei įvertinti).
Yra keletas labai gerų iš anksto apmokytų modelių, pagrįstų XLM Roberta. Pavyzdžiui, teksto klasifikavimui daugelyje kalbų, geriausias yra XLM Roberta Large XNLI: šį modelį rasite čia.
Šiuo metu nėra gero daugiakalbio teksto kūrimo modelio. Pavyzdžiui, GPT puikiai veikia anglų kalba ir ne taip blogai keliomis ne anglų kalbomis, bet toli gražu ne įspūdingas. Šiuo metu "Big Science" kuria labai didelius daugiakalbius teksto generavimo modelius. Atrodo, kad tai teikia vilčių! Daugiau informacijos rasite čia..

"Big Science" ką tik paskelbė daugiakalbį 176 milijardų parametrų transformatorių modelį
Paskutinė strategija - naudoti vertimą. Idėja yra ta, kad turėtumėte išversti ne anglišką turinį į anglų kalbą, anglišką turinį nusiųsti modeliui, o gautą rezultatą išversti atgal į originalo kalbą.
Šis metodas gali skambėti kaip įsilaužimas, tačiau jis turi privalumų. Vertimo darbo eigos palaikymas gali būti pigesnis nei specialių modelių mokymas, be to, galima lengvai palaikyti visas pasaulio kalbas.
Pastaraisiais metais sukurti pažangūs vertimo modeliai, pagrįsti giliuoju mokymusi. Jie yra greiti ir suteikia labai gerus rezultatus. Pavyzdžiui, Helsinkio NLP išleido keletą giliuoju mokymusi pagrįstų vertimo modelių. Galite naudoti labiausiai populiariausius iš jų NLP debesyje: Daugiau informacijos rasite čia.
Tačiau į darbo eigą įtraukus vertimą, bendras atsako laikas pailgės. Taigi ji gali būti netinkama, jei ieškote labai greitų rezultatų.
Daugiakalbis natūralios kalbos apdorojimas nėra išspręsta problema, tačiau pastaraisiais metais padaryta didelė pažanga. Naudojant specialius modelius dabar galima labai gerai apdoroti natūralią kalbą ne anglų kalbomis, daugiakalbių modelių ir vertimo.
"NLP Cloud" manome, kad labai svarbu suprasti ir kurti tekstą daugeliu kalbų, todėl išleidome specialų priedą pavadintą "daugiakalbiu priedu". Jį įjungus, visi mūsų dirbtinio intelekto modeliai gali gerai veikti daugiau nei 20 kalbų, įskaitant GPT modelius, pvz. ir GPT-NeoX: žr. čia.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}
Julien Salinas
NLP Cloud techninis direktorius