Obdelava naravnega jezika v neangleških jezikih je izziv. Danes je z večjezično obdelavo naravnega jezika mogoče doseči odlične rezultate. Končno lahko vsakdo izvaja obdelavo naravnega jezika v francoščini, japonščini, španščini, ruščini, kitajščini, nemščini ... in še veliko več.

Na svetu danes govorimo skoraj 7000 različnih jezikov! Vsak jezik ima svoja pravila in nekateri jeziki lahko delujejo zelo različno. Na primer francoščina, španščina in italijanščina so si zelo podobne, vendar nimajo nič skupnega z azijskimi jeziki. ki temeljijo na ideografih ali simbolih, kot sta kitajščina in japonščina.
Posledica tega je, da je treba uporabiti različne tehnike za oblikovanje jezikovnih modelov, ki so sposobni obravnavati vse te jezike.
Skratka, različni jeziki lahko zahtevajo različne vektorske prostore, tudi če že obstajajo vnaprej usposobljene jezikovne vgradnje. To je aktivno raziskovalno področje.
Kakšne so torej rešitve?
Prvi pristop je usposabljanje modela za določen jezik. Na primer, več novih različic sistema BERT je bilo usposobljenih v različnih jezikih. Nemški BERT podjetja Deepset AI je dober primer nove različice BERT, ki je bila natrenirana za nemški jezik od od začetka: glej nemški BERT tukaj.
Težava je v tem, da ta tehnika ni dobro razširljiva. Usposabljanje novega modela traja dolgo in stane veliko denarja. Za majhne modele, kot je spaCy, je usposabljanje več modelov še vedno cenovno dostopno, Explosion AI (podjetje, ki stoji za spaCyjem) pa odlično opravlja svoje delo pri vzdrževanju več predhodno usposobljenih modelov v številnih jezikih: Več o tem si oglejte tukaj. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.
Tudi z vidika sklepanja ni dobro razširjena. Če podjetje potrebuje obdelavo naravnega jezika v proizvodnji v več jezikih, bo moralo vzdrževati več modelov ter zagotoviti več strežnikov in grafičnih procesorjev. To se lahko izkaže za zelo drago. Ta je eden od razlogov, zakaj se v oblaku NLP Cloud poskušamo tej strategiji čim bolj izogniti.
Drugi pristop je uporaba večjezičnih modelov.
V zadnjih letih so se pojavili novi večjezični modeli, ki so se izkazali za zelo natančne. Včasih celo natančnejši od posebnih neangleških modelov. Najbolj priljubljeni so mBERT, XLM in XLM Roberta. Zdi se, da je XLM Roberta najnatančnejši večjezični model, ki se zelo dobro obnese na naboru ocenjevalnih podatkov XNLI (niz ocenjevanj za ocenjevanje kakovosti večjezičnih modelov).
Na voljo je nekaj zelo dobrih predhodno usposobljenih modelov, ki temeljijo na XLM Roberta. Na primer, za razvrščanje besedil v številnih jezikov je najboljši model XLM Roberta Large XNLI: ta model si oglejte tukaj.
Za zdaj še ni dobrega večjezičnega modela za ustvarjanje besedil. GPT je na primer odličen v angleščini in ne tako slab v več neangleških jezikih, vendar še zdaleč ne navdušuje. Podjetje Big Science se trenutno ukvarja z zelo obsežnimi večjezičnimi modeli za generiranje besedil. Zdi se obetavno! Več o tem si oglejte tukaj..

Big Science je pravkar objavil večjezični model transformatorjev s 176 milijardami parametrov
Zadnja strategija je prevajanje. Gre za to, da vsebino, ki ni v angleščini, prevedete v angleščino, angleško vsebino pošljete modelu in rezultat prevedete nazaj v izvirni jezik.
Ta tehnika se morda sliši kot kramp, vendar ima svoje prednosti. Vzdrževanje delovnega toka prevajanja je lahko cenejše kot usposabljanje namenskih modelov, poleg tega pa je mogoče zlahka podpirati vse jezike na svetu.
V zadnjih letih so bili ustvarjeni napredni prevajalski modeli, ki temeljijo na globokem učenju. Ti so hitri in omogočajo zelo dobre rezultate. Helsinški NLP je na primer izdal vrsto prevajalskih modelov, ki temeljijo na globokem učenju. Uporabite lahko najbolj priljubljene v oblaku NLP Cloud: Več o tem si oglejte tukaj.
Če boste v delovni postopek dodali prevajanje, se bo skupni odzivni čas podaljšal. Zato morda ni primeren, če iščete zelo hitre rezultate.
Večjezična obdelava naravnega jezika ni rešen problem, vendar je bil v zadnjih letih dosežen velik napredek. S posebnimi modeli je zdaj mogoče izvajati obdelavo naravnega jezika v neangleških jezikih z zelo dobrimi rezultati, večjezičnih modelov in prevajanja.
V NLP Cloud verjamemo, da je razumevanje in ustvarjanje besedila v več jezikih ključnega pomena, zato smo izdali poseben dodatek imenovan "večjezični dodatek". Ko je omogočen, lahko vsi naši modeli umetne inteligence dobro delujejo v več kot 20 jezikih, vključno z modeli GPT, kot je GPT-J in GPT-NeoX: Oglejte si ga tukaj.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}
Julien Salinas
Tehnični direktor v podjetju NLP Cloud