Mitmekeelne loomuliku keele töötlemine: NLP mitte-inglise keeles

Loomuliku keeletöötluse teostamine muudes kui inglise keeltes on keeruline. Tänapäeval on võimalik saavutada suurepäraseid tulemusi mitmekeelse loomuliku keeletöötluse abil. Lõpuks ometi saab igaüks teha loomulikku keeletöötlust prantsuse, jaapani, hispaania, vene, hiina, saksa... ja palju muud.

Mitmekeelne

Miks mitmekeelne loomuliku keele töötlemine on väljakutse

Tänapäeval räägitakse maailmas peaaegu 7000 erinevat keelt! Igal keelel on oma reeglid ja mõned keeled võivad toimida väga erinevalt. Näiteks prantsuse, hispaania ja itaalia keeled on väga sarnased, kuid neil ei ole midagi pistmist Aasia keeltega. ideograafidel või sümbolitel põhinevate keeltega nagu hiina ja jaapani keel.

Selle tagajärjel tuleb kasutada erinevaid meetodeid, et luua keelemudeleid, mis suudavad käsitleda kõiki neid keeli.

Lühidalt öeldes võivad erinevad keeled nõuda erinevaid vektorruume, isegi kui mõned eelnevalt treenitud keelepildistused on juba olemas. See on aktiivne uurimisvaldkond.

Millised on siis lahendused?

Spetsiifiliste mitte-inglise keelega mudelite koolitamine

Esimene lähenemisviis on konkreetse keele mudeli treenimine. Näiteks mitmed uued BERTi versioonid on koolitatud eri keeltes. Deepset AI saksa BERT on hea näide BERTi uuest versioonist, mis on koolitatud saksa keele jaoks alates 2007. aastast. nullist: vt saksa BERT siin.

Probleem on selles, et see tehnika ei ole hästi skaleeritav. Uue mudeli koolitamine võtab aega ja maksab palju raha. Mitme mudeli treenimine on väikeste mudelite, nagu spaCy, puhul siiski taskukohane ja Explosion AI (ettevõte spaCy taga) teeb teeb suurepärast tööd mitme eeltreenitud mudeli haldamisel paljudes keeltes: vaata lähemalt siit. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Samuti ei ole see järelduste seisukohast hästi skaleeritav. Kui ettevõttel on vaja kasutada loomulikku keeletöötlust tootmises mitmes keeles, siis peab ta haldama mitmeid mudeleid ning varustama mitu serverit ja GPU-d. See võib osutuda äärmiselt kulukaks. See on üks põhjustest, miks me NLP Cloudis püüame seda strateegiat võimalikult palju vältida.

Mitmekeelsed mudelid

Teine lähenemisviis on kasutada mitmekeelseid mudeleid.

Viimastel aastatel on ilmunud uued mitmekeelsed mudelid, mis on osutunud väga täpseks. Mõnikord isegi täpsemad kui konkreetsed mitteingliskeelsed mudelid. Kõige populaarsemad on mBERT, XLM ja XLM Roberta. XLM Roberta näib olevat kõige täpsem mitmekeelne mudel, mis töötab väga hästi XNLI hindamisandmestikus (hindamiste seeria). mitmekeelsete mudelite kvaliteedi hindamiseks).

Saadaval on mõned väga head eelkoolitatud mudelid, mis põhinevad XLM Roberta'l. Näiteks tekstide klassifitseerimiseks paljudes keeltes on parim XLM Roberta Large XNLI: vaata seda mudelit siit.

Hetkel ei ole head mitmekeelset mudelit teksti genereerimiseks. Näiteks GPT on suurepärane inglise keeles ja mitte nii halb mitmes mitte-inglise keeles, kuid kaugeltki mitte muljetavaldav. Big Science töötab praegu väga suurte mitmekeelsete tekstigenereerimise mudelite kallal. See tundub paljutõotav! Vaata lähemalt siit..

Big Science mitmekeelne 176 miljardi parameetri transformaatorite mudel
Big Science teatas äsja mitmekeelsest 176 miljardi parameetri transformaatorite mudelist

Tõlge päästmiseks

Viimane strateegia on kasutada tõlkimist. Mõte on selles, et te peaksite oma mitteinglise keelega sisu inglise keelde tõlkima, saata ingliskeelne sisu mudelile ja tõlkida tulemus tagasi oma originaalkeelde.

See tehnika võib tunduda häkkida, kuid sellel on omad eelised. Tõlkimise töövoo säilitamine võib olla vähem kulukas kui spetsiaalsete mudelite treenimine ning kõiki maailma keeli saab hõlpsasti toetada.

Viimastel aastatel on loodud süvaõppel põhinevaid täiustatud tõlkemudeleid. Need on nii kiired kui ka annavad väga häid tulemusi. Näiteks Helsingi NLP andis välja rea tõlkemudeleid, mis põhinevad süvaõppel. Saate kasutada kõige populaarsemaid neist NLP Cloudis: vaata lähemalt siit.

Tõlkimise lisamine töövooga suurendab siiski üldist reageerimisaega. Seega ei pruugi see sobida, kui otsite väga kiireid tulemusi.

Kokkuvõte

Mitmekeelne loomuliku keele töötlemine ei ole lahendatud probleem, kuid viimastel aastatel on tehtud palju edusamme. Nüüd on tänu konkreetsetele mudelitele võimalik väga heade tulemustega teostada loomuliku keele töötlemist ka mitteingliskeelsetes keeltes, mitmekeelsetele mudelitele ja tõlkimisele.

Me NLP Cloudis usume, et tekstide mõistmine ja genereerimine paljudes keeltes on väga oluline, seega andsime välja spetsiaalse lisavõimaluse nimega "mitmekeelne lisa". Kui see on aktiveeritud, saavad kõik meie tehisintellekti mudelid töötada hästi rohkem kui 20 keeles, sealhulgas GPT-mudelid nagu GPT-J ja GPT-NeoX: vaata seda siin.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

Julien Salinas
NLP Cloud tehnoloogiajuht