Dabiskās valodas apstrāde valodās, kas nav angļu valoda, ir izaicinājums. Mūsdienās ir iespējams iegūt lieliskus rezultātus, veicot daudzvalodu dabiskās valodas apstrādi. Beidzot ikviens var veikt dabiskās valodas apstrādi franču, japāņu, spāņu, krievu, ķīniešu, vācu... un daudzās citās valodās.

Mūsdienās pasaulē runā gandrīz 7000 dažādās valodās! Katrai valodai ir savi noteikumi, un dažās valodās var darboties ļoti atšķirīgi. Piemēram, franču, spāņu un itāļu valodas ir ļoti līdzīgas, bet tām nav nekā kopīga ar Āzijas valodām. kuru pamatā ir ideogrāfi jeb simboli, piemēram, ķīniešu un japāņu valoda.
Rezultātā ir jāizmanto dažādas metodes, lai izveidotu valodas modeļus, kas spēj strādāt ar visām šīm valodām.
Īsāk sakot, dažādām valodām var būt nepieciešamas atšķirīgas vektoru telpas, pat ja jau pastāv dažas iepriekš apmācītas valodu iestrādnes. Šī ir aktīva pētniecības joma.
Kādi ir risinājumi?
Pirmā pieeja ir apmācīt modeli konkrētai valodai. Piemēram, vairākas jaunas BERT versijas ir apmācītas dažādās valodās. Vācu valodas BERT, ko izstrādājusi Deepset AI, ir labs piemērs jaunai BERT versijai, kas apmācīta vācu valodai no no nulles: skatīt vācu BERT šeit.
Problēma ir tā, ka šī metode nav labi mērogojama. Jauna modeļa apmācība prasa laiku un maksā daudz naudas. Vairāku modeļu apmācība joprojām ir pieejama maziem modeļiem, piemēram, spaCy, un Explosion AI (uzņēmums, kas izstrādājis spaCy) veic lieliski uztur vairākus iepriekš apmācītus modeļus daudzās valodās: Skatīt vairāk šeit. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.
Arī no secinājumu viedokļa tas nav labi mērogojams. Ja uzņēmumam ir nepieciešams izmantot dabiskās valodas apstrādi ražošanā. vairākās valodās, tam būs jāuztur vairāki modeļi un jānodrošina vairāki serveri un GPU. Tas var izrādīties ārkārtīgi dārgi. Šis ir viens no iemesliem, kāpēc mēs NLP Cloud cenšamies pēc iespējas izvairīties no šādas stratēģijas.
Otra pieeja ir izmantot daudzvalodu modeļus.
Pēdējos gados ir parādījušies jauni daudzvalodu modeļi, kas ir izrādījušies ļoti precīzi. Dažreiz pat precīzāki par konkrētiem modeļiem, kas nav angļu valodas modeļi. Populārākie no tiem ir mBERT, XLM un XLM Roberta. XLM Roberta, šķiet, ir visprecīzākais daudzvalodu modelis, un tas ļoti labi darbojas XNLI novērtēšanas datu kopā (novērtēšanas datu kopa, kurā ir vairāki novērtējumi). lai novērtētu daudzvalodu modeļu kvalitāti).
Ir pieejami daži ļoti labi iepriekš apmācīti modeļi, kuru pamatā ir XLM Roberta. Piemēram, teksta klasifikācijai daudzos valodās labākais ir XLM Roberta Large XNLI: apskatiet šo modeli šeit.
Pagaidām nav laba daudzvalodu teksta ģenerēšanas modeļa. Piemēram, GPT ir lielisks angļu valodā un ne tik slikts. vairākās valodās, kas nav angļu valoda, taču tas nebūt nav iespaidīgs. Big Science pašlaik strādā pie ļoti apjomīgiem daudzvalodu teksta ģenerēšanas modeļiem. Tas šķiet daudzsološi! Skatīt vairāk šeit..

Big Science tikko paziņoja par daudzvalodu 176 miljardu parametru transformatoru modeli
Pēdējā stratēģija ir izmantot tulkošanu. Ideja ir tāda, ka jums ir jātulko saturs, kas nav angļu valodā, uz angļu valodu, nosūtīt angļu valodas saturu modelim un rezultātu tulkot atpakaļ oriģinālvalodā.
Šis paņēmiens var šķist kā banalizēšana, taču tam ir priekšrocības. Tulkošanas darba plūsmas uzturēšana var būt lētāka. nekā speciālu modeļu apmācīšana, un var viegli atbalstīt visas pasaules valodas.
Pēdējos gados ir radīti mūsdienīgi tulkošanas modeļi, kas balstīti uz dziļo mācīšanos. Tie ir gan ātri, gan sniedz ļoti labus rezultātus. Piemēram, Helsinku NLP izdeva virkni tulkošanas modeļu, kas balstīti uz dziļo mācīšanos. Jūs varat izmantot visvairāk populārākos no tiem NLP mākonī: Skatīt vairāk šeit.
Tomēr, pievienojot tulkošanu darba plūsmai, palielināsies kopējais reakcijas laiks. Tāpēc tas var nebūt piemērots, ja meklējat. ļoti ātrus rezultātus.
Daudzvalodu dabiskās valodas apstrāde nav atrisināta problēma, taču pēdējos gados ir panākts liels progress. Tagad, pateicoties īpašiem modeļiem, ir iespējams veikt dabiskās valodas apstrādi valodās, kas nav angļu valoda, ar ļoti labiem rezultātiem, daudzvalodu modeļiem un tulkošanai.
Uzņēmumā NLP Cloud uzskatām, ka teksta izpratne un ģenerēšana daudzās valodās ir ļoti svarīga, tāpēc esam izlaiduši īpašu papildinājumu. ar nosaukumu "daudzvalodu papildinājums". Kad tas ir aktivizēts, visi mūsu mākslīgā intelekta modeļi var labi darboties vairāk nekā 20 valodās, tostarp GPT modeļi, piemēram, GPT-J. un GPT-NeoX: skatīt šeit.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}
Julien Salinas
NLP Cloud tehniskais direktors