Monikielinen luonnollisen kielen käsittely: NLP muilla kuin englannin kielillä

Luonnollisen kielen käsittely muilla kuin englannin kielillä on haasteellista. Nykyään monikielisellä luonnollisen kielen prosessoinnilla on mahdollista saada hyviä tuloksia. Vihdoinkin kuka tahansa voi suorittaa luonnollisen kielen käsittelyä ranskaksi, japaniksi, espanjaksi, venäjäksi, kiinaksi, saksaksi... ja paljon muuta.

Monikielinen

Miksi monikielinen luonnollisen kielen käsittely on haaste

Maailmassa puhutaan nykyään lähes 7000 eri kieltä! Jokaisella kielellä on omat sääntönsä ja joillakin kielillä voivat toimia hyvin eri tavoin. Esimerkiksi ranska, espanja ja italia ovat hyvin samankaltaisia, mutta niillä ei ole mitään tekemistä aasialaisten kielten kanssa. jotka perustuvat ideografioihin tai symboleihin, kuten kiinan ja japanin kielet.

Tästä seuraa, että on käytettävä erilaisia tekniikoita sellaisten kielimallien luomiseksi, jotka pystyvät käsittelemään kaikkia näitä kieliä.

Lyhyesti sanottuna eri kielet saattavat vaatia erilaisia vektoriavaruuksia, vaikka joitakin valmiiksi koulutettuja kielisulkeumia olisikin jo olemassa. Tämä on aktiivinen tutkimusalue.

Mitkä ovat siis ratkaisut?

Muiden kuin englanninkielisten mallien koulutus

Ensimmäinen lähestymistapa on kouluttaa malli tietylle kielelle. Esimerkiksi useita uusia versioita yhteistyöelimen on koulutettu eri kielillä. Deepset AI:n saksankielinen BERT on hyvä esimerkki BERTin uudesta versiosta, joka on koulutettu saksan kielelle alkaen. tyhjästä: katso saksalainen yhteistyöelin täältä.

Ongelmana on, että tämä tekniikka ei skaalaudu hyvin. Uuden mallin kouluttaminen vie aikaa ja maksaa paljon rahaa. Useiden mallien kouluttaminen on vielä kohtuuhintaista spaCyn kaltaisille pienille malleille, ja Explosion AI (spaCyn taustalla oleva yritys) tekee seuraavat toimet tekee hyvää työtä ylläpitämällä useita valmiiksi koulutettuja malleja monilla kielillä: katso lisää täältä. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Se ei myöskään skaalautu hyvin päätelmien tekemisen näkökulmasta. Jos yrityksen on käytettävä luonnollisen kielen käsittelyä tuotannossaan. useilla kielillä, sen on ylläpidettävä useita malleja ja hankittava useita palvelimia ja näytönohjaimia. Se voi osoittautua erittäin kalliiksi. Tämä on yksi syy siihen, miksi NLP Cloudissa yritämme välttää tätä strategiaa mahdollisimman paljon.

Monikieliset mallit

Toinen lähestymistapa on hyödyntää monikielisiä malleja.

Viime vuosina on ilmestynyt uusia monikielisiä malleja, jotka ovat osoittautuneet erittäin tarkoiksi. Joskus jopa tarkempia kuin tietyt ei-englanninkieliset mallit. Suosituimpia ovat mBERT, XLM ja XLM Roberta. XLM Roberta näyttää olevan tarkin monikielinen malli, ja se toimii erittäin hyvin XNLI-arviointitietokannassa (sarja arviointeja monikielisten mallien laadun arvioimiseksi).

Saatavilla on joitakin erittäin hyviä valmiiksi koulutettuja malleja, jotka perustuvat XLM Robertaan. Esimerkiksi tekstin luokitteluun monissa kielillä paras on XLM Roberta Large XNLI: katso tämä malli täältä.

Tällä hetkellä ei ole olemassa hyvää monikielistä mallia tekstin tuottamiseen. Esimerkiksi GPT on erinomainen englanniksi ja ei niin huono englanniksi. useilla muilla kielillä kuin englanniksi, mutta se on kaukana vaikuttavasta. Big Science työskentelee parhaillaan erittäin laajojen monikielisten tekstinmuodostusmallien parissa. Se vaikuttaa lupaavalta! Katso lisää täältä..

Big Science monikielinen 176 miljardin parametrin muunnosmalli
Big Science julkisti juuri monikielisen 176 miljardin parametrin muuntajamallin.

Käännös pelastamaan

Viimeinen strategia on kääntäminen. Ajatuksena on, että sinun pitäisi kääntää ei-englanninkielinen sisältö englanniksi, lähettää englanninkielinen sisältö mallille ja kääntää tulos takaisin alkuperäiselle kielelle.

Tämä tekniikka saattaa kuulostaa hakkeroinnilta, mutta sillä on etunsa. Käännöstyönkulun ylläpitäminen voi olla halvempaa. kuin omien mallien kouluttaminen, ja kaikkia maailman kieliä voidaan tukea helposti.

Viime vuosina on luotu kehittyneitä käännösmalleja, jotka perustuvat syväoppimiseen. Ne ovat sekä nopeita että antavat erittäin hyviä tuloksia. Esimerkiksi Helsinki NLP julkaisi sarjan syvään oppimiseen perustuvia käännösmalleja. Voit käyttää eniten NLP Cloudissa: katso lisää täältä.

Kääntämisen lisääminen työnkulkuun lisää kuitenkin yleistä vasteaikaa. Se ei siis ehkä sovellu, jos etsit seuraavia asioita erittäin nopeita tuloksia.

Päätelmä

Monikielinen luonnollisen kielen käsittely ei ole ratkaistu ongelma, mutta viime vuosina on edistytty paljon. Nyt on mahdollista suorittaa luonnollisen kielen käsittelyä muilla kuin englannin kielillä erittäin hyvillä tuloksilla erityisten mallien ansiosta, monikielisten mallien ja kääntämisen ansiosta.

Me NLP Cloudissa uskomme, että tekstin ymmärtäminen ja tuottaminen monilla kielillä on tärkeää, joten julkaisimme erityisen lisäosan nimeltään "monikielinen lisäosa". Kun se on otettu käyttöön, kaikki tekoälymallimme toimivat hyvin yli 20 kielellä, mukaan lukien GPT-mallit, kuten GPT-J. ja GPT-NeoX: katso se täältä.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

Julien Salinas
teknologiajohtaja, NLP Cloud