Többnyelvű természetes nyelvi feldolgozás: NLP nem angol nyelven

A természetes nyelvi feldolgozás nem angol nyelveken kihívást jelent. Ma már nagyszerű eredményeket lehet elérni a többnyelvű természetes nyelvi feldolgozással. Végre bárki végezhet természetes nyelvi feldolgozást franciául, japánul, spanyolul, oroszul, kínaiul, németül... és még sok más nyelven.

Többnyelvű

Miért jelent kihívást a többnyelvű természetes nyelvi feldolgozás

Ma már csaknem 7000 különböző nyelvet beszélnek a világon! Minden nyelvnek megvannak a maga szabályai, és egyes nyelvek nyelvek nagyon eltérően működnek. Például a francia, a spanyol és az olasz nagyon hasonló, de semmi közük az ázsiai nyelvekhez. amelyek ideográfokon vagy szimbólumokon alapulnak, mint a kínai és a japán.

Ennek az a következménye, hogy különböző technikákat kell alkalmazni olyan nyelvi modellek létrehozásához, amelyek képesek kezelni ezeket a nyelveket.

Röviden, a különböző nyelvek különböző vektortereket igényelhetnek, még akkor is, ha már létezik néhány előre betanított nyelvi beágyazás. Ez egy aktív kutatási terület.

Mik tehát a megoldások?

Speciális nem angol nyelvű modellek képzése

Az első megközelítés az, hogy egy adott nyelvre képezünk modellt. Például a BERT számos új verziója különböző nyelvekre képezték ki. A Deepset AI által készített német BERT jó példa a BERT német nyelvre képzett új verziójára, amely a német nyelvből származik. a semmiből: lásd a német BERT-et itt.

A probléma az, hogy ez a technika nem jól skálázható. Egy új modell kiképzése időbe telik és sok pénzbe kerül. Több modell képzése még mindig megfizethető az olyan kis modellek esetében, mint a spaCy, és az Explosion AI (a spaCy mögött álló vállalat) a következő szolgáltatásokat nyújtja nagyszerű munkát végez számos előre betanított modell fenntartásában, számos nyelven: többet itt találsz. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Következtetés szempontjából sem skálázódik jól. Ha egy vállalatnak természetes nyelvi feldolgozást kell használnia a termelésben. több nyelven, akkor több modellt kell fenntartania, és több szervert és GPU-t kell biztosítania. Ez rendkívül költségesnek bizonyulhat. Ez a az egyik oka annak, hogy az NLP Cloudnál igyekszünk ezt a stratégiát a lehető legnagyobb mértékben elkerülni.

Többnyelvű modellek

A második megközelítés a többnyelvű modellek kihasználása.

Az utóbbi években új többnyelvű modellek jelentek meg, amelyek nagyon pontosnak bizonyultak. Néha a pontosabbak, mint a nem angol nyelvű modellek. A legnépszerűbbek az mBERT, az XLM és az XLM Roberta. Az XLM Roberta tűnik a legpontosabb többnyelvű modellnek, és nagyon jól teljesít az XNLI értékelő adathalmazon (értékelési sorozat). a többnyelvű modellek minőségének értékelésére).

Elérhető néhány nagyon jó, XLM Roberta alapú, előre betanított modell. Például a szövegosztályozáshoz számos nyelvek esetében a legjobb az XLM Roberta Large XNLI: lásd ezt a modellt itt.

Egyelőre nincs jó többnyelvű modell a szöveggeneráláshoz. A GPT például kiváló angolul, és nem is olyan rossz. számos nem angol nyelven, de messze nem lenyűgöző. A Big Science jelenleg nagyon nagy többnyelvű szöveggeneráló modelleken dolgozik. Ígéretesnek tűnik! További részletek itt..

Big Science többnyelvű 176 milliárd paraméter transzformátor modell
A Big Science most jelentett be egy többnyelvű 176 milliárd paraméteres transzformátor modellt

Fordítás a megmentéshez

Az utolsó stratégia a fordítás alkalmazása. Ennek lényege, hogy a nem angol nyelvű tartalmakat angolra kell fordítania, küldje el az angol tartalmat a modellnek, és fordítsa vissza az eredményt az eredeti nyelvre.

Ez a technika hackelésnek tűnhet, de megvannak az előnyei. A fordítási munkafolyamat fenntartása kevésbé költséges lehet. mint a dedikált modellek képzése, és a világ összes nyelve könnyen támogatható.

Az elmúlt években mélytanuláson alapuló fejlett fordítási modellek jöttek létre. Gyorsak és gyorsak is, és nagyon jó eredményeket adnak. A Helsinki NLP például egy sor mélytanuláson alapuló fordítási modellt adott ki. Használhatja a legtöbb NLP Cloud-on: többet itt találsz.

A fordítás hozzáadása a munkafolyamathoz azonban növeli a teljes válaszidőt. Tehát nem biztos, hogy ez a megoldás megfelelő, ha nagyon gyors eredményeket szeretne.

Következtetés

A többnyelvű természetes nyelvi feldolgozás nem megoldott probléma, de az elmúlt években sok előrelépés történt. Ma már nem angol nyelveken is nagyon jó eredményekkel lehet természetes nyelvi feldolgozást végezni, köszönhetően a speciális modelleknek, a többnyelvű modelleknek és a fordításnak köszönhetően.

Az NLP Cloudnál úgy gondoljuk, hogy a többnyelvű szövegek megértése és generálása kulcsfontosságú, ezért kiadtunk egy speciális kiegészítőt. "többnyelvű bővítmény" néven. Ha engedélyezve van, az összes AI-modellünk több mint 20 nyelven képes jól működni, beleértve a GPT-modelleket, mint például a GPT-J és a GPT-NeoX: itt láthatja.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

Julien Salinas
CTO az NLP Cloud-nál