Vícejazyčné zpracování přirozeného jazyka: NLP v jiných než anglických jazycích

Zpracování přirozeného jazyka v neanglických jazycích je výzvou. Dnes je možné dosáhnout skvělých výsledků při vícejazyčném zpracování přirozeného jazyka. Konečně může kdokoli provádět zpracování přirozeného jazyka ve francouzštině, japonštině, španělštině, ruštině, čínštině, němčině... a mnoha dalších jazycích.

Vícejazyčné stránky

Proč je vícejazyčné zpracování přirozeného jazyka výzvou?

Na světě se dnes mluví téměř 7000 různými jazyky! Každý jazyk má svá vlastní pravidla a některé jazyky mohou fungovat velmi odlišně. Například francouzština, španělština a italština jsou si velmi podobné, ale s asijskými jazyky nemají nic společného. založenými na ideografech nebo symbolech, jako je čínština a japonština.

Z toho vyplývá, že k vytvoření jazykových modelů, které si poradí se všemi těmito jazyky, je třeba použít různé techniky.

Stručně řečeno, různé jazyky mohou vyžadovat různé vektorové prostory, a to i v případě, že již existují nějaké předtrénované jazykové vložky. Tato oblast je předmětem aktivního výzkumu.

Jaká jsou tedy řešení?

Školení specifických neanglických modelů

Prvním přístupem je trénování modelu pro konkrétní jazyk. Například několik nových verzí BERT bylo vycvičeno pro různé jazyky. Německý BERT od společnosti Deepset AI je dobrým příkladem nové verze BERTu vycvičené na němčinu od roku 2006. od začátku: viz německý BERT zde.

Problémem je, že tato technika není dobře škálovatelná. Školení nového modelu trvá dlouho a stojí hodně peněz. Trénování několika modelů je pro malé modely, jako je spaCy, stále ještě cenově dostupné a Explosion AI (společnost stojící za spaCy) dělá. skvělou práci při udržování několika předtrénovaných modelů v mnoha jazycích: Více informací naleznete zde. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Z hlediska odvozování se také dobře neškáluje. Pokud společnost potřebuje používat zpracování přirozeného jazyka ve výrobě. v několika jazycích, bude muset udržovat několik modelů a zajistit několik serverů a GPU. To se může ukázat jako velmi nákladné. Tento je jedním z důvodů, proč se ve společnosti NLP Cloud snažíme této strategii co nejvíce vyhnout.

Vícejazyčné modely

Druhým přístupem je využití vícejazyčných modelů.

V posledních letech se objevily nové vícejazyčné modely, které se ukázaly jako velmi přesné. Někdy dokonce přesnější než konkrétní neanglické modely. Mezi nejoblíbenější patří mBERT, XLM a XLM Roberta. Zdá se, že XLM Roberta je nejpřesnější vícejazyčný model, který si vede velmi dobře v souboru hodnotících dat XNLI (řada hodnocení pro hodnocení kvality vícejazyčných modelů).

K dispozici jsou některé velmi dobré předtrénované modely založené na XLM Roberta. Například pro klasifikaci textu v mnoha jazyků je nejlepší XLM Roberta Large XNLI: viz tento model zde.

V současné době neexistuje žádný dobrý vícejazyčný model pro generování textu. Například GPT je vynikající v angličtině a není tak špatný. v několika neanglických jazycích, ale zdaleka není tak působivý. Společnost Big Science v současné době pracuje na velmi rozsáhlých vícejazyčných modelech pro generování textu. Zdá se to být slibné! Více informací naleznete zde..

Big Science vícejazyčný model transformátorů 176 miliard parametrů
Společnost Big Science právě oznámila vícejazyčný model transformátorů s 176 miliardami parametrů.

Překlad na pomoc

Poslední strategií je použití překladu. Jde o to, že byste měli svůj neanglický obsah přeložit do angličtiny, odeslat anglický obsah do modelu a výsledek přeložit zpět do původního jazyka.

Tato technika může znít jako hack, ale má své výhody. Udržování pracovního postupu překladu může být méně nákladné. než trénování specializovaných modelů a lze snadno podporovat všechny jazyky světa.

V posledních letech byly vytvořeny pokročilé modely překladu založené na hlubokém učení. Jsou rychlé a poskytují velmi dobré výsledky. Například společnost Helsinki NLP vydala řadu překladových modelů založených na hlubokém učení. Můžete použít většinu populární z nich na platformě NLP Cloud: Více informací naleznete zde.

Přidáním překladu do pracovního postupu se však prodlouží celková doba odezvy. Takže to nemusí být vhodné, pokud hledáte velmi rychlé výsledky.

Závěr

Vícejazyčné zpracování přirozeného jazyka není vyřešeným problémem, ale v posledních letech bylo dosaženo velkého pokroku. Díky specifickým modelům je nyní možné provádět zpracování přirozeného jazyka v neanglických jazycích s velmi dobrými výsledky, vícejazyčných modelů a překladu.

Ve společnosti NLP Cloud věříme, že porozumění a generování textu v mnoha jazycích je zásadní, a proto jsme vydali speciální doplněk. nazvaný "vícejazyčný doplněk". Po jeho aktivaci mohou všechny naše modely umělé inteligence dobře pracovat ve více než 20 jazycích, včetně modelů GPT, jako je GPT-J. a GPT-NeoX: viz zde.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

Julien Salinas
Technický ředitel společnosti NLP Cloud