Spracovanie prirodzeného jazyka v iných ako anglických jazykoch je výzvou. V súčasnosti je možné dosiahnuť skvelé výsledky pri viacjazyčnom spracovaní prirodzeného jazyka. Konečne môže ktokoľvek vykonávať spracovanie prirodzeného jazyka vo francúzštine, japončine, španielčine, ruštine, čínštine, nemčine... a mnohých ďalších.

Na svete sa dnes hovorí takmer 7000 rôznymi jazykmi! Každý jazyk má svoje vlastné pravidlá a niektoré jazyky môžu fungovať veľmi odlišne. Napríklad francúzština, španielčina a taliančina sú si veľmi podobné, ale nemajú nič spoločné s ázijskými jazykmi založené na ideografoch alebo symboloch, ako sú čínština a japončina.
Dôsledkom toho je, že na vytvorenie jazykových modelov, ktoré sú schopné pracovať so všetkými týmito jazykmi, je potrebné použiť rôzne techniky.
Stručne povedané, rôzne jazyky môžu vyžadovať rôzne vektorové priestory, aj keď už existujú nejaké predtrénované jazykové vložky. Toto je aktívna oblasť výskumu.
Aké sú teda riešenia?
Prvým prístupom je natrénovať model pre konkrétny jazyk. Napríklad niekoľko nových verzií BERT boli vyškolené v rôznych jazykoch. Nemecký BERT od spoločnosti Deepset AI je dobrým príkladom novej verzie BERT vycvičenej na nemecký jazyk od od začiatku: pozri nemecký BERT tu.
Problémom je, že táto technika sa nedá dobre škálovať. Tréning nového modelu trvá dlho a stojí veľa peňazí. Tréning niekoľkých modelov je stále cenovo dostupný pre malé modely, ako je spaCy, a Explosion AI (spoločnosť, ktorá stojí za spaCy) robí skvelú prácu pri udržiavaní niekoľkých predtrénovaných modelov v mnohých jazykoch: Viac informácií nájdete tu. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.
Z hľadiska odvodzovania sa tiež dobre neškáluje. Ak spoločnosť potrebuje používať spracovanie prirodzeného jazyka vo výrobe vo viacerých jazykoch, bude musieť udržiavať niekoľko modelov a zabezpečiť niekoľko serverov a GPU. To sa môže ukázať ako mimoriadne nákladné. Tento je jedným z dôvodov, prečo sa v službe NLP Cloud snažíme tejto stratégii čo najviac vyhnúť.
Druhým prístupom je využitie viacjazyčných modelov.
V posledných rokoch sa objavili nové viacjazyčné modely, ktoré sa ukázali ako veľmi presné. Niekedy dokonca presnejšie ako špecifické neanglické modely. Najobľúbenejšie z nich sú mBERT, XLM a XLM Roberta. Zdá sa, že XLM Roberta je najpresnejší viacjazyčný model, ktorý dosahuje veľmi dobré výsledky v hodnotiacom súbore údajov XNLI (séria hodnotení na hodnotenie kvality viacjazyčných modelov).
K dispozícii sú niektoré veľmi dobré predtrénované modely založené na XLM Roberta. Napríklad na klasifikáciu textu v mnohých jazykov je najlepší model XLM Roberta Large XNLI: pozrite si tento model tu.
V súčasnosti neexistuje žiadny dobrý viacjazyčný model na generovanie textu. Napríklad GPT je vynikajúci v angličtine a nie je taký zlý v niekoľkých neanglických jazykoch, ale ani zďaleka nie je pôsobivý. Spoločnosť Big Science v súčasnosti pracuje na veľmi rozsiahlych viacjazyčných modeloch na generovanie textu. Zdá sa, že je to sľubné! Viac informácií nájdete tu..

Spoločnosť Big Science práve oznámila viacjazyčný model transformátorov s 176 miliardami parametrov
Poslednou stratégiou je použitie prekladu. Ide o to, že by ste mali preložiť svoj neanglický obsah do angličtiny, poslať anglický obsah modelu a výsledok preložiť späť do pôvodného jazyka.
Táto technika môže znieť ako hack, ale má svoje výhody. Udržiavanie pracovného postupu prekladu môže byť menej nákladné ako trénovať špecializované modely a možno ľahko podporovať všetky jazyky na svete.
V posledných rokoch boli vytvorené pokročilé modely prekladu založené na hlbokom učení. Sú rýchle a poskytujú veľmi dobré výsledky. Napríklad spoločnosť Helsinki NLP vydala sériu prekladových modelov založených na hlbokom učení. Môžete použiť najviac populárne z nich na službe NLP Cloud: Viac informácií nájdete tu.
Pridanie prekladu do pracovného postupu však predĺži celkový čas odozvy. Takže to nemusí byť vhodné, ak hľadáte veľmi rýchle výsledky.
Viacjazyčné spracovanie prirodzeného jazyka nie je vyriešený problém, ale v posledných rokoch sa dosiahol veľký pokrok. Vďaka špecifickým modelom je teraz možné vykonávať spracovanie prirodzeného jazyka v iných ako anglických jazykoch s veľmi dobrými výsledkami, viacjazyčných modelov a prekladu.
V službe NLP Cloud sme presvedčení, že porozumenie a generovanie textu v mnohých jazykoch je veľmi dôležité, preto sme vydali špeciálny doplnok s názvom "viacjazyčný doplnok". Po jeho aktivácii môžu všetky naše modely umelej inteligencie dobre pracovať vo viac ako 20 jazykoch vrátane modelov GPT, ako je GPT-J a GPT-NeoX: pozrite si ho tu.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}
Julien Salinas
Technický riaditeľ spoločnosti NLP Cloud