Многоезична обработка на естествен език: NLP на неанглоезични езици

Извършването на обработка на естествен език на неанглоезични езици е предизвикателство. Днес е възможно да се постигнат отлични резултати с многоезична обработка на естествен език. Най-сетне всеки може да извършва обработка на естествен език на френски, японски, испански, руски, китайски, немски... и много други езици.

Многоезичен

Защо многоезичната обработка на естествения език е предизвикателство

Днес в света се говорят почти 7000 различни езика! Всеки език има свои собствени правила, а някои езици могат да работят по много различен начин. Например френският, испанският и италианският език са много сходни, но нямат нищо общо с азиатските езици които се основават на идеограми или символи като китайския и японския.

В резултат на това се налага да се използват различни техники за създаване на езикови модели, които да могат да работят с всички тези езици.

Накратко, различните езици могат да изискват различни векторни пространства, дори ако вече съществуват предварително обучени езикови вграждания. Това е активна изследователска област.

И така, какви са решенията?

Специфично обучение за модели, които не са на английски език

Първият подход е да се обучи модел за конкретен език. Например, няколко нови версии на BERT са били обучени на различни езици. Немският BERT от Deepset AI е добър пример за нова версия на BERT, обучена на немски език от от нулата: вижте немския BERT тук.

Проблемът е, че тази техника не е подходяща за мащабиране. Обучението на нов модел отнема време и струва много пари. Обучението на няколко модела все още е достъпно за малки модели като spaCy, а Explosion AI (компанията зад spaCy) прави се справя отлично с поддържането на няколко предварително обучени модела на много езици: Вижте повече тук. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Освен това не е добре мащабирана от гледна точка на изводите. Ако една компания трябва да използва обработка на естествен език в производството на няколко езика, тя ще трябва да поддържа няколко модела и да осигури няколко сървъра и графични процесори. Това може да се окаже изключително скъпо. Този е една от причините, поради които в NLP Cloud се опитваме да избегнем тази стратегия, доколкото е възможно.

Многоезични модели

Вторият подход е да се използват многоезични модели.

През последните години се появиха нови многоезични модели, които се оказаха много точни. Понякога дори по-точни от специфичните неанглоезични модели. Най-популярните от тях са mBERT, XLM и XLM Roberta. XLM Roberta изглежда е най-точният многоезичен модел и се представя много добре в набора от данни за оценка XNLI (серия от оценки за оценка на качеството на многоезичните модели).

Налични са някои много добри предварително обучени модели, базирани на XLM Roberta. Например, за класификация на текст в много езици, най-добрият модел е XLM Roberta Large XNLI: вижте този модел тук.

Засега няма добър многоезичен модел за генериране на текст. Например GPT е отличен на английски език и не толкова лош на няколко неанглоезични езика, но далеч не е впечатляващ. В момента Big Science работи върху много големи многоезични модели за генериране на текст. Това изглежда обещаващо! Вижте повече тук..

Голяма наука многоезичен модел 176 милиарда параметри трансформатори
Big Science току-що обяви многоезичен модел на трансформатори с 176 милиарда параметри

Превод на помощ

Последната стратегия е да се използва превод. Идеята е, че трябва да преведете неанглоезичното си съдържание на английски език, да изпратите английското съдържание на модела и да преведете резултата обратно на оригиналния си език.

Тази техника може да звучи като хакерска, но има своите предимства. Поддържането на работен поток за превод може да е по-евтино от обучението на специализирани модели, а всички езици в света могат да бъдат лесно поддържани.

През последните години бяха създадени усъвършенствани модели за превод, базирани на дълбоко обучение. Те са бързи и дават много добри резултати. Например Хелзинки НЛП пусна серия модели за превод, базирани на дълбоко обучение. Можете да използвате най- популярните от тях в NLP Cloud: Вижте повече тук.

Добавянето на превод към работния ви процес обаче ще увеличи общото време за реакция. Затова може да не е подходящо, ако търсите много бързи резултати.

Заключение

Многоезичната обработка на естествен език не е решен проблем, но през последните години е постигнат голям напредък. Вече е възможно да се извършва обработка на естествен език на неанглоезични езици с много добри резултати, благодарение на специфични модели, многоезични модели и превод.

В NLP Cloud вярваме, че разбирането и генерирането на текст на много езици е от решаващо значение, затова пуснахме специална добавка наречена "многоезична добавка". След като бъде активирана, всички наши модели на изкуствен интелект могат да работят добре на повече от 20 езика, включително модели на GPT като GPT-J и GPT-NeoX: вижте го тук.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

Julien Salinas
Технически директор в NLP Cloud