Многоязычная обработка естественного языка: NLP на неанглийских языках

Выполнение обработки естественного языка на неанглийских языках является сложной задачей. Сегодня можно получить отличные результаты при многоязычной обработке естественного языка. Наконец-то каждый может выполнять обработку естественного языка на французском, японском, испанском, русском, китайском, немецком... и многих других языках.

Многоязычный

Почему многоязычная обработка естественного языка является сложной задачей

Сегодня в мире говорят почти на 7000 различных языках! Каждый язык имеет свои правила, и некоторые языки могут работать совершенно по-разному. Например, французский, испанский и итальянский языки очень похожи, но они не имеют ничего общего с азиатскими языками, основанными на идеограммах или символах, такими как китайский и японский. основанными на идеограммах или символах, такими как китайский и японский.

Следствием этого является то, что для создания языковых моделей, способных работать со всеми этими языками, необходимо использовать различные методы.

Короче говоря, для разных языков могут потребоваться разные векторные пространства, даже если уже существуют некоторые предварительно обученные языковые вкрапления. Это активная область исследований.

Каковы же решения?

Обучение специфическим неанглоязычным моделям

Первый подход заключается в обучении модели для конкретного языка. Например, несколько новых версий BERT были обучены на различных языках. Немецкий BERT от Deepset AI - хороший пример новой версии BERT, обученной на немецком языке с нуля. с нуля: см. немецкий BERT здесь.

Проблема в том, что эта техника плохо масштабируется. Обучение новой модели занимает много времени и стоит больших денег. Обучение нескольких моделей все еще доступно для небольших моделей, таких как spaCy, а Explosion AI (компания, создавшая spaCy) делает отлично справляется с поддержкой нескольких предварительно обученных моделей на многих языках: смотрите больше здесь. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Он также не очень хорошо масштабируется с точки зрения выводов. Если компании необходимо использовать обработку естественного языка в производстве на нескольких языках, ей придется поддерживать несколько моделей и предоставлять несколько серверов и графических процессоров. Это может оказаться чрезвычайно дорогостоящим. Этот одна из причин, почему в NLP Cloud мы стараемся максимально избегать этой стратегии.

Многоязычные модели

Второй подход заключается в использовании многоязычных моделей.

В последние годы появились новые многоязычные модели, которые оказались очень точными. Иногда даже более точными, чем конкретные неанглоязычные модели. Самые популярные из них - mBERT, XLM и XLM Roberta. XLM Roberta кажется самой точной многоязычной моделью, и она показывает очень хорошие результаты на наборе данных оценки XNLI (серия оценок для оценки качества многоязычных моделей).

Имеется несколько очень хороших предварительно обученных моделей на основе XLM Roberta. Например, для классификации текстов на многих языков, лучшей является XLM Roberta Large XNLI: посмотреть эту модель здесь.

На данный момент не существует хорошей многоязычной модели для генерации текста. Например, GPT отлично работает на английском языке и не так уж плох на нескольких неанглийских языках, но далеко не впечатляет. В настоящее время Big Science работает над очень большими многоязычными моделями генерации текста. Это кажется многообещающим! Смотрите больше здесь..

Большая наука многоязычная 176 миллиардов параметров трансформаторы модели
Big Science только что объявила о создании многоязычной модели трансформации 176 миллиардов параметров

Перевод на помощь

Последняя стратегия заключается в использовании перевода. Идея заключается в том, что вы должны перевести ваш неанглоязычный контент на английский язык, отправить английский контент в модель и перевести результат обратно на ваш оригинальный язык.

Эта техника может показаться халтурой, но у нее есть свои преимущества. Поддержание рабочего процесса перевода может быть менее дорогостоящим чем обучение специализированных моделей, и все языки мира могут быть легко поддержаны.

В последние годы были созданы усовершенствованные модели перевода, основанные на глубоком обучении. Они работают быстро и дают очень хорошие результаты. Например, компания Helsinki NLP выпустила серию моделей перевода, основанных на глубоком обучении. Вы можете использовать наиболее популярными из них на NLP Cloud: смотрите больше здесь.

Однако добавление перевода в рабочий процесс увеличит общее время отклика. Поэтому он может не подойти, если вам нужны очень быстрые результаты.

Заключение

Многоязычная обработка естественного языка не является решенной проблемой, но за последние годы был достигнут значительный прогресс. Теперь можно выполнять обработку естественного языка на неанглийских языках с очень хорошими результатами, благодаря специальным моделям, многоязычным моделям и переводу.

В NLP Cloud мы считаем, что понимание и генерирование текста на многих языках имеет решающее значение, поэтому мы выпустили специальную надстройку под названием "Многоязычное дополнение". После его включения все наши модели ИИ могут работать более чем на 20 языках, включая модели GPT, такие как GPT-J и GPT-NeoX: посмотреть здесь.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

Julien Salinas
Технический директор NLP Cloud