Багатомовна обробка природної мови: NLP не англійською мовою

Обробка природної мови неанглійськими мовами є складним завданням. Сьогодні можна отримати чудові результати за допомогою багатомовної обробки природної мови. Нарешті будь-хто може виконувати обробку природної мови французькою, японською, іспанською, російською, китайською, німецькою... та багатьма іншими мовами.

Багатомовний

Чому обробка багатомовної природної мови є складним завданням

Сьогодні у світі розмовляють майже 7000 різними мовами! Кожна мова має свої правила, і деякі мови можуть працювати зовсім по-різному. Наприклад, французька, іспанська та італійська мови дуже схожі, але вони не мають нічого спільного з азіатськими мовами заснованими на ідеографах або символах, як китайська та японська.

Наслідком цього є те, що для створення мовних моделей, здатних працювати з усіма цими мовами, доводиться використовувати різні методи.

Коротше кажучи, різні мови можуть потребувати різних векторних просторів, навіть якщо вже існують деякі заздалегідь підготовлені мовні вбудовування. Це активна дослідницька область.

Так які ж рішення?

Навчання специфічним неангломовним моделям

Перший підхід полягає в навчанні моделі для конкретної мови. Наприклад, кілька нових версій BERT були навчені на різних мовах. Німецький BERT від Deepset AI є гарним прикладом нової версії BERT, навченої німецькій мові з з нуля: Дивіться німецький БЕРТ тут.

Проблема в тому, що ця методика погано масштабується. Навчання нової моделі займає багато часу і коштує багато грошей. Навчання декількох моделей все ще доступне для невеликих моделей, таких як spaCy, і Explosion AI (компанія, що стоїть за spaCy) робить велику роботу з підтримки декількох попередньо навчених моделей багатьма мовами: Дивіться більше тут. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Він також не дуже добре масштабується з точки зору виведення. Якщо компанії потрібно використовувати обробку природної мови у виробництві на декількох мовах, їй доведеться підтримувати кілька моделей і забезпечити кілька серверів і графічних процесорів. Це може виявитися надзвичайно дорогим. Це одна з причин, чому в NLP Cloud ми намагаємося уникати цієї стратегії, наскільки це можливо.

Багатомовні моделі

Другий підхід полягає у використанні багатомовних моделей.

Останніми роками з'явилися нові багатомовні моделі, які виявилися дуже точними. Іноді навіть більш точними, ніж конкретні неангломовні моделі. Найпопулярнішими з них є mBERT, XLM та XLM Roberta. XLM Roberta здається найточнішою багатомовною моделлю, і вона дуже добре працює на наборі даних оцінки XNLI (серія оцінок для оцінки якості багатомовних моделей).

Існують дуже хороші попередньо навчені моделі на основі XLM Roberta. Наприклад, для класифікації тексту на багатьох мовами, найкращою є XLM Roberta Large XNLI: Дивіться цю модель тут.

На даний момент не існує хорошої багатомовної моделі для генерації тексту. Наприклад, GPT відмінно працює англійською мовою і не так вже й погано кількома неанглійськими мовами, але далеко не вражає. Big Science зараз працює над дуже великими багатомовними моделями генерації тексту. Це виглядає багатообіцяюче! Дивіться більше тут..

Багатомовна модель трансформаторів з 176 мільярдами параметрів Big Science
Big Science щойно анонсувала багатомовну модель трансформаторів з 176 мільярдами параметрів

Переклад на допомогу

Остання стратегія полягає у використанні перекладу. Ідея полягає в тому, що ви повинні перекласти свій неанглійський контент на англійську мову, надіслати англомовний контент на модель і перекласти результат назад на мову оригіналу.

Цей метод може звучати як хакерство, але він має свої переваги. Підтримка робочого процесу перекладу може бути дешевшою ніж навчання спеціальних моделей, і може легко підтримувати всі мови світу.

Останніми роками були створені передові моделі перекладу, засновані на глибокому навчанні. Вони і швидкі, і дають дуже хороші результати. Наприклад, Helsinki NLP випустила серію моделей перекладу, заснованих на глибокому навчанні. Ви можете скористатися найбільш популярними з них можна скористатися на NLP Cloud: Дивіться більше тут.

Однак додавання перекладу до робочого процесу збільшить загальний час відповіді. Тому він може не підійти, якщо ви шукаєте дуже швидких результатів.

Висновок

Багатомовна обробка природної мови не є вирішеною проблемою, але за останні роки було досягнуто значного прогресу. Завдяки спеціальним моделям тепер можна виконувати обробку природної мови на неанглійських мовах з дуже хорошими результатами, багатомовним моделям і перекладу.

У NLP Cloud ми вважаємо, що розуміння і генерація тексту на багатьох мовах має вирішальне значення, тому ми випустили спеціальне доповнення під назвою "багатомовний додаток". Після його ввімкнення всі наші моделі ШІ можуть добре працювати більш ніж 20 мовами, включаючи моделі GPT, такі як GPT-J і GPT-NeoX: подивись тут.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

Julien Salinas
CTO в NLP Cloud