Wielojęzyczne przetwarzanie języka naturalnego: NLP w językach innych niż angielski

Przetwarzanie języka naturalnego w językach innych niż angielski to nie lada wyzwanie. Obecnie możliwe jest uzyskanie doskonałych wyników dzięki wielojęzycznemu przetwarzaniu języka naturalnego. Nareszcie każdy może przetwarzać język naturalny w języku francuskim, japońskim, hiszpańskim, rosyjskim, chińskim, niemieckim... i wielu innych.

Wielojęzyczna strona

Dlaczego wielojęzyczne przetwarzanie języka naturalnego jest wyzwaniem

Obecnie na świecie mówi się prawie 7000 różnymi językami! Każdy język ma swoje własne zasady, a niektóre języki mogą funkcjonować zupełnie inaczej. Na przykład francuski, hiszpański i włoski są do siebie bardzo podobne, ale nie mają nic wspólnego z językami azjatyckimi opartych na ideogramach lub symbolach, takich jak chiński i japoński.

W rezultacie do tworzenia modeli językowych, które będą w stanie poradzić sobie z tymi wszystkimi językami, trzeba stosować różne techniki.

Mówiąc krótko, różne języki mogą wymagać różnych przestrzeni wektorowych, nawet jeśli istnieją już pewne wstępnie wytrenowane osadzenia językowe. Jest to aktywny obszar badań.

Jakie są zatem rozwiązania?

Szkolenie dla modeli nieanglojęzycznych

Pierwsze podejście polega na wytrenowaniu modelu dla konkretnego języka. Na przykład, kilka nowych wersji BERT zostało wytrenowanych w różnych językach. Niemiecki BERT firmy Deepset AI jest dobrym przykładem nowej wersji BERT, wytrenowanej od podstaw na języku niemieckim. od podstaw: Zobacz niemiecki BERT tutaj.

Problem w tym, że ta technika nie jest dobrze skalowalna. Wyszkolenie nowego modelu wymaga czasu i kosztuje dużo pieniędzy. Szkolenie kilku modeli jest nadal przystępne dla małych modeli, takich jak spaCy, a Explosion AI (firma stojąca za spaCy) wykonuje świetną robotę świetnie radzi sobie z utrzymaniem kilku wstępnie wytrenowanych modeli w wielu językach: zobacz więcej tutaj. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Nie jest też dobrze skalowalny z punktu widzenia wnioskowania. Jeśli firma potrzebuje wykorzystać przetwarzanie języka naturalnego w produkcji w kilku językach, będzie musiała utrzymywać kilka modeli i zapewnić kilka serwerów i jednostek GPU. Może się to okazać niezwykle kosztowne. Ta strona jest jednym z powodów, dla których w NLP Cloud staramy się unikać tej strategii tak bardzo, jak to tylko możliwe.

Modele wielojęzyczne

Drugie podejście polega na wykorzystaniu modeli wielojęzycznych.

W ostatnich latach pojawiły się nowe modele wielojęzyczne, które okazały się bardzo dokładne. Czasami czasami nawet dokładniejsze niż konkretne modele nieanglojęzyczne. Najpopularniejsze z nich to mBERT, XLM i XLM Roberta. XLM Roberta wydaje się być najdokładniejszym modelem wielojęzycznym i osiąga bardzo dobre wyniki w zbiorze danych XNLI (seria testów oceniających w celu oceny jakości modeli wielojęzycznych).

Dostępnych jest kilka bardzo dobrych wstępnie wytrenowanych modeli opartych na XLM Roberta. Na przykład, do klasyfikacji tekstu w wielu języków, najlepszy jest model XLM Roberta Large XNLI: zobacz ten model tutaj.

W chwili obecnej nie ma dobrego wielojęzycznego modelu do generowania tekstów. Na przykład GPT jest doskonały w języku angielskim i nie jest taki zły w kilku językach nieangielskich, ale daleko mu do imponującego poziomu. Big Science pracuje obecnie nad bardzo dużymi wielojęzycznymi modelami generowania tekstu. Wygląda to obiecująco! Zobacz więcej tutaj..

Big Science wielojęzyczne 176 miliardów parametrów transformatory model
Big Science ogłosiła właśnie wielojęzyczny model transformaty 176 miliardów parametrów

Tłumaczenie na ratunek

Ostatnią strategią jest korzystanie z tłumaczeń. Polega ona na tym, że należy przetłumaczyć treści nieanglojęzyczne na język angielski, wysłać treść angielską do modelu, a następnie przetłumaczyć wynik z powrotem na język oryginalny.

Ta technika może wydawać się łatwa do zastosowania, ale ma swoje zalety. Utrzymanie obiegu tłumaczeń może być mniej kosztowne niż szkolenie dedykowanych modeli, a ponadto można łatwo obsłużyć wszystkie języki świata.

W ostatnich latach powstały zaawansowane modele tłumaczeniowe oparte na głębokim uczeniu. Są one zarówno szybkie, jak i dają bardzo dobre wyniki. Na przykład firma Helsinki NLP opublikowała serię modeli tłumaczeniowych opartych na głębokim uczeniu. Z najpopularniejszych z nich można korzystać najpopularniejszych z nich w serwisie NLP Cloud: zobacz więcej tutaj.

Dodanie tłumaczenia do przepływu pracy wydłuży jednak ogólny czas reakcji. Może to więc nie być odpowiednie rozwiązanie dla osób, które oczekują bardzo szybkich wyników.

Wniosek

Wielojęzyczne przetwarzanie języka naturalnego nie jest problemem rozwiązanym, ale w ostatnich latach dokonano znacznego postępu w tej dziedzinie. Obecnie możliwe jest przetwarzanie języka naturalnego w językach innych niż angielski z bardzo dobrymi wynikami dzięki zastosowaniu specjalnych modeli, modelom wielojęzycznym i tłumaczeniu.

W NLP Cloud wierzymy, że rozumienie i generowanie tekstu w wielu językach jest niezwykle istotne, dlatego udostępniliśmy specjalny dodatek zwany "dodatkiem wielojęzycznym". Po jego włączeniu wszystkie nasze modele AI mogą pracować w ponad 20 językach, w tym modele GPT, takie jak GPT-J i GPT-NeoX: zobacz tutaj.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

Julien Salinas
CTO w NLP Cloud