Mehrsprachige natürliche Sprachverarbeitung: NLP in nicht-englischen Sprachen

Die Verarbeitung natürlicher Sprache in nicht-englischen Sprachen ist eine Herausforderung. Heute ist es möglich, mit mehrsprachiger natürlicher Sprachverarbeitung großartige Ergebnisse zu erzielen. Endlich kann jeder die Verarbeitung natürlicher Sprache in Französisch, Japanisch, Spanisch, Russisch, Chinesisch, Deutsch ... und vielen anderen Sprachen durchführen.

Mehrsprachig

Warum mehrsprachige natürliche Sprachverarbeitung eine Herausforderung ist

Fast 7000 verschiedene Sprachen werden heute auf der Welt gesprochen! Jede Sprache hat ihre eigenen Regeln und einige Sprachen können sehr unterschiedlich funktionieren. Französisch, Spanisch und Italienisch sind sich zum Beispiel sehr ähnlich, aber sie haben nichts mit asiatischen Sprachen zu tun die auf Ideogrammen oder Symbolen wie Chinesisch und Japanisch basieren.

Dies hat zur Folge, dass verschiedene Techniken verwendet werden müssen, um Sprachmodelle zu erstellen, die all diese Sprachen abdecken können.

Um es kurz zu machen: Verschiedene Sprachen können unterschiedliche Vektorräume erfordern, auch wenn es bereits einige vortrainierte Spracheinbettungen gibt. Dies ist ein aktives Forschungsgebiet.

Was sind also die Lösungen?

Training spezifischer nicht-englischer Modelle

Ein erster Ansatz besteht darin, ein Modell für eine bestimmte Sprache zu trainieren. Zum Beispiel wurden mehrere neue Versionen von BERT in verschiedenen Sprachen trainiert worden. German BERT von Deepset AI ist ein gutes Beispiel für eine neue Version von BERT, die von Grund auf für die deutsche Sprache trainiert wurde von Grund auf: siehe deutsches BERT hier.

Das Problem ist, dass sich diese Technik nicht gut skalieren lässt. Die Ausbildung eines neuen Modells dauert lange und kostet viel Geld. Das Training mehrerer Modelle ist für kleine Modelle wie spaCy noch erschwinglich, und Explosion AI (das Unternehmen hinter spaCy) leistet (das Unternehmen hinter spaCy) leistet großartige Arbeit bei der Pflege mehrerer vortrainierter Modelle in vielen Sprachen: Siehe mehr hier. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

Außerdem ist sie aus Sicht der Inferenz nicht gut skalierbar. Wenn ein Unternehmen die Verarbeitung natürlicher Sprache in der Produktion in mehreren Sprachen einsetzen will, muss es mehrere Modelle pflegen und mehrere Server und GPUs bereitstellen. Dies kann sich als äußerst kostspielig erweisen. Diese ist einer der Gründe, warum wir bei NLP Cloud versuchen, diese Strategie so weit wie möglich zu vermeiden.

Mehrsprachige Modelle

Ein zweiter Ansatz besteht darin, mehrsprachige Modelle zu nutzen.

In den letzten Jahren sind neue mehrsprachige Modelle erschienen, die sich als sehr genau erwiesen haben. Manchmal sogar genauer als spezifische nicht-englische Modelle. Die beliebtesten Modelle sind mBERT, XLM und XLM Roberta. XLM Roberta scheint das genaueste mehrsprachige Modell zu sein und schneidet im XNLI-Evaluierungsdatensatz sehr gut ab (eine Reihe von Evaluierungen zur Bewertung der Qualität von mehrsprachigen Modellen).

Einige sehr gute vortrainierte Modelle, die auf XLM Roberta basieren, sind verfügbar. Zum Beispiel für die Textklassifizierung in vielen Sprachen ist das beste Modell XLM Roberta Large XNLI: sehen Sie dieses Modell hier.

Zurzeit gibt es kein gutes mehrsprachiges Modell für die Texterstellung. GPT zum Beispiel ist hervorragend im Englischen und nicht so schlecht in mehreren nicht-englischen Sprachen, aber alles andere als beeindruckend. Big Science arbeitet derzeit an sehr umfangreichen mehrsprachigen Textgenerierungsmodellen. Das scheint vielversprechend zu sein! Sehen Sie hier mehr..

Big Science mehrsprachig 176 Milliarden Parameter Transformatorenmodell
Big Science hat gerade ein mehrsprachiges Transformatorenmodell mit 176 Milliarden Parametern angekündigt

Übersetzung zur Rettung

Die letzte Strategie ist der Einsatz von Übersetzungen. Die Idee ist, dass Sie Ihre nicht-englischen Inhalte ins Englische übersetzen sollten, den englischen Inhalt an das Modell senden und das Ergebnis zurück in Ihre Originalsprache übersetzen.

Diese Technik mag wie ein Hack klingen, aber sie hat Vorteile. Die Aufrechterhaltung eines Übersetzungs-Workflows kann weniger kostspielig sein als die Ausbildung spezieller Modelle, und alle Sprachen der Welt können problemlos unterstützt werden.

In den letzten Jahren wurden fortschrittliche Übersetzungsmodelle auf der Grundlage von Deep Learning entwickelt. Sie sind schnell und liefern sehr gute Ergebnisse. Helsinki NLP hat zum Beispiel eine Reihe von Übersetzungsmodellen auf der Grundlage von Deep Learning veröffentlicht. Sie können die beliebtesten beliebtesten Modelle auf NLP Cloud nutzen: Siehe mehr hier.

Wenn Sie die Übersetzung in Ihren Arbeitsablauf einbeziehen, verlängert sich allerdings die Reaktionszeit insgesamt. Es ist also möglicherweise nicht geeignet, wenn Sie nach sehr schnelle Ergebnisse suchen.

Schlussfolgerung

Die mehrsprachige Verarbeitung natürlicher Sprache ist kein gelöstes Problem, aber in den letzten Jahren wurden große Fortschritte erzielt. Dank spezieller Modelle ist es jetzt möglich, die Verarbeitung natürlicher Sprache in nicht-englischen Sprachen mit sehr guten Ergebnissen durchzuführen, mehrsprachige Modelle und Übersetzung.

Bei NLP Cloud glauben wir, dass das Verstehen und Erzeugen von Text in vielen Sprachen von entscheidender Bedeutung ist, daher haben wir ein spezielles Add-on namens "Mehrsprachiges Add-on". Sobald es aktiviert ist, können alle unsere KI-Modelle in mehr als 20 Sprachen arbeiten, einschließlich GPT-Modelle wie GPT-J und GPT-NeoX: sehen Sie es hier.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

Julien Salinas
CTO bei NLP Cloud