Der Markt für die Verarbeitung natürlicher Sprache boomt, und in letzter Zeit sind viele neue Tools im Ökosystem erschienen. Hier sind die Bibliotheken, Frameworks, Sprachen, Dienste und Akteure, die Sie kennen sollten, um 2022 Textverständnis und Texterstellung in Ihr Projekt zu integrieren.

Python ist seit vielen Jahren die De-facto-Standardsprache in der Datenwissenschaft. Wenn Sie an einem Projekt zur Verarbeitung natürlicher Sprache arbeiten, werden Sie höchstwahrscheinlich irgendwo Python-Code finden.
Python ist eine sehr ausdrucksstarke und einfache Hochsprache, die sich perfekt für Anwendungen des maschinellen Lernens eignet. Aber noch wichtiger ist, dass Python von einem umfassenden Ökosystem von Bibliotheken und Frameworks profitiert, die das Leben von Datenwissenschaftlern erleichtern.
Unabhängig davon, ob Sie an einem Forschungsprojekt oder an einem Produktionsprojekt arbeiten, ob Sie neue Modelle trainieren oder sie für Inferenzen verwenden, werden Sie höchstwahrscheinlich Python verwenden müssen. Wenn Sie unbedingt eine andere Sprache verwenden müssen, finden Sie vielleicht auch schöne Bibliotheken in anderen Sprachen, aber nur für grundlegende Anwendungsfälle (für fortgeschrittene Anwendungsfälle besteht die Lösung darin, eine Microservices-Strategie zu verfolgen und eine REST-API zu verwenden).

Hugging Face Hub ist ein zentrales Repository, das die meisten Open-Source-Modelle für die Verarbeitung natürlicher Sprache speichert.
Auf Hugging Face ist es einfach, neue KI-Modelle zu entdecken, aber auch eigene hochzuladen und zu teilen. Es ist auch ein großartiger Ort, um Datensätze für Ihr nächstes Projekt zu suchen und zu finden. Modelle und Datensätze können einfach heruntergeladen und über das Transformers-Framework verwendet werden (siehe unten).
Die Vision von Hugging Face ist es, die Verarbeitung natürlicher Sprache zu "demokratisieren" und das "Github des maschinellen Lernens" zu werden.

OpenAI ist das Unternehmen, das hinter GPT-3 steht, dem fortschrittlichsten Sprach-KI-Modell, das jemals entwickelt wurde.
Die ersten beiden Versionen dieses Modells (GPT und GPT-2) waren quelloffen, aber OpenAI hat beschlossen, dass GPT-3 nicht mehr quelloffen sein wird. Wenn Sie GPT-3 verwenden möchten, müssen Sie die OpenAI-API abonnieren. Nur Microsoft hat Zugriff auf den Quellcode von GPT-3, da sie eine exklusive Lizenz erworben haben.
Die GPT-Modelle sind KI-Modelle zur Texterstellung, die sehr gut darin sind, Texte wie ein Mensch zu schreiben. Es ist für einen Menschen ziemlich schwer zu erkennen, ob ein Text von einer echten Person oder von GPT-3 geschrieben wurde...
Es kostete OpenAI Millionen von Dollar, um diese neue KI zu entwickeln und zu trainieren. Wenn Sie sie nutzen möchten, müssen Sie einen anspruchsvollen Validierungsprozess durchlaufen, da OpenAI nicht alle Arten von Anwendungen zur Nutzung ihres Modells zulässt.
Neue Open-Source-Modelle wie GPT-J und GPT-NeoX werden jetzt veröffentlicht, um mit OpenAI gleichzuziehen.

Das sind wir!
NLP Cloud ist eine API, mit der Sie die fortschrittlichsten KI-Modelle für die Verarbeitung natürlicher Sprache problemlos in der Produktion einsetzen können.
Zum Beispiel können Sie Text mit GPT-J und GPT-NeoX generieren, Inhalte mit Facebooks Bart Large CNN zusammenfassen, einen Text mit Roberta klassifizieren, Entitäten mit spaCy extrahieren, Inhalte mit Opus MT übersetzen... und vieles mehr.
In der NLP Cloud ist es auch möglich, Ihre eigene KI zu trainieren und zu verfeinern, oder Ihre eigenen internen Modelle einzusetzen. Wenn Sie zum Beispiel Ihren eigenen medizinischen Chatbot auf der Grundlage von GPT-J erstellen möchten, müssen Sie lediglich Ihren Datensatz hochladen, der aus Ihren eigenen Beispielen aus Ihrer Branche besteht, dann den Trainingsprozess starten und Ihr endgültiges Modell über die API in der Produktion verwenden.

Deepspeed ist ein Open-Source-Framework von Microsoft, das sich auf die Parallelisierung von Modellen konzentriert.
Was bedeutet das genau?
Die KI-Modelle werden immer größer (siehe GPT-3, GPT-J, GPT-NeoX 20B, T0, Fairseq 13B...). Diese riesigen Modelle öffnen die Tür zu einer Vielzahl neuer Anwendungen, aber sie sind auch sehr schwer zu betreiben.
Das Trainieren dieser Modelle und ihr zuverlässiger Einsatz in der Produktion für Inferenzen kann entweder durch vertikale Skalierbarkeit (mit riesigen Grafikprozessoren wie NVIDIA A100 oder Google TPUs) oder horizontale Skalierbarkeit (mit mehreren kleinen Grafikprozessoren parallel) erfolgen.
Der zweite Ansatz wird immer beliebter, da er billiger ist und besser skaliert. Dennoch ist die Durchführung von verteiltem Training und Inferenz alles andere als einfach, weshalb Deepspeed wirklich hilft.
Deepspeed war ursprünglich für Trainingsaufgaben gedacht, wird aber jetzt immer häufiger für Inferenzen verwendet, da es einfach zu bedienen ist und sich mit Hugging Face Transformers (siehe unten) integrieren lässt.

Big Science ist ein Zusammenschluss von Forschern und Unternehmen, die an großen Sprachmodellen arbeiten.
Ihr erster Workshop brachte ein KI-Modell namens T0 hervor, das sehr gut menschliche Anweisungen versteht.
Sie arbeiten jetzt an viel größeren Modellen: Ihr Ziel ist es, mehrsprachige Open-Source-KI-Modelle zu erstellen, die größer und fortschrittlicher als GPT-3 sind.

SpaCy ist ein Python-Framework für die Verarbeitung natürlicher Sprache, das sich perfekt für die Produktion eignet: Es ist sowohl schnell als auch einfach zu handhaben.
Es handelt sich um ein Framework, das von einem deutschen KI-Unternehmen namens Explosion AI gepflegt wird.
SpaCy ist sehr gut in der Named Entity Recognition (auch bekannt als Entitätsextraktion), und das in rund 50 verschiedenen Sprachen. SpaCy bietet bereits trainierte Modelle an, und Sie können anhand von kommentierten Beispielen ganz einfach Ihre eigenen Modelle erstellen.
Das Transformers-Framework wurde vor ein paar Jahren von Hugging Face veröffentlicht. Die meisten der fortschrittlichen Modelle für die Verarbeitung natürlicher Sprache basieren nun auf Transformers.
Dies ist ein Python-Modul, das auf PyTorch, Tensorflow und Jax basiert, und das entweder für das Training oder die Inferenz verwendet werden kann.
Mit den Hugging Face Transformers ist es sehr einfach, Modelle in den Hugging Face Hub herunter- und hochzuladen.
Die Tokenizer-Bibliothek von Hugging Face ist eine Reihe von fortschrittlichen Tokenizern für die Verarbeitung natürlicher Sprache, die von transformatorbasierten Modellen verwendet werden.
Bei der Tokenisierung geht es darum, einen Eingabetext in kleine Wörter oder Unterwörter zu zerlegen, die dann vom KI-Modell kodiert und verarbeitet werden können.
Tokenisierung mag wie ein Detail klingen, ist es aber nicht. Sie ist tatsächlich ein wichtiger Teil der Verarbeitung natürlicher Sprache, und die Verwendung des richtigen Tokenizers macht einen großen Unterschied in Bezug auf die Qualität der Ergebnisse und die Leistung.
NLTK steht für Natural Language Toolkit. Es ist ein Python-Framework, das es seit vielen Jahren gibt und das sich hervorragend für Forschung und Lehre eignet.
NLTK ist kein produktionsorientiertes Framework, aber es ist perfekt für Datenwissenschaftler, die versuchen, die Verarbeitung natürlicher Sprache voranzutreiben.
Der Bereich der Verarbeitung natürlicher Sprache hat sich im Jahr 2021 erheblich weiterentwickelt. Heute wollen immer mehr Unternehmen Sprach-KI-Modelle in der Produktion einsetzen, und es ist interessant zu sehen, dass das Ökosystem im Jahr 2022 so gut wie nichts mehr mit dem zu tun hat, was es vor 5 Jahren war.
Die Bibliotheken und Frameworks werden immer fortschrittlicher, und die Erstellung großer Sprachmodelle wie GPT-3 bringt neue interessante Herausforderungen mit sich.
Ich bin gespannt, wie das Jahr 2023 aussehen wird!
Julien Salinas