Bei der Tokenisierung geht es darum, einen Text in kleinere Einheiten, so genannte Token, zu zerlegen. Token sind unterschiedliche Dinge, je nachdem, welche Art von Tokenizer Sie verwenden. Ein Token kann entweder ein Wort, ein Zeichen oder ein Unterwort sein (zum Beispiel im englischen Wort "higher", gibt es 2 Unterbegriffe: "high" und "er"). Satzzeichen wie "!", "." und ";" können ebenfalls Token sein.
Die Tokenisierung ist ein grundlegender Schritt in jedem Vorgang der Verarbeitung natürlicher Sprache. Angesichts der verschiedenen Sprachstrukturen ist die Tokenisierung in jeder Sprache anders.
Bei der Lemmatisierung geht es darum, die Grundform eines Wortes zu extrahieren (typischerweise die Art von Arbeit, die Sie in einem Wörterbuch finden). Zum Beispiel wäre das Lemma von "Apfel" immer noch "Apfel", aber das Lemma von "ist" wäre "sein".
Die Lemmatisierung ist ebenso wie die Tokenisierung ein grundlegender Schritt in jedem Vorgang der Verarbeitung natürlicher Sprache. Angesichts der verschiedenen Sprachstrukturen ist die Lemmatisierung in jeder Sprache anders.

In der Regel werden Tokenisierung und Lemmatisierung nicht allein verwendet, sondern als erster Schritt in einer Pipeline zur Verarbeitung natürlicher Sprache. Die Tokenisierung ist oft ein kostspieliger Vorgang, der sich erheblich auf die Leistung eines Modells zur Verarbeitung natürlicher Sprache auswirken kann, daher ist die Wahl des Tokenizers wichtig.
NLP Cloud bietet eine Tokenisierungs- und Lemmatisierungs-API, mit der Sie Tokenisierung und Lemmatisierung auf der Grundlage von spaCy und GiNZA mit hervorragender Leistung sofort durchführen können. Tokenisierung und Lemmatisierung sind nicht sehr ressourcenintensiv, so dass die Antwortzeit (Latenz) bei der Durchführung über die NLP Cloud API sehr gering ist. Sie können dies in 15 verschiedenen Sprachen tun.
Weitere Einzelheiten finden Sie in unserer Dokumentation über Tokenisierung und Lemmatisierung hier.