Tokenization gaat over het opsplitsen van een tekst in kleinere entiteiten die tokens worden genoemd. Tokens zijn verschillende dingen, afhankelijk van het type tokenizer dat je gebruikt. Een token kan een woord, een karakter of een subwoord zijn (bijvoorbeeld in het Engelse woord "higher", er zijn 2 subwoorden: "high" en "er"). Leestekens zoals "!", "." en ";" kunnen ook tokens zijn.
Tokenization is een fundamentele stap in elke bewerking van natuurlijke taalverwerking. Gezien de verschillende bestaande taalstructuren, is tokenization in elke taal anders.
Lemmatiseren gaat over het extraheren van de basisvorm van een woord (typisch het soort werk dat je in een woordenboek kunt vinden). Het lemma van "appel" zou bijvoorbeeld nog steeds "appel" zijn, maar het lemma van "is" zou "zijn" zijn.
Lemmatiseren is, net als tokeniseren, een fundamentele stap in elke bewerking van natuurlijke taalverwerking. Gezien de verschillende bestaande taalstructuren is lemmatisering in elke taal anders.

Tokenization en lemmatization gebruik je meestal niet alleen, maar als eerste stap in een natuurlijke taalverwerkingspijplijn. Tokenization is vaak een kostbare operatie die de prestaties van een model voor natuurlijke taalverwerking aanzienlijk kan beïnvloeden, dus de keuze van de tokenizer is belangrijk.
NLP Cloud biedt een tokenization en lemmatization API waarmee je tokenization en lemmatization out of the box kunt uitvoeren, gebaseerd op spaCy en GiNZA, met uitstekende prestaties. Tokenization en lemmatization zijn niet erg resource-intensief, dus de responstijd (latency), wanneer u ze uitvoert vanuit de NLP Cloud API, is erg laag. Je kunt het in 15 verschillende talen doen.
Zie voor meer informatie onze documentatie over tokeniseren en lemmatiseren hier.