Tokenisering handler om at opdele en tekst i mindre enheder kaldet tokens. Tokens er forskellige ting afhængigt af den type tokenizer, du bruger. Et token kan enten være et ord, et tegn eller et underord (for eksempel i det engelske ord "higher", Der er 2 underord: "high" og "er"). Tegnsætning som "!", "." og ";" kan også være tokens.
Tokenisering er et grundlæggende trin i enhver naturlig sprogbehandling. På grund af de forskellige eksisterende sprogstrukturer er tokenisering forskellig på alle sprog.
Lemmatisering handler om at udtrække den grundlæggende form af et ord (typisk den slags arbejde, du kan finde i en ordbog). For eksempel ville lemmaet for "apple" stadig være "apple", men lemmaet for "is" ville være "be".
Lemmatisering er, ligesom tokenisering, et grundlæggende trin i al naturlig sprogbehandling. På grund af de forskellige eksisterende sprogstrukturer er lemmatisering forskellig for hvert sprog.

Man bruger normalt ikke tokenisering og lemmatisering alene, men som et første trin i en pipeline til behandling af naturligt sprog. Tokenisering er ofte en dyr operation, der kan påvirke ydeevnen af en Natural Language Processing-model betydeligt, så valget af tokenizer er vigtigt.
NLP Cloud foreslår en API til tokenisering og lemmatisering, der giver dig mulighed for at udføre tokenisering og lemmatisering out of the box, baseret på spaCy og GiNZA, med fremragende ydeevne. Tokenisering og lemmatisering er ikke særlig ressourcekrævende, så svartiden (latency), når du udfører dem fra NLP Cloud API, er meget lav. Du kan gøre det på 15 forskellige sprog.
For flere detaljer, se vores dokumentation om tokenisering og lemmatisering. her.