Tokenisering handler om å dele opp en tekst i mindre enheter som kalles tokens. Tokens er forskjellige ting avhengig av hvilken tokenizer du bruker. Et token kan enten være et ord, et tegn eller et underord (for eksempel, i det engelske ordet "higher", det er 2 underordnende ord: "high" og "er"). Tegnsetting som "!", "." og ";" kan også være tokens.
Tokenisering er et grunnleggende trinn i all naturlig språkbehandling. På grunn av de ulike språkstrukturene som finnes, er tokenisering forskjellig fra språk til språk.
Lemmatisering handler om å trekke ut grunnformen av et ord (typisk den typen arbeid du kan finne i en ordbok). For eksempel vil lemmaet til "eple" fortsatt være "eple", mens lemmaet til "er" vil være "være".
Lemmatisering er, i likhet med tokenisering, et grunnleggende trinn i all naturlig språkbehandling. På grunn av de ulike språkstrukturene som finnes, er lemmatisering forskjellig fra språk til språk.

Du bruker vanligvis ikke tokenisering og lemmatisering alene, men som et første trinn i en pipeline for behandling av naturlig språk. Tokenisering er ofte en kostbar operasjon som kan ha stor innvirkning på ytelsen til en modell for naturlig språkbehandling, så valget av tokenizer er viktig.
NLP Cloud tilbyr et tokeniserings- og lemmatiserings-API som gjør det mulig å utføre tokenisering og lemmatisering uten videre, basert på spaCy og GiNZA, med utmerket ytelse. Tokenisering og lemmatisering er ikke særlig ressurskrevende, så responstiden (latenstiden) er svært lav når du utfører dem fra NLP Cloud API. Du kan gjøre det på 15 forskjellige språk.
Du finner mer informasjon i dokumentasjonen vår om tokenisering og lemmatisering. her.