Tokenisering handlar om att dela upp en text i mindre enheter som kallas tokens. Tokens är olika saker beroende på vilken typ av tokenizer du använder. En token kan antingen vara ett ord, ett tecken eller ett underord (t.ex. i det engelska ordet "higher", Det finns 2 underordnade ord: "high" och "er"). Skiljetecken som "!", "." och ";" kan också vara symboler.
Tokenisering är ett grundläggande steg i all bearbetning av naturligt språk. Med tanke på de olika språkstrukturer som finns skiljer sig tokeniseringen åt mellan olika språk.
Lemmatisering handlar om att extrahera grundformen av ett ord (vanligtvis den typ av arbete som du kan hitta i en ordlista). Till exempel skulle lemmat för "äpple" fortfarande vara "äpple" men lemmat för "är" skulle vara "vara".
Lemmatisering är, precis som tokenisering, ett grundläggande steg i all bearbetning av naturligt språk. Med tanke på de olika språkstrukturer som finns skiljer sig lemmatiseringen åt mellan olika språk.
Vanligtvis använder man inte tokenisering och lemmatisering ensamma, utan som ett första steg i en pipeline för bearbetning av naturligt språk. Tokenisering är ofta en kostsam operation som kan påverka prestandan hos en modell för naturlig språkbehandling avsevärt, så valet av tokenizer är viktigt.
NLP Cloud erbjuder ett API för tokenisering och lemmatisering som gör att du kan utföra tokenisering och lemmatisering direkt, baserat på spaCy och GiNZA, med utmärkt prestanda. Tokenisering och lemmatisering är inte särskilt resurskrävande, så svarstiden (latensen) när de utförs från NLP Cloud API är mycket låg. Du kan göra det på 15 olika språk.
För mer information, se vår dokumentation om tokenisering och lemmatisering här.