Tokenizasyon, bir metni token adı verilen daha küçük varlıklara bölmekle ilgilidir. Tokenler, kullandığınız tokenizer türüne bağlı olarak farklı şeylerdir. Bir belirteç bir sözcük, bir karakter ya da bir alt sözcük olabilir (örneğin, İngilizce'de "higher", 2 alt kelime vardır: "high" ve "er"). "!", "." ve ";" gibi noktalama işaretleri de belirteç olabilir.
Tokenizasyon, her Doğal Dil İşleme işleminde temel bir adımdır. Mevcut çeşitli dil yapıları göz önüne alındığında, tokenleştirme her dilde farklıdır.
Lemmatizasyon, bir sözcüğün temel biçimini çıkarmakla ilgilidir (tipik olarak bir sözlükte bulabileceğiniz türden bir çalışma). Örneğin, "apple" kelimesinin lemması hala "apple" olacaktır, ancak "is" kelimesinin lemması "be" olacaktır.
Lemmatizasyon, tokenizasyon gibi, her Doğal Dil İşleme işleminde temel bir adımdır. Mevcut çeşitli dil yapıları göz önüne alındığında, lemmatizasyon her dilde farklıdır.

Genellikle tokenizasyon ve lemmatizasyonu tek başına değil, doğal dil işleme hattında ilk adım olarak kullanırsınız. Tokenizasyon genellikle bir Doğal Dil İşleme modelinin performansını önemli ölçüde etkileyebilen maliyetli bir işlemdir, bu nedenle tokenizer seçimi önemlidir.
NLP Cloud, spaCy ve GiNZA'ya dayalı olarak mükemmel performanslarla kutudan çıkar çıkmaz tokenizasyon ve lemmatizasyon gerçekleştirmenize olanak tanıyan bir tokenizasyon ve lemmatizasyon API'si önermektedir. Tokenizasyon ve lemmatizasyon çok yoğun kaynak gerektirmez, bu nedenle bunları NLP Cloud API'sinden gerçekleştirirken yanıt süresi (gecikme) çok düşüktür. Bunu 15 farklı dilde yapabilirsiniz.
Daha fazla ayrıntı için tokenization ve lemmatization hakkındaki belgelerimize bakın Burada.