A tokenização consiste em dividir um texto em entidades menores chamadas tokens. Os tokens são coisas diferentes, dependendo do tipo de tokenizador que estiver a utilizar. Um token pode ser uma palavra, um carácter ou uma sub-palavra (por exemplo, na palavra inglesa "higher", existem 2 subpalavras: "high" e "er"). Pontuação como "!", "." e ";" também podem ser tokens.
A tokenização é um passo fundamental em todas as operações de Processamento de Linguagem Natural. Dadas as várias estruturas linguísticas existentes, a tokenização é diferente em cada língua.
A lematização consiste em extrair a forma básica de uma palavra (normalmente o tipo de trabalho que se pode encontrar num dicionário). Por exemplo, o lema de "apple" continuaria a ser "apple", mas o lema de "is" seria "be".
A lematização, tal como a tokenização, é um passo fundamental em qualquer operação de Processamento de Língua Natural. Dadas as várias estruturas linguísticas existentes, a lematização é diferente em cada língua.

Normalmente, não se utiliza a tokenização e a lematização isoladamente, mas como primeiro passo num pipeline de processamento de linguagem natural. A tokenização é muitas vezes uma operação dispendiosa que pode afetar significativamente o desempenho de um modelo de processamento de linguagem natural, pelo que a escolha do tokenizador é importante.
O NLP Cloud propõe uma API de tokenização e lematização que permite efetuar a tokenização e a lematização de forma imediata, com base no spaCy e no GiNZA, com excelentes desempenhos. A tokenização e a lematização não são muito intensivas em termos de recursos, pelo que o tempo de resposta (latência), ao realizá-las a partir da API NLP Cloud, é muito baixo. É possível fazê-lo em 15 línguas diferentes.
Para obter mais detalhes, consulte nossa documentação sobre tokenização e lematização aqui.