API de tokenização e lematização, baseada no spaCy

O que é a Tokenização?

A tokenização consiste em dividir um texto em entidades menores chamadas tokens. Os tokens são coisas diferentes, dependendo do tipo de tokenizador que estiver a utilizar. Um token pode ser uma palavra, um carácter ou uma sub-palavra (por exemplo, na palavra inglesa "higher", existem 2 subpalavras: "high" e "er"). Pontuação como "!", "." e ";" também podem ser tokens.

A tokenização é um passo fundamental em todas as operações de Processamento de Linguagem Natural. Dadas as várias estruturas linguísticas existentes, a tokenização é diferente em cada língua.

O que é a Lemmatization?

A lematização consiste em extrair a forma básica de uma palavra (normalmente o tipo de trabalho que se pode encontrar num dicionário). Por exemplo, o lema de "apple" continuaria a ser "apple", mas o lema de "is" seria "be".

A lematização, tal como a tokenização, é um passo fundamental em qualquer operação de Processamento de Língua Natural. Dadas as várias estruturas linguísticas existentes, a lematização é diferente em cada língua.

Tokenização

Porquê utilizar a Tokenização e a Lemmatização?

Normalmente, não se utiliza a tokenização e a lematização isoladamente, mas como primeiro passo num pipeline de processamento de linguagem natural. A tokenização é muitas vezes uma operação dispendiosa que pode afetar significativamente o desempenho de um modelo de processamento de linguagem natural, pelo que a escolha do tokenizador é importante.

API de tokenização e lematização da NLP Cloud

O NLP Cloud propõe uma API de tokenização e lematização que permite efetuar a tokenização e a lematização de forma imediata, com base no spaCy e no GiNZA, com excelentes desempenhos. A tokenização e a lematização não são muito intensivas em termos de recursos, pelo que o tempo de resposta (latência), ao realizá-las a partir da API NLP Cloud, é muito baixo. É possível fazê-lo em 15 línguas diferentes.

Para obter mais detalhes, consulte nossa documentação sobre tokenização e lematização aqui.

Tentar a tokenização/lemmatização
gratuitamente

Perguntas mais frequentes

O que é a tokenização e porque é que é importante na análise de texto?

A tokenização é o processo de dividir o texto em unidades mais pequenas, como palavras, frases ou símbolos, conhecidos como tokens. É crucial na análise de texto para estruturar dados, permitindo uma análise mais exacta e facilitando tarefas como a análise de sentimentos e a modelação de tópicos.

Em que é que a lematização difere da stemização e porque é que eu escolheria uma em vez da outra?

A lematização envolve a redução de uma palavra à sua forma base ou de dicionário, tendo em conta o seu significado e a parte do discurso, enquanto que o stemming remove simplesmente os prefixos e sufixos sem considerar o contexto. Pode escolher a lematização para tarefas que requerem uma elevada precisão linguística, como a análise de sentimentos, e o stemming para um processamento mais rápido em aplicações em que a precisão perfeita é menos crítica.

O que é o spaCy?

O spaCy é uma biblioteca de software de código aberto para processamento avançado de linguagem natural (PNL), concebida especificamente para utilização na produção. Oferece modelos estatísticos e vectores de palavras pré-treinados e suporta tokenização, reconhecimento de entidades nomeadas, marcação de parte do discurso e análise de dependências, entre outras capacidades de PNL.

O que é GiNZA?

GiNZA é uma biblioteca de código aberto de Processamento de Linguagem Natural (NLP) para japonês, construída sobre o spaCy. Ela fornece recursos avançados de NLP, como tokenização, lematização e reconhecimento de entidades nomeadas, adaptados especificamente para o idioma japonês.

Quais são os idiomas ou locais suportados para esta API de tokenização/lemmatização?

A nossa API de tokenização/lemmatização baseada em spaCy e GiNZA suporta 15 idiomas

Posso experimentar a API de tokenização/lemmatização gratuitamente?

Sim, como todos os pontos de extremidade da API no NLP Cloud, a API de tokenização/lemmatização pode ser testada gratuitamente.

Como é que a sua API de IA lida com a privacidade e a segurança dos dados durante o processo de tokenização/lemmatização?

O NLP Cloud está focado na privacidade dos dados desde a conceção: não registamos nem armazenamos o conteúdo dos pedidos que faz na nossa API. O NLP Cloud está em conformidade com a HIPAA e o GDPR.