John Doe is a Go developer at Google.
O objetivo de um etiquetador Part-of-Speech é atribuir partes do discurso a cada token no seu texto. Um token é uma palavra, na maioria das vezes, mas também pode ser pontuação como "," "." ";" etc. No final, o etiquetador POS dir-lhe-á se um token é um substantivo, um verbo, um adjetivo, etc. Como as estruturas linguísticas são radicalmente diferentes de uma língua para outra, os bons etiquetadores POS têm de se adaptar a cada língua. Algumas línguas são muito mais difíceis de analisar do que outras.
Digamos que tem a seguinte frase:
John Doe is a Go developer at Google.
O etiquetador POS devolverá o seguinte:
A análise de dependências no Processamento de Linguagem Natural (PLN) é uma técnica para analisar a estrutura gramatical de uma frase. Ajuda a compreender a forma como as palavras de uma frase se relacionam entre si. Isto é conseguido através da identificação de dependências entre palavras, marcando essencialmente a forma como as palavras dependem umas das outras para conferir significado.
A ideia central da análise de dependências é construir uma árvore de dependências (ou gráfico) em que os nós representam as palavras de uma frase e as arestas representam as relações entre essas palavras. Cada aresta na árvore de dependências é identificada com o tipo de relação gramatical que existe entre as palavras ligadas, como sujeito, objeto, modificador, etc. A raiz da árvore é normalmente o verbo principal ou a oração principal com a qual as outras palavras se relacionam.
Os cientistas de dados que trabalham no processamento de linguagem natural estão frequentemente interessados em efetuar a etiquetagem de parte do discurso nas suas actividades de investigação. Também necessitam frequentemente de analisar automaticamente as dependências (compostos, sujeitos nominais, determinantes...).
A análise de dependências é crucial para várias tarefas de PLN, como a tradução automática, a extração de informações, a resposta a perguntas e a análise de sentimentos, porque a compreensão da estrutura sintáctica das frases pode melhorar significativamente a precisão e a eficácia destas aplicações. A análise de dependências permite que os algoritmos apreendam o significado das frases com maior precisão, compreendendo a forma como os componentes de uma frase (sujeitos, predicados, objectos, etc.) estão ligados.
O NLP Cloud propõe uma API de etiquetagem de partes do discurso e de análise de dependências que lhe permite efetuar esta operação de imediato, com base no spaCy e no GiNZA. A etiquetagem de parte do discurso e a análise de dependências não consomem muitos recursos, pelo que o tempo de resposta (latência), ao realizá-las a partir da API NLP Cloud, é muito baixo. É possível fazê-lo em 15 línguas diferentes.
Para mais informações, consulte a nossa documentação sobre a etiquetagem de parte do discurso e a análise de dependências aqui.