La tokenización consiste en dividir un texto en entidades más pequeñas llamadas tokens. Los tokens son cosas distintas según el tipo de tokenizador que se utilice. Un token puede ser una palabra, un carácter o una subpalabra (por ejemplo, en la palabra inglesa "higher", hay 2 subpalabras: "high" y "er"). Los signos de puntuación como "!", "." y ";" también pueden ser fichas.
La tokenización es un paso fundamental en toda operación de Procesamiento del Lenguaje Natural. Dadas las diversas estructuras lingüísticas existentes, la tokenización es diferente en cada idioma.
La lematización consiste en extraer la forma básica de una palabra (típicamente la que se puede encontrar en un diccionario). Por ejemplo, el lema de "manzana" seguiría siendo "manzana", pero el lema de "es" sería "ser".
La lematización, al igual que la tokenización, es un paso fundamental en toda operación de Procesamiento del Lenguaje Natural. Dadas las diversas estructuras lingüísticas existentes, la lematización es diferente en cada lengua.
Normalmente, la tokenización y la lematización no se utilizan solas, sino como primer paso en un proceso de procesamiento del lenguaje natural. La tokenización suele ser una operación costosa que puede afectar significativamente al rendimiento de un modelo de procesamiento del lenguaje natural, por lo que la elección del tokenizador es importante.
NLP Cloud propone una API de tokenización y lematización que permite realizar tokenización y lematización out of the box, basadas en spaCy y GiNZA, con excelentes prestaciones. La tokenización y la lematización no consumen muchos recursos, por lo que el tiempo de respuesta (latencia), al realizarlas desde la API de NLP Cloud, es muy bajo. Se puede hacer en 15 idiomas diferentes.
Para más detalles, consulte nuestra documentación sobre tokenización y lematización aquí.