标记化就是将文本分割成更小的实体,称为标记。根据使用的标记符类型不同,标记符的含义也不同。标记可以是一个单词、一个字符或一个子单词(例如,在英语单词 "higher", 有 2 个子词: "high" 和 "er"). 标点符号如"!"、". "和";"也可以是标记。
标记化是每个自然语言处理操作的基本步骤。鉴于现有的语言结构多种多样,每种语言的标记化都不尽相同。
词母化是指提取一个词的基本形式(通常是词典中可以找到的那种形式)。例如,"apple "的词目仍然是 "apple",而 "is "的词目则是 "be"。
词法化和标记化一样,是每个自然语言处理操作的基本步骤。鉴于现有的语言结构多种多样,词法化在每种语言中都不尽相同。

您通常不会单独使用标记化和词法化,而是将其作为自然语言处理管道的第一步。标记化通常是一项成本高昂的操作,会严重影响自然语言处理模型的性能,因此标记化器的选择非常重要。
NLP Cloud 提供令牌化和词素化应用程序接口(API),让您可以基于 spaCy 和 GiNZA 执行令牌化和词素化,而且性能卓越。标记化和词法化并不非常耗费资源,因此通过 NLP Cloud API 执行时的响应时间(延迟)非常短。您可以使用 15 种不同的语言来执行。
更多详情,请参阅我们关于标记化和词法化的文档 这里.