토큰화는 텍스트를 토큰이라는 작은 개체로 분할하는 것입니다. 토큰은 사용하는 토큰화 도구의 유형에 따라 다른 개념입니다. 토큰은 단어, 문자 또는 하위 단어(예: 영어 단어인 "higher", 2개의 하위 단어가 있습니다: "high" 그리고 "er"). "!", ".", ";" 등의 문장 부호도 토큰이 될 수 있습니다.
토큰화는 모든 자연어 처리 작업의 기본 단계입니다. 기존의 다양한 언어 구조를 고려할 때 토큰화는 언어마다 다릅니다.
렘마화는 단어의 기본 형태를 추출하는 작업입니다(일반적으로 사전에서 찾을 수 있는 작업입니다). 예를 들어, "apple"의 형태소는 여전히 "apple"이지만 "is"의 형태소는 "be"가 됩니다.
토큰화와 마찬가지로 형태소화는 모든 자연어 처리 작업의 기본 단계입니다. 기존의 다양한 언어 구조를 고려할 때, 모든 언어의 형태소화는 언어마다 다릅니다.

일반적으로 토큰화 및 레매타이제이션은 단독으로 사용하지 않고 자연어 처리 파이프라인의 첫 번째 단계로 사용합니다. 토큰화는 자연어 처리 모델의 성능에 큰 영향을 미칠 수 있는 비용이 많이 드는 작업인 경우가 많으므로 토큰화 도구의 선택이 중요합니다.
NLP Cloud는 뛰어난 성능의 spaCy와 GiNZA를 기반으로 토큰화 및 정규화 작업을 바로 수행할 수 있는 토큰화 및 정규화 API를 제안합니다. 토큰화 및 레매타이제이션은 리소스 집약적이지 않기 때문에 NLP Cloud API에서 수행할 때 응답 시간(대기 시간)이 매우 짧습니다. 15개 언어로 수행할 수 있습니다.
자세한 내용은 토큰화 및 레매타이제이션에 대한 문서를 참조하세요. 여기.