다국어 자연어 처리: NLP 비영어권 언어

비영어권 언어로 자연어 처리를 수행하는 것은 어려운 일입니다. 오늘날에는 다국어 자연어 처리를 통해 훌륭한 결과를 얻을 수 있습니다. 마침내 누구나 프랑스어, 일본어, 스페인어, 러시아어, 중국어, 독일어 등으로 자연어 처리를 수행할 수 있게 되었습니다.

다국어

다국어 자연어 처리가 어려운 이유

오늘날 전 세계에는 약 7000개의 언어가 사용되고 있습니다! 각 언어에는 고유한 규칙이 있으며 일부 언어는 은 매우 다르게 작동할 수 있습니다. 예를 들어 프랑스어, 스페인어, 이탈리아어는 매우 유사하지만 중국어, 일본어와 같은 표의 문자나 기호에 기반한 아시아 언어와는 표의 문자나 중국어, 일본어와 같은 기호를 기반으로 합니다.

결과적으로 이러한 모든 언어를 처리할 수 있는 언어 모델을 만들려면 다양한 기술을 사용해야 합니다.

간단히 말해, 사전 학습된 언어 임베딩이 이미 존재하더라도 언어마다 다른 벡터 공간이 필요할 수 있습니다. 이 분야는 활발히 연구되고 있는 분야입니다.

그렇다면 해결책은 무엇일까요?

특정 비영어권 모델 교육

첫 번째 접근 방식은 특정 언어에 대한 모델을 훈련하는 것입니다. 예를 들어, 여러 가지 새로운 버전의 BERT 가 다양한 언어로 학습되었습니다. Deepset AI의 독일어 BERT는 다음과 같이 독일어로 학습된 새로운 버전의 BERT의 좋은 예입니다. 스크래치: 독일어 BERT는 여기를 참조하세요.

문제는 이 기술이 잘 확장되지 않는다는 것입니다. 새로운 모델을 학습시키는 데는 시간과 비용이 많이 듭니다. 여러 모델을 훈련하는 것은 spaCy와 같은 소규모 모델의 경우 여전히 저렴하며, Explosion AI(spaCy를 개발한 회사)는 여러 언어로 사전 학습된 여러 모델을 유지 관리하는 데 매우 효과적입니다: 자세한 내용은 여기를 참조하세요. But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.

또한 추론의 관점에서도 확장성이 좋지 않습니다. 기업이 프로덕션 환경에서 여러 언어로 자연어 처리를 사용해야 하는 경우 자연어 처리를 사용해야 한다면 여러 모델을 유지 관리하고 여러 서버와 GPU를 프로비저닝해야 합니다. 이는 엄청난 비용이 소요될 수 있습니다. 이 이것이 바로 NLP Cloud에서 이러한 전략을 최대한 피하려고 노력하는 이유 중 하나입니다.

다국어 모델

두 번째 접근 방식은 다국어 모델을 활용하는 것입니다.

지난 몇 년 동안 새로운 다국어 모델이 등장했으며 매우 정확한 것으로 입증되었습니다. 때로는 특정 비영어권 모델보다 훨씬 더 정확합니다. 가장 인기 있는 모델은 mBERT, XLM, XLM Roberta입니다. XLM Roberta는 가장 정확한 다국어 모델인 것으로 보이며, XNLI 평가 데이터 세트(다국어 품질을 평가하기 위한 일련의 평가 다국어 모델의 품질을 평가하기 위한 일련의 평가).

XLM Roberta를 기반으로 사전 학습된 매우 우수한 모델도 있습니다. 예를 들어, 여러 언어로 된 텍스트 분류의 경우 언어의 텍스트 분류를 위해 가장 좋은 것은 XLM Roberta Large XNLI입니다: 이 모델을 참조하세요.

현재로서는 텍스트 생성을위한 좋은 다국어 모델이 없습니다. 예를 들어 GPT는 영어는 훌륭하고 영어 이외의 여러 언어에서는 영어 이외의 여러 언어에서는 나쁘지 않지만 인상적이지는 않습니다. 빅 사이언스는 현재 대규모 다국어 텍스트 생성 모델을 개발 중입니다. 유망해 보입니다! 자세한 내용은 여기를 참조하세요..

빅 사이언스 다국어 1,760억 개의 파라미터 트랜스포머 모델
빅 사이언스에서 1760억 개의 파라미터를 다국어로 지원하는 트랜스포머 모델을 발표했습니다.

구출을 위한 번역

마지막 전략은 번역을 사용하는 것입니다. 이 전략은 영어가 아닌 콘텐츠를 영어로 번역하는 것입니다, 영어 콘텐츠를 모델에 전송하고 그 결과를 다시 원래 언어로 번역하는 것입니다.

이 기술은 해킹처럼 들릴 수 있지만 장점이 있습니다. 번역 워크플로를 유지 관리하는 것이 전용 모델을 훈련하는 것보다 더 저렴할 수 있으며, 전 세계 모든 언어를 쉽게 지원할 수 있습니다.

최근 몇 년 동안 딥러닝을 기반으로 한 고급 번역 모델이 만들어졌습니다. 이 모델들은 빠르고 매우 좋은 결과를 제공합니다. 예를 들어 헬싱키 NLP는 딥러닝을 기반으로 한 일련의 번역 모델을 출시했습니다. 가장 많이 사용되는 가장 인기 있는 모델을 사용할 수 있습니다: 자세한 내용은 여기를 참조하세요.

하지만 워크플로우에 번역 기능을 추가하면 전체 응답 시간이 늘어납니다. 따라서 매우 빠른 결과를 원하는 경우에는 매우 빠른 결과를 원한다면 적합하지 않을 수 있습니다.

결론

다국어 자연어 처리는 해결된 문제는 아니지만 지난 몇 년 동안 많은 진전이 있었습니다. 이제 특정 모델 덕분에 비영어권 언어의 자연어 처리를 매우 우수한 결과로 수행할 수 있게 되었습니다, 다국어 모델과 번역 덕분에 비영어권 언어의 자연어 처리가 가능해졌습니다.

NLP Cloud에서는 다양한 언어로 텍스트를 이해하고 생성하는 것이 중요하다고 생각하여 "다국어 애드온 이라는 특정 애드온을 출시했습니다. 이 애드온을 활성화하면 모든 AI 모델이 20개 이상의 언어로 잘 작동할 수 있으며, 여기에는 GPT-J와 같은 GPT 모델도 포함됩니다. 및 GPT-NeoX와 같은 GPT 모델을 포함하여 20개 이상의 언어로 잘 작동합니다: 여기를 참조하세요.. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}

François
NLP 클라우드의 풀스택 엔지니어

다국어 자연어 처리: NLP 비영어권 언어

2022년 3월 16일

다국어 자연어 처리가 어려운 이유

특정 비영어권 모델 교육

다국어 모델

구출을 위한 번역

결론