在非英语语言中进行自然语言处理是一项挑战。 今天,通过多语言自然语言处理可以获得很好的效果。 最后,任何人都可以用法语、日语、西班牙语、俄语、汉语、德语......以及更多的语言进行自然语言处理。

当今世界上有近7000种不同的语言!每种语言都有自己的规则,有些语言 的工作方式非常不同。例如,法语、西班牙语和意大利语非常相似,但它们与亚洲语言完全不同 基于表意文字或符号的亚洲语言,如汉语和日语。
其结果是,必须使用不同的技术来创建能够处理所有这些语言的语言模型。
简而言之,不同的语言可能需要不同的向量空间,即使已经存在一些预训练的语言嵌入。这是一个活跃的研究领域。
那么,解决方案是什么呢?
第一种方法是为一种特定的语言训练一个模型。例如,几个新版本的BERT 已经在各种语言中进行了训练。Deepset AI的德语BERT是一个很好的例子,它是在德语上从头开始训练的新版本BERT。 从头开始。 在这里可以看到德国的BERT。
问题是,这种技术的规模并不大。训练一个新的模型需要时间和花费大量的金钱。 对于像spaCy这样的小型模型来说,训练几个模型还是可以承受的,而且Explosion AI(spaCy背后的公司)在维护多个语言的预训练模型方面做得很好。 在维护多种语言的预训练模型方面做得很好。 在这里看到更多。 But natural language processing models are getting bigger and bigger, and training these big models is very costly. For example, training the brand new GPT models (GPT-3, GPT-J and GPT-NeoX) took several weeks and cost million dollars. Training new versions of these models is not something everybody can do.
从推理的角度来看,它也不能很好地扩展。如果一家公司需要在生产中使用自然语言处理 的话,它将不得不维护几个模型并提供几个服务器和GPU。这可能被证明是非常昂贵的。这 这就是为什么在NLP Cloud,我们要尽可能地避免这种策略的原因之一。
第二种方法是利用多语言模型。
过去这些年,新的多语言模型已经出现,并被证明是非常准确的。有时 甚至比特定的非英语模型更准确。最受欢迎的是mBERT、XLM和XLM Roberta。 XLM Roberta似乎是最准确的多语言模型,并且在XNLI评估数据集上表现非常好(一系列的评估 一系列评估,以评估多语言模型的质量)。
一些非常好的基于XLM Roberta的预训练模型是可用的。例如,对于许多语言的文本分类,最好的模型是XLM Roberta Large XNLI 语言的文本分类,最好的是XLM Roberta Large XNLI。 在这里看到这个模型。
目前,还没有好的多语言文本生成模型。例如,GPT在英语中很出色,在几种非英语语言中也不差。 在几种非英语语言中也不差,但远非令人印象深刻。Big Science目前正在研究非常大的多语言文本生成模型。这似乎很有希望 在这里看到更多。.

大科学公司刚刚宣布了一个多语种的1760亿个参数的转化器模型
最后一个策略是使用翻译。这个想法是,你应该把你的非英语内容翻译成英语。 将英语内容发送给模型,并将结果翻译成你的原始语言。
这种技术可能听起来像一个黑客,但它有好处。维护一个翻译工作流程的成本可能比训练专门的模型要低。 而世界上所有的语言都可以被轻易地支持。
过去这些年,基于深度学习的先进翻译模型已经被创建。它们既快又能提供 非常好的结果。例如,赫尔辛基NLP发布了一系列基于深度学习的翻译模型。你可以在NLP云上使用最 NLP Cloud上最流行的模型。 在这里看到更多。
不过,将翻译添加到你的工作流程中会增加整体响应时间。因此,如果你在寻找非常快的结果,它可能不适合 非常快的结果。
多语言自然语言处理并不是一个已经解决的问题,但在过去的几年里已经取得了很大的进展。 现在有可能在非英语语言中进行自然语言处理,并取得非常好的效果,这要归功于特定的模型。 多语言模型和翻译。
在NLP Cloud,我们认为理解和生成多种语言的文本是至关重要的,所以我们发布了一个专门的附加组件 称为 "多语言插件"。一旦启用,我们所有的人工智能模型可以在20多种语言中很好地工作,包括GPT模型,如GPT-J 和GPT-NeoX。 在这里看到。. We also propose advanced multilingual models like spaCy and XLM Roberta. tr%}
Julien Salinas
NLP Cloud的首席技术官