自然语言处理中用于文本分类的零点学习

什么是零点学习

由于最近最先进的基于变换器的自然语言处理模型，零点学习已经在自然语言处理领域获得了很大的知名度。在自然语言处理领域获得了很大的普及。这个想法是，一个模型现在可以识别一些类别，即使它没有经过训练。被训练过。

这是人类自然的行为。例如，如果你的孩子知道什么是骆驼，你只需要告诉他还有一种动物叫单峰骆驼，与骆驼非常相似，只是它有一个驼峰。告诉他还有一种动物叫单峰驼，与骆驼非常相似，只是它的背上有一个驼峰，而不是两个驼峰。它的背上有一个驼峰，而不是两个!下次你的孩子看到单峰骆驼的图片时，他就会知道它是什么，而这是他第一次看到单峰驼!

零点技术通过某种形式的所谓 "辅助 "信息将观察到的和未观察到的类别联系起来。 "辅助 "信息，即编码对象的区别属性。这已经是计算机视觉中非常流行的一种技术，现在越来越多地被用于自然语言处理中。

零点学习和文本分类

零点学习对文本分类非常有效。文本分类是指将一个或多个类别（空间、商业、体育等）。

直到最近，文本分类模型只能用预先定义好的一些候选类别对文本进行分类。候选类别。这些类别必须在训练期间预先设定。这是很痛苦的因为这意味着，每当你想增加一个类别时，你必须用更多的例子重新训练你的模型。例子。

自从创建了更大的自然语言处理模型（大多数情况下是基于变形金刚）后，就可以只在特定的类别列表上训练模型，然后让用户创建新的模型。训练模型只在一个特定的类别列表上进行，然后让用户创建新的然后让用户在飞行中创建新的类别，而不必重新训练模型。

例如，假设你的零照文本分类模型被训练成只能识别3个类别：空间、自然和运动。你仍然可以用它来对其他类别的文本进行分类。例如，商业、食品或科学。

这是一个非常强大的技术，可以有很大的灵活性，同时还能带来很好的效果。

最佳零点分类模型

现在有很好的开源自然语言处理模型，基于Hugging Face Transformers，可以很好地用于零照文本分类。在零照文本分类方面效果非常好。

在NLP Cloud，我们选择了这两个模型，在我们看来，这两个模型是目前最先进的零散文本分类模型。目前，这两个模型是最先进的零散文本分类模型。

Facebook's Bart Large MNLI: 这个模型非常适用于英语中的零散文本分类。英语。它可以处理潜在的大量候选类别，同时保持快速和准确。
Joe Davison's XLN Roberta Large XNLI: 这种模式对非英语语言来说是完美的。它在100多种语言中工作，而且在英语、法语、西班牙语中特别准确。德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、汉语、印地语、斯瓦希里语。乌尔都语。它或多或少具有与巴特大型MNLI相同的延迟。

即使它们的准确性令人印象深刻，而且它们的延迟也相当好，但这两个模型仍然是计算密集型模型。计算密集型模型，如果你想分析的文本太大或者候选类别的数量太多，延迟很容易增加。如果你想分析的文本太大，或者候选类别的数量太多，延迟就会增加。如果准确性不是你的主要关注点，而你如果准确率不是你的主要关注点，而你更喜欢一个更快和资源密集度较低的模型，你可以很容易地选择另一个模型。例如例如，存在Bart的提炼版本，称为 "DistilBart"，它们非常适合于此。

总结

零点学习，以及少数点学习。是现代技术，随着大型自然语言处理模型的建立而出现。 (在这里看到更多关于几张照片的学习). 它们提供了很大的灵活性，并使得自然语言处理变得越来越令人印象深刻!

欢迎大家试一试零点分类，看看你是否也喜欢它。

Julien Salinas
NLP Cloud的首席技术官

自然语言处理中用于文本分类的零点学习

2021年8月12日

什么是零点学习

零点学习和文本分类

最佳零点分类模型

总结