微调GPT-J，GPT-3的开源替代品

GPT-J可能是当今最强大的开源自然语言处理模型（它是唯一能与GPT-3竞争的开源替代品）。 GPT-3），但你可能会发现它过于笼统，并不完全适合你的使用情况。在这种情况下。用你自己的数据对GPT-J进行微调才是关键。

GPT-J的力量

自2021年6月发布以来，GPT-J已经吸引了大量的自然语言处理用户--数据科学家或开发人员。或开发人员，他们相信这个强大的自然语言处理模型将帮助他们将其人工智能应用提升到下一个水平 (见EleutherAI的网站).

EleutherAI的标志

GPT-J之所以如此强大，是因为它是在60亿个参数上训练出来的。其结果是，这是一个非常通用的模型，你可以用于几乎所有先进的自然语言处理用例（情感分析、文本分类聊天机器人、翻译、代码生成、转述生成，等等）。如果调整得当。 GPT-J是如此流畅，以至于不可能说文本是由机器生成的......

通过使用所谓的技术，可以很容易地使GPT-J适应你的使用情况。 (在此查看如何使用它). 然而，如果几张照片的学习是不够的足够的话，你需要采用一种更高级的技术：微调。

什么是微调？

当涉及到创建你自己的模型时，传统的技术是用你自己的数据从头开始训练一个新的模型。用你自己的数据从头开始训练一个新模型。问题是，像GPT-J这样的现代模型是如此巨大，以至于几乎不可能有人从头开始训练这个模型。任何人都不可能从头开始训练这个模型。EleutherAI说他们花了5周时间来训练在TPU v3-256上训练GPT-J，这意味着它花费了数十万美元......

好消息是，重新训练GPT-J是没有必要的，因为我们有微调!微调是指是将现有的GPT-J模型稍作调整。在过去，训练传统的自然语言处理模型需要大量的例子。而新一代的基于Transformer的模型则不同。不同的是：需要更少的例子，并能带来巨大的结果。如果你曾经听说过 "迁移学习"，这就是它的意义。

如何对GPT-J进行微调？

即使微调GPT-J比从头开始训练模型要容易得多，它仍然是一个挑战。的几个原因。

• 这是一个非常密集的计算操作，在GPU上可能是痛苦的漫长。最好的选择是使用TPU来实现。
• 微调的过程需要一些练习，一些参数需要调整，而且你可以很容易地达到次优的精度。很容易达到次优的精度。
• 一旦你有了全新的微调模型，还没有结束：你必须部署它并在生产中可靠地使用它。在生产中可靠地使用它。

如果你想自己对GPT-J进行微调，下面是你可以做的。

• 请按照以下方法来自Mesh Transformer Jax团队这里.
• 请确保在TPU V3上进行微调，因为你在TPU V2上会耗尽内存。由于TPU研究云（TRC）计划，你可以要求获得1个月的免费TPU访问。
• 不要忘了把你的结果变成一个纤细的GPT-J版本，它更适合于生产的推断。

在NLP云上对GPT-J进行微调

在NLP Cloud，我们努力为GPT-J开发一个微调平台。现在可以轻松地微调 GPT-J：只需上传包含你的例子的数据集，让我们为你微调和部署模型。一旦这个过程结束，你可以在我们的API上把你的新模型作为一个私有模型使用。

NLP云上的GPT-J微调

微调过程本身是免费的，然后你需要根据你想在新部署的模型上进行的请求量选择一个微调计划。你想在你新部署的模型上进行的请求量。

如果你不想在微调和部署操作上花费太多的时间，这是一个选项你可能想考虑一下。

总结

GPT-J是一个惊人的自然语言处理模型。将它与少量的学习和微调混合在一起，你就会得到一个最先进的人工智能应用!

如果你有问题，请毫不犹豫地与我们联系。

Julien Salinas
NLP Cloud的首席技术官

微调GPT-J，GPT-3的开源替代品

2021年9月23日

GPT-J的力量

什么是微调？

如何对GPT-J进行微调？

在NLP云上对GPT-J进行微调

总结