ChatGPT 开放源代码替代方案

ChatGPT 是一款先进的聊天机器人引擎，基于 OpenAI 的 GPT-3.5 和 GPT-4 模型。它是一个功能强大的模型，但考虑开源替代方案也很有趣。

探索 ChatGPT 的开源替代方案可以根据特定需求或项目进行定制和调整，从而在保护数据隐私的同时对技术进行更好的控制。开源模型可确保透明度，让用户了解人工智能模型的底层机制。

目前有一些非常不错的开源 ChatGPT 替代品，如 LLaMA 3、Mixtral 8x7B、Yi 34B 和 DBRX。让我们来研究一下这些替代品。

生成式人工智能模型：它们如何工作

ChatGPT 源自 GPT-3.5 和 GPT-4，它们是基于 Transformer 架构的现代生成式人工智能模型。变压器架构是谷歌在 2017 年发明的一种特定类型的神经网络。点击此处查看更多信息。

生成式人工智能模型基本上擅长根据特定输入生成一些文本。根据输入内容，您可以让人工智能模型为您做各种事情。例如，您可以要求模型对文本进行分类、从文本中提取特定实体、总结大量内容、转述某些内容、回答问题......当然还可以充当聊天机器人。

下面介绍的所有模型都是 "基础 "模型，这意味着它们都是原始模型，通常需要少量的学习或微调才能正确执行您的指令。这也意味着这些模型默认情况下不执行任何类型的限制。

为了更深入地了解如何利用这些生成式人工智能模型，我们建议您阅读我们的指南，了解如何使用生成式模型进行少点学习：在此阅读。

ChatGPT 是一个生成模型，它的行为方式与聊天机器人类似。本文接下来将探讨 ChatGPT 的开源替代方案。要在对话模式下使用它们，你需要使用对话式人工智能的少量学习或微调。点击此处了解更多有关对话式人工智能的少量学习的信息。点击此处了解有关微调的更多信息。

LLaMA 3 by Meta

Meta 推出了 LLaMA 3 系列大型语言模型 (LLM)，这是一套经过预训练和微调的生成文本模型，参数从 70 亿个到 700 亿个不等。这些模型中专门针对对话进行微调的版本被称为 Llama-2-Chat，是为对话应用而设计的。与免费提供的聊天模型相比，Llama-2-Chat 模型在大多数评估基准中都表现出卓越的性能，而且根据我们对实用性和安全性的评估，它们的性能与 ChatGPT 和 PaLM 等一些著名的专有模型不相上下。

LLaMA 3 包含一个基于增强型转换器框架的自动回归语言模型。其改进版本经过了监督微调（SFT）和人类反馈强化学习（RLHF），以更好地满足人类对实用性和安全性的期望。

LLaMA 3 的开发周期为 2023 年 1 月至 7 月，其预训练阶段利用了公众可访问数据中的 2 万亿个代币。微调阶段利用的是可公开获取的指令数据集，其中包括 100 多万个由人工标注的新示例。预训练和微调阶段使用的数据均来自 Meta 的用户数据。预训练数据收集至 2022 年 9 月，而用于微调的部分数据则较新，延伸至 2023 年 7 月。

LLaMA 3 主要针对英语的商业和研究应用而设计。微调模型专为创建类似于数字助理的聊天应用而设计，而预训练模型则具有足够的通用性，可根据不同的自然语言生成用途进行调整。

您可以在 NLP Cloud 上轻松使用 LLaMA 3：试试这里.

Mixtral 8x7B by Mistral AI

Mixtral 在大多数评估中都超过了 LLaMA 3 70B，推理速度快六倍。它是功能最强大的开放式模型，也是考虑成本效益时的首选。具体来说，在大多数公认的测试中，它的性能等于或超过了 GPT3.5。

Mixtral 的功能包括流畅地管理多达 32k 个词素，支持英语、法语、意大利语、德语和西班牙语等多种语言，显示出卓越的代码生成能力，并能根据指令进行微调，在 MT-Bench 上获得了 8.3 分。

Mixtral 的核心是一个稀疏的专家混合网络，仅作为解码器模型使用。其结构允许在前馈块内选择 8 个不同的参数组。每一层都有一个专门的路由器网络，从这些参数组或 "专家 "中选择两个来处理每个标记，并以相加的方式组合它们的结果。

这种方法可以扩展模型的参数，同时通过只利用每个令牌的部分可用参数来有效管理成本和延迟。具体来说，Mixtral 拥有总计 46.7B 个参数，但每个令牌只使用 12.9B 个参数，从而实现了相当于 12.9B 模型的处理速度和成本。

Mixtral 是利用公共互联网的数据开发的，专家和路由器的培训同时进行。

您可以在 NLP Cloud 上轻松试用 Mixtral 8x7B：试试这里.

Yi 34B by 01 AI

Yi 系列模型是 01.AI 公司从头开始开发的开源大型语言模型的最新进展。这些面向双语使用的模型已在 3 TB 的海量多语言数据集上进行了训练，使其跻身全球最强大的大型语言模型之列，在理解语言、推理和阅读理解方面具有强大的能力。

在 AlpacaEval 排行榜上，Yi-34B-Chat 型号稳居第二，仅次于 GPT-4 Turbo，并超越了 GPT-4、Mixtral 和 Claude 等其他大型语言型号。在开源模型方面，根据 "Hugging Face Open LLM Leaderboard"（预训练）和 C-Eval（截至 2023 年 11 月的数据）上的排名，Yi-34B 在多个基准测试中的英语和中文任务中均名列榜首，超越了 Falcon-180B、Llama-70B 和 Claude 等模型。

Yi 系列的结构与 Llama 模型架构类似，允许用户访问和利用专为 Llama 设计的现有工具、库和资源生态系统。这种兼容性简化了开发人员的流程，消除了开发新工具的需要，提高了开发流程的生产率。

您可以在 NLP Cloud 上轻松尝试 Yi 34B：试试这里.

Databricks 的 DBRX

DBRX 是一个大型语言模型，它建立在一个转换器架构上，只专注于解码，并采用一种称为下一个标记预测的方法进行训练。它采用了详细的专家混合（MoE）结构，共有 1320 亿个参数，其中 360 亿个参数用于任何给定的输入。直到 2023 年 12 月截止，该模型一直在一个包含 12 万亿个文本和代码的庞大语料库上进行预训练。这些混合训练数据主要包括自然语言和编码示例，其中很大一部分是英语。

与 Mixtral-8x7B 和 Grok-1 等其他 MoE 模型相比，DBRX 在专家使用上采用了细粒度方法，每个任务有 16 个专家，并选择 4 个专家，而 Mixtral-8x7B 和 Grok-1 有 8 个专家，但只选择 2 个。这种方法产生的潜在专家组合多出 65 倍，显著提高了模型的性能。DBRX 在操作中采用了旋转位置编码 (RoPE)、门控线性单元 (GLU) 和分组查询关注 (GQA) 等先进功能。

在预训练中，DBRX 从精心编译的数据集中获取了 12 万亿个代币，上下文范围可扩展至 32,000 个代币。其幕后团队 Databricks 认为，与 MPT 模型系列使用的数据相比，该数据集的单位代币质量提高了一倍。

数据集是使用 Databricks 的综合工具包创建的，其中包括用于处理数据的 Apache Spark™ 和 Databricks 笔记本，以及用于管理和控制数据的 Unity Catalog。Databricks 在预训练阶段采用了课程学习方法，调整了数据组合，大大提高了模型的质量。

DBRX 只处理文本输入，可处理长度达 32,768 个 token 的输入。

结论

ChatGPT 是一个神奇的聊天机器人引擎，能够回答非常高级的问题。实际上，在许多领域，这个人工智能引擎甚至比大多数人类更有针对性。

不过，ChatGPT 可能会引发数据隐私问题，在许多使用案例中受到限制。将 ChatGPT 与最先进的开源替代方案进行比较是很有意思的：LLaMA 3、Mixtral 8x7B、Yi 34B 和 DBRX。毫无疑问，更先进的开源人工智能模型将很快发布。

如果您想在生产中使用 LLaMA 3、Yi 34B 和 Mixtral 8x7B，请立即试用 NLP 云应用程序接口。 (试试这里)!

Juliette
NLP Cloud 营销经理