ChatGPT 是一款先进的聊天机器人引擎,基于 OpenAI 的 GPT-3.5 和 GPT-4 模型。它是一个功能强大的模型,但考虑开源替代方案也很有趣。
探索 ChatGPT 的开源替代方案可以根据特定需求或项目进行定制和调整,从而在保护数据隐私的同时对技术进行更好的控制。开源模型可确保透明度,让用户了解人工智能模型的底层机制。
目前有一些非常不错的开源 ChatGPT 替代品,如 LLaMA 3、Mixtral 8x7B、Yi 34B 和 DBRX。让我们来研究一下这些替代品。

ChatGPT 源自 GPT-3.5 和 GPT-4,它们是基于 Transformer 架构的现代生成式人工智能模型。变压器架构是谷歌在 2017 年发明的一种特定类型的神经网络。 点击此处查看更多信息。
生成式人工智能模型基本上擅长根据特定输入生成一些文本。根据输入内容,您可以让人工智能模型为您做各种事情。例如,您可以要求模型对文本进行分类、从文本中提取特定实体、总结大量内容、转述某些内容、回答问题......当然还可以充当聊天机器人。
下面介绍的所有模型都是 "基础 "模型,这意味着它们都是原始模型,通常需要少量的学习或微调才能正确执行您的指令。这也意味着这些模型默认情况下不执行任何类型的限制。
为了更深入地了解如何利用这些生成式人工智能模型,我们建议您阅读我们的指南,了解如何使用生成式模型进行少点学习: 在此阅读。
ChatGPT 是一个生成模型,它的行为方式与聊天机器人类似。本文接下来将探讨 ChatGPT 的开源替代方案。要在对话模式下使用它们,你需要使用对话式人工智能的少量学习或微调。 点击此处了解更多有关对话式人工智能的少量学习的信息。 点击此处了解有关微调的更多信息。
Meta 推出了 LLaMA 3 系列大型语言模型 (LLM),这是一套经过预训练和微调的生成文本模型,参数从 70 亿个到 700 亿个不等。这些模型中专门针对对话进行微调的版本被称为 Llama-2-Chat,是为对话应用而设计的。与免费提供的聊天模型相比,Llama-2-Chat 模型在大多数评估基准中都表现出卓越的性能,而且根据我们对实用性和安全性的评估,它们的性能与 ChatGPT 和 PaLM 等一些著名的专有模型不相上下。
LLaMA 3 包含一个基于增强型转换器框架的自动回归语言模型。其改进版本经过了监督微调(SFT)和人类反馈强化学习(RLHF),以更好地满足人类对实用性和安全性的期望。
LLaMA 3 的开发周期为 2023 年 1 月至 7 月,其预训练阶段利用了公众可访问数据中的 2 万亿个代币。微调阶段利用的是可公开获取的指令数据集,其中包括 100 多万个由人工标注的新示例。预训练和微调阶段使用的数据均来自 Meta 的用户数据。预训练数据收集至 2022 年 9 月,而用于微调的部分数据则较新,延伸至 2023 年 7 月。
LLaMA 3 主要针对英语的商业和研究应用而设计。微调模型专为创建类似于数字助理的聊天应用而设计,而预训练模型则具有足够的通用性,可根据不同的自然语言生成用途进行调整。
您可以在 NLP Cloud 上轻松使用 LLaMA 3: 试试这里.
Mixtral 在大多数评估中都超过了 LLaMA 3 70B,推理速度快六倍。它是功能最强大的开放式模型,也是考虑成本效益时的首选。具体来说,在大多数公认的测试中,它的性能等于或超过了 GPT3.5。
Mixtral 的功能包括流畅地管理多达 32k 个词素,支持英语、法语、意大利语、德语和西班牙语等多种语言,显示出卓越的代码生成能力,并能根据指令进行微调,在 MT-Bench 上获得了 8.3 分。
Mixtral 的核心是一个稀疏的专家混合网络,仅作为解码器模型使用。其结构允许在前馈块内选择 8 个不同的参数组。每一层都有一个专门的路由器网络,从这些参数组或 "专家 "中选择两个来处理每个标记,并以相加的方式组合它们的结果。
这种方法可以扩展模型的参数,同时通过只利用每个令牌的部分可用参数来有效管理成本和延迟。具体来说,Mixtral 拥有总计 46.7B 个参数,但每个令牌只使用 12.9B 个参数,从而实现了相当于 12.9B 模型的处理速度和成本。
Mixtral 是利用公共互联网的数据开发的,专家和路由器的培训同时进行。
您可以在 NLP Cloud 上轻松试用 Mixtral 8x7B: 试试这里.
Yi 系列模型是 01.AI 公司从头开始开发的开源大型语言模型的最新进展。这些面向双语使用的模型已在 3 TB 的海量多语言数据集上进行了训练,使其跻身全球最强大的大型语言模型之列,在理解语言、推理和阅读理解方面具有强大的能力。
在 AlpacaEval 排行榜上,Yi-34B-Chat 型号稳居第二,仅次于 GPT-4 Turbo,并超越了 GPT-4、Mixtral 和 Claude 等其他大型语言型号。在开源模型方面,根据 "Hugging Face Open LLM Leaderboard"(预训练)和 C-Eval(截至 2023 年 11 月的数据)上的排名,Yi-34B 在多个基准测试中的英语和中文任务中均名列榜首,超越了 Falcon-180B、Llama-70B 和 Claude 等模型。
Yi 系列的结构与 Llama 模型架构类似,允许用户访问和利用专为 Llama 设计的现有工具、库和资源生态系统。这种兼容性简化了开发人员的流程,消除了开发新工具的需要,提高了开发流程的生产率。
您可以在 NLP Cloud 上轻松尝试 Yi 34B: 试试这里.
DBRX 是一个大型语言模型,它建立在一个转换器架构上,只专注于解码,并采用一种称为下一个标记预测的方法进行训练。它采用了详细的专家混合(MoE)结构,共有 1320 亿个参数,其中 360 亿个参数用于任何给定的输入。直到 2023 年 12 月截止,该模型一直在一个包含 12 万亿个文本和代码的庞大语料库上进行预训练。这些混合训练数据主要包括自然语言和编码示例,其中很大一部分是英语。
与 Mixtral-8x7B 和 Grok-1 等其他 MoE 模型相比,DBRX 在专家使用上采用了细粒度方法,每个任务有 16 个专家,并选择 4 个专家,而 Mixtral-8x7B 和 Grok-1 有 8 个专家,但只选择 2 个。这种方法产生的潜在专家组合多出 65 倍,显著提高了模型的性能。DBRX 在操作中采用了旋转位置编码 (RoPE)、门控线性单元 (GLU) 和分组查询关注 (GQA) 等先进功能。
在预训练中,DBRX 从精心编译的数据集中获取了 12 万亿个代币,上下文范围可扩展至 32,000 个代币。其幕后团队 Databricks 认为,与 MPT 模型系列使用的数据相比,该数据集的单位代币质量提高了一倍。
数据集是使用 Databricks 的综合工具包创建的,其中包括用于处理数据的 Apache Spark™ 和 Databricks 笔记本,以及用于管理和控制数据的 Unity Catalog。Databricks 在预训练阶段采用了课程学习方法,调整了数据组合,大大提高了模型的质量。
DBRX 只处理文本输入,可处理长度达 32,768 个 token 的输入。
ChatGPT 是一个神奇的聊天机器人引擎,能够回答非常高级的问题。实际上,在许多领域,这个人工智能引擎甚至比大多数人类更有针对性。
不过,ChatGPT 可能会引发数据隐私问题,在许多使用案例中受到限制。将 ChatGPT 与最先进的开源替代方案进行比较是很有意思的:LLaMA 3、Mixtral 8x7B、Yi 34B 和 DBRX。毫无疑问,更先进的开源人工智能模型将很快发布。
如果您想在生产中使用 LLaMA 3、Yi 34B 和 Mixtral 8x7B,请立即试用 NLP 云应用程序接口。 (试试这里)!
Juliette
NLP Cloud 营销经理