ChatGPTは高度なチャットボットエンジンで、OpenAIによるGPT-3.5とGPT-4モデルをベースにしています。これは強力なモデルですが、オープンソースの代替案を検討するのも面白いでしょう。
ChatGPTに代わるオープンソースを検討することで、特定のニーズやプロジェクトにカスタマイズして適応させることができ、データのプライバシーを守りながらテクノロジーをよりコントロールできる可能性がある。オープンソースモデルは透明性を確保し、ユーザーがAIモデルの基本的なメカニズムを理解することを可能にします。
現在、LLaMA 3、Mixtral 8x7B、Yi 34B、DBRXのようなオープンソースのChatGPT代替ソフトがあります。これらの代替品を調査してみましょう。
ChatGPTはGPT-3.5とGPT-4から派生したもので、トランスフォーマーアーキテクチャに基づく最新の生成AIモデルです。トランスフォーマーアーキテクチャは、2017年にグーグルが発明した特定のタイプのニューラルネットワークである。 詳しくはこちら
生成AIモデルは基本的に、特定の入力に基づいて何らかのテキストを生成することに長けている。入力に応じて、AIモデルにさまざまなことをさせることができる。例えば、テキストを分類したり、テキストから特定のエンティティを抽出したり、大きな内容を要約したり、内容を言い換えたり、質問に答えたり......もちろんチャットボットとして機能することもできます。
以下に紹介するモデルはすべて「基礎的な」モデルであり、通常、あなたの指示に適切に従うために数回の学習や微調整を必要とする未加工のモデルであることを意味する。また、これらのモデルはデフォルトで何らかの制限を実装していないということでもある。
これらの生成AIモデルをより深く活用する方法を理解するために、数発学習で生成モデルを使用する方法についてのガイドを読むことをお勧めします: こちらをお読みください。
ChatGPTはチャットボットのように振る舞うように特別に指示された生成モデルです。この記事の残りの部分では、ChatGPTに代わるオープンソースを探ります。会話モードでこれらを使うには、会話AI用の数ショット学習を使うか、微調整をする必要があります。 会話AIのための数発学習については、こちらをご覧ください。 微調整について詳しくはこちら
Meta社は、大規模言語モデル(LLM)のLLaMA 3シリーズを発表した。LLaMA 3シリーズは、事前に訓練され、微調整された生成テキストモデル群であり、パラメータサイズは70億から700億まで様々である。Llama-2-Chatとして知られる、会話用に特別に微調整されたこれらのモデルのバージョンは、対話アプリケーション用に設計されています。自由に利用できるチャットモデルと比較して、Llama-2-Chatモデルは、評価されたほとんどのベンチマークで優れた性能を示し、有用性と安全性の評価に基づいて、ChatGPTやPaLMのようないくつかのよく知られた独自のモデルの性能に匹敵します。
LLaMA 3には、強化された変換フレームワーク上に構築された自動回帰言語モデルが組み込まれている。その改良版では、教師あり微調整(SFT)と人間フィードバック付き強化学習(RLHF)が行われ、有用性と安全性に関する人間の期待により合致するようになっている。
LLaMA 3の開発期間は2023年1月から7月までで、事前学習段階では、一般に公開されているデータから2兆以上のトークンを利用した。微調整フェーズでは、一般に公開されている命令データセットを利用し、人間が注釈を付けた100万以上の新しい例が含まれた。事前学習段階でも微調整段階でも、Metaのユーザーデータに由来するデータは使用されていない。プレトレーニングデータは2022年9月まで収集されたが、ファインチューニングデータの一部は2023年7月までと、より新しいものである。
LLaMA 3は、主に英語での商用および研究用アプリケーション向けに設計されている。微調整されたモデルは、デジタル・アシスタントのようなチャット・アプリケーションを作成するために調整されており、一方、事前に訓練されたモデルは、多様な自然言語生成の用途に合わせて調整できるほど汎用性があります。
LLaMA 3はNLPクラウド上で簡単に使用できます: こちらから.
Mixtralは、ほとんどの評価でLLaMA 3 70Bを上回り、推論速度も6倍速い。オープンアクセスで最も強力なモデルとして際立っており、費用対効果を考慮した場合、最良の選択となる。具体的には、GPT3.5の性能と同等か、それ以上である。
Mixtralの能力には、最大32kトークンをスムーズに管理すること、英語、フランス語、イタリア語、ドイツ語、スペイン語などの多言語をサポートすること、卓越したコード生成能力を発揮すること、指示に従うように微調整できることなどが含まれ、MT-Benchで8.3のスコアを達成した。
Mixtralの核心は、デコーダのみのモデルとして機能する、スパースな専門家混合ネットワークである。その構造により、フィードフォワード・ブロック内で8つの異なるパラメータ・グループを選択することができる。各層にある専用のルーター・ネットワークは、これらのグループのうち2つ、つまり「エキスパート」を選択して各トークンを処理し、その結果を加算方式で組み合わせる。
この方式では、トークンごとに利用可能なパラメーターの一部だけを利用することで、コストとレイテンシーを効率的に管理しながらモデルのパラメーターを拡張することができる。具体的には、Mixtralは合計46.7Bのパラメータを持つが、1トークンあたり12.9Bのパラメータしか適用しないことで、12.9Bのモデルと同等の処理速度とコストを実現している。
ミクストラルは、公共インターネットからのデータを使って開発され、エキスパートとルーターのトレーニングが同時に行われた。
NLP CloudでMixtral 8x7Bを簡単に試すことができます: こちらから.
Yiシリーズのモデルは、01.AIが一から開発したオープンソースの大規模言語モデルの最新の進歩です。バイリンガルでの使用を目的としたこれらのモデルは、3テラバイトの膨大な多言語データセットで学習され、言語理解、推論、読解において強力な能力を持つ、世界で最も強力な大規模言語モデルの一つとして位置づけられています。
Yi-34B-Chatモデルは、GPT-4 Turboに次ぐ2位の座を確保し、GPT-4、Mixtral、Claudeなどの他の大規模言語モデルをAlpacaEval Leaderboardで上回った(このランキングは2024年1月までのデータに基づく)。オープンソースモデルでは、Yi-34Bが複数のベンチマークで英語と中国語の両方でトップの座を獲得し、Falcon-180B、Llama-70B、Claudeなどのモデルを上回った。
Llamaモデル・アーキテクチャと同様の構造を持つYiシリーズは、Llama用に設計された既存のツール、ライブラリ、リソースのエコシステムへのアクセスと利用を可能にします。この互換性により、開発者のプロセスが簡素化され、新たなツール開発の必要性がなくなり、開発プロセスの生産性が向上します。
Yi34BはNLPクラウドで簡単に試すことができます: こちらから.
DBRXはデコードのみに焦点を当てたトランスフォーマーアーキテクチャ上に構築された大規模言語モデルで、学習にはネクストトークン予測として知られる手法を採用している。詳細なMoE(Mixture-of-Experts)構造が特徴で、合計1320億のパラメータを誇り、そのうち360億が任意の入力に対して利用される。このモデルは、2023年12月のカットオフまで、テキストとコードの両方を含む12兆トークンの膨大なコーパスで事前訓練を受けた。この訓練データのブレンドには、自然言語だけでなくコーディング例も含まれており、かなりの部分が英語である。
DBRXはエキスパートの使用におけるきめ細かいアプローチで際立っており、Mixtral-8x7BやGrok-1のような8人のエキスパートを持ちながら2人しか選ばない他のMoEモデルとは対照的に、16人のエキスパートを使用し、各タスクに4人を選択します。このアプローチにより、エキスパートの組み合わせの可能性が65倍となり、モデルの性能が顕著に向上しました。DBRXは、回転位置エンコーディング(RoPE)、ゲート線形ユニット(GLU)、グループ化クエリーアテンション(GQA)などの高度な機能を操作に組み込んでいる。
DBRXの事前学習には、綿密にコンパイルされたデータセットから12兆トークンが投入され、コンテキスト範囲は最大32,000トークンまで拡張された。DBRXの開発チームであるDatabricksは、このデータセットが、MPTモデル・ファミリーに使用されるデータと比較して、トークンあたり2倍の品質を提供すると考えている。
このデータセットは、Databricksの包括的なツールキットを使用して作成されました。このツールキットには、データを処理するためのApache Spark™とDatabricksノートブック、そしてデータを管理・運用するためのUnity Catalogが含まれています。Databricksは、事前学習段階でカリキュラム学習アプローチを導入し、モデルの品質を大幅に向上させる方法でデータミックスを調整した。
DBRXはテキストベースの入力のみを処理するようにプログラムされており、最大32,768トークンまでの入力を処理できる。
ChatGPTは、非常に高度な質問に答えることができる素晴らしいチャットボットエンジンです。このAIエンジンは、多くの分野において、実は人間以上に適切です。
しかし、ChatGPTはデータプライバシーの問題を引き起こす可能性があり、多くのユースケースでは制限されています。ChatGPTを最も先進的なオープンソースの代替と比較するのは興味深い:LLaMA 3、Mixtral 8x7B、Yi 34B、DBRXです。さらに高度なオープンソースAIモデルが間もなくリリースされることは間違いない。
LLaMA 3、Yi 34B、Mixtral 8x7Bを本番で使用したい場合は、遠慮なくNLPクラウドAPIをお試しください。 (こちらから)!
Juliette
NLPクラウドのマーケティング・マネージャー