AIワークロードのためのハードウェアアクセラレーション

Transcript

こんにちは、NLPクラウドのジュリアン・サリナスです。

このコースでは、推論ワークロードを高速化するために、現在どのようなハードウェア・アクセラレータが使えるかを見ていく。

ハードウェア・アクセラレーションを理解するためには、AIアプリケーションのほとんどが、ディープラーニングとも呼ばれるニューラルネットワークに基づいていることを思い出すことが重要だ。

行列の乗算はニューラルネットワークにとって不可欠な演算であり、これによってニューラルネットワークは複雑なデータやデータの複雑な表現を学習することができるからだ。

ニューラルネットワークでは、入力データは行列で表され、ニューロン間の接続の重みも行列で表される。

この2つの行列を掛け合わせると、ニューロンの出力を表す新しい行列ができる。

このプロセスを何層ものニューロンで繰り返すことで、ネットワークは入力データの抽象的で複雑な特徴を学習していく。

行列はAIモデルの核となる要素なので、行列の演算に優れたハードウェアを使うことが重要だ。

もうひとつ重要なのは浮動小数点数だ。

浮動小数点がニューラルネットワークで重要なのは、小数値を表現できるからである。

今言ったように、ニューラルネットワークは多くのエントリーを持つ大きな行列を含む。

整数値だけを使うと、すぐにオーバーフローエラーになる。

浮動小数点値を使用することで、ニューラルネットワークは小数点以下の桁数の多い値を表現することができ、より正確な計算が可能になり、出力の精度が向上する。

まとめると、AIワークロードを効率的に処理するためには、行列の乗算や浮動小数点演算に強いハードウェアが必要だということだ。

現在、機械学習のワークロード用に検討できる主な選択肢は、CPUとGPUの2つです。

CPU（中央演算処理装置）は、アプリケーションの実行、オペレーティング・システムの管理、数学的計算の実行など、コンピューター・システムにおける幅広いタスクを処理する汎用プロセッサーである。

CPUは多用途に使えるように設計されており、多くの種類のタスクを処理できるが、特定の種類の作業負荷に最適化されているわけではない。

GPU（グラフィック・プロセッシング・ユニット）は、グラフィックスのレンダリングや機械学習のような複雑な並列ワークロードを処理するために設計された特殊なプロセッサーである。

GPUは何千もの小さなコアを持ち、それらが連携して一度に大量のデータを処理するため、ある種のワークロードではCPUよりもはるかに高速に動作する。

行列演算は複数の小さなコアで簡単に並列化できるため、GPUはこの分野で優れている。

また、GPUは通常、CPUよりも多くの浮動小数点演算ユニットを搭載しているため、浮動小数点演算をより高速に実行することができます。

今日のAIワークロードではCPUだけでは不十分なことが多く、特定のハードウェアが非常に重要になる理由がお分かりいただけただろう。

それでは、特定のハードウェア・アクセラレータに関して、どのような選択肢があるのか見ていこう。

NVIDIA GPUは、グラフィック処理のための強力なツールであり、ゲーム、機械学習、ビデオ編集、設計およびエンジニアリング・アプリケーションに理想的なさまざまな機能を提供します。

エヌビディアのGPUは今日のGPU市場で中心的な地位を占めているため、AIソフトウェア・エンジニアとして、エヌビディアのGPUを扱うことになるのは間違いない。

2023年のAI向けで最も強力なカードはA100とH100だ。

AMDは、機械学習用を含む幅広いGPUも提供している。

彼らのRockM製品群は興味深い。

グーグルはまた、TensorFlow Processing UnitのTPUと呼ばれる独自のAIチップも製造している。

同社はこれらのチップを社内で使用しているだけでなく、グーグル・クラウドのサービスでも提案している。

自分用にTPUを購入することはできないが。

TPUの動作はGPUとは少し異なるが、それは別の専用ビデオで紹介する。

グラフコアは英国を拠点とする企業で、グーグルのTPUに相当するIPUと呼ばれる特殊なAIハードウェアを製造している。

IPUを購入することも、パートナーを通じてクラウドで使用することもできる。

AWSは独自のAIチップを製造している。

インフェクティアと呼ばれる推論専用のチップと、トラニアムと呼ばれるトレーニング専用のチップがある。

これらのチップスは比較的安い。

このようなチップを自分で購入することはできないが、AWS EC2やSage Makerで使用することはできる。

インテルもハバナ・ガウディと呼ばれる独自のAIチップを製造しており、非常にパワフルだが非常に高価な代物だ。

ハードウェア・アクセラレーターは強力だが、非常に高価で、世界的な半導体不足のため購入も容易ではない。

そのため、AIワークロードをより小さなハードウェアで実行できるよう、可能な限り最適化することが賢明です。

CPUは実際、多くの状況において、多くの機械学習ワークロードにとって適切な選択肢となりうる。

現時点でおわかりのように、2023年、AIと機械学習におけるハードウェア・アクセラレーションに関しては、エヌビディアが事実上のデファクト・ソリューションである。

しかし、興味深いことに、いくつかの代替案が現れつつある。

数年後、次のAIプロジェクトでは、他のタイプのアクセラレーターを使うことになるかもしれない。

このコースがお役に立てば幸いです。

AIワークロードのためのハードウェアアクセラレーション

Summary

Transcript