正在为人工智能或全栈开发而苦恼?我们的专家将为您提供指导:量身定制的建议、技术整合等。联系我们 [email protected].

为人工智能工作负载提供硬件加速

Summary

在本 NLP 云计算课程中,我们将解释为什么往往需要特定的硬件才能加快机器学习工作负载的处理速度。我们还回顾了 2023 年市场上的最佳加速器:GPU、TPU、IPU、Inferentia、Habana Gaudi...

课程结构如下:

Transcript

大家好,我是 NLP 云的朱利安-萨利纳斯。

在本课程中,我们将了解目前可以使用哪种硬件加速器来加速推理工作负载。

要了解硬件加速,重要的是要记住,如今的人工智能应用大多基于神经网络,也称为深度学习。

矩阵乘法是神经网络的基本操作,因为它能让神经网络学习复杂的数据和复杂的数据表示。

在神经网络中,输入数据由矩阵表示,神经元之间的连接权重也由矩阵表示。

当这两个矩阵相乘时,结果就是一个代表神经元输出的新矩阵。

这一过程通过多层神经元重复进行,使网络能够学习到输入数据中越来越抽象和复杂的特征。

矩阵是人工智能模型的核心组成部分,因此必须使用一些擅长对矩阵进行运算的硬件。

另一个重要方面是浮点数。

浮点在神经网络中非常重要,因为它可以表示分数值。

就像我们刚才说的,神经网络涉及有许多条目的大型矩阵。

只使用整数值会很快导致溢出错误。

通过使用浮点数值,神经网络可以表示小数点后很多位的数值,从而使计算更精确,输出更准确。

因此,综上所述,为了高效处理人工智能工作负载,我们需要擅长处理矩阵乘法和浮点运算的硬件。

目前,您可以为机器学习工作负载考虑的两个主要选择是 CPU 和 GPU。

CPU 或中央处理器是一种通用处理器,可处理计算机系统中的各种任务,包括运行应用程序、管理操作系统和执行数学计算。

CPU 的设计用途广泛,可处理多种类型的任务,但并不针对任何特定类型的工作负载进行优化。

GPU 或图形处理单元是一种专用处理器,旨在处理复杂的并行工作负载,如图形渲染和机器学习。

GPU 有成千上万个较小的内核,它们协同工作,一次处理大量数据,在处理某些类型的工作负载时,速度比 CPU 快得多。

矩阵运算可以很容易地在几个小型内核上并行化,这也是 GPU 在这一领域表现出色的原因。

此外,GPU 的浮点运算单元通常比 CPU 多得多,因此执行浮点运算的速度也快得多。

您现在知道了为什么 CPU 往往不足以应对当今的人工智能工作负载,以及为什么特定硬件往往非常重要。

现在,让我们深入探讨一下在特定硬件加速器方面的选择。

英伟达™(NVIDIA®)图形处理器是图形处理的强大工具,它们提供的一系列功能使其成为游戏、机器学习、视频编辑以及设计和工程应用的理想之选。

作为一名人工智能软件工程师,毫无疑问,你必须使用英伟达™(NVIDIA®)GPU,因为它们在当今的 GPU 市场上占据着核心地位。

2023 年,他们最强大的人工智能卡是 A100 和 H100。

AMD 还提供各种 GPU,包括用于机器学习的 GPU。

他们的 RockM 产品系列非常有趣,我建议您去看看。

谷歌还打造了自己的人工智能芯片,称为 TPU(TensorFlow 处理单元)。

他们不仅在内部使用这些芯片,还在谷歌云产品中使用这些芯片。

不过,您不能为自己购买 TPU。

TPU 的工作原理与 GPU 略有不同,但这将是另一个专门视频的主题。

Graphcore 是一家总部位于英国的公司,生产一种名为 IPU 的特定人工智能硬件,相当于谷歌的 TPU。

您既可以购买 IPU,也可以通过其合作伙伴在云中使用 IPU。

AWS 打造自己的人工智能芯片

他们有一个专门用于推理的芯片,名为 "Inferentia",还有一个专门用于训练的芯片,名为 "Tranium"。

这些芯片相对便宜。

您不能为自己购买这种芯片,但可以在 AWS EC2 或 Sage Maker 上使用它们。

英特尔还打造了自己的人工智能芯片,名为 "哈巴纳-高迪"(Habana Gaudi),功能非常强大,但价格昂贵。

硬件加速器功能强大,但由于全球半导体短缺,价格昂贵且不易购买。

因此,尽可能优化人工智能工作负载,使其能够在较小的硬件上运行是明智之举。

实际上,在许多情况下,CPU 甚至可以成为许多机器学习工作负载的理想选择。

目前可以看到,在 2023 年,英伟达是人工智能和机器学习硬件加速领域事实上的解决方案。

但有趣的是,一些替代方案正在出现。

因此,也许几年后,在你的下一个人工智能项目中,你可能会使用其他类型的加速器。

希望本课程对您有所帮助,祝您度过愉快的一天。