做大做强!Intel 发布 Gaudi 3 AI 处理器,谷歌押注定制芯片

Intel 发布 Gaudi 3 AI 处理器

在Intel Vision 2024 活动上,英特尔首次公布了最新 Gaudi 3 AI 处理器的架构细节,据称Gaudi 3的训练性能比英伟达 H100高出 1.7 倍,推理能力提高 50%,效率提高 40%,但成本却低得多。

英伟达在人工智能基础设施和软件方面的主导地位是无可争议的,英特尔、AMD等公司一直以挑战英伟达为目标。不过英伟达 H100 的发布时间是 2022 年,两年过去了,英特尔的Gaudi 3姗姗来迟,但现在推出总比不推出好,我们一起来看一下Gaudi 3具体细节。

Gaudi 3与Gaudi 2的架构和底层基本原理相同,采用台积电 5 纳米工艺。Gaudi 3 有两个计算芯片,共包含8个MME引擎、64个TPC引擎和24x200Gbps RDMA NIC端口。此外,总共8个HBM2e(不是HBM3e)芯片组成统一高带宽内存(HBM)。Gaudi 3擅长训练和推理,具有1.8 PFlops的FP8和BF16计算,128GB的HBM2e内存容量,3.7TB/s的HBM带宽。

表2和表3比较了英特尔 Gaudi 3在LLM推理工作负载上与英伟达 H100和H200的预期性能。英特尔声称 Gaudi 3在训练工作负载方面的速度快了 1.5 倍到 1.7 倍。在与H200 的比较中,英特尔使用了单卡的性能,而不是比较集群的横向扩展性能。


表4和表 5显示英特尔 Gaudi 3相对于英伟达 H100的平均推理功率效率高40%,性能高出60%。


不过归根结底,主导当今人工智能训练和推理工作负载的关键在于将加速器扩展到更大集群的能力。英特尔的 Gaudi 采用了与英伟达即将推出的 B200 NVL72 系统不同的方法,在 Gaudi 3 加速器之间使用快速 200 Gbps 以太网连接,并将服务器与 Leaf和Spine交换机配对以创建集群。

相比之下英伟达 H100/H200采用专用互连技术NVLink;AMD MI300X采用专用互连技术Infinity Fabric。Gaudi 3采用的是常规的RoCE,集成了24个200Gb以太网端口。每台服务器由8个 Gaudi 3 加速器组成,每个加速器通过 21 个 200 Gbps 以太网连接相互通信。其中有3个以太网端口用于通过Leaf交换机与集群进行外部通信。

下图是使用16节点子集群构建块构建512节点集群(4096个Gaudi 3)的示例。在基于英特尔 Gaudi 3加速器的服务器中,每个OAM卡都有一个NIC端口连接到服务器的3个OSFP扩展端口。然后通过将16台服务器连接到3个64端口800Gbps以太网Leaf交换机来建立子集群。在子集群中,系统中的任何卡都可以通过所有3个Leaf交换机与其他系统中的其他卡进行通信。最后,32个子集群使用48个64端口800Gbps以太网Spine交换机联网在一起。这种拓扑结构形成了一个三层网络,每个Leaf交换机和Spine交换机的所有64个端口都被充分利用。

英特尔还宣布正在开发一款用于超以太网联盟兼容网络的 AI NIC ASIC 以及一款 AI NIC 小芯片,该芯片将用于其未来的 XPU 和 Gaudi 3 处理器,同时也通过Intel Foundry向外部客户提供。

谷歌押注定制芯片

周二,谷歌宣布推出其首款自研 Arm 架构处理器——Axion。该处理器专为谷歌数据中心设计,旨在处理各种任务,包括为谷歌搜索提供动力以及支持与人工智能相关的工作。

据谷歌表示,Axion基于Arm NeoverseV2 CPU构建,以Titanium为基础,性能比 AWS 和微软等竞争对手提供的基于 Arm 的实例高出 30%,并且与同类X86实例相比,性能最多可提升50%,能源效率提升高达60%。

不过,谷歌并未提供任何额外信息支撑这些数据,包括上市日期、定价和更多的技术细节。至于“基准测试”的结果,谷歌甚至没有透露它将Axion与哪款X86实例进行了对比。

谷歌发言人 Amanda Lam 表示:“包括基准测试和架构细节在内的技术文档将于今年晚些时候发布。”谷歌明确表示,他们不会直接向客户出售 Axion 芯片。相反,将通过租赁的方式向客户提供对这种定制硬件的访问权限。

谷歌涉足芯片开发并什么新鲜事,该公司在这一领域拥有十多年的经验,其研发的TPU在降低AI驱动服务的成本方面发挥了重要作用。推动谷歌进军定制芯片业务的因素主要有以下几点:

1.减少对外部供应商的依赖。与微软和亚马逊一样,谷歌现在可以减少对英特尔和英伟达等合作伙伴的依赖。

2.谷歌可以更有效地与亚马逊和微软同样在定制芯片开发方面大力投入的云服务提供商展开竞争,以支持人工智能和云工作负载。亚马逊早在 2018 年就推出了Graviton Arm 芯片,其几乎所有的服务都已经在 Arm 生态系统上进行了移植和优化。Graviton已赢得Datadog、Elastic、Snowflake和Sprinklr等企业的业务。2021 年,阿里巴巴宣布推出Arm 处理器。同年11月,微软也发布了相同消息。

3.谷歌希望像 Axion 这样的芯片能够满足对计算资源不断增长的需求,特别是在人工智能服务领域。

除了Axion之外,谷歌还宣布全面推出 TPU v5p。“TPU v5p是一款专为训练某些规模大、要求苛刻的生成式AI模型而打造的下一代加速器。”单个 TPU v5p Pod 包含 8960 个芯片,是 TPU v4 Pod 上芯片数量的两倍多。


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/26485.html
分享到:
相关文章
条评论

登录后才可以评论

SDNLAB君 发表于24-04-10
0