2024数据中心芯片大战:英伟达、英特尔、AMD的终极对决

三月,英伟达推出了其 Blackwell GPU,再度引领高性能计算领域的新潮流。紧随其后的是不甘示弱的英特尔,宣布专为AI训练和推理设计的最新Gaudi 3 AI加速器将于2024年第三季度全面上市。同时,Meta也透露其下一代AI推理处理器现已投入生产,并已在自家数据中心投入使用。

在此背景下,AMD蓄势待发,据传也将推出新款数据中心CPU,加入这场数据中心算力升级的竞赛。不仅如此,众多超大规模云服务商及新兴AI芯片初创企业纷纷摩拳擦掌,计划推出新的AI芯片,以满足市场对人工智能处理能力日益高涨的需求。

无论是从架构设计的革新、能效比的提升,还是对特定工作负载的优化,每款产品的推出都预示着计算领域的新一轮洗牌。本文将深入剖析这些即将面世或已发布的技术新品。

协处理器成为“抢手货”

数据中心运营商对“协处理器”,即设计用来补充和增强主处理器功能的微处理器,有着极大的需求。

传统上,数据中心服务器市场以CPU为中心,CPU通常是通用服务器中最昂贵的部件。2020年,仅有超过11%的服务器配备了协处理器,但预计到2028年,超过60%的服务器将包含协处理器,这些不仅提升了计算能力,还提高了效率。

像英伟达的H100、AMD的MI300 GPU、谷歌云的TPU以及其他定制的ASIC等协处理器之所以受到欢迎,是因为它们能够支持人工智能训练、推理、数据库加速、网络和安全功能的卸载以及视频转码等功能。

AMD 、Intel vs. ARM CPU

在利润丰厚的CPU市场中,英特尔依旧是市场的头部玩家,但近年来,诸如初创公司Ampere及其他云服务提供商推出的基于ARM架构的CPU逐渐侵蚀了英特尔的主导地位。

根据Omdia的数据,英特尔目前持有CPU市场61%的份额,而AMD势头强劲,其服务器出货量份额从2020年的不到10%增长到了2023年的27%。同时,ARM架构CPU在去年已抢占了9%的市场份额。Omdia数据中心IT首席分析师Manoj Sukumaran指出,ARM生态系统的日趋成熟及其产品在低功耗、高核心密度上的优势,使之愈发吸引云服务提供商的青睐。

4月9日,谷歌云宣布,其首款基于ARM架构的Google Axion处理器将于今年晚些时候向客户开放。

英特尔的目标是通过发布新一代服务器处理器重夺CPU市场的领先地位。其中,“Sierra Forest”系列Xeon处理器(集成E-core)预计2024年二季度问世,旨在满足超大规模企业和云服务对高效能与卓越性能的需求;而侧重高性能的“Granite Rapids”系列(搭载P-core)也将紧随其后。

AMD则积极筹备第五代EPYC处理器Turin的发布,持续其市场扩张战略。Moor Insights & Strategy的副总裁兼首席分析师Matt Kimball认为,AMD作为性能领军者,已成功从英特尔手中夺得大量市场份额,尤其在超大规模云领域,并且正将此成功经验拓展至本地企业市场。2024年将是英特尔在服务器CPU性能竞争中寻求重大反扑的关键年份。

芯片制造商开始关注AI推理

当前,各行各业的公司都在竞相构建AI模型,AI训练的规模仍然很大。但Tirias Research 创始人兼首席分析师 Jim McGregor 表示,在 2024 年,AI推理芯片市场将开始崭露头角。他指出:“我们正见证着从模型训练向推理处理的转变。伴随着大量AI工作负载的出现及生成式AI应用的蓬勃兴起。这些已训练完成的模型需要高效运行环境,从而激发了市场对高性能推理解决方案的迫切需求。”

英伟达凭借其GPU在AI领域长期领跑,AMD通过发布专为AI训练与推理设计的Instinct MI300系列GPU,在去年12月强势入局,为市场带来了有力竞争。

虽然GPU乃至CPU都被用于训练和推理,但越来越多的公司——包括高通、超大规模云服务商如AWS、Meta,以及Groq、Tenstorrent和Untether AI等AI芯片初创企业正积极开发专门针对推理任务的芯片。分析师指出,这些芯片更加节能。

Kimball 表示,像英伟达H100和AMD MI300这类高端GPU,由于其庞大的规模、丰富的核心数以及高带宽内存,非常适合承担AI模型训练的重负,而推理作业相比之下更为精简,无需如此强大的硬件配置,这为专为推理优化的节能型芯片提供了发展空间。

2024 年顶级数据中心芯片

下面将介绍国外厂商近期推出或即将推出的芯片。

AMD

AMD 首席执行官Lisa Su在2023 年第四季度财报电话会议上透露,公司计划在 2024 年下半年推出下一代服务器处理器Turin,该处理器内置全新Zen 5核心。Turin旨在作为现有第四代EPYC平台的升级版,通过集成Zen 5架构、增强的内存扩展技术和更高的核心计数,持续强化AMD在性能、能效及总体拥有成本(TCO)上的领军优势。目前关于Turin的具体细节尚未公布。

AMD的Instinct MI300加速器系列,特别是MI300X GPU,自去年12月面世以来市场需求强劲。Lisa Su透露,AMD正计划在年内大幅提升MI300的产能,以充分满足来自云计算、企业用户及超级计算机领域客户的迫切需求。

英特尔

在Intel Vision 2024 活动上,英特尔首次公布了最新 Gaudi 3 AI 处理器的架构细节。相比前代产品Gaudi 2,Gaudi 3将提供四倍的AI计算能力和1.5倍的内存带宽。据称,与英伟达的 H100 GPU 相比,Gaudi 3 预计训练和推理时间将加快50%,推理能效将提高 40%。

至于下一代Intel Xeon 6处理器Sierra Forest,将包含一款配备288个核心的版本,这将是业内核心数最多的产品。它也是英特尔首款专为性能与能效平衡设计的“E-core”服务器处理器。另一款名为Granite Rapids的“P-core”服务器处理器,则专注于提供最佳性能,据称其在AI工作负载上的表现将比Sapphire Rapids高出两到三倍。

英特尔表示,Gaudi 3 将于 2024 年第二季度向 OEM 供应,预计在第三季度全面上市。 Sierra Forest(配备E-core的英特尔至强 6 处理器)预计将于 2024 年第二季度上市。Granite Rapids(配备P-core的英特尔至强 6 处理器)预计将“很快”推出。

英伟达

3月中旬,英伟达宣布将于今年晚些时候开始出货下一代Blackwell GPU。专为云服务商和企业设计的新一代Blackwell GPU系列,在单个GPU上可提供20 petaflops的AI性能,能使组织训练AI模型的速度提升四倍,AI推理性能提高30倍,并且相比上一代Hopper架构芯片,能源效率提升高达25倍。

英伟达还计划在2024年第二季度推出基于Hopper架构的H200 GPU。该公司最近公布的基准测试结果显示,它是运行生成式AI负载最强大的平台。英伟达表示,在对700亿参数的Llama 2模型进行推理时,H200的性能比H100快45%。

Ampere

Ampere 由前英特尔总裁Renee James创立,主打Arm架构服务器通用芯片,短短数年即崛起为服务器芯片领域新势力。Ampere 没有公布其 2024 年芯片计划。

去年五月,Ampere 宣布了一款新的定制设计、与Arm兼容的服务器处理器系列,该系列处理器最多具有192个核心。这款名为AmpereOne的处理器是为云服务提供商设计的,公司高管表示,它同时提供了高性能与高能效。

AWS

AWS 是与英伟达、AMD 和英特尔等大型芯片制造商合作的超大规模提供商之一,并使用其处理器为客户提供云服务。然而,云厂商发现构建自己的定制芯片来为其数据中心供电并为客户提供云服务,在经济和技术上都更有优势。

Graviton4是AWS专为应对广泛工作负载而设计的下一代Arm架构CPU。Tranium2是一款AWS专为AI训练场景优化设计的高性能处理器。此前,AWS已成功推出了第二代AI推理芯片Inferentia2,持续推动其在云端AI推理能力的边界。

Hutt表示:“我们的目标是赋予客户选择的自由,以显著较低的成本提供高性能。”

Tranium2在性能上实现了巨大飞跃,相较于初代Tranium,其计算能力提升了四倍,内存容量也增加了三倍。并且,AWS计划将Tranium2部署在规模更大的集群中,从原先的60,000片芯片集群扩展到100,000片,进一步凸显了其在扩展性和性能上的野心。

Azure

微软最近发布了用于AI和生成式AI任务的Azure Maia 100 AI 加速器,以及面向通用计算工作负载的基于 Arm 的处理器 Cobalt 100 CPU。

该公司去年 11 月表示,计划于2024年初开始逐步部署这两款处理器,初期将用于支持微软的各项服务,比如Microsoft Copilot和Azure OpenAI Service。据微软介绍,Maia AI加速器旨在同时满足AI训练和推理的需求,而Cobalt CPU则是一款注重能效的芯片,旨在提供优异的每瓦性能比。

谷歌云

谷歌云作为超大规模云服务商中的先驱者,早在2013年就率先推出了其定制的张量处理单元(TPU)。这些TPU专为AI训练和推理设计,可供谷歌云的客户使用,并且也支持着谷歌的多项服务,如搜索、YouTube、Gmail和谷歌地图。

该公司去年年底推出了第五代 TPU 。据称,Cloud TPU v5p 模型的训练速度比上一代产品快 2.8 倍。

4 月 10 日,谷歌宣布推出其首款自研 Arm 架构处理器——Axion。该处理器专为谷歌数据中心设计,旨在处理各种任务,包括为谷歌搜索提供动力以及支持与人工智能相关的工作。

据谷歌表示,Axion基于Arm NeoverseV2 CPU构建,以Titanium为基础,性能比 AWS 和微软等竞争对手提供的基于 Arm 的实例高出 30%,并且与同类X86实例相比,性能最多可提升50%,能源效率提升高达60%。

谷歌表示,客户将能够在其众多谷歌云服务中使用Axion处理器,包括Google Compute Engine、Google Kubernetes Engine、Dataproc、Dataflow和Cloud Batch。

Kimball 预计,随着谷歌云开始为其客户部署自有CPU,AMD和英特尔的收入可能会受到影响。

Meta

4 月 10 日,Meta 展示了其芯片研发的最新进展——新一代MTIA。作为先前MTIA v1版本的升级迭代,这款芯片能够支持包括针对Meta旗下各平台(例如Facebook)上的显示广告排名算法和推荐系统在内的多种复杂模型。

与基于 7nm 工艺构建的 MTIA v1 相比,新一代 MTIA 采用了更为先进的 5nm 工艺,在物理尺寸上有所增加,并搭载了更多的处理核心。尽管整体功耗有所提升(从25w到90w),但配备了更多的内部存储器(从64MB扩容至128MB)。

Meta 表示,新一代 MTIA 目前已在其 16 个数据中心区域投入使用,并且相较于MTIA v1 ,整体性能提高了 3 倍。Meta在博客中写道,“得益于对整体技术堆栈的把控,相较于商用GPU,新一代MTIA实现了更高的效率。”

Cerebras

AI硬件初创公司Cerebras Systems在3月中旬推出了其第三代AI处理器WSE-3。这款芯片的性能是其前代产品的两倍,并在高端AI训练市场与英伟达展开竞争。

同样在3月中旬,Cerebras Systems还与高通合作,为其客户提供AI推理服务。在Cerebras硬件上训练的模型经过优化,可在高通的Cloud A100 Ultra加速器上进行高效推理。

Groq

Groq是一家AI芯片初创公司,打造了LPU推理引擎,用于运行大型语言模型、生成式AI应用以及其他AI负载。

Groq自2020年发布了其首个AI推理芯片,目标客户群包括超大规模云服务商、企业、公共部门、AI初创公司及开发者。据公司发言人表示,Groq计划在2025年推出其下一代芯片。

Tenstorrent

Tenstorrent是一家总部位于多伦多的AI推理初创公司,该公司CEO Jim Keller是一位芯片架构师,曾在苹果、AMD、特斯拉和英特尔等公司工作,并参与设计了AMD的Zen架构以及早期苹果iPad和iPhone的芯片。

Tenstorrent的战略与企业传播副总裁Bob Grim表示,公司今年已开始接受其Wormhole AI推理芯片的订单,并计划在今年晚些时候正式发布。

Grim称,Tenstorrent正在向企业、实验室及任何需要高性能计算的组织出售搭载32颗Wormhole芯片的服务器。目前Tenstorrent专注于AI推理,但其芯片也能够支持AI训练,因此公司计划未来也将提供AI训练的支持。

Untether AI

Untether AI是一家位于多伦多的AI芯片初创公司,致力于构建能效高的AI推理芯片。

该公司总裁为Chris Walker,曾是英特尔公司的企业副总裁兼总经理。据公司发言人表示,Untether AI在2021年发货了其首个产品,并计划在今年推出其第二代SpeedAI240芯片。

该发言人还提到,Untether AI的芯片设计适用于多种形态,从用于嵌入式应用的单芯片设备到4芯片的PCI-Express加速卡,因此其处理器的应用范围覆盖了从边缘设备到数据中心的广泛领域。

原文链接:
https://www.datacenterknowledge.com/hardware/data-center-chips-2024-top-trends-and-releases#Microsoft%20Azure


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/26492.html
分享到:
相关文章
条评论

登录后才可以评论

SDNLAB君 发表于24-04-24
0