数据中心芯片市场,龙争虎斗的2022

过去十多年来,英特尔在服务器市场方面一直处于领先地位,其每年推出的至强处理器几乎已经等于服务器、数据中心的代名词。但是,在英特尔不断延迟其 10 纳米芯片制造工艺之后,外界开始议论纷纷,最终也让其他厂商有机会在数据中心计算市场CPU领域向其发起挑战。

展望 2022 年,数据中心计算领域比十年前要丰富精彩得多。AMD重返市场,创造出具有竞争力的 CPU 和 GPU,并且如果一切顺利,它将在今年第一季度末收购 FPGA 制造商 Xilinx。(2020 年 10 月AMD宣布将以350 亿美元收购 Xilinx,但由于反垄断监管至今也未完成收购。)

今年,英特尔将推出“Ponte Vecchio”X e HPC GPU,这是其首款针对大型计算的数据中心 GPU,并将取代于2015 年首次亮相的多核“Knights”系列加速器。AMD 在 Instinct MI200 系列加速器中推出了“Aldebaran”GPU 引擎,而英伟达正在研发自己的“Grace”Arm 服务器 CPU,不过要到 2023 年才能看到其进入市场。

今年数据中心计算领域将会异常热闹,让我们从 CPU 开始:

英特尔(Xeon)Sapphire Rapids-SP :备受期待的 10 纳米至强服务器芯片,其核心是一个分区块、模块化的SoC架构,采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单晶片CPU接口优势的同时,具有显著的可扩展性。该处理器将通过多芯片设计,以结合主核心芯片 + HBM2E 缓存堆栈。具体说来Sapphire Rapids-SP 至强 CPU 将具有 4 个 8-Hi HBM2E 堆栈、14 条 EMIB 互连、且全 XCC 芯片的尺寸约为 400 m㎡ 。Sapphire Rapids将会支持DDR5内存、PCIe 5.0总线、CXL 1.1互连协议,內建AMX(高级矩阵扩展)指令集用于深度学习推理与训练。

AMD“Genoa”和“Bergamo”Epyc 7004:AMD 的下一代服务器处理器有两种版本:Genoa,具有多达 96 个 Zen 4 内核,包括同步多线程 (SMT),即 192 个线程;Bergamo ,拥有 128 个 Zen 4 内核。EPYC Genoa支持DDR5和PCI-E 5.0,以及允许设备之间保持一致内存连续性的CXL 1.1接口,面向HPC、数据中心、企业和云工作负载,它将拥有良好的单线程与多线程性能,目前Genoa已经在向客户提供样品,预计在2022年内推出。Bergamo采用Zen 4c内核,这个c表示这个核心是专门为原生云工作负载而设计的,这个Zen 4c核心可能比Genoa上的Zen 4核心要小,删除了某些不需要的功能以提高密度。Bergamo拥有更高的电源效率和每插槽性能,它将会和Genoa采用相同的CPU接口,所以PCI-E 5.0和DDR5以及CXL 1.1都是支持的,预计将会在2023年推出。

Ampere Computing “Siryn”:Ampere在 2021 年一直在增加其 80 核“Quicksilver”Altra 和 128 核“Mystique”Altra Max 处理器的销售,这两种处理器均基于 Arm Holdings Neoverse N1 内核,并且均采用台积电的 7 纳米工艺。Ampere Altra处理器提供8通道DDR4-3200内存,每个通道能插两个DIMM,单路总带宽可达200GB/秒,单路配置支持128条PCIe Gen4通道(双路配置支持192条通道);单路内存容量多达4TB。Ampere今年将推出其基于自研内核的Siryn CPU,其多年来一直在开发该内核,采用5nm工艺和最新的平台技术,增加内存带宽和I/O网络带宽。业界认为Siryn 芯片将配备 192 个 A1 内核,这些内核将被精简为超大规模和云构建者所需的基本要素。到 2023 年,其将拥有多达 256 个基于调整后的 A1 内核或全新的 A2 内核。

IBM Power10:16 核 Power10 于 2021 年 9 月在 Power E1080 服务器中首次亮相。 Power10 芯片每个内核具有八个线程(在IBM中称为SMT8模式),每个芯片中激活 15 个内核(Power10 裸片上有16个内核),支持双芯封装。但随着今年推出的低端 Power10 芯片,IBM 有能力将内核减半,以提供两倍的内核和一半的线程——低端Power9 芯片也具备这种能力。Power10内核有8个256位矢量数学引擎,支持FP64、FP32、FP16、Bfloat16运算;4个512位矩阵数学引擎,支持INT4、INT8、INT16运算;这些单元可以在 FP64、FP32 和 INT32 模式下累积操作。

IBM“Telum”z16:IBM System z 大型机的下一代处理器 z16,于 2021 年 8 月发布,它在架构上很有趣。 Telum 芯片的有趣之处在于它只有八个内核,但频率超过5 GHz。z16 内核只支持 SMT2,每个 chip 都集成了 AI 加速器 (在core外,单核就可调用整个加速器)。

如果传言中的微软和Marvell的合作能够生产出另一款自主研发的 Arm 服务器芯片,那就再好不过了。如果 AWS 在 2022 年末能够推出一款更强大的 Graviton4 芯片那就更好了。当然,我们也希望英伟达的Grace Arm CPU能在2022年问世,它将拥有快速的原生 NVLink 端口,能够连接到 Nvidia GPU,并且每个插槽的内存带宽超过 500 GB/秒。

现在,让我们谈谈 2022 年即将推出的 GPU 引擎。

英伟达“Hopper”或 A100 Next:英伟达 GA100 GPU 代号“A100 Next”,GH100代号“Hopper”将在今年 3 月的 GPU 技术大会上公布。目前关于 GH100 的信息还很少,预计它将采用台积电的 5 纳米工艺,并且实现首次将两个 GPU 小芯片放入一个封装中,就像 AMD 刚刚完成了 Instinct MI200 系列加速器中使用的“Aldebaran”GPU 。AMD 在 Aldebaran GPU 中提供了 47.9 teraflops 的双精度 FP64 性能,而英特尔预计将在今年推出的“Ponte Vecchio”GPU 中提供超过 45 teraflops 的 FP64 性能,就看英伟达是否会提升Hopper GPU 的 FP64 性能。

AMD “Aldebaran” Instinct MI200 缩减版:AMD 为 Instinct MI200 设备在 DCM 中使用了两个小芯片,将 GPU 容量翻了一番,所以我们可以来思考一下,为什么不去创建一个尺寸更小、热设计点更低、功耗更低的 GPU 并且只需将一个小芯片放入封装中,每单位性能的价格就会便宜得多。目前没有人在谈论这个,但这是一种可能性。它可以很好地取代现有的 Nvidia A100。

英特尔“Ponte Vecchio”Xe HPC:第一代 Xe HPC GPU 拥有 47 个不同小芯片,这些小芯片与英特尔的 2D EMIB 小芯片互连和 Foveros 3D 芯片堆叠互连。由于矢量引擎的时钟频率为 1.37 GHz,Ponte Vecchio GPU 复合体在 FP64 或 FP32 精度下提供 45 teraflops,其矩阵引擎在 TF32 上提供 360 teraflops,在 BF16 上提供 720 teraflops,在 INT8 上提供 1,440 teraflops。这比 AMD 通过 Aldebaran 提供的矩阵性能要高得多(BF16 时为 1.9X,FP32 和 INT8 时为 3.8X)。

原文:THE YEAR AHEAD IN DATACENTER COMPUTE


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/25560.html
分享到:
相关文章
条评论

登录后才可以评论

SDNLAB君 发表于22-01-13
0