数据中心芯片市场，龙争虎斗的2022

过去十多年来，英特尔在服务器市场方面一直处于领先地位，其每年推出的至强处理器几乎已经等于服务器、数据中心的代名词。但是，在英特尔不断延迟其 10 纳米芯片制造工艺之后，外界开始议论纷纷，最终也让其他厂商有机会在数据中心计算市场CPU领域向其发起挑战。

展望 2022 年，数据中心计算领域比十年前要丰富精彩得多。AMD重返市场，创造出具有竞争力的 CPU 和 GPU，并且如果一切顺利，它将在今年第一季度末收购 FPGA 制造商 Xilinx。（2020 年 10 月AMD宣布将以350 亿美元收购 Xilinx，但由于反垄断监管至今也未完成收购。）

今年，英特尔将推出“Ponte Vecchio”X e HPC GPU，这是其首款针对大型计算的数据中心 GPU，并将取代于2015 年首次亮相的多核“Knights”系列加速器。AMD 在 Instinct MI200 系列加速器中推出了“Aldebaran”GPU 引擎，而英伟达正在研发自己的“Grace”Arm 服务器 CPU，不过要到 2023 年才能看到其进入市场。

今年数据中心计算领域将会异常热闹，让我们从 CPU 开始：

英特尔（Xeon）Sapphire Rapids-SP ：备受期待的 10 纳米至强服务器芯片，其核心是一个分区块、模块化的SoC架构，采用英特尔的嵌入式多芯片互连桥接（EMIB）封装技术，在保持单晶片CPU接口优势的同时，具有显著的可扩展性。该处理器将通过多芯片设计，以结合主核心芯片 + HBM2E 缓存堆栈。具体说来Sapphire Rapids-SP 至强 CPU 将具有 4 个 8-Hi HBM2E 堆栈、14 条 EMIB 互连、且全 XCC 芯片的尺寸约为 400 m㎡。Sapphire Rapids将会支持DDR5内存、PCIe 5.0总线、CXL 1.1互连协议，內建AMX(高级矩阵扩展)指令集用于深度学习推理与训练。

AMD“Genoa”和“Bergamo”Epyc 7004：AMD 的下一代服务器处理器有两种版本：Genoa，具有多达 96 个 Zen 4 内核，包括同步多线程 (SMT)，即 192 个线程；Bergamo ，拥有 128 个 Zen 4 内核。EPYC Genoa支持DDR5和PCI-E 5.0，以及允许设备之间保持一致内存连续性的CXL 1.1接口，面向HPC、数据中心、企业和云工作负载，它将拥有良好的单线程与多线程性能，目前Genoa已经在向客户提供样品，预计在2022年内推出。Bergamo采用Zen 4c内核，这个c表示这个核心是专门为原生云工作负载而设计的，这个Zen 4c核心可能比Genoa上的Zen 4核心要小，删除了某些不需要的功能以提高密度。Bergamo拥有更高的电源效率和每插槽性能，它将会和Genoa采用相同的CPU接口，所以PCI-E 5.0和DDR5以及CXL 1.1都是支持的，预计将会在2023年推出。

Ampere Computing “Siryn”：Ampere在 2021 年一直在增加其 80 核“Quicksilver”Altra 和 128 核“Mystique”Altra Max 处理器的销售，这两种处理器均基于 Arm Holdings Neoverse N1 内核，并且均采用台积电的 7 纳米工艺。Ampere Altra处理器提供8通道DDR4-3200内存，每个通道能插两个DIMM，单路总带宽可达200GB/秒，单路配置支持128条PCIe Gen4通道（双路配置支持192条通道）；单路内存容量多达4TB。Ampere今年将推出其基于自研内核的Siryn CPU，其多年来一直在开发该内核，采用5nm工艺和最新的平台技术，增加内存带宽和I/O网络带宽。业界认为Siryn 芯片将配备 192 个 A1 内核，这些内核将被精简为超大规模和云构建者所需的基本要素。到 2023 年，其将拥有多达 256 个基于调整后的 A1 内核或全新的 A2 内核。

IBM Power10：16 核 Power10 于 2021 年 9 月在 Power E1080 服务器中首次亮相。 Power10 芯片每个内核具有八个线程（在IBM中称为SMT8模式），每个芯片中激活 15 个内核（Power10 裸片上有16个内核），支持双芯封装。但随着今年推出的低端 Power10 芯片，IBM 有能力将内核减半，以提供两倍的内核和一半的线程——低端Power9 芯片也具备这种能力。Power10内核有8个256位矢量数学引擎，支持FP64、FP32、FP16、Bfloat16运算；4个512位矩阵数学引擎，支持INT4、INT8、INT16运算；这些单元可以在 FP64、FP32 和 INT32 模式下累积操作。

IBM“Telum”z16：IBM System z 大型机的下一代处理器 z16，于 2021 年 8 月发布，它在架构上很有趣。 Telum 芯片的有趣之处在于它只有八个内核，但频率超过5 GHz。z16 内核只支持 SMT2，每个 chip 都集成了 AI 加速器 (在core外，单核就可调用整个加速器)。

如果传言中的微软和Marvell的合作能够生产出另一款自主研发的 Arm 服务器芯片，那就再好不过了。如果 AWS 在 2022 年末能够推出一款更强大的 Graviton4 芯片那就更好了。当然，我们也希望英伟达的Grace Arm CPU能在2022年问世，它将拥有快速的原生 NVLink 端口，能够连接到 Nvidia GPU，并且每个插槽的内存带宽超过 500 GB/秒。

现在，让我们谈谈 2022 年即将推出的 GPU 引擎。

英伟达“Hopper”或 A100 Next：英伟达 GA100 GPU 代号“A100 Next”，GH100代号“Hopper”将在今年 3 月的 GPU 技术大会上公布。目前关于 GH100 的信息还很少，预计它将采用台积电的 5 纳米工艺，并且实现首次将两个 GPU 小芯片放入一个封装中，就像 AMD 刚刚完成了 Instinct MI200 系列加速器中使用的“Aldebaran”GPU 。AMD 在 Aldebaran GPU 中提供了 47.9 teraflops 的双精度 FP64 性能，而英特尔预计将在今年推出的“Ponte Vecchio”GPU 中提供超过 45 teraflops 的 FP64 性能，就看英伟达是否会提升Hopper GPU 的 FP64 性能。

AMD “Aldebaran” Instinct MI200 缩减版：AMD 为 Instinct MI200 设备在 DCM 中使用了两个小芯片，将 GPU 容量翻了一番，所以我们可以来思考一下，为什么不去创建一个尺寸更小、热设计点更低、功耗更低的 GPU 并且只需将一个小芯片放入封装中，每单位性能的价格就会便宜得多。目前没有人在谈论这个，但这是一种可能性。它可以很好地取代现有的 Nvidia A100。

英特尔“Ponte Vecchio”Xe HPC：第一代 Xe HPC GPU 拥有 47 个不同小芯片，这些小芯片与英特尔的 2D EMIB 小芯片互连和 Foveros 3D 芯片堆叠互连。由于矢量引擎的时钟频率为 1.37 GHz，Ponte Vecchio GPU 复合体在 FP64 或 FP32 精度下提供 45 teraflops，其矩阵引擎在 TF32 上提供 360 teraflops，在 BF16 上提供 720 teraflops，在 INT8 上提供 1,440 teraflops。这比 AMD 通过 Aldebaran 提供的矩阵性能要高得多（BF16 时为 1.9X，FP32 和 INT8 时为 3.8X）。

原文：THE YEAR AHEAD IN DATACENTER COMPUTE

SDNLAB