英伟达发布“最强AI芯片”Blackwell B200 GPU

在 GTC 2024 大会上，英伟达公布了其下一代 Blackwell GPU 架构，声称它将为大规模 AI 模型提供高达 30 倍的推理性能，并将能耗降低 25 倍。

Blackwell 是自ChatGPT等生成式 AI 应用于 2022 年上线以来，英伟达首次针对数据中心 GPU 进行的架构更新。此举再次引发了新一波围绕 AI 开发的炒作和投资热潮。到目前为止，AI 的爆发式增长已经为英伟达带来了丰厚的回报。对H100 等 GPU 及相关系统的持续高需求促使英伟达 2024财年收入翻倍达到 609 亿美元，超越了英特尔。2月23日，英伟达市值突破2万亿美元，成为历史上最快实现从1万亿美元到2万亿美元市值的企业，用时仅9个月。

Blackwell B100、B200 和 GB200

首批证实使用了 Blackwell 架构设计的GPU型号包括B100 和 B200 ，它们分别是基于 Hopper 的H100和H200的后继产品，适用于基于 x86 的系统。预计 B200 将包含比 B100 更大的高带宽内存容量。

B200采用了台积电改进的4NP定制工艺制造，整合了两个独立制造的Die，共有2080亿个晶体管，将使用新的NVLink 5.0技术来连接两块芯片。其拥有160组SM，对应20480个核心，搭配192GB HBM3e内存，提供了高达8TB/s的带宽，功耗达到了700W。

B200单个GPU提供了20 petaflops的AI性能，大概五倍于H100的4 petaflops。由于引入了第二代Transformer引擎，将有助于自动将模型转换为适当的格式以达到最佳性能。此外，Blackwell架构GPU还支持新的FP6格式，这是一种介于FP4和FP8两者之间的解决方案。

B200 将使用两个全尺寸的芯片，尽管英伟达尚未提供确切的芯片尺寸。每个芯片都有四个 HMB3e 堆栈，每个堆栈容量为 24GB，每个堆栈在 1024 位接口上具有 1 TB/s 的带宽。注意，H100 有 6 个 HBM3 堆栈，每个堆栈 16GB（H200 将其增加到 6 个，增加了 24GB），这意味着 H100 芯片的很大一部分专用于六个内存控制器。通过将每个芯片减少到四个 HBM 接口并将两个芯片连接在一起，英伟达可以相应减少专用于内存接口的芯片面积。

英伟达将Blackwell架构GPU与Grace CPU结合推出了GB200 Grace Blackwell Superchip。

其配备了两个B200 GPU和一个Grace CPU，后者配有72核心的Arm Neoverse V2内核，可配置TDP高达2700W。新平台提供了40 PetaFlops的计算性能（INT8），并拥有864GB的庞大内存池，HBM3E具有16TB/s的内存带宽，芯片之间通过3.6TB/s带宽的NVLink进行互连。

第五代NVLink 支持 576 个 GPU 之间的高速通信

英伟达宣传的 Blackwell 的另一项重大技术升级是第五代 NVLink 芯片间互连，它允许 GPU 相互通信。新一代使每个 GPU 的双向吞吐量达到 1.8 TB/s，是 Hopper 采用的第四代 NVLink 900 TB/s 的两倍。

它还大幅增加了能够以这些速度相互通信的 GPU 数量，从而在最多 576 个 GPU 之间实现“无缝高速通信”。这比 Hopper NVLink 最大支持 256 个 GPU 迈出了一大步。英伟达表示，这解决了运行大规模 AI 模型的大型 GPU 集群日益增长的瓶颈。

Blackwell 的其他升级包括 RAS 引擎、机密计算

Blackwell 的其他主要技术升级包括：

1）专用 RAS 引擎，具有可靠性、可用性和可维护性。传统上，这些功能都存在于服务器 CPU 中，例如英特尔的 Xeon 芯片。英伟达的 RAS 还包括芯片级基于人工智能的预防性维护功能，以减少大规模部署的停机时间。
2）先进的机密计算功能，“在不影响性能的情况下保护人工智能模型和客户数据”。这些功能包括对“新的本机接口加密协议”的支持。
3）专用解压缩引擎，可加速数据分析和数据科学应用程序的数据库查询，英伟达称其为 GPU 不断增长的目标。

Blackwell 将为新的 DGX 系统、GB200 NVL72 机架系统提供动力

英伟达宣布推出两种采用 Blackwell GPU 的新 DGX 系统：

1）DGX B200 采用风冷设计，将 B200 GPU 与 x86 CPU 配对。该系统可在 DGX SuperPod 集群中使用。
2）DGX GB200，采用 GB200 Grace Hopper GPU 的液冷设计。其中八个系统组成了一个 DGX SuperPod 集群，总共拥有 288 个 Grace CPU、576 个 B200 GPU 和 240TB 快速内存。这使得 DGX SuperPod 能够提供 11.5 exaflops，即每秒 1000 亿次 FP4 计算。

基于 GB200 的 SuperPod 采用了英伟达去年与 AWS 一起推出的新版本机架规模架构，为大型生成型 AI 应用提供支持。英伟达称其为 GB200 NVL72，是一个“多节点、液冷、机架规模系统，适用于计算最密集的工作负载”，它包含 36 个 GB200 Grace Blackwell 超级芯片以及该公司的 BlueField-3 数据处理单元 (DPU)。

英伟达推出 Quantum-X800 InfiniBand、Spectrum-X800 以太网平台

为了实现这些系统之间的高带宽连接，英伟达宣布推出两个新的高速网络平台：Quantum-X800 InfiniBand 平台和 Spectrum-X800 平台，速度高达 800 GB/s。

英伟达表示，Quantum-X800 包括 Quantum 3400 交换机和 ConnectX-8 SuperNIC，可提供5倍的带宽容量，并将网络内计算能力提高9倍，达到 14.4 teraflops。

另一方面，英伟达表示，Spectrum-X800“优化了网络性能，促进人工智能工作负载更快的处理、分析和执行”。该公司表示，这将加快“人工智能解决方案的开发、部署和上市时间”。

英伟达表示，预计提供基于 Blackwell 实例的云服务提供商包括 AWS、微软Azure、谷歌云和 Oracle Cloud Infrastructure，以及Lambda、CoreWeave 和 IBM Cloud等。在服务器方面，思科、戴尔、惠普、联想和超微预计将提供大量基于 Blackwell 的系统。其他支持 GPU 的 OEM 厂商包括 ASRock Rack、华硕、Eviden 和 Gigabyte。

Blackwell B100、B200 和 GB200

第五代NVLink 支持 576 个 GPU 之间的高速通信

Blackwell 的其他升级包括 RAS 引擎、机密计算

Blackwell 将为新的 DGX 系统、GB200 NVL72 机架系统提供动力

英伟达推出 Quantum-X800 InfiniBand、Spectrum-X800 以太网平台

SDNLAB