英伟达发布“最强AI芯片”Blackwell B200 GPU!

在 GTC 2024 大会上,英伟达公布了其下一代 Blackwell GPU 架构,声称它将为大规模 AI 模型提供高达 30 倍的推理性能,并将能耗降低 25 倍。

Blackwell 是自ChatGPT等生成式 AI 应用于 2022 年上线以来,英伟达首次针对数据中心 GPU 进行的架构更新。此举再次引发了新一波围绕 AI 开发的炒作和投资热潮。到目前为止,AI 的爆发式增长已经为英伟达带来了丰厚的回报。对H100 等 GPU 及相关系统的持续高需求促使英伟达 2024财年收入翻倍达到 609 亿美元,超越了英特尔。2月23日,英伟达市值突破2万亿美元,成为历史上最快实现从1万亿美元到2万亿美元市值的企业,用时仅9个月。

Blackwell B100、B200 和 GB200

首批证实使用了 Blackwell 架构设计的GPU型号包括B100 和 B200 ,它们分别是基于 Hopper 的H100和H200的后继产品,适用于基于 x86 的系统。预计 B200 将包含比 B100 更大的高带宽内存容量。

B200采用了台积电改进的4NP定制工艺制造,整合了两个独立制造的Die,共有2080亿个晶体管,将使用新的NVLink 5.0技术来连接两块芯片。其拥有160组SM,对应20480个核心,搭配192GB HBM3e内存,提供了高达8TB/s的带宽,功耗达到了700W。

B200单个GPU提供了20 petaflops的AI性能,大概五倍于H100的4 petaflops。由于引入了第二代Transformer引擎,将有助于自动将模型转换为适当的格式以达到最佳性能。此外,Blackwell架构GPU还支持新的FP6格式,这是一种介于FP4和FP8两者之间的解决方案。

B200 将使用两个全尺寸的芯片,尽管英伟达尚未提供确切的芯片尺寸。每个芯片都有四个 HMB3e 堆栈,每个堆栈容量为 24GB,每个堆栈在 1024 位接口上具有 1 TB/s 的带宽。注意,H100 有 6 个 HBM3 堆栈,每个堆栈 16GB(H200 将其增加到 6 个,增加了 24GB),这意味着 H100 芯片的很大一部分专用于六个内存控制器。通过将每个芯片减少到四个 HBM 接口并将两个芯片连接在一起,英伟达可以相应减少专用于内存接口的芯片面积。

英伟达将Blackwell架构GPU与Grace CPU结合推出了GB200 Grace Blackwell Superchip。

其配备了两个B200 GPU和一个Grace CPU,后者配有72核心的Arm Neoverse V2内核,可配置TDP高达2700W。新平台提供了40 PetaFlops的计算性能(INT8),并拥有864GB的庞大内存池,HBM3E具有16TB/s的内存带宽,芯片之间通过3.6TB/s带宽的NVLink进行互连。

英伟达宣传的 Blackwell 的另一项重大技术升级是第五代 NVLink 芯片间互连,它允许 GPU 相互通信。新一代使每个 GPU 的双向吞吐量达到 1.8 TB/s,是 Hopper 采用的第四代 NVLink 900 TB/s 的两倍。

它还大幅增加了能够以这些速度相互通信的 GPU 数量,从而在最多 576 个 GPU 之间实现“无缝高速通信”。这比 Hopper NVLink 最大支持 256 个 GPU 迈出了一大步。英伟达表示,这解决了运行大规模 AI 模型的大型 GPU 集群日益增长的瓶颈。

Blackwell 的其他升级包括 RAS 引擎、机密计算

Blackwell 的其他主要技术升级包括:

1)专用 RAS 引擎,具有可靠性、可用性和可维护性。传统上,这些功能都存在于服务器 CPU 中,例如英特尔的 Xeon 芯片。英伟达的 RAS 还包括芯片级基于人工智能的预防性维护功能,以减少大规模部署的停机时间。
2)先进的机密计算功能,“在不影响性能的情况下保护人工智能模型和客户数据”。这些功能包括对“新的本机接口加密协议”的支持。
3)专用解压缩引擎,可加速数据分析和数据科学应用程序的数据库查询,英伟达称其为 GPU 不断增长的目标。

Blackwell 将为新的 DGX 系统、GB200 NVL72 机架系统提供动力

英伟达宣布推出两种采用 Blackwell GPU 的新 DGX 系统:

1)DGX B200 采用风冷设计,将 B200 GPU 与 x86 CPU 配对。该系统可在 DGX SuperPod 集群中使用。
2)DGX GB200,采用 GB200 Grace Hopper GPU 的液冷设计。其中八个系统组成了一个 DGX SuperPod 集群,总共拥有 288 个 Grace CPU、576 个 B200 GPU 和 240TB 快速内存。这使得 DGX SuperPod 能够提供 11.5 exaflops,即每秒 1000 亿次 FP4 计算。

基于 GB200 的 SuperPod 采用了英伟达去年与 AWS 一起推出的新版本机架规模架构,为大型生成型 AI 应用提供支持。英伟达称其为 GB200 NVL72,是一个“多节点、液冷、机架规模系统,适用于计算最密集的工作负载”,它包含 36 个 GB200 Grace Blackwell 超级芯片以及该公司的 BlueField-3 数据处理单元 (DPU)。

英伟达推出 Quantum-X800 InfiniBand、Spectrum-X800 以太网平台

为了实现这些系统之间的高带宽连接,英伟达宣布推出两个新的高速网络平台:Quantum-X800 InfiniBand 平台和 Spectrum-X800 平台,速度高达 800 GB/s。

英伟达表示,Quantum-X800 包括 Quantum 3400 交换机和 ConnectX-8 SuperNIC,可提供5倍的带宽容量,并将网络内计算能力提高9倍,达到 14.4 teraflops。

另一方面,英伟达表示,Spectrum-X800“优化了网络性能,促进人工智能工作负载更快的处理、分析和执行”。该公司表示,这将加快“人工智能解决方案的开发、部署和上市时间”。

英伟达表示,预计提供基于 Blackwell 实例的云服务提供商包括 AWS、微软Azure、谷歌云和 Oracle Cloud Infrastructure,以及Lambda、CoreWeave 和 IBM Cloud等。在服务器方面,思科、戴尔、惠普、联想和超微预计将提供大量基于 Blackwell 的系统。其他支持 GPU 的 OEM 厂商包括 ASRock Rack、华硕、Eviden 和 Gigabyte。


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/26466.html
分享到:
相关文章
条评论

登录后才可以评论

SDNLAB君 发表于24-03-19
0