在最近的OCP(开放计算项目)全球峰会上,谷歌、微软和Meta展示了其高性能计算机的新蓝图,而这新一代设计的出现很有可能改变传统的服务器架构。数据显示,云提供商将继续降低 CPU 的优先级,同时更多地关注网络、存储和加速器,如 GPU 和 AI 芯片。
Meta:Grand Teton
Meta 推出了一个名为 Grand Teton 的服务器,以及基于磁盘对口的配套“Grand Canyon”大容量存储阵列。该公司正在为数据中心部署该服务器,以运行人工智能应用程序。Meta工程副总裁 Alexis Bjorlin 表示,Meta 的目标是为其大型数据中心带来更多的 AI 能力,这支撑了其社交媒体平台上的许多功能,同时也为元宇宙的未来做好了准备。
Grand Teton 是 2021 年推出的 Zion-EX 扩展系统的继任者。Grand Teton 的速度明显快于其前身,主机到 GPU 的带宽提高了四倍,计算能力和吞吐量提高了两倍。
不同于包含多个独立子系统的Zion和ZionEX,Grand Teton系统采取的是单主板设计,所有组件(包括CPU、GPU、PCI-Express交换机和网络接口卡)都可插入其中。这样能提升系统可靠性,减少线缆和连接数量,降低故障几率。事实上,Grand Teton的设计完全取消了除电源和网络之外的任何外部走线。
Bjorlin 表示,Meta 计划到 2025 年建立拥有超过 4000 个加速器的大型集群。这些核心将被组织为一个网格,加速器之间的带宽将达到每秒 1 TB。
Meta 的服务器设计基本方法包括去除不必要的组件,并在系统和芯片级别缩小硬件。系统和芯片尺寸的缩小将有助于创建 AI 训练集群,这些集群将消耗更多功率,但也提供更高的每瓦性能。Bjorlin 表示,深度学习模型的参数将增长到数万亿,并且可能需要 zettaflop 的计算来训练。“人工智能和机器学习模型正变得越来越强大和复杂,需要更多高性能基础设施来匹配。”
微软:Mt. Shasta
微软展示了一个名为 Mt. Shasta 的模块化系统,这是一个可以容纳人工智能和高性能计算加速器的机箱。其使命是“将开源和开放协作的优势应用到硬件。”
在高性能计算、人工智能和视频编解码器领域,需要一种将外形尺寸、电源和管理接口融入模块化设计的融合架构。Mt. Shasta 是一种模块化机箱,可将多个加速器装入支持 48V 供电的单个机箱中。Mt. Shasta 由 Quanta 和 Molex 合作设计,旨在与 Open Rack V3 完全兼容,采用模块化外形,支持大功率设备,以及可灵活更改模块间连接的热插拔模块。Mt Shasta 还支持主机连接到机箱的额外灵活性。
微软表示,Mt. Shasta 解决了在数据中心实现加速器时面临的常见问题。加速器可以在数据中心的电源、冷却和连接指南中轻松实施,并自动与基于软件的管理接口进行硬件控制。
Insight 64 首席分析师 Nathan Brookwood 表示,为加速器提供多样化的服务器硬件一直是优先考虑的问题。今年OCP峰会围绕 CXL(Compute Express Link)话题进行了讨论。
CXL 是一个关键的构建块,旨在改变服务器的设计、定制和配置方式。CXL 允许更轻松地选择和组装服务器的构建块。该技术提供了计算、内存和存储系统之间的通信连接,并包括跨服务器提供和管理计算的工具。
“尽管支持CXL的通用处理器尚未发布(包括 Intel 的Sapphire Rapids 和 AMD 的 Genoa),但CXL仍被迅速接受。”Brookwood 说。
谷歌:multi-brained
在OCP峰会上,谷歌提出了未来“多脑”(multi-brained)服务器的愿景,它将存储、加速器、内存和基础设施处理单元整合到单独的托盘中。模块化硬件架构基于互连,包括CXL和NVMe以及分布式系统管理工具,如OpenBMC和RedFish。
将传统的服务器设计转变为跨主机计算、加速器、内存扩展托盘、基础设施处理单元的更加模块化和分布式的系统。
Brookwood 表示小型服务器制造商将对 CXL 感到兴奋。“随着这些产品的推出,我认为小型服务器制造商,尤其是云计算领域的制造商,将会关注这些技术。”
关于OCP
开放计算项目基金会 (OCP) 成立于 2011 年,是Meta联合Intel、Rackspace、高盛和Arista Networks联合发起的开源硬件组织,其使命是将开源和开放协作的优势应用于硬件,围绕数据中心网络设备、通用和GPU服务器、存储设备和器械和可扩展机架设计迅速加大创新步伐。
今年的OCP峰会于10月18日至20日在加州圣何塞举行,参展商达60余家。本次会议探讨的主题不再只是关于计算、存储和网络,还包括加速器、CXL内存、机架和电源、数据中心设施、光学、安全等。
SDNLAB微信公众号后台回复“1109OCP”获取资料下载
*本文系SDNLAB编译自EnterpriseAI