揭秘谷歌、微软和Meta的下一代服务器新蓝图(附OCP资料下载)

在最近的OCP(开放计算项目)全球峰会上,谷歌、微软和Meta展示了其高性能计算机的新蓝图,而这新一代设计的出现很有可能改变传统的服务器架构。数据显示,云提供商将继续降低 CPU 的优先级,同时更多地关注网络、存储和加速器,如 GPU 和 AI 芯片。

Meta:Grand Teton

Meta 推出了一个名为 Grand Teton 的服务器,以及基于磁盘对口的配套“Grand Canyon”大容量存储阵列。该公司正在为数据中心部署该服务器,以运行人工智能应用程序。Meta工程副总裁 Alexis Bjorlin 表示,Meta 的目标是为其大型数据中心带来更多的 AI 能力,这支撑了其社交媒体平台上的许多功能,同时也为元宇宙的未来做好了准备。


Grand Teton

Grand Teton 是 2021 年推出的 Zion-EX 扩展系统的继任者。Grand Teton 的速度明显快于其前身,主机到 GPU 的带宽提高了四倍,计算能力和吞吐量提高了两倍。

不同于包含多个独立子系统的Zion和ZionEX,Grand Teton系统采取的是单主板设计,所有组件(包括CPU、GPU、PCI-Express交换机和网络接口卡)都可插入其中。这样能提升系统可靠性,减少线缆和连接数量,降低故障几率。事实上,Grand Teton的设计完全取消了除电源和网络之外的任何外部走线。

Bjorlin 表示,Meta 计划到 2025 年建立拥有超过 4000 个加速器的大型集群。这些核心将被组织为一个网格,加速器之间的带宽将达到每秒 1 TB。

Meta 的服务器设计基本方法包括去除不必要的组件,并在系统和芯片级别缩小硬件。系统和芯片尺寸的缩小将有助于创建 AI 训练集群,这些集群将消耗更多功率,但也提供更高的每瓦性能。Bjorlin 表示,深度学习模型的参数将增长到数万亿,并且可能需要 zettaflop 的计算来训练。“人工智能和机器学习模型正变得越来越强大和复杂,需要更多高性能基础设施来匹配。”

微软:Mt. Shasta

微软展示了一个名为 Mt. Shasta 的模块化系统,这是一个可以容纳人工智能和高性能计算加速器的机箱。其使命是“将开源和开放协作的优势应用到硬件。”

在高性能计算、人工智能和视频编解码器领域,需要一种将外形尺寸、电源和管理接口融入模块化设计的融合架构。Mt. Shasta 是一种模块化机箱,可将多个加速器装入支持 48V 供电的单个机箱中。Mt. Shasta 由 Quanta 和 Molex 合作设计,旨在与 Open Rack V3 完全兼容,采用模块化外形,支持大功率设备,以及可灵活更改模块间连接的热插拔模块。Mt Shasta 还支持主机连接到机箱的额外灵活性。


微软Mt. Shasta模块化架构

微软表示,Mt. Shasta 解决了在数据中心实现加速器时面临的常见问题。加速器可以在数据中心的电源、冷却和连接指南中轻松实施,并自动与基于软件的管理接口进行硬件控制。

Insight 64 首席分析师 Nathan Brookwood 表示,为加速器提供多样化的服务器硬件一直是优先考虑的问题。今年OCP峰会围绕 CXL(Compute Express Link)话题进行了讨论。

CXL 是一个关键的构建块,旨在改变服务器的设计、定制和配置方式。CXL 允许更轻松地选择和组装服务器的构建块。该技术提供了计算、内存和存储系统之间的通信连接,并包括跨服务器提供和管理计算的工具。

“尽管支持CXL的通用处理器尚未发布(包括 Intel 的Sapphire Rapids 和 AMD 的 Genoa),但CXL仍被迅速接受。”Brookwood 说。

谷歌:multi-brained

在OCP峰会上,谷歌提出了未来“多脑”(multi-brained)服务器的愿景,它将存储、加速器、内存和基础设施处理单元整合到单独的托盘中。模块化硬件架构基于互连,包括CXL和NVMe以及分布式系统管理工具,如OpenBMC和RedFish。

将传统的服务器设计转变为跨主机计算、加速器、内存扩展托盘、基础设施处理单元的更加模块化和分布式的系统。

Brookwood 表示小型服务器制造商将对 CXL 感到兴奋。“随着这些产品的推出,我认为小型服务器制造商,尤其是云计算领域的制造商,将会关注这些技术。”

关于OCP

开放计算项目基金会 (OCP) 成立于 2011 年,是Meta联合Intel、Rackspace、高盛和Arista Networks联合发起的开源硬件组织,其使命是将开源和开放协作的优势应用于硬件,围绕数据中心网络设备、通用和GPU服务器、存储设备和器械和可扩展机架设计迅速加大创新步伐。

今年的OCP峰会于10月18日至20日在加州圣何塞举行,参展商达60余家。本次会议探讨的主题不再只是关于计算、存储和网络,还包括加速器、CXL内存、机架和电源、数据中心设施、光学、安全等。

SDNLAB微信公众号后台回复“1109OCP”获取资料下载

*本文系SDNLAB编译自EnterpriseAI


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/26072.html
分享到:
相关文章
条评论

登录后才可以评论

SDNLAB君 发表于22-11-10
0