谷歌重磅推出新一代TPU v5e芯片并发布 A3虚拟机

当地时间8月29日,谷歌于Google Cloud Next ’23大会上宣布推出新一代Cloud TPU v5e,由 Nvidia H100 GPU 驱动的 A3 超级计算机将于下个月全面上市。

谷歌表示,当前正处于计算领域千载难逢的拐点,传统的设计和构建计算基础设施的方式已经无法满足生成式人工智能和LLM等工作负载的指数级增长需求。过去五年里,LLM的参数数量以每年10倍的速度增长。因此,客户需要既具有成本效益又具有可扩展性的人工智能优化基础设施。

TPU v5e:性能翻倍,成本减半

Cloud TPU v5e 专为提供中大规模训练和推理所需的成本效益和性能而构建。与 Cloud TPU v4 相比,TPU v5e 可为LLM和新一代 AI 模型提供高达 2 倍的训练性能和高达 2.5 倍的推理性能,并且TPU v5e 的成本还不到 TPU v4 的一半。

谷歌通过 TPU v5e Pod 平衡性能、灵活性和效率,允许最多 256 个芯片互连,总带宽超过 400 Tb/s 和 100 petaOps INT8 性能。TPU v5e提供八种不同的虚拟机 (VM) 配置,范围从一个芯片到单个切片内超过 250 个芯片,客户能够选择合适的配置来服务于各种 LLM 和 gen AI 模型大小。

TPU v5e系统架构

每个 v5e 芯片包含一个 TensorCore。每个 TensorCore 有 4 个矩阵乘法单元 (MXU)、一个向量单元和一个标量单元。下表显示了 v5e 的关键规格及其值。

下图展示了 TPU v5e 芯片。

TPU 虚拟机类型

TPU 切片中的每个 TPU VM 包含 1、4 或 8 个芯片。4 芯片和更小的芯片将具有相同的非均匀内存访问 (NUMA) 节点。对于 8 芯片 TPU VM,CPU-TPU 通信在 NUMA 分区内将更加高效。

TPU v5e:易于使用、多功能且可扩展

TPU v5e 提供与 Google Kubernetes Engine (GKE)、Vertex AI 以及 Pytorch、JAX 和 TensorFlow 等框架的集成。

预览版中还引入了 Multislice 技术,允许用户轻松扩展 AI 模型,可以超出物理 TPU pod 的范围,最多可容纳数万个 Cloud TPU v5e 或 TPU v4 芯片。到目前为止,使用 TPU 的训练作业仅限于单个 TPU 芯片切片,TPU v4 的最大切片大小为 3,072 个芯片。借助 Multislice,开发人员可以在单个 Pod 内通过芯片间互连 (ICI) 或通过数据中心网络 (DCN) 跨多个 Pod 将工作负载扩展到数万个芯片。

A3 虚拟机:3 倍训练速度,10 倍网络带宽

今年5 月,谷歌宣布推出 H100 支持的 A3 GPU 虚拟机的私人预览版,该虚拟机将 Nvidia 的芯片与谷歌定制设计的 200 Gpbs 基础设施处理单元 (IPU) 相结合。此次,谷歌宣布将于下个月全面推出 A3。

NVIDIA 的 H100 GPU配备了Transformer 引擎,可处理万亿参数模型,A3 虚拟机由 NVIDIA 的 H100 Tensor Core GPU 提供支持,专为训练和服务要求特别高的一代 AI 工作负载和LLM而设计。将 NVIDIA GPU 与谷歌云领先的基础设施技术相结合,可提供巨大的规模和性能,是超级计算能力的巨大飞跃。

此次A3虚拟机的训练速度是上一代 A2 的3倍,网络带宽是A2的 10 倍。A3 还能够大规模运行,用户能够将模型扩展到数万个 NVIDIA H100 GPU。

A3 虚拟机采用双第四代英特尔至强可扩展处理器、每个虚拟机配备8个 NVIDIA H100 GPU 以及 2TB 主机内存。A3 虚拟机基于最新的 NVIDIA HGX H100 平台,通过第四代NVIDIA NVLink技术在8个 GPU 之间提供 3.6 TB/s 的对分带宽。A3 网络带宽的改进由Titanium 网络适配器和NVIDIA Collective Communications Library (NCCL) 优化提供支持。

参考:
https://cloud.google.com/blog/products/compute/announcing-cloud-tpu-v5e-and-a3-gpus-in-ga
https://cloud.google.com/tpu/docs/v5e-training


  • 本站原创文章仅代表作者观点,不代表SDNLAB立场。所有原创内容版权均属SDNLAB,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用,转载须注明来自 SDNLAB并附上本文链接。 本站中所有编译类文章仅用于学习和交流目的,编译工作遵照 CC 协议,如果有侵犯到您权益的地方,请及时联系我们。
  • 本文链接https://www.sdnlab.com/26287.html
分享到:
相关文章
条评论

登录后才可以评论

SDNLAB君 发表于23-08-30
0