谷歌如何管理TPUv4机器学习集群?

谷歌在今年4月份的NSDI 2024上发表了《Resiliency at Scale:Managing Google’s TPUv4 Machine Learning Supercomputer》一文,详细介绍了谷歌的机器学习训练加速器TPUv4的设计和运营经验。(文末附论文下载)

DPU从炒作到应用:不同场景的性能要求

DPU自提出之时,从名称到定义便经历了一系列的炒作。从DPU是什么到DPU有哪些应用实践和产业价值,大众对DPU的认知开始不断加深,DPU应用也逐渐落地。本文介绍了DPU的通用架构及DPU的架构设计,并详细阐述了在不同……

现代数据中心SmartNIC/DPU 的演变

随着传统IDC向云数据中心转型,数据中心网络架构开始不断演进,三层架构正过渡到Spine - Leaf架构。为了更好地利用数据中心的 CPU 资源,公有云提供商采用了多租户模式。云平台需要为每个租户提供防火墙、IPsec-VP……

2023 DPU厂商大盘点(终极版)

去年SDNLAB推出的《史上最全DPU厂商大盘点》系列文章受到了很多的讨论与关注,春风吹过,又是一年。国内自研DPU芯片发展突飞猛进,DPU应用也开始逐渐落地。根据赛迪顾问发布的数据,预计到2025年全球DPU产业市场规……

AWS、BAT、天翼云……云厂商为何纷纷自研DPU?

从一个冷门的技术名词,到数据中心领域的“第三颗主力芯片”,DPU热浪席卷而来。AWS的Nitro、阿里云的CIPU,到腾讯云的水杉银杉、百度云的太行DPU......云厂商更是对DPU青睐有加。喧嚣过后,一场始于云计算的软硬件……

DPU:我真的会“卸”

DPU 是一种新型可编程的高性能处理器,IDC将其归类为一种新兴类别功能卸载协处理器(FOCs)。在基于协处理器的系统中,一个或多个协处理器被集成到体系结构中,以取代CPU来接管一些特权操作。

云原生5G核心网需要DPU吗?

2022 年,全球 5G 连接数突破 10 亿大关,每个 5G 用户消耗的数据量是非 5G 用户的两倍,移动网络流量正在快速增长。分析机构Omdia 预测:到 2023 年,5G用户平均每月将消耗14GB,到2027年将翻一番,达到28GB。

有了CPU、GPU,为啥还需要DPU?

很长一段时间以来,中央处理器(CPU)和图形处理单元(GPU)一直“统治”着数据中心。然而,近几年,数据处理单元(DPU)越来越多地出现在大家面前,并号称性能更强大、更专用、更异构,能够处理CPU做不好,GPU做不……