Google TPU十年磨一剑:五代训练超算的进化密码

软件科技1小时前发布 botnews
46 0 0
Google TPU十年磨一剑:五代训练超算的进化密码

Google TPU十年磨一剑:五代训练超算的进化密码

从256到9216:一场关于规模的技术长征

说实话,每次看到芯片数量的增长数据,我都会忍不住重新确认一遍——不是因为数据有误,而是因为这个增幅实在太夸张了。TPU v2时代,一个pod仅有256颗芯片,而到了Ironwood,这个数字已经膨胀到9216颗。这意味着什么呢?如果我们把每一代TPU视为一个独立的里程碑,那么从v2到Ironwood,Google在单个训练集群中塞入的芯片数量增加了整整36倍。

这个数字背后是什么概念呢?我个人判断,这不仅仅是硬件堆叠那么简单。当芯片数量从256扩展到9216,意味着互连带宽、散热设计、调度系统、容错机制,每一环都必须重新思考。Jeff Dean团队在这篇即将发表于IEEE Micro的论文中,实际上是在用十年实践回答一个问题:大规模AI训练超算Scaling Law究竟该怎么落地?

这里有个细节值得注意——论文覆盖的是TPU v2到Ironwood,恰好跳过了v1。理由很简单:v1主要是推理用途,而v2才是Google真正开始构建大规模训练基础设施的起点。从2017年TPU v2首次亮相至今,Google的AI训练超算走过了将近十年的演进之路,每一代都在前代基础上做出关键取舍。

散热革命:气冷退场,水冷称王

在数据中心领域,散热从来不是“nice to have”的附加题,而是决定系统能跑多快的核心约束。Google的TPU演进史某种程度上也是一部散热方案的升级史。

TPU v2采用风冷设计,这在当时是完全合理的选择——部署相对简单,维护成本可控。但问题很快浮现:当芯片算力持续攀升,风扇能提供的散热能力开始触及天花板。Google的工程师们做了一个关键决策:TPU v3开始全面转向水冷。

我个人判断,这个转变的深层原因不仅是散热效率本身。水冷的优势在于能够支持更高的功率密度——每颗芯片的热设计功耗(TDP)可以更高,而不必担心机柜过热保护。这意味着芯片可以更长时间地运行在高频状态,而不是因为温度墙而被迫降频。对大规模训练任务来说,这直接转化为更高的有效算力输出。

从行业视角看,Google的选择也预示了AI基础设施的发展方向。后来NVIDIA的DGX系统、AMD的Instinct系列,都在不同程度上强化了液冷方案的优先级。Google通过自研TPU的实践,证明了水冷在高密度AI训练场景中的必要性。

互联拓扑的跃迁:从二维平面到三维立体

如果说散热是“冷”问题,那么互联就是“沟通”问题。

在TPU v2时代,芯片之间的互连采用2D mesh拓扑。这套方案在芯片数量较少时表现稳定,但随着规模扩大,2D mesh的跳步数(hop count)急剧增加——假设芯片A需要和芯片Z通信,它们之间可能需要经过多个中间节点,每次跳转都带来延迟和带宽损耗。

Google的解决方案是引入3D torus拓扑。相比2D mesh,3D torus将芯片组织成立方体结构,每个节点不仅与平面相邻,还与上下层节点直接相连。这使得任意两颗芯片之间的最大跳步数大幅减少,同时每条链路的等效带宽利用率更高。

我查到的一个细节是:3D torus并非Google独创,IBM的Blue Gene系列很早就采用了类似设计。但Google的创新在于将这套拓扑与自研TPU芯片深度整合,配合定制化编译器,实现了跨pod训练任务的高效调度。这套方案的工程复杂度相当高——三维结构下的路由算法、拥塞控制、故障隔离,每一项都需要针对性优化。

能效跃升30倍:Scaling Law的隐藏推手

在所有数据中,“每flop能效提升约30倍”这个数字最让我感到震撼。

这意味着什么呢?如果用TPU v2完成一次BERT预训练需要消耗X焦耳的能量,那么用Ironwood完成同等计算量的能耗大约只有X/30。这个幅度的效率提升,不仅意味着电费账单的数字在下降,更重要的是——在相同的功率预算下,研究人员能够训练更大规模的模型,或者做更多次实验迭代。

坦白讲,我一直认为能效是决定AI基础设施天花板的关键变量。芯片的峰值算力可以无限堆叠,但如果能效跟不上,功耗和散热成本就会成为不可承受之重。Google的30倍能效提升,本质上是在用工程能力突破物理限制,让Scaling Law得以在更高维度上继续生效。

这里有一个趋势值得关注:Google内部工作负载已大幅转向基于Transformer的模型。这意味着今天的TPU架构设计不再是为CNN或传统机器学习优化,而是围绕Transformer的计算特征量身定制——注意力机制的矩阵运算、KV cache的存储访问、混合精度训练的数值格式,都在芯片设计层面得到专门优化。

展望:超算演进的下一步

读完这篇论文的主要信息后,我个人的判断是:Google已经不再单纯追求单芯片算力,而是把重心转向系统级效率。散热方案、互连拓扑、能效比、芯片间协作——这些“看不见”的工程细节,恰恰是决定大规模训练超算能否真正发挥威力的关键。

Ironwood作为目前已知的最新一代TPU训练超算,它的发布不仅是Google技术实力的展示,更是在向整个行业传递一个信号:当算力增长触及单芯片瓶颈时,系统架构的协同设计才是新的竞技场。

对于整个AI基础设施行业而言,Google的演进路径提供了有价值的参考:如何在规模、效率、成本之间找到最优解,如何让硬件和软件深度耦合而非各自为战。TPU的故事还在继续,而下一章的悬念,或许就是超摩尔定律时代的新游戏规则。

---

参考资料:Jeff Dean等,论文将于2026年7/8月发表于IEEE Micro,涵盖TPU v2至Ironwood五代训练超算演进详情。

© 版权声明

相关文章

暂无评论

暂无评论...

网址设置

网址样式切换

详细

网址卡片按钮

显示

布局设置

左侧边栏菜单

展开

页面最大宽度

1700px

搜索框设置

搜索框背景上下位置

仅对图片背景生效

50%

自定义搜索框背景

  • 静图

    随机壁纸

  • 静图

    随机4K

自定义搜索框高度

  • 聚焦
  • 信息
  • 默认
设置