5 月 14 日星期二,谷歌宣布了其名为 Trillium 的第六代 TPU(张量处理单元)。
该芯片本质上是TPU v6,是该公司与GPU制造商英伟达(Nvidia)以及拥有自己的AI芯片的云提供商微软(Microsoft)和亚马逊(Amazon)进行AI战斗的最新武器。
TPU v6 将接替 TPUv5 芯片,后者有两种版本:TPUv5e 和 TPUv5p。该公司表示,Trillium芯片是“迄今为止性能最高、最节能的TPU。“
(来源:谷歌)
Trillium芯片将运行AI模型,该模型将接替当前的Gemini大型语言模型,谷歌在加利福尼亚州山景城举行的IO会议上表示。
性能
谷歌对芯片进行了全面改进。该芯片为每个芯片提供 4.7 倍的峰值计算性能。它还将高带宽存储器、内部带宽和芯片到芯片互连速度提高了一倍。
“通过比较Trillium TPU与Cloud TPU v5e的每芯片峰值计算性能(bf16),我们得到了4.7倍的数字,”谷歌发言人在给媒体的一封电子邮件中说。
BF16 在 TPU v5e 上的性能为 197 teraflops,而 4.7 倍的改进将使 BF16 在 Trillium 上的峰值性能达到 925.9 teraflops。
谷歌的TPU性能早就应该有了大幅提升。TPU v5e 的 197 teraflops BF16 性能实际上从 TPU v4 的 275 teraflops 下降。
内存和带宽
Trillium 芯片具有下一代 HBM 内存,但没有具体说明它是 HBM3 还是 HBM3e,Nvidia 在其 H200 和 Blackwell GPU 中使用了 HBM200。
TPU v5e 上的 HBM2 容量为 16GB,因此 Trillium 将具有 32GB 的容量,HBM3 和 HBM3e 均可用。HBM3e 提供最大的带宽。
多达 256 个 Trillium 芯片可以在服务器 pod 中配对,与 TPU v5e 相比,芯片间通信提高了两倍。谷歌没有共享芯片间通信速度,但速度可能达到 3,200 Gbps,是 TPU v5e 的 1,600 Gbps 的两倍。
谷歌在一篇博客文章中表示,Trillium TPU 的能源效率也比 TPU v5e 高 67%。
更快的芯片释放周期
Trillium正在取代TPU品牌名称,并将成为未来几代芯片背后的品牌。Trillium 是基于花的名字,不要与 AWS 的 Trainium 混淆,后者是一种 AI 训练芯片。
谷歌不失时机地发布了第六代 TPU——该公司发布 TPU v5 芯片还不到一年。
TPU v4 于 2020 年推出,在 TPU v5 发布之前已经存在了三年。 TPU v5 本身的开发也陷入了争议。
谷歌声称,人工智能代理帮助 TPU v5 芯片的平面规划比人类专家快了大约六个小时。
与TPU v5 AI设计项目有关的研究人员被解雇或离开,《自然》杂志目前正在调查这些说法。(https://www.hpcwire.com/2023/10/03/googles-controversial-ai-chip-paper-under-scrutiny-again/)
搭载系统
服务器 Pod 将托管 256 个 Trillium 芯片, AI 芯片的通信速度将比类似的 TPU v5 Pod 设置快两倍。
这些 Pod 可以组合成更大的集群, 并通过光网络进行通信。 Pod 之间的通信速度也将提高两倍,从而提供 大型 AI 模型所需的可扩展性。
谷歌表示:“Trillium TPU可以扩展到数百个吊舱,连接建筑规模的超级计算机中的数万个芯片,这些芯片通过每秒数PB的数据中心网络互连。
一种称为 Multislice 的技术将大型 AI 工作负载串在大型集群中的数千个 TPU 中。这确保了 TPU 的高正常运行时间和电源效率。
芯片介绍
该芯片具有第三代SparseCores,这是一种更接近高带宽内存的中间芯片,大部分AI处理都发生在高带宽内存中。
SparseCore 使处理更接近内存中的数据,支持 AMD、Intel 和 Qualcomm 正在研究的新兴计算架构。
通常,数据必须从内存移动到处理单元,这会消耗带宽并产生阻塞点。稀疏计算模型试图通过将处理单元移近内存集群来释放网络带宽。
“TrilliumTPU可以更快地训练下一波基础模型,并以更少的延迟和更低的成本为这些模型提供服务,”谷歌说。
Trillium 还具有用于矩阵数学的 TensorCores。Trillium芯片专为人工智能设计,不会运行科学应用。
该公司最近宣布了其首款 CPU Axion,它将与 Trillium 配对。
超级计算机
Trillium芯片将成为谷歌自主研发的超级计算机AI超级计算机设计的一部分,该设计针对其TPU进行了优化。
该设计融合了计算、网络、存储和软件,以满足不同的 AI 消费和调度模型。“日历”系统满足了任务何时开始的硬性截止日期,而“弹性开始”模型则保证了任务何时结束并交付结果。
超级计算机包括一个软件堆栈和其他工具,用于开发、优化、部署和编排用于推理和训练的 AI 模型。 这包括 JAX、PyTorch/XLA 和 Kubernetes。
超级计算机将继续使用 GPU 优化的互连技术,例如基于 Nvidia H100 GPU 的 Titanium 卸载系统和技术。
可用性
预计Trillium芯片将在谷歌云中提供,但谷歌没有提供上市日期。这将是一个顶级产品,成本高于 TPU v5 产品。
云中 GPU 的高昂价格可能会使 Trillium 对客户具有吸引力。已经在 Vertex(Google Cloud 中的 AI 平台)中提供 AI 模型的客户也可以切换到 Trillium。
AWS的Trainium芯片也可用,而Microsoft的Azure Maia芯片主要用于推理。
可能缓解 GPU 挤压
谷歌历来将其 TPU 作为 Nvidia GPU 的 AI 替代品。谷歌发布了研究论文,将 TPU 的性能与可比的 Nvidia GPU 进行了比较。
谷歌最近宣布将托管 Nvidia 的新 GPU B200 和配备 Blackwell GPU 的专用 DGX 盒子。
英伟达最近还宣布将以7亿美元的价格收购 Run.ai。Run.ai 收购将使英伟达在运行人工智能模型时保持其软件堆栈独立于谷歌的堆栈。
TPU最初是为谷歌的本土模型设计的,但该公司正试图更好地映射到开源模型,包括Gemini的一个分支Gemma。