谷歌 Cloud 放大招：A5X 裸金属实例发布，支持 96 万个 Rubin GPU

4月28日消息，谷歌在 Cloud Next 大会上正式亮出一张 AI 基础设施的王牌——A5X 裸金属实例，由英伟达最新 Vera Rubin 机架级系统驱动，目标直指超大规模 AI 训练与推理场景。

Table of Contents

核心看点

1. 大规模 GPU 集群能力
单站点集群最多可扩展至 8 万个 Rubin GPU，多站点集群更能飙到 96 万个 GPU。这什么概念？基本是目前主流 AI 训练集群的 10 倍以上，专为万亿参数级别的下一代大模型准备。

2. 裸金属架构，性能零妥协
裸金属实例就是云上的物理服务器——没有虚拟化层，没有性能损耗，CPU、GPU、内存全部独占。对于跑大规模分布式训练的用户来说，这意味着更稳定的性能和更可预测的成本。

3. 自研 Virgo Network 架构加持
A5X 不仅用上了英伟达的 ConnectX-9 SuperNIC，还搭配了谷歌自研的 Virgo Network 超大规模扩展型 AI 数据中心架构。这套组合拳的目标是解决大规模 GPU 互联中最头疼的通信瓶颈问题。

4. 覆盖全场景 AI 工作负载
从前沿模型训练、开放模型微调，到智能体应用和物理 AI 工作负载，谷歌的目标是让客户在一块基础设施上跑通 AI 全链路。Google Cloud AI 基础设施副总裁 Mark Lohmeyer 表示：”未来十年的 AI 将取决于客户在真正集成、AI 优化的基础设施上运行高严苛工作负载的能力。”

深度解读

这次 A5X 的发布，其实是谷歌在 AI 算力军备竞赛中一次明确的加码。

随着 GPT-5.5、DeepSeek-V4 等超大模型的密集发布，市场对算力的需求正在指数级膨胀。谷歌这次亮出的 96 万 GPU 集群能力，明显是在为下一代万卡、甚至十万卡级别的 AI 训练打基础。

更值得关注的是，A5X 选择了裸金属而非传统虚拟化方案——这意味着谷歌判断，对于顶尖 AI 客户来说，性能的极致化比资源复用率更重要。这个判断背后，是对 AI 训练负载特性（持续高负载、极少空闲）的深刻理解。

同时，A5X 与英伟达 Rubin 架构深度绑定，说明谷歌虽然在自研 TPU 上持续投入（最近的 TorchTPU 计划），但在商用 GPU 生态上依然选择拥抱英伟达。两条腿走路，既稳又狠。

总结

A5X 裸金属实例是谷歌在 AI 基础设施领域的一次重磅出击。96 万 GPU 集群的扩展能力、裸金属性能优势、自研网络架构三位一体，目标就是成为下一代超大规模 AI 训练的首选平台。

对于正在训练超大模型的团队来说，这无疑多了一个值得认真考虑的选择。而对于整个 AI 行业，这意味着一件事：算力竞赛，才刚刚进入下半场。

本文地址：https://www.163264.com/11278

谷歌 Cloud 放大招：A5X 裸金属实例发布，支持 96 万个 Rubin GPU

核心看点

深度解读

总结

相关推荐