4月28日消息,谷歌在 Cloud Next 大会上正式亮出一张 AI 基础设施的王牌——A5X 裸金属实例,由英伟达最新 Vera Rubin 机架级系统驱动,目标直指超大规模 AI 训练与推理场景。
核心看点
1. 大规模 GPU 集群能力
单站点集群最多可扩展至 8 万个 Rubin GPU,多站点集群更能飙到 96 万个 GPU。这什么概念?基本是目前主流 AI 训练集群的 10 倍以上,专为万亿参数级别的下一代大模型准备。
2. 裸金属架构,性能零妥协
裸金属实例就是云上的物理服务器——没有虚拟化层,没有性能损耗,CPU、GPU、内存全部独占。对于跑大规模分布式训练的用户来说,这意味着更稳定的性能和更可预测的成本。
3. 自研 Virgo Network 架构加持
A5X 不仅用上了英伟达的 ConnectX-9 SuperNIC,还搭配了谷歌自研的 Virgo Network 超大规模扩展型 AI 数据中心架构。这套组合拳的目标是解决大规模 GPU 互联中最头疼的通信瓶颈问题。
4. 覆盖全场景 AI 工作负载
从前沿模型训练、开放模型微调,到智能体应用和物理 AI 工作负载,谷歌的目标是让客户在一块基础设施上跑通 AI 全链路。Google Cloud AI 基础设施副总裁 Mark Lohmeyer 表示:”未来十年的 AI 将取决于客户在真正集成、AI 优化的基础设施上运行高严苛工作负载的能力。”
深度解读
这次 A5X 的发布,其实是谷歌在 AI 算力军备竞赛中一次明确的加码。
随着 GPT-5.5、DeepSeek-V4 等超大模型的密集发布,市场对算力的需求正在指数级膨胀。谷歌这次亮出的 96 万 GPU 集群能力,明显是在为下一代万卡、甚至十万卡级别的 AI 训练打基础。
更值得关注的是,A5X 选择了裸金属而非传统虚拟化方案——这意味着谷歌判断,对于顶尖 AI 客户来说,性能的极致化比资源复用率更重要。这个判断背后,是对 AI 训练负载特性(持续高负载、极少空闲)的深刻理解。
同时,A5X 与英伟达 Rubin 架构深度绑定,说明谷歌虽然在自研 TPU 上持续投入(最近的 TorchTPU 计划),但在商用 GPU 生态上依然选择拥抱英伟达。两条腿走路,既稳又狠。
总结
A5X 裸金属实例是谷歌在 AI 基础设施领域的一次重磅出击。96 万 GPU 集群的扩展能力、裸金属性能优势、自研网络架构三位一体,目标就是成为下一代超大规模 AI 训练的首选平台。
对于正在训练超大模型的团队来说,这无疑多了一个值得认真考虑的选择。而对于整个 AI 行业,这意味着一件事:算力竞赛,才刚刚进入下半场。
本文地址:https://www.163264.com/11278

