OpenAI联合AMD、英特尔、微软发布MRC协议：剑指GPU算力浪费问题

OpenAI最近搞了个大联合——携手AMD、英特尔、微软以及英伟达这些硬件巨头，共同发布了一个全新的开放网络协议，叫做MRC（Multi-path Resilient Communication，多路径弹性通信协议）。这个协议的目标很直接：解决超大规模AI集群的效率瓶颈，减少GPU的闲置浪费。

为什么需要这个协议？我们来拆解一下问题。现在的AI大模型训练，动辄用到成千上万块GPU。这么多GPU一起工作，它们之间需要不停地传输数据——比如模型参数、梯度更新等。问题就出在这里：数据传输一旦不稳定或者有延迟，就会导致一部分GPU在等数据、另一部分GPU在干等着，造成巨大的算力浪费。

有内部数据显示，在超大规模AI集群中，GPU因为通信问题导致的闲置浪费可能高达20%-30%。也就是说，你花了买10万块GPU的钱，可能只有7万块在真正干活。这种浪费在千亿甚至万亿参数的模型训练中，是一笔天文数字。

MRC协议解决这个问题的思路是{LQ}多路径连接{RQ}。传统的数据传输只有一条路，如果这条路堵了或者断了，数据就传不过去了。MRC协议允许多条路径同时传输，一条路堵了自动切换到另一条，数据传输的稳定性和吞吐量大幅提升。

这次联合发布的意义在于，它不是一个厂商的闭门协议，而是多个巨头共同制定的开放标准。AMD、英特尔、英伟达这些平时在GPU市场打得不亦乐乎的竞争对手，在这个协议上难得站到了一起，说明整个行业都意识到了算力浪费问题的严重性。

推动AI算力集群向更高效、更绿色的方向发展，是每个大模型玩家都绕不过去的课题。MRC协议的发布，可以说是给AI基础设施打了一剂强心针。

本文地址：https://www.163264.com/11490