OpenAI联合AMD、英特尔、微软发布MRC协议:剑指GPU算力浪费问题

OpenAI最近搞了个大联合——携手AMD、英特尔、微软以及英伟达这些硬件巨头,共同发布了一个全新的开放网络协议,叫做MRC(Multi-path Resilient Communication,多路径弹性通信协议)。这个协议的目标很直接:解决超大规模AI集群的效率瓶颈,减少GPU的闲置浪费

为什么需要这个协议?我们来拆解一下问题。现在的AI大模型训练,动辄用到成千上万块GPU。这么多GPU一起工作,它们之间需要不停地传输数据——比如模型参数、梯度更新等。问题就出在这里:数据传输一旦不稳定或者有延迟,就会导致一部分GPU在等数据、另一部分GPU在干等着,造成巨大的算力浪费。

有内部数据显示,在超大规模AI集群中,GPU因为通信问题导致的闲置浪费可能高达20%-30%。也就是说,你花了买10万块GPU的钱,可能只有7万块在真正干活。这种浪费在千亿甚至万亿参数的模型训练中,是一笔天文数字。

MRC协议解决这个问题的思路是{LQ}多路径连接{RQ}。传统的数据传输只有一条路,如果这条路堵了或者断了,数据就传不过去了。MRC协议允许多条路径同时传输,一条路堵了自动切换到另一条,数据传输的稳定性和吞吐量大幅提升。

这次联合发布的意义在于,它不是一个厂商的闭门协议,而是多个巨头共同制定的开放标准。AMD、英特尔、英伟达这些平时在GPU市场打得不亦乐乎的竞争对手,在这个协议上难得站到了一起,说明整个行业都意识到了算力浪费问题的严重性。

推动AI算力集群向更高效、更绿色的方向发展,是每个大模型玩家都绕不过去的课题。MRC协议的发布,可以说是给AI基础设施打了一剂强心针。

本文地址:https://www.163264.com/11490

(0)
上一篇 5天前
下一篇 5天前

相关推荐