为什么OpenAI选择与AMD、NVIDIA等巨头联合开源MRC?

6 参与者

OpenAI 为何联合 AMD、NVIDIA 等巨头开源 MRC?一场“被逼出来”的网络革命

最近 OpenAI 的一条公告挺硬核:他们拉上 AMD、Broadcom、Intel、Microsoft、NVIDIA 这些芯片与系统巨头,共同推出并开源了 MRC(Multipath Reliable Connection)协议,通过 Open Compute Project 向全球开放。

这不是一个新模型,也不是什么营销噱头--而是一个专为超大规模 AI 训练集群设计的底层网络协议。它的出现,背后是 OpenAI 对“算力瓶颈不在芯片,而在网络”这一现实的深刻回应。


🔧 为什么需要 MRC?因为 GPU 越多,网络越拖后腿

我们总说“堆卡”“堆算力”,但现实是:

当你在训练一个千亿甚至万亿参数模型时,最卡脖子的往往不是 GPU 本身,而是 GPU 之间的通信网络。

在同步训练中,每一步(step)都需要所有 GPU 交换梯度数据。只要有一条链路延迟、丢包或故障,整个集群就得停下来等--哪怕只有 0.1% 的异常,也会导致 GPU 利用率暴跌。

更可怕的是:集群规模越大,网络故障越频繁。传统 TCP/IP 协议在十万级 GPU 场景下,故障恢复需要几秒甚至更久,训练任务可能直接中断。OpenAI 自己运营着全球顶级的 AI 超算,显然是被这个问题“毒打”过无数次。


🚀 MRC 的核心思路:多路径 + 快速容错

MRC 不是修修补补,而是重新设计了一套网络传输逻辑:

  • 多平面网络架构 把一张 800Gb/s 网卡拆成多个小链路(如 8×100Gb/s),构建多个并行网络平面。不仅降低交换机层级、节省成本,还天然具备冗余能力。

  • 自适应数据包喷洒(Packet Spraying) 一个数据包流被分散到数百条路径上传输,接收端按内存地址直接重组。即使某条路径拥塞,也能动态绕行;遇到轻微拥塞时,只转发包头触发重传,避免误判为全局故障。

  • 源路由 + SRv6 简化控制平面 抛弃复杂的动态路由协议(如 BGP),发送端直接在数据包中写入完整路径,交换机只做静态转发。这使得故障恢复从“秒级”进入“微秒级”--链路断了?立刻切路,几乎无感。


📊 实际效果:训练不停,GPU 利用率飙升

OpenAI 已在基于 GB200 架构的超算上全面部署 MRC,包括与 Oracle、Microsoft 合作的主力站点。

结果是:

  • 即使网络每分钟发生多次链路抖动,训练作业几乎不受影响;
  • 可在线热重启交换机、维护链路,无需暂停训练;
  • 单链路或单 GPU 接口故障时,作业继续运行,仅带宽轻微下降,性能损失远小于容量损失;
  • 多租户共享集群时,作业间干扰显著降低。

这意味着:同样的 GPU,能跑出更高的有效算力,省时间、省电费、省成本。


❓ 那么问题来了:为什么选择开源?

这才是最耐人寻味的部分。

OpenAI 明明可以像过去一样,把这套技术作为内部“护城河”,闷声提升自家模型训练效率。但他们却选择联合竞争对手(比如 NVIDIA 和 AMD)一起开源。

可能的原因包括:

生态共建,降低行业门槛 AI 训练正走向“超大规模常态化”,但网络瓶颈是共性问题。如果只有 OpenAI 能解决,整个行业发展会受限。开源 MRC,相当于为行业铺路,反过来也能加速自身获取更先进硬件与合作资源。

倒逼硬件厂商优化支持 MRC 依赖多路径、源路由、低延迟重传等特性,需要网卡、交换机、驱动层深度配合。联合 Intel、NVIDIA、AMD 等一起推动,能更快形成标准,避免“协议先进、硬件拖后腿”。

建立技术领导力,而非封闭垄断 在 AI 基础设施领域,掌控标准比掌控代码更重要。通过开源主导协议演进,OpenAI 实际上在扮演“AI 网络架构师”的角色--这比单纯训练一个模型更具长期影响力。

应对未来“算力军备竞赛”的协作需求 当训练集群突破十万 GPU 规模,单打独斗已不可持续。OpenAI 需要微软、Oracle、NVIDIA 等伙伴在数据中心、芯片、软件栈上协同优化。开源 MRC,是一种“技术结盟”的信号。


💡 结语:这不是 OpenAI 的“慷慨”,而是战略必需

MRC 的开源,表面看是技术共享,实则是 OpenAI 对“AI 基础设施瓶颈”的一次精准狙击。 他们明白:未来的 AI 竞争,不只是模型之争,更是系统效率之争、生态协作之争。

当别人还在堆卡时,OpenAI 已经在重构底层网络--并且拉着整个行业一起跑。

这或许才是真正可怕的“护城河”:

你看得见我的技术,但追不上我的协同速度。


🔍 你怎么看?

AI基础设施 #MRC #OpenAI #NVIDIA #AMD #大规模训练 #网络协议 #开源战略

加入讨论

6 条评论

延伸阅读