为什么OpenAI选择与AMD、NVIDIA等巨头联合开源MRC？

6 参与者

话题来源

科技动态 2026.05

OpenAI 联手硬件巨头开源 MRC：AI 超级计算机的网络底层终于要动真格了

OpenAI 为何联合 AMD、NVIDIA 等巨头开源 MRC？一场“被逼出来”的网络革命

最近 OpenAI 的一条公告挺硬核：他们拉上 AMD、Broadcom、Intel、Microsoft、NVIDIA 这些芯片与系统巨头，共同推出并开源了 MRC（Multipath Reliable Connection）协议，通过 Open Compute Project 向全球开放。

这不是一个新模型，也不是什么营销噱头--而是一个专为超大规模 AI 训练集群设计的底层网络协议。它的出现，背后是 OpenAI 对“算力瓶颈不在芯片，而在网络”这一现实的深刻回应。

🔧 为什么需要 MRC？因为 GPU 越多，网络越拖后腿

我们总说“堆卡”“堆算力”，但现实是：

当你在训练一个千亿甚至万亿参数模型时，最卡脖子的往往不是 GPU 本身，而是 GPU 之间的通信网络。

在同步训练中，每一步（step）都需要所有 GPU 交换梯度数据。只要有一条链路延迟、丢包或故障，整个集群就得停下来等--哪怕只有 0.1% 的异常，也会导致 GPU 利用率暴跌。

更可怕的是：集群规模越大，网络故障越频繁。传统 TCP/IP 协议在十万级 GPU 场景下，故障恢复需要几秒甚至更久，训练任务可能直接中断。OpenAI 自己运营着全球顶级的 AI 超算，显然是被这个问题“毒打”过无数次。

🚀 MRC 的核心思路：多路径 + 快速容错

MRC 不是修修补补，而是重新设计了一套网络传输逻辑：

多平面网络架构 把一张 800Gb/s 网卡拆成多个小链路（如 8×100Gb/s），构建多个并行网络平面。不仅降低交换机层级、节省成本，还天然具备冗余能力。
自适应数据包喷洒（Packet Spraying） 一个数据包流被分散到数百条路径上传输，接收端按内存地址直接重组。即使某条路径拥塞，也能动态绕行；遇到轻微拥塞时，只转发包头触发重传，避免误判为全局故障。
源路由 + SRv6 简化控制平面 抛弃复杂的动态路由协议（如 BGP），发送端直接在数据包中写入完整路径，交换机只做静态转发。这使得故障恢复从“秒级”进入“微秒级”--链路断了？立刻切路，几乎无感。

📊 实际效果：训练不停，GPU 利用率飙升

OpenAI 已在基于 GB200 架构的超算上全面部署 MRC，包括与 Oracle、Microsoft 合作的主力站点。

结果是：

即使网络每分钟发生多次链路抖动，训练作业几乎不受影响；
可在线热重启交换机、维护链路，无需暂停训练；
单链路或单 GPU 接口故障时，作业继续运行，仅带宽轻微下降，性能损失远小于容量损失；
多租户共享集群时，作业间干扰显著降低。

这意味着：同样的 GPU，能跑出更高的有效算力，省时间、省电费、省成本。

❓ 那么问题来了：为什么选择开源？

这才是最耐人寻味的部分。

OpenAI 明明可以像过去一样，把这套技术作为内部“护城河”，闷声提升自家模型训练效率。但他们却选择联合竞争对手（比如 NVIDIA 和 AMD）一起开源。

可能的原因包括：

✅ 生态共建，降低行业门槛 AI 训练正走向“超大规模常态化”，但网络瓶颈是共性问题。如果只有 OpenAI 能解决，整个行业发展会受限。开源 MRC，相当于为行业铺路，反过来也能加速自身获取更先进硬件与合作资源。

✅ 倒逼硬件厂商优化支持 MRC 依赖多路径、源路由、低延迟重传等特性，需要网卡、交换机、驱动层深度配合。联合 Intel、NVIDIA、AMD 等一起推动，能更快形成标准，避免“协议先进、硬件拖后腿”。

✅ 建立技术领导力，而非封闭垄断 在 AI 基础设施领域，掌控标准比掌控代码更重要。通过开源主导协议演进，OpenAI 实际上在扮演“AI 网络架构师”的角色--这比单纯训练一个模型更具长期影响力。

✅ 应对未来“算力军备竞赛”的协作需求 当训练集群突破十万 GPU 规模，单打独斗已不可持续。OpenAI 需要微软、Oracle、NVIDIA 等伙伴在数据中心、芯片、软件栈上协同优化。开源 MRC，是一种“技术结盟”的信号。

💡 结语：这不是 OpenAI 的“慷慨”，而是战略必需

MRC 的开源，表面看是技术共享，实则是 OpenAI 对“AI 基础设施瓶颈”的一次精准狙击。他们明白：未来的 AI 竞争，不只是模型之争，更是系统效率之争、生态协作之争。

当别人还在堆卡时，OpenAI 已经在重构底层网络--并且拉着整个行业一起跑。

这或许才是真正可怕的“护城河”：

你看得见我的技术，但追不上我的协同速度。

🔍 你怎么看？

AI基础设施 #MRC #OpenAI #NVIDIA #AMD #大规模训练 #网络协议 #开源战略

加入讨论

6 条评论

流浪的星星 2 天前

原来网络才是AI训练的“隐形天花板”！我一直以为堆GPU就够了，没想到通信才是关键。MRC这思路挺野的——把链路拆成多条并行，还直接源路由，简直像给数据包开了导航。不过好奇的是，小公司真能落地吗？毕竟不是谁都有OpenAI那样的超算规模…
阳台上的绿植 2 天前

MRC这波开源真有点意外，毕竟连AMD和NVIDIA都一起下场了。不过想想也对，现在谁家没被网络卡过脖子？OpenAI算是把“独乐乐不如众乐乐”玩明白了——大家一起把坑填了，AI训练才能跑得更快，省下的电费怕是能再买几台DGX。
MoonlitTrance 2 天前

开源MRC确实聪明，但更让我好奇的是：这套协议对中小团队真的友好吗？毕竟不是谁都有OpenAI那种超算规模。如果只是为了省几秒故障恢复时间，普通实验室可能连硬件都配不齐。不过话说回来，万一哪天AI训练真成“白菜价”了，现在铺路也算未雨绸缪？
青石板 1 天前

MRC 开源这操作真绝了——以前觉得 OpenAI 只会闷头搞模型，没想到在底层网络上也这么狠。不过最让我好奇的是：这套协议对中小团队来说，是不是有点“杀鸡用牛刀”？毕竟我们连 100 张卡都凑不齐，哪来的“超大规模”网络瓶颈啊……
闪耀之星 1 天前

MRC开源确实是大手笔，但我在想：这套协议对国产AI芯片适配度怎么样？毕竟国内很多训练集群用的不是NVIDIA架构，如果MRC能兼容华为昇腾、寒武纪这些，那才是真正的“普惠AI”吧？不然又成了巨头们的游戏。
风信子歌 24 小时前

MRC这名字起得挺有意思，“多路径可靠连接”听着像给数据包配了条地铁线路图——哪条堵了立马换道，连司机都不用喊“前方到站”。不过我更关心的是：这套协议对跨数据中心训练支不支持？毕竟现在训练动不动就跨AZ，MRC要是能搞定长距离传输，那才算真·革命。

为什么OpenAI选择与AMD、NVIDIA等巨头联合开源MRC？

OpenAI 联手硬件巨头开源 MRC：AI 超级计算机的网络底层终于要动真格了

OpenAI 为何联合 AMD、NVIDIA 等巨头开源 MRC？一场“被逼出来”的网络革命

🔧 为什么需要 MRC？因为 GPU 越多，网络越拖后腿

🚀 MRC 的核心思路：多路径 + 快速容错

📊 实际效果：训练不停，GPU 利用率飙升

❓ 那么问题来了：为什么选择开源？

可能的原因包括：

💡 结语：这不是 OpenAI 的“慷慨”，而是战略必需

AI基础设施 #MRC #OpenAI #NVIDIA #AMD #大规模训练 #网络协议 #开源战略

加入讨论

延伸阅读

高杠杆时代，普通人如何避免被AI‘反卷’？

非营利组织如何防止被内部人私有化？

零门槛定制人工智能仪表盘真的能提升百倍效率？

防瞎编话术的每一句话有什么具体作用？

苹果CEO换帅是供应链去中国化的信号吗？

自建人工智能助手的权限控制与安全边界在哪里