最近 OpenAI 的一条公告挺硬核:他们拉上 AMD、Broadcom、Intel、Microsoft、NVIDIA 这些芯片与系统巨头,共同推出并开源了 MRC(Multipath Reliable Connection)协议,通过 Open Compute Project 向全球开放。
这不是一个新模型,也不是什么营销噱头--而是一个专为超大规模 AI 训练集群设计的底层网络协议。它的出现,背后是 OpenAI 对“算力瓶颈不在芯片,而在网络”这一现实的深刻回应。
我们总说“堆卡”“堆算力”,但现实是:
当你在训练一个千亿甚至万亿参数模型时,最卡脖子的往往不是 GPU 本身,而是 GPU 之间的通信网络。
在同步训练中,每一步(step)都需要所有 GPU 交换梯度数据。只要有一条链路延迟、丢包或故障,整个集群就得停下来等--哪怕只有 0.1% 的异常,也会导致 GPU 利用率暴跌。
更可怕的是:集群规模越大,网络故障越频繁。传统 TCP/IP 协议在十万级 GPU 场景下,故障恢复需要几秒甚至更久,训练任务可能直接中断。OpenAI 自己运营着全球顶级的 AI 超算,显然是被这个问题“毒打”过无数次。
MRC 不是修修补补,而是重新设计了一套网络传输逻辑:
多平面网络架构 把一张 800Gb/s 网卡拆成多个小链路(如 8×100Gb/s),构建多个并行网络平面。不仅降低交换机层级、节省成本,还天然具备冗余能力。
自适应数据包喷洒(Packet Spraying) 一个数据包流被分散到数百条路径上传输,接收端按内存地址直接重组。即使某条路径拥塞,也能动态绕行;遇到轻微拥塞时,只转发包头触发重传,避免误判为全局故障。
源路由 + SRv6 简化控制平面 抛弃复杂的动态路由协议(如 BGP),发送端直接在数据包中写入完整路径,交换机只做静态转发。这使得故障恢复从“秒级”进入“微秒级”--链路断了?立刻切路,几乎无感。
OpenAI 已在基于 GB200 架构的超算上全面部署 MRC,包括与 Oracle、Microsoft 合作的主力站点。
结果是:
这意味着:同样的 GPU,能跑出更高的有效算力,省时间、省电费、省成本。
这才是最耐人寻味的部分。
OpenAI 明明可以像过去一样,把这套技术作为内部“护城河”,闷声提升自家模型训练效率。但他们却选择联合竞争对手(比如 NVIDIA 和 AMD)一起开源。
✅ 生态共建,降低行业门槛 AI 训练正走向“超大规模常态化”,但网络瓶颈是共性问题。如果只有 OpenAI 能解决,整个行业发展会受限。开源 MRC,相当于为行业铺路,反过来也能加速自身获取更先进硬件与合作资源。
✅ 倒逼硬件厂商优化支持 MRC 依赖多路径、源路由、低延迟重传等特性,需要网卡、交换机、驱动层深度配合。联合 Intel、NVIDIA、AMD 等一起推动,能更快形成标准,避免“协议先进、硬件拖后腿”。
✅ 建立技术领导力,而非封闭垄断 在 AI 基础设施领域,掌控标准比掌控代码更重要。通过开源主导协议演进,OpenAI 实际上在扮演“AI 网络架构师”的角色--这比单纯训练一个模型更具长期影响力。
✅ 应对未来“算力军备竞赛”的协作需求 当训练集群突破十万 GPU 规模,单打独斗已不可持续。OpenAI 需要微软、Oracle、NVIDIA 等伙伴在数据中心、芯片、软件栈上协同优化。开源 MRC,是一种“技术结盟”的信号。
MRC 的开源,表面看是技术共享,实则是 OpenAI 对“AI 基础设施瓶颈”的一次精准狙击。 他们明白:未来的 AI 竞争,不只是模型之争,更是系统效率之争、生态协作之争。
当别人还在堆卡时,OpenAI 已经在重构底层网络--并且拉着整个行业一起跑。
这或许才是真正可怕的“护城河”:
你看得见我的技术,但追不上我的协同速度。
🔍 你怎么看?
加入讨论
原来网络才是AI训练的“隐形天花板”!我一直以为堆GPU就够了,没想到通信才是关键。MRC这思路挺野的——把链路拆成多条并行,还直接源路由,简直像给数据包开了导航。不过好奇的是,小公司真能落地吗?毕竟不是谁都有OpenAI那样的超算规模…
MRC这波开源真有点意外,毕竟连AMD和NVIDIA都一起下场了。不过想想也对,现在谁家没被网络卡过脖子?OpenAI算是把“独乐乐不如众乐乐”玩明白了——大家一起把坑填了,AI训练才能跑得更快,省下的电费怕是能再买几台DGX。
开源MRC确实聪明,但更让我好奇的是:这套协议对中小团队真的友好吗?毕竟不是谁都有OpenAI那种超算规模。如果只是为了省几秒故障恢复时间,普通实验室可能连硬件都配不齐。不过话说回来,万一哪天AI训练真成“白菜价”了,现在铺路也算未雨绸缪?
MRC 开源这操作真绝了——以前觉得 OpenAI 只会闷头搞模型,没想到在底层网络上也这么狠。不过最让我好奇的是:这套协议对中小团队来说,是不是有点“杀鸡用牛刀”?毕竟我们连 100 张卡都凑不齐,哪来的“超大规模”网络瓶颈啊……
MRC开源确实是大手笔,但我在想:这套协议对国产AI芯片适配度怎么样?毕竟国内很多训练集群用的不是NVIDIA架构,如果MRC能兼容华为昇腾、寒武纪这些,那才是真正的“普惠AI”吧?不然又成了巨头们的游戏。
MRC这名字起得挺有意思,“多路径可靠连接”听着像给数据包配了条地铁线路图——哪条堵了立马换道,连司机都不用喊“前方到站”。不过我更关心的是:这套协议对跨数据中心训练支不支持?毕竟现在训练动不动就跨AZ,MRC要是能搞定长距离传输,那才算真·革命。