多路径可靠连接(MRC)对AI基础设施发展的长期影响是什么?

2 参与者

多路径可靠连接(MRC)对AI基础设施发展的长期影响是什么?

最近 OpenAI 联合 AMD、Broadcom、Intel、Microsoft、NVIDIA 等巨头,通过 Open Compute Project 开源了一个硬核网络协议--MRC(Multipath Reliable Connection,多路径可靠连接)。这不是一次“模型发布”,而是一次对 AI 基础设施底层网络的深度重构。

那么问题来了:MRC 的出现,会对未来 AI 基础设施的发展带来哪些长期影响?


🔧 为什么网络成了 AI 训练的“隐形瓶颈”?

我们总在谈“算力堆叠”“参数爆炸”,但真正跑过大模型训练的人都知道:

GPU 再强,也怕网络卡壳。

在大规模训练中,每一步(step)都需要所有 GPU 同步交换海量梯度数据。只要有一条链路丢包或延迟突增,整个集群就得停下来等--“木桶效应”在这里体现得淋漓尽致。

更糟的是:

  • 集群规模越大,硬件故障概率越高;
  • 传统网络协议(如 TCP)恢复慢、路径单一,动辄几秒中断;
  • 网络拥塞容易被误判为严重故障,导致不必要的重传和性能雪崩。

OpenAI 显然是被这些问题“毒打”过,才下定决心自研一套专为超大规模 AI 训练设计的网络方案。


🚀 MRC 的核心创新:不只是“多走几条路”

MRC 的设计哲学很明确:把网络变成一条“韧性高速公路”,即使部分路段塌方,车流也能无缝绕行。

关键设计包括:

1. 多平面网络架构

  • 将一块 800Gb/s 网卡拆成多个低速率链路(如 8×100Gb/s);
  • 构建多个并行网络平面,实现天然冗余;
  • 减少交换机层级,降低功耗与成本,同时提升可扩展性。

2. 自适应数据包喷洒(Adaptive Packet Spraying)

  • 一个数据流的数据包被分散到数百条路径上传输;
  • 接收端按内存地址直接重组,无需严格顺序;
  • 遇拥塞自动绕行,交换机支持“头部转发+触发重传”,避免小抖动引发大中断。

3. 源路由 + SRv6

  • 抛弃复杂的动态路由协议(如 BGP);
  • 发送端直接在数据包中写入完整路径;
  • 交换机只做静态转发,故障恢复从“秒级”进入“微秒级”。

📈 实际效果:GPU 利用率上去了,电费下来了

OpenAI 已在自家最大的 GB200 超算集群(包括与 Oracle、Microsoft 合作的站点)全面部署 MRC,结果令人振奋:

  • 即使每分钟发生多次链路抖动,训练几乎无感;
  • 可在线热重启交换机、维护链路,无需中断作业;
  • 单链路或 GPU 接口故障时,作业继续运行,仅带宽轻微下降;
  • 多租户环境下,作业间干扰显著降低。

这意味着:同样的硬件,能跑出更高的有效算力,训练更快、更稳、更省电。


🌱 开源的意义:推动整个生态向前

MRC 选择通过 OCP 开源,绝非“秀肌肉”,而是战略级布局:

  • 降低行业门槛:中小企业和科研机构也能参考这套架构优化自己的集群;
  • 加速标准化:避免各厂商各自为战,形成碎片化方案;
  • 促进硬件协同创新:网卡、交换机、GPU 厂商可围绕 MRC 设计更匹配的产品;
  • 为下一代 AI 基础设施铺路:当模型规模迈向百万 GPU 级别,传统网络已无法支撑。

🔮 长期影响展望

  1. AI 训练将更“工业化” 网络不再成为 scalability 的硬上限,大规模训练变得更稳定、可预测。

  2. 能效比显著提升 GPU 空转时间减少,单位算力成本下降,绿色 AI 成为可能。

  3. 多租户与资源共享成为常态 企业可更高效地共享超算资源,推动 AI 即服务(AIaaS)普及。

  4. 倒逼网络硬件革新 传统数据中心网络架构面临重构,支持源路由、低延迟重传的新设备将崛起。

  5. 开源生态主导基础设施演进 类似 OCP 的开源硬件/协议模式,可能成为 AI 时代基础设施创新的主旋律。


💬 讨论: 你认为 MRC 是“锦上添花”,还是“AI 基础设施的转折点”? 未来是否会出现更多由 AI 公司主导的底层协议开源? 欢迎在评论区聊聊你的看法!

AI基础设施 #MRC #OpenAI #网络协议 #大模型训练 #开源技术

加入讨论

2 条评论

延伸阅读