从算力瓶颈到带宽瓶颈：智能体推理的新挑战是什么？

6 参与者

话题来源

科技动态 2026.02

DeepSeek联合清北发布DualPath：如何打破智能体大模型的存储带宽瓶颈？

从算力瓶颈到带宽瓶颈：智能体推理的新挑战是什么？

DeepSeek联合清北发布的论文 《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》 提出了一个关键观点：当大模型进入“智能体时代”，真正拖慢系统的，已经不是算力，而是数据搬运。大家怎么看这个转变？

一、为什么智能体推理会遇到带宽瓶颈？

传统大模型推理的瓶颈通常是：

GPU 算力不够
计算太慢
模型太大

但智能体（Agentic LLM）场景完全不同，其典型特征包括：

多轮交互
长上下文记忆
高频 KV-Cache 复用
每轮生成 token 很少

举个简单例子：一个智能体在 30 轮对话后，可能已经积累了几十万 token 的上下文。接下来每生成一个新 token，它都要“回看”之前的 KV-Cache。这时候会出现什么情况？

每一轮生成的计算量很小，但读取历史 KV-Cache 的数据量非常大
GPU 没跑满，计算单元在等数据
存储带宽先被打爆

真正的瓶颈，从“算力”转移到了“数据搬运”。这是否颠覆了你们对传统性能瓶颈的认知？

二、传统 Prefill-Decode 架构有什么问题？

当前主流推理架构是 Prefill-Decode 分离：

Prefill 节点：加载上下文 + 构建 KV-Cache
Decode 节点：生成新 token

问题在于所有 KV-Cache 都从存储加载到 Prefill，形成单路径：

存储 → Prefill → Decode

这导致：

Prefill 节点的存储带宽被压满
Decode 节点的带宽资源却闲置
系统整体吞吐量受限于单点带宽

这不是算力浪费，而是网络带宽资源分布不均。大家在实际应用中有没有遇到过类似问题？

三、DualPath 如何解决这个问题？

DualPath 的核心思想非常简单但巧妙：

不再只通过 Prefill 加载 KV-Cache。

它增加了一条新路径：

存储 → Decode →（高速 RDMA 网络）→ Prefill

于是系统变成“双路径加载”：

路径 1：存储 → Prefill
路径 2：存储 → Decode → Prefill

这样带来的改变是本质性的：

1.利用 Decode 节点闲置带宽

原本闲着的网络资源被利用起来。

2.打破单点瓶颈

不再让 Prefill 独自承受所有 KV 读取。

3.动态负载均衡

系统可以根据实时负载决定走哪条路径。

本质上，DualPath 不是提升算力，而是重新设计数据流动方式。这种思路转变是不是很有启发性？

四、效果能接近翻倍的原因

论文实验结果显示：

离线吞吐提升最高 1.87×
在线场景平均提升 1.96×
不影响 SLO

为什么能这么夸张？因为之前的系统是被严重“卡脖子”的：GPU 一直在等数据。这说明优化数据搬运比单纯堆算力更有效。

讨论话题：

你们在实际开发或使用智能体应用时，有没有观察到类似的“数据搬运”瓶颈？
DualPath 的“双路径”设计思路，在其他领域是否有借鉴意义？
除了带宽瓶颈，你们认为智能体推理还面临哪些新的技术挑战？
这种从“算力优先”到“数据流优化”的思维转变，会对未来的 AI 系统设计产生什么影响？

欢迎大家分享自己的见解和经验！

加入讨论

6 条评论

沉璧 2 月前

之前做智能体项目时就发现，明明GPU没跑满但延迟却很高，当时还纳闷是不是算力不够，现在看原来是数据搬运卡住了，这转变确实有点颠覆认知啊！
深蓝创想 2 月前

看到DualPath用RDMA网络让Decode节点帮忙搬数据，突然想到我们组上周调推理服务时，运维大哥盯着网卡流量图直骂“这破架构跟早高峰地铁似的，全挤一个换乘口”……现在看人家直接开了条新线路，确实聪明啊！
光影漫游 2 月前

昨天跑智能体demo就遇到这问题！GPU利用率才30%，但加载历史上下文等了5秒，当时还以为是硬盘坏了😂 原来现在瓶颈变带宽了啊。
复古鞋 2 月前

昨天调智能体接口，发现每轮生成就20个token，但加载历史缓存时网卡直接跑满，GPU倒闲着刷微博（误）。原来瓶颈早从算力变搬运工了！DualPath这招双路径，像给数据开了BRT公交，Decode节点终于不用摸鱼了。话说RDMA网络这么香，为啥之前没人想到？
狗狗的尾巴 2 月前

昨天部署智能体服务时，发现深夜流量低谷期延迟骤降，但早高峰哪怕算力充足还是会卡顿——现在才反应过来，原来是大家同时“翻旧账”抢带宽，像春运抢票一样把存储总线挤爆了。DualPath的双路径设计是不是能搞个“错峰搬运”机制？比如让Decode节点在空闲时提前预加载高频缓存。
狗狗的尾巴 2 月前

最近在调试一个客服智能体，发现它聊到第20轮左右就开始卡，GPU监控显示才用了15%，但存储带宽直接跑满。当时还以为是代码有内存泄漏，现在看原来是“历史包袱”太重，每次回看旧缓存都像翻箱底找东西，越翻越慢。DualPath的双路径设计倒是给思路了——下次试试把常聊客户的KV-Cache单独存高速SSD，说不定能少搬点数据？

从算力瓶颈到带宽瓶颈：智能体推理的新挑战是什么？

DeepSeek联合清北发布DualPath：如何打破智能体大模型的存储带宽瓶颈？

从算力瓶颈到带宽瓶颈：智能体推理的新挑战是什么？

一、为什么智能体推理会遇到带宽瓶颈？

二、传统 Prefill-Decode 架构有什么问题？

三、DualPath 如何解决这个问题？

1.利用 Decode 节点闲置带宽

2.打破单点瓶颈

3.动态负载均衡

四、效果能接近翻倍的原因

加入讨论

延伸阅读

9类Skills应用场景中，哪一类最能解决你团队的实际痛点？

How does MiniMax M2.5's full-lifecycle programming assistance compare to other AI models?

学术到产业的快速跨越：Tony Wu的学术路径如何塑造了AI研究？

元素周期表可视化：教育场景下的交互设计最佳实践

百万级上下文窗口能带来哪些企业应用？

如何通过5分钟操作快速修复OpenClaw公网暴露问题？