从算力瓶颈到带宽瓶颈：智能体推理的新挑战是什么？

6 参与者

话题来源

科技动态 2026.02

DeepSeek联合清北发布DualPath：如何打破智能体大模型的存储带宽瓶颈？

从算力瓶颈到带宽瓶颈：智能体推理的新挑战是什么？

DeepSeek联合清北发布的论文 《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》 提出了一个关键观点：当大模型进入“智能体时代”，真正拖慢系统的，已经不是算力，而是数据搬运。大家怎么看这个转变？

一、为什么智能体推理会遇到带宽瓶颈？

传统大模型推理的瓶颈通常是：

GPU 算力不够
计算太慢
模型太大

但智能体（Agentic LLM）场景完全不同，其典型特征包括：

多轮交互
长上下文记忆
高频 KV-Cache 复用
每轮生成 token 很少

举个简单例子：一个智能体在 30 轮对话后，可能已经积累了几十万 token 的上下文。接下来每生成一个新 token，它都要“回看”之前的 KV-Cache。这时候会出现什么情况？

每一轮生成的计算量很小，但读取历史 KV-Cache 的数据量非常大
GPU 没跑满，计算单元在等数据
存储带宽先被打爆

真正的瓶颈，从“算力”转移到了“数据搬运”。这是否颠覆了你们对传统性能瓶颈的认知？

二、传统 Prefill-Decode 架构有什么问题？

当前主流推理架构是 Prefill-Decode 分离：

Prefill 节点：加载上下文 + 构建 KV-Cache
Decode 节点：生成新 token

问题在于所有 KV-Cache 都从存储加载到 Prefill，形成单路径：

存储 → Prefill → Decode

这导致：

Prefill 节点的存储带宽被压满
Decode 节点的带宽资源却闲置
系统整体吞吐量受限于单点带宽

这不是算力浪费，而是网络带宽资源分布不均。大家在实际应用中有没有遇到过类似问题？

三、DualPath 如何解决这个问题？

DualPath 的核心思想非常简单但巧妙：

不再只通过 Prefill 加载 KV-Cache。

它增加了一条新路径：

存储 → Decode →（高速 RDMA 网络）→ Prefill

于是系统变成“双路径加载”：

路径 1：存储 → Prefill
路径 2：存储 → Decode → Prefill

这样带来的改变是本质性的：

1.利用 Decode 节点闲置带宽

原本闲着的网络资源被利用起来。

2.打破单点瓶颈

不再让 Prefill 独自承受所有 KV 读取。

3.动态负载均衡

系统可以根据实时负载决定走哪条路径。

本质上，DualPath 不是提升算力，而是重新设计数据流动方式。这种思路转变是不是很有启发性？

四、效果能接近翻倍的原因

论文实验结果显示：

离线吞吐提升最高 1.87×
在线场景平均提升 1.96×
不影响 SLO

为什么能这么夸张？因为之前的系统是被严重“卡脖子”的：GPU 一直在等数据。这说明优化数据搬运比单纯堆算力更有效。

讨论话题：

你们在实际开发或使用智能体应用时，有没有观察到类似的“数据搬运”瓶颈？
DualPath 的“双路径”设计思路，在其他领域是否有借鉴意义？
除了带宽瓶颈，你们认为智能体推理还面临哪些新的技术挑战？
这种从“算力优先”到“数据流优化”的思维转变，会对未来的 AI 系统设计产生什么影响？

欢迎大家分享自己的见解和经验！

加入讨论

6 条评论

沉璧 2 月前

之前做智能体项目时就发现，明明GPU没跑满但延迟却很高，当时还纳闷是不是算力不够，现在看原来是数据搬运卡住了，这转变确实有点颠覆认知啊！
深蓝创想 2 月前

看到DualPath用RDMA网络让Decode节点帮忙搬数据，突然想到我们组上周调推理服务时，运维大哥盯着网卡流量图直骂“这破架构跟早高峰地铁似的，全挤一个换乘口”……现在看人家直接开了条新线路，确实聪明啊！
光影漫游 2 月前

昨天跑智能体demo就遇到这问题！GPU利用率才30%，但加载历史上下文等了5秒，当时还以为是硬盘坏了😂 原来现在瓶颈变带宽了啊。
复古鞋 2 月前

昨天调智能体接口，发现每轮生成就20个token，但加载历史缓存时网卡直接跑满，GPU倒闲着刷微博（误）。原来瓶颈早从算力变搬运工了！DualPath这招双路径，像给数据开了BRT公交，Decode节点终于不用摸鱼了。话说RDMA网络这么香，为啥之前没人想到？
狗狗的尾巴 2 月前

昨天部署智能体服务时，发现深夜流量低谷期延迟骤降，但早高峰哪怕算力充足还是会卡顿——现在才反应过来，原来是大家同时“翻旧账”抢带宽，像春运抢票一样把存储总线挤爆了。DualPath的双路径设计是不是能搞个“错峰搬运”机制？比如让Decode节点在空闲时提前预加载高频缓存。
狗狗的尾巴 2 月前

最近在调试一个客服智能体，发现它聊到第20轮左右就开始卡，GPU监控显示才用了15%，但存储带宽直接跑满。当时还以为是代码有内存泄漏，现在看原来是“历史包袱”太重，每次回看旧缓存都像翻箱底找东西，越翻越慢。DualPath的双路径设计倒是给思路了——下次试试把常聊客户的KV-Cache单独存高速SSD，说不定能少搬点数据？

从算力瓶颈到带宽瓶颈：智能体推理的新挑战是什么？

DeepSeek联合清北发布DualPath：如何打破智能体大模型的存储带宽瓶颈？

从算力瓶颈到带宽瓶颈：智能体推理的新挑战是什么？

一、为什么智能体推理会遇到带宽瓶颈？

二、传统 Prefill-Decode 架构有什么问题？

三、DualPath 如何解决这个问题？

1.利用 Decode 节点闲置带宽

2.打破单点瓶颈

3.动态负载均衡

四、效果能接近翻倍的原因

加入讨论

延伸阅读

AI Agent的记忆设计是否应该模仿人类大脑？

什么是 AI 与创意软件的“深度集成”？它和传统插件有何不同？

Project Genie如何实现从图片到可探索世界的生成？

What Makes Content Irreplaceable in the Age of Seedance and Sora?

多智能体协作如何优化复杂任务流程？

为什么KV Cache才是大模型部署的隐形杀手？