从算力瓶颈到带宽瓶颈:智能体推理的新挑战是什么?

6 参与者

从算力瓶颈到带宽瓶颈:智能体推理的新挑战是什么?

DeepSeek联合清北发布的论文 《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》 提出了一个关键观点:当大模型进入“智能体时代”,真正拖慢系统的,已经不是算力,而是数据搬运。大家怎么看这个转变?

一、为什么智能体推理会遇到带宽瓶颈?

传统大模型推理的瓶颈通常是:

  • GPU 算力不够
  • 计算太慢
  • 模型太大

但智能体(Agentic LLM)场景完全不同,其典型特征包括:

  • 多轮交互
  • 长上下文记忆
  • 高频 KV-Cache 复用
  • 每轮生成 token 很少

举个简单例子: 一个智能体在 30 轮对话后,可能已经积累了几十万 token 的上下文。接下来每生成一个新 token,它都要“回看”之前的 KV-Cache。这时候会出现什么情况?

  • 每一轮生成的计算量很小,但读取历史 KV-Cache 的数据量非常大
  • GPU 没跑满,计算单元在等数据
  • 存储带宽先被打爆

真正的瓶颈,从“算力”转移到了“数据搬运”。这是否颠覆了你们对传统性能瓶颈的认知?

二、传统 Prefill-Decode 架构有什么问题?

当前主流推理架构是 Prefill-Decode 分离

  • Prefill 节点:加载上下文 + 构建 KV-Cache
  • Decode 节点:生成新 token

问题在于所有 KV-Cache 都从存储加载到 Prefill,形成单路径:

存储 → Prefill → Decode

这导致:

  • Prefill 节点的存储带宽被压满
  • Decode 节点的带宽资源却闲置
  • 系统整体吞吐量受限于单点带宽

这不是算力浪费,而是网络带宽资源分布不均。大家在实际应用中有没有遇到过类似问题?

三、DualPath 如何解决这个问题?

DualPath 的核心思想非常简单但巧妙:

不再只通过 Prefill 加载 KV-Cache。

它增加了一条新路径:

存储 → Decode →(高速 RDMA 网络)→ Prefill

于是系统变成“双路径加载”:

  • 路径 1:存储 → Prefill
  • 路径 2:存储 → Decode → Prefill

这样带来的改变是本质性的:

1.利用 Decode 节点闲置带宽

原本闲着的网络资源被利用起来。

2.打破单点瓶颈

不再让 Prefill 独自承受所有 KV 读取。

3.动态负载均衡

系统可以根据实时负载决定走哪条路径。

本质上,DualPath 不是提升算力,而是重新设计数据流动方式。这种思路转变是不是很有启发性?

四、效果能接近翻倍的原因

论文实验结果显示:

  • 离线吞吐提升最高 1.87×
  • 在线场景平均提升 1.96×
  • 不影响 SLO

为什么能这么夸张?因为之前的系统是被严重“卡脖子”的:GPU 一直在等数据。这说明优化数据搬运比单纯堆算力更有效。


讨论话题:

  1. 你们在实际开发或使用智能体应用时,有没有观察到类似的“数据搬运”瓶颈?
  2. DualPath 的“双路径”设计思路,在其他领域是否有借鉴意义?
  3. 除了带宽瓶颈,你们认为智能体推理还面临哪些新的技术挑战?
  4. 这种从“算力优先”到“数据流优化”的思维转变,会对未来的 AI 系统设计产生什么影响?

欢迎大家分享自己的见解和经验!

加入讨论

6 条评论

延伸阅读