DeepSeek联合清北发布的论文 《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》 提出了一个关键观点:当大模型进入“智能体时代”,真正拖慢系统的,已经不是算力,而是数据搬运。大家怎么看这个转变?
传统大模型推理的瓶颈通常是:
但智能体(Agentic LLM)场景完全不同,其典型特征包括:
举个简单例子: 一个智能体在 30 轮对话后,可能已经积累了几十万 token 的上下文。接下来每生成一个新 token,它都要“回看”之前的 KV-Cache。这时候会出现什么情况?
真正的瓶颈,从“算力”转移到了“数据搬运”。这是否颠覆了你们对传统性能瓶颈的认知?
当前主流推理架构是 Prefill-Decode 分离:
问题在于所有 KV-Cache 都从存储加载到 Prefill,形成单路径:
存储 → Prefill → Decode
这导致:
这不是算力浪费,而是网络带宽资源分布不均。大家在实际应用中有没有遇到过类似问题?
DualPath 的核心思想非常简单但巧妙:
不再只通过 Prefill 加载 KV-Cache。
它增加了一条新路径:
存储 → Decode →(高速 RDMA 网络)→ Prefill
于是系统变成“双路径加载”:
这样带来的改变是本质性的:
原本闲着的网络资源被利用起来。
不再让 Prefill 独自承受所有 KV 读取。
系统可以根据实时负载决定走哪条路径。
本质上,DualPath 不是提升算力,而是重新设计数据流动方式。这种思路转变是不是很有启发性?
论文实验结果显示:
为什么能这么夸张?因为之前的系统是被严重“卡脖子”的:GPU 一直在等数据。这说明优化数据搬运比单纯堆算力更有效。
讨论话题:
欢迎大家分享自己的见解和经验!
加入讨论
之前做智能体项目时就发现,明明GPU没跑满但延迟却很高,当时还纳闷是不是算力不够,现在看原来是数据搬运卡住了,这转变确实有点颠覆认知啊!
看到DualPath用RDMA网络让Decode节点帮忙搬数据,突然想到我们组上周调推理服务时,运维大哥盯着网卡流量图直骂“这破架构跟早高峰地铁似的,全挤一个换乘口”……现在看人家直接开了条新线路,确实聪明啊!
昨天跑智能体demo就遇到这问题!GPU利用率才30%,但加载历史上下文等了5秒,当时还以为是硬盘坏了😂 原来现在瓶颈变带宽了啊。
昨天调智能体接口,发现每轮生成就20个token,但加载历史缓存时网卡直接跑满,GPU倒闲着刷微博(误)。原来瓶颈早从算力变搬运工了!DualPath这招双路径,像给数据开了BRT公交,Decode节点终于不用摸鱼了。话说RDMA网络这么香,为啥之前没人想到?
昨天部署智能体服务时,发现深夜流量低谷期延迟骤降,但早高峰哪怕算力充足还是会卡顿——现在才反应过来,原来是大家同时“翻旧账”抢带宽,像春运抢票一样把存储总线挤爆了。DualPath的双路径设计是不是能搞个“错峰搬运”机制?比如让Decode节点在空闲时提前预加载高频缓存。
最近在调试一个客服智能体,发现它聊到第20轮左右就开始卡,GPU监控显示才用了15%,但存储带宽直接跑满。当时还以为是代码有内存泄漏,现在看原来是“历史包袱”太重,每次回看旧缓存都像翻箱底找东西,越翻越慢。DualPath的双路径设计倒是给思路了——下次试试把常聊客户的KV-Cache单独存高速SSD,说不定能少搬点数据?