DeepSeek联合清北发布DualPath:如何打破智能体大模型的存储带宽瓶颈?
aikeji
02-26
34


DeepSeek联合清北发布的论文 《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》。这篇论文没有讨论更大的模型、更多的参数,而是聚焦一个常被忽视但越来越关键的问题:

当大模型进入“智能体时代”,真正拖慢系统的,已经不是算力,而是数据搬运。


一、从“算力瓶颈”到“带宽瓶颈”

在传统大模型推理场景中,瓶颈通常是:

  • GPU 算力不够
  • 计算太慢
  • 模型太大

但智能体(Agentic LLM)场景不一样。

智能体推理的典型特征:

  • 多轮交互
  • 长上下文记忆
  • 高频 KV-Cache 复用
  • 每轮生成 token 很少
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

这可能只是一个开始。 未来的 Agent 基础设施之战,很可能不再发生在模型层,而是发生在“数据流动方式”上。

论文地址:https://arxiv.org/pdf/2602.21548

更多AI科技内容,微信搜索橙市播客小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
世界模型来了:Google Project Genie 正在打开“可交互AI世界”的大门
上一篇
谷歌突然发布 Nano Banana 2:图像生成进入“速度 × 世界知识”时代
下一篇
生成中...
点赞是美意,赞赏是鼓励