DeepSeek 最新模型 DeepSeek-V3.2发布:普通版与顶尖推理版有什么区别?
aikeji
12-01
102


2025 年 12 月 的第一天,DeepSeek 正式发布了 DeepSeek-V3.2 及其增强版本 DeepSeek-V3.2-Speciale。这两个版本标志着开源大型语言模型(LLM)在推理能力、长文本处理以及复杂任务处理方面达到了新的高度。

1. DeepSeek-V3.2:通用与高效的平衡

1.1 背景与定位

DeepSeek-V3.2 是 DeepSeek 在 V3 系列基础上的正式升级版本。相比 V3.1,它引入了 稀疏注意力机制 (DeepSeek Sparse Attention, DSA),优化了长文本处理效率,并保持了推理、对话、工具调用等多场景能力的平衡。

DSA 可以让模型在处理长文本时,仅对最相关的 token 执行注意力计算,从而显著降低计算复杂度和资源消耗。

什么意思呢,就是之前模型处理长文档、长对话的时候可能会慢、占内存多,现在 V3.2 引入了 稀疏注意力(DSA),就像“只看重点,不看全场”,计算量少了很多,速度快了,也省资源。

1.2 核心技术

  • 稀疏注意力 (DSA):通过 “lightning indexer + token selection” 模块,模型只关注最重要的上下文信息,实现 O(n·k) 级复杂度(k ≪ n),相比传统 O(n²) dense attention 高效许多。
  • Mixture-of-Experts (MoE) + Transformer 架构:结合多头注意力和稀疏机制,使模型既能推理,又能对话,还能调用工具。
  • 多场景优化:兼顾问答、对话、写作辅助和工具调用能力,适用于日常 AI 应用和企业场景。
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

DeepSeek官网网页、APP、API 模型均已由 DeepSeek-V3.2-Exp 升级为正式版 DeepSeek-V3.2,使用方式不变。

DeepSeek-V3.2-Speciale 的 API 服务,用户可以通过设置

base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"

原创文章,更多AI科技内容,微信搜索 橙 市 播 客小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
用一个提示词做出爆款盲盒风品牌小店,星巴克、KFC、香奈儿、苹果随便做
上一篇
复制即用!一键生成你家真实房间的超可爱3D小世界
下一篇
生成中...
点赞是美意,赞赏是鼓励