
2025 年 12 月 的第一天,DeepSeek 正式发布了 DeepSeek-V3.2 及其增强版本 DeepSeek-V3.2-Speciale。这两个版本标志着开源大型语言模型(LLM)在推理能力、长文本处理以及复杂任务处理方面达到了新的高度。
1. DeepSeek-V3.2:通用与高效的平衡

1.1 背景与定位
DeepSeek-V3.2 是 DeepSeek 在 V3 系列基础上的正式升级版本。相比 V3.1,它引入了 稀疏注意力机制 (DeepSeek Sparse Attention, DSA),优化了长文本处理效率,并保持了推理、对话、工具调用等多场景能力的平衡。
DSA 可以让模型在处理长文本时,仅对最相关的 token 执行注意力计算,从而显著降低计算复杂度和资源消耗。
什么意思呢,就是之前模型处理长文档、长对话的时候可能会慢、占内存多,现在 V3.2 引入了 稀疏注意力(DSA),就像“只看重点,不看全场”,计算量少了很多,速度快了,也省资源。
1.2 核心技术
- 稀疏注意力 (DSA):通过 “lightning indexer + token selection” 模块,模型只关注最重要的上下文信息,实现 O(n·k) 级复杂度(k ≪ n),相比传统 O(n²) dense attention 高效许多。
- Mixture-of-Experts (MoE) + Transformer 架构:结合多头注意力和稀疏机制,使模型既能推理,又能对话,还能调用工具。
- 多场景优化:兼顾问答、对话、写作辅助和工具调用能力,适用于日常 AI 应用和企业场景。
DeepSeek官网网页、APP、API 模型均已由 DeepSeek-V3.2-Exp 升级为正式版 DeepSeek-V3.2,使用方式不变。
DeepSeek-V3.2-Speciale 的 API 服务,用户可以通过设置
base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"
原创文章,更多AI科技内容,微信搜索 橙 市 播 客小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明