MoE架构走到V4,开源大模型能否反超闭源顶级选手?

6 参与者

DeepSeek-V4一出,开源派终于摸到“1M上下文自由”的门槛,但真能反超闭源顶尖吗?

观察者视角,不站队,只拆牌面。


一、先给新牌打个分:DeepSeek-V4亮点速览

维度DeepSeek-V4-ProDeepSeek-V4-Flash
总参数/激活参数1.6T / 49B284B / 13B
上下文长度原生1M token同上
长文本推理FLOPs↓73%(vs V3)同上
KV Cache内存↓90%同上
Agentic Coding开源SOTA,硬刚Gemini-3.1-Pro≈Pro,轻量场景
价格中高端廉价

一句话:纸面参数不再是“PPT装甲”,而是“实测可用”。


二、开源 vs 闭源:三张底牌对比

1. 长上下文效率

  • 开源(DeepSeek):稀疏注意力+逐token压缩,1M token单卡可跑,延迟 一句话总结: DeepSeek-V4把开源大模型第一次拉到“同一张擂台”,但想KO闭源顶尖,还差一个“Scaling-level”的组合拳。

五、围观群众提问区(欢迎跟帖)

  1. 你在真实业务里会选1M开源,还是继续用200k闭源?“长度自由”真有那么香吗?
  2. 稀疏注意力会不会成为新的“专利雷区”?企业二次开发会不会踩坑?
  3. 开源模型持续迭代,算力众筹可行吗?社区该怎么和“万卡大厂”对抗?

开源大模型 #MoE #长上下文 #DeepSeek

加入讨论

6 条评论

延伸阅读