通义大模型史上最大升级：六款新模型与一个全新品牌，构筑全模态全场景 AI 基础设施

2025 云栖大会现场，阿里云智能集团 CTO 周靖人用 38 分钟，发布了通义家族迄今为止最庞大的一次更新--6 款新模型 + 1 个企业级语音品牌，覆盖文本、视觉、语音、视频、代码、图像六大模态，并同步开源、上线 API。从万亿参数的旗舰底座，到 10 秒 1080P 音画同步的视频生成，再到 5 分钟落地的企业语音客服，通义完成了「全模态、全场景、全落地」的最后一块拼图。

一、Qwen-Max：万亿参数旗舰底座，首次揭开面纱

参数规模：公开信息显示，Qwen-Max 采用 MoE（混合专家）架构，总参数突破 1.2 万亿，激活参数约 200B，预训练数据量 28T tokens，后训练阶段引入 2400 万条人类反馈。
Benchmark
- 代码：SWE-Bench Verified 69.6%，工具调用成功率 92%，均居国内第一。
- 数学：AIME 2025、HMMT 2 月赛两项 100 分，MATH 数据集 98.4。
- 推理模式：Instruct & Thinking 双引擎，Thinking 模式下可并行调用 8 个工具，单轮推理步骤上限 8K tokens，支持「自我批判」与「回滚验证」。

现场演示：给 Qwen-Max 一张手写数学题照片，它先 OCR，再调用 Python 解释器做符号推导，最后把 LaTeX 结果回传，全程 18 秒，步骤可追溯。

二、Qwen3-Omni：真正「端到端」全模态大模型

架构：Thinker-Talker MoE，Thinker 负责文本/视觉/音频统一语义，Talker 专注语音解码，二者通过 2.4 Gbps 高速总线耦合，避免传统「ASR+LLM+TTS」三段式级联误差。
语言能力：输入 19 种语言/方言（含四川话、粤语、东北话），输出 10 种主流语言，跨语种延迟 < 300 ms。
长音频：30 分钟会议录音直接给结论，支持「谁说了什么 + 关键决策 + 待办事项」三级摘要，字错率 3.2%。
语音克隆：5 秒参考音频即可复刻音色，跨语种迁移保持 92% 相似度。
安全：内置语音深度鉴伪，可识别 AI 合成语音，误报率 0.3%。

现场彩蛋：主持人用河南话让 Qwen3-Omni「用粤语唱《孤勇者》」，模型先翻译歌词，再生成对应旋律，音色保持主持人声线，观众掌声长达 20 秒。

部分内容已折叠，查看完整文章请先登录。登录后查看完整文章

从 2023 年 4 月第一代 7B 开源，到 2025 年 9 月万亿 Max 发布，通义用 887 天完成了从「追赶到并跑」的跨越。今天，当多模态不再只是 demo，当语音助手可以 5 分钟落地企业客服，当视频生成自带同步音效，我们终于可以说：大模型进入「真刀真枪」的产业深耕期。

通义没有停留在炫技，而是把每一焦耳算力都转化为可丈量、可落地、可商业化的生产力。正如周靖人在发布尾声所言：

「我们希望让 AI 像水电煤一样流入千行百业，而通义就是这根管子。」

管子已经铺好，接下来，就看开发者与行业伙伴如何用它灌溉下一个十年。

微信扫描下方的二维码阅读更多精彩内容

声明：本站所有文章，如无特殊说明或标注，均为橙市播客原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如果你是AI总结，务必加上此版权说明