
2025 云栖大会现场,阿里云智能集团 CTO 周靖人用 38 分钟,发布了通义家族迄今为止最庞大的一次更新--6 款新模型 + 1 个企业级语音品牌,覆盖文本、视觉、语音、视频、代码、图像六大模态,并同步开源、上线 API。从万亿参数的旗舰底座,到 10 秒 1080P 音画同步的视频生成,再到 5 分钟落地的企业语音客服,通义完成了「全模态、全场景、全落地」的最后一块拼图。
一、Qwen-Max:万亿参数旗舰底座,首次揭开面纱
- 参数规模:公开信息显示,Qwen-Max 采用 MoE(混合专家)架构,总参数突破 1.2 万亿,激活参数约 200B,预训练数据量 28T tokens,后训练阶段引入 2400 万条人类反馈。
- Benchmark
- 代码:SWE-Bench Verified 69.6%,工具调用成功率 92%,均居国内第一。
- 数学:AIME 2025、HMMT 2 月赛两项 100 分,MATH 数据集 98.4。
- 推理模式:Instruct & Thinking 双引擎,Thinking 模式下可并行调用 8 个工具,单轮推理步骤上限 8K tokens,支持「自我批判」与「回滚验证」。
现场演示:给 Qwen-Max 一张手写数学题照片,它先 OCR,再调用 Python 解释器做符号推导,最后把 LaTeX 结果回传,全程 18 秒,步骤可追溯。
二、Qwen3-Omni:真正「端到端」全模态大模型
- 架构:Thinker-Talker MoE,Thinker 负责文本/视觉/音频统一语义,Talker 专注语音解码,二者通过 2.4 Gbps 高速总线耦合,避免传统「ASR+LLM+TTS」三段式级联误差。
- 语言能力:输入 19 种语言/方言(含四川话、粤语、东北话),输出 10 种主流语言,跨语种延迟 < 300 ms。
- 长音频:30 分钟会议录音直接给结论,支持「谁说了什么 + 关键决策 + 待办事项」三级摘要,字错率 3.2%。
- 语音克隆:5 秒参考音频即可复刻音色,跨语种迁移保持 92% 相似度。
- 安全:内置语音深度鉴伪,可识别 AI 合成语音,误报率 0.3%。
现场彩蛋:主持人用河南话让 Qwen3-Omni「用粤语唱《孤勇者》」,模型先翻译歌词,再生成对应旋律,音色保持主持人声线,观众掌声长达 20 秒。
从 2023 年 4 月第一代 7B 开源,到 2025 年 9 月万亿 Max 发布,通义用 887 天完成了从「追赶到并跑」的跨越。今天,当多模态不再只是 demo,当语音助手可以 5 分钟落地企业客服,当视频生成自带同步音效,我们终于可以说:大模型进入「真刀真枪」的产业深耕期。
通义没有停留在炫技,而是把每一焦耳算力都转化为可丈量、可落地、可商业化的生产力。正如周靖人在发布尾声所言:
「我们希望让 AI 像水电煤一样流入千行百业,而通义就是这根管子。」
管子已经铺好,接下来,就看开发者与行业伙伴如何用它灌溉下一个十年。
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明