
2025 云栖大会现场,阿里云智能集团 CTO 周靖人用 38 分钟,发布了通义家族迄今为止最庞大的一次更新--6 款新模型 + 1 个企业级语音品牌,覆盖文本、视觉、语音、视频、代码、图像六大模态,并同步开源、上线 API。从万亿参数的旗舰底座,到 10 秒 1080P 音画同步的视频生成,再到 5 分钟落地的企业语音客服,通义完成了「全模态、全场景、全落地」的最后一块拼图。
一、Qwen-Max:万亿参数旗舰底座,首次揭开面纱
- 参数规模:公开信息显示,Qwen-Max 采用 MoE(混合专家)架构,总参数突破 1.2 万亿,激活参数约 200B,预训练数据量 28T tokens,后训练阶段引入 2400 万条人类反馈。
- Benchmark
- 代码:SWE-Bench Verified 69.6%,工具调用成功率 92%,均居国内第一。
- 数学:AIME 2025、HMMT 2 月赛两项 100 分,MATH 数据集 98.4。
- 推理模式:Instruct & Thinking 双引擎,Thinking 模式下可并行调用 8 个工具,单轮推理步骤上限 8K tokens,支持「自我批判」与「回滚验证」。
现场演示:给 Qwen-Max 一张手写数学题照片,它先 OCR,再调用 Python 解释器做符号推导,最后把 LaTeX 结果回传,全程 18 秒,步骤可追溯。
二、Qwen3-Omni:真正「端到端」全模态大模型
- 架构:Thinker-Talker MoE,Thinker 负责文本/视觉/音频统一语义,Talker 专注语音解码,二者通过 2.4 Gbps 高速总线耦合,避免传统「ASR+LLM+TTS」三段式级联误差。
- 语言能力:输入 19 种语言/方言(含四川话、粤语、东北话),输出 10 种主流语言,跨语种延迟 < 300 ms。
- 长音频:30 分钟会议录音直接给结论,支持「谁说了什么 + 关键决策 + 待办事项」三级摘要,字错率 3.2%。
- 语音克隆:5 秒参考音频即可复刻音色,跨语种迁移保持 92% 相似度。
- 安全:内置语音深度鉴伪,可识别 AI 合成语音,误报率 0.3%。
现场彩蛋:主持人用河南话让 Qwen3-Omni「用粤语唱《孤勇者》」,模型先翻译歌词,再生成对应旋律,音色保持主持人声线,观众掌声长达 20 秒。
三、Qwen3-VL:把「视觉」做成智能体
- 上下文:256K 起步,最高 1M tokens,等于一次性看完 12 小时 2K 视频。
- 视频定位:自然语言搜索 2 小时片源,秒级返回镜头区间,平均误差 0.8 秒。
- OCR 语言:32 种,生僻字覆盖率 99.1%,竖排古籍识别 F1 97.4。
- GUI Agent:基于 Qwen3-VL 的 PC/手机操作智能体,在 AndroidWorld 基准任务成功率 86%,比 GPT-4o 高 22 个百分点。
- 3D Grounding:单张室内图即可估算物体 3D 边框,支持遮挡关系推理,用于 AR 眼镜导航。
- 安防场景:在 10 万小时真实监控数据微调,打架、持刀、纵火三类事件检测准确率 94.7%,误报率 0.5%。
四、Qwen-Image-Edit-2509:多图、一致、可控三大突破
- 多图编辑:支持「人+商品」「人+场景」「商品+背景」三联图联合编辑,保持光照、透视一致。
- ID 保持:人脸编辑采用「语义-纹理」双分支,Edit Distance 0.09,肉眼基本无感。
- 商品海报:上传白底图,一句「做成赛博朋克霓虹海报」直接出 4K 图,字体、光影、透视自动匹配。
- 文字编辑:对原图文字进行字体、颜色、材质、立体样式修改,边缘毛刺像素 < 1。
- ControlNet 原生:深度图、Canny、OpenPose、MLSD 等 8 种条件同时输入,出图时间 3.6 秒。
五、Qwen3-Coder:项目级代码 Agent 正式登场
- 上下文:256K,实测可一次性理解 1800 文件 Java 单体架构。
- Agent 训练:与通义灵码 IDE 插件联合 RL,训练数据含 120 万条「需求 → 文件级 diff → 回归测试结果」三元组。
- 性能
- SWE-Bench Verified 70.3%,全球第二,仅次于 Claude 3.5 Sonnet 新版的 71.2%。
- TerminalBench 提升 19 分,CLI 命令一次成功率 81%。
- 多模态:截图 + 自然语言 → 直接生成可运行代码,支持 React、Unity、Blender Python。
- 安全:内置静态扫描,生成代码漏洞率 0.6%,低于人类平均 1.1%。
现场演示:用一张手绘的产品原型图,Qwen3-Coder 5 分钟生成 430 行 React+Tailwind 代码,直接 npm run dev 跑通,UI 还原度 96%。
六、Wan2.5-Preview:通义万相迈入「音画同步」时代
- 视频生成
- 10 秒 1080P 24fps,支持 16:9、9:16、1:1 三比例。
- 原生音画同步:人声、ASMR、环境音、BGM 一次出齐。
- 音频驱动:上传 10 秒 WAV,可让嘴型、表情、身体节奏完全对齐,误差 < 40 ms。
- 文生图
- 科学图表、流程图、艺术字、长文本海报,一图生成,矢量可编辑。
- 复杂构图:「宇航员在故宫骑共享单车」这类多主体、多风格、多光源场景,FID 3.2。
- 图像编辑
- 支持「换背景、改颜色、加元素、调风格」四大类 30 余项子任务。
- 人脸/商品 ID 保持,编辑前后相似度 93%,解决「换背景脸就崩」痛点。
七、通义百聆:企业级语音基座大模型
- Fun-ASR
- 幻觉率从 78.5% 降到 10.7%,根治「中文里突然蹦英文」的串语种问题。
- 热词动态注入:金融、医疗、制造等 60 万术语,召回 100%,无需重新训练。
- Fun-CosyVoice
- 跨语种克隆:中文音色说英文、法语、阿拉伯语,自然度 MOS 4.52。
- 情绪控制:喜、怒、哀、乐、惊讶、恐惧 6 维细腻调节,支持「小声抱怨」「兴奋尖叫」等 30 种风格。
- 落地工具链
- 5 分钟术语配置,30 分钟在线测试,2 小时灰度上线。
- 支持 FreeSWITCH、Asterisk、阿里云呼叫中心、钉钉会议 6 大主流平台。
- 成本:语音识别 0.4 元/小时,语音合成 0.6 元/千次,比传统方案降 60%。
案例:某城商行 3 天完成 92 万条客服录音质检,检出风险话术 1.2 万条,人工复核工作量减少 85%。
八、开源与商用
- 开源地址
- GitHub:github.com/Qwen
- ModelScope:modelscope.cn/organization/Qwen
- Hugging Face:huggingface.co/Qwen
- API 入口
- 阿里云百炼平台:bailian.aliyun.com
- 限时免费:Qwen3-Omni、Qwen3-VL、Qwen3-Coder 三款模型 9 月 30 日前调用量全免。
- licence
- 代码与权重采用 Apache 2.0,商业用途无限制;
- 语音克隆模块增加「可接受使用条款」,禁止政治伪造与诈骗场景。
九、写在最后
从 2023 年 4 月第一代 7B 开源,到 2025 年 9 月万亿 Max 发布,通义用 887 天完成了从「追赶到并跑」的跨越。今天,当多模态不再只是 demo,当语音助手可以 5 分钟落地企业客服,当视频生成自带同步音效,我们终于可以说:大模型进入「真刀真枪」的产业深耕期。
通义没有停留在炫技,而是把每一焦耳算力都转化为可丈量、可落地、可商业化的生产力。正如周靖人在发布尾声所言:
「我们希望让 AI 像水电煤一样流入千行百业,而通义就是这根管子。」
管子已经铺好,接下来,就看开发者与行业伙伴如何用它灌溉下一个十年。
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
