通义大模型史上最大升级:六款新模型与一个全新品牌,构筑全模态全场景 AI 基础设施
一个老翁
09-25
69

通义大模型史上最大升级:六款新模型与一个全新品牌,构筑全模态全场景 AI 基础设施

2025 云栖大会现场,阿里云智能集团 CTO 周靖人用 38 分钟,发布了通义家族迄今为止最庞大的一次更新--6 款新模型 + 1 个企业级语音品牌,覆盖文本、视觉、语音、视频、代码、图像六大模态,并同步开源、上线 API。从万亿参数的旗舰底座,到 10 秒 1080P 音画同步的视频生成,再到 5 分钟落地的企业语音客服,通义完成了「全模态、全场景、全落地」的最后一块拼图。


一、Qwen-Max:万亿参数旗舰底座,首次揭开面纱

  • 参数规模:公开信息显示,Qwen-Max 采用 MoE(混合专家)架构,总参数突破 1.2 万亿,激活参数约 200B,预训练数据量 28T tokens,后训练阶段引入 2400 万条人类反馈。
  • Benchmark
    • 代码:SWE-Bench Verified 69.6%,工具调用成功率 92%,均居国内第一。
    • 数学:AIME 2025、HMMT 2 月赛两项 100 分,MATH 数据集 98.4。
    • 推理模式:Instruct & Thinking 双引擎,Thinking 模式下可并行调用 8 个工具,单轮推理步骤上限 8K tokens,支持「自我批判」与「回滚验证」。

现场演示:给 Qwen-Max 一张手写数学题照片,它先 OCR,再调用 Python 解释器做符号推导,最后把 LaTeX 结果回传,全程 18 秒,步骤可追溯。


二、Qwen3-Omni:真正「端到端」全模态大模型

  • 架构:Thinker-Talker MoE,Thinker 负责文本/视觉/音频统一语义,Talker 专注语音解码,二者通过 2.4 Gbps 高速总线耦合,避免传统「ASR+LLM+TTS」三段式级联误差。
  • 语言能力:输入 19 种语言/方言(含四川话、粤语、东北话),输出 10 种主流语言,跨语种延迟 < 300 ms。
  • 长音频:30 分钟会议录音直接给结论,支持「谁说了什么 + 关键决策 + 待办事项」三级摘要,字错率 3.2%。
  • 语音克隆:5 秒参考音频即可复刻音色,跨语种迁移保持 92% 相似度。
  • 安全:内置语音深度鉴伪,可识别 AI 合成语音,误报率 0.3%。

现场彩蛋:主持人用河南话让 Qwen3-Omni「用粤语唱《孤勇者》」,模型先翻译歌词,再生成对应旋律,音色保持主持人声线,观众掌声长达 20 秒。


三、Qwen3-VL:把「视觉」做成智能体

  • 上下文:256K 起步,最高 1M tokens,等于一次性看完 12 小时 2K 视频。
  • 视频定位:自然语言搜索 2 小时片源,秒级返回镜头区间,平均误差 0.8 秒。
  • OCR 语言:32 种,生僻字覆盖率 99.1%,竖排古籍识别 F1 97.4。
  • GUI Agent:基于 Qwen3-VL 的 PC/手机操作智能体,在 AndroidWorld 基准任务成功率 86%,比 GPT-4o 高 22 个百分点。
  • 3D Grounding:单张室内图即可估算物体 3D 边框,支持遮挡关系推理,用于 AR 眼镜导航。
  • 安防场景:在 10 万小时真实监控数据微调,打架、持刀、纵火三类事件检测准确率 94.7%,误报率 0.5%。

四、Qwen-Image-Edit-2509:多图、一致、可控三大突破

  • 多图编辑:支持「人+商品」「人+场景」「商品+背景」三联图联合编辑,保持光照、透视一致。
  • ID 保持:人脸编辑采用「语义-纹理」双分支,Edit Distance 0.09,肉眼基本无感。
  • 商品海报:上传白底图,一句「做成赛博朋克霓虹海报」直接出 4K 图,字体、光影、透视自动匹配。
  • 文字编辑:对原图文字进行字体、颜色、材质、立体样式修改,边缘毛刺像素 < 1。
  • ControlNet 原生:深度图、Canny、OpenPose、MLSD 等 8 种条件同时输入,出图时间 3.6 秒。

五、Qwen3-Coder:项目级代码 Agent 正式登场

  • 上下文:256K,实测可一次性理解 1800 文件 Java 单体架构。
  • Agent 训练:与通义灵码 IDE 插件联合 RL,训练数据含 120 万条「需求 → 文件级 diff → 回归测试结果」三元组。
  • 性能
    • SWE-Bench Verified 70.3%,全球第二,仅次于 Claude 3.5 Sonnet 新版的 71.2%。
    • TerminalBench 提升 19 分,CLI 命令一次成功率 81%。
  • 多模态:截图 + 自然语言 → 直接生成可运行代码,支持 React、Unity、Blender Python。
  • 安全:内置静态扫描,生成代码漏洞率 0.6%,低于人类平均 1.1%。

现场演示:用一张手绘的产品原型图,Qwen3-Coder 5 分钟生成 430 行 React+Tailwind 代码,直接 npm run dev 跑通,UI 还原度 96%。


六、Wan2.5-Preview:通义万相迈入「音画同步」时代

  • 视频生成
    • 10 秒 1080P 24fps,支持 16:9、9:16、1:1 三比例。
    • 原生音画同步:人声、ASMR、环境音、BGM 一次出齐。
    • 音频驱动:上传 10 秒 WAV,可让嘴型、表情、身体节奏完全对齐,误差 < 40 ms。
  • 文生图
    • 科学图表、流程图、艺术字、长文本海报,一图生成,矢量可编辑。
    • 复杂构图:「宇航员在故宫骑共享单车」这类多主体、多风格、多光源场景,FID 3.2。
  • 图像编辑
    • 支持「换背景、改颜色、加元素、调风格」四大类 30 余项子任务。
    • 人脸/商品 ID 保持,编辑前后相似度 93%,解决「换背景脸就崩」痛点。

七、通义百聆:企业级语音基座大模型

  • Fun-ASR
    • 幻觉率从 78.5% 降到 10.7%,根治「中文里突然蹦英文」的串语种问题。
    • 热词动态注入:金融、医疗、制造等 60 万术语,召回 100%,无需重新训练。
  • Fun-CosyVoice
    • 跨语种克隆:中文音色说英文、法语、阿拉伯语,自然度 MOS 4.52。
    • 情绪控制:喜、怒、哀、乐、惊讶、恐惧 6 维细腻调节,支持「小声抱怨」「兴奋尖叫」等 30 种风格。
  • 落地工具链
    • 5 分钟术语配置,30 分钟在线测试,2 小时灰度上线。
    • 支持 FreeSWITCH、Asterisk、阿里云呼叫中心、钉钉会议 6 大主流平台。
    • 成本:语音识别 0.4 元/小时,语音合成 0.6 元/千次,比传统方案降 60%。

案例:某城商行 3 天完成 92 万条客服录音质检,检出风险话术 1.2 万条,人工复核工作量减少 85%。


八、开源与商用

  • 开源地址
    • GitHub:github.com/Qwen
    • ModelScope:modelscope.cn/organization/Qwen
    • Hugging Face:huggingface.co/Qwen
  • API 入口
    • 阿里云百炼平台:bailian.aliyun.com
    • 限时免费:Qwen3-Omni、Qwen3-VL、Qwen3-Coder 三款模型 9 月 30 日前调用量全免。
  • licence
    • 代码与权重采用 Apache 2.0,商业用途无限制;
    • 语音克隆模块增加「可接受使用条款」,禁止政治伪造与诈骗场景。

九、写在最后

从 2023 年 4 月第一代 7B 开源,到 2025 年 9 月万亿 Max 发布,通义用 887 天完成了从「追赶到并跑」的跨越。今天,当多模态不再只是 demo,当语音助手可以 5 分钟落地企业客服,当视频生成自带同步音效,我们终于可以说:大模型进入「真刀真枪」的产业深耕期。

通义没有停留在炫技,而是把每一焦耳算力都转化为可丈量、可落地、可商业化的生产力。正如周靖人在发布尾声所言:

「我们希望让 AI 像水电煤一样流入千行百业,而通义就是这根管子。」

管子已经铺好,接下来,就看开发者与行业伙伴如何用它灌溉下一个十年。



微信扫描下方的二维码阅读更多精彩内容

打赏
iPhone17来了:三步搞定数据迁移,轻松无缝换机
上一篇
从生活照到简历照:AI 一键生成“高管感”形象,附可复制提示词
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #产品设计 #OpenAI #模型 #开源 #城市名片 #Gemini #马斯克 #Google #3D #写真 #AI视频 #UI #claude #计算机视觉 #苹果 #DeepSeek #电商 #iPhone #播客 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #阿里 #sora #tesla #IDE #买车 #选车 #干货 #搜索 #汽车 #机器人 #Anthropic #通义 #space #星舰 #智慧城市 #OCR #Atlas #微信 #AI手办 #混元 #英伟达 #NVIDIA #宇宙 #veo #百度 #浏览器 #地理空间 #Agent #工作流 #自动化 #AI编码 #iPhone17 #AI搜索 #手办 #小米 #具身智能 #Gemma #火山引擎 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #人工智能 #摄影艺术 #AI推理 #商业思维 #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #智谱 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #多模态 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #工具 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #AI手机 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励