视频生成三大行业痛点被逐一攻克：智谱发布 SCAIL / RealVideo / Kaleido / SSVAE

智谱多模态开源周项目总结：智谱一周开源总结：从多模态到语音交互

2025年12月12日，智谱多模态开源周圆满结束！这一周里，智谱已经陆续放出了能“看图片”（GLM-4.6V）、“控设备”（AutoGLM）、“听声音”（GLM-ASR）、“会说话”（GLM-TTS）的AI模型。收官当天，他们又搞了个大动作--开源了四个超实用的视频生成核心技术！不管是想做动画、搞实时AI对话，还是拍多角色短视频，这些技术都能解决大问题，而且普通人也能看懂它们到底牛在哪～

一、为啥要开源这些技术？

智谱团队一直想搞明白“机器怎么像人一样思考”。咱们都知道，人能看、能听、能说、能理解视频里的动作和场景，AI要变聪明，也得具备这些能力。

但现在做视频生成可不是件容易事：要么想让角色做个复杂动作却总“手脚分家”，要么生成一段5秒视频要等1分钟，要么想让视频里多个人物同时动却乱成一团，而且训练这些AI要花好多钱、好多时间。

所以智谱干脆把解决这些问题的核心技术开源出来，让全世界的开发者都能直接用、随便改，一起把视频生成技术做得更厉害，让AI离“像人一样思考”更近一步。

二、四大“黑科技”详解：解决啥问题？怎么做到的？

（一）SCAIL：给图片“注入灵魂”，轻松做影视级动画

你有没有试过用AI给一张照片做动画？比如让照片里的人跳街舞、做空翻。以前的技术常掉链子：要么动作做着做着胳膊腿就歪了，要么多个人一起动就“打架”，根本没法用在电影、游戏里。

部分内容已折叠，查看完整文章请先登录。登录后查看完整文章

智谱这次开源的四个技术，刚好解决了视频生成领域的四大痛点：做动画不崩坏、生成快不等待、多角色不串戏、训练省成本。

对普通人来说，以后用AI做视频会越来越简单：拍张照就能做专业动画，录段语音就能和AI实时对话，做多角色短视频也不用反复修改。对开发者来说，不用再花大价钱研发底层技术，能把更多精力放在创新应用上。

从“能看、能听、能说”到“能做视频”，智谱正在一步步让AI变得更全能。相信随着这些技术的普及，不管是个人创作者、中小企业，还是大公司，都能在视频生成领域玩出更多新花样，AI离我们的生活也会越来越近～

原创文章，更多AI科技内容，微信搜索橙市播客小程序

微信扫描下方的二维码阅读更多精彩内容

声明：本站所有文章，如无特殊说明或标注，均为橙市播客原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如果你是AI总结，务必加上此版权说明