
智谱多模态开源周项目总结:智谱一周开源总结:从多模态到语音交互
2025年12月12日,智谱多模态开源周圆满结束!这一周里,智谱已经陆续放出了能“看图片”(GLM-4.6V)、“控设备”(AutoGLM)、“听声音”(GLM-ASR)、“会说话”(GLM-TTS)的AI模型。收官当天,他们又搞了个大动作--开源了四个超实用的视频生成核心技术!不管是想做动画、搞实时AI对话,还是拍多角色短视频,这些技术都能解决大问题,而且普通人也能看懂它们到底牛在哪~
一、为啥要开源这些技术?
智谱团队一直想搞明白“机器怎么像人一样思考”。咱们都知道,人能看、能听、能说、能理解视频里的动作和场景,AI要变聪明,也得具备这些能力。
但现在做视频生成可不是件容易事:要么想让角色做个复杂动作却总“手脚分家”,要么生成一段5秒视频要等1分钟,要么想让视频里多个人物同时动却乱成一团,而且训练这些AI要花好多钱、好多时间。
所以智谱干脆把解决这些问题的核心技术开源出来,让全世界的开发者都能直接用、随便改,一起把视频生成技术做得更厉害,让AI离“像人一样思考”更近一步。
二、四大“黑科技”详解:解决啥问题?怎么做到的?
(一)SCAIL:给图片“注入灵魂”,轻松做影视级动画
你有没有试过用AI给一张照片做动画?比如让照片里的人跳街舞、做空翻。以前的技术常掉链子:要么动作做着做着胳膊腿就歪了,要么多个人一起动就“打架”,根本没法用在电影、游戏里。
SCAIL就是来解决这个问题的,它能让一张静态图片,按照你想要的动作,做出专业级的动画,不管是单人还是多人互动都没问题。
它的厉害之处就两点,特别好懂:
- 给角色搭3D“骨架”:以前AI只看2D平面的手脚位置,就像看影子猜动作,很容易错。SCAIL会给角色建一个3D骨架,能看清谁在前、谁在后,胳膊会不会挡住腿,所以再复杂的动作也不会“肢体崩坏”。
- 让AI“看清全局动作”:以前AI做动画是“走一步看一步”,比如先做抬手动作,再做踢腿,容易不连贯。SCAIL让AI先看清整个动作序列(比如从起跳、空翻到落地),再逐帧生成,动作自然更流畅,多人配合也不会乱。
现在不管是做游戏角色动画,还是电影里的虚拟人物动作,用SCAIL都能省不少事,效果还专业。
(二)RealVideo:2-3秒出视频,和AI“面对面”聊天不是梦
以前用AI生成视频,简直是“漫长的等待”--想让AI角色说句话,等1分钟才能看到5秒的视频,根本没法实时对话。
RealVideo最牛的地方就是“快”!把生成视频的等待时间从几分钟压缩到2-3秒,还能生成好几分钟的连续视频,就像和AI角色“面对面”聊天一样。
它是怎么做到这么快的?三个小技巧:
- 让AI“学着不跑偏”:通过特殊训练,让AI生成视频时不会越做越离谱(比如人物脸突然变形),不用反复修改浪费时间。
- 让AI“记重点不贪多”:生成长视频时,AI只保留关键信息,不用记住每一个细节,这样运行速度就快了,还能一直生成不中断。
- 多流程“同时开工”:把AI对话、语音合成、视频生成这些步骤串起来,同时进行,不用等一个步骤做完再做下一个,自然省时间。
现在只要给一张照片、录3秒语音,就能让AI角色用你的声音实时回应你,不管是做虚拟客服、数字人直播,还是在线教学,都特别实用。
原创文章,更多AI科技内容,微信搜索橙市播客小程序
(三)Kaleido:多角色同框不“串戏”,背景人物都听话
想让视频里多个人物+物体一起动,还不混乱?以前的AI常犯傻:要么把背景当成人物的一部分(比如把沙发颜色当成衣服颜色),要么同一个人前后帧长得不一样,特别影响观感。
Kaleido就是“多角色视频神器”,能让多个主体(比如人和宠物、多个人)在视频里保持一致,背景也不会乱飘,生成效果超自然。
它的核心秘诀:
- 给每个角色“贴专属标签”:AI会给每个参考图里的主体(比如这个人、这只狗)做独立标记,分清谁是谁,不会搞混。
- 让AI“学会挑重点”:通过特殊的训练数据,让AI知道“什么是主体,什么是背景”,不会把沙发、墙壁这些背景信息当成人物特征,生成时主体动作更灵活,背景也不会乱复制。
比如你想做“女生和柴犬在床边互动”的视频,用Kaleido就能让女生和柴犬的样子一直不变,动作自然,背景也不会突然变样,比同类工具效果好太多。
(四)SSVAE:训练AI“省时间省 money”,3倍速度还不打折
训练一个视频生成AI,不仅要花好几个月,还得用超贵的服务器,普通人根本扛不住。以前的技术总想着“把画面做得更清晰”,却忽略了训练效率。
SSVAE的核心作用就是“提速降本”,让AI训练速度快3倍,还不用多花钱,效果反而更好。
它的关键发现:AI训练时,比起追求画面像素级的清晰,不如让AI掌握核心规律(比如人物动作的逻辑)。通过特殊优化,让AI只学关键规律,不用在细枝末节上浪费时间,这样:
- 训练时间从3个月缩短到1个月;
- 以前需要40亿参数才能达到的效果,现在13亿参数就够了,服务器成本直接省了67.5%。
对开发者来说,这意味着不用花大价钱,就能快速训练出好用的视频生成AI,门槛一下子降低了很多。原创文章,更多AI科技内容,微信搜索橙市播客小程序
三、想要用这些技术?直接拿!
智谱已经把这四项技术的代码和模型全部公开,开发者不用从头研发,直接去下面这些平台就能下载使用,支持二次修改:
不管你是想做短视频、开发虚拟人产品,还是搞影视动画、游戏制作,这些技术都能直接用,而且不用懂复杂的底层原理,跟着教程就能上手。
四、总结:AI视频生成的“平民时代”要来了?
智谱这次开源的四个技术,刚好解决了视频生成领域的四大痛点:做动画不崩坏、生成快不等待、多角色不串戏、训练省成本。
对普通人来说,以后用AI做视频会越来越简单:拍张照就能做专业动画,录段语音就能和AI实时对话,做多角色短视频也不用反复修改。对开发者来说,不用再花大价钱研发底层技术,能把更多精力放在创新应用上。
从“能看、能听、能说”到“能做视频”,智谱正在一步步让AI变得更全能。相信随着这些技术的普及,不管是个人创作者、中小企业,还是大公司,都能在视频生成领域玩出更多新花样,AI离我们的生活也会越来越近~
原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
