视频生成三大行业痛点被逐一攻克:智谱发布 SCAIL / RealVideo / Kaleido / SSVAE
aikeji
12-12
90

智谱多模态开源周项目总结:智谱一周开源总结:从多模态到语音交互

2025年12月12日,智谱多模态开源周圆满结束!这一周里,智谱已经陆续放出了能“看图片”(GLM-4.6V)、“控设备”(AutoGLM)、“听声音”(GLM-ASR)、“会说话”(GLM-TTS)的AI模型。收官当天,他们又搞了个大动作--开源了四个超实用的视频生成核心技术!不管是想做动画、搞实时AI对话,还是拍多角色短视频,这些技术都能解决大问题,而且普通人也能看懂它们到底牛在哪~

一、为啥要开源这些技术?

智谱团队一直想搞明白“机器怎么像人一样思考”。咱们都知道,人能看、能听、能说、能理解视频里的动作和场景,AI要变聪明,也得具备这些能力。

但现在做视频生成可不是件容易事:要么想让角色做个复杂动作却总“手脚分家”,要么生成一段5秒视频要等1分钟,要么想让视频里多个人物同时动却乱成一团,而且训练这些AI要花好多钱、好多时间。

所以智谱干脆把解决这些问题的核心技术开源出来,让全世界的开发者都能直接用、随便改,一起把视频生成技术做得更厉害,让AI离“像人一样思考”更近一步。

二、四大“黑科技”详解:解决啥问题?怎么做到的?

(一)SCAIL:给图片“注入灵魂”,轻松做影视级动画

你有没有试过用AI给一张照片做动画?比如让照片里的人跳街舞、做空翻。以前的技术常掉链子:要么动作做着做着胳膊腿就歪了,要么多个人一起动就“打架”,根本没法用在电影、游戏里。

部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

智谱这次开源的四个技术,刚好解决了视频生成领域的四大痛点:做动画不崩坏、生成快不等待、多角色不串戏、训练省成本。

对普通人来说,以后用AI做视频会越来越简单:拍张照就能做专业动画,录段语音就能和AI实时对话,做多角色短视频也不用反复修改。对开发者来说,不用再花大价钱研发底层技术,能把更多精力放在创新应用上。

从“能看、能听、能说”到“能做视频”,智谱正在一步步让AI变得更全能。相信随着这些技术的普及,不管是个人创作者、中小企业,还是大公司,都能在视频生成领域玩出更多新花样,AI离我们的生活也会越来越近~

原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
OpenAI十周年,山姆奥特曼发文:在 2035 年前后,人类“几乎一定”会拥有超智能系统
上一篇
智谱一周开源总结:从多模态到语音交互
下一篇
生成中...
点赞是美意,赞赏是鼓励