
智谱多模态开源周项目总结:智谱一周开源总结:从多模态到语音交互
2025年12月12日,智谱多模态开源周圆满结束!这一周里,智谱已经陆续放出了能“看图片”(GLM-4.6V)、“控设备”(AutoGLM)、“听声音”(GLM-ASR)、“会说话”(GLM-TTS)的AI模型。收官当天,他们又搞了个大动作--开源了四个超实用的视频生成核心技术!不管是想做动画、搞实时AI对话,还是拍多角色短视频,这些技术都能解决大问题,而且普通人也能看懂它们到底牛在哪~
一、为啥要开源这些技术?
智谱团队一直想搞明白“机器怎么像人一样思考”。咱们都知道,人能看、能听、能说、能理解视频里的动作和场景,AI要变聪明,也得具备这些能力。
但现在做视频生成可不是件容易事:要么想让角色做个复杂动作却总“手脚分家”,要么生成一段5秒视频要等1分钟,要么想让视频里多个人物同时动却乱成一团,而且训练这些AI要花好多钱、好多时间。
所以智谱干脆把解决这些问题的核心技术开源出来,让全世界的开发者都能直接用、随便改,一起把视频生成技术做得更厉害,让AI离“像人一样思考”更近一步。
二、四大“黑科技”详解:解决啥问题?怎么做到的?
(一)SCAIL:给图片“注入灵魂”,轻松做影视级动画
你有没有试过用AI给一张照片做动画?比如让照片里的人跳街舞、做空翻。以前的技术常掉链子:要么动作做着做着胳膊腿就歪了,要么多个人一起动就“打架”,根本没法用在电影、游戏里。
智谱这次开源的四个技术,刚好解决了视频生成领域的四大痛点:做动画不崩坏、生成快不等待、多角色不串戏、训练省成本。
对普通人来说,以后用AI做视频会越来越简单:拍张照就能做专业动画,录段语音就能和AI实时对话,做多角色短视频也不用反复修改。对开发者来说,不用再花大价钱研发底层技术,能把更多精力放在创新应用上。
从“能看、能听、能说”到“能做视频”,智谱正在一步步让AI变得更全能。相信随着这些技术的普及,不管是个人创作者、中小企业,还是大公司,都能在视频生成领域玩出更多新花样,AI离我们的生活也会越来越近~
原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明