智谱一周开源总结:从多模态到语音交互
aikeji
12-12
97


1.智谱GLM-4.6V多模态大模型开源

2025年12月8日,智谱AI发布并全量开源多模态大模型系列GLM-4.6V,标志着多模态大模型进入“从理解到行动”的关键阶段。该系列包含两个版本:面向云端推理与企业级应用的大规模基础模型GLM-4.6V(106B-A12B),以及免费、适用于本地部署的轻量级模型GLM-4.6V-Flash(9B)。

核心突破是原生多模态工具调用,支持直接将图像、文档等作为工具参数输入,且能解读工具返回的视觉结果,形成“视觉-推理-工具调用”的闭环。相较于前代,其价格降价50%,Flash版免费,成本优势显著。

应用场景涵盖智能图文创作、识图购物比价、像素级前端复刻、128k长上下文多模态理解(如处理150页PDF、1小时视频)


详细内容:GLM-4.6V 能力详解:图文创作、识图购物、智能前端复刻

2.智谱AutoGLM开源:赋能AI手机,让AI自主操作手机App

智谱AI开源AutoGLM系统,旨在让AI具备“Phone Use”能力,像人类一样操作手机App完成任务,推动手机成为真正的AI手机。该系统历时32个月研发,历经三阶段迭代:从初期机械乱点发展为可控操作链路,完成全球首个AI发红包的完整手机交互案例,再到2.0版本引入大规模强化学习,部署于云手机以保障数据隔离与隐私安全。

开源原因包括共建行业生态、确保数据隐私归属用户、共享技术成果。开源内容涵盖AutoGLM核心模型、Phone Use能力框架、50+高频中文App demo、Android适配层等,支持开发者直接部署、二次开发或商用。

部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

目前四项技术的代码和模型已全部公开在GitHub、Hugging Face等平台,开发者可直接下载使用、二次修改。这些技术的开源不仅降低了视频生成的技术门槛,还能广泛应用于影视动画、虚拟人直播、短视频创作、游戏开发等场景。


详细内容:视频生成三大行业痛点被逐一攻克:智谱发布 SCAIL / RealVideo / Kaleido / SSVAE

原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
视频生成三大行业痛点被逐一攻克:智谱发布 SCAIL / RealVideo / Kaleido / SSVAE
上一篇
如何制作产品发展轨迹图:以 iPhone 为例的完整提示词教程
下一篇
生成中...
点赞是美意,赞赏是鼓励