
1.智谱GLM-4.6V多模态大模型开源
2025年12月8日,智谱AI发布并全量开源多模态大模型系列GLM-4.6V,标志着多模态大模型进入“从理解到行动”的关键阶段。该系列包含两个版本:面向云端推理与企业级应用的大规模基础模型GLM-4.6V(106B-A12B),以及免费、适用于本地部署的轻量级模型GLM-4.6V-Flash(9B)。
核心突破是原生多模态工具调用,支持直接将图像、文档等作为工具参数输入,且能解读工具返回的视觉结果,形成“视觉-推理-工具调用”的闭环。相较于前代,其价格降价50%,Flash版免费,成本优势显著。
应用场景涵盖智能图文创作、识图购物比价、像素级前端复刻、128k长上下文多模态理解(如处理150页PDF、1小时视频)
详细内容:GLM-4.6V 能力详解:图文创作、识图购物、智能前端复刻
2.智谱AutoGLM开源:赋能AI手机,让AI自主操作手机App
智谱AI开源AutoGLM系统,旨在让AI具备“Phone Use”能力,像人类一样操作手机App完成任务,推动手机成为真正的AI手机。该系统历时32个月研发,历经三阶段迭代:从初期机械乱点发展为可控操作链路,完成全球首个AI发红包的完整手机交互案例,再到2.0版本引入大规模强化学习,部署于云手机以保障数据隔离与隐私安全。
开源原因包括共建行业生态、确保数据隐私归属用户、共享技术成果。开源内容涵盖AutoGLM核心模型、Phone Use能力框架、50+高频中文App demo、Android适配层等,支持开发者直接部署、二次开发或商用。
目前四项技术的代码和模型已全部公开在GitHub、Hugging Face等平台,开发者可直接下载使用、二次修改。这些技术的开源不仅降低了视频生成的技术门槛,还能广泛应用于影视动画、虚拟人直播、短视频创作、游戏开发等场景。
详细内容:视频生成三大行业痛点被逐一攻克:智谱发布 SCAIL / RealVideo / Kaleido / SSVAE
原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明