
1.智谱GLM-4.6V多模态大模型开源
2025年12月8日,智谱AI发布并全量开源多模态大模型系列GLM-4.6V,标志着多模态大模型进入“从理解到行动”的关键阶段。该系列包含两个版本:面向云端推理与企业级应用的大规模基础模型GLM-4.6V(106B-A12B),以及免费、适用于本地部署的轻量级模型GLM-4.6V-Flash(9B)。
核心突破是原生多模态工具调用,支持直接将图像、文档等作为工具参数输入,且能解读工具返回的视觉结果,形成“视觉-推理-工具调用”的闭环。相较于前代,其价格降价50%,Flash版免费,成本优势显著。
应用场景涵盖智能图文创作、识图购物比价、像素级前端复刻、128k长上下文多模态理解(如处理150页PDF、1小时视频)
详细内容:GLM-4.6V 能力详解:图文创作、识图购物、智能前端复刻
2.智谱AutoGLM开源:赋能AI手机,让AI自主操作手机App
智谱AI开源AutoGLM系统,旨在让AI具备“Phone Use”能力,像人类一样操作手机App完成任务,推动手机成为真正的AI手机。该系统历时32个月研发,历经三阶段迭代:从初期机械乱点发展为可控操作链路,完成全球首个AI发红包的完整手机交互案例,再到2.0版本引入大规模强化学习,部署于云手机以保障数据隔离与隐私安全。
开源原因包括共建行业生态、确保数据隐私归属用户、共享技术成果。开源内容涵盖AutoGLM核心模型、Phone Use能力框架、50+高频中文App demo、Android适配层等,支持开发者直接部署、二次开发或商用。
应用场景包括外卖下单、云手机批量操作、企业重复任务自动化等,为AI手机生态提供了基础基础设施。
详细内容:智谱AutoGLM 开源:让每一台手机,都真正成为 AI 手机
3.智谱GLM-ASR开源+AI输入法上线:语音成大模型指令语言,效率提升10倍
智谱AI发布并开源GLM-ASR语音识别模型系列,同时上线桌面端智谱AI输入法,重新定义语音角色--从打字替代品升级为调用大模型的“指令语言”,实现“动动嘴,活就干”的新范式。
GLM-ASR包含两款模型:云端模型GLM-ASR-2512在多场景下保持0.0717的低字符错误率,端侧模型GLM-ASR-Nano-2512开源且性能达到同领域SOTA,支持本地运行、低时延使用。
智谱AI输入法具备五大核心功能:所选即所改(直接润色、翻译屏幕文字)、千人千面人设切换、开发者专属的“Vibe Coding”(语音写代码、查指令)、耳语捕捉(弱语音精准识别)、专属热词导入。输入法可直接用于日常输入、办公、开发等场景,语音指令效率比打字快10倍。
详细内容:GLM-ASR 全面开源:智谱 AI 输入法上线,语音指令比打字快 10 倍
4.智谱GLM-TTS开源:工业级语音合成,3秒克隆音色+情感表达达SOTA
智谱AI上线并开源工业级语音合成系统GLM-TTS,聚焦解决语音合成“能发声但不会表达”的行业痛点。其核心亮点是3秒音色克隆,可通过极短音频样本学习说话人的音色、节奏与表达习惯,且情感表达达到SOTA水平,在开心、悲伤、愤怒等情绪场景中表现优异。
技术上采用“文本→语音Token(LLM生成)+ Token→音频(Flow+Vocoder)”两阶段架构,结合GRPO强化学习构建多维奖励体系,兼顾自然度、发音准确性与情绪层次。该模型训练成本极低(单机4天完成预训练),却达到商用级表现。
应用场景包括教育(朗读多音字、公式符号)、电子书与有声内容(多角色、长文本生成)、智能客服(自然克制的服务音色)。
详细内容:GLM-TTS 正式开源:智谱推出工业级语音合成系统,3 秒克隆音色、情感表达 SOTA
5.一句提示词,就可以拥有一台 AI 手机
智谱通过 AutoGLM、GLM-4.6 和 Claude Code 的结合,让用户只需输入一句提示词,AI 就能自动完成部署,从连接手机、安装环境到启动智能体,全程无需人工操作,让每个人都能轻松拥有属于自己的“AI 手机”,并以此推动开源生态、降低技术门槛,实现真正的技术平权。
详细内容:AutoGLM 一行提示词即可拥有你的 AI 手机
6.智谱开源四大视频生成黑科技,破解行业核心痛点
2025年12月12日智谱多模态开源周收官,在陆续推出视觉理解、语音交互等多模态模型后,智谱进一步开源了SCAIL、RealVideo、Kaleido、SSVAE四项视频生成核心技术,精准解决当前视频生成领域“动作易崩坏、生成慢、多主体混乱、训练成本高”三大痛点,助力开发者快速落地相关应用,推进AGI(通用人工智能)发展。
这四项技术各有专攻:
SCAIL能让静态图片生成影视级动画,通过3D骨架建模和全局动作规划,避免复杂动作“肢体分家”,还支持多人互动;
RealVideo将视频生成首响延迟压缩至2-3秒,可实现长时间实时AI视频对话,彻底告别漫长等待;
Kaleido擅长多主体视频生成,给每个角色“贴专属标签”,解决背景纠缠和特征混淆问题,让多角色同框不“串戏”;
SSVAE则通过优化训练逻辑,让AI训练速度提升3倍,还能大幅降低服务器和参数成本,让中小开发者也能负担。
目前四项技术的代码和模型已全部公开在GitHub、Hugging Face等平台,开发者可直接下载使用、二次修改。这些技术的开源不仅降低了视频生成的技术门槛,还能广泛应用于影视动画、虚拟人直播、短视频创作、游戏开发等场景。
详细内容:视频生成三大行业痛点被逐一攻克:智谱发布 SCAIL / RealVideo / Kaleido / SSVAE
原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
