
智谱多模态开源周项目总结:智谱一周开源总结:从多模态到语音交互
过去,我们把语音识别当成一个辅助输入方式--能把话变成字、能帮你少敲几下键盘就算不错。但今天,智谱 AI 给了语音一个全新的定义:语音不再只是输入方式,而是直接调用大模型的“指令语言”。
随着 GLM-ASR 系列模型全面发布并开源,以及 桌面端智谱 AI 输入法正式上线,语音与大模型的结合正式从“实验室”走向“生产力工具”。
一句话总结就是: “动动嘴,活就干了。”
一、GLM-ASR 系列:从云端到端侧

1. GLM-ASR-2512:行业领先的云端语音识别模型
智谱 AI 发布的新一代云端 ASR 模型 GLM-ASR-2512,在多语种、多场景、多口音的真实环境中,依然能保持CER(字符错误率)仅 0.0717 的领先表现。
这意味着:
- 在嘈杂咖啡店依旧能精准识别
- 在多人会议中也能分辨不同说话节奏
- 在多口音中保持稳定输出
它不只是“听得懂”,而是“在真实世界中听得准”。
2. GLM-ASR-Nano-2512:开源 1.5B 端侧模型的 SOTA 性能
在云端模型之外,智谱还直接把 1.5B 端侧模型 GLM-ASR-Nano-2512 开源了,其表现达到当前开源 ASR 方向的 SOTA,甚至在部分测试中优于闭源模型。
它的意义更大:
- 在本地运行,隐私更强
- 无需联网,时延更低
- 低功耗设备也能跑,可用性更高
这意味着开发者和企业现在能将高精度语音能力直接嵌入到自己的应用里,而不用依赖云端服务。
二、智谱 AI 输入法:语音输入正式进入“模型原生时代”
如果说 GLM-ASR 是“耳朵”,那今天的第二项发布--智谱 AI 输入法,就是将这副耳朵真正长在了你的电脑上,让 AI 直接融入你每天的输入场景。
与传统输入法不同,它不是“打字工具”,而是: 一个把语音、文字、大模型能力深度融合的全新输入平台。
1. 所选即所改:听写、理解、润色“一步到位”
传统输入法只能打字,所有修改、翻译、润色都要切应用、复制粘贴。 智谱 AI 输入法做了一个颠覆式创新:
你选择任意屏幕文字 → 输入法自动调用 GLM → 直接替换为结果。
可以:
- 把一段啰嗦的话变成专业表达
- 让英文内容顺滑翻译成中文
- 把短信内容变成更温柔/更正式/更克制的版本
- 给代码注释、给文档扩写、给需求精简
整个过程就在输入框内完成,不切屏、不换应用、不打断思路。
这就是“输入法 ≠ 打字工具”的时代。
2. 千人千面的人设切换:一句话在不同场景有不同表达
智谱 AI 输入法支持直接设置“人设表达风格”,例如:
- 面对老板:碎碎念 → 专业报告
- 面对客户:模糊想法 → 条理清晰、有礼貌
- 面对伴侣:平平无奇 → 甜到离谱
- 面对网友:幽默风趣或克制冷静
以前你要靠“换语气”来完成这件事,现在只用切一个人设即可。
3. Vibe Coding:为开发者设计的“语感编程”搭子
这是输入法里最有未来感的一项特性。
开发者可以:
- 通过语音输入代码逻辑和注释
- 让 AI 帮你补全 Linux 指令
- 用自然语言让模型写脚本、计算公式、生成正则
- 回忆不起某个命令时,直接说“那个查端口的命令叫什么”
设计师也能用它语音指挥 AI: “帮我做一张底色柔一点、边缘模糊的海报。”
从“手敲代码/手做设计” → “动嘴写代码/动嘴做设计”,这就是下一代工作方式。原创文章,更多AI科技内容,微信搜索橙市播客小程序
4. 耳语捕捉:轻声说话也能精准识别
针对公共场景的尴尬时刻(图书馆、办公室),输入法优化了微弱语音识别能力: 你只要轻声说话,它就能准确识别并过滤环境噪声。
再也不会因为“不好意思大声说”而放弃语音输入。
原创文章,更多AI科技内容,微信搜索 橙市播客 小程序
5. 专属热词:一个输入法真正能记住你的世界
支持导入:
- 公司内部代号(如 AutoGLM)
- 专案名
- 难拼的人名、地名
- 专业领域术语
一次导入,处处生效。 输入法终于变成了“你的输入法”。
三、体验途径:模型开放、工具可用、端侧可部署
开源 GLM-ASR-Nano-2512(1.5B)
Hugging Face:https://huggingface.co/zai-org/GLM-ASR-Nano-2512
魔搭社区:https://www.modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512
四、AI 输入的下一站:语音 = 人类指令语言
这一系列发布并不仅是“上新”,而是输入方式的一次范式迁移:
过去: 语音是文字的替代品。 现在: 语音是操作 AI 的主控方式。
当你说: “帮我把这段话改得正式一点。” “总结一下这段会议内容。” “帮我写一个统计目录大小的 Linux 脚本。”
你不是在输入,而是在“下指令”。 AI 输入法就像系统的“快捷命令层”,语音成了最直觉的操作方式。
从今天开始,输入法不仅是我们与设备交流的入口,更是我们与模型交互的入口。
这不是更快的输入法,而是 更快的大脑延展方式。
原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
