
智谱多模态开源周项目总结:智谱一周开源总结:从多模态到语音交互
过去,我们把语音识别当成一个辅助输入方式--能把话变成字、能帮你少敲几下键盘就算不错。但今天,智谱 AI 给了语音一个全新的定义:语音不再只是输入方式,而是直接调用大模型的“指令语言”。
随着 GLM-ASR 系列模型全面发布并开源,以及 桌面端智谱 AI 输入法正式上线,语音与大模型的结合正式从“实验室”走向“生产力工具”。
一句话总结就是: “动动嘴,活就干了。”
一、GLM-ASR 系列:从云端到端侧

1. GLM-ASR-2512:行业领先的云端语音识别模型
智谱 AI 发布的新一代云端 ASR 模型 GLM-ASR-2512,在多语种、多场景、多口音的真实环境中,依然能保持CER(字符错误率)仅 0.0717 的领先表现。
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章
你不是在输入,而是在“下指令”。 AI 输入法就像系统的“快捷命令层”,语音成了最直觉的操作方式。
从今天开始,输入法不仅是我们与设备交流的入口,更是我们与模型交互的入口。
这不是更快的输入法,而是 更快的大脑延展方式。
原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明