
智谱多模态开源周项目总结:智谱一周开源总结:从多模态到语音交互
12月11日智谱 AI 上线并开源 GLM-TTS 工业级语音合成系统。在过去的语音合成技术发展中,尽管模型的自然度不断提升,但行业仍普遍面临一个事实:许多系统“能发声”,却不真正“会表达”。GLM-TTS 的发布旨在补齐这一长期空缺--构建一个能在真实生产场景中稳定落地、具备高度情感表现力、自然度和可控性的 工业级 TTS 系统。
一、3 秒学习音色:从“像”到“准、稳、自然”

GLM-TTS 支持 3 秒音色克隆。通过输入极短的语音样本,模型即可学习说话人的音色、节奏、气息与表达习惯,生成自然逼真的个性声音。
其能力覆盖多个核心场景:
- 通用朗读(新闻、文章、讲稿)
- 情感配音(小说、剧情、角色演绎)
- 教育评测(教材朗读、题库生成、口语示范)
- 电子书、有声内容(长文本稳定生成、多角色演绎)
- 智能客服(克制自然、适合交互的声音风格)
GLM-TTS 的目标并不仅仅是让 AI 会“读”,而是让它在合适的场景中说出 像真人且情绪得体 的声音。
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章
- GitHub:https://github.com/zai-org/GLM-TTS
- HuggingFace:https://huggingface.co/zai-org/GLM-TTS
- ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-TTS
- 在线体验入口:audio.z.ai
在内容创作、教育、客服与交互式 AI 快速发展的当下,高质量语音能力正逐渐成为 AI 系统的核心竞争力之一。 GLM-TTS 的开源,使开发者和企业能够以更低成本获得 自然、准确、情感丰富、可控且可规模化生产的语音合成能力。
它不仅让 AI“说话”,更让 AI 真正会表达。
原创文章,更多科技内容,微信搜索 橙 市 播 客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明