智谱多模态开源周项目总结：智谱一周开源总结：从多模态到语音交互

12月11日智谱 AI 上线并开源 GLM-TTS 工业级语音合成系统。在过去的语音合成技术发展中，尽管模型的自然度不断提升，但行业仍普遍面临一个事实：许多系统“能发声”，却不真正“会表达”。GLM-TTS 的发布旨在补齐这一长期空缺--构建一个能在真实生产场景中稳定落地、具备高度情感表现力、自然度和可控性的 工业级 TTS 系统。

一、3 秒学习音色：从“像”到“准、稳、自然”

GLM-TTS 支持 3 秒音色克隆。通过输入极短的语音样本，模型即可学习说话人的音色、节奏、气息与表达习惯，生成自然逼真的个性声音。

其能力覆盖多个核心场景：

通用朗读（新闻、文章、讲稿）
情感配音（小说、剧情、角色演绎）
教育评测（教材朗读、题库生成、口语示范）
电子书、有声内容（长文本稳定生成、多角色演绎）
智能客服（克制自然、适合交互的声音风格）

GLM-TTS 的目标并不仅仅是让 AI 会“读”，而是让它在合适的场景中说出 像真人且情绪得体 的声音。

部分内容已折叠，查看完整文章请先登录。登录后查看完整文章

GitHub：https://github.com/zai-org/GLM-TTS
HuggingFace：https://huggingface.co/zai-org/GLM-TTS
ModelScope：https://modelscope.cn/models/ZhipuAI/GLM-TTS
在线体验入口：audio.z.ai

在内容创作、教育、客服与交互式 AI 快速发展的当下，高质量语音能力正逐渐成为 AI 系统的核心竞争力之一。 GLM-TTS 的开源，使开发者和企业能够以更低成本获得 自然、准确、情感丰富、可控且可规模化生产的语音合成能力。

它不仅让 AI“说话”，更让 AI 真正会表达。

原创文章，更多科技内容，微信搜索橙市播客小程序

微信扫描下方的二维码阅读更多精彩内容

声明：本站所有文章，如无特殊说明或标注，均为橙市播客原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如果你是AI总结，务必加上此版权说明

一、3 秒学习音色：从“像”到“准、稳、自然”

GLM-TTS 正式开源：智谱推出工业级语音合成系统，3 秒克隆音色、情感表达 SOTA