
智谱多模态开源周项目总结:智谱一周开源总结:从多模态到语音交互
12月11日智谱 AI 上线并开源 GLM-TTS 工业级语音合成系统。在过去的语音合成技术发展中,尽管模型的自然度不断提升,但行业仍普遍面临一个事实:许多系统“能发声”,却不真正“会表达”。GLM-TTS 的发布旨在补齐这一长期空缺--构建一个能在真实生产场景中稳定落地、具备高度情感表现力、自然度和可控性的 工业级 TTS 系统。
一、3 秒学习音色:从“像”到“准、稳、自然”

GLM-TTS 支持 3 秒音色克隆。通过输入极短的语音样本,模型即可学习说话人的音色、节奏、气息与表达习惯,生成自然逼真的个性声音。
其能力覆盖多个核心场景:
- 通用朗读(新闻、文章、讲稿)
- 情感配音(小说、剧情、角色演绎)
- 教育评测(教材朗读、题库生成、口语示范)
- 电子书、有声内容(长文本稳定生成、多角色演绎)
- 智能客服(克制自然、适合交互的声音风格)
GLM-TTS 的目标并不仅仅是让 AI 会“读”,而是让它在合适的场景中说出 像真人且情绪得体 的声音。
二、技术路线:两阶段生成 + GRPO 强化学习
为了兼顾自然度、发音准确性与表达层次,GLM-TTS 采用了 两阶段生成架构:
1. 文本 → 语音 Token(LLM 生成阶段)
大语言模型负责感知文本逻辑、语义、情绪与韵律,生成语音离散 token。
2. Token → 音频(Flow + Vocoder)
Flow 模型产生声学特征,再由 vocoder 输出高保真音频,保证音质自然、细节丰富。
这一架构带来更好的语气控制、情绪表达、跨音色一致性和长文本稳定性。
三、强化学习:让语音从“可用”走向“有表达”
TTS 领域长期存在两个难点:情感表达不足、强化学习训练不稳定。 GLM-TTS 基于 GRPO 强化学习框架 设计多维奖励体系,包括:
- 发音准确度
- 音色相似度
- 情绪表达
- 自然韵律
系统采用“训练数据 + 合成数据”混合构造方式,几乎零成本即可扩展 RL 数据量,并通过架构优化避免奖励欺骗(reward hacking),保证在未见过的测试集上依旧表现稳健。
原创文章,更多科技内容,微信搜索橙市播客小程序
四、评测结果:情感、准确度、自然度全面领先
1. seed-tts-eval:低 CER 与高音色相似度
- CER 从 1.03% 降至 0.89%(RL 后) → 开源模型中处于第一梯队
- 音色相似度 SIM 提升至 76.4 在准确度提升的同时保持高一致性
2. CV3-eval-emotion:情绪表现与发音准确度双领先
在 Happy / Sad / Angry 三类情绪中, GLM-TTS 精品音色_RL 全面取得 SOTA,平均情感得分(avg_emo)达到 0.51。 尤其在负向情绪(悲伤、愤怒)方面明显优于常见商用模型。
同时维持低 CER(1.33%-1.68%),实现情绪表达与准确发音的平衡。原创文章,更多科技内容,微信搜索橙市播客小程序
五、极低训练成本,却达到商用级表现
与行业动辄几十万 GPU 小时的模型相比,GLM-TTS 保持了极高的训练效率:
- 仅使用 10 万小时训练数据(远低于主流 TTS 商用模型)
- 主模型预训练:单机 4 天即可达到开源 SOTA
- 精品音色 LORA + 强化学习:单机 1 天完成
推理成本同样较低,同时在 MOS(主观听感评分)上保持行业领先。
这使得 GLM-TTS 更容易在各类企业、机构和开发者环境中落地。
六、面向生产实践的三大典型场景
1. 教育场景:覆盖多音字、生僻字、公式符号
GLM-TTS 专为教学内容生产进行定制化优化,可:
- 正确朗读多音字、生僻字
- 自然表达数学公式、化学符号等
- 在大体量题库生成中保持一致性
- 为教材、口语评测、听力练习提供标准示范音频
例如:
计算 157! / 83! + √924 - 58³ 魑魅魍魉(chī mèi wǎng liǎng)、泗水(sì shuǐ)、城阙(què)辅三秦
2. 电子书与有声内容:多角色、多风格、长内容稳定生成
GLM-TTS 支持:
- 单音色朗读整本书
- 多角色绑定不同音色
- 自适配小说、社科、纪实等不同文体
- 生成高质量情绪化语音(开心、悲伤、愤怒等)
示例情绪文本可自然呈现语气差异,适合大规模内容库生产。
3. 智能客服:自然、克制、可信赖的服务音色
面向客服与语音助手场景,GLM-TTS 提供:
- 中性、克制但不冰冷的服务音色
- 插入变量(如工号、物流状态)时保持韵律稳定
- 与 NLU/NLG 模块良好协作,实现端到端语音交互
例如:
您好,您的包裹正在发往北京,预计明日送达。如需协助,请随时告诉我。
七、开源与体验方式
为了便于开发者和企业快速采用 GLM-TTS,智谱 AI 同步开放:
1. Apache 2.0 开源资源
包括:
- 模型权重
- 推理脚本
- 示例工程
开源地址:
- GitHub:https://github.com/zai-org/GLM-TTS
- HuggingFace:https://huggingface.co/zai-org/GLM-TTS
- ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-TTS
- 在线体验入口:audio.z.ai
在内容创作、教育、客服与交互式 AI 快速发展的当下,高质量语音能力正逐渐成为 AI 系统的核心竞争力之一。 GLM-TTS 的开源,使开发者和企业能够以更低成本获得 自然、准确、情感丰富、可控且可规模化生产的语音合成能力。
它不仅让 AI“说话”,更让 AI 真正会表达。
原创文章,更多科技内容,微信搜索 橙 市 播 客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
