GLM-TTS 正式开源:智谱推出工业级语音合成系统,3 秒克隆音色、情感表达 SOTA
aikeji
2 天
10

GLM-TTS 正式开源:智谱推出工业级语音合成系统,3 秒克隆音色、情感表达 SOTA

智谱多模态开源周项目总结:智谱一周开源总结:从多模态到语音交互

12月11日智谱 AI 上线并开源 GLM-TTS 工业级语音合成系统。在过去的语音合成技术发展中,尽管模型的自然度不断提升,但行业仍普遍面临一个事实:许多系统“能发声”,却不真正“会表达”。GLM-TTS 的发布旨在补齐这一长期空缺--构建一个能在真实生产场景中稳定落地、具备高度情感表现力、自然度和可控性的 工业级 TTS 系统


一、3 秒学习音色:从“像”到“准、稳、自然”

GLM-TTS 正式开源:智谱推出工业级语音合成系统,3 秒克隆音色、情感表达 SOTA

GLM-TTS 支持 3 秒音色克隆。通过输入极短的语音样本,模型即可学习说话人的音色、节奏、气息与表达习惯,生成自然逼真的个性声音。

其能力覆盖多个核心场景:

  • 通用朗读(新闻、文章、讲稿)
  • 情感配音(小说、剧情、角色演绎)
  • 教育评测(教材朗读、题库生成、口语示范)
  • 电子书、有声内容(长文本稳定生成、多角色演绎)
  • 智能客服(克制自然、适合交互的声音风格)

GLM-TTS 的目标并不仅仅是让 AI 会“读”,而是让它在合适的场景中说出 像真人且情绪得体 的声音。


二、技术路线:两阶段生成 + GRPO 强化学习

为了兼顾自然度、发音准确性与表达层次,GLM-TTS 采用了 两阶段生成架构

1. 文本 → 语音 Token(LLM 生成阶段)

大语言模型负责感知文本逻辑、语义、情绪与韵律,生成语音离散 token。

2. Token → 音频(Flow + Vocoder)

Flow 模型产生声学特征,再由 vocoder 输出高保真音频,保证音质自然、细节丰富。

这一架构带来更好的语气控制、情绪表达、跨音色一致性和长文本稳定性。


三、强化学习:让语音从“可用”走向“有表达”

TTS 领域长期存在两个难点:情感表达不足、强化学习训练不稳定。 GLM-TTS 基于 GRPO 强化学习框架 设计多维奖励体系,包括:

  • 发音准确度
  • 音色相似度
  • 情绪表达
  • 自然韵律

系统采用“训练数据 + 合成数据”混合构造方式,几乎零成本即可扩展 RL 数据量,并通过架构优化避免奖励欺骗(reward hacking),保证在未见过的测试集上依旧表现稳健。

原创文章,更多科技内容,微信搜索橙市播客小程序

四、评测结果:情感、准确度、自然度全面领先

1. seed-tts-eval:低 CER 与高音色相似度

  • CER 从 1.03% 降至 0.89%(RL 后) → 开源模型中处于第一梯队
  • 音色相似度 SIM 提升至 76.4 在准确度提升的同时保持高一致性

2. CV3-eval-emotion:情绪表现与发音准确度双领先

在 Happy / Sad / Angry 三类情绪中, GLM-TTS 精品音色_RL 全面取得 SOTA,平均情感得分(avg_emo)达到 0.51。 尤其在负向情绪(悲伤、愤怒)方面明显优于常见商用模型。

同时维持低 CER(1.33%-1.68%),实现情绪表达与准确发音的平衡。原创文章,更多科技内容,微信搜索橙市播客小程序


五、极低训练成本,却达到商用级表现

与行业动辄几十万 GPU 小时的模型相比,GLM-TTS 保持了极高的训练效率:

  • 仅使用 10 万小时训练数据(远低于主流 TTS 商用模型)
  • 主模型预训练:单机 4 天即可达到开源 SOTA
  • 精品音色 LORA + 强化学习:单机 1 天完成

推理成本同样较低,同时在 MOS(主观听感评分)上保持行业领先。

这使得 GLM-TTS 更容易在各类企业、机构和开发者环境中落地。


六、面向生产实践的三大典型场景

1. 教育场景:覆盖多音字、生僻字、公式符号

GLM-TTS 专为教学内容生产进行定制化优化,可:

  • 正确朗读多音字、生僻字
  • 自然表达数学公式、化学符号等
  • 在大体量题库生成中保持一致性
  • 为教材、口语评测、听力练习提供标准示范音频

例如:

计算 157! / 83! + √924 - 58³ 魑魅魍魉(chī mèi wǎng liǎng)、泗水(sì shuǐ)、城阙(què)辅三秦


2. 电子书与有声内容:多角色、多风格、长内容稳定生成

GLM-TTS 支持:

  • 单音色朗读整本书
  • 多角色绑定不同音色
  • 自适配小说、社科、纪实等不同文体
  • 生成高质量情绪化语音(开心、悲伤、愤怒等)

示例情绪文本可自然呈现语气差异,适合大规模内容库生产。


3. 智能客服:自然、克制、可信赖的服务音色

面向客服与语音助手场景,GLM-TTS 提供:

  • 中性、克制但不冰冷的服务音色
  • 插入变量(如工号、物流状态)时保持韵律稳定
  • 与 NLU/NLG 模块良好协作,实现端到端语音交互

例如:

您好,您的包裹正在发往北京,预计明日送达。如需协助,请随时告诉我。


七、开源与体验方式

为了便于开发者和企业快速采用 GLM-TTS,智谱 AI 同步开放:

1. Apache 2.0 开源资源

包括:

  • 模型权重
  • 推理脚本
  • 示例工程

开源地址:

在内容创作、教育、客服与交互式 AI 快速发展的当下,高质量语音能力正逐渐成为 AI 系统的核心竞争力之一。 GLM-TTS 的开源,使开发者和企业能够以更低成本获得 自然、准确、情感丰富、可控且可规模化生产的语音合成能力

它不仅让 AI“说话”,更让 AI 真正会表达

原创文章,更多科技内容,微信搜索 橙 市 播 客 小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
【2025 圣诞最火玩法】5 分钟用 AI 把自己关进透明圣诞球!超详细教程
上一篇
只需要一行提示词,即可安装AutoGLM实现 AI 手机
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #OpenAI #产品设计 #模型 #开源 #城市名片 #Gemini #Google #马斯克 #写真 #AI视频 #3D #claude #计算机视觉 #UI #电商 #苹果 #DeepSeek #iPhone #播客 #智谱 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #IDE #人工智能 #阿里 #sora #tesla #买车 #选车 #干货 #搜索 #汽车 #机器人 #工具 #Anthropic #自动化 #通义 #space #星舰 #英伟达 #NVIDIA #智慧城市 #OCR #Atlas #Agent #AI手机 #glm #微信 #AI手办 #混元 #宇宙 #Gemma #veo #百度 #浏览器 #地理空间 #工作流 #AI编码 #办公 #iPhone17 #AI搜索 #手办 #小米 #具身智能 #火山引擎 #多模态 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #摄影艺术 #AI推理 #商业思维 #桌面 #语音合成 #tts #AGI #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #端侧 #数据中心 #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励