腾讯优图开源 Youtu-Embedding:为企业级场景量身定制的全能文本嵌入模型
一个老翁
10-15
36

腾讯优图开源 Youtu-Embedding:为企业级场景量身定制的全能文本嵌入模型

一、背景:通用大模型的"幻觉"难题

随着大语言模型(LLM)在客服、知识库、法律咨询等企业级场景的落地,"幻觉"问题愈发凸显:模型会编造看似合理但完全错误的答案。

例如,当用户询问某款手机的保修政策时,通用模型可能会给出已过时或根本不存在的条款,如"保修期为两年",而实际上该手机的保修期只有一年。这种错误信息会直接损害企业信誉与用户体验。

业界常见的缓解方案是引入 Embedding 模型做检索增强(RAG):先把企业私域文档切成片段、向量化入库,用户提问时先检索最相关片段,再让大模型基于片段生成答案。

然而,通用 Embedding 模型往往在新领域出现"负迁移"--在公开语料上表现优异,一旦换成法律、医疗、工业等垂直语境,检索精度便大幅下降。

例如,在一个法律文档检索系统中,通用 Embedding 模型可能无法准确识别"合同解除"与"终止协议"之间的语义关联,导致检索结果不准确。

其根源在于预训练语料与真实业务语境差异巨大,导致模型难以精准捕捉企业场景中的同义表达与隐含意图。

腾讯优图实验室把这一问题拆解成三个关键点:

  1. 模型必须"听得懂"企业黑话、同义反问、口语化表达;
  2. 必须同时胜任检索、排序、语义相似度、意图分类、聚类等多种任务;
  3. 要让开发者"拿来即用",最好一键接入 LangChain、LlamaIndex 等主流框架。

基于此,优图推出了从零开始训练、专为企业级场景设计的文本表示模型--Youtu-Embedding,并宣布完整开源。

二、Youtu-Embedding 核心能力速览

  • 多任务全能:一个模型同时支持六大任务--文本检索、语义相似度、意图识别、分类、聚类、去重。
  • 零样本强泛化:无需微调即可在法律、医疗、工业、金融等垂直场景获得高检索精度。
  • 即插即用:提供 Hugging Face Transformer 接口、LangChain/LlamaIndex 插件,三分钟完成本地部署。
  • 可微调:开源训练框架与数据格式,企业可用私域数据继续训练,不遗忘通用能力。
  • 中英双语:覆盖简体中文、繁体中文、英文及常见代码片段,适应国际化业务。

三、训练流程:三步打造"不幻觉"的嵌入模型

1. 打基础:3 万亿 Token 预训练

  • 语料构成

    • 1.2T 公开中文语料:百科、新闻、书籍、社区问答;
    • 0.8T 公开英文语料:C4、OpenWebText、StackExchange;
    • 0.3T 企业授权脱敏语料:客服对话、工单、产品说明书;
    • 0.7T 合成语料:用 LLM 根据关键词生成法律、医疗、工业领域问答对,再经人工抽检修正。
  • 从零训练

团队放弃"通用模型二次微调"路线,直接采用 BERT-base 架构,随机初始化权重,用 256 张 A100 训练 1.2 百万步,最大序列长度 512,批大小 8K,学习率线性 warmup 到 2e-4 再 cosine 衰减。此举彻底摆脱原始语料偏差,让模型"天生"贴近企业语境。

2. 建桥梁:弱监督语义对齐

预训练后的模型虽具备基础语义能力,但仍难区分"同义不同形"的表达。优图构建了一个弱监督对齐引擎

  • 采集 1 亿组"用户问法-标准问法"弱对齐对,来源包括:

  • 客服系统里人工标注的 FAQ 映射;

  • 社区高赞回答与官方文档的标题对齐;

  • 搜索引擎点击图,提取"同一点击URL下的不同查询词"。

  • 采用 Dual-Encoder + 对比学习 框架,温度系数 0.05,负样本采用 in-batch + hard-negative 混合策略,训练 5 万步,让模型把"保修多久?"、"坏了能免费修吗?"、"质保期多长?"映射到同一向量空间。

3. 精调优:多任务协同训练

为了让一个模型同时做好检索、相似度、分类等任务,优图设计了统一数据格式 + 差异化损失 + 动态采样的三件套:

  • 统一格式 所有任务输入都转成三元组 (text_a, text_b, label),label 含义随任务而变:检索任务里是正例 1/负例 0;相似度任务里是 0~5 分;分类任务里是指定类别 ID。模型只需判断"两段文本是否相关",降低理解成本。

  • 差异化损失函数

  • 检索任务:采用 InfoNCE 损失,温度 0.02,强化排序能力;

  • 相似度任务:采用 MSE 损失,拟合人工打分;

  • 分类任务:采用 CrossEntropy 损失,接一层线性分类头; 多任务共享 12 层 Transformer,仅在顶部接入任务特定头,避免参数爆炸。

  • 动态采样

训练过程中实时监控各任务验证集指标,若检索任务 MAP 连续 500 步无提升,则把采样比例从 30% 提升到 50%,并降低分类任务比例,防止"偏科"。

经过 10 万步多任务训练,模型在 CMTEB(中文多任务嵌入基准)上以 77.46 的平均分登顶,成为首个在检索、相似度、分类、聚类四项子榜全部进入前三的模型。

四、实测对比:企业场景下的精度跃升

优图选取了三个真实业务数据集做盲测:

数据集领域通用模型 Recall@10Youtu-Embedding Recall@10相对提升
客服 FAQ消费电子68.2%86.7%+27.1%
医疗指南健康61.5%82.4%+34.0%
法律条款法务59.8%81.3%+36.0%

在同样的检索链路( chunked 512 → HNSW 索引 → top-10 召回 )下,Youtu-Embedding 把幻觉率从 14% 降到 3% 以下,显著提升了 LLM 最终答案的可信度。

例如,在一个医疗指南检索系统中,Youtu-Embedding 能够准确识别"高血压饮食注意事项"与"高血压患者饮食建议"之间的语义关联,提供准确的检索结果。

五、开源生态:三分钟跑起来的"Embedding 工具箱"

1. 模型与代码

  • Hugging Face:搜索 tencent/Youtu-Embedding 即可下载 440 MB 权重,支持 AutoModel.from_pretrained() 一键加载。
  • GitHub:仓库 TencentCloudADP/youtu-embedding 包含
  • 推理脚本(CPU/GPU/PyTorch/ONNX);
  • 微调框架(支持 LoRA、全参数量、DeepSpeed);
  • LangChain/LlamaIndex 插件,两行代码即可替换默认 embeddings。

2. 快速体验

from langchain.embeddings import HuggingFaceEmbeddings
embeddings = HuggingFaceEmbeddings(model_name="tencent/Youtu-Embedding")
text = "保修期多长?"
vec = embeddings.embed_query(text)
print(vec[:5]) # [-0.018, 0.041, ...]

3. 微调示例

准备 JSONL 格式数据:

{"text_a": "屏幕碎了怎么办", "text_b": "屏幕破损的售后流程", "label": 1}
{"text_a": "屏幕碎了怎么办", "text_b": "电池续航差", "label": 0}

运行:

python train.py \
--model_name tencent/Youtu-Embedding \
--train_file my_train.jsonl \
--num_epochs 3 \
--use_lora True \
--output_dir ./my_model

即可在单张 24G GPU 上完成 100 万样本的微调,耗时约 6 小时。

六、与现有优图开源体系的协同

Youtu-Embedding 并非孤军奋战,它与优图此前开源的两大项目无缝衔接:

  • Youtu-Agent:低代码智能体框架,内置 ReAct、Plan-and-Execute 等推理范式,可直接调用 Youtu-Embedding 做知识检索。
  • Youtu-GraphRAG:把文档解析成实体-关系图,再用图神经网络增强检索,Embedding 向量作为节点初始特征,实测可把多跳问答准确率再提升 9%。

三者组合,可让企业用一套代码、一套模型,完成"文档入库 → 图谱构建 → 检索问答 → 智能体决策"的完整闭环。

七、未来规划

优图透露,下一步将在以下方向持续投入:

  1. 多模态 Embedding:同步理解文本、表格、流程图、产品照片,实现"说明书扫一扫,问答立刻出"。
  2. 边缘端优化:推出 INT4 量化版本,把模型压缩到 120 MB,在 ARM 芯片上推理延迟 < 30 ms。
  3. 行业大模型联动:与腾讯混元、Llama-3-70B 等更大参数模型深度耦合,形成"大模型生成答案 + Embedding 验证溯源"的双重保险。

八、结语

从"幻觉"到"可信",从"通用"到"企业专属",腾讯优图用 Youtu-Embedding 给出了一条可落地、可扩展、可二次开发的技术路径。全部代码与权重已采用 Apache-2.0 协议开源,无论是初创公司还是大型企业,皆可零成本试用、快速集成。如果你正为知识库问答、智能客服、合规审计等场景寻找一套"不胡说八道"的文本嵌入方案,不妨立刻体验 Youtu-Embedding,让它成为企业 AIGC 旅程中的第一块可靠基石。

开源与生态



微信扫描下方的二维码阅读更多精彩内容

打赏
星舰 V2 谢幕,V3 启航:马斯克用“极限一飞”宣告星际时代开启
上一篇
AI 大屏可视化「从提示词到成图」全流程实战
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #OpenAI #产品设计 #模型 #开源 #城市名片 #Gemini #马斯克 #Google #3D #写真 #AI视频 #UI #claude #计算机视觉 #苹果 #DeepSeek #电商 #iPhone #播客 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #阿里 #sora #tesla #IDE #买车 #选车 #干货 #搜索 #汽车 #机器人 #Anthropic #通义 #space #星舰 #智慧城市 #OCR #Atlas #工具 #微信 #AI手办 #混元 #英伟达 #NVIDIA #宇宙 #veo #百度 #浏览器 #地理空间 #人工智能 #Agent #工作流 #自动化 #AI编码 #办公 #iPhone17 #AI搜索 #手办 #小米 #智谱 #具身智能 #Gemma #火山引擎 #多模态 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #摄影艺术 #AI推理 #商业思维 #桌面 #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #AI手机 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #glm-v #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励