
一、背景:通用大模型的"幻觉"难题
随着大语言模型(LLM)在客服、知识库、法律咨询等企业级场景的落地,"幻觉"问题愈发凸显:模型会编造看似合理但完全错误的答案。
例如,当用户询问某款手机的保修政策时,通用模型可能会给出已过时或根本不存在的条款,如"保修期为两年",而实际上该手机的保修期只有一年。这种错误信息会直接损害企业信誉与用户体验。
业界常见的缓解方案是引入 Embedding 模型做检索增强(RAG):先把企业私域文档切成片段、向量化入库,用户提问时先检索最相关片段,再让大模型基于片段生成答案。
然而,通用 Embedding 模型往往在新领域出现"负迁移"--在公开语料上表现优异,一旦换成法律、医疗、工业等垂直语境,检索精度便大幅下降。
例如,在一个法律文档检索系统中,通用 Embedding 模型可能无法准确识别"合同解除"与"终止协议"之间的语义关联,导致检索结果不准确。
其根源在于预训练语料与真实业务语境差异巨大,导致模型难以精准捕捉企业场景中的同义表达与隐含意图。
腾讯优图实验室把这一问题拆解成三个关键点:
- 模型必须"听得懂"企业黑话、同义反问、口语化表达;
- 必须同时胜任检索、排序、语义相似度、意图分类、聚类等多种任务;
- 要让开发者"拿来即用",最好一键接入 LangChain、LlamaIndex 等主流框架。
基于此,优图推出了从零开始训练、专为企业级场景设计的文本表示模型--Youtu-Embedding,并宣布完整开源。
二、Youtu-Embedding 核心能力速览
- 多任务全能:一个模型同时支持六大任务--文本检索、语义相似度、意图识别、分类、聚类、去重。
- 零样本强泛化:无需微调即可在法律、医疗、工业、金融等垂直场景获得高检索精度。
- 即插即用:提供 Hugging Face Transformer 接口、LangChain/LlamaIndex 插件,三分钟完成本地部署。
- 可微调:开源训练框架与数据格式,企业可用私域数据继续训练,不遗忘通用能力。
- 中英双语:覆盖简体中文、繁体中文、英文及常见代码片段,适应国际化业务。
三、训练流程:三步打造"不幻觉"的嵌入模型
1. 打基础:3 万亿 Token 预训练
-
语料构成
- 1.2T 公开中文语料:百科、新闻、书籍、社区问答;
- 0.8T 公开英文语料:C4、OpenWebText、StackExchange;
- 0.3T 企业授权脱敏语料:客服对话、工单、产品说明书;
- 0.7T 合成语料:用 LLM 根据关键词生成法律、医疗、工业领域问答对,再经人工抽检修正。
-
从零训练
团队放弃"通用模型二次微调"路线,直接采用 BERT-base 架构,随机初始化权重,用 256 张 A100 训练 1.2 百万步,最大序列长度 512,批大小 8K,学习率线性 warmup 到 2e-4 再 cosine 衰减。此举彻底摆脱原始语料偏差,让模型"天生"贴近企业语境。
2. 建桥梁:弱监督语义对齐
预训练后的模型虽具备基础语义能力,但仍难区分"同义不同形"的表达。优图构建了一个弱监督对齐引擎:
-
采集 1 亿组"用户问法-标准问法"弱对齐对,来源包括:
-
客服系统里人工标注的 FAQ 映射;
-
社区高赞回答与官方文档的标题对齐;
-
搜索引擎点击图,提取"同一点击URL下的不同查询词"。
-
采用 Dual-Encoder + 对比学习 框架,温度系数 0.05,负样本采用 in-batch + hard-negative 混合策略,训练 5 万步,让模型把"保修多久?"、"坏了能免费修吗?"、"质保期多长?"映射到同一向量空间。
3. 精调优:多任务协同训练
为了让一个模型同时做好检索、相似度、分类等任务,优图设计了统一数据格式 + 差异化损失 + 动态采样的三件套:
-
统一格式 所有任务输入都转成三元组
(text_a, text_b, label),label 含义随任务而变:检索任务里是正例 1/负例 0;相似度任务里是 0~5 分;分类任务里是指定类别 ID。模型只需判断"两段文本是否相关",降低理解成本。 -
差异化损失函数
-
检索任务:采用 InfoNCE 损失,温度 0.02,强化排序能力;
-
相似度任务:采用 MSE 损失,拟合人工打分;
-
分类任务:采用 CrossEntropy 损失,接一层线性分类头; 多任务共享 12 层 Transformer,仅在顶部接入任务特定头,避免参数爆炸。
-
动态采样
训练过程中实时监控各任务验证集指标,若检索任务 MAP 连续 500 步无提升,则把采样比例从 30% 提升到 50%,并降低分类任务比例,防止"偏科"。
经过 10 万步多任务训练,模型在 CMTEB(中文多任务嵌入基准)上以 77.46 的平均分登顶,成为首个在检索、相似度、分类、聚类四项子榜全部进入前三的模型。
四、实测对比:企业场景下的精度跃升
优图选取了三个真实业务数据集做盲测:
| 数据集 | 领域 | 通用模型 Recall@10 | Youtu-Embedding Recall@10 | 相对提升 |
|---|---|---|---|---|
| 客服 FAQ | 消费电子 | 68.2% | 86.7% | +27.1% |
| 医疗指南 | 健康 | 61.5% | 82.4% | +34.0% |
| 法律条款 | 法务 | 59.8% | 81.3% | +36.0% |
在同样的检索链路( chunked 512 → HNSW 索引 → top-10 召回 )下,Youtu-Embedding 把幻觉率从 14% 降到 3% 以下,显著提升了 LLM 最终答案的可信度。
例如,在一个医疗指南检索系统中,Youtu-Embedding 能够准确识别"高血压饮食注意事项"与"高血压患者饮食建议"之间的语义关联,提供准确的检索结果。
五、开源生态:三分钟跑起来的"Embedding 工具箱"
1. 模型与代码
- Hugging Face:搜索
tencent/Youtu-Embedding即可下载 440 MB 权重,支持AutoModel.from_pretrained()一键加载。 - GitHub:仓库
TencentCloudADP/youtu-embedding包含 - 推理脚本(CPU/GPU/PyTorch/ONNX);
- 微调框架(支持 LoRA、全参数量、DeepSpeed);
- LangChain/LlamaIndex 插件,两行代码即可替换默认 embeddings。
2. 快速体验
from langchain.embeddings import HuggingFaceEmbeddings
embeddings = HuggingFaceEmbeddings(model_name="tencent/Youtu-Embedding")
text = "保修期多长?"
vec = embeddings.embed_query(text)
print(vec[:5]) # [-0.018, 0.041, ...]
3. 微调示例
准备 JSONL 格式数据:
{"text_a": "屏幕碎了怎么办", "text_b": "屏幕破损的售后流程", "label": 1}
{"text_a": "屏幕碎了怎么办", "text_b": "电池续航差", "label": 0}
运行:
python train.py \
--model_name tencent/Youtu-Embedding \
--train_file my_train.jsonl \
--num_epochs 3 \
--use_lora True \
--output_dir ./my_model
即可在单张 24G GPU 上完成 100 万样本的微调,耗时约 6 小时。
六、与现有优图开源体系的协同
Youtu-Embedding 并非孤军奋战,它与优图此前开源的两大项目无缝衔接:
- Youtu-Agent:低代码智能体框架,内置 ReAct、Plan-and-Execute 等推理范式,可直接调用 Youtu-Embedding 做知识检索。
- Youtu-GraphRAG:把文档解析成实体-关系图,再用图神经网络增强检索,Embedding 向量作为节点初始特征,实测可把多跳问答准确率再提升 9%。
三者组合,可让企业用一套代码、一套模型,完成"文档入库 → 图谱构建 → 检索问答 → 智能体决策"的完整闭环。
七、未来规划
优图透露,下一步将在以下方向持续投入:
- 多模态 Embedding:同步理解文本、表格、流程图、产品照片,实现"说明书扫一扫,问答立刻出"。
- 边缘端优化:推出 INT4 量化版本,把模型压缩到 120 MB,在 ARM 芯片上推理延迟 < 30 ms。
- 行业大模型联动:与腾讯混元、Llama-3-70B 等更大参数模型深度耦合,形成"大模型生成答案 + Embedding 验证溯源"的双重保险。
八、结语
从"幻觉"到"可信",从"通用"到"企业专属",腾讯优图用 Youtu-Embedding 给出了一条可落地、可扩展、可二次开发的技术路径。全部代码与权重已采用 Apache-2.0 协议开源,无论是初创公司还是大型企业,皆可零成本试用、快速集成。如果你正为知识库问答、智能客服、合规审计等场景寻找一套"不胡说八道"的文本嵌入方案,不妨立刻体验 Youtu-Embedding,让它成为企业 AIGC 旅程中的第一块可靠基石。
开源与生态
- 已开源:
- GitHub 源码(含微调框架):TencentCloudADP/youtu-embedding
- Hugging Face 模型:tencent/Youtu-Embedding
- 论文:arXiv 链接
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
