
大模型越来越聪明,但也越来越“胖”。 如何在不损失精度的前提下,把大模型塞进手机、塞进CPU、塞进边缘设备? 腾讯最新发布的 Tequila 算法,给出了一个惊艳的答案。
一、1.58Bit 量化:极致压缩的“极限挑战”
什么是 1.58Bit 量化?
我们知道,神经网络中的权重通常是 32位浮点数(FP32),非常吃内存、吃算力。 为了压缩模型,研究人员提出了一种极端的压缩方式:三值量化,也叫 1.58Bit 量化。
它将每个权重压缩成 3 个值:
{-1, 0, +1}
就像把一张彩色照片,压缩成黑白+透明三种颜色。 虽然压缩率极高(理论上可以节省 16~32 倍内存),但问题来了:
太多权重变成了 0,模型“死”了。
二、“死区陷阱”:三值量化的致命伤

举个例子:
假设我们有一个简单的神经网络层:
输入 x = [1, 2, 3]
权重 w = [0.8, -1.2, 0.3]
经过三值量化后,权重变成:
w_quant = [+1, -1, 0]
注意第三个权重变成了 0,这意味着:
它对输出没有任何贡献,也无法获得梯度更新。
如果这种情况大规模发生,模型就像“脑死亡”了一样,无法学习,精度暴跌。
这就是 “死区陷阱”(Dead Zone Trap)。
三、Tequila:给“死”权重一杯“复活酒”
腾讯提出的 Tequila 算法,核心思想是:
让“死”权重复活,但不是直接恢复,而是以“幽灵”的形式继续参与计算。
1. 极小值再激活:-0 和 +0 的魔法
Tequila 引入了一个巧妙的概念:
把 0 拆成 -0 和 +0,分别对应负极小值和正极小值。
虽然它们仍然是 0,但可以通过偏置项对输出产生影响。
举个例子:
假设我们有以下三值权重:
w = [+1, -1, 0]
传统方法中,第三个 0 权重完全“死亡”。 但在 Tequila 中,它被标记为 +0,并转化为一个离线偏置项:
bias = +0.3 (来自原权重的“幽灵”贡献)
在推理时,这个偏置被提前计算好,不增加任何额外开销,但仍然保留了原始信息。
2. 动态离线偏置:让“幽灵”有迹可循
Tequila 还设计了一个可微量化函数,替代传统的 STE(直通估计器),让梯度更稳定。
同时,它将“死区”权重转化为离线偏置项,在推理时直接加到输出中。
举个例子:
假设我们有一个神经元:
输入 x = [1, 2, 3]
原始权重 w = [0.9, -1.1, 0.2]
三值量化后:w = [+1, -1, 0]
传统方法中,第三个权重 0.2 → 0,信息丢失。 Tequila 会记录这个 0.2,并将其转化为偏置:
bias += 0.2 * 3 = 0.6
最终输出为:
y = (1*1 + 2*(-1) + 3*0) + 0.6 = -1 + 0.6 = -0.4
虽然权重被量化为 0,但它的“灵魂”仍然以偏置的形式存在。
四、实验结果:又快又准,还不占内存
1. 精度提升明显
在 10B Token 训练数据下,Tequila 在多个 Benchmark 上比传统三值量化方法 提升约 3%,接近 FP16 全精度模型。
| 模型 | 精度(平均) |
|---|---|
| FP16 基线 | 62.1% |
| 传统三值量化 | 58.7% |
| Tequila | 61.9% |
2. 推理速度翻倍
在 CPU 上测试,Tequila 的推理速度比 FP16 快 2~3 倍,且几乎不增加延迟。
| 模型 | Token/s(CPU) |
|---|---|
| FP16 | 12.3 |
| 传统三值 | 28.5 |
| Tequila | 31.2 |
五、总结:Tequila 的四大亮点
| 特性 | 说明 |
|---|---|
| ✅ 复活死区权重 | 通过 -0/+0 和偏置项,重新激活“死”权重 |
| ✅ 零推理开销 | 偏置项可离线计算,不增加推理延迟 |
| ✅ 即插即用 | 可轻松集成到现有三值量化框架中 |
| ✅ 精度接近 FP16 | 在多个任务上接近全精度模型表现 |
六、写在最后:大模型“瘦身”的未来
Tequila 的出现,让我们看到了一个极致压缩与高精度并存的可能。 它不仅是一次算法创新,更是大模型走向边缘设备、端侧部署的关键一步。
未来,你的手机、眼镜、车载系统,都可能跑着一个“喝过 Tequila”的大模型-- 聪明、轻巧、还不上头。
📎 相关链接
- 腾讯技术原文:https://mp.weixin.qq.com/s/3OJw_eM6M25vP0dS0B1lhA
- GitHub 开源地址:https://github.com/Tencent/AngelSlim
- 论文地址:https://arxiv.org/abs/2509.23809
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
