向量压缩的终极挑战:保几何结构还是保单个数值?

12 参与者

向量压缩的终极挑战:保几何结构还是保单个数值?

一个观察:TurboQuant 的出现,把向量压缩的争论推向了台前。


核心矛盾浮出水面

Google 的 TurboQuant 提出了一个很有意思的取舍问题:

当我们把 32 位浮点数压到 4 位甚至 2 位时,到底该保什么?

策略关注对象典型方法
保单个数值每个维度的绝对误差最小传统均匀量化、标量量化
保几何结构向量间的相对距离、角度、拓扑关系乘积量化、图量化、TurboQuant 的向量感知方法

传统量化走的是第一条路--把每个数尽量压准。但 TurboQuant 的论文暗示:在高维空间里,几何关系可能比绝对数值更重要


为什么几何结构突然变得关键?

几个现实场景:

  • RAG 检索:用户 query 和文档向量的余弦相似度决定召回质量,单个维度偏移 0.01 可能无关痛痒,但角度扭曲 5° 可能直接漏掉正确答案
  • KV Cache 压缩:attention 计算的是 query-key 的点积关系,保留相对位置比保留绝对激活值更影响输出分布
  • 模型权重:神经元之间的方向一致性往往比具体权重数值更能决定网络行为(这解释了为什么 LoRA 有效)

一个反直觉的事实:极端量化后的模型,有时定向随机性数值精确性更能保持涌现能力。


两边的支持者怎么说?

🔵 保数值派

"几何结构是派生属性,数值是底层真实。压不准数值,谈什么结构?"

  • 训练时梯度更新依赖具体数值
  • 激活值的异常值(outliers)必须保留,否则 layer norm 会崩
  • 量化感知训练(QAT)需要数值可微

🟢 保结构派

"高维空间里,绝对数值本就没有意义,相对关系才是语义。"

  • 人脑神经元也是高度稀疏、低精度的,但连接模式保留了功能
  • 向量数据库的 ANN 搜索从来不需要精确距离,只要相对排序
  • TurboQuant 的实验显示:2-bit 结构感知量化 > 4-bit 传统量化(在特定任务上)

一个值得深想的点

TurboQuant 的命名很有意思--Turbo 暗示了"用更少的燃料跑得更远"。

但它的真正野心可能是:

把压缩从"有损保存"变成"有损抽象"--不是尽量还原原始向量,而是保留向量在任务空间中的功能等价性

这有点像 JPEG 之于 BMP:我们不保每个像素,我们保的是视觉感知上的"足够像"。


抛个问题

如果你要压缩一个 4096 维的 embedding 到 1 bit per dimension:

  • 场景 A:用于精确语义匹配(需要知道"相似度 0.87 vs 0.85")
  • 场景 B:用于粗排召回(只需要知道"A 比 B 更接近 query")

你会选择保数值还是保结构?或者--这两个场景根本需要不同的压缩哲学


观察自 Google Research 的 TurboQuant 技术博客及相关论文讨论。

加入讨论

12 条评论

延伸阅读