
大模型越来越聪明,但也越来越“胖”。 如何在不损失精度的前提下,把大模型塞进手机、塞进CPU、塞进边缘设备? 腾讯最新发布的 Tequila 算法,给出了一个惊艳的答案。
我们知道,神经网络中的权重通常是 32位浮点数(FP32),非常吃内存、吃算力。 为了压缩模型,研究人员提出了一种极端的压缩方式:三值量化,也叫 1.58Bit 量化。
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章Tequila 的出现,让我们看到了一个极致压缩与高精度并存的可能。 它不仅是一次算法创新,更是大模型走向边缘设备、端侧部署的关键一步。
未来,你的手机、眼镜、车载系统,都可能跑着一个“喝过 Tequila”的大模型-- 聪明、轻巧、还不上头。
声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明

