米乐体育M6 Sports 牛津、英伟达等建议纪念压缩新范式: 西席时让模子学会断舍离

来源：未知作者：admin 发布时间：2026-06-15 06:40 浏览：150

裁剪｜Panda

2026 岁首，各大 AI 厂商在高下文窗口长度上张开强烈角逐。Google 的 Gemini 3 Pro 已相沿 100 万级 token 高下文，Meta 的 Llama 4 Scout 更宣称可解决 1000 万 token。GPT-5 系列也在快速推动长高下文才调。

按这个趋势，今天的大模子依然八成连气儿读完满套《哈利・波特》，以前致使可能平直分析通盘这个词大型代码仓库。

但数字背后也荫藏着一个枢纽问题：高下文越长，模子就越「记不住」。

这并非模子不够奢睿，而是 Transformer 架构自己的工程经管。当模子解决长文本时，需要为每个 token 保存 Key-Value（KV）景象，用于后续生成时的慎重力考虑。这个缓存区域被称为 KV Cache。

KV Cache 的大小会随高下文长度线性增长：输入越长，占用的 GPU 显存越多，推理速率也越慢。关于百万 token 级别的输入，在大型模子和高精度推理场景下，KV Cache 的内存支出可达到数十到数百 GB，远超单张顶级 GPU 的显存容量。

高下文窗口的竞赛，骨子上是一场显存的干戈。

面临这一窘境，商榷者们依然开辟出多种「过后压缩」决策，也等于在模子西席完成之后，用各式算法对 KV 缓存进行精简。这些次第照实灵验，但它们都遗漏了一个更根柢的问题：要是模子在领先学习的时间，就莫得被教导去生成「容易被压缩」的里面示意，那么后期不管如何压缩，后果都将受到天花板适度。

就在这一配景下，来自牛津大学、以色列理工学院、AITHYRA 和英伟达的斡旋商榷团队建议了一个新的念念路：与其过后弥补，不如西席时就让模子主动学会「压缩友好」的纪念形势。

他们将这套次第定名为 KV-CAT（KV 压缩感知型西席，KV-Compression Aware Training）。

论文标题：Training Transformers for KV Cache Compressibility

论文地址：https://arxiv.org/abs/2605.05971

KV 缓存为奈何此难压缩？

要集结这项商榷的价值，先得弄明晰一个直观上看似奇怪的事实：两个输出全都疏导的模子，其 KV 缓存可能一个极易压缩，另一个根柢无法压缩。

这听起来很反直观。咱们时时觉得，要是两个系统的「拆伙」疏导，它们的里面过程应该莫得骨子区别。但在神经集聚天下里并非如斯。

开云体育app2026世界杯中国官网下载

商榷团队用一个肤浅的例子来施展这少许：「词频统计」。给模子输入一段笔墨，让它统计每个字母出现了些许次。这是一个只依赖「汇总信息」的任务，与每个字母出现的礼貌无关。

通常完成这个任务，不错有两种截然相悖的里面收尾形势。

第一种是「当但是然」的收尾：模子对每个 token 进行零丁编码，临了通过慎重力机制对一都 token 作念平均，得出统计拆伙。这种次第肤浅平直，但存在一个致命残障：任何对 KV 缓存的压缩都会即兴平均考虑，导致最终拆伙出错。商榷团队从数学上解释了：这种收尾形势，在表面上对任何进度的压缩都不具备容错才调。

第二种是「结构化」的收尾：模子在解决每个 token 时，极端记载序列的位置信息（即这段前缀有多长），当 KV 缓存被压缩成一个单一的向量时，模子不错支配位置信息对压缩后的汇总值进行重新校准，从而复原正确的统计拆伙。这种收尾形势，表面上不错将率性长度的前缀压缩到仅剩一双 KV 向量，同期保捏零差错。

两种收尾，疏导的输出，截然相悖的压缩性。

枢纽在于：表率的模子西席过程，全都莫得引发让模子去选定第二种更结构化的收尾。因为在莫得压缩的场景下，两种形势后果全都一样，西席信号无从分别。

中枢次第

让模子在「戴着镣铐」的情况放学习

意志到这少许后，商榷团队联想了 KV-CAT 西席决策。中枢念念路极为平直：要是你想让模子学会在 KV 缓存被压缩的情况下平淡使命，就在西席时模拟这种压缩压力。

这访佛于一种「纪念阻挠西席」。等闲的模子西席就像让学生在检会时不错带着完满的条记本作答 —— 诚然进展优异。而 KV-CAT 则是在西席时就充公大部分条记，米乐体育M6 Sports逼着学生将最蹙迫的信息内化成果然的「集结」，而非对条记的依赖。

具体来说，KV-CAT 在原有的预西席模子基础上，引入了一组轻量级的「路由器」模块。这些路由器在西席的每一步会动态判断哪些 KV 槽位是必要的、哪些不错被屏蔽，见解是保留约 50% 的 KV 缓存。每次前向传播，模子需要同期进行两次考虑：一次是平淡的「全量」考虑（通盘 KV 槽位都可见），一次是「压缩」考虑（仅保留路由器选中的 KV 槽位）。

西席见解由三部分构成：

自蒸馏赔本，让压缩模式下的输出尽量靠近全量模式下的输出；

锚定赔本，平直对全量模式施加表率的下一个词量度见解，确保模子的基础才调不退化；

预算赔本，经管路由器践诺保留的 KV 比例不偏离 50% 的见解太多。

通盘这个词历程完成后，路由器模块在推理时会被关闭。输出的是一个表率的 Transformer 模子，它的参数与原模子疏导，但其里面依然被西席成一种「自然压缩友好」的示意花式。后续不错搭配率性现成的 KV 压缩次第使用。

详实的数学描摹请走访原论文。

实验拆伙

全面逾越，且不以基础才调为代价

商榷团队将 KV-CAT 应用于 Qwen2.5 的两个限制版块（0.5B 和 1.5B 参数），并在多个维度上对其进行评估。

开端，基础才调莫得赔本。这是最枢纽的考据。在六个表率多选题基准测试上（包括 HellaSwag、WinoGrande、ARC 等），KV-CAT 西席后的模子与原始模子简直捏平：0.5B 版块平均擢升了 0.7 个百分点，1.5B 版块平均下跌了 0.5 个百分点，均属于平淡的西席波动范围。这施展 KV-CAT 莫得以糟跶通用才调为代价换取压缩性能。

其次，后期 KV 压缩的后果大幅改善。在同等压缩预算下，与原始基础模子比拟：

使用慎重力匹配（Attention Matching）次第对前缀进行压缩后，续写文本的困惑度（perplexity）差距最多消弱了 3.21 倍 —— 也等于说，压缩后模子的进展与压缩前更为接近。

使用梯度优化法进行压缩时，KV-CAT 模子达到疏导压缩质料所需的优化步数减少了最多 5 倍。这对践诺部署至关蹙迫：压缩自己也需要考虑资源，要是压缩速率更快，就意味着不错解决更多申请。

第三，「大海捞针」检索准确率权臣擢升。商榷团队联想了一个经典的长文检索测试：在一段充满干预项的长文本（约 1024 个 token）中藏入一个六位数的「密码」，然后将文本的 KV 缓存压缩后，测试模子能否正确回忆出这个密码。

在保留 50% 的 KV 槽位的情况下，KV-CAT 版块的 Qwen2.5-0.5B 检索准确率从 28% 跃升至 47%，Qwen2.5-1.5B 则从 49% 擢升至 67%，擢升幅度接近 68%。即使在顶点压缩（仅保留 10% 的 KV）的情况下，KV-CAT 版块的性能也与基础模子在轻度压缩时相等。

第四，长文问答任务也有昭彰改善。在 LongBench v2 的七项长文本问答任务上，KV-CAT 模子在各压缩比例下的平均准确率均高于基础模子，最大擢升幅度达到 39%。

结语

KV-CAT 并不宣称要取代现存的压缩算法。商榷团队明确指出，它的见解是成为现存压缩次第的「底层增强」：通常的压缩算法，作用在 KV-CAT 西席过的模子上，后果更好、速率更快。

这种「西席时为推理作念准备」的念念路，在 AI 系统工程畛域并不生疏。但将其具体应用于 KV 缓存的可压缩性，并从表面上解释这种属性全都由模子的学习示意决定，是这项使命的中枢孝敬。

诚然，这套决策也有其代价：不竭预西席引入了极端的西席支出，路由器模块增多了收尾复杂度，现在的实验限制也仅限于 0.5B 和 1.5B 两个相对袖珍的模子。商榷者坦承，这套次第能否平滑彭胀到百亿致使千亿参数的大模子，仍是一个灵通问题。

但这一标的的逻辑是设置的。跟着高下文窗口的竞赛束缚推动米乐体育M6 Sports，显存瓶颈正升级为制约 AI 系统限制化部署的中枢挑战。让模子从一启动就「学会压缩」，而不是生成了难以压缩的示意之后再一火羊补牢，将是以前大模子西席工程中越来越值得喜爱的联想维度。