AAAI 2026 | 多上下文KV Cache的稀疏注意力方案

发布人：刘秉权发布时间：2026-04-02 浏览次数:10

声明：以下部分内容转载自“语言技术中心@HIT 语言技术紫丁香 ”

论文名称：Sparse Attention Across Multiple-Context KV Cache
论文作者：曹子一，佀庆一，张静斌，刘秉权
论文链接：
https://doi.org/10.1609/aaai.v40i36.40266
转载需标注出处：哈工大计算学部语言技术研究中心

由哈工大语言技术中心完成，并发表于第40届美国人工智能协会年会（AAAI-26，CCF-A类会议）的这篇文章主要解决在大语言模型（LLM）的长文本推理任务中，如何高效处理多上下文检索增强生成（RAG）场景，该问题一直是推理效率与内存占用的瓶颈。传统方法往往需要完整加载历史KV Cache，导致GPU内存消耗巨大。本文提出的SamKV方法，首次在多上下文场景中实现KV Cache的稀疏化与局部重计算，显著提升推理吞吐量，为长文本多跳问答与复杂推理任务提供了高效可行的解决方案。

一、研究背景与挑战

随着大语言模型在问答、对话、教育等领域的广泛应用，用户请求越来越复杂，尤其是在多上下文RAG场景中，系统需要同时处理多个检索文档作为上下文输入。传统KV Cache复用方法虽然提升了单上下文的推理效率[1,2]，但在多上下文场景中面临两大挑战：（1）缺乏跨文档注意力机制：每个文档的KV Cache独立计算，缺少文档间的注意力交互，影响推理准确性；（2）内存占用高：即使只需重计算部分token，仍须加载全部KV Cache，导致GPU内存压力大。

现有方法如CacheBlend[3]、EPIC[4]等尝试通过重计算缓解注意力缺失，但未能实现缓存稀疏化，内存问题依然突出。

二、SamKV方法框架

SamKV提出一种“稀疏化+选择性重计算”的双阶段策略，主要包括三个核心模块：

图1：SamKV整体框架示意图

（一）个性化查询向量生成模块

传统方法使用用户查询直接进行稀疏化，难以捕捉多文档间的共识信息。SamKV引入个性化查询向量，在基础查询向量中融合其他文档的局部Q Cache信息，增强跨文档语义关联的识别能力。

图2：个性化查询向量生成示意图

（二）KV选择模块

SamKV采用动态Top-P采样策略，基于注意力得分动态选择重要KV块。仅保留初始位置与局部位置的KV Cache，对中间段落进行稀疏筛选，最终将KV Cache压缩至原长度的15%。

图3：KV选择与稀疏化示意图

（三）重计算模块

为弥补因独立预填充导致的跨文档注意力缺失，SamKV对稀疏化后的KV Cache中关键token进行局部重计算，并支持“覆盖”与“融合”两种更新策略，在减少计算量的同时保持模型性能。

图4：局部重计算与缓存更新示意图

三、实验验证

本文在LongBench[5]的多个长文本问答数据集上评估SamKV，包括2WikiMQA、MuSiQue与HotpotQA，并选用Mistral-7B、Llama3.1-8B等模型进行对比。

（一）性能对比

实验结果显示，SamKV在多数数据集上优于现有多上下文方法（如CacheBlend、EPIC），甚至在2WikiMQA和HotpotQA上超过完整重计算基线。例如，在Llama3.1-8B上，SamKV在HotpotQA上F1达到35.27，显著高于完整重计算的24.12。

表1：SamKV与基线方法在多个数据集上的F1性能对比

（二）消融实验

通过对“是否选择中间KV Cache”、“是否添加个性化偏置”、“是否进行重计算”三个维度的消融分析，验证了各模块的有效性。实验表明，局部重计算可提升F1约6%~7%，且稀疏化后仅重计算少量token即可显著缓解跨文档注意力缺失。

图5：消融实验分析图

四、总结与展望

SamKV首次在多上下文场景中实现KV Cache的稀疏化，仅保留15%的缓存即可达到与完整重计算相当的精度，显著降低了GPU内存占用与推理延迟。该方法通过跨文档共识感知的稀疏化与局部重计算，为长文本、多文档的LLM推理任务提供了高效可行的技术路径。

参考文献

[1] Li, Y., Huang, Y., Yang, B., Venkitesh, B., Locatelli, A., Ye, H., ... & Chen, D. (2024). Snapkv: Llm knows what you are looking for before generation. Advances in Neural Information Processing Systems, 37, 22947-22970.

[2] Xiao, C., Zhang, P., Han, X., Xiao, G., Lin, Y., Zhang, Z., ... & Sun, M. (2024). Infllm: Training-free long-context extrapolation for llms with an efficient context memory. Advances in Neural Information Processing Systems, 37, 119638-119661.

[3] Yao, J., Li, H., Liu, Y., Ray, S., Cheng, Y., Zhang, Q., ... & Jiang, J. (2025, March). CacheBlend: Fast large language model serving for RAG with cached knowledge fusion. In Proceedings of the Twentieth European Conference on Computer Systems (pp. 94-109).

[4] Hu, J., Huang, W., Wang, H., Wang, W., Hu, T., Zhang, Q., ... & Xie, T. (2024). Epic: Efficient position-independent context caching for serving large language models.arXiv e-prints, arXiv-2410.

[5] Bai, Y., Lv, X., Zhang, J., Lyu, H., Tang, J., Huang, Z., ... & Li, J. (2024, August). Longbench: A bilingual, multitask benchmark for long context understanding. InProceedings of the 62nd annual meeting of the association for computational linguistics (volume 1: Long papers) (pp. 3119-3137).