声明:以下部分内容转载自“语言技术中心@HIT 语言技术紫丁香 ”
论文名称:Sparse Attention Across Multiple-Context KV Cache
论文作者:曹子一,佀庆一,张静斌,刘秉权
论文链接:
https://doi.org/10.1609/aaai.v40i36.40266
转载需标注出处:哈工大计算学部语言技术研究中心
由哈工大语言技术中心完成,并发表于第40届美国人工智能协会年会(AAAI-26,CCF-A类会议)的这篇文章主要解决在大语言模型(LLM)的长文本推理任务中,如何高效处理多上下文检索增强生成(RAG)场景,该问题一直是推理效率与内存占用的瓶颈。传统方法往往需要完整加载历史KV Cache,导致GPU内存消耗巨大。本文提出的SamKV方法,首次在多上下文场景中实现KV Cache的稀疏化与局部重计算,显著提升推理吞吐量,为长文本多跳问答与复杂推理任务提供了高效可行的解决方案。
一、研究背景与挑战
随着大语言模型在问答、对话、教育等领域的广泛应用,用户请求越来越复杂,尤其是在多上下文RAG场景中,系统需要同时处理多个检索文档作为上下文输入。传统KV Cache复用方法虽然提升了单上下文的推理效率[1,2],但在多上下文场景中面临两大挑战:(1)缺乏跨文档注意力机制:每个文档的KV Cache独立计算,缺少文档间的注意力交互,影响推理准确性;(2)内存占用高:即使只需重计算部分token,仍须加载全部KV Cache,导致GPU内存压力大。
现有方法如CacheBlend[3]、EPIC[4]等尝试通过重计算缓解注意力缺失,但未能实现缓存稀疏化,内存问题依然突出。
二、SamKV方法框架
SamKV提出一种“稀疏化+选择性重计算”的双阶段策略,主要包括三个核心模块:
图1:SamKV整体框架示意图
(一)个性化查询向量生成模块
传统方法使用用户查询直接进行稀疏化,难以捕捉多文档间的共识信息。SamKV引入个性化查询向量,在基础查询向量中融合其他文档的局部Q Cache信息,增强跨文档语义关联的识别能力。
图2:个性化查询向量生成示意图
(二)KV选择模块
SamKV采用动态Top-P采样策略,基于注意力得分动态选择重要KV块。仅保留初始位置与局部位置的KV Cache,对中间段落进行稀疏筛选,最终将KV Cache压缩至原长度的15%。
图3:KV选择与稀疏化示意图
(三)重计算模块
为弥补因独立预填充导致的跨文档注意力缺失,SamKV对稀疏化后的KV Cache中关键token进行局部重计算,并支持“覆盖”与“融合”两种更新策略,在减少计算量的同时保持模型性能。
图4:局部重计算与缓存更新示意图
三、实验验证
本文在LongBench[5]的多个长文本问答数据集上评估SamKV,包括2WikiMQA、MuSiQue与HotpotQA,并选用Mistral-7B、Llama3.1-8B等模型进行对比。
(一)性能对比
实验结果显示,SamKV在多数数据集上优于现有多上下文方法(如CacheBlend、EPIC),甚至在2WikiMQA和HotpotQA上超过完整重计算基线。例如,在Llama3.1-8B上,SamKV在HotpotQA上F1达到35.27,显著高于完整重计算的24.12。

表1:SamKV与基线方法在多个数据集上的F1性能对比
(二)消融实验
通过对“是否选择中间KV Cache”、“是否添加个性化偏置”、“是否进行重计算”三个维度的消融分析,验证了各模块的有效性。实验表明,局部重计算可提升F1约6%~7%,且稀疏化后仅重计算少量token即可显著缓解跨文档注意力缺失。
图5:消融实验分析图
四、总结与展望
SamKV首次在多上下文场景中实现KV Cache的稀疏化,仅保留15%的缓存即可达到与完整重计算相当的精度,显著降低了GPU内存占用与推理延迟。该方法通过跨文档共识感知的稀疏化与局部重计算,为长文本、多文档的LLM推理任务提供了高效可行的技术路径。
参考文献
[1] Li, Y., Huang, Y., Yang, B., Venkitesh, B., Locatelli, A., Ye, H., ... & Chen, D. (2024). Snapkv: Llm knows what you are looking for before generation. Advances in Neural Information Processing Systems, 37, 22947-22970.
[2] Xiao, C., Zhang, P., Han, X., Xiao, G., Lin, Y., Zhang, Z., ... & Sun, M. (2024). Infllm: Training-free long-context extrapolation for llms with an efficient context memory. Advances in Neural Information Processing Systems, 37, 119638-119661.
[3] Yao, J., Li, H., Liu, Y., Ray, S., Cheng, Y., Zhang, Q., ... & Jiang, J. (2025, March). CacheBlend: Fast large language model serving for RAG with cached knowledge fusion. In Proceedings of the Twentieth European Conference on Computer Systems (pp. 94-109).
[4] Hu, J., Huang, W., Wang, H., Wang, W., Hu, T., Zhang, Q., ... & Xie, T. (2024). Epic: Efficient position-independent context caching for serving large language models.arXiv e-prints, arXiv-2410.
[5] Bai, Y., Lv, X., Zhang, J., Lyu, H., Tang, J., Huang, Z., ... & Li, J. (2024, August). Longbench: A bilingual, multitask benchmark for long context understanding. InProceedings of the 62nd annual meeting of the association for computational linguistics (volume 1: Long papers) (pp. 3119-3137).