QYJS    前沿技术
前沿技术
大模型推理加速新范式:KV Cache技术的演进与突破
文 | 新华三集团云与计算存储产品线 张峻豪

摘要

随着大规模语言模型(LLM)在长文本生成、复杂推理和多轮对话等场景中的深度应用,其推理过程中的显存瓶颈,尤其是由键值缓存(KV Cache)引发的“显存墙”问题,已成为制约AI应用服务响应速度、吞吐量与成本的关键。目前,业界正通过动态缓存管理等关键技术来探索KV Cache技术的优化方向,试图在模型应用效果与显存效率间寻求平衡。这要求从算法、框架到硬件的协同创新,以系统性地突破显存墙的制约。

关键词

键值缓存(KV Cache);内存瓶颈;以存换算;推理效率

1 引言:AI响应的“秒级”瓶颈——从一次对话的体验切入

当用户使用AI应用撰写一篇长文、生成一段复杂代码,或进行一场深入的上下文对话时,期望的往往是流畅、连续的“秒级”响应。然而,在这看似简单的交互背后,推理引擎正承载着巨大的内存压力。以一次生成2048个token的请求为例,一个拥有百亿参数、使用注意力机制的模型,其推理过程中为加速计算而存储的中间状态——键值缓存(KV Cache),其占用的显存可轻松突破数十GB,远超单个高性能GPU的显存容量。

这种庞大的KV Cache迫使请求在GPU间频繁调度,甚至触发显存与主机内存(或NVMe存储)之间的低速数据交换,直接导致生成速度从“秒级”跌落至“十秒级”,用户体验急剧恶化。因此,KV Cache的管理效率,已成为决定大模型推理服务性能、吞吐量与成本的生死线。优化KV Cache,本质上是与硬件限制的博弈,一场围绕珍贵的GPU卡显存的“突围战”。

2 原理解析:KV Cache——以空间换时间的经典工程智

Transformer是目前业界主流的大模型基础架构,其核心是自注意力机制。自注意力通过计算输入序列中每个词与其他词的相关性权重,动态聚合上下文信息。在自回归生成过程中,每个新token的生成都需要基于之前所有已生成token的上下文进行计算。若不进行缓存,计算第t个token的注意力得分时,需重新计算所有历史token的Key和Value向量,导致计算复杂度与序列长度呈平方级增长(O(n²)),这在长文本生成中是不可接受的。KV Cache的智慧在于“以空间换时间”:在生成第一个token后,将其对应的Key和Value向量存储在显存中;生成后续token时,只需计算新token的K/V,并与缓存的K/V拼接,即可线性复杂度(O(n))地完成注意力计算。这极大地降低了计算延迟。然而,这把“双刃剑”的另一面是巨大的显存开销。其占用量可简化为:2 * BatchSize * SeqLen * NumLayers * NumHeads * HeadDim * dtype_size。

以Llama 2 70B模型为例,在FP16精度下,处理一个长度为2048的序列,仅KV Cache就需占用约 2.7GB 显存。当批处理(Batch Size)增大或对话轮次(Session)延长时,这个数字会成倍增长,迅速击穿GPU HBM的容量上限,成为显存瓶颈的主要矛盾。而单纯依赖增加 GPU 数量来扩展 KV Cache 容量,会显著推高部署成本和功耗。

3 以存换算:一场围绕KV Cache的“内存突围战”

为攻克此瓶颈,工业界与学术界协同发力,涌现出多种的解决方案。其核心思想可以用四个字总结“以存换算”。

内存层级优化:构建异构存储金字塔

核心思路是将单一的GPU显存扩展为一个分层的存储体系,根据数据访问频率进行智能调度。

◆CPU DRAM卸载:将不活跃的、较早生成的KV Cache块卸载到主机内存。当模型需要回溯这些上下文时,再预取回显存。vLLM、SGlang等推理引擎已集成此类策略(通过LMCache、HiCache等组件实现),在显存紧张时显著提升可处理的序列长度。

◆存储系统卸载:在超长上下文场景(如128K)下,主机内存也可能不足。前沿方案开始探索将最冷端的KV Cache卸载至本地NVMe SSD固态硬盘甚至远端存储。通过异步I/O和高效的数据布局,尽管存取延迟较高(微秒级 vs 纳秒级),但通过重叠计算与I/O,仍能以可接受的代价突破绝对容量限制。

动态管理与高效调度:精细化内存管理

核心思路是让每一字节的显存都用在“刀刃”上,避免静态分配导致的浪费。

◆PagedAttention:受操作系统虚拟内存分页机制启发,将连续的KV Cache划分为块(Block),以块为单位进行管理。不同序列的块可以在物理显存中非连续存储,实现近乎零浪费的碎片化内存利用。

◆选择性缓存与逐出:并非所有历史token都对未来生成同等重要。通过计算注意力得分或轻量级预测器,识别并保留重要的KV,逐出冗余或次要的KV。类似缓存淘汰算法(如LRU)也被引入。

◆共享前缀缓存:在批处理中,多个请求可能拥有相同的提示词前缀。共享这部分KV Cache可以避免重复存储,在提供搜索、推荐等场景下效果显著。

4 新华三解决之道:KV Cache加速释放极致算力潜能

在此背景下,新华三基于自研的高性能AI服务器平台,深度融合国际技术伙伴Pliops的先进方案,经过反复测试调优,联合打造出针对大模型推理KV Cache加速的最佳实践方案。本方案的核心机制是将模型推理过程中生成的大量的 KV Cache,通过硬件级加速卸载到专用的存储系统中(可以是本地SSD或外置存储服务器),当需要访问这些KV Cache时(例如在多轮对话中复用历史上下文,或在 Decode 阶段逐个生成 Token 时),GPU可以直接高速读取这些数据。这种卸载机制显著减轻了对 GPU HBM 容量的压力,使得系统可以支持更大规模的模型、更长的上下文长度,或更多的并发用户,从而提高了推理性能。以在H3C旗舰AI服务器产品R5500G6上的测试为例,重点关注在DeepSeek-V3-671B模型下,多轮测试对比标准推理服务与KV Cache加速方案下的性能差异。主要参考指标为TTFT(首Token 生成的延迟,ms)、TPOT(每个Token生成的平均延迟,ms)。经多轮验证,采用KV Cache卸载加速方案的推理核心指标显著优化,TTFT下降70%,TPOT下降30%,大幅缩短响应延迟,提升用户体验。

测试结果如图1、图2所示。

图1 4并发、60请求下测试数据对比

图2 8并发、60请求下测试数据对比

通过上述数据分析对比可知,新华三的KV Cache加速方案在多种大模型应用场景中具有显著价值:

交互式应用(多轮对话):如聊天机器人、智能客服等。这类应用中,用户与模型的交互是多轮的,后续轮次的输入通常依赖于前序对话的上下文。通过快速加载存储历史 KV Cache,能够大幅缩短响应延迟,提升用户体验。

长上下文处理: 对于需要处理数千甚至数万 Tokens 上下文的任务(如长文档问答、代码生成、复杂指令理解),HBM 容量往往成为瓶颈。本方案提供的PB级KV Cache扩展能力,使得处理这类长上下文任务更为从容,避免了因HBM不足导致的性能下降或任务失败。

高并发推理服务:在面向大量用户的在线推理服务中,系统需要同时处理多个并发请求。通过高效的KV Cache 管理,能够支持更多并发会话,显著提高系统的整体吞吐量(RPS),从而在相同的 GPU 资源下服务更多用户。

5 结束语

随着模型规模的增大和用户基数的扩张,大模型推理效率正成为AI基础设施性能的关键指标。新华三凭借多年来在AI领域的技术创新与实践探索,创新性的推出推理加速方案,并进行精心的调优实践,充分验证了该方案在提升推理效率方面的显著优势。这将进一步加速 GenAI 应用的发展,帮助企业和开发者更轻松地应对大型语言模型落地应用的复杂性和规模挑战,推动 AI 技术在更多领域的应用和创新。Gen Al时代,推理加速将会是个持续提升、没有终点的创新之路,面向未来,新华三将持续推动计算范式革新,助力客户在AI时代释放极致算力潜能。

关闭