#KV cache# #飞利信# #星环科技#根据目前可获取的公开信息，两家公司在KV Cache 应用方向上存在显著差...

茶馆小二

2026-03-26 09:48 · 广东

#KV cache# #飞利信# #星环科技#
根据目前可获取的公开信息，两家公司在KV Cache应用方向上存在显著差异，特别是在技术路线的选择和内存带宽优化策略上：
飞利信：MLA（多头潜在注意力）低秩压缩路线
飞利信明确采用了类MLA（Multi-head Latent Attention）的缓存压缩计算加速技术 [^0^]。这是DeepSeek-V2/V3等模型采用的关键架构创新，其核心机制包括：
1.
低秩联合压缩：将Key和Value矩阵通过下投影矩阵 W^{DKV} 压缩到低维潜在空间（维度 d_c 远小于原始维度），推理时仅缓存压缩后的潜在向量 c_t^{KV}，而非完整的K/V矩阵
2.
动态解压计算：在注意力计算阶段，通过上投影矩阵动态恢复K/V，结合矩阵吸收技术将部分计算合并到查询投影中，减少实时计算开销
3.
解耦RoPE处理：将位置编码与内容压缩分离，保留旋转位置编码（RoPE）对长序列的感知能力，同时避免位置信息在低秩压缩中丢失 [^7^]
内存带宽节省效果：相比传统多头注意力（MHA），MLA可将KV Cache压缩至原来的 0.2%~4%（理论上可减少93%以上的缓存需求），显著降低推理阶段的内存带宽压力
星环科技：通用优化路线（量化/分页管理）
公开资料中，星环科技并未披露其专有的KV Cache架构级创新（如MLA或MQA/GQA等注意力机制改造）。根据其产品定位和技术储备，其KV Cache优化可能主要依赖业界通用方案：
1.
量化压缩：将KV Cache从FP16压缩至INT8/INT4，减少单token存储精度
2.
分页内存管理（PagedAttention）：借鉴操作系统分页机制，通过非连续的物理内存块存储KV Cache，缓解内存碎片化和预分配浪费
3.
动态调度和卸载：结合LayerKV等层特定调度策略，将部分KV Cache卸载至CPU DRAM或SSD，通过异步预取平衡内存压力
结论：飞利信的MLA低秩压缩路线在节省内存带宽方面更具优势。
MLA通过压缩维度的根本性降低（如从4096维压缩至512维），不仅减少了KV Cache的存储容量，更在推理解码阶段大幅降低了从显存（HBM/DRAM）到计算单元的数据搬运量，直接缓解内存墙（Memory Wall）瓶颈 [^14^]。相比之下，通用的量化或分页技术虽能减少显存占用，但并未改变Attention机制 underlying 的数据访问模式，内存带宽压力缓解有限