#KV cache# #飞利信# #星环科技#
根据目前可获取的公开信息,两家公司在KV Cache应用方向上存在显著差异,特别是在技术路线的选择和内存带宽优化策略上:
飞利信:MLA(多头潜在注意力)低秩压缩路线
飞利信明确采用了类MLA(Multi-head Latent Attention)的缓存压缩计算加速技术 [^0^]。这是DeepSeek-V2/V3等模型采用的关键架构创新,其核心机制包括:
1.
低秩联合压缩:将Key和Value矩阵通过下投影矩阵 W^{DKV} 压缩到低维潜在空间(维度 d_c 远小于原始维度),推理时仅缓存压缩后的潜在向量 c_t^{KV},而非完整的K/V矩阵
2.
动态解压计算:在注意力计算阶段,通过上投影矩阵动态恢复K/V,结合矩阵吸收技术将部分计算合并到查询投影中,减少实时计算开销
3.
解耦RoPE处理:将位置编码与内容压缩分离,保留旋转位置编码(RoPE)对长序列的感知能力,同时避免位置信息在低秩压缩中丢失 [^7^]
内存带宽节省效果:相比传统多头注意力(MHA),MLA可将KV Cache压缩至原来的 0.2%~4%(理论上可减少93%以上的缓存需求),显著降低推理阶段的内存带宽压力
星环科技:通用优化路线(量化/分页管理)
公开资料中,星环科技并未披露其专有的KV Cache架构级创新(如MLA或MQA/GQA等注意力机制改造)。根据其产品定位和技术储备,其KV Cache优化可能主要依赖业界通用方案:
1.
量化压缩:将KV Cache从FP16压缩至INT8/INT4,减少单token存储精度
2.
分页内存管理(PagedAttention):借鉴操作系统分页机制,通过非连续的物理内存块存储KV Cache,缓解内存碎片化和预分配浪费
3.
动态调度和卸载:结合LayerKV等层特定调度策略,将部分KV Cache卸载至CPU DRAM或SSD,通过异步预取平衡内存压力
结论:飞利信的MLA低秩压缩路线在节省内存带宽方面更具优势。
MLA通过压缩维度的根本性降低(如从4096维压缩至512维),不仅减少了KV Cache的存储容量,更在推理解码阶段大幅降低了从显存(HBM/DRAM)到计算单元的数据搬运量,直接缓解内存墙(Memory Wall)瓶颈 [^14^]。相比之下,通用的量化或分页技术虽能减少显存占用,但并未改变Attention机制 underlying 的数据访问模式,内存带宽压力缓解有限