缩减6倍AI内存、闪迪美光下挫：拆解谷歌TurboQuant背后的软硬件博弈

钛媒体APP

2026-03-26 16:20 · 北京

美东时间3月24日，谷歌研究院（Google Research）发布了一项名为TurboQuant的免训练（training-free）AI内存压缩算法。

官方技术文件显示，该算法能够在不损失模型精度的前提下，将大语言模型推理阶段的键值缓存（KV Cache）内存占用缩减至少6倍，并在特定基准测试中相较32位未量化模型实现最高8倍的性能提升。这项极度压缩技术，直接改变了大型AI模型在显存资源调配上的技术预期。

技术发布的连锁反应迅速传导至资本市场。周三美股交易时段，存储芯片板块出现整体下挫，闪迪一度大跌6.5%，美光科技跌幅约4%，希捷科技跌超5%。

市场情绪的短期波动主要源于单一维度的推演：若底层算法能将上下文内存需求大幅缩减，现阶段价格高昂且供不应求的高带宽内存（HBM）及企业级存储芯片的长期出货量预期可能会面临修正。

PolarQuant与QJL的协同机制

TurboQuant的核心突破在于

点击查看全文