谷歌放大招！一项新技术，能节省6倍内存！

谷歌A(GOOGL)

2026-03-27 21:15

来源：市场资讯

（来源：半导体前线）

Google近日推出了新一代压缩算法TurboQuant，该技术可大幅降低人工智能系统对内存的需求。

根据谷歌介绍，TurboQuant压缩技术旨在降低大语言模型和向量搜索引擎的内存占用。该算法主要针对AI系统中用于存储高频访问信息的键值缓存（key-valuecache）瓶颈问题。随着上下文窗口变大，这些缓存正成为主要的内存瓶颈。

Google表示，TurboQuant透过新型量化方式，移除传统压缩所需的额外参数，提升效率并降低内存负担。在Gemma与Mistral等模型测试中，即使在高压缩情境下，仍能维持完整效能。

TurboQuant可在无需重新训练或微调模型的情况下，将键值缓存压缩至3bit精度，同时基本保持模型准确率不受影响。

对包括Gemma、Mistral等开源模型的测试显示，该技术可将内存使用量降低约6倍，并在英伟达H100GPU上带来最高达8倍

为提升阅读体验，雪球对本页面进行了排版优化

风险提示：用户发表的所有文章仅代表个人观点，与雪球的立场无关。投资决策需建立在独立思考之上。

点击查看全文