谷歌放大招!一项新技术,能节省6倍内存!

用户头像
谷歌A(GOOGL)
   

来源:市场资讯

(来源:半导体前线)

Google近日推出了新一代压缩算法TurboQuant,该技术可大幅降低人工智能系统对内存的需求。

根据谷歌介绍,TurboQuant压缩技术旨在降低大语言模型和向量搜索引擎的内存占用。该算法主要针对AI系统中用于存储高频访问信息的键值缓存(key-valuecache)瓶颈问题。随着上下文窗口变大,这些缓存正成为主要的内存瓶颈。

Google表示,TurboQuant透过新型量化方式,移除传统压缩所需的额外参数,提升效率并降低内存负担。在GemmaMistral等模型测试中,即使在高压缩情境下,仍能维持完整效能。

TurboQuant可在无需重新训练或微调模型的情况下,将键值缓存压缩至3bit精度,同时基本保持模型准确率不受影响。

对包括GemmaMistral等开源模型的测试显示,该技术可将内存使用量降低约6倍,并在英伟达H100GPU上带来最高达8

来源:新浪财经

为提升阅读体验,雪球对本页面进行了排版优化

风险提示:用户发表的所有文章仅代表个人观点,与雪球的立场无关。投资决策需建立在独立思考之上。

点击查看全文