用户头像
淡淡的相思林
 · 北京  

讲个简单的比方,你问Ai
我想知道你今天要去哪里这十一个字,现有的kv压缩技术已经能应用到了变成去哪里这三个字了,实际压缩了四倍。
谷歌做的是对关键信息再做一次压缩,压缩一个字,所以实际上是现有基础上改善30%,但是已经到了关键信息,只有变成去哪,才是对的,变成去里,哪里这两种Ai直接就炸了,这反而证明kv缓存压缩已经到极限了,再压缩会导致推理问题直线上升
他是对比原有的我想知道你今天去哪里这十一个字,压缩了6倍,而不是现有应用技术的基础上
因此,谷歌这个论文反而证明内存压缩走到死胡同了已经