$芯原股份(SH688521)$ $寒武纪(SH688256)$ $海光信息(SH688041)$ Google最新论文TurboQuant,在推理阶段,对kv cache存储压缩到2~3bit,且模型效果几乎无损。对比16bit,kv cache存储可以减少6倍,推理速度也有很大提升。TurboQuant能带来单x吞吐量和延迟的极大提升,对于推理端的降本增效非常关键,对于我们的x而言则是更大的机遇!对比达子旗舰,我们的x计算力弱,显存小,hbx版本落后导致显存带宽慢。但是有了TurboQuant加持后,上述弱点都不是问题,还是那句话,在推理端,我们的x完完全全足够用了!算法的优化、算法对算力的极限压榨,永远是应对算力短缺最好的方式!