$芯原股份(SH688521)$ $寒武纪(SH688256)$ $海光信息(SH688041)$ Google最新论文...

saddle-point

2026-03-25 23:42 · 上海

$芯原股份(SH688521)$ $寒武纪(SH688256)$ $海光信息(SH688041)$ Google最新论文TurboQuant，在推理阶段，对kv cache存储压缩到2～3bit，且模型效果几乎无损。对比16bit，kv cache存储可以减少6倍，推理速度也有很大提升。TurboQuant能带来单x吞吐量和延迟的极大提升，对于推理端的降本增效非常关键，对于我们的x而言则是更大的机遇！对比达子旗舰，我们的x计算力弱，显存小，hbx版本落后导致显存带宽慢。但是有了TurboQuant加持后，上述弱点都不是问题，还是那句话，在推理端，我们的x完完全全足够用了！算法的优化、算法对算力的极限压榨，永远是应对算力短缺最好的方式！