天才需要炫技
技术扩散是挡不住的,天才总有种炫技的冲动,AI行业尤其如此。大家等不及同行审议,最好最新的论文总是先出现在Arxiv开放知识库。
甚至有时候都等不及写成论文,Hinton教授把他首创的RMSProp模型优化器直接放在了$Coursera(COUR)$ 的教学课件里,导致后来大家引用的时候只能写课件链接。
最新例子是Muon模型优化器,年轻学者Keller Jordan只把它写成一篇博客,但大家立刻发现这个优化器能大幅加快模型的训练速度。Kimi用它训练了一个Moonlight月光模型,Karpathy的Nanochat也用到它,我也在模型压缩后的修复训练中发现了Muon的魔力。