Adam的稳+Muon的快?华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境

用户头像
Adamas(ADAM)
   

来源:市场资讯

(来源:机器之心)

在 LLM 优化领域,有两个响亮的名字:Adam(及其变体 AdamW)和 Muon。

它们一个是久经沙场的「守门员」,凭借动量和自适应学习率统治了深度学习的半壁江山,却在面对十亿级参数的混合精度训练时,常常因数值不稳定性而显得力不从心;一个是横空出世的「破局者」,试图通过将权重矩阵视为整体来重塑训练几何,却因为一刀切(one-size-fits-all approach)的系数设计和对异常值噪声的极度敏感,在鲁棒性上留下了缺口。

当训练规模不断指数级膨胀,我们是否只能在 Adam 的「稳」与 Muon 的「快」之间做单选题?

华为诺亚方舟实验室的最新力作 ROOT (Robust Orthogonalized OpTimizer) 给出了否定的答案。

作为一款直击痛点的鲁棒正交化优化器,ROOT 不仅精准修复了 Muon 在不同矩阵维度上的「精度近视」,更通过巧

来源:新浪财经

为提升阅读体验,雪球对本页面进行了排版优化

风险提示:用户发表的所有文章仅代表个人观点,与雪球的立场无关。投资决策需建立在独立思考之上。

点击查看全文