微软研究院最新:AI"自我教学"为什么有时会把数学题越做越糟?

用户头像
微软(MSFT)
   

来源:市场资讯

(来源:科技行者)

empty

这项由微软研究院联合韩国科学技术院和首尔国立大学开展的研究发表于2026年3月,论文编号为arXiv:2603.24472v1,揭示了人工智能领域一个令人意外的现象。

在人工智能的训练过程中,有一种被称为"自我蒸馏"的技术,就像让一个学生既当老师又当学生一样。按理说,这种方法应该能让AI变得更聪明,就像我们在镜子前练习演讲会越来越熟练一样。确实,在很多任务上,这种方法都表现得相当出色,能让AI的回答变得更简洁高效。

然而研究团队发现了一个奇怪的现象:当把这种训练方法应用到数学推理任务上时,AI的表现竟然变差了,有时甚至下降了40%。这就好比一个原本能解出复杂数学题的学生,经过"特训"后反而连简单题目都做错了。

这个发现引起了研究团队的极大兴趣。为什么在其他领域表现良好的训练方法,到了数学推理这里就失灵了?为什么AI会在"自我教学"的过程中反而变笨?研究团队决定深入探究这个看似矛盾的现象背后的原因。

经过详细分析,研究人员发现问题的根源在于AI表达不确定性的方式发生了改变。在正常情况下,当AI遇到复杂问题时,它会在推理过程中表达一些不确定性,比如使用"等等"、"嗯"、"或许"这样的词汇,这就像我们在思考难题时会自言自语"让我想想"或"这里可能有问题"一样。

但是在"自我蒸馏"训练中,AI的"老师"身份拥有标准答案,因此它的回答显得非常自信和简洁,几乎不表达任何不确定性。当AI学生模仿这种过分自信的推理风格时,它就失去了在面对新问题时进行审慎思考的能力,结果是在遇到训练中没见过的问题时表现糟糕。

这项研究不仅揭示了AI训练中的一个重要盲点,也提醒我们在开发AI系统时,不应该只关注答案的正确性,还要关注推理过程的健壮性。这对于构建更可靠的AI系统具有重要指导意义。

一、神秘的"自我蒸馏":当AI成为自己的老师

要理解这个奇怪的现象,我们首先需要了解什么是"自我蒸馏"。这个概念听起来很高深,但其实可以用一个非常简单的比喻来解释。

设想你在准备一场重要的演讲。一般情况下,你可能会找一个经验丰富的演讲者来指导你,他会告诉你哪些地方需要改进,哪些表达更有效果。但现在,你没有这样的导师,只能靠自己。于是你想出了一个办法:录制自己的演讲视频,然后假装自己是专家,来评价这个演讲。

在AI领域,"自我蒸馏"就是这样一个过程。研究人员让同一个AI模型扮演两个角色:老师和学生。作为老师的AI能够看到问题的标准答案,因此它可以给出非常准确和自信的指导;而作为学生的AI只能看到问题本身,必须凭借自己的能力来解决问题。

这种方法的理论基础很直观:如果一个AI模型能够在知道答案的情况下给出完美的推理过程,那么让另一个相同的模型学习这个完美过程,应该能够提升它在不知道答案时的表现。这就像让一个学生反复观摩标准答题步骤,理论上应该能提高解题水平。

令人惊讶的是,这种方法在很多任务上确实表现出色。在化学、物理、生物等科学问答中,使用自我蒸馏训练的AI模型不仅准确率更高,而且回答更加简洁明了。在编程任务中,这种方法同样表现良好,能够生成更高质量、更简洁的代码。

研究团队最初也是抱着同样的期望来测试数学推理任务的。他们选择了几个不同的AI模型,包括Qwen3-8B、DeepSeek-Distill-Qwen-7B和Olmo3-7B-Instruct,在一个包含17000个数学问题的数据集上进行训练。

然而,结果却出人意料。在训练过程中,虽然AI的回答确实变得更加简洁,但是它们在标准数学测试上的表现却显著下降。更让人困惑的是,这些AI模型在训练数据上的表现是提升的,但是在新的、从未见过的数学问题上,它们的表现却大幅倒退。

这个现象就像一个学生通过反复练习某一套题目变得非常熟练,但是当面对稍微不同的题型时,反而比训练前表现得更差。这种现象在教育心理学中被称为"过度拟合",但在AI的自我蒸馏训练中观察到如此明显的负面效应,还是第一次。

研究团队开始意识到,问题可能不在于自我蒸馏这种方法本身,而在于数学推理这个任务的特殊性。数学推理需要AI能够处理各种不同类型的问题,而且往往需要在推理过程中保持一定的灵活性和审慎性。如果训练过程让AI变得过分自信和机械化,可能反而会损害这种灵活性。

二、揭开谜底:信息越多,AI反而越"自信"

为了找到问题的根源,研究团队设计了一系列精巧的实验。他们的核心思路是:既然自我蒸馏中的"老师"AI拥有更多信息(包括标准答案),那么我们就来看看信息量的增加如何影响AI的行为表现。

研究人员构建了四种不同的生成设置,就像给同一个学生提供不同程度的"作弊工具"一样。第一种情况是完全无引导的生成,AI只能看到问题本身,就像闭卷考试一样。第二种情况是给AI提供完整的解题过程,包括所有的思考步骤,这相当于给学生一份详细的标准答案。第三种情况是提供解题过程但去除思考部分,只保留关键步骤。第四种情况是让AI参考之前在有答案指导下生成的回答。

通过这种设计,研究团队可以精确控制AI接收到的信息量,并观察信息量变化对其行为的影响。他们使用了信息论中的条件互信息来量化这种影响,这个概念可以简单理解为"额外信息减少了多少不确定性"。

实验结果非常清晰:随着提供给AI的信息越来越丰富,AI的回答变得越来越简洁和自信。在没有任何额外信息的情况下,AI生成的回答平均长度超过13000个字符,并且频繁使用表达不确定性的词汇,如"等等"、"让我想想"、"或许"、"可能"等。这些词汇的出现表明AI在推理过程中保持着审慎的态度,会在不确定的地方停下来重新思考。

但是当AI能够看到完整答案时,情况发生了戏剧性的变化。它的回答长度缩短到不足2000个字符,而且几乎完全不使用表达不确定性的词汇。AI的推理过程变得高度线性化和机械化,就像按照既定程序执行任务一样,缺乏了原本的灵活性和审慎性。

更有趣的是,当研究人员提供部分信息时,AI的表现介于这两个极端之间。这说明AI的行为变化确实与它接收到的信息量直接相关,而不是由于其他随机因素造成的。

研究团队进一步分析了这些表达不确定性的词汇在AI推理中的作用。他们发现,这些词汇并不是无意义的废话,而是AI进行自我监督和错误检测的重要机制。当AI说"等等,这里好像有问题"时,它实际上是在激活内部的错误检测机制,准备重新审视当前的推理路径。

在人类的思维过程中,我们也经常有类似的表现。当面对复杂问题时,我们会自然地使用"让我想想"、"这里需要小心"这样的表达,这些话语帮助我们调节思维节奏,避免匆忙下结论。AI在自然推理过程中表现出的类似行为,实际上反映了它具备一定的"元认知"能力,即对自己思维过程的监控能力。

但在自我蒸馏训练中,由于"老师"AI拥有标准答案,它不需要这种审慎的推理过程,因此生成的示例回答高度简洁和自信。当"学生"AI模仿这种风格时,它就失去了原本具备的自我监督能力,在面对新问题时变得过分武断,缺乏必要的灵活性。

三、实验验证:简洁未必是美德

为了验证这个假设,研究团队进行了一项关键的对比实验。他们准备了两组训练数据,每组都包含800个正确的数学题解答。第一组数据来自无引导生成,回答较长且包含大量表达不确定性的词汇;第二组数据来自有答案指导的生成,回答简洁且高度自信。

这两组数据的一个重要特点是它们都包含正确的答案,唯一的区别在于推理过程的风格。如果简洁性确实有助于提高AI的数学推理能力,那么用第二组数据训练的模型应该表现更好。

然而,实验结果完全相反。用简洁、自信的回答进行训练的AI模型在各种数学测试上的表现都显著下降。在AIME24(美国数学竞赛)测试中,基础模型的准确率从54.79%下降到20.21%,降幅超过30个百分点。在AMC23(美国数学竞赛)测试中,准确率从89.06%下降到57.03%。

相比之下,用较长、包含不确定性表达的回答进行训练的模型,其性能基本保持稳定,甚至在某些测试上略有提升。这个结果强有力地证明了研究团队的假设:AI在数学推理中表达的不确定性并非累赘,而是保持推理灵活性的关键要素。

这种现象可以用一个简单的比喻来理解。假设有两个学生在学习解数学题,第一个学生习惯于在每一步都思考"这一步对吗?"、"还有其他方法吗?",虽然解题过程较慢,但思路清晰,遇到新题型时能灵活应对。第二个学生总是快速按照固定套路解题,虽然效率很高,但在遇到与练习题稍有不同的问题时就容易出错。

AI的情况与此非常相似。当AI在推理过程中保持一定的"自我质疑"时,它实际上在维持多个可能的推理路径,一旦发现当前路径有问题,可以及时调整。但如果AI变得过分自信,它就会机械地按照某种固定模式进行推理,缺乏必要的灵活性。

研究团队还发现,这种影响在不同难度的问题上表现不同。对于相对简单的问题,简洁的推理风格可能不会造成明显的性能下降,因为这些问题的解法相对固定。但对于复杂问题,特别是需要创造性思维或多步骤推理的问题,保持推理过程中的不确定性表达就变得至关重要。

这个发现对AI训练具有重要的指导意义。它提醒我们,在追求效率和简洁性的同时,不能忽视AI推理过程的健壮性。有时候,看起来"啰嗦"的推理过程实际上包含了保持AI推理灵活性的重要信息。

四、动态训练中的意外发现:固定老师vs移动目标

研究团队进一步深入到在线训练场景,这种训练方式更接近实际应用中的情况。在在线训练中,AI模型会根据当前策略生成回答,然后通过"老师"的评价来改进这些回答。

在这个设置中,研究人员面临一个关键决策:是让"老师"保持不变(固定老师),还是让"老师"随着训练过程一起更新(移动目标)?直觉上,随着训练的进行,"老师"也应该变得更聪明,这样可能会带来更好的训练效果。

然而,实验结果再次出人意料。研究团队比较了三种不同的AI模型:DeepSeek-R1-Distill-Qwen-7B(一个以生成详细推理过程著称的模型)、Qwen3-8B(在不同思考模式下)和OLMo-3-7B-Instruct,发现固定老师的训练效果普遍优于移动目标的方式。

以DeepSeek-R1-Distill-Qwen-7B为例,这个模型原本就擅长生成包含大量思考过程的详细回答,平均回答长度超过7000个字符,并且频繁使用表达不确定性的词汇。当使用固定老师进行训练时,模型的性能缓慢但稳定地提升,同时回答长度也有所增加,这表明模型在学习过程中保持了原有的推理风格。

但当使用移动目标训练时,情况就完全不同了。训练初期,模型的回答长度和不确定性表达都急剧下降,性能也随之显著恶化。在AIME24测试中,准确率从基础的54.79%下降到最低点的30%左右,下降幅度接近40%。在AMC23测试中,准确率也从89.06%下降到约75%。

这种现象背后的原理很有趣。在移动目标训练中,形成了一种正反馈循环:AI被训练得越来越自信,而更自信的AI又会产生更加简洁的"教学"样本,进一步强化这种自信的推理风格。这就像一个学生不断地从自己日益自信的回答中学习,最终变得盲目自信,失去了必要的审慎性。

相反,固定老师保持了训练过程的稳定性。由于老师的标准是固定的,学生AI不会被推向极端,而是在保持原有推理风格的基础上逐步改进。

特别值得注意的是,这种差异在不同类型的AI模型上表现出了不同的模式。Qwen3-8B在开启思考模式时,原本就会生成非常长的回答(平均超过10000个字符),包含大量的内部思考过程。在这种情况下,自我蒸馏训练导致回答长度显著缩短,但缩短的同时也损失了重要的推理信息。

当Qwen3-8B关闭思考模式时,情况又有所不同。这时模型的基础回答就相对简洁,自我蒸馏训练虽然进一步缩短了回答长度,但对性能的负面影响相对较小。这说明原始推理风格对训练效果有重要影响。

研究团队还观察到一个有趣的动态平衡现象。在某些情况下,当AI的回答变得过于简洁后,它的性能开始下降,这时训练算法会推动模型生成稍长的回答来补偿性能损失。这种自我调节机制表明,在AI的推理过程中确实存在一个关于回答长度和表达风格的最优平衡点。

五、任务覆盖度的关键作用:为什么有些领域成功,有些失败?

研究团队观察到的最引人思考的现象是,自我蒸馏在不同领域的表现截然不同。在化学、物理、生物等科学问答任务中,这种方法能够显著提升AI的表现,同时大幅缩短回答长度。在编程任务中,效果同样良好。但在数学推理任务中,效果却相反。

为了解释这种差异,研究团队提出了"任务覆盖度"的概念。简单来说,就是训练数据中包含的问题类型的多样性程度。他们进行了详细的数据分析,发现了一个重要规律。

在化学问答数据集中,虽然总共包含2400个问题,但这些问题主要分为六大类:化学反应平衡、分子描述计数、分子量计算、性质预测、前体选择和产物预测。每一类问题的解决方法相对固定,变化主要体现在表面细节上,而不是解题的基本思路上。

在编程任务的LiveCodeBench数据集中,总共只有131个问题,而且训练和评估使用的是相同的问题集,只是在训练时只使用部分测试用例,评估时使用完整测试用例。这种设置意味着AI在训练时就已经"见过"所有的问题类型。

相比之下,数学推理数据集DAPO-Math-17k包含了14000个不同的问题,涵盖算术、代数、几何、应用题、逻辑推理等众多不同的数学领域。更重要的是,评估是在完全不同的数学竞赛问题上进行的,这些问题AI在训练过程中从未见过。

这种差异解释了为什么自我蒸馏在不同领域表现迥异。当任务覆盖度较低时,AI可以通过学习几种固定的解题模式来应对大部分问题。在这种情况下,简洁、自信的推理风格是有利的,因为它能够让AI更有效地执行这些已经学会的模式。

但当任务覆盖度较高时,AI需要面对各种不同类型的问题,许多问题可能与训练中见过的问题有显著差异。在这种情况下,保持推理过程中的灵活性和不确定性表达就变得至关重要,因为AI需要根据具体问题调整推理策略。

为了验证这个假设,研究团队设计了一个巧妙的实验。他们从DAPO-Math-17k数据集中选择不同数量的训练问题,分别使用1、8、64、128、512个问题进行训练,然后比较不同训练规模下的效果。

结果非常符合预期。当训练问题数量较少时(1到8个问题),自我蒸馏表现出色,能够快速提升AI在这些特定问题上的表现,同时显著缩短回答长度。这就像让一个学生反复练习几道特定的题目,通过总结固定套路来提高效率。

但随着训练问题数量增加到64个、128个直至512个,自我蒸馏的优势逐渐消失,甚至开始显现负面效应。相比之下,传统的强化学习方法(GRPO)随着训练问题数量的增加,表现越来越好,并且AI的回答长度也相应增加,这表明AI在学习处理更多样化问题时自然地保持了推理的复杂性。

这个发现揭示了一个深刻的原理:AI的推理风格需要与任务的复杂性相匹配。对于相对简单、模式化的任务,简洁高效的推理风格是合适的。但对于复杂多样的任务,保持一定的"推理冗余"反而是必要的,这些看似多余的思考过程实际上为AI提供了应对新情况的灵活性。

在实际评估中,这种差异表现得更加明显。当使用少量问题训练时,AI在训练数据上表现很好,但在全新的数学竞赛问题上表现糟糕。当使用大量问题训练时,AI不仅在训练数据上表现良好,在新问题上也能保持相对稳定的性能。

六、深入机制:不确定性表达的神经基础

研究团队进一步分析了AI内部的工作机制,试图理解为什么不确定性表达对数学推理如此重要。他们重点关注了十个常见的不确定性标记词:等等、嗯、或许、可能、实际上、另外、似乎、可能、很可能、检查。

通过详细的统计分析,研究人员发现这些词汇在AI的推理过程中起着关键的"认知调节"作用。当AI使用"等等"这个词时,往往预示着它将要重新审视当前的推理路径。当AI说"或许"时,通常表明它正在考虑多个可能的解法。当AI说"检查"时,它正在激活内部的错误检测机制。

这些发现揭示了AI推理过程中的一个重要特征:真正的推理不是线性的信息处理,而是一个动态的、自我调节的过程。人类在解决复杂问题时也会表现出类似的行为模式,我们会在推理过程中停下来思考"这样对吗?"、"还有别的方法吗?"、"我是不是遗漏了什么?"

在自我蒸馏训练中,由于"老师"AI拥有标准答案,它的推理过程变得高度线性化,缺乏这种自我调节的元素。当"学生"AI模仿这种风格时,它就失去了重要的认知调节能力。

研究团队还发现,不同的AI模型原本的不确定性表达模式有所不同。DeepSeek-R1-Distill-Qwen-7B更多使用"等等"和"或许",而Qwen3-8B更偏向使用"可能"和"另外"。但无论原始模式如何,自我蒸馏训练都会系统性地抑制这些表达,导致推理过程变得机械化。

特别值得注意的是,这种抑制效应在面对更困难的问题时表现得更加明显。在相对简单的AMC23测试中,经过自我蒸馏训练的AI性能下降相对较小。但在更困难的AIME24测试中,性能下降幅度显著增大。这说明不确定性表达对处理复杂问题尤为重要。

研究团队还观察到一个有趣的补偿机制。当AI的推理变得过于简洁导致性能下降时,某些训练算法会试图增加回答长度来补偿。但这种人为增加的长度往往不是有意义的推理内容,而是重复或无关信息,因此对提升性能帮助有限。

这些发现对AI系统的设计具有重要启示。它们表明,在设计AI推理系统时,我们不应该简单地追求输出的简洁性,而应该考虑推理过程的健壮性。有效的AI推理系统需要能够在确定性和不确定性之间找到适当的平衡,既要避免过度的"啰嗦",又要保持必要的推理灵活性。

说到底,这项研究为我们打开了一个全新的视角来理解AI的学习过程。它揭示了AI训练中一个容易被忽视但极其重要的现象:有时候,让AI变得"更聪明"的方法,实际上可能损害它处理新问题的能力。

这个发现特别重要,因为它挑战了我们对AI训练效果的传统认知。通常我们认为,如果一个训练方法能让AI在训练数据上表现更好,同时生成更简洁的输出,那么它就是成功的。但这项研究告诉我们,这种判断可能过于简单化了。

研究结果表明,AI在数学推理中表达的那些看似"多余"的不确定性,实际上是它保持推理灵活性的关键机制。当我们通过训练让AI变得过分自信时,就像是给一个本来很有创造力的学生套上了固定的思维模式,虽然在熟悉的问题上表现更高效,但在面对新挑战时反而变得笨拙。

这个现象在不同领域的不同表现也很有意思。在相对固定的任务中,比如某些科学问答,简洁自信的回答风格确实有优势。但在需要灵活思维的数学推理中,保持一定的"思维开放性"就变得至关重要。这提醒我们,AI训练策略应该根据任务的特性来调整,而不是采用一刀切的方法。

对于普通人来说,这项研究的意义在于它让我们重新思考什么是真正的"智能"。一个真正聪明的系统,不仅要能在熟悉的情况下高效工作,更要能在面对全新挑战时保持适应能力。这种适应能力往往需要一定程度的"不确定性容忍",即承认自己不知道答案,并愿意通过审慎的推理来寻找解决方案。

从更广的角度来看,这项研究也为开发更可靠的AI系统提供了重要指导。它告诉我们,在追求AI性能提升的过程中,不能只关注表面的指标,还要深入理解AI内部的工作机制。只有这样,我们才能构建出既高效又健壮的AI系统,真正服务于人类社会的需求。

有兴趣深入了解这项研究的读者,可以通过论文编号arXiv:2603.24472v1查询完整的技术细节和实验数据。

Q&A

Q1:什么是AI自我蒸馏技术?

A:AI自我蒸馏是让同一个AI模型同时扮演老师和学生角色的训练方法。作为老师的AI能看到标准答案,给出准确指导;作为学生的AI只能看问题,通过模仿老师的推理过程来提升能力。这就像一个人录制自己的演讲视频,然后假装是专家来评价和改进自己的表现。

Q2:为什么AI自我蒸馏在数学推理中表现不好?

A:因为这种训练方法让AI变得过分自信,失去了表达不确定性的能力。在数学推理中,AI需要在推理过程中使用"等等"、"让我想想"等词汇来进行自我监督和错误检测。但自我蒸馏训练让AI模仿过于简洁自信的回答风格,结果在面对新问题时缺乏必要的灵活性,表现反而变差。

Q3:这项研究对AI发展有什么实际意义?

A:这项研究提醒我们不能只追求AI输出的简洁性和表面性能,还要关注推理过程的健壮性。它揭示了AI训练中的重要盲点:有时候让AI看起来"更聪明"的方法,实际上可能损害它处理新问题的能力。这对开发更可靠的AI系统具有重要指导价值,特别是在需要复杂推理的应用场景中。

来源:新浪财经

为提升阅读体验,雪球对本页面进行了排版优化

风险提示:用户发表的所有文章仅代表个人观点,与雪球的立场无关。投资决策需建立在独立思考之上。