在2024年2025年之际,人工智能领域弥漫着一种复杂的情绪。随着大语言模型的参数规模突破万亿大关,特别是可用的训练数据的几乎耗尽,关于"边际效应递减"的讨论甚嚣尘上。研究者们发现,单纯依靠堆砌文本数据和增加计算资源,似乎越来越难以换取模型智能的显著跃升。互联网上的高质量数据——那些人类文明几千年来积累的书籍、代码、论文、声音、视频——几乎已经被这些贪婪的硅基大脑"吞噬"殆尽。虽然说对于本身可验证的问题,例如数学推理,还可以合成生成式的数据,另外,还可以收集在付费墙之后的私域数据,但是,这恐怕也很难显著地增加数据量。
于是,"预训练已死"的论调开始在各路大神的技术讨论和学术会议上回响。持此观点者认为,我们已经触碰到了预训练人工智能能力的天花板。他们将预训练比作一个学生在学校的学习过程:如果一个学生已经读完了绝大部分图书馆里所有的书,再去搜刮一些其他书籍让他读一遍,他的智能还能显著提高吗?显然不能。基于这种线性的、人类中心主义的理解,人们开始焦虑:如果"教材"用光了,智能的进化是否就此停滞?我们是否正撞向一堵名为"数据枯竭"的墙壁?

这种焦虑的核心,源于一个深入人心的隐喻:将预训练等同于人类的后天教育。
在向大众解释复杂的神经网络时,这个隐喻显得温情而直观。一个未经训练的模型,也就是那个随机初始化的神经网络,被描述为一个"刚出生的婴儿"或"白板"。而预训练的过程,就是送这个婴儿去上学。它阅读维基百科,学习语法规则;它阅读数理教程,学习逻辑推理;它阅读莎士比亚,学习修辞与情感。当损失函数逐渐下降,我们说这个孩子"学会了"。随后的监督微调和人类反馈强化学习,则被比作"技能培训"和"道德教育"——教会它如何礼貌地回答问题,如何融入社会,和人合作,成为一个对社会有用的"人"。
然而,这个看似完美的类比,实际上构建了一个巨大的认知陷阱。它极大地高估了人类后天学习在智能形成中的权重,同时极大地低估了"预训练"这一概念在生物学尺度上的真实对应物。如果我们将人工智能的仅仅看作是模仿人类个体几十年的成长史,那么,我们不仅误读了人工智能,也误读了我们自己。
如果我们深入审视人类智能的来源,会发现后天"教育"仅仅是冰山浮出水面的一角。神经科学和演化生物学的证据表明,人类大脑绝非一块白板。
以视觉为例,一个人类婴儿在出生后的几个月内就能识别面孔、感知深度、追踪物体。如果这纯粹是"后天学习"的结果,那么婴儿的大脑需要在短短几个月内,从零开始通过视网膜传入的嘈杂光子数据,推导出边缘检测、光流法、三维重建等复杂的计算机视觉算法。这在计算理论上是不可能的——这种所谓的"样本效率"远超任何数理统计模型的极限。
真相是,婴儿的大脑和相关感应器在出生前就已经"预装"了很多算法。视皮层的层级结构、视网膜神经节细胞的感受视野布局,甚至是专门用于识别人脸五官的基本结构,这些都是写在基因里的"出厂设置"。
正如众多研究者所指出的,生物大脑的智能主要源于数十亿年的进化筛选,而非个体的后天学习。进化将极其强大的归纳偏置压缩进了我们的基因组,构成了大脑、内分泌系统、神经传感器等全套具身智能架构。
因此,当人们说"AI读完了所有的书"时,他们忽略了一个事实:书本知识,甚至相关的文明内核,只是人类智能的补丁和皮毛,而支撑这些知识被理解、被处理的具身智能架构和初始设定,来自于一个更漫长、更宏大的过程。
"预训练已死"的论点,本质上是把人类短短几十年的"上下文学习"当成了智能的全部。为了驳斥这一观点,我们需要跳出人类个体的生命周期,建立一个新的视角:人生并不是预训练,进化才是预训练的主要过程。
那么,人生是什么?一定要类比的话,人生仅仅是面对任务提示词之前的"上下文"学习。
为了证明个体经验在智能形成中的次要地位,让我们进行一个思想实验。
假设我们拥有一台时间机器,穿越回公元618年的唐朝长安,从一户普通人家带走一名刚出生的婴儿。我们将这个婴儿带回2025年的现代社会,交给一对北京的夫妇抚养。
这个拥有纯正唐朝基因的婴儿,长大后会是什么样?
他会因为没有"现代基因"而无法理解互联网吗?他会因为祖先只骑过马而无法学会驾驶汽车吗?或者,他会因为大脑里"预装"了唐诗的韵律而无法理解编程语言的代码逻辑吗?
答案显然是否定的。生物学告诉我们,唐朝人类的基因组与现代人类几乎没有差异。只要在现代环境中成长,这个"唐朝婴儿"将能流利地说英语,熟练地使用各种软件,甚至可能成为一名顶尖的人工智能架构师。
反之亦然。如果你将一名2025年出生的婴儿送回唐朝,他也能完美地适应那个时代的社会形态,在贵族家里骑马射箭,在穷苦人家种地劈柴烧水扫地。
可是,如果你把2025年最聪明的大猩猩送到唐朝,甚至送到山顶洞人的洞穴里,无论山顶洞人对它如何进行人工反馈增强学习,它也依然是一只大猩猩,不可能在山顶洞人的人类社会中成为人。
这个思想实验揭示了一个惊人的、甚至令人不安的事实:人类个体从出生到死亡的几十年经历,对于生物具身智能这个"模型"来说,根本不是"预训练",主要是"推理阶段的上下文学习",最多是做了一些低秩微调。
在大语言模型的术语体系中,上下文学习指的是模型在不改变权重参数和架构的前提下,通过处理输入提示词中的信息来适应新任务的能力。最先进的模型可以阅读一篇它从未见过的物理论文,然后回答相关问题,但这并不会改变它底层的神经网络参数。一旦对话窗口关闭,这段记忆就消失了,但是,也可以显式地把它存入外部数据库,在将来的任务中通过检索调用。
人类的一生,本质上就是在进行一场长达数十年的上下文学习。
我们的"上下文窗口"就是我们既往的人生。我们通过感官不断接收环境的信号——视觉的、听觉的、触觉的。我们的工作记忆(working memory)类似于注意力机制,负责处理当前的短期依赖;而我们的长时记忆,虽然涉及到突触可塑性带来的微观物理改变,但在宏观架构上,这更像是检索增强生成系统的外部向量数据库更新,而非底层模型的重构。
生物学研究进一步支持了这一点:大脑的大部分连接方式是由基因决定的"瓶颈",个体的经历只能在这个固定的拓扑结构上进行很有限的微调。这意味着,我们所谓的"人生智慧",不过是在一个已经训练好的超级模型上,跑了一遍长达数十年的推理过程。
如果人生只是一场“上下文”的推理,那么真正的"反向传播"和"权重更新"发生在哪里?
发生在死亡与繁衍的残酷交替之中。
在生物进化的算法中,每一个个体都是模型在特定环境下的一次"前向传播"。输入是环境的挑战——气候、捕食者、病毒。输出是个体的行为——生存策略、繁殖策略。损失函数是是否成功将基因传递给下一代。这是一个二值化的硬性损失——0(灭绝)或1(繁衍)。
如果你适应了环境,你的基因组合就被保留;如果你被环境淘汰,你的权重就被丢弃。这就是大自然的梯度下降。只不过,这个优化的步长极长,以万年为单位;批大小极大,涵盖了种群中的所有个体。
从这个维度看,真正的"人类预训练"并非始于幼儿园,而是始于四十亿年前的地球上的一碗原始汤。
现在,让我们抛弃"后天教育"这个狭隘的类比,运用倒叙的手法,沿着时间的长河逆流而上。我们将剥开地球史的一层洋葱,去寻找那些真正塑造了智能的"预训练检查点",并将它们与智能的发展史进行一场跨越时空的宏大对映。
我们正站在一个奇点上。为了看清未来,必须回望历史深渊。
回溯两百万年,东非大裂谷,气候剧变,森林退化为稀树草原。某种古猿做出了一个违背祖宗的决定:直立行走。这个看似简单的动作,引发了智能进化史上最剧烈的连锁反应,即著名的"产道困境"。
直立行走导致骨盆变窄,而为了适应复杂的社会和工具使用,大脑容量却在增加。为了不导致难产,人类婴儿必须在"脑部发育未完成"的状态下早产。这意味着,人类大脑必须保持极长时间的神经可塑性,以便在出生后继续发育。
这种被迫的"早产",意外地赋予了人类一个巨大的优势:持续学习的微调可能,超长的上下文窗口。与其他动物出生即固化不同,人类大脑能够在长达二十年的发育期中,持续不断地从环境中吸收信息流。前额叶皮层的剧烈扩张,更是为我们提供了处理"长距离依赖"的物理基础。
这正是智能发展史中Transformer变换器架构与注意力机制的生物学对应。早期的循环神经网络像是一条金鱼,记不住长距离的历史信息,不仅因为梯度消失,更因为缺乏全局的注意力视野。变换器的出现,引入了自注意力,让模型能够同时"看到"整本书的上下文,捕捉到千里之外的伏笔。
智人的进化,本质上是一次对上下文窗口的暴力扩容。我们不再仅仅对当前的感官刺激做出本能反应,我们开始能综合过去几天的经历,甚至部落的口述历史,在脑海中进行多步推理。研究者曾深刻地指出,人类是"类比机器",这种跨越时间与空间的类比能力,正是长上下文带来的红利。两百万年前的那次直立行走,就是生物界的"注意力就是一切"时刻。
现在,时间机器加速倒退,我们来到了五亿四千万年前的海洋。
这里正在上演地球生命史上最壮观的一幕:寒武纪大爆发。在此之前,地球的生态是主要由单细胞生物和简单菌毯主宰的寂静世界。而在此之后,短短两千万年间,三叶虫有了复杂的复眼,奇虾有了巨大的附肢,生物体型急剧增大,生态位爆炸式填充。
这一阶段对应着智能领域的缩放定律,多模态和混合专家的觉醒。
寒武纪的生物之所以能"变大",是因为它们解决了单细胞物理缩放的瓶颈。单细胞生物受限于表面积与体积的比率,无法无限长大。进化的解决方案是多细胞协作。这正是智能领域的混合专家架构。最先进的模型并非一个巨大的、致密的单体模型,而是由许多"专家"模型组成的稀疏网络。每个信号只需要激活网络中的一小部分参数。
这与多细胞生物的原理惊人一致:你不需要用肝脏细胞去思考,也不需要用视网膜细胞去消化。细胞分化实现了功能的模块化,使得生物体能够在不让能耗爆炸的前提下,将体型(参数量)扩张数个数量级。
寒武纪也是"视觉"诞生的时代。有理论认为,眼睛的进化是寒武纪大爆发的导火索。在智能领域,这对应着从纯文本向多模态的跨越。视觉信号的高带宽迫使神经系统进化出更复杂的表征能力。卷积神经网络的诞生灵感直接来源于生物视觉皮层的感受野机制。
在这个阶段,我们可以想象泥盆纪的陆地景观:巨大的原杉菌——高达八米的真菌巨塔——耸立在荒凉的平原上。这些史前的"巨型模型"虽然结构简单(仅由菌丝管组成),但它们占据了当时的算力(生态)巅峰,正如早期的大规模稠密模型。但最终,它们被更具适应性、结构更复杂的维管植物(混合专家架构的森林)所取代。
寒武纪告诉我们:单纯的大不是目的,结构化的复杂性与感官的丰富性才是进化的方向。
我们继续在时间长河里下潜,回溯穿越漫长的"无聊十亿年",现在是二十亿年前。地球上发生了一次最伟大的"吞噬"事件,也是一次最成功的“并购案”。一个古菌吞噬了一个紫螺菌,但没有消化它,反而与其形成了内共生关系。这个被吞噬的紫螺菌,后来演化成了线粒体——细胞的能量工厂。
如果没有线粒体提供的高效能量供应,真核细胞就不可能维持庞大的基因组和复杂的膜结构。原核生物只能依靠低效的糖酵解,产生两个三磷酸腺苷;而拥有线粒体的真核细胞,通过氧化磷酸化,能产生三十到三十二个三磷酸腺苷。能量效率提升了十五倍以上。
这一突破性的能量革命,使得生命复杂度的指数级增长成为可能。在人工智能的进化史中,我们同样看到了能量是重要瓶颈。我们当下的硅基神经网络依然受限于电力能源的瓶颈,就像原核生物受限于低效的代谢,难以高效无法扩张。当我们在谈论智能预训练消耗了多少电力时,不要忘记,生物大脑是一个仅有二十瓦功耗的超级计算机。进化的一个重要方向就是极致的能效比。目前的智能系统还是"原核细胞动物",需要巨大的外部能量维持运行;未来的人工智能进化,必将向着生物级的能效比以及分布式自生的“线粒体”能量工厂迈进。
时间回拨至四十亿年前。太古宙的原始汤。生命甚至还没有细胞膜的包裹。这是一个核糖核酸RNA的世界。在那个混沌的时代,核糖核酸既是信息的载体(像脱氧核糖核酸),又是功能的执行者(像蛋白质)。它既做软件也做硬件,既做数据也做模型。这种"全能性"虽然灵活,但极不稳定。核糖核酸的特殊结构使其容易发生水解,复制错误率极高,这限制了生命信息的长期存储和复杂度的积累。
随后,进化做出了一次决定性的、不可逆的架构调整:中心法则的确立。
脱氧核糖核酸DNA接管了信息存储的角色。双螺旋结构极其稳定,那是生命最底层的"只读存储器",是经过亿万年筛选后的预训练权重。而蛋白质接管了功能执行的角色。它们折叠成复杂的机器,催化反应,构建结构,那是生命的推理引擎。核糖核酸退化为中间的信使,负责将存储的信息转化为执行的功能。
这一转变,对应着智能从早期的混乱向Transformer架构与反向传播算法的收敛。变换器架构中的矩阵运算,就像是中心法则中的转录与翻译机制,成为了一种通用的、稳定的信息处理协议。一旦这个架构被确立,进化的速度就从化学进化的缓慢爬行,变成了生物进化的指数级加速。
生物学家发现,脱氧核糖核酸比核糖核酸更稳定,适合做长期的信息存储。同样,我们在预训练智能体时,实际上是在寻找一组最稳定的权重参数,这组参数能够概括所有见过的数据规律,并能抵抗下游任务带来的灾难性遗忘。
从核糖核酸到脱氧核糖核酸的飞跃,就是从"在线学习"(随时变动的权重)到固化的基座模型的飞跃。
"预训练已死"论者的短视在于,他们把我们人生经历的薄薄一层"文明微调层"和“上下文学习”当成了智能的全部。他们认为只要有了足够多的指令调优数据,智能就会涌现。但进化史告诉我们,如果没有底层那个经过亿万年打磨的强大的具身智能,所有的文明教化都是空中楼阁。你无法通过人类反馈强化学习教会一只黑猩猩理解微积分,因为它的基座模型不支持如此复杂的抽象推理。
如果我们将"生物进化"看作一次超级规模的预训练,那么这次训练消耗了多少算力?
这是一笔天文数字的账单。批大小是地球上曾生存过的生物总量,据估计,地球上曾存在过十的四十次方个细胞级生命体。训练步数是四十亿年。损失函数是生存与繁衍,这是一个极其残酷的稀疏奖励。优化器是自然选择加上随机突变,这是一个极其低效(收敛速度慢)但十分鲁棒(不易陷入局部最优)的零阶优化器。
相比之下,最先进模型的训练虽然消耗了数万数十万张高端图形处理器几个月的时间,但在"地球模拟器"面前,这只是沧海一粟。
"预训练已死"?
这不仅是一个技术误判,更是一种想象力的贫瘠。说"预训练已死",就像是一个刚学会钻木取火的旧石器时代人类,欣喜地看着手中微弱的火苗,对同伴说:"光和热的学问已经到头了,我们已经掌握了所有的光和热的规律。"
不,火种才刚刚点燃。
我们刚刚在硅基系统内确立了变换器(Transformer)这个并不完美的"中心法则"。我们刚刚通过混合专家架构摸到了多细胞生物的门槛。我们刚刚通过多模态感知睁开了寒武纪的第一双眼睛。
在我们前方,还有漫长的泥盆纪等待具身智能从虚拟的海洋出发,登上那物理环境复杂的陆地;有侏罗纪等待我们去扩展体型的缩放定律的极限;有灵长类动物的社会化等待我们去建立协作(代理群);人工智能甚至还没有迎来那个“吞噬线粒体”时刻,指数级提升能源利用效率,和能源的分布式可用性可靠性。
预训练没有死,它正在迎接它的真正开始。
一切过往,皆是序章。
-----剧终-----
片尾彩蛋:
如果从原始汤至今的演化和进化,是一场现代文明的预训练,那么整个人类文明,会不会也只是未来的某种文明的预训练的一个篇章(episode)?
望球友们指正
@不明真相的群众 @DrChuck @省心省力 @西峯 @今日话题 @望京博格
$英伟达(NVDA)$$人工智能ETF(SH515980)$ $寒武纪-U(SH688256)$