《Attention Is All You Need》:Transformer的影响
David
2017年,Google Brain团队的八位研究员发表了一篇论文。他们对这项研究及其潜在影响感到非常兴奋,预见到其巨大的变革力。然而,谷歌公司的态度则相对保守,将其视为语言模型工作的又一次迭代。他们认为这虽然重要,但并未确信它就是“下一个谷歌”,公司内部的其他项目似乎更有潜力。但正是这篇论文的发表,为OpenAI提供了机遇,让他们抓住了机会,最终构建出了堪比“下一个谷歌”的产品,因为这篇论文就是著名的《Attention Is All You Need》,它引入了Transformer架构。
Ben
Transformer的起源是什么?当时谷歌语言模型的最新进展又是什么?
David
继Françoise Och在谷歌翻译上取得成功,以及2007年左右谷歌翻译获得改进后,团队便持续进行迭代。当Geoff Hinton加入团队以及AlexNet诞生后,他们转向使用基于神经网络的语言模型进行翻译,这不仅带来了显著的性能提升,也引发了业界的广泛关注。
Ben
当时,由Jeff Dean领导的研究人员空降项目组,提议用几个月时间验证神经网络模型是否能远超沿用十年的传统方法。最终,他们废弃了旧的codebase,完全转向了神经网络模型。
David
《纽约时报》杂志在2016年,即Transformer论文发表的前一年,曾对此事有过精彩报道,凸显了神经网络的重要性。谷歌翻译因此被重写,采用了当时最先进的循环神经网络(Recurrent Neural Networks, RNNs),实现了巨大进步。但随着研究深入,Google Brain和谷歌翻译团队发现了RNN的局限性,一个主要问题是它们会过快地“遗忘”信息。
Ben
用今天Transformer的术语来说,可以认为它们的“上下文窗口”非常短。
David
语言模型处理文本时,需要记住已读内容以理解全文。为解决RNN的遗忘问题,谷歌采用了长短期记忆网络(Long Short-Term Memory, LSTMs)。LSTMs为模型创建了一种更持久的短期记忆,使其在处理长序列时能保持上下文。当时研究者们对LSTMs寄予厚望,认为它有望将大型语言模型推向主流。
Ben
2016年,LSTMs被整合到谷歌翻译中,将错误率降低了60%,这是一次巨大的飞跃。但LSTMs的问题在于,虽然有效,但其计算量巨大且难以并行化。
David
当时从AlexNet和TPU项目得到的核心启示是,并行化是推动AI发展的关键。LSTMs的设计成了这一进程中的障碍。
因此,Google Brain的一个团队开始寻找一种新架构,既能像LSTMs一样维持长时记忆,又易于并行化和扩展。研究员Jakob Uszkoreit提出了扩展语言处理中“注意力(Attention)”范围的想法。其核心是让模型不再只关注邻近的词语,而是审视整个文本语料库的全局信息,基于完整的上下文来预测下一个词。这与专业人工翻译的模式不谋而合,译者同样不会逐字翻译。
Ben
这正如同人工翻译,需要先通读全文理解上下文,再回头进行翻译。
David
模型要实现这一点需要巨大的计算能力,但这种方法极易并行化。Jakob与Brain团队的其他成员合作,将这项新技术命名为Transformer。一方面因为它能接收、处理并转换(transform)信息,另一方面也是因为团队成员们对《变形金刚》(Transformers)的喜爱。
Ben
它接收海量文本并以压缩格式存储。
David
这个想法与论文的合著者之一Noam Shazeer在17年前提出的概念不谋而合。
Noam Shazeer了解到这个项目后,认为它很有前景,便决定加入。他的加入至关重要,因为在此之前,Transformer的实现版本性能并未超越LSTMs。Noam重写了整个代码库,之后,Transformer的性能便完胜基于LSTM的谷歌翻译方案。团队发现,模型规模越大,效果越好,展现出极佳的可扩展性。团队其他成员纷纷称赞Noam,形容他为“魔术师”,是他让这个想法真正落地可行。
Ben
难怪现在Noam和Jeff Dean会共同负责下一代Gemini模型。
David
他们确实是天作之合。我们曾与Google Brain的创始人之一Greg Corrado交流,他强调了Transformer架构的优雅之处。它如此简洁,以至于最初许多人认为“这不可能行得通”。Corrado指出,如同自然界中最高效的系统往往最简单,计算机科学中简单、高效的解决方案也常常是正确的方向。Transformer正是这种优雅的体现。
Ben
这非常睿智。这符合我们解决难题时的经验:最复杂的方案往往不是最优解,反而是那个突然闪现的简单想法,最终被证明是正确的。
David
Transformer的出现也印证了Rich Sutton在2019年提出的《苦涩的教训》(The Bitter Lesson)。这篇文章的核心观点是,AI研究的突破往往不来自更复杂的算法,而是来自找到一个可扩展的架构,然后投入更多的数据和计算资源。
Ben
只要架构可扩展,投入更多数据和算力,就能获得更好的结果。
David
这标志着一个新时代的开始,人们意识到已经找到了一个在未来近十年里可持续扩展的架构。
Ben
所以团队和Noam都意识到,Transformer的潜力远不止改进翻译,它可以被广泛应用。
David
的确,它的潜力远超谷歌翻译。然而,谷歌其他部门的反应相对迟缓。尽管他们确实在论文发表后基于Transformer构建了BERT和MUM等大型语言模型……
Ben
所以那种认为谷歌对Transformer无所作为的说法是错误的。他们确实做了很多,BERT就是最早的LLM之一。
David
他们确实利用了这项技术,并将其用于改进搜索等核心业务,就像Google Brain以往的每次技术突破一样。但他们并未将其视为一次全面的技术平台变革。
最终,谷歌做出了一个可能是对人类价值贡献巨大,但对公司而言却代价高昂的决定:允许这八位研究员以《Attention is All You Need》为题公开发表这篇论文。截至2025年,这篇向披头士经典歌曲致敬的论文,在学术界的引用量已超过17.3万次,成为21世纪被引用次数第七多的论文。
Ben
而且排名在它之前的论文发表时间都更长。
David
讽刺的是,几年之内,这篇论文的八位作者全部离开了谷歌,创办或加入了包括OpenAI在内的AI初创公司。Noam Shazeer也创办了Character.AI,后来谷歌又通过一项价值数十亿美元的复杂协议将他“招回”。可以说,2017年开启了谷歌长达五年的窗口期,他们未能完全抓住由自己创造的Transformer所带来的巨大机遇。
Gilbert, B., & Rosenthal, D. (Hosts). (2025, October 5). Google: The AI Company. In Acquired.