黄仁勋演讲原文:
欢迎来到 GTC。我必须告诉你们,我很难不为美国感到骄傲,同时心生感慨。刚才的视频是不是很棒?谢谢。英伟达的创意团队做得非常出色。欢迎来到 GTC。今天我们有很多内容要和大家分享。嗯,GTC 是我们讨论行业、科学、计算、现在和未来的地方。我今天要讲很多内容,但在开始之前,我想感谢所有赞助这次盛会的合作伙伴。你们会在会场周围看到他们。他们在这里与你们见面,这真的非常棒。没有我们所有的生态系统合作伙伴,我们就无法做到我们所做的一切。人们说,这是 AI 的超级碗。因此,每一届超级碗都应该有一个精彩的赛前秀。你们觉得这个赛前秀和我们所有的全明星运动员、全明星阵容怎么样?看看这些家伙。不知怎么,我成了最强壮的一个。你们怎么看?我不知道这是否和我有关。
英伟达在 60 年来首次发明了一种新的计算模型。正如你们在视频中看到的,新的计算模型很少出现。它需要大量的时间和一系列条件。我们观察到并发明了这个计算模型,因为我们想解决通用计算机(普通计算机)无法解决的问题。
我们也观察到,总有一天,晶体管的数量会继续增长,但晶体管的性能和功耗会放缓,摩尔定律将无法持续,因为它受到物理定律的限制,而那个时刻已经到来。登纳德缩放(Dinard scaling)已经停止了。它被称为登纳德缩放。登纳德缩放大约十年前就停止了,事实上,晶体管的性能及其相关的功耗已经大大放缓,然而晶体管的数量却在持续增加。
我们很早就做出了这个观察,并持续了 30 年推进这种我们称之为加速计算的计算形式。我们发明了 GPU。我们发明了被称为 CUDA 的编程模型。我们观察到,如果我们可以添加一个利用越来越多的晶体管的处理器,应用并行计算,并将其添加到一个顺序处理的 CPU 上,我们就可以将计算能力大大扩展。
那个时刻真的到来了。我们现在已经看到了那个拐点。加速计算的时刻已经到来。然而,加速计算是一种根本不同的编程模型。你不能简单地将一个 CPU 软件——手工编写、顺序执行的软件——放到 GPU 上,让它正常运行。事实上,如果你那样做,它实际上会运行得更慢。
因此,你必须重新发明新的算法。你必须创建新的库。你事实上必须重写应用程序,这就是它耗时如此之久的原因。我们花了近 30 年才走到今天。
但我们一次一个领域地做到了。这是我们公司的宝藏。大多数人谈论 GPU。GPU 很重要,但如果没有一个在其之上的编程模型,如果没有对该编程模型的奉献,保持其跨代兼容性——我们现在正在迎来 CUDA 13,接着是 CUDA 14,数亿的 GPU 在每一台计算机中运行,完美兼容。
如果我们不这样做,那么开发者就不会以这个计算平台为目标。如果我们不创建这些库,那么开发者就不会知道如何使用该算法,并充分利用该架构。一个又一个的应用。我的意思是,这真的是我们公司的宝藏。
CU Litho 计算光刻技术。我们花了近七年时间才有了 CU Litho,现在 台积电、三星、ASML 都在使用它。这是一个令人难以置信的用于计算光刻的库,它是制造芯片的第一步。用于 CAE 应用的稀疏求解器。Co-op,一个数值优化算法,几乎打破了所有的记录。旅行推销员问题,如何将供应链中的数百万产品与数百万客户连接起来。Warp,用于 CUDA 仿真的 Python 求解器。QDF,一个数据帧方法,基本上是加速 SQL 数据帧数据库。
这个库就是启动整个 AI 革命的库:cuDNN,以及在其之上的 Megatron-Core 库,使我们能够模拟和训练****极其庞大的语言模型。
这个列表还在继续。Monai,非常非常重要,它是世界上排名第一的医学成像 AI 框架。顺便说一下,我们今天不会过多讨论医疗保健,但一定要去看 Kimberly 的主题演讲。她将讨论我们在医疗保健领域所做的大量工作。
这个列表还在继续。基因组学处理,Ariel,请注意,我们今天将在这里做一些非常重要的事情。cuQuantum 量子计算。这只是我们公司 350 个不同库的代表。
这些库中的每一个都重新设计了加速计算所需的算法。这些库中的每一个都使所有的生态系统合作伙伴能够利用加速计算。这些库中的每一个都为我们开辟了新的市场。
让我们来看看 CUDA X 能做什么。
准备,开始!这不是很神奇吗?你们所看到的一切都是仿真。没有艺术,没有动画。这就是数学之美。这是深层次的计算机科学,深层次的数学。它如此美丽,简直令人难以置信。
每一个行业都被涵盖了,从医疗保健和生命科学到制造业、机器人技术、自动驾驶汽车、计算机图形学,甚至视频游戏。你们看到的第一枪(画面)是英伟达运行的第一个应用程序。我们就是从 1993 年在那里起步的。我们一直相信我们正在努力做的事情。很难想象你们能看到第一个虚拟战士场景活过来,而同一家公司相信我们今天会在这里。这真是一段非常非常不可思议的旅程。
我想感谢所有英伟达的员工,感谢你们所做的一切。这真的很不可思议。我们今天有很多行业要涵盖。我将涵盖 AI、6G、量子、模型、企业计算、机器人技术和工厂。
让我们开始吧。我们有很多内容要涵盖,有很多重大宣布要做,有很多新合作伙伴会让你们非常惊喜。
电信是我们经济、工业、国家安全的支柱,是命脉。然而,自从无线技术诞生以来,我们定义了技术,我们定义了全球标准,我们将美国技术出口到世界各地,这样世界就可以在美国技术和标准的基础上发展。自从那以后,已经过了很长时间。当今世界各地部署的无线技术很大程度上是基于外国技术。我们的基本通信结构建立在外国技术之上。这种情况必须停止,我们有机会做到这一点,尤其是在这个基础平台转变期间。
正如你们所知,计算机技术是几乎每一个行业的基础。它是最重要的科学工具。它是最重要的工业工具。我刚刚说过,我们正在经历一个平台转变。这个平台转变应该是千载难逢的机会,让我们重回赛场,让我们开始用美国技术进行创新。
今天,我们宣布我们将做到这一点。我们与 诺基亚(Nokia)建立了重要的伙伴关系。诺基亚是世界第二大电信制造商。这是一个三万亿美元的行业。基础设施有数千亿美元。全世界有数百万个基站。如果我们能合作,我们就能在这个完全基于加速计算和 AI 的令人难以置信的新技术上进行建设,让美国成为下一场 6G 革命的中心。
因此 我们今天宣布 英伟达拥有一条新的产品线。它被称为 NVIDIA Arc。空中无线电网络计算机,空中 RAN 计算机(Aerial Radio Network Computer, Aerial RAN Computer),ARC。
Arc 由三个基本的新技术构建而成:Grace CPU、Blackwell GPU,以及我们专为该应用设计的 ConnectX Mellanox Connect X 网络。所有这些使得我们能够运行我前面提到的那个 CUDA X 库,它被称为 Aerial。Aerial 本质上是一个运行在 CUDA X 之上的无线通信系统。
我们将首次创建一个软件定义的可编程计算机,它能够无线通信并同时进行 AI 处理。这是彻底的革命性的。我们称之为 NVIDIA Arc。
诺基亚将与我们合作,整合我们的技术,重写他们的堆栈。这是一家拥有 7,000 项基本且至关重要的 5G 专利的公司。很难想象电信领域还有比这更伟大的领导者。
因此,我们将与诺基亚合作。他们将把 NVIDIA Arc 作为他们未来的基站。NVIDIA Arc 也与 AirScale,即诺基亚当前的基站兼容。这意味着我们将采用这项新技术,并能够升级世界各地数百万个基站,使其具备 6G 和 AI 能力。
现在,6G 和 AI 在某种意义上是非常基础性的,因为我们将首次能够使用 AI 技术(AI for RAN)来使无线电通信更具频谱效率。它利用人工智能强化学习,实时地、根据环境、流量和移动性、天气等情况调整波束成形。所有这些都可以被考虑进去,从而提高频谱效率。频谱效率消耗了世界约 1.5% 到 2% 的电力。因此,提高频谱效率不仅能提高我们可以通过无线网络传输的数据量,而不需要增加必要的能源。
我们能做的另一件事(AI for RAN)是 AI on RAN。这是一个全新的机会。记住,互联网实现了通信,但令人惊讶的聪明公司,比如 AWS,在互联网之上建立了一个云计算系统。我们现在也将在无线电信网络之上做同样的事情。
这个新的云将是一个边缘工业机器人云。这就是 AI on RAN 的地方。第一个是 AI for RAN,用于提高无线电频谱效率。第二个是 AI on RAN,本质上是用于无线电信的云计算。
云计算将能够直接延伸到边缘,在没有数据中心的地方,因为我们在世界各地都有基站。
这个发布真的令人兴奋。首席执行官 Justin Hodar,我想他就在房间的某个地方。感谢您的合作。感谢您帮助美国将电信技术带回美国。这真是一个极好的、极好的伙伴关系。非常感谢。这是庆祝诺基亚的最好方式。
让我们谈谈量子计算。1981 年,粒子物理学家、量子物理学家 理查德·费曼构想了一种新型计算机,可以直接模拟自然,因为自然是量子的。他称之为量子计算机。
40 年后,这个行业取得了一个根本性的突破。40 年后,就在去年,一个根本性的突破。现在可以制造出一个逻辑量子比特了。一个逻辑量子比特,它在过去是相干、稳定且经过纠错的。现在,这个一个逻辑量子比特可以由数十个,有时是数百个****物理量子比特共同协作组成。
正如你们所知,量子比特(这些粒子)极其脆弱。它们很容易变得不稳定。任何观察、任何采样、任何环境条件都会导致它们失去相干性。因此,它需要一个受到异常良好控制的环境。现在还需要大量的不同物理量子比特让它们一起工作,以便我们对这些被称为辅助或症候量子比特进行纠错,并推断出该逻辑量子比特的状态。
有各种不同类型的量子计算机:超导、光子、囚禁离子、稳定原子,所有各种不同的方式来创建量子计算机。
我们现在意识到,我们必须将量子计算机直接连接到 GPU 超级计算机,以便我们能够进行纠错,以便我们能够进行量子计算机的 人工智能校准和控制,以便我们能够共同进行仿真。正确的算法运行在 GPU 上,正确的算法运行在 QPU 上,而这两个处理器、两台计算机并肩工作。
有多种方法可以构建量子计算机。每种方法都使用量子比特作为其核心构建模块。但无论使用哪种方法,所有的量子比特,无论是超导量子比特、囚禁离子、中性原子还是光子,都面临着同样的挑战:它们很脆弱,对噪声极其敏感。
今天的量子比特只能稳定运行数百次操作。但解决有意义的问题需要数万亿次操作。答案是量子纠错。测量会干扰量子比特,从而破坏其中的信息。诀窍是添加额外的量子比特,使其纠缠在一起,这样测量它们就能提供足够的信息来计算错误发生的位置,而不会损坏我们关心的量子比特。这很巧妙,但需要超越现有技术的传统计算。
这就是我们构建 NVQLink 的原因,这是一种新的互连架构,可以直接将量子处理器与 NVIDIA GPU 连接起来。量子纠错需要从 QIDs 中读取信息,计算错误发生的位置,并将数据发送回去进行纠正。NVQLink 能够在每秒数千次的速度下,将数 TB 的数据传入和传出量子硬件,这正是量子纠错所需要的。
其核心是 CUDAQ,我们用于量子 GPU 计算的开放平台。使用 NVQLink 和 CUDAQ,研究人员将能够做的不仅仅是纠错。他们还将能够编排量子设备和 AI 超级计算机,以运行量子 GPU 应用程序。量子计算不会取代经典系统。它们将协同工作,融合成一个加速量子超级计算平台。
所以,我们今天宣布 NVQLink。NVQLink 之所以成为可能,有两件事:当然是这个互连,它负责量子计算机的控制和校准、量子纠错,以及连接两台计算机——QPU 和我们的 GPU 超级计算机来进行混合仿真。它也完全可扩展。它不仅仅是为今天只有少数量子比特的设备做纠错。它为未来做纠错,我们将在未来将这些量子计算机从今天的数百个量子比特扩展到数万个、数十万个量子比特。