英雄联盟直播 yingxionglianmengzhibo 分类>>
英雄联盟投注官网- 英雄联盟投注中心- 下注盘口英伟达2026年GTC大会:算力飙升4000万倍!1万亿美元的投资暗线
英雄联盟投注官网,英雄联盟投注中心,英雄联盟下注盘口
推理拐点的到来,恰逢所需Token数量和计算量激增约10,000倍之时。结合这两点——过去两年计算需求增长了10,000倍,而使用量也增长了约100倍——大家可能听我说过,我认为计算需求在过去两年里猛增了100万倍。这是我们共同的感受,是每一家初创公司的感受,也是OpenAI和Anthropic的感受。如果他们能获得更多算力,就能生成更多Token,收入就会增加,更多人就能使用它,AI也会变得更先进、更聪明。我们现在正处于这个正向飞轮之中。这一刻已经到来,推理的拐点已然降临。
这听起来合理吗?这正是我接下来要重点讲述的内容。事实上,这个数字甚至过于保守,算力将处于供不应求的状态,原因显而易见。首先,我们在过去一年里做了大量工作。如大家所知,2025年是英伟达的“推理之年”。我们希望确保自己不仅擅长模型训练和训练后处理,而且在AI的每一个阶段都做到极致出色。这样一来,客户在英伟达基础设施上的投资就能实现长期且无缝的扩展。英伟达基础设施的可用寿命将非常长,因此平摊成本极低。使用时间越长,成本就越低。毫无疑问,英伟达的系统是全球成本最低的AI基础设施。去年我们全力聚焦推理AI,这直接推动了拐点的到来。
除此之外,因为我们与每一个AI实验室合作,加速每一个AI模型,并且拥有庞大的原生AI生态系统可以引入云端,所以无论计算规模多大、速度多快,这些算力都会被消化。这构成了我们60%的业务。另外的40%则遍布各处:区域云、主权云、企业、工业机器人、边缘计算、大型超算系统以及小型企业服务器。部署系统的数量是惊人的。AI的多样性正是其韧性所在,其覆盖的广度赋予了它强大的生命力。毫无疑问,AI绝非一项单一应用技术,它是根本性的存在,是一场绝对的全新计算平台范式转换。
我们的使命是持续推进技术发展。我去年提到的最重要的一点,就是我们的“推理之年”。我们倾注了所有心血,冒了极大的风险进行彻底重塑。当Hopper架构正处于巅峰、大放异彩之时,我们决定将Hopper架构和8路NVLink推向下一个阶段。我们彻底重新设计了系统架构,将计算系统完全解耦,并创造了NVLink 72。它的构建、制造和编程方式都发生了翻天覆地的变化。Grace Blackwell搭配NVLink 72是一个巨大的赌注,对所有人来说都绝非易事。我要感谢在座的众多合作伙伴,感谢你们付出的辛勤努力。
NVLink 72与NVFP4。NVFP4不仅仅是一种FP4精度,它是一种全新的张量核心和计算单元。我们已经证明,使用NVFP4进行推理不仅不会损失精度,还能大幅提升性能和能效。我们也能够将NVFP4用于训练。结合NVLink 72、NVFP4、我们发明的Dynamo架构、TensorRT-LLM以及一系列新算法,我们甚至建造了一台名为DGX Cloud的超级计算机,以帮助我们优化内核和整个软件栈。我们投入了数十亿美元的超算资源,才创造出让这一切推理成为可能的内核和软件。所有的成果汇聚于此。过去常有人对我说:“Jensen,推理很简单。” 但实际上,推理才是终极的难题,也极其重要,因为它直接驱动着你的营收。
这就是成果。这份图表来自SemiAnalysis,这是有史以来规模最大、最全面的AI推理性能扫略。图表的左轴是“每瓦Token数(Tokens per watt)”。这非常关键,因为按照定义,每个数据中心、每座工厂都受到电力限制。一座1吉瓦(1GW)的工厂永远不可能凭空变成2吉瓦,这是受原子定律和物理法则约束的。对于那座1GW的数据中心,你希望驱动最大数量的Token,这就是这座工厂的产出。你希望处于这条曲线的最顶端。
在给定数据中心功率下,每瓦性能越好,吞吐量就越高,产生的Token就越多。另一侧是成本。你会注意到英伟达是全球性能最高的。这不足为奇,但令人惊讶的是跨代提升的幅度。按照摩尔定律,晶体管数量翻倍通常带来50%或两倍的性能提升,大家可能预期从Hopper H200升级会带来1.5倍的提升——没有人会预料到性能跃升了35倍!去年的这个时候我说英伟达Grace Blackwell NV72的每瓦性能提升了35倍,没人相信。后来SemiAnalysis发布了报告,Dylan Patel说了一句话:他指责我“留了一手”(sandbagging)。他说Jensen保守了,实际上是50倍。他没说错。我们的单Token成本是全球最低的,无可匹敌。我以前说过,如果架构选错了,哪怕硬件是免费的,成本也依然不够低。原因在于,无论如何你都必须建造一座1GW的数据中心。这座工厂按15年折旧计算,大约需要400亿美元。即便里面什么都不放,也是400亿美元的沉没成本。你必须确保在这上面部署最顶级的计算系统,这样才能获得最优的Token成本。英伟达的Token成本是世界级的,目前基本无人能及,这归功于极度的协同设计(Extreme Codesign)。我很高兴他称我们为“Token之王”。
我们将所有的软件垂直整合,但在横向上保持完全开放。我们将所有的软件和技术整合、打包,并接入全球的推理服务提供商。这些公司成长得太快了,比如Fireworks和Lin,在过去一年里增长了100倍。他们就是Token工厂,而工厂的效率、性能和生产Token的能力对他们来说就是一切。当我们在同一系统上为他们更新软件时,你看看他们的Token速度发生了什么:在英伟达更新算法和软件之前,平均速度约是每秒700个Token;更新后飙升到了近5000个,提升了7倍!这就是极度协同设计的不可思议的力量。
让我回顾一下我们是如何走到今天的。2016年4月6日,也就是十年前,我们推出了DGX-1,世界上第一台专为深度学习设计的计算机。8块Pascal GPU通过第一代NVLink连接,提供170 TFLOPS的算力。到了Volta架构,我们引入了NVLink Switch,将16块GPU全互联,使其像一块巨大的GPU一样运行。随着模型规模增长,Mellanox于2020年加入我们。DGX A100 SuperPOD成为了首台结合向内扩展(Scale-up)和向外扩展(Scale-out)架构的超级计算机。然后是Hopper架构,首款搭载FP8引擎的GPU,开启了生成式AI时代。接着,Blackwell通过NVLink 72和130 TB/s的全互联带宽重新定义了系统架构。伴随着三大缩放定律(预训练、训练后和推理)的全力推进,以及如今
平台,它为Agentic AI的每个阶段而设计,全面推进了计算的四大支柱:CPU、存储、网络和安全。Vera Rubin NVLink 72:提供3.6 Exaflops的算力,260 TB/s的NVLink全互联带宽。这是驱动智能体AI时代超级引擎。Vera CPU机架专为编排和智能体工作流设计;STX机架是基于BlueField-4构建的原生AI存储。使用Spectrum-X共封装光学(CPO)进行向外扩展。此外,我们引入了与Vera Rubin紧密连接的Groq LPX机架。Groq的LPU提供了海量的片上SRAM,作为强大的Token加速器,使原本就快得惊人的Vera Rubin如虎添翼。两者结合,每兆瓦的吞吐量提升了35倍。
Groq的架构专为推理设计了海量的SRAM。我们萌生了一个绝妙的想法:使用名为Dynamo的软件将推理完全解耦(Disaggregated Inference)。我们在Vera Rubin上执行需要大量数学运算的预填充(Prefill)和注意力(Attention)解码;然后把受带宽限制的前馈网络(FFN,即Token生成部分)卸载给Groq芯片。两者通过特殊的以太网模式紧密耦合。加上Dynamo这款AI工厂操作系统,我们在Token生成上实现了前所未见的35倍性能飞越。目前,Groq LP30芯片已由三星量产,将于第三季度出货。
我们每年推出一款全新架构,英伟达已从一家芯片公司蜕变成为一家AI工厂公司。为了避免组件在数据中心首次“碰面”时出现严重能耗浪费,我们打造了Omniverse和DGX World平台。在虚拟数字孪生中,我们可以使用西门子、Cadence和DGX Air等工具,对机械、散热和网络进行精确模拟。实地运行后,AI Agent与DGX Max-Q协同工作,动态编排电力与散热,榨干每一滴性能。我们正在行星级规模上建造超级计算机。不仅如此,搭载THOR芯片的设备已通过辐射测试并应用于卫星。未来,我们将利用Vera Rubin Space One在太空中建设数据中心,我们最优秀的工程师正在攻克太空散热的难题。
2026-04-03 19:03:50
浏览次数: 次
返回列表
友情链接:





