澳门威斯人app AI性能暴增35倍! 英伟达发布全新LPU, GPU不再是独一主角!
澳门威斯人app下载官网
热点资讯
21点

你的位置:澳门威斯人app下载官网 > 21点 >

澳门威斯人app AI性能暴增35倍! 英伟达发布全新LPU, GPU不再是独一主角!

发布日期:2026-03-17 13:52    点击次数:156

澳门威斯人app AI性能暴增35倍! 英伟达发布全新LPU, GPU不再是独一主角!

当地时分3月16日,英伟达GTC 2026精采好意思国加州圣何塞召开。英伟达首创东谈主兼首席推行官黄仁勋身披璀璨性皮衣登场,在长达两个半小时的主题演讲中,勾画出这家算力巨头从“芯片公司”向“AI基础行动工场”全面转移的宏伟蓝图。

面对阛阓对功绩合手续性的高度关怀,黄仁勋给出了极为强盛的预期:到2027年,英伟达新一代AI芯片的累计营收将精采跨入1万亿好意思元时期。这一数字是他昨年预测的两倍。

本次演讲的一大重心,当属备受期待的Vera Rubin AI工场平台。与以往发布单芯片不同,黄仁勋这次展示的是一个包含7款全新芯片的“全家桶”系统。他强调:“曩昔提到Hopper,我会举起一块芯片,那很可人。但提到Vera Rubin,人人思到的是通盘系统。”

这一系统级平台的中枢组件包括:

Vera CPU:全球首款专为“AI智能体时期”与“强化学习”遐想的处理器。它搭载88个自研“Olympus”中枢,性能较传统CPU快50%,能效提高达2倍。黄仁勋将其比作智能体系统背后的“指导与篡改中心”,负责经管海量并发任务。

Rubin GPU:与Vera CPU通过NVLink-C2C本领收场1.8TB/s的惊东谈主互联带宽,共同组成巨大的算力中枢。

NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及带同包光学器件的Spectrum-X可膨胀交换机:组成了一套竣工的超高速互联、收集与数据处理基础,确保数据在AI工场内高效流转。

黄仁勋展示了基于这些组件构建的Vera Rubin NVL72机架,它集成了72颗Rubin GPU和36颗Vera CPU。比拟上代Blackwell平台,考试大型夹杂人人模子所需GPU数目仅为其四分之一,推理详细量/瓦特提高高达10倍。他自尊地宣称,通过极致的软硬件协同遐想,在短短两年内,英伟达将1GW数据中心内的Token生成速率提高了350倍。

至极值得重心先容的是,黄仁勋展示Vera Rubin平台的“全家桶”时,还推出了一款看似工致却极具计谋道理道理的芯片——Groq 3话语处理单位(LPU)。这款源自英伟达昨年12月以约200亿好意思元收购Groq中枢本领财富的芯片,被黄仁勋定位为Rubin GPU的“推理协处理器”,成为了Vera Rubin平台的又一基石。

黄仁勋说明了引入LPU的计谋考量时指出:在AI智能体时期,推理需求正加速分化。面对需要极高交互性、超短反适时分的任务,传统GPU架构存在性能冗余。为此,英伟达引入了专注于“极致低延伸Token生成”的LPU架构。

本文将深入融会Groq 3 LPU的本领细节、夹杂推理架构以及它对AI推理阛阓的深切影响。

一、本领颠覆:打造150TB/s的SRAM怪兽

Groq 3 LPU最引东谈主注筹划特色,在于其透彻颠覆了传统AI加速器的内存架构。

1、500MB片上SRAM:带宽的极致追求

与大多数依赖HBM(高带宽内存)手脚职责内存层的AI加速器不同,每个Groq 3 LPU芯片集成了500MB的片上SRAM(静态立地存取存储器)。这种内存此前主要用于CPU和GPU的超高速缓存,从未在AI加速器中担当主角。

这500MB SRAM看似“微不及谈”——与每个Rubin GPU上容量高达288GB的HBM4比拟,仅为其1/500。但SRAM的关节上风在于带宽:这块SRAM可提供高达150TB/s的带宽,而HBM4的带宽仅为22TB/s。这意味着,关于带宽十分明锐的AI解码操作,Groq 3 LPU的带宽是传统HBM的近7倍。

英伟达超大界限筹谋副总裁Ian Buck对此说明谈:“让咱们对比一下这两种处理器:GPU领有288GB内存,但带宽是22TB/s;LPU只好1/500的容量,但带宽达到了惊东谈主的150TB/s。关于需要极致低延伸的token生成任务,LPU的带宽上风无可替代。”

基于此芯片的Groq 3 LPX机架配备256颗LPU,提供128GB片上SRAM和640TB/s总带宽。

黄仁勋描摹了GPU与LPU协同职责的改日图景:Vera Rubin负责需要海量筹谋的“预填充”阶段,而Groq LPU则负责对延伸十分明锐的“解码”阶段。在这种夹杂架构下,系统的推理详细量与功耗比最高可提高35倍。他提出企业客户,若职责负载包含广泛高价值的Token生成需求,应将25%的数据中心界限竖立给Groq。据悉,由三星代工的Groq LP30芯片已插手量产,展望本年第三季度出货。

2、三星代工:黄仁勋现场致谢

在GTC主题演讲中,黄仁勋至极提到三星电子,感谢其为英伟达加速坐褥Groq 3 LPU芯片。这是英伟达初度公开阐述三星晶圆代工部门参与下一代AI芯片坐褥。

“三星为英伟达坐褥Groq 3 LPU芯片,并正在加速坐褥速率,我至极感谢三星。”黄仁勋在演讲中线路。他进一步袒露,该芯片将于2026年第三季度精采出货。

这一合作璀璨着三星与英伟达的伙伴相关从存储领域(HBM)精采膨胀到晶圆代工领域。三星电子本日在GTC大会现场展出了第七代HBM家具“HBM4E”和垂直堆叠芯片“中枢裸片”,积极宣传其在存储和代工领域的双重合作。

3、本领代价:容量与资本的博弈

SRAM的上风背后是蹂躏的工程衡量。SRAM的坐褥资本远高于DRAM,且占用更大的芯单方面积。这导致单个Groq 3 LPU仅能提供500MB内存,远不及以寂然起初万亿参数级别的超大AI模子。

英伟达的措置决议是:用数目弥补容量。公司将256颗Groq 3 LPU集成到一个Groq 3 LPX机架中,提供128GB的片上SRAM和40 PB/s的推理加速带宽。该机架选拔液冷遐想,通过每个机架640TB/s的专用膨胀接口将芯片互联。

Ian Buck坦承这种遐想的局限性:“你需要好多芯片才能取得那种性能。从每芯片的token详细量(经济性)来看,LPU其实至极低。”

二、夹杂架构:GPU+LPU如何协同职责?

既然LPU有容量短板,澳门威斯人app英伟达为何要大费周章将其纳入Rubin平台?谜底在于推理任务的单干谐和。

1、预填充阶段 vs. 解码阶段

诳言语模子的推理历程可分为两个阶段:

预填充阶段:处理输入辅导(prompt),并行筹谋所有这个词输入token,生成中间情状。这一阶段需要巨大的浮点运算才智和大容量内存来存储键值缓存。

杏彩(XingCai)官网平台

解码阶段:一一生成输出token,每一步皆依赖于之前生成的token。这一阶段对延伸十分明锐,且受内存带宽甩手严重。

英伟达的策略是:让Rubin GPU负责预填充阶段,让Groq LPU负责解码阶段。

具体来说,在英伟达新引入的Dynamo软件框架谐和下:

Rubin GPU欺诈其288GB HBM4和巨大的浮点运算才智,处理复杂的正经力机制(Attention)筹谋和数学运算,存储大型键值缓存

Groq LPU欺诈其150TB/s的超高带宽,处理前馈神经收集(FFN)层筹谋,收场极低延伸的逐token生成

2、智能体间通讯:从100 token/s到1500 token/s

跟着AI从单一大模子走向多智能体系统(multi-agent systems),推理延伸的条件发生了根人道变化。

Ian Buck描摹了这么的改日场景:在多智能体系统中,AI代理越来越多地与其他AI进行交互,而非与稽察聊天窗口的东谈主类换取。对东谈主类而言看似合理的每秒100 token生成速率,对AI代理来说却如同蜗牛爬行。

Buck线路:“Rubin GPU和Groq LPU的组合将东谈主工智能代理间通讯的详细量从每秒100个token提高到每秒1500个token致使更高。”

3、35倍性能提高:数据背后的工程遗迹

字据英伟达官方基准测试,当起初达到1万亿参数界限的诳言语模子时,Rubin GPU与Groq LPU组合比拟上代决议,推理详细量每瓦特提高高达35倍。

具体到资本层面,英伟达强调,这一组合决议起初超大AI模子时,每百万token的资本为45好意思元,每秒token处理量达到500。英伟达宣称,这将使超大AI模子干事的创收契机增多10倍。

三、计谋道理道理:英伟达为何需要LPU?

1、填补推理阛阓的短板

分析以为,“通过酌量Rubin GPU和Groq LPX,英伟达终于插手了推理阛阓——一个它从未成为第一的阛阓。”

长久以来,英伟达的GPU在考试阛阓占据绝对主导,但在低延伸推理领域,濒临着Cerebras、Groq(收购前)等挑战者的竞争。Cerebras的晶圆级引擎相似集成了广泛SRAM,为先进模子提供低延伸推理,致使眩惑了OpenAI等大客户。

收购Groq本领并将其整合到Rubin平台,是英伟达对竞争者的成功讲演。正如Ian Buck所说,公司但愿“通过这两种处理器的酌量,走向多智能体改日”。

2、生态系统兼容:无需修改CUDA

关于现存英伟达客户而言,引入Groq LPU的一个攻击上风是软件兼容性。

Groq 3 LPX机架与Rubin平台的酌量“无需修改现存的NVIDIA CUDA软件生态系统”。这意味着,企业客户不错在不重写代码的前提下,通过增多LPU机架来显赫提高推感性能。

3、竞争步地:谁将受益?

Tom's Hardware分析指出,Groq 3 LPU的加入可能裁减Rubin CPX推理加速器的作用。Buck示意,公司当今专注于将Groq 3 LPX机架与Rubin集成,因为两者皆旨在提供相似的推感性能增强,而LPU不需要每个Rubin CPX模块所需的广泛GDDR7内存。

在客户层面,PCMag预测,最大的AI公司——包括OpenAI、Anthropic、Meta——将成为这项本领的首批选拔者。这意味着,改日你的聊天机器东谈主查询或图像生成恳求,可能正由Rubin GPU和Groq LPU协同处理。

四、小结:推理时期的新范式

Groq 3 LPU的发布,璀璨着英伟达对AI筹谋的斡旋插手新阶段。当行业还在争论“内存容量vs内存带宽”孰轻孰重时,英伟达给出了一个求实谜底:十足要,但单干谐和。

Rubin GPU负责需要大容量内存和复杂筹谋的预填充阶段,Groq LPU负责需要极致低延伸的解码阶段。两者通过NVLink和Spectrum-X高速互联,在Dynamo软件框架的篡改下,如团结台筹谋机般协同职责。

关于企业客户而言,黄仁勋的提出很明确:若是你的职责负载包含广泛需要高交互性的token生成任务,应试虑将数据中心的一部分界限竖立给Groq LPU。在智能体AI成为行业下一个“拐点”确当下,这种夹杂架构可能是保合手竞争力的关节。

而关于三星而言,拿下Groq 3 LPU的代工订单澳门威斯人app,璀璨着其在AI芯片供应链中的地位从“存储供应商”升级为“全面制造伙伴”。正如黄仁勋所言:“谢谢三星。”这句话背后,是AI算力生态日益复杂的单干涉合作。



首页 | 百家乐 | 龙虎斗 | 轮盘 | 骰宝 | 二八杠 | 21点 | 番摊 | 2026世界杯 |

Powered by 澳门威斯人app下载官网 @2013-2022 RSS地图 HTML地图

Copyright © 1998-2026 澳门威斯人app下载官网™版权所有

redeemerucc.com 备案号 备案号: 

技术支持:®威斯人  RSS地图 HTML地图