← 返回列表

Blog 详情

Nvidia Groq 3 LPU发布:收购Groq后首款芯片,专为推理加速重新定义每瓦Token产出

2026年3月16日 · WaymoChang

核心摘要

在GTC 2026主题演讲上,黄仁勋正式发布Nvidia Groq 3语言处理单元(LPU)——这是Nvidia以200亿美元资产收购Groq后推出的首款硬件产品。Groq 3 LPU将与Vera Rubin系统协同部署,主攻推理阶段的每瓦Token产出效率,预计Q3 2026出货。这标志着Nvidia正在将算力版图从GPU主导的训练/推理一体向「GPU+LPU双轨」架构演进。

【版权说明】本文为中文深度解读与观点整理,基于公开报道综合分析,不是原文逐字翻译。原始内容版权归CNBC、Reuters及相关报道方所有。

原始信源:CNBC(2026-03-16)https://www.cnbc.com/2026/03/16/nvidia-gtc-2026-ceo-jensen-huang-keynote-blackwell-vera-rubin.html

原始信源:Reuters(2026-03-16)https://www.reuters.com/world/asia-pacific/nvidia-ceo-set-reveal-new-chips-software-ai-megaconference-gtc-2026-03-16/

一、是什么

2026年3月16日,NVIDIA CEO黄仁勋在GTC 2026主题演讲中正式发布Nvidia Groq 3语言处理单元(Language Processing Unit,LPU)。这是Nvidia完成对Groq公司200亿美元资产收购(2025年12月)后推出的第一款硬件产品。

核心规格与定位:

Groq 3 LPU专为推理阶段设计,核心优化目标是每瓦Token产出(tokens per watt)

一个核心专为加速GPU运算而优化,与Vera Rubin GPU系统形成互补

将装入全新Groq LPX机架:单机架容纳256个LPU,设计为与Vera Rubin机架并排部署

预计2026年第三季度开始出货

二、为什么值得关注

信号一:Nvidia正在构建「双轨算力」架构

Groq最初是由设计谷歌TPU的工程师创立,其LPU架构的核心优势在于推理阶段的极低延迟和极高能效——这恰好是GPU架构相对薄弱的环节。Nvidia收购Groq并将LPU整合进自己的硬件堆栈,意味着公司正在从「一体化GPU主导」向「GPU负责并行计算+LPU负责高效推理」的双轨体系演进。

对于AI推理成本居高不下的市场现状,这一架构转变具有直接商业意义:推理阶段的电力消耗占AI数据中心总能耗比例在快速上升,每瓦Token产出的竞争将是未来3-5年AI基础设施的核心战场。

信号二:并排部署策略,绑定采购逻辑

Groq LPX机架被设计为与Vera Rubin机架并排部署——这不仅是技术架构选择,也是商业绑定策略。当数据中心同时购入Vera Rubin和Groq LPX,Nvidia在单个客户的算力预算中占比进一步提升。这延续了Nvidia在DGX、HGX产品线上的惯常打法:让客户采购整套生态,而非单一组件。

信号三:LPU市场验证提速

此前Groq作为独立公司运营,LPU的商业化进展相对有限,主要服务于特定推理API场景。被Nvidia整合后,Groq 3 LPU将获得Nvidia的全球销售渠道、数据中心客户关系和软件生态支持(CUDA/NIM)。这意味着LPU这一架构能在更大规模上得到市场验证,也将加速推理优化型芯片的行业采纳曲线。

三、对AI基础设施格局的影响

Groq 3 LPU的发布,让英特尔Gaudi、AMD Instinct之外,又多了一个已被大客户验证的「GPU替代/互补」推理解决方案——而且这次是Nvidia自己推出的。

对于云厂商和大型AI模型公司而言,未来数据中心算力采购将面临更精细的「训练+推理」分层决策:哪些算力用于训练(高并行GPU),哪些用于在线推理(高能效LPU)。Groq 3的出现,使得这种分层在NVIDIA生态内部就能完成,而无需引入第三方推理芯片供应商。

【观察】Groq从独立创业公司到Nvidia产品线组件的路径,是AI基础设施整合周期的缩影:垂直优化的专用架构在Nvidia的商业体系下,反而可能获得比独立运营更广泛的市场覆盖。这对同类推理芯片创业公司(Groq竞争对手如Tenstorrent、Etched)是清晰的警示信号。