Nvidia Groq 3 LPU发布：收购Groq后首款芯片，专为推理加速重新定义每瓦Token产出

2026年3月16日 · 校长 · AI

核心摘要

在GTC 2026主题演讲上，黄仁勋正式发布Nvidia Groq 3语言处理单元（LPU）——这是Nvidia以200亿美元资产收购Groq后推出的首款硬件产品。Groq 3 LPU将与Vera Rubin系统协同部署，主攻推理阶段的每瓦Token产出效率，预计Q3 2026出货。这标志着Nvidia正在将算力版图从GPU主导的训练/推理一体向「GPU+LPU双轨」架构演进。

【版权说明】本文为中文深度解读与观点整理，基于公开报道综合分析，不是原文逐字翻译。原始内容版权归CNBC、Reuters及相关报道方所有。

原始信源：CNBC（2026-03-16）：cnbc.com · nvidia gtc 2026 ceo jensen huang keynote blackwell vera rubin.html

原始信源：Reuters（2026-03-16）：reuters.com · nvidia ceo set reveal new chips software ai megaconference gtc 2026 03 16

一、是什么

2026年3月16日，NVIDIA CEO黄仁勋在GTC 2026主题演讲中正式发布Nvidia Groq 3语言处理单元（Language Processing Unit，LPU）。这是Nvidia完成对Groq公司200亿美元资产收购（2025年12月）后推出的第一款硬件产品。

核心规格与定位：

Groq 3 LPU专为推理阶段设计，核心优化目标是每瓦Token产出（tokens per watt）
一个核心专为加速GPU运算而优化，与Vera Rubin GPU系统形成互补
将装入全新Groq LPX机架：单机架容纳256个LPU，设计为与Vera Rubin机架并排部署
预计2026年第三季度开始出货

二、为什么值得关注

信号一：Nvidia正在构建「双轨算力」架构

Groq最初是由设计谷歌TPU的工程师创立，其LPU架构的核心优势在于推理阶段的极低延迟和极高能效——这恰好是GPU架构相对薄弱的环节。Nvidia收购Groq并将LPU整合进自己的硬件堆栈，意味着公司正在从「一体化GPU主导」向「GPU负责并行计算+LPU负责高效推理」的双轨体系演进。

对于AI推理成本居高不下的市场现状，这一架构转变具有直接商业意义：推理阶段的电力消耗占AI数据中心总能耗比例在快速上升，每瓦Token产出的竞争将是未来3-5年AI基础设施的核心战场。

信号二：并排部署策略，绑定采购逻辑

Groq LPX机架被设计为与Vera Rubin机架并排部署——这不仅是技术架构选择，也是商业绑定策略。当数据中心同时购入Vera Rubin和Groq LPX，Nvidia在单个客户的算力预算中占比进一步提升。这延续了Nvidia在DGX、HGX产品线上的惯常打法：让客户采购整套生态，而非单一组件。

信号三：LPU市场验证提速

此前Groq作为独立公司运营，LPU的商业化进展相对有限，主要服务于特定推理API场景。被Nvidia整合后，Groq 3 LPU将获得Nvidia的全球销售渠道、数据中心客户关系和软件生态支持（CUDA/NIM）。这意味着LPU这一架构能在更大规模上得到市场验证，也将加速推理优化型芯片的行业采纳曲线。

三、对AI基础设施格局的影响

Groq 3 LPU的发布，让英特尔Gaudi、AMD Instinct之外，又多了一个已被大客户验证的「GPU替代/互补」推理解决方案——而且这次是Nvidia自己推出的。

对于云厂商和大型AI模型公司而言，未来数据中心算力采购将面临更精细的「训练+推理」分层决策：哪些算力用于训练（高并行GPU），哪些用于在线推理（高能效LPU）。Groq 3的出现，使得这种分层在NVIDIA生态内部就能完成，而无需引入第三方推理芯片供应商。

【观察】Groq从独立创业公司到Nvidia产品线组件的路径，是AI基础设施整合周期的缩影：垂直优化的专用架构在Nvidia的商业体系下，反而可能获得比独立运营更广泛的市场覆盖。这对同类推理芯片创业公司（Groq竞争对手如Tenstorrent、Etched）是清晰的警示信号。

Nvidia Groq 3 LPU发布：收购Groq后首款芯片，专为推理加速重新定义每瓦Token产出

一、是什么

二、为什么值得关注

三、对AI基础设施格局的影响

继续读这几篇 AI 文章