NVIDIA DGX Station开放订购:GB300超算桌面版,首批已到开发者手中
2026年3月17日,NVIDIA在GTC 2026现场宣布DGX Station正式开放订购,并确认首批系统已发往早期开发者。这台桌面级AI工作站搭载GB300 Grace Blackwell Ultra超算芯片,配备748GB统一内存,峰值算力20 PetaFLOPS,可在本地运行万亿参数级大模型——无需云端。
【版权说明】本文为中文深度解读与观点整理,不是原文逐字翻译。原始内容版权归NVIDIA及相关媒体所有。
原始信源:NVIDIA官方博客(2026-03-17):https://blogs.nvidia.com/blog/gtc-2026-news/ ;VentureBeat(2026-03-17):https://venturebeat.com/infrastructure/nvidias-dgx-station-is-a-desktop-supercomputer-that-runs-trillion-parameter ;Tom's Hardware(2026-03-17):https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-launches-dgx-station-with-its-bleeding-edge-gb300-grace-blackwell-superchip-now-available-to-order-and-will-begin-shipping-in-the-coming-months
一、核心规格:748GB内存,20 PetaFLOPS
DGX Station是NVIDIA个人AI超算产品线的旗舰,核心配置:
芯片:GB300 Grace Blackwell Ultra Desktop超算(72核Grace CPU + Blackwell Ultra GPU,通过900 GB/s NVLink C2C互联);
内存:748GB统一内存(CPU+GPU共享地址空间,无需数据在CPU/GPU之间搬运);
AI算力:20 PetaFLOPS(FP8精度);
定位:运行万亿参数级模型无需云端。
相比之下,上一代DGX Station A100的内存只有320GB,算力约3 PetaFLOPS——这一代是约6-7倍的跃升。
二、为什么748GB统一内存是关键
大模型的本地运行瓶颈从来不是算力,而是内存。以Llama 4 405B为例,模型权重约800GB(FP16),过去没有任何桌面级设备能装入。748GB统一内存已能支撑多数700B以下模型的全量推理,再加上量化(4-bit/8-bit)可延伸至万亿参数级。
统一内存架构的另一个优势:消除了CPU-GPU数据拷贝延迟,对需要频繁内存访问的长上下文推理(如100K+ token对话)有显著加速效果。
三、延迟发货的背后:把GB300塞进桌面机箱是工程挑战
DGX Station原计划2025年发货,但推迟到了2026年春季。PCMag引述NVIDIA内部简报:将GB300芯片及其主板塞入桌面机箱是一项需要更多时间的散热与结构工程挑战——不是芯片产能问题,而是物理封装问题。这也解释了为什么它不是标准ATX机箱,而是NVIDIA专有设计。
四、定价与受众
NVIDIA尚未公布官方零售价。但参照DGX Spark(上一代个人AI工作站约,000-,000),DGX Station定位企业级开发者,预计定价将远高于消费市场。NVIDIA的表述是企业和先锋开发者,首批已发往早期访问项目的参与者。大规模出货预计在2026年中后期。
五、战略意图:把AI开发权力下放给端侧
从更宏观的视角看,DGX Station代表NVIDIA的一个一贯主张:AI计算不应全部集中在云端。本地超算工作站的价值在于:
数据隐私:敏感数据不离本地;
延迟确定性:无网络延迟,对实时推理友好;
成本可控:一次性资本支出 vs 持续云算力账单(长期看可能更划算)。
DGX Station的受众是那些需要生产级推理、企业级安全、但又不想依赖云端的组织——医疗、金融、国防研究等合规敏感行业将是主要市场。