黄仁勋甩出三代核弹 AI 芯片！个人超算每秒运算 1000 万亿次，DeepSeek 成最大赢家

行业资讯· 2025-03-19 12:53:59

英伟达 GTC 大会已经成了 AI 界超级碗，没有剧本也没有提词器，中途黄仁勋被线缆卡住，反而是这场高浓度 AI 发布会里最有人味的片段，在当今提前基本提前彩排或录播的科技发布会里已经很稀缺了。

刚刚，黄仁勋再次发布了全新一代核弹级 AI 芯片，不过这场发布会的还有个隐藏主角——DeepSeek。

由于智能体 AI（Agentic AI）和推理能力的提升，现在所需的计算量至少是去年此时预估的 100 倍。

推理成本效率给 AI 行业带来影响，而不是简单地堆积计算能力，成为贯穿这场发布会的主线。英伟达要变成 AI 工厂，让 AI 以超越人类的速度学习和推理。

推理本质上是一座工厂在生产 token，而工厂的价值取决于能否创造收入和利润。因此，这座工厂必须以极致的效率打造。

黄仁勋掏出的英伟达新「核弹」也在告诉我们，未来的人工智能竞争不在于谁的模型更大，而在于谁的模型具有最低的推理成本和更高推理的效率。

除了全新 Blackwell 芯片，还有两款「真·AI PC」

全新的 Blackwell 芯片代号为「Ultra」，也就是 GB300 AI 芯片，接棒去年的「全球最强 AI 芯片」B200，再一次实现性能上的突破.

Blackwell Ultra 将包括英伟达 GB300 NVL72 机架级解决方案，以及英伟达 HGX B300 NVL16 系统。

Blackwell Ultra GB300 NVL72 将于今年下半年发布，参数细节如下：

1.1 EF FP4 Inference：在进行 FP4 精度的推理任务时，能够达到 1.1 ExaFLOPS（每秒百亿亿次浮点运算）。
0.36 EF FP8 Training：在进行 FP8 精度的训练任务时，性能为 1.2 ExaFLOPS。
1.5X GB300 NVL72：与 GB200 NVL72 相比，性能为 1.5 倍。
20 TB HBM3：配备了 20TB HBM 内存，是前代的 1.5 倍
40 TB Fast Memory：拥有 40TB 的快速内存，是前代的 1.5 倍。
14.4 TB/s CX8：支持 CX8，带宽为 14.4 TB/s，是前代的 2 倍。

单个 Blackwell Ultra 芯片将和前代一样提供相同的 20 petaflops（每秒千万亿次浮点运算） AI 性能，但配备更多的 288GB 的 HBM3e 内存。

如果说 H100 更适合大规模模型训练，B200 在推理任务中表现出色，那么 B300 则是一个多功能平台，预训练、后训练和 AI 推理都不在话下。

英伟达还特别指出，Blackwell Ultra 也适用于 AI 智能体，以及用于训练机器人和汽车自动驾驶的「物理 AI」。

为了进一步增强系统性能，Blackwell Ultra 还将与英伟达的 Spectrum-X 以太网和英伟达 Quantum-X800 InfiniBand 平台集成，为系统中的每个 GPU 提供 800Gb/s 的数量吞吐量，帮助 AI 工厂和云数据中心能够更快处理 AI 推理模型。

除了 NVL72 机架，英伟达还推出了包含单个 GB300 Blackwell Ultra 芯片的台式电脑 DGX Station。Blackwell Ultra 之外，这个主机还将配备 784GB 的同一系统内存，内置 800Gbps 英伟达 ConnectX-8 SuperNIC 网络，能够支持 20 petaflops 的 AI 性能。

而之前在 CES 2025 展示的「迷你主机」Project DIGITS 也正式被命名为 DGX Spark，搭载专为桌面优化的 GB10 Grace Blackwell 超级芯片，每秒可提供高达 1000 万亿次 AI 计算操作，用于最新 AI 推理模型的微调和推理，包括 NVIDIA Cosmos Reason 世界基础模型和 NVIDIA GR00T N1 机器人基础模型。

黄仁勋表示，借助 DGX Station 和 DGX Spark，用户可以在本地运行大模型，或者将其部署在 NVIDIA DGX Cloud 等其他加速云或者数据中心基础设施上。

这是 AI 时代的计算机。

DGX Spark 系统现已开放预订，而 DGX Station 预计将由华硕、戴尔、惠普等合作伙伴于今年晚些时候推出。

下一代 AI 芯片 Rubin 官宣，2026 年下半年推出

英伟达一直以科学家的名字为其架构命名，这种命名方式已成为英伟达文化的一部分。这一次，英伟达延续了这一惯例，将下一代 AI 芯片平台命名为「Vera Rubin」，以纪念美国著名天文学家薇拉·鲁宾（Vera Rubin）。

黄仁勋表示，Rubin 的性能将达到 Hopper 的 900 倍，而 Blackwell 相较 Hopper 已实现了 68 倍的提升。

其中，Vera Rubin NVL144 预计将在 2026 年下半年发布。参数信息省流不看版：

3.6 EF FP4 Inference：在进行 FP4 精度的推理任务时，能够达到 3.6 ExaFLOPS（每秒百亿亿次浮点运算）。
1.2 EF FP8 Training：在进行 FP8 精度的训练任务时，性能为 1.2 ExaFLOPS。
3.3X GB300 NVL72：与 GB300 NVL72 相比，性能提升了 3.3 倍。
13 TB/s HBM4：配备了 HBM4，带宽为 13TB/s。
75 TB Fast Memory：拥有 75 TB 的快速内存，是前代的 1.6 倍。
260 TB/s NVLink6：支持 NVLink 6，带宽为 260 TB/s，是前代的 2 倍。
28.8 TB/s CX9：支持 CX9，带宽为 28.8 TB/s，是前代的 2 倍。

标准版 Rubin 将配备 HBM4，性能比当前的 Hopper H100 芯片大幅提升。

Rubin 引入名为 Grace CPU 的继任者——Veru，包含 88 个定制的 Arm 核心，每个核心支持 176 个线程，并通过 NVLink-C2C 实现 1.8 TB/s 的高带宽连接。

英伟达表示，定制的 Vera 设计将比去年 Grace Blackwell 芯片中使用的 CPU 速度提升一倍。

与 Vera CPU 搭配时，Rubin 在推理任务中的算力可达 50 petaflops，是 Blackwell 20 petaflops 的两倍以上。此外，Rubin 还支持高达 288GB 的 HBM4 内存，这也是 AI 开发者关注的核心规格之一。

实际上，Rubin 由两个 GPU 组成，而这一设计理念与当前市场上的 Blackwell GPU 类似——后者也是通过将两个独立芯片组装为一个整体运行。

从 Rubin 开始，英伟达将不再像对待 Blackwell 那样把多 GPU 组件称为单一 GPU，而是更准确地按照实际的 GPU芯片裸片数量来计数。

互联技术也升级了，Rubin 配备第六代 NVLink，以及支持 1600 Gb/s 的 CX9 网卡，能够加速数据传输并提升连接性。

除了标准版 Rubin，英伟达还计划推出 Rubin Ultra 版本。

专业AI论文写作一键生成万字论文只需5分钟

文章链接: http://huangxinwei.com/aizixun/7811.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表炎黄立场。

上一篇啄木鸟深夜发声！拟上线DeepSeek问价

下一篇传X平台估值重回440亿美元，去年9月仅百亿

炎黄AI写作网

黄仁勋甩出三代核弹 AI 芯片！个人超算每秒运算 1000 万亿次，DeepSeek 成最大赢家