黑色皮衣下的黄仁勋,在GTC 2025舞台上投下又一颗“核弹”——以天文学家薇拉·鲁宾命名的下一代AI芯片架构Rubin。
在2025年3月的GTC大会上,英伟达CEO黄仁勋向全世界宣布了下一代AI芯片架构Rubin的详细路线图。作为Blackwell的继任者,Rubin计划于2026年下半年正式推出,其性能将达到2022年发布的Hopper架构的900倍,这一提升幅度远超Blackwell相较于Hopper的68倍性能飞跃。
01 产品定位与命名由来
Rubin是英伟达“每年更新架构”技术战略下的第三代产品,遵循Hopper(2022年)、Blackwell(2024年)之后的迭代节奏。
这一命名延续了英伟达以科学家命名芯片的传统,致敬了美国天文学家薇拉·鲁宾。她因发现星系旋转曲线异常现象,为暗物质研究奠定基础而闻名学界。
Rubin的推出标志着英伟达正式将架构更新周期从两年缩短至一年,这一加速节奏始于2024年6月黄仁勋在台北电脑展上的首次公布。
黄仁勋对此解释称:“构建AI工厂和AI基础设施需要数年的规划,不像买笔记本电脑,所以我们必须提前两三年制定土地、电力、资本支出的计划。”
02 技术架构创新
Rubin架构的核心技术创新体现在存储、互联和芯片设计三大领域。
内存方面,Rubin将首次采用HBM4高带宽内存,标准版配备288GB HBM4,而2027年推出的Rubin Ultra将进一步升级至1TB HBM4e。
互联技术上,Rubin平台将搭载第六代NVLink互联总线,实现高达3.6TB/s的超高带宽,是前代技术的两倍。
芯片设计上,Rubin采用台积电N3P制程(3纳米家族优化版)和小芯片(chiplet)技术,将多个较小半导体芯片封装成单一芯片,大幅提高性能、可扩展性和成本效率。
“小芯片使芯片商将多个较小半导体芯片封装成单一芯片,提高产量,降低生产成本。”业内专家如此评价这一技术趋势。
03 Rubin CPX:专为长上下文推理打造的“特种兵”
2025年9月,英伟达进一步公布了基于Rubin架构的专用GPU——Rubin CPX,这是一款专为大规模上下文推理设计的全新GPU。
Rubin CPX的性能表现惊人:是Vera Rubin NVL144平台的2倍多,是基于Blackwell Ultra的GB300 NVL72机架式系统的7.5倍。它具有单机架8 EFLOPS的NVFP4计算力、100TB高速内存与1.7 PB/s的内存带宽。
这款芯片专为解决AI“长上下文”瓶颈而设计,能够在同一时间推理跨越数百万个知识标记的模型,为AI编码、视频生成、深度研究等领域的复杂任务提供强大支持。
黄仁勋称:“正如RTX颠覆了图形与物理AI一样,Rubin CPX是首个专为海量上下文AI打造的CUDA GPU,模型能够一次性跨越数百万个Token的知识进行推理。”
04 Vera CPU与超级芯片设计
与Rubin GPU协同工作的是英伟达下一代CPU架构——Vera CPU。Vera CPU拥有88个定制Arm核心,每个核心支持176个线程,内存带宽是前代Grace CPU的2.4倍,整体性能提升一倍。
Rubin GPU与Vera CPU通过NVLink-C2C实现1.8TB/s的高带宽连接,组成新一代超级芯片系统。这种紧密集成使Rubin在推理任务中的算力可达50 petaflops,是Blackwell(20 petaflops)的两倍以上。
与当前Blackwell GPU类似,Rubin由两个GPU芯片组成,而Rubin Ultra则由四个GPU芯片组成,通过先进封装技术实现高性能集成。
05 产品路线图与性能指标
英伟达已清晰规划出直至2028年的技术路线图:Blackwell(2024年)→ Blackwell Ultra(2025年)→ Vera Rubin(2026年)→ Rubin Ultra(2027年)→ Feynman(2028年)。
具体到产品层面,Vera Rubin NVL144平台将于2026年下半年推出,FP4推理算力可达3.6EFLOPS,是Blackwell Ultra GB300 NVL72的3.3倍。而更高级的Rubin Ultra NVL576定于2027年下半年发布,FP4推理算力高达15EFLOPS,是GB300 NVL72的14倍。
这一性能提升意味着什么呢?黄仁勋在GTC现场展示的数据表明,基于Rubin的AI工厂性能将比基于Hopper的AI工厂提高多达900倍,为企业带来前所未有的计算能力。
06 产业影响与生态布局
Rubin的推出将进一步巩固英伟达在AI芯片领域的领先地位。摩根大通的研报指出,供应链对英伟达高端GPU寄予厚望,预估2025年Blackwell芯片出货量有机会突破百万颗,占英伟达高端GPU出货量的近40%至50%。
面对AMD、英特尔等竞争对手以及微软、谷歌、亚马逊等客户自研芯片的双重压力,英伟达通过加速产品迭代保持竞争优势。
Rubin平台将得到完整的英伟达AI堆栈支持,包括NVIDIA AI Enterprise软件平台、NVIDIA Dynamo推理编排平台以及近6000个CUDA应用构成的开发者生态。
特别值得关注的是,Dynamo软件平台在运行DeepSeek-R1模型时,可将每个GPU生成的token数量提高超过30倍,大幅提升推理效率。
随着数据中心的计算需求呈指数级增长,Rubin架构的到来将为企业提供处理万亿参数模型的能力。亚马逊云科技、谷歌云、微软Azure等主要云服务提供商已计划在2026年Rubin发布后立即提供基于该架构的实例。
黄仁勋展望道:“今天,我们正处于计算领域重大转变的临界点。凭借我们在AI和加速计算方面的创新,我们正在突破可能的边界,推动下一波技术进步的浪潮。”
这场由Rubin芯片引领的AI算力革命,将决定未来十年人工智能发展的格局与速度。
发表评论 取消回复