技术教程 · 2026年4月11日 0

又一大飞跃:Rubin CPX 专用加速器与机架

Nvidia宣布了Rubin CPX,这是一个专门为优化prefill阶段而设计的解决方案,单die的Rubin CPX强调计算FLOPS而非内存带宽。这对于推理来说是游戏规则的改变,其重要性仅次于2024年3月宣布的GB200 NVL72 Oberon机架规模形态。

因此,Nvidia与竞争对手之间的机架系统设计差距已经变得像峡谷一样大。AMD和定制硅竞争对手可能在模仿Nvidia的72 GPU机架规模设计方面取得了一些小进展,但Nvidia刚刚又迈出了一大步,再次将竞争对手远远甩在后面。

AMD和ASIC供应商已经在大力投资,试图在机架规模解决方案方面迎头赶上。AMD尤其在不懈努力改进其软件堆栈,试图缩小与Nvidia的差距,但现在所有人都需要加倍投资,因为他们必须开发自己的prefill芯片,这将进一步推迟他们缩小差距的时间表。随着这一宣布,Nvidia的所有竞争对手都将被送回绘图板,重新配置他们的整个路线图,这是Oberon如何改变整个行业路线图的重复。

内存:故事至今

内存墙一直是AI最重要的约束。更大的内存容量对于将更大的模型加载到加速器中是必要的,而内存带宽一直是推理和训练token吞吐量的主要限制因素。这就是为什么高带宽内存(HBM)每GPU的容量和带宽迅速增加——从H100的80GB和3.4TB/s到GB300的288GB和8.0TB/s,不到三年内内存容量增加了三倍以上,带宽增加了约2.5倍。

因此,从Hopper到Blackwell,HBM占加速器BOM的比例持续增加,现在HBM已成为GB300封装BOM中最大的单个组件。HBM对于训练和推理都非常宝贵,但当我们将推理分解为prefill和decode步骤时,HBM仅在decode步骤中具有高价值。在prefill期间,由于prefill的并行性质,KVCache的生成带宽密集度低得多,因此在此步骤中HBM利用率不足。

与其他形式的DRAM相比,HBM携带如此昂贵的溢价是因为其额外的带宽,当这个带宽未被充分利用时,这种HBM就被”浪费”了。HBM占BOM比例的不断上升又形成了另一面”墙”,这也是开发Rubin CPX GPU的动力。

带宽与计算差异

每个Rubin CPX芯片将是常规倒装芯片BGA封装上的单片SoC。与HBM不同,Rubin CPX将拥有128GB GDDR7内存。从使用HBM切换到更便宜的GDDR7内存,每GB成本降低了50%以上。

内存速度可能为32Gbps,配备512位总线。这意味着每个Rubin CPX的内存带宽为2TB/s,而每个R200为20.5TB/s。值得注意的是,通过这次发布会,Nvidia还确认了常规Rubin的带宽显著升级。R200的HBM4速度已大幅提升至10Gbps,以实现每个R200 20.5TB/s的内存带宽,正如我们在之前的《加速器与HBM模型》中所讨论的那样。这与R200最初以13TB/s内存带宽规格(6.4Gbps速度等级)亮相相比有了显著提升。我们在该模型中也讨论并量化了对HBM供应商的影响。

对于计算能力,每个CPX提供30 PFLOPS的稀疏FP4计算吞吐量(20 PFLOPS密集),而R200为50 PFLOPS稀疏FP4(33.3 PFLOPS密集)。Rubin CPX的密集PFLOPS遵循与R200相同的3:2稀疏到密集比率,因为它继承了与Rubin R200相似的tensor核心架构。CPX相对于R200的两个die提供了非常强大的单计算die FP4计算吞吐量。增益可能来自于减少更高精度的计算单元,以获得更多的FP4 ALU。这正是B300为实现比B200更高的FP4吞吐量而在同一4NP节点上实施的方案。

分离式服务的巨大飞跃

今天的Rubin CPX发布对于推理来说是游戏规则的改变,其重要性仅次于首次宣布GB200 NVL72 Oberon机架规模形态。只有使用专门针对推理不同阶段(prefill和decode)的硬件,才能真正实现分离式服务。

在本节中,我们将解释从传统服务到使用相同硬件的分离式服务的演变,最后分析使用专用硬件的分离式服务。我们将展示使用相同硬件的分离式服务会产生多少浪费。一旦专用推理硬件变得普遍,使用通用硬件会感觉像是用千斤顶去拍死一只虫子。

正如我们在文章前面提到的,Rubin CPX的发布将把Nvidia的竞争对手送回绘图板,重新调整他们的路线图。如果不发布自己的专用prefill芯片,就意味着将他们的客户与低效的系统捆绑在一起,这将保证这些客户在tokenomics市场上处于劣势。

原文: https://semianalysis.com/2025/09/10/another-giant-leap-the-rubin-cpx-specialized-accelerator-rack/