精選文章 封面故事

Vera Rubin台鏈大補丸
AI教父黃仁勳讚賞神隊友

魏聖峰 文章摘錄自第2393期

Vera Rubin讓AI晶片從單顆CPU進入機架級系統架構的時代, 透過六顆不同功能的晶片高度分工、彼此協同運作, 確保GPU幾乎不會被非計算任務給打斷,形成一個高穩定且高效率的運算管道。 若與Blackwell相比,Vera Rubin的推理成本能降低約十倍之多。

Nvidia執行長在今年CES展中首度揭露次世代AI運作系統,正式發表Vera Rubin,預計下半年上市,這款AI運作系統標誌AI運算正式進入rack-scale system engineering(機架級系統架構時代)。與過去單顆GPU演進不同,Rubin並非單一晶片升級,而是由六顆高度分工、彼此協同的關鍵晶片所組成,共同構成一個完整的AI工廠。Rubin架構的核心不僅來自於GPU算力提升,而在於計算、互連、網路以及全面提升基礎設施的效率。

這座系統架構透過Vera CPU、Rubin GPU、NVLink 6、ConnectX-9、BlueField-4與Spectrum-6的協同,Nvidia得以在同等或可控功耗,降低AI訓練與推理成本,建立難以複製的系統級護城河。如果和Blackwell相比,Vera Rubin的推理成本能降低約十倍,訓練與推理效率提升,在同等的功率下有更高的效能。很多消息來源指出,Rubin NVL72系統推論性能可以達到Blackwell的五倍。Rubin GPU本身具備50peraflops NVFP4 AI推理能力,這裡的50peraflops指的是單顆Rubin GPU每秒能進行五萬兆次運算的算力單位,NVFP4則是Nvidia開發的四位元浮點數格式。傳統AI運算常用十六位元,位元數愈低,運算愈快且節省記憶體。Vera Rubin雖然只用到四位元,但透過Nvidia的技術優化,它能保持接近十六位元或八位元的高精確度,同時讓推理速度翻倍,這就是Nvidia黑科技能力。

採用台積電三奈米製程

在功耗上,Nvidia並沒有公開具體功耗瓦數數據,但從推理/瓦效與系統整合推測,Rubin平台在能源效率上遠優於Blackwell架構。當然,這與台積電(2330)先進製程有關。Blackwell GPU採用台積電四奈米製程,而Vera Rubin的六款晶片全都採用台積電三奈米製程,並採用台積電的CoWoS-L封裝技術,並首度導入Chiplet(小晶片)設計與四倍光罩尺寸設計,將首度搭載HBM4記憶體,頻寬可達22TB/s。顯然台積電的先進製程與封裝技術,是Vera Rubin晶片能提升運作效率又能降低功耗很重要的原因。

台積電的先進製程一直供不應求,雖然今年的資本支出將達到五二○~五六○億美元,主要是用在二奈米建廠以及先進封裝廠上,但需求實在太大,台積電正擴大封測委外布局,日月光投控(3711)和京元電子(2449)要的受惠轉單對象,欣銓(3264)與力成(6239)也有可能受惠外溢訂單。台積電七奈米以下先進製程營收比重已達七四%,這類高端晶片的後段封測需求接挹注給日月光(封裝)與京元電(測試),帶動這兩家公司資本支出和業績的成長。

日月光投控已明確表示將積極追趕客戶需求,並大幅調升投資規模,以維持先進封裝龍頭的地位。該公司規劃今年整體資本支出將達到七○億美元創新高。其中機器設備會比去年的三四億美元,再增加十五億美元,成長幅度達三成。整體資本支出項目中約有三分之二會用在先進製程的支出上;日月光投控預計先進封裝服務(LEAP)營收將從去年的十六億美元,翻倍到三二億美元。測試大廠的京元電子也受惠於Nvidia AI晶片需求超乎預期,且AI晶片設計趨於複雜,導致測試時間拉長與需求增加,AI晶片需要更精細的系統級測試(SLT)與燒機測試(Burn-in),帶動產能持續滿載,京元電子今年的資本支出將接近四百億台幣,續創歷史新高。

加速大語言模型處理能力

Vera Rubin的六顆晶片中,Rubin GPU是AI訓練與推理的加速;專注於第三代Transformer Engin(變形金剛引擎),這是一項新的技術功能,主要用在加速大語言模型(LLM)與代理型AI(Agentic AI)的運算速度與效率。與前代Blackwell平台相比,推論吞吐量可提升高達五倍,訓練效能提升三.五倍。這款GPU能支援NVFP4等低精度推理格式,並能搭配HBM4高頻寬記憶體。Rubin GPU只負責計算本身,而不用再承擔網路、儲存或安全等非核心任務,為後續協同設計奠定基礎。

Vera CPU並非一般通用型CPU,而是專為AI工作負載設計的協調引擎,主要任務包括GPU任務排程與管理、資料前處理與流向控制、與GPU共向一致性記憶體。透過NVLink-C2C的雙向頻寬(約1.8TB/s),能讓CPU與GPU幾乎無資料搬移的瓶頸、降低效能耗損,使GPU得以長時間維持高利用率,提升整體資料吞吐的效率。Vera CPU最大的功用是AI工廠資料與控制協調的作用,負責管理GPU、網路介面與儲存系統間的數據流量,確保大規模AI負載能像單一超級電腦般的運作。它能藉由快速的預處理與數據供給,確保強大Rubin GPU不會因為等待CPU處理數據而閒置,提高CPU的利用率。

NVlink 6 Switch是專門為高速網路交換設計的特殊積體電路晶片,是AI機櫃內高速互聯的骨幹。在大型AI和高效能運算叢集中連接多個GPU,形成一個接一的、高頻寬GPU網路。它並不是單一晶片,而是包含多個NVLink Switc晶片和相關組件的交換器系統。它能夠將七二顆(或一四四顆)GPU組成單一邏輯的運算單元,並提供GPU-GPU間高達數TB/s等級的雙向頻寬,這就像一個單一的巨型加速器,對於訓練具有數兆個參數的大型語言模型 (LLM)非常重要。

ConnectX-9 SuperNIC扮演網路端點的關鍵角色,主要負責驅動Scale-Out(橫向擴展)的網路通訊。當AI訓練規模擴大到跨機櫃時,ConnectX-9會扮演節點間資料傳輸的關鍵角色,內鍵智慧擁塞控制與遙測功能,確保系統在處理兆級參數模型時,網路表現依然穩定且可預測。它也能提供每個GPU高達1.6Tb/s網路頻寬,確保在數十萬顆GPU組成的AI系統中,數據交換不會成為瓶頸。透過ConnectX-9、Rubin NVL72不僅是一個封閉系統,而是能持為超大型AI叢集的基本單元。

DPU擔任卸載與安全用途

BlueField-4 DPU是AI系統中擔任卸載與安全的用途,承擔原本由主機CPU處理的繁重負擔,確保GPU資源一○○%用於計算。它能提供高達800Gb/s頻寬,自動處理複雜的數據封包及負載平衡,能顯著降低通訊延遲。它還能透過內鍵的六四核ARM CPU運行Nvidia CUDA框架,處理系統遙測、故障排除及資源調度,完全不占用主機的運算力。這些卸載功能,讓CPU與GPU得以完全專注在AI工作負載。BlueField-4也能讓算力服務供應商(甲骨文雲端或CoreWeave)在提供裸機(Bare-metal)性能的同時,還能保有雲端等級的管理能力。管理員可以從外部控制整台伺服器,使用者則能獲得不受干擾的極致性能。

Spectrum-6是目前全球性能最強大的乙太網路交換器ASIC,專為大型AI工廠、超大規模雲端運算與高效能運算環境所設計。它主要負責機櫃與雞櫃間的高速互聯,能優化AI叢集的流量,解決傳統乙太網路容易發生的壅塞現象。Spectrum-6領先業界導入CPO技術,將矽光子光學引擎直接整合在交換晶片旁,使整體能效比傳統可插拔模組方案提升五倍,並顯著降低大型資料中心的功耗與冷卻成本。

上述六顆晶片的協同運作,確保GPU幾乎不被非計算任務給打斷,形成一個高穩定且高效率的運算管道。Rubin平台效能的提升,主要能讓GPU利用率顯著提升、通訊能耗下降以及系統及最佳化等三個結構性的改變,讓CPU、DPU、NIC各司其職,避免重複耗能。即便單顆GPU功耗未必大幅下降,但整體token/瓦數仍有顯著改善。整體而言,Vera Rubin不只是一個次世代GPU,而是針對AI運算產業結構轉折的里程碑。