先探投資週刊

精選文章＞封面故事

Vera Rubin台鏈大補丸
AI教父黃仁勳讚賞神隊友

魏聖峰　文章摘錄自第2393期

Vera Rubin讓AI晶片從單顆CPU進入機架級系統架構的時代，透過六顆不同功能的晶片高度分工、彼此協同運作，確保GPU幾乎不會被非計算任務給打斷，形成一個高穩定且高效率的運算管道。若與Blackwell相比，Vera Rubin的推理成本能降低約十倍之多。

Nvidia執行長在今年ＣＥＳ展中首度揭露次世代ＡＩ運作系統，正式發表Vera Rubin，預計下半年上市，這款ＡＩ運作系統標誌ＡＩ運算正式進入rack-scale system engineering(機架級系統架構時代)。與過去單顆GPU演進不同，Rubin並非單一晶片升級，而是由六顆高度分工、彼此協同的關鍵晶片所組成，共同構成一個完整的ＡＩ工廠。Rubin架構的核心不僅來自於GPU算力提升，而在於計算、互連、網路以及全面提升基礎設施的效率。

這座系統架構透過Vera CPU、Rubin GPU、NVLink 6、ConnectX-9、BlueField-4與Spectrum-6的協同，Nvidia得以在同等或可控功耗，降低ＡＩ訓練與推理成本，建立難以複製的系統級護城河。如果和Blackwell相比，Vera Rubin的推理成本能降低約十倍，訓練與推理效率提升，在同等的功率下有更高的效能。很多消息來源指出，Rubin NVL72系統推論性能可以達到Blackwell的五倍。Rubin GPU本身具備50peraflops NVFP4 AI推理能力，這裡的50peraflops指的是單顆Rubin GPU每秒能進行五萬兆次運算的算力單位，NVFP4則是Nvidia開發的四位元浮點數格式。傳統ＡＩ運算常用十六位元，位元數愈低，運算愈快且節省記憶體。Vera Rubin雖然只用到四位元，但透過Nvidia的技術優化，它能保持接近十六位元或八位元的高精確度，同時讓推理速度翻倍，這就是Nvidia黑科技能力。

採用台積電三奈米製程

在功耗上，Nvidia並沒有公開具體功耗瓦數數據，但從推理／瓦效與系統整合推測，Rubin平台在能源效率上遠優於Blackwell架構。當然，這與台積電（2330）先進製程有關。Blackwell GPU採用台積電四奈米製程，而Vera Rubin的六款晶片全都採用台積電三奈米製程，並採用台積電的CoWoS-L封裝技術，並首度導入Chiplet(小晶片)設計與四倍光罩尺寸設計，將首度搭載HBM4記憶體，頻寬可達22TB/s。顯然台積電的先進製程與封裝技術，是Vera Rubin晶片能提升運作效率又能降低功耗很重要的原因。

台積電的先進製程一直供不應求，雖然今年的資本支出將達到五二○～五六○億美元，主要是用在二奈米建廠以及先進封裝廠上，但需求實在太大，台積電正擴大封測委外布局，日月光投控(3711)和京元電子（2449）要的受惠轉單對象，欣銓（3264）與力成（6239）也有可能受惠外溢訂單。台積電七奈米以下先進製程營收比重已達七四％，這類高端晶片的後段封測需求接挹注給日月光(封裝)與京元電(測試)，帶動這兩家公司資本支出和業績的成長。

日月光投控已明確表示將積極追趕客戶需求，並大幅調升投資規模，以維持先進封裝龍頭的地位。該公司規劃今年整體資本支出將達到七○億美元創新高。其中機器設備會比去年的三四億美元，再增加十五億美元，成長幅度達三成。整體資本支出項目中約有三分之二會用在先進製程的支出上；日月光投控預計先進封裝服務(LEAP)營收將從去年的十六億美元，翻倍到三二億美元。測試大廠的京元電子也受惠於Nvidia AI晶片需求超乎預期，且ＡＩ晶片設計趨於複雜，導致測試時間拉長與需求增加，ＡＩ晶片需要更精細的系統級測試(SLT)與燒機測試(Burn-in)，帶動產能持續滿載，京元電子今年的資本支出將接近四百億台幣，續創歷史新高。

加速大語言模型處理能力

Vera Rubin的六顆晶片中，Rubin GPU是ＡＩ訓練與推理的加速；專注於第三代Transformer Engin(變形金剛引擎)，這是一項新的技術功能，主要用在加速大語言模型(LLM)與代理型AI(Agentic AI)的運算速度與效率。與前代Blackwell平台相比，推論吞吐量可提升高達五倍，訓練效能提升三．五倍。這款GPU能支援NVFP4等低精度推理格式，並能搭配HBM4高頻寬記憶體。Rubin GPU只負責計算本身，而不用再承擔網路、儲存或安全等非核心任務，為後續協同設計奠定基礎。

Vera CPU並非一般通用型CPU，而是專為ＡＩ工作負載設計的協調引擎，主要任務包括GPU任務排程與管理、資料前處理與流向控制、與GPU共向一致性記憶體。透過NVLink-C2C的雙向頻寬(約1.8TB/s)，能讓CPU與GPU幾乎無資料搬移的瓶頸、降低效能耗損，使GPU得以長時間維持高利用率，提升整體資料吞吐的效率。Vera CPU最大的功用是ＡＩ工廠資料與控制協調的作用，負責管理GPU、網路介面與儲存系統間的數據流量，確保大規模ＡＩ負載能像單一超級電腦般的運作。它能藉由快速的預處理與數據供給，確保強大Rubin GPU不會因為等待CPU處理數據而閒置，提高CPU的利用率。

NVlink 6 Switch是專門為高速網路交換設計的特殊積體電路晶片，是ＡＩ機櫃內高速互聯的骨幹。在大型ＡＩ和高效能運算叢集中連接多個GPU，形成一個接一的、高頻寬GPU網路。它並不是單一晶片，而是包含多個NVLink Switc晶片和相關組件的交換器系統。它能夠將七二顆(或一四四顆)GPU組成單一邏輯的運算單元，並提供GPU-GPU間高達數TB/s等級的雙向頻寬，這就像一個單一的巨型加速器，對於訓練具有數兆個參數的大型語言模型 (LLM)非常重要。

ConnectX-9 SuperNIC扮演網路端點的關鍵角色，主要負責驅動Scale-Out(橫向擴展)的網路通訊。當ＡＩ訓練規模擴大到跨機櫃時，ConnectX-9會扮演節點間資料傳輸的關鍵角色，內鍵智慧擁塞控制與遙測功能，確保系統在處理兆級參數模型時，網路表現依然穩定且可預測。它也能提供每個GPU高達1.6Tb/s網路頻寬，確保在數十萬顆GPU組成的ＡＩ系統中，數據交換不會成為瓶頸。透過ConnectX-9、Rubin NVL72不僅是一個封閉系統，而是能持為超大型ＡＩ叢集的基本單元。

DPU擔任卸載與安全用途

BlueField-4 DPU是ＡＩ系統中擔任卸載與安全的用途，承擔原本由主機CPU處理的繁重負擔，確保GPU資源一○○％用於計算。它能提供高達800Gb/s頻寬，自動處理複雜的數據封包及負載平衡，能顯著降低通訊延遲。它還能透過內鍵的六四核ARM CPU運行Nvidia CUDA框架，處理系統遙測、故障排除及資源調度，完全不占用主機的運算力。這些卸載功能，讓CPU與GPU得以完全專注在ＡＩ工作負載。BlueField-4也能讓算力服務供應商(甲骨文雲端或CoreWeave)在提供裸機(Bare-metal)性能的同時，還能保有雲端等級的管理能力。管理員可以從外部控制整台伺服器，使用者則能獲得不受干擾的極致性能。

Spectrum-6是目前全球性能最強大的乙太網路交換器ASIC，專為大型ＡＩ工廠、超大規模雲端運算與高效能運算環境所設計。它主要負責機櫃與雞櫃間的高速互聯，能優化ＡＩ叢集的流量，解決傳統乙太網路容易發生的壅塞現象。Spectrum-6領先業界導入CPO技術，將矽光子光學引擎直接整合在交換晶片旁，使整體能效比傳統可插拔模組方案提升五倍，並顯著降低大型資料中心的功耗與冷卻成本。

上述六顆晶片的協同運作，確保GPU幾乎不被非計算任務給打斷，形成一個高穩定且高效率的運算管道。Rubin平台效能的提升，主要能讓GPU利用率顯著提升、通訊能耗下降以及系統及最佳化等三個結構性的改變，讓CPU、DPU、NIC各司其職，避免重複耗能。即便單顆GPU功耗未必大幅下降，但整體token／瓦數仍有顯著改善。整體而言，Vera Rubin不只是一個次世代GPU，而是針對ＡＩ運算產業結構轉折的里程碑。

/*選單滑動用*/ /* 要打開 $(function() { $('.marqueeBox3').removeClass('marqueeBox4'); marquee3(1); }); */

Vera Rubin台鏈大補丸 AI教父黃仁勳讚賞神隊友

Vera Rubin台鏈大補丸
AI教父黃仁勳讚賞神隊友