當全球正競逐打造最強大的 AI工廠,首先應具備足以匹配雄心的網路技術,且需要仰賴跨產業的合作與深度協作。由NVIDIA、OpenAI與微軟等大廠今(7)日共同推出全新網路傳輸協定「Multipath Reliable Connection(MRC)」,則可用於訓練超過100,000顆GPU。
此由開放運算計畫(Open Compute Project,OCP)主導的RDMA 傳輸協定,強調可經由單一RDMA連線,將流量分散至多條網路路徑,進而提升大規模AI訓練網路架構的資料輸送量、負載平衡與可用性。
|
若將MRC想像成一條貫穿城鎮的單線道路,替換為設計精巧的街道網格系統,並搭配即時交通應用程式,讓駕駛能在遇到壅塞或道路封閉時立即改道。NVIDIA、微軟及OpenAI也經由MRC,展現了業界領導地位。
如今,MRC率先在生產環境中完成驗證,NVIDIA Spectrum-X開放式AI原生乙太網路網狀架構,已率先在兆級規模獲得驗證及最佳化,並已獲得無法在效能、韌性或規模上妥協的業界領導廠商所部署採用。
包括於全球部分最大型的AI訓練叢集生產環境中也實際運行MRC,現已正式向業界開放。OpenAI便將之用於訓練ChatGPT、Codex 尖端大語言模型;以及獲得微軟的Fairwater AI 資料中心據點採用。
微軟也與NVIDIA長期合作,致力於推動下一代AI所需基礎設施的發展,包含全球最大的兩座AI工廠中:微軟Fairwater、Oracle Cloud Infrastructure(OCI)的Abilene 資料中心。便是專為訓練與部署領先的前沿大型模型而打造,並仰賴 MRC 來滿足其效能、規模與效率需求。NVIDIA Spectrum-X乙太網路可適用於此類環境,協助提供必要的網路基礎,讓大規模 AI 模型與應用程式得以自信地運行。
此外,通過專用硬體、深度遙測技術,與智慧網狀架構控制相互協作,也將一項全新協定從概念推向兆級 AI 生產應用,代表控制資料如何在網路中兩個系統之間傳輸的規則之一。MRC 透過在所有可用路徑間平衡流量負載,以實現高水準的 GPU 使用率,確保每顆 GPU 在整個訓練過程中,都能獲得所需頻寬;即使在網路壅塞情況下,MRC 也能即時動態避開過載路徑,維持高頻寬。
隨著 AI 工廠持續擴展,網路不僅必須快速移動資料,更必須具備智慧、韌性,並建立於開放標準之上。NVIDIA Spectrum-X 乙太網路兼具這3項能力,並透過 MRC 持續為先進 AI 網路技術樹立標準。


