AI時代到來,算力成為新時代的戰略資源。然而,在運算效能不斷突破的同時,散熱的也成為整體AI硬體產業一道越來越高的障礙牆。尤其當單顆晶片的熱設計功耗(TDP)邁向1000W大關,傳統的散熱方案已面臨新的挑戰,散熱技術的優劣,直接影響AI系統的穩定性與能源效率。
在系統層級,焦點圍繞在AI伺服器所產生的驚人發熱量,推動資料中心從傳統的氣冷轉向液冷,無論是直接晶片液冷(DLC)還是沉浸式液冷,都是伺服器架構師的標配。
而在零組件層級,最關鍵的便是AI晶片端,也就是高性能GPU與CPU的製造息息相關的先進封裝更嚴峻的挑戰發生在晶片層級。隨著摩爾定律趨緩,先進封裝如CoWoS與3D IC成為延續算力成長的關鍵,但將多顆晶片緊密堆疊的後果,是熱密度的幾何級數增加。微小的熱點若無法及時排除,將導致晶片降頻甚至損毀。
為了探討AI時代的散熱轉型,本文特別採訪了新思科技,以及智慧系統設計方案商Cadence。兩大巨頭將從物理模擬與系統級分析的角度,剖析如何為新一代AI基礎建設打造最堅實的散熱後盾。
從靜態分配到動態平衡 新思拆解AI時代的散熱挑戰
隨著AI算力需求暴增,資料中心與晶片端的散熱挑戰已達物理極限。新思科技(Synopsys)應用工程技術經理陳建佑博士接受專訪時指出,傳統「固定分配」的冷卻架構已不足以應對AI伺服器這種熱源分布不均的系統,因此需要採用動態即時反應的散熱設計來因應AI時代的散熱需求。
![]()
|
從「固定分配」轉向「動態調度」
陳建佑指出,AI伺服器的主要熱源多集中在GPU和CPU的位置,而且在高低負載的情況下也會有明顯的差距。傳統的氣冷控制多半是被動式,僅在機櫃(Rack)溫度超過臨界值時調高風扇轉速,這種方式難以進行動態預測。新一代的動態散熱系統會根據系統運行的情況即時調整風扇轉速、流量分配與冷卻路徑,以實現更佳的整體散熱效率。
在這樣的情境下,由於冷卻資源(如Pump與CDU)有限,因此精準動態調整各機櫃的流量、冷卻液供給與熱交換能力,就是目前資料中心最重要的熱管理策略。此時就需要利用模擬模型來優化流場分佈、流量分配以及機櫃層級的閥門控制的設計。
陳建佑強調,這種進階控制需建立在多層次的物理基礎模型之上。在元件與冷板層級,主要針對液冷冷板(DLC)進行流場與熱傳分析,特別是採用兩相冷卻技術時,需準確掌握其物理行為,以確保局部不產生熱點(Hotspot)並確認物理極限。當分析規模提升至系統與機櫃層級時,則需詳細考量氣流與冷卻液體的分佈,藉此評估各元件的溫度情況,並在設計初期驗證液冷與氣冷的混合架構是否可行。
他也舉雲端服務供應商(CSP)為例,業界在產品開發初期常面臨關鍵資訊不足的挑戰,其客戶在幾何結構尚未定案時,規格時常變動,甚至在缺乏完整設計細節的情況下就要做出決策(early-stage architecture decision)。對此,透過建立熱網路模型(如Ansys Thermal Desktop所提供的能力),使客戶能在設計初期快速評估散熱架構是否可行,避免設計失誤風險或過度設計的成本浪費。
進階控制的層面上,除了傳統的PID Control,未來更可結合降階模型(Reduced-Order Model)、即時感測資料或數位分身(Digital Twin)等智慧化架構,實現主動式冷卻控制與預測性調整。目前 Hyperscale(如Google等大型資料中心)正朝此方向發展,利用具備物理基礎的模型結合先進控制技術,動態調度每個機櫃(Rack)的冷卻資源,優化整體熱管理效能,以降低資料中心PUE(Power Usage Effectiveness)。
將「數天」的運算縮短至「幾秒」
多層模擬技術雖然結果精確,但運算時間也面臨費時曠日的挑戰。特別是傳統高精度CFD(計算流體力學)的模擬經常需要數小時,甚至數天來執行,限制了其在即時決策中的應用。對此,陳建佑說明了「降階模型(ROM)」正是關鍵突破的技術。
「CFD的計算可能是幾天或幾小時的規模,藉由降階模型(ROM),你可以把它變成幾秒的Scale。」陳建佑解釋,
這種接近「即時運算」的能力,讓模擬軟體不再只是事前設計驗證的工具,而是轉型能產出快速預測關鍵流場與熱場特徵,實現AI與Digital Twin進行接近即時分析與決策的核心。也因此,模擬技術正逐步從「離線分析工具」走向「線上決策平台」。
先進封裝的多物理耦合挑戰
隨著先進封裝技術如CoWoS的興起,晶片端的散熱挑戰已變為複雜的3D熱管理與多物理量耦合問題。陳建佑表示,應對這種多晶片堆疊與高功率密度設計的挑戰,透過跨尺度的整合模擬平台,工程師能從微觀的晶片層級一路延伸至宏觀的系統等級,涵蓋微流道設計、矽穿孔(TSV)熱堆積,以及新一代基板材料的可靠度進行深度評估,從而為非標準化的高度工程整合問題提供精確的決策建議。
他解釋,在CoWoS等先進封裝架構中,多晶片堆疊與TSV的局部熱點(Hotspot)是影響可靠度的關鍵。透過整合如Ansys Icepak等工具,研發團隊能建立包含晶片、封裝、PCB與TSV的完整系統模型,進一步使用如Ansys Fluent來分析微流道冷板設計中的二相流與相變機制。
這種跨尺度模擬能評估TSV陣列附近的等效熱阻與熱擴散路徑,找出潛在的散熱瓶頸,結合電熱耦合分析,可評估高電流集中導致的局部發熱,改善溫度不均的問題,有助於提升訊號完整性與電源完整性的表現。
另一方面,針對面板級封裝的玻璃基板導入的製程變化,封裝製程與設計條件也出現顯著變化。陳建佑指出,相較於傳統矽基板,玻璃材料在熱、機械與電性特性上皆有所不同,且封裝外型亦由圓形晶圓轉為方形面板,使整體設計考量更為複雜。此外,材料特性差異亦將影響互連結構與訊號傳輸行為,進一步提高設計難度。因此工程師必須在設計前期透過多物理量模擬平台,預先評估製程變更帶來的應力風險,並針對玻璃基板特有的電訊號傳輸路徑進行優化,確保新材料在高頻高速應用下的結構可靠度與電性穩定性。
從Copilot小助手到加速建模與幾何處理
除了協助開發者克服AI晶片與AI伺服器的設計挑戰,新思科技也正致力於結合AI技術,把AI導入設計流程中,一方面加速建模與幾何設計的速度,一方面也讓用戶可以透過AI降低設計的門檻。
「實務上,其實最花時間的往往不是求解,而是前處理階段的幾何建模與網格(Mesh)處理。」陳建佑說。而透過搭載AI的工具就可以協助辨識幾何特徵,甚至能在一定程度上自動化運算區域的建立與前處理設定,減少人工操作所需的時間與經驗門檻。
以Ansys SimAI為例,系統可在前處理流程中提供幾何理解與建模輔助,並與網格生成工具協同運作,特別是長寬比差異顯著的微流道設計。
再者,就是把高精度模型(例如Fluent或Icepak)結合AI工具來做設計探索。系統會利用透過高精度模擬結果進行訓練(training),建立出代理模型或降階模型。有了這個模型,工程師就能快速預測不同設計參數下的熱行為,甚至輔助優化冷板的最佳外型設計方向或流量配置。讓設計優化的週期從幾天縮短到更即時的決策步調。
此外,新思科技正在導入Copilot的設計輔助工具,透過「專家引導」的互動,用戶可以用自然語言進行設定對話,降低模擬軟體的操作門檻,進一步擴展模擬技術在設計流程中的普及性。
從資料中心到3D晶片 Cadence以數位模擬突破熱管理瓶頸
Cadence揭示從資料中心到3D-IC的熱管理革命
「我們正處於一個轉折點,傳統的散熱規劃已無法支撐AI時代的需求,」Cadence資深技術行銷經理陳博瑋指出。
![]()
|
因應此趨勢,Cadence提出兩大關鍵技術,一個是微觀層面的3D-IC熱電偕同模擬(E/T Co-Sim),另一個是從宏觀面的CFD數位孿生(Digital Twin)分析。這兩項技術不僅解決了散熱問題,同時也能優化「每瓦Token產出」能效。
數位分身平台重塑資料中心散熱思維
在資料中心領域,AI資料中心的快速發展正將相關基礎設施推向傳統規劃的極限。陳博瑋表示,當前的機架密度已相較於傳統資料中心提高了十倍之多,液冷技術也開始漸漸成為散熱應用的重要方案之一。
過去資料中心的規劃多半基於靜態的、預設「最壞情況(Worst-Case)」的假設進行設計。然而,AI工作負載的行為極其難以預測,這種傳統做法會導致嚴重的資源誤判。
首先就是過度配置,為了應付未知風險,企業投入過多冷卻資源,導致龐大的電力浪費與營運成本;再者就是營運風險難以量化,因為靜態模擬無法反映動態負載下的真實散熱盲點,可能導致局部過熱點引發系統宕機。
為了解決這些挑戰,Cadence推出了Reality數位孿生平台。陳博瑋強調,它不僅是一個可視化工具,也是一個深度整合CFD與AI技術的解決方案。
這項技術由透過物理訓練的AI代理模型驅動。不同於一般的數據預測模型,它理解熱流動力學與系統間的物理關聯。並透過將數位孿生模型與實體設施連動,管理者可以精準評估在哪裡部署新AI系統最有效率?或者如何擴展基礎設施?以及投資回報(ROI)的具體數值。
陳博瑋表示,這套方案是協助業者在滿足散熱安全的同時,達成運算能效的最大化,對經營超大規模資料中心(Hyperscale)的業者是非常重要的考量點。
3D-IC設計的散熱挑戰
位處熱源的最中心.也就是核心運算晶片,其散熱設計的挑戰則是更為嚴峻。特別是採用3D-IC堆疊技術的新一代先進封裝晶片。這種緊密的垂直堆疊會將熱能封鎖在晶片層次之間,形成「熱籠效應」。
在3D-IC結構中,多個裸晶(Die)垂直堆疊,雖然縮短了信號傳輸路徑,但也讓散熱路徑變得異常複雜。陳博瑋指出:「3D-IC設計中的散熱挑戰可能會導致效能指標無法達到預期,這對設計者而言是重大的技術風險。」
如果熱能無法有效導出,晶片將被迫降頻,甚至因熱膨脹不均導致結構損壞,這使得封裝初期的熱分析變得更為重要。
針對此問題,Cadence提出了熱電偕同模擬(E/T Co-Sim)技術。它能夠整合電源完整性與熱流分析之間的作業。以Voltus IC電源完整性解決方案為例,能分析高密度堆疊下的電源分布,確保每一層晶片都能獲得穩定的電壓供給;Celsius熱求解器則是業界首款針對複雜3D結構設計的熱分析方案,能精準模擬多層晶片的結構。
而在鍵結技術,如嵌入式微凸點(EμBumps)和晶圓間混合鍵結(W2WHB),也能分析其導熱性對整體溫升的影響。有效評估這種極高性能的鍵結技術在熱流傳導,可幫助工程師在設計初期即選擇正確的材料與架構。
在3D堆疊下,後端製程(BEOL)的佈線層同樣會受到熱能影響,改變其電氣特性。Cadence的技術也能針對多核RISC-V SoC的功能分區進行熱行為模擬,確保計算核心在高速運轉時,熱能分佈能保持相對均衡。
「決策必須有物理根據」陳博瑋強調。
他指出,無論是分析資料中心的冷風與液流,還是分析3D-IC內部的熱傳導,本質都是在處理複雜的多物理現象。Cadence的優勢在於能將這些複雜的物理方程,轉化為工程師與經營者可理解、可執行的決策依據。
結語
算力需求爆棚的今日,散熱技術的優劣直接決定了系統的穩定性與能源效率。從資料中心層級的動態液冷調度與數位孿生分析,到晶片層級的3D IC熱電偕同模擬,傳統的靜態與被動設計已轉向基於物理規律的即時預測與優化。透過這些多物理量模擬平台,不僅大幅縮短了設計驗證的週期,也確保了AI硬體在追求極致效能的同時,能兼具結構可靠度與永續的目標,為智慧時代的基礎建設奠定最堅實的冷靜後盾。


