CTIMES- 打造更美好的人工智慧晶片 :人工智慧晶片,電晶體,SRAM,22奈米,處理器,加速器,格羅方德,Arm,Intel,英代爾,英特爾,台積電,TSMC

│新東西市集│東西講座│影音頻道│出版中心│

元件次系統自動控制

最新動態

12/12「我的未來，我來登台」2026即興展望：產業Open Jam

機器人駕到！最深度的機器人產業專題報導

產業快訊

Touch Taiwan 4/8-10電子設備x智慧顯示x製造

AMPA展位熱烈報名｜移動新技術快來展出

CTIMES / 文章 /

打造更美好的人工智慧晶片

讓設計擁有更好的電源效率

【作者： Linley Gwennap】 2020年11月13日星期五

瀏覽人次：【5601】

由於7奈米及更先進製程愈趨複雜昂貴，正採用不同方法來提高效能，亦即降低工作電壓並使用新IP區塊來強化12奈米節點，而這些改變對於AI加速器特別有效。格羅方德的客戶已在AI加速技術上取得成功，這也為新一代12LP+技術奠定基礎。

摩爾定律可能不會消失，但它正在迅速走向盡頭。經過50年的持續不斷進步，實現下一個節點變得越來越艱難。在過去十年中，微影（lithography）技術的成本不斷上漲，特別是近來導入極紫外光（EUV）後。從16奈米節點開始，轉進到3D電晶體（FinFET），也使得成本進一步提高。結果，如圖一所示，電晶體成本過往驟降的幅度已趨緩，在之前幾個節點中只有緩慢進展。新款晶片設計的初始下線（Tape-Out）成本也從28奈米的100萬美元，飆升至7奈米的1,000萬美元左右。

圖一 : 摩爾定律逐漸趨緩。在28奈米之前，每個節點的電晶體成本下降幅度約40%，但此後每個節點的成本僅下降10%。（source：The Linley Group）

部分晶片公司願意付出更高代價，只為了讓自家設計擁有更好的效能和電源效率，但這些效益也在減緩中。英特爾處理器從2002年的1.0GHz飆升至2005年的3.8GHz，但在過去十年間，最高時脈頻率每年僅成長3%。其他處理器設計師也面臨類似難題：自2014年以來，Arm架構的CPU的速度每年提高約6%。其中一部分問題在於，大多數設計已經在1.0V以下運作，幾乎沒有進一步降低電壓乃至於功率的空間。幾經權衡後，許多公司不會將晶片設計推進至7奈米節點甚至超越7奈米的先進製程。

為了協助這些公司，格羅方德提升了旗下12奈米技術，以提高效能和電源效率，並創造了新一代12LP+製程。這些改變對於AI（神經網路）加速器特別有效。例如，神經網路經常採用乘累加（MAC）函數，因此格羅方德對旗下12奈米 MAC單元加以重新設計，以將電源效率提高65%。新款SRAM單元則可針對神經網路中常見的循序數據存取進行最佳化，使電源效率提高了一倍。此外，新款雙功函數金屬閘極可削減電源電壓，讓功耗再降低50%。

格羅方德的客戶已在AI加速技術上取得成功，這也為新一代12LP+技術奠定基礎。某家新創公司打造了一款採用12LP技術的晶片，實現820 TOPS（每秒820兆次浮點運算）。另一家使用12LP的客戶則在熱門ResNet-50推論基準上，於眾多資料中心晶片中達成了領先業界的電源效率。另一方面，有一款晶片採用了格羅方德22奈米技術，在功耗僅為50mW的情況下，實現了令人印象深刻的AI效能。

電晶體越小問題越大

在最近的節點中，微影技術已成為成本增加的關鍵因素。深紫外光（DUV）微影技術在28奈米節點便達到極限。為了進一步發展，業界轉向昂貴的22奈米雙重圖案法，以及更昂貴的10奈米四重圖案法。

在7奈米中，晶圓廠開始採用極紫外光，但這項科技需要新型且昂貴的光罩、新型光阻劑，以及重達180噸且造價超過1億美元的新式步進機。FinFET需要額外的製程步驟來形成3D電晶體。7奈米節點更為導通孔引進了一款新材料（鈷）。每個節點還將在堆疊中加入了另一個金屬層（目前台積電5奈米已多達14層），從而增加了更多製程步驟。

每項新製程步驟都會使晶圓成本增加，這意味著微影技術工具的高昂成本有必要分攤到所有晶圓上。因此，自28奈米節點以來，晶圓成本不斷迅速攀升，幾乎扼殺了降低電晶體成本的可能。顧名思義，雙重圖案法需要兩倍的製程步驟，四重圖案法則需要更多。儘管EUV步進機排除了多重圖案法，但設備成本較高、產出量較低的情況，意味著EUV層的成本是DUV層的三倍。其中，EUV光罩必須採用可阻擋近X光（near-X-ray light）的特殊材質，且作工需要非常精細。也因此，隨著EUV獲得採用，包括打造出完整的光罩在內的下線成本正迅速上升中。

根據摩爾定律的要求，上述英雄式壯舉持續讓每個節點的電晶體面積減少50%左右。由於更小的電晶體需要更少的電子來切換狀態，它們消耗的功率更少，切換速度也更快。然而，隨著電晶體縮小，大多數設計師只是一味地將更多功能封裝到晶片中，讓裸晶面積保持不變。這也讓電晶體之間的金屬接線仍具有相同長度。更有甚者，這些各節點上的接線變得更薄，從而增加了電阻。對於複雜的高階處理器來說，透過這種互連而推動訊號所需的功率，如今遠超過電晶體的切換功率，將電晶體縮小的好處降到最低。在7奈米階段，許多設計師發現時脈頻率鮮少甚或毫無增加，至於電源效率，與前一個節點相比也許提高了10%。

這種情況在未來的節點上不太可能獲得改善。儘管5奈米採用的是單次圖案法EUV，但是這種方法對於下個節點而言並不足夠。選項之一是採用雙重圖案法EUV，這又使這些層的成本加倍。為了避免此問題，設備製造商正在研究一套名為高數值孔徑EUV的新技術，它可以在單一道次中打造更細微的特點。但是，這套設備將比當前的EUV步進機更加昂貴，而且這項技術需要新型光阻劑材料，而這種材料仍在開發階段。

該節點還將採用閘極全環場效電晶體（GAAFET）這款新技術，這將需要追加製程步驟，從而進一步提高成本和設計複雜性。解決所有這些問題的同時，3奈米及未來節點的導入有可能因此延後。

追求更聰明設計

格羅方德並未一路掉進縮小晶片的深淵，而是決定強化旗下具有成本效益的12奈米製程，以提供更好的效能和電源效率。特別的是，格羅方德專注於熱門的AI增強型晶片市場，從伺服器專用的AI加速器到整合微型AI引擎的微控制器，無一不包。儘管終端應用各有不同，但這些晶片的需求全都一樣：可謂常見AI演算提供最大電源效率。

時下最流行的AI應用程式可執行卷積神經網路（CNN）。顧名思義，CNN主要用於執行卷積函數，將固定權重與輸入的啟動值重複相乘，然後將乘積加到累加器上。為了讓這類演算更有效率，格羅方德將重心擺在兩件事上：從SRAM中獲取啟動值，以及有效運算MAC演算。

通用型處理器一般將SRAM用於快取記憶體或其他晶載記憶體，因為這些記憶體必須迅速回應所有存取模式。因此，晶圓代工廠會針對隨機存取，為旗下SRAM設計進行最佳化。這些SRAM陣列可一次獲取多個數值（例如快取列），然後使用多工器（mux）選取所需數值，並捨棄其他。然而，卷積運算通常得在很大的陣列上運作，因此一般是按順序處理資料。

格羅方德新設計了一款SRAM，可同時讀取和鎖存四個數值，然後使用多工器選擇所需數值。鎖存器會減慢第一次存取的速度，但是如果第二次存取依照順序，則可以立即從鎖存器讀取下一個值，無需再次存取該陣列。因此，一系列的順序性讀取可以消除四個存取中的三個，從而大幅降低SRAM陣列所需的功耗。對於典型的CNN而言，此方法可將SRAM功耗降低50%左右。

圖二 : 12LP+的減能情形。比起先前的12LP技術，新電路設計和低電壓的組合，可將典型CNN演算所需的能量降低近70%。（source：格羅方德）

使用低電壓演算所面臨的兩項挑戰在於：設備不匹配，以及SRAM運算所需的電壓邊限。對12LP+而言，格羅方德為了邏輯裝置和SRAM單元實施了分開的閘極堆疊。這兩個堆疊有不同的工作函數，經過調整後可減少不匹配的情況，並將電壓邊限降至最低。該技術可以將SRAM電源電壓從0.7V降至0.55V，從而降低功耗。

如圖二所示，在典型的CNN演算中，記憶體佔了功率的最大部分，另一個佔用最多的則是MAC單元。在與客戶討論的過程中，格羅方德發現，有別於通用型CPU會針對單一執行緒效能和多重GHz時脈頻率進行最佳化，AI加速器可處理高度平行的工作負載，並在1GHz左右進行演算，實現電源效率最大化。因此，格羅方德新設計了一款乘法器和加法器，並針對較低的時脈頻率進行最佳化，從而將功耗降低25%。

綜上所述，在相同的電源電壓下，這些優化作法可降低37%的功耗；而在利用雙工函數閘降低電源電壓時，功耗降低了68%。換句話說，相對於在舊款12LP製程中使用標準邏輯塊的電源效率，卷積函數核心（在CNN計算週期中會消耗90%或更多）演算時的效率可達三倍之多。

為AI領導者提供動力

這項新技術以格羅方德12LP製程的成功為基礎，為AI產品提供動力。以矽谷新創公司Groq為例，它新開發了一套可加速神經網路的架構方法，將數百個功能單元匯集在單一核心內。這款龐大設計包括220MB的SRAM和逾20萬個MAC單元。Groq採用了12LP，好讓如此龐大的設計保持在300W功率預算內。該晶片以1.0 GHz的初始速度，針對INT8數據可實現820 TOPS的峰值產出，超過了所有其他已發表的加速器。

圖三 : 高階AI加速器比較圖。相較於NVIDIA的新款產品A100，Groq的TSP加速器可提供更高的效能，且功耗更低。Tenstorrent的目標則是降低效能點，但是讓電源效率達到輝達加速器的三倍。（source：供應商資料）

加拿大新創公司Tenstorrent雖然也加快了推論速度，卻選擇了不同的設計目標：為匯流排供電的PCIe卡設下將75W功率限制。首款晶片具備120個獨立核心，每個都包括1MB的SRAM和大約500個MAC單元。這種方法仍然需要大量的SRAM和MAC單元。該晶片以1.3GHz的初始速度，實現368 TOPS。如圖3所示，12LP技術可幫助Tenstorrent達到每瓦4.9 TOPS，堪稱資料中心產品中最高的效率等級。

擁有最大市占率的輝達最近發布了以新款Ampere架構為基礎的A100加速器。Ampere導入了許多創新功能，並將峰值效能提高到624 TOPS，超越所有已發表的晶片（Groq產品除外）。不過，儘管已縮小到7奈米技術，但A100仍需要400W的熱設計功耗，較先前的12奈米產品高出33%。

為了滿足這筆增加出來的功率預算，相對於12奈米產品，輝達必須降低時脈頻率，並讓裸晶上15%的核心失效。此一策略並不尋常，可能代表晶片的實際功率遠高於模擬功率。因此，儘管輝達A100的電晶體較小，每瓦效能卻嚴重落後於Groq和Tenstorrent的晶片。

格羅方德還支援客戶開發嵌入式系統的低功耗晶片。在嵌入式系統中，有許多也加入了AI功能。這些產品比資料中心加速器更注重成本，因此它們通常使用較舊的節點。GreenWaves和Perceive等創新型新創公司選擇了格羅方德的22FDX製程，它採用了絕緣層上覆矽（FD-SOI）技術，不但可節省電力，還不會增加FinFET節點的成本。FD-SOI支援對反向偏壓（back-bias）作自我調整，讓設計師可以根據晶片狀態來改變本體偏壓。例如在睡眠模式下，施加反向偏壓可以將漏電流降低達10倍，進而大幅延長電池壽命。但是，當設備處於運作狀態時，施加正向偏壓可將效能提升到最高。

GreenWaves GAP9是一款RISC-V微控制器，包括一個小型神經網路加速器，運作功率僅50mW，執行AI工作負載時，電源效率是標準微控制器的34倍。Perceive則創造了全新的AI演算法，在旗下Ergo晶片上運作的功率為70mW。有了FD-SOI技術，Ergo的55 TOPS/W在業界評比名列前茅。為了獲得更高的效率，22FDX還支援類比式記憶體內運算；該晶圓代工廠已與比利時微電子研究中心（IMEC）研究人員合作，透過此技術開發出一款測試晶片，可達到2,900 TOPS/W。

比7奈米更好

爾定律如今已跟不上時代。儘管業界一直在尋求各種縮小電晶體的新方法，但此類技術越來越昂貴，幾乎抵銷了大部分成本優勢。電源電壓正逼近基本極限，防止減能情況導致功率降低。隨著電晶體越來越小，切換速度與減能情況陷入極大困境，亦即透過越來越細的金屬線推播訊號有其難處。因此，處於領先地位的晶圓代工廠將逐漸面臨挑戰：僅透過縮小電晶體的方式，在成本、速度或功率等方面取得有意義的進展

處理器設計師已經開始創造更加專業的設計，以適應此一新環境。舉例來說，打造AI專用的加速器為標準CPU和GPU分憂解勞，已成為新興趨勢。各大晶圓代工廠可以跟進的方式，包括為旗下技術打造應用程式專用的版本。有別於單純縮小電晶體和金屬堆疊，這些版本可以應用最佳化後的功能塊和電路設計，以更加符合特定產品類型的需求。

結語

格羅方德已配合旗下12奈米節點採取這條路線，為AI加速器打造了12LP+技術。最佳化作法包括可將電壓降低甚多的雙工函數閘、經高載最佳化的SRAM以及低功率MAC設計。總而言之，這些最佳化作法將典型卷積運算的電源效率提高了3倍。相較於其他晶圓代工廠僅將現有設計從12奈米移植到的7奈米，格羅方德的改善效果要大出許多，而且設計與下線成本也低於7奈米。

客戶在使用格羅方德技術後，已經取得令人印象深刻的成果。採用12LP製程的Groq和Tenstorrent在AI效能和電源效率方面，領先所有資料中心加速器。Perceive和GreenWaves則是利用格羅方德22FDX技術降低客戶端設備的功耗，並提高效率，協助將AI處理擴散到邊緣設備。格羅方德還提供了矽光子技術，將資料中心連接到邊緣設備，從而完成了端對端AI播送（end-to-end AI play）。這些案例說明了格羅方德如何在避免7奈米高成本的前提下，協助客戶實現領先業界的效能。新款12LP+的增強功能絕對是讓您大有斬獲的最佳利器。

（本文作者Linley Gwennap為Linley Group首席分析師暨《微處理器報告》（Microprocessor Report）主編）

**刊頭圖（source：Globalfoundries）

‧	創新3D緩衝記憶體助力AI與機器學習
‧	RISC-V狂想曲
‧	利用CPU和SVE2加速視訊解碼和影像處理
‧	揮別製程物理極限半導體異質整合的創新與機遇
‧	跨過半導體極限高牆奈米片推動摩爾定律發展

相關討論