账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
打造更美好的人工智慧晶片
让设计拥有更好的电源效率

【作者: Linley Gwennap】2020年11月13日 星期五

浏览人次:【4239】

由于7奈米及更先进制程愈趋复杂昂贵,正采用不同方法来提高效能,亦即降低工作电压并使用新IP区块来强化12奈米节点,而这些改变对于AI加速器特别有效。格罗方德的客户已在AI加速技术上取得成功,这也为新一代12LP+技术奠定基础。



摩尔定律可能不会消失,但它正在迅速走向尽头。经过50年的持续不断进步,实现下一个节点变得越来越艰难。在过去十年中,微影(lithography)技术的成本不断上涨,特别是近来导入极紫外光(EUV)后。从16奈米节点开始,转进到3D电晶体(FinFET),也使得成本进一步提高。结果,如图一所示,电晶体成本过往骤降的幅度已趋缓,在之前几个节点中只有缓慢进展。新款晶片设计的初始下线(Tape-Out)成本也从28奈米的100万美元,飙升至7奈米的1,000万美元左右。



图一 : 摩尔定律逐渐趋缓。在28奈米之前,每个节点的电晶体成本下降幅度约40%,但此后每个节点的成本仅下降10%。 (source:The Linley Group)
图一 : 摩尔定律逐渐趋缓。在28奈米之前,每个节点的电晶体成本下降幅度约40%,但此后每个节点的成本仅下降10%。 (source:The Linley Group)

部分晶片公司愿意付出更高代价,只为了让自家设计拥有更好的效能和电源效率,但这些效益也在减缓中。英特尔处理器从2002年的1.0GHz飙升至2005年的3.8GHz,但在过去十年间,最高时脉频率每年仅成长3%。其他处理器设计师也面临类似难题:自2014年以来,Arm架构的CPU的速度每年提高约6%。其中一部分问题在于,大多数设计已经在1.0V以下运作,几乎没有进一步降低电压乃至于功率的空间。几经权衡后,许多公司不会将晶片设计推进至7奈米节点甚至超越7奈米的先进制程。


为了协助这些公司,格罗方德提升了旗下12奈米技术,以提高效能和电源效率,并创造了新一代12LP+制程。这些改变对于AI(神经网路)加速器特别有效。例如,神经网路经常采用乘累加(MAC)函数,因此格罗方德对旗下12奈米 MAC单元加以重新设计,以将电源效率提高65%。新款SRAM单元则可针对神经网路中常见的循序数据存取进行最佳化,使电源效率提高了一倍。此外,新款双功函数金属闸极可削减电源电压,让功耗再降低50%。


格罗方德的客户已在AI加速技术上取得成功,这也为新一代12LP+技术奠定基础。某家新创公司打造了一款采用12LP技术的晶片,实现820 TOPS(每秒820兆次浮点运算)。另一家使用12LP的客户则在热门ResNet-50推论基准上,于众多资料中心晶片中达成了领先业界的电源效率。另一方面,有一款晶片采用了格罗方德22奈米技术,在功耗仅为50mW的情况下,实现了令人印象深刻的AI效能。


电晶体越小 问题越大

在最近的节点中,微影技术已成为成本增加的关键因素。深紫外光(DUV)微影技术在28奈米节点便达到极限。为了进一步发展,业界转向昂贵的22奈米双重图案法,以及更昂贵的10奈米四重图案法。


在7奈米中,晶圆厂开始采用极紫外光,但这项科技需要新型且昂贵的光罩、新型光阻剂,以及重达180吨且造价超过1亿美元的新式步进机。 FinFET需要额外的制程步骤来形成3D电晶体。 7奈米节点更为导通孔引进了一款新材料(钴)。每个节点还将在堆叠中加入了另一个金属层(目前台积电5奈米已多达14层),从而增加了更多制程步骤。


每项新制程步骤都会使晶圆成本增加,这意味着微影技术工具的高昂成本有必要分摊到所有晶圆上。因此,自28奈米节点以来,晶圆成本不断迅速攀升,几乎扼杀了降低电晶体成本的可能。顾名思义,双重图案法需要两倍的制程步骤,四重图案法则需要更多。尽管EUV步进机排除了多重图案法,但设备成本较高、产出量较低的情况,意味着EUV层的成本是DUV层的三倍。其中,EUV光罩必须采用可阻挡近X光(near-X-ray light)的特殊材质,且作工需要非常精细。也因此,随着EUV获得采用,包括打造出完整的光罩在内的下线成本正迅速上升中。


根据摩尔定律的要求,上述英雄式壮举持续让每个节点的电晶体面积减少50%左右。由于更小的电晶体需要更少的电子来切换状态,它们消耗的功率更少,切换速度也更快。然而,随着电晶体缩小,大多数设计师只是一味地将更多功能封装到晶片中,让裸晶面积保持不变。这也让电晶体之间的金属接线仍具有相同长度。更有什者,这些各节点上的接线变得更薄,从而增加了电阻。对于复杂的高阶处理器来说,透过这种互连而推动讯号所需的功率,如今远超过电晶体的切换功率,将电晶体缩小的好处降到最低。在7奈米阶段,许多设计师发现时脉频率鲜少甚或毫无增加,至于电源效率,与前一个节点相比也许提高了10%。


这种情况在未来的节点上不太可能获得改善。尽管5奈米采用的是单次图案法EUV,但是这种方法对于下个节点而言并不足够。选项之一是采用双重图案法EUV,这又使这些层的成本加倍。为了避免此问题,设备制造商正在研究一套名为高数值孔径EUV的新技术,它可以在单一道次中打造更细微的特点。但是,这套设备将比当前的EUV步进机更加昂贵,而且这项技术需要新型光阻剂材料,而这种材料仍在开发阶段。


该节点还将采用闸极全环场效电晶体(GAAFET)这款新技术,这将需要追加制程步骤,从而进一步提高成本和设计复杂性。解决所有这些问题的同时,3奈米及未来节点的导入有可能因此延后。


追求更聪明设计

格罗方德并未一路掉进缩小晶片的深渊,而是决定强化旗下具有成本效益的12奈米制程,以提供更好的效能和电源效率。特别的是,格罗方德专注于热门的AI增强型晶片市场,从伺服器专用的AI加速器到整合微型AI引擎的微控制器,无一不包。尽管终端应用各有不同,但这些晶片的需求全都一样:可谓常见AI演算提供最大电源效率。


时下最流行的AI应用程式可执行卷积神经网路(CNN)。顾名思义,CNN主要用于执行卷积函数,将固定权重与输入的启动值重复相乘,然后将乘积加到累加器上。为了让这类演算更有效率,格罗方德将重心摆在两件事上:从SRAM中获取启动值,以及有效运算MAC演算。


通用型处理器一般将SRAM用于快取记忆体或其他晶载记忆体,因为这些记忆体必须迅速回应所有存取模式。因此,晶圆代工厂会针对随机存取,为旗下SRAM设计进行最佳化。这些SRAM阵列可一次获取多个数值(例如快取列),然后使用多工器(mux)选取所需数值,并舍弃其他。然而,卷积运算通常得在很大的阵列上运作,因此一般是按顺序处理资料。


格罗方德新设计了一款SRAM,可同时读取和锁存四个数值,然后使用多工器选择所需数值。锁存器会减慢第一次存取的速度,但是如果第二次存取依照顺序,则可以立即从锁存器读取下一个值,无需再次存取该阵列。因此,一系列的顺序性读取可以消除四个存取中的三个,从而大幅降低SRAM阵列所需的功耗。对于典型的CNN而言,此方法可将SRAM功耗降低50%左右。



图二 : 12LP+的减能情形。比起先前的12LP技术,新电路设计和低电压的组合,可将典型CNN演算所需的能量降低近70%。(source:格罗方德)
图二 : 12LP+的减能情形。比起先前的12LP技术,新电路设计和低电压的组合,可将典型CNN演算所需的能量降低近70%。(source:格罗方德)

使用低电压演算所面临的两项挑战在于:设备不匹配,以及SRAM运算所需的电压边限。对12LP+而言,格罗方德为了逻辑装置和SRAM单元实施了分开的闸极堆叠。这两个堆叠有不同的工作函数,经过调整后可减少不匹配的情况,并将电压边限降至最低。该技术可以将SRAM电源电压从0.7V降至0.55V,从而降低功耗。


如图二所示,在典型的CNN演算中,记忆体占了功率的最大部分,另一个占用最多的则是MAC单元。在与客户讨论的过程中,格罗方德发现,有别于通用型CPU会针对单一执行绪效能和多重GHz时脉频率进行最佳化,AI加速器可处理高度平行的工作负载,并在1GHz左右进行演算,实现电源效率最大化。因此,格罗方德新设计了一款乘法器和加法器,并针对较低的时脉频率进行最佳化,从而将功耗降低25%。


综上所述,在相同的电源电压下,这些优化作法可降低37%的功耗;而在利用双工函数闸降低电源电压时,功耗降低了68%。换句话说,相对于在旧款12LP制程中使用标准逻辑块的电源效率,卷积函数核心(在CNN计算周期中会消耗90%或更多)演算时的效率可达三倍之多。


为AI领导者提供动力

这项新技术以格罗方德12LP制程的成功为基础,为AI产品提供动力。以矽谷新创公司Groq为例,它新开发了一套可加速神经网路的架构方法,将数百个功能单元汇集在单一核心内。这款庞大设计包括220MB的SRAM和逾20万个MAC单元。 Groq采用了12LP,好让如此庞大的设计保持在300W功率预算内。该晶片以1.0 GHz的初始速度,针对INT8数据可实现820 TOPS的峰值产出,超过了所有其他已发表的加速器。



图三 : 高阶AI加速器比较图。相较于NVIDIA的新款产品A100,Groq的TSP加速器可提供更高的效能,且功耗更低。 Tenstorrent的目标则是降低效能点,但是让电源效率达到辉达加速器的三倍。 (source:供应商资料)
图三 : 高阶AI加速器比较图。相较于NVIDIA的新款产品A100,Groq的TSP加速器可提供更高的效能,且功耗更低。 Tenstorrent的目标则是降低效能点,但是让电源效率达到辉达加速器的三倍。 (source:供应商资料)

加拿大新创公司Tenstorrent虽然也加快了推论速度,却选择了不同的设计目标:为汇流排供电的PCIe卡设下将75W功率限制。首款晶片具备120个独立核心,每个都包括1MB的SRAM和大约500个MAC单元。这种方法仍然需要大量的SRAM和MAC单元。该晶片以1.3GHz的初始速度,实现368 TOPS。如图3所示,12LP技术可帮助Tenstorrent达到每瓦4.9 TOPS,堪称资料中心产品中最高的效率等级。


拥有最大市占率的辉达最近发布了以新款Ampere架构为基础的A100加速器。 Ampere导入了许多创新功能,并将峰值效能提高到624 TOPS,超越所有已发表的晶片(Groq产品除外)。不过,尽管已缩小到7奈米技术,但A100仍需要400W的热设计功耗,较先前的12奈米产品高出33%。


为了满足这笔增加出来的功率预算,相对于12奈米产品,辉达必须降低时脉频率,并让裸晶上15%的核心失效。此一策略并不寻常,可能代表晶片的实际功率远高于模拟功率。因此,尽管辉达A100的电晶体较小,每瓦效能却严重落后于Groq和Tenstorrent的晶片。


格罗方德还支援客户开发嵌入式系统的低功耗晶片。在嵌入式系统中,有许多也加入了AI功能。这些产品比资料中心加速器更注重成本,因此它们通常使用较旧的节点。 GreenWaves和Perceive等创新型新创公司选择了格罗方德的22FDX制程,它采用了绝缘层上覆矽(FD-SOI)技术,不但可节省电力,还不会增加FinFET节点的成本。 FD-SOI支援对反向偏压(back-bias)作自我调整,让设计师可以根据晶片状态来改变本体偏压。例如在睡眠模式下,施加反向偏压可以将漏电流降低达10倍,进而大幅延长电池寿命。但是,当设备处于运作状态时,施加正向偏压可将效能提升到最高。


GreenWaves GAP9是一款RISC-V微控制器,包括一个小型神经网路加速器,运作功率仅50mW,执行AI工作负载时,电源效率是标准微控制器的34倍。 Perceive则创造了全新的AI演算法,在旗下Ergo晶片上运作的功率为70mW。有了FD-SOI技术,Ergo的55 TOPS/W在业界评比名列前茅。为了获得更高的效率,22FDX还支援类比式记忆体内运算;该晶圆代工厂已与比利时微电子研究中心(IMEC)研究人员合作,透过此技术开发出一款测试晶片,可达到2,900 TOPS/W。


比7奈米更好

尔定律如今已跟不上时代。尽管业界一直在寻求各种缩小电晶体的新方法,但此类技术越来越昂贵,几乎抵销了大部分成本优势。电源电压正逼近基本极限,防止减能情况导致功率降低。随着电晶体越来越小,切换速度与减能情况陷入极大困境,亦即透过越来越细的金属线推播讯号有其难处。因此,处于领先地位的晶圆代工厂将逐渐面临挑战:仅透过缩小电晶体的方式,在成本、速度或功率等方面取得有意义的进展


处理器设计师已经开始创造更加专业的设计,以适应此一新环境。举例来说,打造AI专用的加速器为标准CPU和GPU分忧解劳,已成为新兴趋势。各大晶圆代工厂可以跟进的方式,包括为旗下技术打造应用程式专用的版本。有别于单纯缩小电晶体和金属堆叠,这些版本可以应用最佳化后的功能块和电路设计,以更加符合特定产品类型的需求。


结语

格罗方德已配合旗下12奈米节点采取这条路线,为AI加速器打造了12LP+技术。最佳化作法包括可将电压降低甚多的双工函数闸、经高载最佳化的SRAM以及低功率MAC设计。总而言之,这些最佳化作法将典型卷积运算的电源效率提高了3倍。相较于其他晶圆代工厂仅将现有设计从12奈米移植到的7奈米,格罗方德的改善效果要大出许多,而且设计与下线成本也低于7奈米。


客户在使用格罗方德技术后,已经取得令人印象深刻的成果。采用12LP制程的Groq和Tenstorrent在AI效能和电源效率方面,领先所有资料中心加速器。 Perceive和GreenWaves则是利用格罗方德22FDX技术降低客户端设备的功耗,并提高效率,协助将AI处理扩散到边缘设备。格罗方德还提供了矽光子技术,将资料中心连接到边缘设备,从而完成了端对端AI播送(end-to-end AI play)。这些案例说明了格罗方德如何在避免7奈米高成本的前提下,协助客户实现领先业界的效能。新款12LP+的增强功能绝对是让您大有斩获的最佳利器。


(本文作者Linley Gwennap为Linley Group首席分析师暨《微处理器报告》(Microprocessor Report)主编)


**刊头图(source:Globalfoundries)


相关文章
低功耗MCU释放物联网潜力 加速智慧家庭成形
AI赋能智慧边缘 行动运算处理器的时代革命
针对应用对症下药 Arm架构在车用领域持续亮眼
晶背供电技术的DTCO设计方案
Intel OpenVINO 2023.0初体验如何快速在Google Colab运行人脸侦测
comments powered by Disqus
相关讨论
  相关新闻
» 英特尔携手合作夥伴 助力AI PC创作新世代
» Arm发布车用技术及运算子系统路径图 将加速AI车辆上市时程
» 亚湾2.0以智慧科技领航国际 加速产业加值升级
» Ceva加入Arm Total Design 加速开发无线基础设施的端到端5G SoC
» Intel成立独立FPGA公司Altera


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK83J60DSWGSTACUKS
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw