账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
Versal:第一款自行调适运算加速平台(ACAP)
 

【作者: Xilinx】2018年11月16日 星期五

浏览人次:【8161】


近期在半导体制程领域涌现的技术挑战阻碍了传统上通用(one-size-fits-all)型 CPU纯量运算引擎的扩展。如图1所示,半导体制程频率缩放的变化,迫使标准运算单元愈发趋于并行[1]。



图1 : 处理器效能发展历程
图1 : 处理器效能发展历程

因此,半导体工业正在探索替代特定领域的架构,包括以往被归入特定极端效能应用的部分,如采用向量的处理(DSP、GPU)和完全并行可编程的硬体(FPGA)。问题在于,哪种架构最适合哪项任务?


纯量处理单元(例如CPU)在具有不同决策树和广泛资料库的复杂演算法中非常有效,但在效能扩展方面受到限制。


向量处理单元(例如DSP、GPU)在一组更窄的可平行运算函数集上效率更高,但由于记忆体阶层结构不灵活,它们会受延迟和效率的影响。


可编程逻辑(例如FPGA)可以精确地根据特定的运算功能客制,这使它们在延迟关键型即时应用(例如汽车驾驶辅助)和不规则资料结构(例如基因组测序)方面表现最佳,但演算法的更改在传统上要花几个小时来编译,而不是几分钟。


参见图2。



图2 : 运算引擎的类型
图2 : 运算引擎的类型

为因应这一问题,赛灵思推出了一个革命性的新异质运算架构,即自行调适运算加速平台(ACAP),它囊括三大方面的优势,提供了与下一代可编程逻辑(PL) 紧密耦合的世界一流的向量与纯量处理单元,将一切与高频宽网路单晶片(NoC) 联通,提供对所有三种处理单元类型的记忆体映射存取。这种紧密耦合的混合架构比任何一种单独架构的实现,都支援更高的客制水准和效能提升(图3)。



图3 : 异质整合三种类型的可编程引擎
图3 : 异质整合三种类型的可编程引擎

要想在效能上有如此大的提升,就必须对工具进行类似的大幅改进,并重点关注易用性。 ACAP在设计上不需要RTL流,可以开箱即用。 ACAP原生支援软体编程有助于开展采用C和采用框架的设计流程。这些元件具有整合Shell,包括具有整合型DMA、NOC和整合型记忆体控制器的快取记忆体一致性主机介面(PCIe或CCIX技术),进而避免了开展RTL工作的需求。


新的ACAP架构在易用性方面也带来了显著改善。它通过一个统一的工具链为程式设计,提供了一个完全整合的记忆体映射平台。赛灵思工具链针对各类开发人员支援多种输入方式。例如,某些应用(如AI机器学习推论)可以在框架级别(例如Caffe、TensorFlow)进行编码;其他应用可以使用预先最佳化的函式库(例如5G无线电滤波器)用C语言进行编码。传统型硬体开发人员仍然可以通过传统的RTL输入流,将他们现有的RTL移植到ACAP。


本文审视了由传统采用CPU的运算模式开展变革的需求,详细探讨其他选项,并介绍了赛灵思Versal ACAP-一款异质运算平台。


ACAP的三大主要优势包括:


1.软体可编程性—能够通过软体抽象工具链快速开发最佳化应用。


2.加速—指标涵盖广泛的应用,包括人工智慧、智慧型网路介面卡、高密度储存、5G无线、自动驾驶汽车、高级模组化雷达,以及兆位元光纤网路。


3.动态自行调适重配置—能够重配置硬体,实现毫秒间加速新的负载。


ACAP:针对并行异质运算的软硬体最佳化

ACAP的特点在于它结合新一代纯量引擎、自行调适引擎和智慧引擎。 NoC通过记忆体映射介面将它们相连,总频宽为1Tb/s+。除了NoC以外,可编程逻辑(和整合型RAM模块)支援的大量记忆体频宽,能够支援可编程记忆体架构针对单个运算任务进行阶层最佳化(进而避免其他采用快取记忆体运算单元固有的高延迟和延迟不确定性)。参见图4。



图4 : 赛灵思Versal ACAP功能图
图4 : 赛灵思Versal ACAP功能图

纯量引擎采用双核Arm Cortex-A72构建,与赛灵思上一代Arm Cortex-A53核心相比,每核单执行绪效能提高了2倍。高阶的架构和7nm FinFET制程的功耗相结合,DMIPs/WAT与先前的16nm落实的方案相比提高了2倍。基于赛灵思目前在汽车产业大量部署的经验,经ASIL-C认证的(1)UltraScale+ Cortex-R5纯量引擎结合额外的系统级安全特性向7nm迁移。


自行调适引擎由可编程逻辑和记忆体单元组成,与新一代业界最快的可编程逻辑相连。除了支援原有设计之外,还可以重新编程这些结构,以形成针对特定运算任务客制的记忆体阶层。与最新的GPU和CPU相比,赛灵思智慧引擎可达到更高的回圈效率和更高的单位运算记忆体频宽。这是最佳化边缘延迟与功耗,以及最佳化核心绝对效能的关键。


智慧引擎由一组创新的超长指令字(VLIW)和单指令、多个资料(SIMD)处理引擎以及记忆体构成,彼此间的互联速度和储存频宽均为100Tb/s。这使机器学习和数位讯号处理(DSP)应用的效能提升了5 - 10倍。


如表1所示,这些运算函数以不同的比率和大小混合,构成了Versal元件产品组合。


表1: Versal 元件产品组合、市场及重要特性

Versal 产品组合

主要市场

重要特性

Versal AI核心

资料中心、无线

最高水准智慧引擎运算

Versal AI 边缘

汽车、无线、广播、A&D

紧密热度范围下高效智慧引擎数降至 5W

Versal AI RF

无线、A&D、有线

直接 RF 转换器与 SD-FEC

Versal Prime

资料中心、有线

带整合型 Shell 的基准平台

Versal Premium

有线、测试与测量

搭载最高水准自行调适引擎的高阶平台,112G SerDes 600G 整合 IP

Versal HBM

资料中心、有线、测试与测量

HBM 的高级平台


赛灵思自行调适运算加速平台(ACAP)结合了向量、纯量和自行调适硬体单元,提供了三大引人注目的优势:


‧ 软体可编程性


‧ 异质加速


‧ 灵活应变能力


软体可编程性

由自行调适晶片支援的自行调适加速

Versal ACAP提供自行调适加速硬体,易于在软体中进行编程。无论任何应用类型,异质引擎都支援软体应用的最佳水准加速。智慧引擎能够加速机器学习和常用的经典DSP演算法。自行调适引擎内的新一代可编程逻辑对平行演算法进行加速。多核CPU为剩余的应用需求提供了全面的嵌入式运算资源。整个Versal 元件在设计上便于使用软体程式设计,无需具备硬体专业知识。参见图5。



图5 : Versal ACAP顶层概念图
图5 : Versal ACAP顶层概念图

‧ 资料和AI科学家可以部署在标准软体框架中构建的应用,并使用Versal ACAP为应用达到数个量级的加速。


‧ 软体应用开发人员使用赛灵思统一软体发展环境,无需硬体专业知识,就可以使用Versal ACAP加速任意软体应用。


‧ 硬体设计人员可以继续使用Vivado Design Suite进行设计,同时使用 Versal平台的整合I/O介面和NoC缩短开发时间。


参见图6。



图6 : Versal平台软体形象概念
图6 : Versal平台软体形象概念

专用硬体,提高易用性和应用效率

自行调适介面逻辑使对外接介面的存取变得容易,这包括到外部主机处理器的标准介面。在资料中心应用中,软体应用通常驻留于主机CPU上,而不是嵌入式微处理器上。连接主机CPU和Versal平台可编程资源的介面称为Shell。整合型Shell包括完全相容型快取记忆体一致互联,适用于加速器(CCIX)或主机 PCIe Gen4x16介面、DMA 控制器、快取一致性记忆体、整合型记忆体控制器、高阶功能性安全和安全功能。


NoC有助于每个硬体元件和软IP模组间轻松地相互存取,或通过记忆体映射介面存取软体。它提供了一个标准化、可扩展的硬体框架,使异质引擎和介面逻辑之间能够进行高效通讯。


异质加速

虽然可编程逻辑(FPGA)和采用向量的(DSP、GPU)近来已展示出明显高于 CPU的效能提升,但只有当开发人员利用Versal ACAP的多个类型运算单元支援紧密耦合的运算模型时,ACAP架构真正的优势才会成为人们关注的重点。在这种架构下,三单元合力可远超仅仅三倍的功效。


表2总结了Versal ACAP元件为各类市场提供的优势。


表2:Versal ACAP与目标市场

市场

基准

CPU 对比

GPU 对比

FPGA 对比

备注

资料中心

图像辨识(推论)——延迟敏感

43

2

5

GoogLeNet v1(不限制批次处理大小)

图像辨识(推理)--2ms.延迟

不适用

8

?

5

GoogLeNet v1< 2 msCPU 延迟下线 5ms

风险分析

89

不适用

>1

用于利率互换Maxeler 结果的风险价值 VaR

基因组学

90

不适用

>1

人类基因分 Edico基因组结果

弹性搜索

91

不适用

>1

1TB资料BlackLynx结果延迟降低91

无线5G

16x16 5G远端无线电

不适用

不适用

>5

5G远端无线电提供 >5倍的无线电频宽

波束成形

不适用

不适用

>5

>5倍的运算能力

A&D雷达

DSP TMAC

不适用

不适用

>5

超过27TMAC

演算法反覆运算时间

不适用

不适用

>100

软体可编程智慧引擎在几分钟内编译完毕

汽车

低延迟推论(<2 ms

不适用

3

15

ResNet50 Batch=1

AI引擎能更好地适应低延迟、安全关键型 ADAS和自动驾驶

外壳类型

1

2

4

ACAP产品组合是唯一能够高效支援 <10W20W30W,以及后备箱安装外壳的元件

有线

加密网路流量

不适用

不适用

4

ACAP对网路和加密 IP的整合使兆位元的单晶片成为可能


资料中心人工智慧:机器学习推论加速

随着人工智慧开始在现代生活中普及,对提高运算效率的需求开始推动半导体领域的创新,但任何单一的方案都很难以达到最大效率的处理。在这方面,向量处理和可编程硬体之间的紧密耦合,具有无可比拟的价值。


运算单元(FP32、FP16、INT16、INT8等)的精度一直是人们关注的焦点,但对网路类型之间记忆体阶层需求差异的忽视,导致众多最新的人工智慧推论引擎,在不同网路上的效率急剧下降。例如,目前业界一流的机器学习推论引擎,需要4 个HBM记忆体(7.2 Tb/s 的外部记忆体频宽)才能达到其最高效能,但它们采用缓存的记忆体阶层效率仅为25-30%,并为即时应用带来了显著的延迟不确定性。解决方案就是用可编程记忆体阶层强化智慧引擎执行的向量处理,精确地针对每种网路类型进行最佳化,并通过FPGA逻辑的大规模并行来落实。


例如,GoogLeNet的Versal平台为非延迟敏感型应用提供了极高效能,比当今最高阶的Skylake Platinum CPU(2)传输率高出43倍,比当前的顶级GPU [ 2] 效能高约3倍,并且功耗均更低(图7)。



图7 : GoogLeNet 效能(
图7 : GoogLeNet 效能(< 7ms延迟)= 比高阶CPU效能高出43倍

随着资料中心不断深入地应用于神经网路,多个神经网路可以连结在一起,大大增加了对低延迟神经网路的效能需求。例如,即时口语翻译需要语音转换文本、自然语言处理、推荐系统、文本转换语音,然后语音合成[2]。这意味着对于该应用,神经网路的总延迟预算增加了5倍。


随着即时应用数量的不断增加,对资料中心客户而言,选择一种可扩展的技术以满足他们未来的需求极为关键。这就出现了两种趋势:


‧ 为提高软体设计效率,确定性延迟变得愈发重要[3]。


‧ 随着日益复杂的交互建模(人机交互、金融交易)和安全关键型应用(如汽车、工业应用)的增加,神经网路延迟要求日益严格。


这两个要求需要消除批次处理,这将导致采用CPU和采用GPU的解决方案的固定的、采用缓存的记忆体阶层效能显著下降。即使高阶CPU延迟极限也高达 5ms,而一旦延迟在7ms以下,甚至是高阶的GPU也会出现显著的效能下降。仅有Versal ACAP能够以可接受的效能达到低于2 ms延迟。参见图8。



图8 : GoogLeNet即时效能(
图8 : GoogLeNet即时效能(< 2 ms延迟)=高出高阶GPU(Nvidia)8倍

因此,采用ACAP的解决方案独有的可编程记忆体阶层,既提供了最高效能的机器学习推论效能,也提供了扩展性,因为未来的应用要求更低和更确定的延迟。


资料中心智慧NIC

网路介面卡(NIC)起初只是简单的连接。随着时间的推移,它们通过增加额外的网路加速(加密、管理程式网路卸载、虚拟开关)化身为「智慧NIC」。亚马逊在Annapurna专案上取得了巨大的成功;它从CPU中卸载了所有的程式管理器功能,使100%的CPU周期都能用于产生收入的运算。


随着智慧NIC的发展,赛灵思预计将出现三大优势:能够在资料中心乙太网路逻辑上动态分配和扩展作业负载,能够运行任何运算加速功能的可重配置加速池(最大限度地利用云端资源),以及能够与网路资料平面一致运行运算功能。


赛灵思Versal ACAP元件支援将NIC功能与采用向量和可编程逻辑的混合运算引擎整合,所有这些功能都由赛灵思的网路IP和SerDes提供深度支援,包括用于新一代NIC to TOR(机架顶部)链路的单通道112G SerDes。


此外,可以在新的作业负载上动态地重配置或重新部署这些NIC资源。


表3:资料中心网路介面卡类型

?

描述

特性

实例

1

基础连线性NIC

  • 基础卸载(校验、LSORSS
  • 单根I/O虚拟化
  • 某些隧道卸载(VXLANGRE0
  • Fortville
  • ConnectX
  • NetExtreme

2

用于网路加速的SmartNIC

  • 加密/解密(IP安全)
  • 虚拟开关卸载(OVS等)
  • 可编程隧道类型
  • 赛灵思 2
  • LiquidIO
  • Annapurna
  • Innova

3

用于网路运算加速的SmartNIC

  • 内联机器学习
  • 内联视频转码
  • 资料库分析
  • 储存(压缩、加密、Dedupe
  • 赛灵思 3
  • MSFT NIC+FPGA

资料中心储存加速

长期以来,FPGA一直被用于储存驱动器,来执行纠错和写调平任务。它们灵活的 I/O支援卓越的设计重用,在发展迅速的快闪记忆体技术界尤为关键。此外,众多当前的资料库搜索和加速设备都在驱动器附近采用了FPGA 的加速并获得重大优势。 (通过将运算单元直接布局在驱动器旁,可以获得最大限度的效率。)


采用ACAP架构,驱动器和资料库加速厂商可以直接在驱动器内(已使用FPGA)添加机器学习运算,从而将跨资料中心的资料移动(以及相关的延迟、功耗和运营开支)减少10倍。


5G无线通讯

无线使用者对频宽无止境的渴求推动了无线产业「每10年10倍」的极速创新步伐。在2020年奥运会上,业界将开始首次公开展示第五代无线技术,称为「5G」。一开始大部分都将构建于现有的赛灵思元件,特别是极为成功的16nm RFSoC元件上,它提供了三个关键优势:


‧整合直接RF取样速率ADC和DAC


‧整合LDPC和turbo软决策前向错误修正(SD-FEC)码块


‧16nm FinFET制程技术带来的低功耗DSP


随着产业的发展涌现出两大挑战:以较低的成本向更宽的频谱迈进,以及在无线电中增加机器学习推论技术,以增强光束引导演算法、增强使用者交接演算法和支援自愈网路。


传统意义上,一些无线厂商通过采用向量DSP的ASIC来降低成本。 Versal ACAP 中加入了一个智慧引擎,很大程度上消除了ASIC和FPGA之间传统的成本差距,因为它提供了超5倍的单晶片TMAC(图9)。



图9 : Xilinx RF运算路线图
图9 : Xilinx RF运算路线图

因此,虽然16nm Zynq UltraScale+RFSoC可落实200MHz 16x16远端无线电单元(RRU),但 7nm Versal元件产品规划路线可以落实完整的800MHz 16x16 RRU(图10)。



图10 : 16nm与7nm无线电元件的单片频谱
图10 : 16nm与7nm无线电元件的单片频谱

增加了高效的机器学习(具有框架级的设计流程),为采用ACAP的Versal产品组合开拓了一个全新的类型。这种技术可以增强光束引导和使用者交接演算法,比传统的编程定义演算法高出2倍,接近理论极限的85%(图11)。



图11 : 无线频宽最隹化与理论极限的对比
图11 : 无线频宽最隹化与理论极限的对比

赛灵思将所有四种关键技术汇聚在单个晶片:直接RF采样ADC和DAC、整合式SD-FEC代码、采用高密度向量的DSP以及框架可编程的机器学习推论引擎,打造出一款真正的5G晶载无线电。例如,图12描述了ACAP架构汇聚经典无线需求和紧急AI/ML技术的能力的实例。 RF波形分类器在认知无线电应用中将发挥重大作用,有助于提高无线电资源的利用率。使用AI机器学习技术,该演算法能够将基线准确率提高38%,比公认技术的准确率高出20%。



图12 : 机器学习带来的数位预失真(DPD)效率提升
图12 : 机器学习带来的数位预失真(DPD)效率提升

航空与国防

FPGA的大规模并行DSP能力长期以来一直是许多国防领域雷达落实的支柱。然而,ADC技术的最新创新已将ADC取样速率提高到每秒数万兆次,这要求 DSP能力也取得相应地提高。


采用向量的强大DSP引擎与AI机器学习的融合,使航空与国防工业的革命性新产品,如先进的模组化雷达成为可能,由高频波长驱动的天线间距要求采用极小的外形。赛灵思在单一封装元件中,就能提供每秒兆位元的天线频宽,以及多达 17 TMAC的INT24,或24 TFLOPS的32位单精确度浮点DSP。


汽车驾驶辅助(ADAS)

赛灵思在汽车、航空、卫星、医疗和商业网路系统领域的高可靠性和热限制系统方面拥有历史悠久的经验。赛灵思技术经专门设计,以减轻SEU效应,并能在高达125°C的温度下运行,结合对机器视觉和机器学习的关注,可靠性和品质方面的丰富经验意味着,赛灵思技术原生适用于汽车驾驶辅助系统(ADAS)和未来的自动驾驶汽车技术。迄今为止,赛灵思已经针对各种汽车插槽交付超过1.5亿个FPGA和SoC,并专门为ADAS应用供货超过5,000万个元件。汽车产业是赛灵思在过去两年中增长最快的市场领域。


赛灵思针对汽车的可扩展Versal ACAP内含一个高能效纯量引擎,该引擎具有双核Cortex-R5S、可编程 I/O和低延迟、智慧AI引擎,该引擎支援节能、功能性安全、AI强化的自动驾驶解决方案,与当今市面上采用FPGA,ASIL-C认证的ADAS解决方案相比,INT 8机器学习效能提高了15倍。


此外,通过空中硬体更新对整个元件进行重新程式设计的能力提高了系统在现场的通用性,从而提高了客户价值。最后,赛灵思可编程I/O为厂商提供了变更感测器类型的灵活性和适应性,无需承担等待ASSP或GPU重设计带来的延误与成本(图13)。



图13 : 赛灵思ACAP元件支援低功耗感测器融合
图13 : 赛灵思ACAP元件支援低功耗感测器融合

汽车领域创新频现,重点在于要选择一种可跨多个平台提供代码可携性和可扩展性的处理元件组合,从5-10W挡风上安装的前置摄影机设计到20-30W座舱中央模组,再到100W+液体冷却后备箱安装的超级电脑,所有这些都具有相同的程式设计模型(表4)。


表4:赛灵思汽车产品覆盖面与友商对比(同一程式设计模型)

?

10W

智慧端点(例如前置摄影机)

20W

中央模组(基本型、无源散热)

30W

中央模组(高级型、风冷)

100W+

后备箱超级电脑(液体冷却)

赛灵思

·

·

·

·

NVIDIA

?

?

·

·

Intel MobilEye

·

?

?

?


在考虑高速行驶的车辆时,延迟是一大关键处理效能因素。在60MPH(100KPH) 的速度下,不同ADAS系统的反应时间上,几十毫秒的差异会对系统的有效性产生重大影响。随着自动驾驶汽车技术的日益普及,或需将多个神经网路串联执行复杂的任务,这加剧了GPU依赖大规模批次处理的问题。因此,赛灵思最佳化了AI边缘系列,使其能够在低批次处理规模下以极高的效率运行(图14)。



图14 : 低延迟安全关键型 Versal 产品组合覆盖面
图14 : 低延迟安全关键型 Versal 产品组合覆盖面

当今汽车ADAS/AD系统对高解析度摄影机的要求越来越高。运算需求根据像素进行扩展,这意味着来自高画质摄影机(1080x1920)的图像,比资料中心标准的 224x224图像明显需要更强大的运算能力。高运算效率的赛灵思Versal元件扩展性定位独到,可满足更高的解析度要求。


有线通讯

今天,每一条互联网流量都经过多个赛灵思FPGA处理。 FPGA长期以来一直充当「胶水逻辑」,使网路硬体能够适应网路营运商不断变化的需求。赛灵思在先进的112G SerDes技术领域的领导地位,使业界能够第一次落实新的协议和严格的光、铜电缆和底板标准,以及现有的58G PAM4和32G NRZ协定,例如标准应用前时期的PCI Express Gen5。丰富的IP组合使标准化介面的整合成为了可能,并降低了成本和功耗。赛灵思丰富的IP组合支援客户进行混合和匹配,从而在硬体级达到差异化。


随着网路运营商不断提出新的功能要求,快速编码和现场更新自行调适硬体的能力比依赖原有ASSP的硬体更具优势。


赛灵思Versal ACAP具有与新一代600G波长规划一致的突破性整合IP水准,完全支援乙太网路和OTN标准10G、25G、50G和100G SerDes速率,包括:


‧ 10/25/40/50/100GE MAC/PCS/FEC,具有±1ns IEEE STD 1588时间戳记、eCPRI和TSN支援


‧ 600G FlexE核心可达到低至10G通道和高密度400GE/200GE/100GE MAC/PCS/FEC


‧ 600G线速加密引擎,支援MACSEC和IPSEC,以及批量AES-GCM加密


‧ 整合FEC的600G Interlaken用于PAM4通道


‧ 用于DOCSIS电缆 LDPC应用的SD-FEC


这些 SerDes 的显著改善能够支援:


‧用于OTN和边缘路由器应用的单晶片1.0Tb/s+ 网线卡与商用ASSP相比具有类似的功率,但灵活性更高


‧单晶片2.4Tb/s+ 加密资料中心互连(DCI)机架安装设备,每个RU有多个实例(图15)


‧400Gb/s+ 缆线数据机终端系统(CMTS),每使用者独有加密隧道,针对高阶商业和住宅服务。



图15 : 有线通讯:单晶片加密资料中心流量
图15 : 有线通讯:单晶片加密资料中心流量

灵活应变能力

可编程逻辑技术的一大优势在于现场硬体升级的能力。在今天的4G无线和光纤网路,以及汽车自动驾驶产品中已经广泛部署。


赛灵思Versal ACAP通过支援更高级别的抽象(C 或框架级介面)和8倍速的部分重配置,达到了更快的内核倒换,进而扩展了这一领域内的升级功能。


自行调适硬体

长期以来,FPGA的核心价值主张一直是在现场进行设计变更的能力。无论是纠正错误、最佳化演算法或添加全新的功能,可编程逻辑提供了所有其他半导体选项不具备的独特灵活性。


赛灵思Versal ACAP将这一概念进一步推进,使配置时间加快了近一个数量级,达到以毫秒为单位的部分位元流的动态倒换,让硬体具有软体的灵活性。


可编程记忆体阶层

作为一种补充,自行调适硬体强化了Versal ACAP,进而最佳化了ACAP架构新功能的效率。


可编程逻辑的最大优势之一是能够重配置记忆体阶层,从而针对不同的运算负载进行最佳化。例如,即使在专注图像辨识的神经网路范围内,每幅图像的记忆体占用和运算操作,也会因演算法的不同而带来很大的差异。可编程记忆体架构支援对可编程逻辑进行调整,以最佳化它所支援的每个网路之运算效率。


因此,当结合向量处理器和可编程逻辑来落实神经网路时,Versal ACAP可达到领先的GPU近2倍的运算效率,并实现了固定记忆体阶层的向量处理。参见图16。



图16 : 采用神经网路类型的运算与记忆体利用率
图16 : 采用神经网路类型的运算与记忆体利用率

动态载荷

该元件固有的可编程性将为某些成本敏感的即时应用带来优势,在多个逻辑功能之间复用一组可编程硬体,而且自行调适引擎部分重新程式设计时间低至亚毫秒水准。在资料中心中,与GPU这样的更受限的向量处理器相比,这意味着Versal ACAP元件能够执行传统上由CPU执行的更广泛的功能。 (图17[4])



图17 : 由於资料中心作业负载经过广泛分配(Kanev),再不会产生「杀手应用」
图17 : 由於资料中心作业负载经过广泛分配(Kanev),再不会产生「杀手应用」

总结

近来涌现的技术挑战迫使业界跳出同构通用型CPU纯量处理解决方案,进而探索新的发展方向。向量处理(DSP,GPU)能够解决部分问题,但由于记忆体频宽的使用效率不高,致其在传统的扩展中遭遇挑战。传统的FPGA解决方案提供了可编程记忆体阶层,但传统的硬体流程一直是推广的阻碍。


该解决方案将所有这三大要素与一个新的工具流相结合,通过单个自行调适运算加速平台(ACAP),提供了从框架到C到RTL级编码的各种不同抽象。


仅针对可编程逻辑一项,ACAP架构就显著拓展了其能力。可编程逻辑和向量处理单元的混合能够支援资料中心、无线网路、汽车驾驶辅助和有线通讯中应用的运算量突破性的增加。


强大的AI机器学习运算、高阶网路,以及加密IP的结合有助于针对资料中心落实新一类的自行调适运算加速引擎以及智慧NIC。


将预制的人工智慧机器学习推论与密集DSP和直接RF采样ADC/DAC相结合,与采用DSP的自开发ASIC相比,能将5G无线电的传输率翻一番,使 LIDAR、雷达和视觉感测器在汽车驾驶辅助(ADAS)应用中的单晶片感测器融合成为可能。


参考文献

[1] J. Hennessy,D。帕特森,计算机架构:定量方法(第6版,2019年)。


[2] NVIDIA,NVIDIA AI推理平台:从数据中心到网络边缘的AI服务的性能和效率,从数据中心到网络边缘(2018)。


[3] N. Jouppi,C. Young,N. PatiL等,张于张解工单位的数据中心性能分析?


[4] Kanev,J. Darago,K. Hazelwood等,分析了仓库规模的计算机(2015)。


相关文章
生成式AI与PC革新
机器学习可以帮助未来的癌症诊断
资料科学与机器学习协助改善颈部损伤评估
MATLAB与Simulink整合自动化机器学习与DevOps
强化转型核心动力 打造更强数位韧性
comments powered by Disqus
相关讨论
  相关新闻
» 鼎新电脑携手和泰丰田解缺工 以数位劳动力开启储运新时代
» Fortinet SASE台湾网路连接点今年落成 全台巡??落实云地零信任资安
» Ansys模拟分析解决方案 获现代汽车认证为首选供应商
» SOLIDWORKS公开演示未来AI 率先导入工业设计软体应用
» BMW与达梭系统合作 打造3DEXPERIENCE未来工程平台


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK83T46SXW2STACUKW
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw