账号:
密码:
CTIMES / 文章 /   
加速实现网路终端低功耗人工智慧应用
 

【作者: 萊迪思半導體】2018年08月01日 星期三

浏览人次:【1458】
  

智慧工厂、智慧城市、智慧家庭和行动装置的出现,带动网路终端装置需要更智慧的系统架构和全新应用。人工智慧(AI)和机器学习(ML)半导体解决方案对新一代人工智慧应用程式的运算能力至关重要。


对打造边缘运算解决方案的设计师来说,在这个竞争激烈的市场中出现了包含灵活、低功耗、小尺寸以及低成本等新需求,同时不能降低性能表现。在系统中整合接近物联网(IoT)资料来源的低功耗推论能力与低能耗的低密度FPGA,才能在网路终端装置的严苛要求下,同时保有快速推出产品的能力。


全新Lattice sensAI作为一套完整的开发生态系统,简化了针对网路终端开发弹性推论解决方案的工作。通过各类IP、工具、叁考设计和设计专长,开发人员可以善用产业体系让创新解决方案快速上市。


架构转变和网路终端日益增长的智慧需求

自第一台电脑发明以来,找到理想的系统架构一直都不是容易的工作。从电脑发展史中可以看出,系统架构始终在运算资源远离使用者的集中式架构和处理资源靠近使用者的分散式架构之间反复摇摆。曾於20世纪70年代和80年代流行的伺服器架构方案采用高度集中的运算资源和储存能力。但是这一理念很快在低成本个人电脑和互联网快速发展的80和90年代衰落了。在这种新的架构模式下,运算任务不断向个人电脑倾斜。


围绕个人电脑构建的高度分散式方案似??无懈可击,直到以智慧型手机、平板电脑和笔记型电脑为代表的高流动性工具大行其道,四处携带运算硬体和储存资源瞬间成为了一种负担。系统架构随之缓慢地将任务移到云端,利用其近??无限的运算和储存资源、高可靠性以及低成本。


企业也使用云端降低成本,同时更有效率地管理IT基础设施的维护成本。随着他们采用机器学习和更进阶的人工智慧技术,云端将成为整体核心。即将来临的新一代智慧工厂、智慧城市和智慧家庭需要云端来高效管理机器的视觉系统、协调交通以及降低能源使用。


但并非所有应用都将在云端运行。产业专家指出,另一轮系统架构从集中转变为分散的趋势已开始出现。不论这样的转型是否会发生,有一点确信无疑:那就是低延迟、不断加剧的隐私问题和通信频宽限制将提升网路终端对智慧化的需求。随着设计人员向网路终端应用加入更多智慧,他们需要能够快速回应环境变化的系统。例如,当一辆无人驾驶车驶入智慧城市,它不可能询问云端如何避免车祸,而是必须立即且自主地做出判断、反应。相同的道理,当AI安全摄影机在家中检测到异动,它必须利用设备上的现有资源做出决定,如有人闯入则立刻报警。


这些新型应用需要靠近物联网感应器的人工智慧/机器学习运算能力,而非云端运算。这样的需求有多大?有人认为潜力非常可观。Gartner的分析师估计到2022年,高达50%的企业资料将在传统集中式资料中心或云端以外的地方处理(图1)。



图1 : 为避免受延迟、隐私和网路频宽限制而快速兴起的网路终端运算
图1 : 为避免受延迟、隐私和网路频宽限制而快速兴起的网路终端运算

网路终端运算的要求

设计人员在开发网路终端运算解决方案时面临最严峻的挑战是要同时满足高灵活性、低功耗、小尺寸和低成本等独特要求(图2)。



图2 : 新一代基於AI 的网路终端运算应用需要满足一系列独特要求
图2 : 新一代基於AI 的网路终端运算应用需要满足一系列独特要求

开发人员如何构建功耗低、尺寸小、成本低而又不影响性能的网路终端解决方案呢?首先,他们需要可以提供最大设计弹性的半导体晶片。他们需要一个可以协助善用快速进化的神经网路架构与运算的晶片解决方案,同时这个晶片也要支援各种I/O介面。最後,他们还需要可以自订量化的解决方案,让他们可以牺牲精确度以节省电力。


考虑到网路终端设备的尺寸限制,设计人员需要适当的晶片来设计小巧、高性能的AI装置,在输出卓越性能的同时又能满足尺寸或散热的要求。成本也是一个关键要素。任何一种解决方案都必须能与其他大量生产的网路终端解决方案一较高下。最後,即便是在网路终端,快速上市的规则依然适用。第一个将解决方案推向市场的企业必然拥有巨大优势。因此,所有解决方案都必须让设计者可以获得资源以客制化解决方案、缩短展示机、叁考设计或设计服务的开发周期。


建立於FPGA的网路终端机器学习推论

FPGA在网路终端扮演什麽角色?机器学习通常要求两种类型的运算工作:训练系统透过既有资料学习新能力。例如,脸部辨识功能通过采集和分析成千上万张图片来学习识别人脸。这种早期训练阶段是高度运算密集的。开发人员通常会在资料中心使用高性能硬体来处理这麽庞大的资料量。


机器学习的第二阶段:推论,将系统的能力运用在新资料上,如辨认固定模式与执行工作。例如之前讨论的脸部辨识功能将在投入现场工作後持续优化其能力,以正确识别人脸。在此阶段系统边运行边学习,随着时间推移变得愈加智慧。由於有许多限制要求在边缘装置上运算资料,因此开发人员无法运用云端。相反地,他们必须透过在获取资料的边缘装置上运算,并将系统的智慧延伸到边缘装置上。


但是设计人员要如何在网路终端进行推论并取代大量的云端运算效能呢?一种方式就是利用FPGA内建的并行处理能力来提升神经网路的性能。设计人员可以使用经过特别优化的低功耗低密度FPGA满足网路终端对严苛性能和功耗限制的要求。莱迪思的ECP5和iCE40 UltraPlus FPGA就可满足此需求:设计人员可通过功耗不到1W的ECP5 FPGA和毫瓦级iCE40 UltraPlus FPGA来加速神经网路,构建高效率的AI网路终端应用。(图3)



图3 : 基於莱迪思FPGA的低功耗(1mW-1W)机器学习推论
图3 : 基於莱迪思FPGA的低功耗(1mW-1W)机器学习推论

Lattice sensAI简介

除了运算硬体外,设计人员还需要各类 IP、工具、叁考设计和设计专业知识来构建有效的解决方案并将其快速推向市场。


为协助开发人员应对日益严峻的挑战,莱迪思推出基於iCE40 UltraPlus和ECP5 FPGA系列的完整开发生态系统。Lattice sensAI旨在协助开发人员快速构建适用於智慧家庭、智慧城市、智慧工厂、智慧汽车和行动应用的AI网路终端解决方案,为网路终端提供更灵活的推论。


正如图4所示,Lattice sensAI结合模组化硬体平台、神经网路IP核心、软体工具、叁考设计和来自合作夥伴生态系的客制化设计服务,简化了灵活推论解决方案的开发,具有低功耗(1mW-1W)、封装尺寸小(小至5.5mm2)、低量产价格(约1-10美元)等优势。



图4 : Lattice sensAI 为开发人员构建网路终端运算解决方案提供了坚实的基础
图4 : Lattice sensAI 为开发人员构建网路终端运算解决方案提供了坚实的基础

如图4所示,Lattice sensAI以莱迪思的硬体平台为基础。为实现这一功能,莱迪思提供全新的模组化硬体平台,加速机器学习的原型设计,满足广泛的性能和功耗需求。莱迪思还提供基於低功耗iCE40 UltraPlus FPGA的行动开发平台(MDP),可用於毫瓦级功耗AI设计。行动开发平台包括一系列板载感应器,如图像感应器、麦克风、罗盘、压力计和陀螺仪等。针对功耗稍高但总体低於1W的应用,莱迪思则提供基於ECP5 FPGA系列的模组化视讯介面平台(VIP)。模组化视讯介面平台提供多样化的连接介面,包含MIPI CSI-2、嵌入式DisplayPort (eDP)、HDMI、 GigE Vision和USB 3。嵌入式视觉开发套件(Embedded Vision Development kit)是莱迪思首批硬体平台之一,该模组化平台包含了一块CrossLink输入板、一块ECP5处理器板和一块HDMI输出板。随着新加入的嵌入式DisplayPort (eDP)和USB 3 GigE I/O板,设计人员可轻易更换输出板以支援其他应用。


除硬体层面外,莱迪思还提供新的神经网路加速器IP核心,便於开发人员在FPGA上演示。此软IP包括一个针对iCE40 UltraPlus FPGA优化的二进位神经网路(BNN)加速器,可让开发人员使用iCE40 UltraPlus FPGA透过二进位神经网路演算法实现深度学习应用。莱迪思还提供一个卷积神经网路(CNN)加速器核。该核可灵活设置叁数,适用于莱迪思的ECP5 FPGA,它还支援不同量化,让设计人员可在精确度与功耗间取得平衡。


如图5所示,Lattice sensAI能让使用者透过简单易用的工具流程执行快速设计空间探索与平衡。网路训练可透过产业标准框架如Caffe和TensorFlow完成。接着神经网路编译器工具能将训练过的网路模型映射成定点数值,同时支援不同的量化权重和指令。此外,神经网路编译器能协助分析、模拟和编译不同类型的网路,进而在没有RTL设计经验的情况下,也能在莱迪思的卷积神经网路(CNN)/二进位神经网路(BNN)加速器IP核心上实现。然後使用Radiant和Diamond等传统的FPGA设计软体实现整体的FPGA设计,包括剩下的预/後处理模组。



图5 : 通过易用的 Lattice sensAI 工具流程执行快速设计空间探索和平衡
图5 : 通过易用的 Lattice sensAI 工具流程执行快速设计空间探索和平衡

为简化常用AI功能的应用流程,Lattice sensAI也结合硬体平台、IP核心与软体工具,提供许多叁考设计与案例。范例包含:


低功耗脸部辨识 该范例包含适用於网路终端、使用神经网路模型、低功耗快速脸部辨识功能。这个基於iCE40 UltraPlus FPGA的案例使用了二进位权重和指令,能协助设计人员实现低於1mW功耗的人脸识别。


汽车改装市场摄影机 该范例针对新兴的汽车改装市场中的摄影机领域。它展示了设计人员如何透过FPGA本身的平行运算辨识速度标志。在此案例中,在ECP5 FPGA上的卷积神经网路被训练读取路上的交通指示牌。训练完成後,摄影机就可在经过交通标志时检测并显示速度限制。


将声音指令转换为系统操作 此范例向设计人员展示了将声音指令转化为系统操作的蓝图。这项功耗不足5mW的关键字识别功能,使用了iCE40 UltraPlus FPGA的二进位神经网路。案例描述如何将数位麦克风串连到莱迪思推论引擎,进而达到随时监听关键字的功能。


用於脸部追踪的目标辨识解决方案 该范例深入研究如何将AI物件辨识功能套用於人脸追踪应用程式。案例中描述了使用莱迪思ECP5-85 FPGA进行卷积神经网路(CNN)加速,其中8个卷积层在8个神经网路引擎中实现。该方案在莱迪思的嵌入式视觉开发套件上独立运行,启动後在90 x 90RGB输入下以14fps运行,而ECP5的总功耗仅0.85W。


客制化设计服务

开发团队通常需要设计服务合作夥伴的专业能力来协助开发客制化解决方案,在AI市场也不例外。为满足这种需求,莱迪思与智慧工厂、智慧城市、智慧汽车、智慧家庭和行动应用等众多领域的设计服务夥伴展开了合作。例如,莱迪思经认证的合作夥伴之一VectorBlox是一家神经网路推论解决方案的开发商。近来,VectorBlox和莱迪思合作在iCE40 UltraPlus FPGA上用不到5000个LUT的神经网路实现了脸部辨识应用。该解决方案使用了开源RISC V软处理器和定制加速器,大大降低了功耗,同时缩短了回应时间。


为了更快地在莱迪思FPGA中实现推论解决方案,开发人员可能需要求助於具备神经网路设计和训练知识的设计服务专家。这些知识通常需要与Caffe和TensorFlow框架以及传统的RTL设计经验相结合。为了让这些专业知识更容易被取得,莱迪思推出了Lattice sensAI设计服务方案,推荐设计服务公司以加速设计,在莱迪思FPGA上实现深入学习应用。这些公司提供开发和训练网路的专业知识,且能针对特定应用开发RTL。


叁与该计画的其他第三方协力厂商已经与莱迪思进行合作,展现其在神经网路开发、训练和结合硬体使用的强大实力。


结论

网路终端运算革命蓄势待发,正等待着有人工智慧系统背景的开发人才。当使用者需要更高的智慧,就推升对靠近资料来源、低功耗推论装置的需求量。Lattice sensAI提供灵活、超低功耗、小尺寸和低量产价格的网路终端优化解决方案。


相关文章
数位电源:为何我该注意精准度?
Pixel夜视模式:协助你在低光源环境拍出绝美相片
跨出影像分类:更多关於深度学习应用
Versal:第一款自行调适运算加速平台(ACAP)
台湾科技业的大联盟时代
comments powered by Disqus
相关讨论
  相关新品
EM500EV 测试/开发板
原厂/品牌:集博
供应商:集博
產品類別:IDE
  相关新闻
» 国家实验研究院与宏??合作意向书签署仪式
» HITCON Defense竞赛打造企业真实IT环境
» Modbus仍是主流库至通讯技术 EtherCAT市占渐高後势可期
» 达梭系统收购IQMS扩展3DEXPERIENCE平台
» Audi发展智慧移动
  相关产品
» AMD发布全新Radeon Software Adrenalin 2019 Edition绘图驱动软体
» Cleartrip选择CleverTap的客户数据平台来提供个性化体验
» 格斗游戏选手GamerBee向玉麟担任圆刚AVerMedia全球品牌大使
» Ruckus Networks无线基地台获得Wi-Fi CERTIFIED Vantage 2认证
» NVIDIA Jetson AGX Xavier打造新一代自主机器

AD