账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
将意图转化为行动:走进嵌入式语音控制新时代
 

【作者: Chris Welsh】2024年02月22日 星期四

浏览人次:【1215】

随着亚马逊、谷歌和苹果等公司相继推出具有革命性意义的智慧扬声器,嵌入式语音控制的设备已经成为当下的热门趋势,而这种技术其实已经存在了很多年。通过这些智慧扬声器,使得终端使用者第一次体验到语音优先设备的便捷性、实用性和直观性。


语音是这些设备的使用者介面(UI),也是它们最重要或唯一的对话模式。借助云端的自然语言理解技术,智慧扬声器可以让语音优先设备的终端使用者用自然语言与智慧设备进行沟通,无论是请求、查询还是命令,都可以得到理解和回应。


为了实现自然语言处理,设计人员和终端使用者需要面对一些挑战,比如要求有稳定、可靠的网路连接,以及要承受始终线上、始终聆听的设备的高耗电,更别提这种联网设备可能带来的隐私风险了。



图一 : 为了实现自然语言处理,设计人员必须解决嵌入式设计中的语音引擎难题。
图一 : 为了实现自然语言处理,设计人员必须解决嵌入式设计中的语音引擎难题。

本地语音控制与基於云端的语音控制比较

为了让设备具备语音控制功能,工程师通常有三种选择:本地处理、在云端处理或混合处理(亦即为前两项组合)。通过本地语音控制,终端设备在边缘本地处理所有语音,而无需连接到云端或远端伺服器进行二次处理。


基於云端的处理,就是利用云端的计算能力来处理语音音讯,然後把云端生成的回应通过网路传回设备。在混合处理的情况下,通常会使用本地唤醒词引擎来唤醒设备(如「Hey NXP」),然後将该唤醒词之後的所有语音命令资料流到云端或远端伺服器进行处理。


本地处理具有低延迟、低功耗和独立於网路等优点,但它通常只支援需要精确措辞的基本关键字和命令。例如开灯可能需要准确的短语「Hey,NXP(唤醒词),开灯(语音命令)」,并且不能有任何变化。


对於云端处理和混合系统,云端服务的使用增加了延迟,但提供了能够运行极其复杂的演算法的优势,包括自然语言理解模型。重温刚才说的开灯场景,使用任何词语组合,系统都可以理解所要求操作的环境,例如“这里很黑,请开灯”。


如前所述,基於云端的自然语言处理的一个主要缺点是安全和隐私问题。简单地说,这种方式的原理是把语音音讯通过网路传送到远端伺服器进行处理,但是这也可能导致系统误启动并把无关的音讯传输到云端。这些音讯流可能包括个人对话、凭证或其他敏感资讯。


VIT Speech to Intent引擎介绍

针对嵌入式设计中的语音引擎难题,恩智浦推出了其智慧语音技术(VIT)产品组合的最新产品VIT Speech to Intent引擎。S2I引擎是VIT产品组合的高端产品,其中还包括免费的唤醒词引擎(WWE)和语音命令引擎(VCE)。


与依赖远端云端服务的系统不同,VIT S2I能够在本地确定自然语言的意图。这一功能要归功於恩智浦针对嵌入式系统设计的神经网路演算法和机器学习模型的最新开发成果。因此,要实现「开灯」的目的,可以用很多不同的方式来表达,比如「开灯」、「太暗了」和「你能让光线更亮吗」等。


这种Speech to Intent功能使用户能够更自然地与嵌入式系统进行沟通,同时降低了系统延迟和云端连接系统的功耗。此外,消除云端服务也有助於提高安全性和隐私,因为所有语音都在设备上本地处理。此外,如果搭配恩智浦唤醒词引擎,可以开发超低功耗设计,只有在听到特定的唤醒词後,才会启动VIT S2I引擎来处理语音命令。


支持VIT S2I的恩智浦产品包括:ArmRCortexR-M:i.MX RT跨界MCU和RW61x MCU,以及Cortex A i.MX 8M Mini、i.MX 8MPlus和i.MX 9x应用处理器。VIT S2I目前支持英语、中文和韩语,将於2023年底推出。用於创建自订命令和训练模型的线上开发工具计画於2024年发布。



图二 : VIT Speech to Intent架构
图二 : VIT Speech to Intent架构

为下一个设计增加语音功能

物联网领域日新月异,VIT S2I能够适应各种应用场景,无论是家居自动化、可穿戴电子产品,还是汽车远端资讯处理和楼宇门禁等,都能发挥其优势。消费者喜欢用自然语言来免手动控制设备的基本功能,消除边缘语音处理的云服务,不仅减少了系统延迟,还减少了隐私和安全问题。


对於那些需要使用语音优先使用者介面的设备,VIT S2I系统是一个不可或缺的部分,它可以应用在智慧恒温器、智慧电器、家居自动化、灯光控制、遮阳控制等领域,VIT S2I也适用於可穿戴设备和健身设备,以及包括设置提醒、控制蓝牙设备和监测健康状况等一些例示。


使用VIT产品组合增强应用

如果想要使用恩智浦智慧语音技术组合进行开发,可使用VIT唤醒词和语音命令引擎,通过MCUXpresso SDK和线上模型工具即可获得。这些引擎可以方便地定制唤醒词和基本的语音控制,适用於那些不涉及自然语言理解的快速原型制作和开发周期。


(本文作者Chris Welsh为恩智浦边缘处理业务部物联网语音和音讯业务发展总监)


相关文章
新一代4D成像雷达实现高性能
MCX A:通用MCU和FRDM开发平台
智慧家居大步走 Matter实现更好体验与可靠连结
低功耗MCU释放物联网潜力 加速智慧家庭成形
Premium Radar SDK以演算技术改进汽车雷达应用
comments powered by Disqus
相关讨论
  相关新闻
» 贸泽电子2024年第一季度推出逾10,000项新元件
» 宜特2024年第一季合并营收突破10亿元 展现验证分析布局力道
» SAP加速AI驱动供应链创新 推动制造业转型
» 宇瞻迈入绿色显示市场 成功开发胆固醇液晶全彩电子纸
» 调研:2024年中国ADAS市场迈向Level 3自动驾驶


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK84R92HLS8STACUK8
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw