账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
新一代人机接口 – 语音识别技术
 

【作者: 莊勝達】2003年09月25日 星期四

浏览人次:【8224】

当全球的IA产业朝向多样性方展的同时,语音识别技术(Speech Recognition)也以迅雷不及掩耳之势,迅速扩张其版图,并逐渐地在IA领域的应用中也占有一席之地。为此,微软在发表新一代操作系统Windows XP的同时,即表示新一代操作系统将全面支持语音识别技术。



随后于2002年2月,微软与SpeechWorks等6家从事语音识别发展业务的公司,共同成立了SALT策略联盟(Speech Application Language Tags Forum ),并试图将语音识别技术结合于未来发展的平台中。而为了发展中文语音识别技术,微软在中国大陆也成立了一支团队,为未来推出的产品作准备,微软此举不外乎在为未来的IA产业上提前铺路。



技术概况的介绍


在未来IA相关的产品中,语音识别将是很重要的关键运用技术之一,而智能型人机接口将会成为发展的重点。以下将详细介绍特定语者(Speech Recognition-Dependent)、非特定语者(Speech Recognition-Independent)和文字转语音(Text to Speech)语音识别技术等三大类别。




《图一 语音接口技术架构图》



特定语者(Speech Recognition-Dependent)


技术的介绍与概况


特定语者最大的特征就是在辨识前需要录音与训练,不过必须依硬件所能提供的内存容量,才能决定能录制的指令组数,例如可辨识20组指令,则需事先录制20组的指令并建立顺序编号,随后原录音人再呼叫先前所录制的指令,才可辨识出先前录制所在的编号。因此,特定语者只能针对原录音与训练者进行辨识。



主要应用的范围


其实在市面上我们经常可以见到这类技术的应用,例如数年前Philips某一款手机就强调『听声辨人』的语音识别功能,强调用户可事先录制电话簿中的人名并定义其录制的名称,然而此应用发展现已更加成熟,已不再局限手机相关之应用。在门禁管制方面,未来若结合门禁系统,可作为人员控管的工具,将欲进出区域单位之人员预录一组通关语录,以语音识别方式及声纹比对来控管人员的进出。所以未来的通讯、行动装置、声控玩具与计算机外设设备等,将成特定语者语音识别技术的目标应用市场。



产品发展现况与竞争者比较


目前比较热门的应用大多使用在手机(Mobile Phone)、手持装置、与消费性电子产品。尤其是手机,目前大多看好下一代手机发展的前景,并预估未来的手机将会更充分结合语音识别的应用,使个人的行动装置更具有亲和性与私密性。国内已有许多手机制造公司已积极规划此项功能应用的产品,由于此项技术提供者在国内几乎是乏善可陈,所以纷纷向代理商外购或由国外技术引进的方式结合手机的研发。这方面的技术在国外较知名的共计有英国、荷兰、美国与以色列等约四家公司提供,不过因技术授权费用过高,所以只有极少数之国内大厂能接受。



非特定语者(Speech Recognition-Independent)


技术的介绍与概况


非特定语者与特定语者最大的差别在于用户无须训练与录音就可进行辨识,其原理在于非特定语者是只需利用收集到的语音数据库,就可以完成语音模型的比对。



主要应用


法国知名导演卢贝松曾经导演过一部喜剧电影,片中描述法国人利用语音识别接口技术来控制一辆汽车,只要驾驶者说出某『关键词』就可启动汽车。而在今天要实现这项技术已并非难事,不但如此,还可以结合更多的应用,如利用噪音与回音消除技术改善车用环境语音识别率,或以『关键词粹取技术』使Telematics透过语音识别接口协助驾驶找寻地名、街道或目标,而汽车也将能听懂驾驶者的需求并提供所需的协助,使车内宛如多了一位副驾驶,并增加行车的效率与安全性。



目前类似相关技术的应用已广泛地被一般用户接受,其中以『关键词自动总机系统』最为普遍。以往一般公司为协助顾客来电查询部门或联络人分机时,总是需要透过总机人员的协助转接,但是利用『关键词粹取技术』可取代传统总机人员90%的人力。查询者只要直接以声控的方式输入所需寻找的人名或部门即可拨接,既使查询者有口音都可以准确地找寻。这项技术目前也可使用在『图书馆自动查询系统』的书籍预约与查询上。为了有效整合网站的信息,目前研究学者将『关键词自动总机系统』进一步发展出语音入口网站技术(VoiceXML Voice Portal)。此技术的应用就是方便用户以口头的方式来获得网站的信息,就好比如Yahoo入口网站一样,利用单一入口提供在线目录的查询,所不同的是前者是透过语音输入,后者是用文字输入,而所呈现的方式也不相同,前者文字转语音说出网站及时信息,后者则是以文字或网址的方式来表现网站的内容。



《图二 语音识别应用于汽车导航》



《图三 语音入口网站技术(VoiceXML Voice Portal)》



产品发展现况与竞争者比较


目前在国外提供这种类型的语音识别技术供货商相当多,其中又以Speech Work 与Nuance较为常见,但因属国外厂商,支持与服务尚无法满足国内业者的需求。目前大部份的语音产品都和语言有关,因此国内厂商若要发展汉语语系以外的语音产品,势必要面对欧美大厂的竞争而难以突破,不过国外厂商若想要发展华人市场的语音产品,必然也要寻求华人公司或个人的合作。因此,广大的华人市场包括台湾、中国大陆和东南亚等国家,应是国内厂商锁定的目标,而这些市场也会随着该国家经济的成长,呈现出一股长期成长的趋势,所以对于国内厂商而言,这应是个非常具有远景的机会。



文字转语音(Text to Speech)


技术的介绍与概况


文字转语音(Text To Speech;简称TTS)的技术,是让文字透过语音识别引擎组件,以近似人声的语音将文字读出,因此这也包含了语音合成技术,将语音调适成恰当的音韵。



主要应用


TTS今年最主要看好的应用是在个人数字助理(PDA),而要如何赋予PDA『说』的能力与『听』的能力,并了解用户所要下达的指令(Voice Command),这将会是今年度的一大挑战。以往TTS主要应用在个人计算机上面,但因个人计算机的可移植性不高,降低了TTS的应用层面,所以为了能让TTS在PDA或小型行动装置上执行,研究人员将TTS进行『瘦身』的行动,以减低在内存的容量。



除了在PDA上的应用外,TTS也着重于行动手持装置设备的应用(Smart Handheld Device),例如电子书包、智能型手机、Tablet PC,以及移动式手持装置(Mobile Device)等。



《图四 PDA 语音总管技术》


产品发展现况与竞争者比较


以整个语音识别市场发展而言,无论是TTS或是相关的语音识别技术,对于整个语音人机接口市场应用,应是唇齿相依的发展关系。而两者之间则具有一定的影响力,以TTS的应用而言,Voice Portal是最具有关连性。



近年来Voice Portal应用蓬勃发展,近百家新公司成立,其中包括 Audiopoint、BellSouth、 BeVocal、ScanSoft、TelSurf、 Quack.com,以及Tellme等,而业界标准以逐渐地形成,如在2000年3月被W3C采用的VoiceXML等。目前已公开的策略联盟包括以Nuance主导的Voice Web Portal Program和SpeechWorks主导的SpeechMedia Alliance等。Kelsey Group 于2000年预测Voice Portal 的服务市场产值到2005年会达到50亿美元,而Voice Portal 硬件及基础架构则会达到70亿美元市场产值。



Voice Portal 在国内的市场仍属萌芽阶段,目前厂商大都购买国外技术,但基于国外大厂的版权限制,必须付出高额授权费用,如和信电讯所提供的「Ms.600」声控服务称为voice-enabled IVR services,是由英泰开发建置系统并采用Philips的语音识别技术。而凌群则引进美国Nuance公司的技术来进行股价查询等系统整合。



台湾工业研究院成功研发移转的范例


目前转移台湾工研院所研发的语音识别技术的厂商大约分成两大类,以下将会作一个简单的介绍。



半导体设计公司(IC Design House)


工研院移转的技术大多以特定语者的语音识别技术为重心,以应用于嵌入式系统。而应用的产品则有使用于交互式玩具及声控家电中的8051语音识别韧体、为车用免持听筒的解决方案的声控全双工免手持DSP韧体,以及将Voice Command 技术应用于小型手持装置系统的嵌入式语音识别技术,例如第三代手机、小型手持IA装置与未来智能型手机等。



软件设计与系统整合业(CTI)


工研院移转的技术大多以非特定语者语音识别技术与文字转语音技术为主。而应用的产品则有辨识率高达95%以上的自动总机技术等。而在语音入口网站上面,也已研发完成E-weather气象查询及股票查询系统。



总结


随着宽带技术与因特网的发达,语音识别技术的应用已逐渐深植在各类IA的产品中,而透过与终端产品的整合,将可发展成为新一代的人机接口。未来无论与计算机、信息家电、手机或其他相关消费性的电子产品,将不会以单向接口做为沟通的模式了。而语音的应用除了以往所著重的控制之外,同时也将会朝向互动的方式发展,例如消费性的电子交互式玩具、游戏产业的语音互动游戏、因特网的交互式咨询系统,以及交互式信息家电产品等。



对于语音识别是否将成为新的Killer Application而带动新一波的IA产业革命,我们不得而知,但IA信息产品对语音识别技术的需求越趋殷切而言,语音识别技术的要求也相对会更日益精进。



















延 伸 阅 读





















在 Microsoft Office XP 的简体中文、英文及日文版本中已有此功能。您可以使用语音识别在任何 Office 程序中听写文字。您也可以利用您的声音来 选取菜单、工具栏、对话框(只以美式英文显示)及工作窗格项目。若要在安装之后使用语音识别,请单击 [语言] 列上的按钮以在两个语音识别的模式间转换 - 听写模式与语音指令模式,相关介绍请见「Microsoft Office XP使用语音识别的范例」一文。
什么产业是下一阶段科技发展舞台的入场券?英特尔(Intel)创办人摩尔(Gordon Moore)有他的答案。摩尔因为在一九六五年提出「半导体每过十八个月,效率会加倍、价格会减半」的预言,被人称为「摩尔定律(Moore's Law)」,至今仍影响半导体产业。如今他又有新的预言。日前他接受(科学评论月刊)专访,直指语音技术将是影响未来科技发展最关键的技术。「半导体教父」的预言,让语音技术的发展,顿时受到全球的注目,你可在「语音识别商机百亿,两岸技术争锋」一文中得到进一步的介绍。
语音识别技术声硕科技近日发表以语音输入方式来产出简讯的技术及服务,希望与微软、IBM一较高下。声硕科技推出的「酷Me卡」产品,提供用户以口说方式输入,然后该公司的语音识别技术,可将语音转成文字,以简讯方式传送给用户,该服务即从酷Me卡的储值卡扣点,在「语音识别技术走向行动服务」一文为你做了相关的评析。


















相关组织网站





















Speech Application Language Tags Forum官方网站
微软介绍SALT的网站
介绍VoiceXML Voice Portal的网站



相关文章
智慧充电桩百花齐放
充电站布局多元商业模式
以爆管和接触器驱动器提高HEV/EV电池断开系统安全性
CNC数控系统迎合永续应用
数位分身打造精准数控 欧日系CNC厂迈向永续应用
comments powered by Disqus
相关讨论
  相关新闻
» 宜鼎独创MIPI over Type-C解决方案突破技术局限,改写嵌入式相机模组市场样貌
» 技嘉Super Computing超进化 支援先进散热技术和AI动力产品
» 强固型5G无风扇IoT边缘闸道器电脑系统
» 低功耗IB838单板电脑主机板
» 技嘉叁与GTC 2023大会AI主题课程 发表更多NVIDIA认证伺服器


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK84U2AK7VKSTACUKI
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw