计算机语音识别技术及其应用.doc_第1页
计算机语音识别技术及其应用.doc_第2页
计算机语音识别技术及其应用.doc_第3页
计算机语音识别技术及其应用.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机语音识别技术及其应用 作者:何好义 作者信息:武汉铁路局武昌东车站安技科信息车间,湖北 武汉 文章点击数:0 文章登入时间: 2005-6-22 所属刊目:2005年第六期,总第80期 文章页数:1 摘要计算机语音识别技术近年来得到了飞速的发展并且在越来越多的领域内得到了应用。文章介绍了该技术的基本原理和目前的应用状况,并预测了将来的发展趋势。关键词语音识别;声纹中图分类号 TP316文献标识码 A文章编号 1008-1151(2005)06-0070-031 引言计算机语音技术是语音通信领域的一个重要部分,它包括四种技术,即语音分析技术、语音存储与再生技术、语音合成技术和语音识别技术。对语音识别的研究,可以追溯到上个世纪的50年代。1952年Davis等人研究成功了世界上第一个识别10个英文数字发音的实验系统。1960年Denes等人研究成功了第一个计算机语音识别系统。语音合成技术是以语音为媒介的信息系统的输出装置,即语音输出技术,实现的是文字到语音的转换。比如应用此技术的诸如会说话的钟表、玩具以及各种报警器等。而语音识别技术是实现语音到文字的转换,这是个更加困难的过程,它的目的在于让机器能够“理解”人所说的话的含义,并去执行相应的任务。20世纪70年代到80年代,采用计算机语音识别技术研制成了一些实用的系统。例如,1976年由Flanagan报道的“实验的航空查询和购票服务系统”,用于顾客和航空公司的计算机之间关于机票查询及记账购票的服务。1980年报道的日本新干线火车预约坐位系统,叫做Voice Q-A系统(语音问答系统)。它在接受问询时进行会话识别,而在回答时进行语音合成输出。再如由Fant报道的瑞典的语音识别系统,它已被瑞典的Ericsson公司用来装备内部快呼通讯网。使用这个系统打电话时,人们不必再拨号或按数字键,只需说出受话人的姓名就可以接通了。这个系统比日本东芝公司的语音拨号电话机更为先进。后者仅能识别数字,而前者能识别相当数量的词或词组。另外,一些声控设备如声控打字机、声控摄影机等都是采用了语音识别技术的产品。2 语音识别的基本原理简介2.1语音和语言处理涉及的技术包括很多方面。简单地讲有:2.1.1语音识别(ASR):把声音变成文字(相当于耳朵的功能);2.1.2语言理解(NLU):把文字变成语义(相当于大脑之语言区的功能);2.1.3语音合成(TTS):把文字变成声音(相当于嘴巴的功能);2.1.4声纹识别(VPR):通过声音对人的身份进行辨认和/或确认(耳朵的功能),等等。2.2任何语音识别系统包括如下几个部分2.2.1采样,将模拟信号数字化;2.2.2确定输入信号(单元或词)的起始端和终止端,通过语音检测器对语音信号的幅度值是否超过最低限值来判定;2.2.3由数字滤波器直接地或由模拟滤波器间接地计算语音谱;2.2.4音调轮廓图估价;2.2.5分解输入信号,鉴定语音的特征;2.2.6单词识别,既可利用“自底朝上”技术将输入的语音特征与所需要词汇的特征比较而确定,也可以利用“自顶朝下”技术在数据库的模式中确定全部输入单元代表的词语;2.2.7对输入信息做出响应,即显示相应的词汇或字符串等。2.3语音识别的步骤分为两步2.3.1根据识别系统的类型选择能满足要求的一种识别方法,采用语音分析技术预先分析出这种识别方法所要求的语音特征参数,这些语音参数作为标准模式由计算机储存起来,形成标准模式库,或称为词典或模板。该过程称为“学习”或“训练”。在某些识别系统中,还备有专家知识库,在其中存储有语音学专家的各种知识,如同音字判决规则、构词规则、语法规则、语义规则等。对于不同的语种有不同的语言学专家知识库,对于汉语也有其特有的专家知识库。2.3.2就是识别的过程。先要对输入语音信号进行预处理,包括预加重、模数转换、自动增益控制(AGC)、去除噪声等。2.4评价一个实用的语音识别系统的优劣,主要应考虑三个方面:2.4.1使用时受限制的条件要少,这样应用的范围才能更广;2.4.2识别速度要快;2.4.3系统的价格要合理,否则就难以推广使用。目前,商用语音识别系统大都是限定孤立单词特定人的识别系统,这种系统存在的问题最少(如单词的端点检测比较容易,单词发音比较认真,单词之间的协同发音影响较少等),其识别技术可以用到单词挑选和连续语音识别中去。孤立单词识别系统的特征选取有幅度(或功率)、过零率、整体平衡(高低频能量平衡)和精确语谱等几种。在精确语谱中又有DFT频谱法、前三个共振峰法、LPC参数法和滤波器组输出法等几种,目前大多数实用识别系统采用的都是滤波器组法。3 语音识别技术的应用及最新进展目前市场上有许多种语音识别芯片。其中东芝公司的T6658A是性能价格比较好的一种芯片,它已成功应用于电话的语音拨号器,采用的就是滤波器组法的语音识别原理。随着语音识别技术的应用,计算机将会是一位与你交谈的伙伴,你可能只需要对着话筒说几句话,就可以实现那些隐藏在Windows层层菜单后面的功能。目前,国际商用机器公司(IBM)在这方面已经有成熟的产品。语音输入已经取代键盘和鼠标成为我们与计算机交流的又一方式。IBM曾在人民大会堂召开的新闻发布会上宣布了“听写系统”这一成熟技术商品化应用的成功,它的最主要特征是实现了中文连续语音识别,这标志着中文语音识别技术划时代的进展,这套系统还实现了非特定语音的识别,中文输入速度可达到平均每分钟150字,平均最高识别率达到95%,并具有“自我学习”的功能,很显然这将大大降低计算机应用的障碍,并简化了信息处理的方式。由于语音识别技术使得计算机能够听懂指令,因此,将语音识别、语言理解与大量的数据库检索和查询技术相结合,就能够实现更轻松的信息查询方式。语音识别技术在人工邮件分拣中的作用也日益显现,发展前景诱人。一些发达国家的邮政部门已经使用了这一系统。该系统的使用,大大提高了分拣质量和劳动生产率。随着科学技术的发展,语音识别技术逐渐成为邮件分拣的新技术,可以克服手工分拣单纯依靠分拣员记忆力的不足,解决人员成本过高的问题,提高邮件处理的效率和效益。就教育领域来讲,语音识别技术的最直接的应用就是帮助用户更好地练习语言技巧。如一家美国公司开发了一套Talk to Me,当用户跟着计算机说完一句话后,计算机会同时显示标准发音和用户发音的波形比照图,并给出分数。用户可以反复对比倾听来体会这种差异。不难想象,将语音技术应用于教育方面的空间是极其巨大的。在娱乐方面,也可以激发出许多的新应用。例如,在通过电话进行电视MTV点播时,可以直接说出哪个歌手的哪首歌,电视台就接受语音输入,而播放相应的曲目。随着网络技术的进一步发展,电子商务也正在日渐流行。语音识别技术和电子商务的结合,将创造一种全新的交易方式,我们可以做到足不出户就能够“逛”商场,购买到我们所需要的东西。而且,这种语音交流的方式比起网上购物更具有亲和力,同时也为我们的工作和生活带来极大的便利。语音门户的出现让用户可随时随地轻松获取各种信息。例如,用户只需用普通电话机或手机拨打语音门户网的800号码,就可在语音提示引导之下用自然语言和耳朵便捷地“浏览”所需信息。在这个过程中,不必键入菜单选择,仅需简单的语音应答即可完成操作。所以,语音门户简单易用无论是通过PC机、手机或者固定电话,也无论是在办公室、家中还是在路上、车上,“浏览”网络的过程变得轻松无比!除了语音识别技术之外,文字转换为语音(TTS)的技术水平的大大提高成为促进语音门户发展的另一个重要因素。2000年11月24日,TOM.COM在国内第一个开通了语音门户“TOM及时语”,用户通过拨打热线电话即可通过与系统的语音交互获得个人理财、语音邮件、航班查询、北京地区酒店预定、定餐及叫车、全球新闻、天气预报等内容广泛的服务。“TOM及时语”由于采用了计算机电话集成技术的开创者和领导者Intel子公司Dialogic的语音门户开发平台和全球语音技术领导者IBM公司的语音识别技术和语音合成技术,因此在短短3个月时间内就完成了系统的开发和测试,真正体现了互联网时代的效率和速度。这再次证明,快速、大规模部署语音门户的技术条件已经成熟,语音门户的时代已经到来!语音识别技术的另一个发展分支就是电话语音识别技术的发展,贝尔实验室是这方面的先驱,电话语音识别技术将能够实现电话查询、自动接线以及一些专门业务如旅游信息等的操作。银行应用了语音理解技术的声讯查询系统后,可不分昼夜地为客户提供二十四小时的电话银行理财服务。而证券业方面,若是采用电话语音识别声讯系统的话,用户想查询行情便可以直接讲出股票名称或代码,而系统确认用户的要求后,会自动读出最新的股票价,这将大大方便用户。目前在“114”查号台还有大量的人工服务,如果采用语音技术,就可让计算机自动接听用户的需要,然后回放查询的电话号码,从而节约了人力资源。声纹识别是语音识别技术的又一种应用。所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。声纹识别的应用虽然存在一些缺点,比如:同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;不同的麦克风和信道对识别性能的影响;环境噪音对识别的干扰以及多个说话人的情形下人的声纹特征不易提取等。但尽管如此,与其他生物特征诸如指纹识别、掌纹识别、虹膜识别等相比较,声纹识别的应用有一些特殊的优势:3.1蕴含声纹特征的语音获取方便、自然,因此使用者的接受程度较高;3.2获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;3.3适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网络(通讯网络或互联网络)实现远程登录;3.4声纹辨认和确认的算法复杂度低;3.5配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐,声纹识别的世界市场占有率15.8%,仅次于手指和手的生物特征识别,并有不断上升的趋势。4 目前仍存在的问题21世纪作为“语音的世纪”除了蕴含无限的商机以外,也表明了它们存在发展的空间。概括地讲,有这样一些问题急需解决:4.1语音识别的方言和口音问题。中文有八大方言区,现在很多语音识别系统,对标准普通话的识别性能很好,但是一旦有方言或者口音,性能就会马上下降。解决这个问题有着非常重要的意义,这将极大地拓展该技术的使用空间,因此必须下力气解决好这个问题。4.2信道问题。我们知道在无线互联应用中,涉及到的信道种类可能会很多,比如固定电话、手机、IP、网络、车载系统等等,各种各样的信道都有不同的特性。语音识别、声纹识别和语音理解如何去适应不同信道的差异是一个不得不面对的问题。我们既需要解决多信道的问题,也要解决跨信道的问题(在一个信道上学习,在另一个信道上识别)。4.3背景噪音问题。语音识别、声纹识别、语音理解等系统往往在有背景噪音时就不能正常工作了,这是由于背景噪音破坏了原始语音的频谱,或者说把原始语音部分或全部掩盖在噪音当中,因而无法准确地分离出来的缘故。解决好背景噪音的问题也是技术上面临的挑战之一。4.4自然语音理解领域,我们必须有很好的理论和技术去解决口语语言现象,比如口语中的重复、改正、强调、倒叙、省略、拖音、韵律等等。4.5语音合成。应该说现在的语音合成技术做得很好,能够把给它的文本正确地发出声音来,但是其中存在着一个很大的问题,就是它的声音不够自然。语音合成当中,怎样能够很好地把感情色彩、情绪等正确地表达出来,也需要进一步去研究。首先要解决的一个问题就是必须先对这句话(甚至整个段落)进行理解,理解之后才能够知道如何把韵律加进去,如何表达感情和情绪等。5 结语目前,Intel已经开始投资发展语音识别技术,In?鄄tel在中国建立的研究中心的一个重要项目就是语音识别。来自言丰科技的Voice Touch交谈式语音识别电话系统已经可以识别英语、普通话和广东话三种语言,而同时国外公司如IBM、L&H,国内公司如捷通等也都在开展相关的研究。网上交谈有两个层次,目前很流行的基于语音识别技术的“聊天室”还限于文字层面,你尽可以对着话筒说就是了,计算机将及时把它转成文字并发送出去;而最为理想的网上交谈是语音识别技术、机器翻译技术和语音合成技术的完美结合,这意味着你可以面对世界上任何地方的某个人自由地交谈。当你对着话筒说完后,计算机会识别你的语音并转化为文字,而机器辅助翻译则会马上将这些文字翻译成对方的文字并传送过去,对方的计算机则将这些文字再合成为语音并读出来,整个过程类似于“同声传译”,这将使整个世界消除了语言的障碍,使相互的沟

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论