自动语音识别技术的发展.doc_第1页
自动语音识别技术的发展.doc_第2页
自动语音识别技术的发展.doc_第3页
自动语音识别技术的发展.doc_第4页
自动语音识别技术的发展.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

济南思奇科技有限公司 E-mail:自动语音识别技术如今,随着研究和开发语音产品的厂家如雨后春笋般地涌出,市场上的IVR(交互语音应答平台)和语音识别产品及应用也就多如牛毛起来。令人欣喜的是,在这个发展如此迅速的市场里,新技术的发展正不断地扩大它的范围。同时,TTS(文语转换)和ASR(自动语音识别)引擎结合自然语言处理的应用也随之产生。ASR把用户的语音转换为不同词语组成的文本句子。而TTS则把此文本句子转换为计算机生成的语音。介乎两者之间,自然语言技术则让计算机可以理解用户所说的是什么。这些技术的结合使得人类语言和应用之间的相互交互成力可能,从而避免了对预先录制的语音文件或人工输入设备的需求。更为可喜的是,TTS技术刚经历了一个里程碑式的发展:最新的语音合成引擎把连接技术(connectenation:预先录制好的真实语音段相连接)的最新发展和新的合成算法结合起来。最终导致的结果是把传统TTS引擎产生的机器合成的语音彻底滑入终结深渊。这些引擎对于电话等业界来说是非常理想的,因为这些业界需要高质量的话音,而且也可以支持这种功能强大的引擎。它们在银行、电信、机票预定和其它一些领域都有着很大的市场潜力,这些领域都是利用电话系统从本身的数据库中为客户提供动态的信息检索。这种技术进步同时也意味着阻碍人类和计算机进行双向交谈的障碍消失,以及真正的自然语言对话系统的产生。先前,开发商认为TTS最大的绊脚石是缺乏足够的自然特性,也就是说TTS产生的语音是机械的和不友好的。在上个世纪八十年代和九十年代初期风行的TTS应用主要还是依赖于一种称为共振峰合成(formant synthesis)的技术,它的原理是处理器产生一个波形,然后让该波形通过各种滤波器以形成一个语音波。尽管这种技术具有改变话音音调和持续时间的功能,可产生的声音仍然具有明显的合成痕迹,而且难以理解。因此,要成为实际应用就有了一定的局限性。随着处理器和存储器在容量上的增长和在价格上的降低,开发商已经开始利用更大的语音段来更加方便地开发听起来更加自然的声音。同时,开发商也采用了新的技术来更加有效地连接这些语音段,从而产生更加顺畅更加自然的合成声音。有更多的语音段,有更好的方法来连接这些语音段,以及经过改进的处理能力和完善的语言学准则,所有这些因素综合起来就可以对各种不同的文本输入提供智能的更自然的拼读。此外,由于合成声音是在对话间隙产生的,再加上先进的连接算法,真正文互式的IVR时代之门已经逐步开启。对于呼叫中心来说,TTS和ASR的融合意味着两重含义。其一,由于声音更加接近人类的语言,因此改进后的TTS将有助于增强用户对该技术的认可程度;其二,更加自然的TTS和高质量的语音识别器能让计算机和人们进行真正意义上的对话,这样,计算机就能理解对方(人)说的什么,并且在自己模糊不清的时候,向对方咨询以求明晰。一、模糊语音一般来说,未来的语音接口取决于计算机和用户进行交互的能力。这也就是说,计算机必须能够生成一些问题来澄清或验证它们所听到的,就象人类进行类似的举止一样。尽管预录音技术解决了实际的语音接口问题。但是它把计算机限制在只能重复一些开发商预先设计好的问题,而排除了真正文互的对话。而此正是需要而且正在改变的问题所在。和新的ASR技术相结合的最新合成器,可以让计算机生成任何必要的问题来明晰语声输入内容。由于TTS语音质量取得了很大进步,开发商正把注意力集中在推出新的自然语言对话系统上,该系统把TTS和自然语言ASR结合了起来。自然语言对话系统可以让计算机的行为方式类似于下面乙方所说的那样:甲方:我想订一张星期五飞往上海的机票。乙方:好的,请您稍等. . . . .乙方:请问先生,您是要头等舱,还是经济舱?甲方:头等舱。 乙方:好的先生,机票已经为您打印完毕,请您收好,谢谢惠顾,请问先生,还有什么可以帮您? 甲方:暂时没有了 乙方:好的先生,欢迎您的下次光临,再见。二、旧技术的新生机基本的语音合成过程分为两步。首先,标准格式的文本被转换为一种语音表示,并用标记符表示重音和其它一些拼读指南。然后,通过合成过程产生声音,这个过程可能是通过DSP(数字信号处理器)、微处理器或者两者共同来实现的。语音表示最后就成了语声。新的ASR引擎利用了一种基于人工智能的自然语言理解技术来理解语音。这种技术利用基于语洁的语音理解软件来增强传统的语音识别功能。计算机然后就可以生成语声抽象含义的译文。语音识别软件利用基本的语法规则来对句子进行剖析:主语,动词,宾语等等。ASR引擎则运用自然语言理解技术来确定句子的含义,然后用系统可以理解的一系列命令来主成一个问题。一旦这些命令被处理为一个句子,语音合成器就把该句子转换为相应的词语。厂商希望更加接近人类生活的对话系统将能开启推出大量新型网络服务的大门,其中包括远程电子邮件、远程数据库访问、语音邮件和传真。语音识别和呼叫中心之间的最佳融合就是这些新型网络服务的涌现和普及,以及其它一些新兴的应用。随着ASR和TTS的发展,业界观察家认为业界里将出现更多的新的基于语声的应用和服务。三、方便可行TTS有两大主要技术一共振峰和连接合成。连接合成就是把经过处理的语音段成可以识别的人类语声,它主导了TTS的发展潮流。连接系统利用芯片来存储真实的录制好的语音段,这些语音段是由构成任何语言中词语的不可简约的单元组成。呼叫中心应用里融合这项技术的困难存在于两个方面。其一,计算机存储器的有限性和语音质量之间的平衡。开发商认识到,他们所使用的语音段越大,所生成的语声就更加自然。他们需要更多的存储器来保存和访问这些段,而下是已经切实可行的处理技术。其二,由于人类声音的特性,要把语音段以一种自然的方式连接起来也是非常困难的。开发商把连续的人类声音的流动曲线分为声调、旋律和韵律。没有这种区分,计算机产生的语言就会显得不匀,脱节和明显的人工拼凑。而这些正是过去TTS引擎的缺陷所在。开发商已经开始利用便宜的但功能却更加强大的处理器来生成大的语音段,从而使得自然语声的产生更加方便。同时,他们还在算法上进行改进来更加有效地连接这些语音段。一种功能更强大的新型TTS引擎如今正进入市场。许多开发商欣欣然于他们已经清除了阻碍真正可行的对话接口的障碍。而这正是业界迈向新时代的动力所在。四、语音技术的未来趋向语音技术的发展使得现在的TTS和ASR应用越发显得吸引人。但是语音接口的未来还是取决于计算机和用户进行会话式交互的能力,这类似于人类的口头表达能力。计算机处理能力的增强最终将促使开发商不仅仅局限在自然语音上,而要进一步开发出能够具有流畅语言能力的应用,就象一个有很好表达能力和想象力的读者一样。这些应用能够理解谈话双方的内容,而且可以预测不同事件的因果关系。一个大声讲话的的人可以鉴别出语调和含义,也可以根据谈话的相关内容表现出幽默、讽刺等语气。计算机能在合成语声的基础上增加比较高的理解能力和上下文关联能力,并能生成并询问任何问题。电子邮件、统一消息系统、数据访问、安全系统、各种类型的基于文本的销售和服务、导航系统、语音邮件系统和新的电话目录服务是不久的将来需要TTS和ASR技术的领域。到时,真正的对话将会取代现有的招人烦的键盘输入方式。现在,消费者已经可以方便地从自动系统中检索信息了,一个相当自然的声音将读出她他的电子邮件、帐户信息、标题新闻、股票报价或We

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论