人机交互语音识别技术_第1页
人机交互语音识别技术_第2页
人机交互语音识别技术_第3页
人机交互语音识别技术_第4页
人机交互语音识别技术_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音识别技术定义:语音识别是机器自动语音识别(AutomaticSpeechRecognitionbyMachine)的简称。语音识别是一种将人讲话发出的语音通信声波识别(转换)成为一种能够表达通信消息的符号序列。这些符号可以是识别系统的词汇本身,也可以是识别系统词汇的组成单元,在专业文献中常常称为识别系统的基元或子词基元。国外语音识别研究的历史

语音识别的研究工作大约开始于五十年代,当时AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统—Audry系统。六十一年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),而后者较好地解决了语音信号模型的问题,对语音识别的发展产生了深远影响。七十年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间规整技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统.我国的语音识别技术的发展(1)在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外,还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。(2)现在,国内有不少语音识别系统已研制成功。这些系统的性能各具特色。-在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。-在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。-在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。

语音识别系统的分类方式及依据

根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

语音识别的几种基本方法一般来说,语音识别的方法有三种:(1)基于声道模型和语音知识的方法(2)模式匹配方法(3)人工神经网络方法基于声道模型和语音知识的方法

基于声道模型和语音知识的方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。模式匹配方法

模式匹配常用的技术有动态时间规整(DTW)和矢量量化(VQ);统计型模型方法常见的是隐马尔可夫模型;语音识别常用的神经网络有反向传播(BP)网络,径向基函数网络(RBF)及新兴的小波网络。人工神经网络

关于神经网络在语音信号处理中的应用研究十分活跃,其中以在语音识别方面的应用最令人瞩目。目前,主要是从听觉神经模型中得到启发,以便构成一些具有类似能力的人工系统,使它们在解决语音信号处理(特别是识别)问题时能得到较好的性能。研究神经网络以探索人的听觉神经机理,改进现有语音语音识别系统的性能,是当前语音识别研究的一个重要方向。在模式识别的应用中,多采用Bp网和RBF网等前向神经网络来实现。

在过去一段时间,用得较多的是BP网络。但BP网络也有其自身的不足,那就是训练时间长,且容易陷入局部极小值。径向基函数(RBF)网络也是前馈网络中一类特殊的三层前向神经网络,其针对性强,学习方法简单、方便的特点,为前馈网络提供了一条新的思路。它是一种性能良好的前向网络.它不仅有全局逼近性质,而且训练方法快速易行,不存在局部最优问题。RBF这一新颖的网络类型的出现,给神经网络的研究及应用带来了新的生机。RBFNN的优良特性使得它正显示出比BP网络更强的生命力,正在越来越多的领域内成为替代BP网络的一种新型网络。语音识别系统的结构一个完整的基于统计的语音识别系统可大致分为三部分:

(1)语音信号预处理与特征提取;

(2)声学模型与模式匹配;

(3)语言模型与语言处理语音识别所面临的问题1、就算法模型方面而言,需要有进一步的突破。目前能看出它的一些明显不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。2.就自适应方面而言,语音识别技术也有待进一步改进。目前,象IBM的ViaVoice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。并且,不能指望将来的消费电子应用产品也针对单个消费者进行训练。3.就强健性方面而言,语音识别技术需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望计算机能听懂你的话,来自四面八方的声音让它茫然而不知所措。4、多语言混合识别以及无限词汇识别方面:简单地说,目前使用的声学模型和语音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。语音识别技术的应用和前景预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论