语音识别技术介绍.ppt

上传人：低*** IP属地：江西上传时间：2020-03-15 格式：PPT 页数：33 大小：1008.50KB 积分：12 举报 版权申诉

免费预览已结束，剩余28页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

语音识别概述让机器听懂人类的语音这是人们长期以来梦寐以求的事情伴随计算机技术发展语音识别己成为信息产业领域的标志性技术在人机交互应用中逐渐进入我们日常的生活并迅速发展成为改变未来人类生活方式厅的关键技术之一语音识别技术以语音信号为研究对象是语音信号处理的一个重要研究方向其最终目标是实现人与机器进行自然语言通信发展和现状 20世纪50年代 AT TBell 贝尔研究所成功研制了世界上第一个能识别10个英文数字的语音识别系统一Audry系统这标志着语音识别研究的开始 60年代计算机的应用推动了语音识别的发展这一时期的重要成果是动态规划 DynamicProgramming DP 和线性预测分析 LinearPredictive 技术其中后者较好的解决了语音信号产生的模型问题对语音识别产生了深远的影响语音识别概述 70年代语音识别领域取得了突破在理论上 LP技术得到进一步发展动态时间规整技术 DTW 的基本成熟特别是提出了矢量量化 VQ 和隐马尔可夫模型 HMM 理论在实践上小词汇量孤立词的识别方面取得了实质性的进展实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统这一时期的语音识别方法基本上是采用传统的模式识别策略 80年代语音识别研究进一步走向深入其显著特征是HMM模型和人工神经元网络 ANN 在语音识别中的成功应用 HMM模型的广泛应用应归功于AT TBel实验室的Rabiner等科学家的努力他们把HMM纯数学模型工程化从而为更多研究者了解和认识研究的重点逐渐转向大词汇量非特定人连续语音识别 90年代随着多媒体时代的来临在语音识别技术的应用及产品化方面出现了很大的进展许多发达国家如美国日本韩国以及IBM Apple AT T NTT等著名公司都为语音识别系统的实用化开发投以巨资语音识别技术实用化进程大大加速并出现了许多实用化产品 IBM公司率先推出的汉语ViaVoice语音识别系统带有一个32 000词的基本词汇表可以扩展到65 000词平均识别率可以达到95 可以识别上海话广东话和四川话等地方口音是目前具有代表性的汉语连续语音识别系统语音识别概述 21世纪语音识别技术的应用及产品化方面进一步发展在语音识别产品方面各大公司纷纷推出自己产品目前世界上最先进的语音识别软件既不是微软生产的也非IBM制造它的名字叫做NaturallySpeaking 出自于NuanceCommunications公司 NaturallySpeaking己经得到了大多数用户的认可用户对着麦克风说话屏幕上就显示出说话的内容很容易识别和纠正错误久而久之该软件就会适应用户的说话风格我国语音识别研究工作起步于五十年代但近年来发展很快研究水平也从实验室逐步走向实用从1987年开始执行国家863计划后国家863智能计算机专家组为语音识别技术研究专门立项每两年滚动一次我国语音识别技术的研究水平己经基本上与国外同步在汉语语音识别技术上还有自己的特点与优势并达到国际先进水平其中具有代表性的研究单位是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室由清华大学电子工程系语音技术与专用芯片设计课题组研发的非特定人汉语数码串连续语音识别系统识别精度达到了94 8 不定长数字串和96 8 定长数字串语音识别概述语音识别系统分类从说话者与识别系统的相关性分 1 特定人语音识别系统仅考虑对于专人的话音进行识别与说话的语种没有关系 2 非特定人语音识别系统识别的语音与人无关通常要用大量不同人的语音数据库对识别系统进行学习识别的语言取决于采用的训练语音库 3 多人的识别系统通常能识别一组人的语音该系统通常要求对该组人的语音进行学习通常可以识别三到五个人的语音从说话的方式分 1 孤立词语音识别系统其输入系统要求输入每个词后要停顿 2 连接词语音识别系统其输入系统要求对每个词都清楚发音开始出现一些连音现象 3 连续语音识别系统连续语音输入自然流利的语音会出现大量的连音和变音另外从识别系统的词汇量大小分小词汇量语音识别系统几十个词中等词汇量语音识别系统几百到上千个词大词汇量语音识别系统几千到几万个词语音识别概述语音识别的基本方法一般来说语音识别的方法有三种基于声道模型和语音知识的方法模板匹配的方法以及利用人工神经网络的方法 1 语音学和声学的方法该方法起步较早在语音识别技术提出的开始就有了这方面的研究但由于其模型及语音知识过于复杂现阶段没有达到实用的阶段 2 模板匹配的方法模板匹配的方法发展比较成熟目前己达到了实用阶段常用的技术有三种动态时间规整 DTW 隐马尔可夫 HMM 理论矢量量化 VQ 技术 3 神经网络的方法基于ANN的语音识别系统通常由神经元训练算法及网络结构等三大要素构成由于基于神经网络的训练识别算法由于实现起来较复杂目前仍只是处于实验室研究阶段语音识别概述目前语音识别的研究主流是大词汇量的非特定人的连续语音系统但是事实上对于许多应用来说一个语音识别系统只要一组词汇或命令它就可能为用户提供一个有效的工具简单有效的孤立词特定人语音识别系统就能满足要求正是孤立词特定人语音识别系统广阔的应用前景以及优越性促使我们继续对它进行研究目前市场上出现的语音识别器大多数是特定人孤立单词语音识别系统孤立词语音识别系统中的难点问题 1 语音信号的多变性语音信号是非平稳随机信号不但不同发音者发音之间存在重大的差异即使同一人同一语音的不同次发音也存在很大差异 2 噪声影响当实际环境中有噪声存在时容易造成训练与测试环境不匹配导致语音识别系统性能急剧下降 3 端点检测统计表明语音识别系统一半以上的识别错误来自端点检测错误在安静环境下有声段和无声段时能量存在很大差异由此判断语音的起点但是当噪声的能量和语音信号的能量接近时就可能造成端点检测的误差从而导致识别结果错误语音识别概述 4 词与词的特征空间混叠语音识别的常规方法是利用语音信号的短时周期特性将语音时域采样信号分为若干段计算出每一段的特征矢量序列作为识别参数但是很多不同的词语的矢量序列在特征空间中存在混叠现象甚至有些不同词语的混叠程度会超过同一词语的不同次发音从而降低识别率语音识别系统基本原理语音信号产生模型语音是由空气流激励声道产生的对于浊音清音和爆破音三种不同类型的音来说激励源是不同的浊音激励源是位于声门处的准周期脉冲序列清音的激励源是位于声道的某个收缩区的空气湍流类似于噪声而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放语音生成系统分为三个部分在声门声带以下称为声门子系统它产生激励振动是激励系统从声门到嘴唇的呼气通道是声道系统语音从嘴唇辐射出去所以嘴唇以外是辐射系统因此完整的语音信号的数学模型可以用三个子模型激励模型声道模型和辐射模型的串联表示语音信号产生的时域模型语音识别系统基本原理语音识别系统基本原理语音信号分析基础语音信号的分析主要有时域分析和频域分析两种其他还有倒谱域语谱分析等语音信号是一种典型的非平稳信号语音的形成过程与发音器官的运动密切相关这种物理运动比起声音振动速度来讲要缓慢得多因此语音信号可假定为短时平稳的其频谱特性和某些物理参数在10 30ms时间段内是近似不变的对语音信号进行处理都是基于这个假设语音信号的时域分析参数主要有短时能量短时平均幅度短时过零率等这些参数主要用在语音端点检测中频域分析参数主要有基音频率滤波器组参数线性预测系数 LPC 线性预测倒谱系数 LinearPredictionCepstrumCoefficient LPCC 线谱对参数 LinearSpectrumPair LSP MEL频率倒谱系数 Mel FrequencyCepstrumCoefficient MFCC 等语音识别系统基本构成语音识别系统基本原理语音识别系统基本原理预处理预处理部分包括语音信号的采样反混叠滤波语音增强去除声门激励和口唇辐射的影响以及噪声影响等预处理最重要的步骤是端点检测特征提取特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语音信号特征的参数如平均能量过零数共振峰倒谱线性预测系数等以便训练和识别参数的选择直接关系着语音识别系统识别率的高低训练训练是建立模式库的必备过程词表中每个词对应一个参考模式它由这个词重复发音多遍再经特征提取和某种训练中得到模式匹配模式匹配部分是整个系统的核心其作用是按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度最匹配的就是识别结果预处理及特征参数提取语音信号的数字化和预处理1 语音信号数字化要了分析说话人的语音就要将话筒中传来的语音信号转换成计算机所能处理的数字信号通过对语音信号特性的分析表明浊音语音的频谱一般在4KHz以上便迅速下降而清音语音信号的频谱在4KHz以上频段反而呈上升趋势甚至超过了8KHz以后仍没有明显下降的苗头实验表明语音清晰度和可懂度有明显影响的成分最高频率约为5 7KHz 而语音信号本身的冗余度又比较大少数辅音清晰度下降并不明显影响语句的可懂度因此语音识别时常用的采样频率为10KHz或16KHz 2 预加重为了消除声门激励和口鼻辐射的影响需要对语音信号作预加重理它的目的在于消除低频干扰尤其是50Hz的工作频率干扰将对语音识别更为有用的高频部分的频谱进行提升使信号的频谱变的平坦保持在低频到高频的整个频带中能用同样的信噪比求频谱以便于频谱分析预加重数字滤波器一般是一阶的数字滤彼器其中u的取值一般介于0 93和0 98之间预处理及特征参数提取 3 语音分帧语音信号常常可假定为短时平稳的即在10 20ms这样的时间段内其频谱特性和某些物理特征参量可近似地看作是不变的这样就可以采用平稳过程的分析处理方法来处理了这种处理的基本方法是将语音信号分隔为一些短段即分帧再加以处理分帧可以采用连续分段的方法也可采用交叠分段的方法一般采用交叠分段的方法即帧与帧之间有交叠交叠的目的是使帧与帧之间平滑过渡保持其连续性语音信号处理的帧长一般取20ms 为了减小语音帧的截断效应需要加窗处理矩形窗 Hamming Hann 矩形窗的主瓣宽度最小旁瓣高度最高会导致泄漏现象汉明窗的主瓣最宽旁瓣高度最低可以有效的克服泄漏现象具有更平滑的低通特性应用更广泛预处理及特征参数提取预处理及特征参数提取语音信号的时域分析1 短时平均能量短时平均能量反映了语音振幅或能量随着时间缓慢变化的规律可以从语音中区别出浊音来因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多其计算公式如下 2 短时过零率短时过零率表示一帧语音中语音信号波形穿过横轴的次数对于连续信号过零率意味着时域波形通过时间轴在离散时间信号情况下当相邻的两次抽样具有不同的代数符号时就称为发生了过零应用短时平均过零率可以得到谱特性的粗略估计短时平均过零率的定义为浊音时能量集中于较低频率段内具有较低的过零率而清音时能量集中于较高频率段内具有较高的过零率预处理及特征参数提取预处理及特征参数提取 3 端点检测端点检测的目的就是从连续的声音中间检测出每一段语音的起始点和终止点从而达到节省系统资源方便实时分析的效果此外端点检测的好坏还将直接影响孤立词识别率的高低双门限前端检测算法是经典的起止点检测算法这种端点检测技术主要利用短时过零率特征和每帧的平均幅值特征来判断语音信号的起止点采用矩形窗进行分帧预处理及特征参数提取端点检测效果图预处理及特征参数提取语音信号的特征参数提取提取特征参数满足的要求 1 能有效地代表语音特征具有很好的区分性2 参数间有良好的独立性3 特征参数要计算方便要考虑到语音识别的实时实现常用的特征参数包括线性预测系数 LPC 线性预测倒谱系数 LinearPredictionCepstrumCoefficient LPCC MEL频率倒谱系数 Mel FrequencyCepstrumCoefficient MFCC 预处理及特征参数提取倒谱介绍倒谱定义为时间序列的z变换的模的对数的逆z变换倒谱分析的基础是假设语音是激励函数与声道冲激响应的卷积语音的倒谱实际上是将语音的频谱短时谱取对数后再进行逆傅里叶变换实际上代之以DFT 得到的因此声道滤波器对于倒谱的贡献将表现为 0附近的峰起而周期性脉冲激励对倒谱的贡献将表现为具有同样周期的冲击预处理及特征参数提取线性预测系数 LPC 语音的线性预测基本思想是语音信号的每个取样值可以用它过去的若干个取样值的线性组合来表示各加权系数的确定原则是使预测误差的均方值最小如果利用过去p个取样值来进行预测称为p阶线性预测假设前提语音信号可以看成是一个线性时变系统在准周期脉冲序列相当于浊音或随即噪声相当于清音激励下所产生的输出对于除鼻音和摩擦音以外的大多数语音来说时变线性系统都可以用一个全极点系统来表示这个全极点时变系统的参数随着时间的变化是非常缓慢的在一帧语音时间内可以近似地认为它是非时变的这样就可以根据该信号过去的p个取样值对信号的当前值进行预测而且在均方误差最小的意义上这种预测是最佳的预测系数必将等于全极点系统的参数预处理及特征参数提取线性预测倒谱系数 LPCC 通过线性预测得到全极点系统函数为倒谱定义为时间序列的z变换的模的对数的逆z变换因此线性预测倒谱可表示为 LPCC系数主要是模拟人的发声模型未考虑人耳的听觉特性它对元音有较好的描述能力对辅音描述能力及抗噪性能比较差其优点是计算量小易于实现预处理及特征参数提取 MEL频率倒谱系数MFCCMFCC参数是目前大多数语音识别系统中广泛使用的特征参数它是基于人耳的听觉特性人耳对声音音调的感受与其频率并不成线性关系而Mel倒谱尺寸则更符合人耳的听觉特性 Mel频率尺度它的值大体上对应于实际频率的对数分布关系 Mel频率与实际频率的具体关系可用下式表示 MFCC的计算流程可以简单的概括为以下五个步骤 1 分帧2 DFT计算谱系数3 对谱系数的幅值取log4 将3中的结果转化到Mel频标下5 做DCT变换MFCC与基于线性预测的LPCC相比其突出优点是不依赖全极点语音产生模型的假定因而在噪声环境下表现出更强的鲁棒性在非特定人语音识别方面有利于减小因说话人不同的差异可能带来的影响不足之处是MFCC方法中多次用到FFT 故算法的复杂程度远大于LPCC方法 Mel滤波器组预处理及特征参数提取语音模板及相似性判断方法模板训练方法偶然性训练方法每个单词的每一遍读音形成一个模板在识别时待识别语音特征矢量序列用特定的匹配算法分别求得与每个模板的累计失真然后判别它属于哪一类鲁棒性训练方法将每一个词重复说多遍直到得到一个

人人文库> 全部分类> 应用文书 > 项目管理

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音识别技术介绍.ppt

文档简介

温馨提示

最新文档

评论

语音识别技术介绍.ppt

文档简介

温馨提示

最新文档

评论

相关文档