最新语音识别技术与声纹鉴定原理.ppt

上传人：T*** IP属地：江西上传时间：2020-02-11 格式：PPT 页数：189 大小：5.27MB 积分：16 举报 版权申诉

已阅读5页，还剩184页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

VoiceRecognition 01 02 03 技术简介应用领域发展前景 2018年1月语音识别是以语音为研究对象通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言就是让机器听懂你说话语音识别技术的应用包括语音拨号语音导航室内设备控制语音文档检索简单的听写数据录入等语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合可以构建出更加复杂的应用例如语音到语音的翻译人机交互方式图形用户界面 GraphicUsersInterface 多点触控 MultiTouch 语音识别 VoiceRecognition 应用领域身边的语音识别 SiriGooglenow车载导航智能PDA 语音搜索早先的模式是我们可以通过打电话的方式查一些专项的资讯比如天气预报或者打12315 随着服务的延伸呢很多的企业都尽力了自己的客户专线实际上这个时候语音信息的服务就由企业为他的用户提供主要是产品或者服务的资讯或者售后服务常见的有Apple的Siri和Google的GoogleNow 生活中时常听到很熟悉的旋律却想不出歌曲的名字这个时候我们就可以直接利用语音识别功能来查找相关歌曲常见的有微信摇一摇搜歌以及其他音乐播放软件的搜索功能由于在汽车的行驶过程中驾驶员的手必须放在方向盘上因此在汽车上拨打电话需要使用具有语音拨号功能的免提电话通信方式此外对汽车的卫星导航定位系统 GPS 的操作汽车空调照明以及音响等设备的操作同样也可以由语音来方便的控制用语音可以控制电视机 DVD 空调电扇窗帘的操作而且一个遥控器就可以把家中的电器皆用语音控起来这样可以让令人头疼的各种电器的操作变得简单易行随着互联网的快速发展以及手机等移动终端的普及应用目前可以从多个渠道获取大量文本或语音方面的语料这为语音识别中的语言模型和声学模型的训练提供了丰富的资源使得构建通用大规模语言模型和声学模型成为可能最新进展目前国外的应用一直以苹果的Siri 谷歌的GoogleNow为代表国内方面科大讯飞云知声盛大捷通华声搜狗语音助手紫冬口译百度语音等系统都采用了最新的语音识别技术市面上其他相关的产品也直接或间接嵌入了类似的技术最新进展发展前景语音识别系统的出现会让人更加自由的沟通让人在任何地方任何时间对任何事都能够通过语音交互的方式方便地享受到更多的社会信息资源和现代化服务这必然会成为语音识别技术研究和应用的重要发展趋势发展前景但任何技术的成熟都会经历一段很长时间的发展期所以目前依然有识别率可靠性及成本等问题亟待人们去克服 VideoDisplay 主要问题对自然语言的识别和理解首先必须将连续的讲话分解为词音素等单位其次要建立一个理解语义的规则语音信息量大语音模式不仅对不同的说话人不同对同一说话人也是不同的例如一个说话人在随意说话和认真说话时的语音信息是不同的一个人的说话方式随着时间变化主要问题语音的模糊性说话者在讲话时不同的词可能听起来是相似的这在英语和汉语中常见 4 环境噪声和干扰对语音识别有严重影响致使识别率低语音识别概述 1 HMM基本原理及在语音识别中的应用 2 10 1概述语音识别以语音为研究对象涉及到生理学心理学语言学计算机科学以及信号处理等诸多领域最终目的是实现人与机器进行自然语言通信用语言操纵计算机语音识别系统可以分为孤立字词语音识别系统连接字语音识别系统以及连续语音识别系统语音识别系统分为两个方向一是根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统二是根据词汇量大小可以分为小词汇量中等词汇量大词汇量以及无限词汇量语音识别系统不同的语音识别系统尽管设计和实现的细节不同但所采用的基本技术是相似的一个典型的语音识别系统如下页图所示主要包括预处理特征提取和训练识别网络 10 1 1预处理在语音识别系统中语音信号预处理主要包括抗混叠滤波预加重及端点检测等 1 抗混叠滤波与预加重语音信号的频谱分量主要集中在300 3400Hz范围内因此需用一个防混叠的带通滤波器将此范围内的语音信号的频谱分量取出然后对语音信号进行采样得到离散的时域语音信号抗混叠滤波根据采样定理如果模拟信号的频谱的带宽是有限的那么用等于或高于2fm的取样频率进行采样所得到的信号能够完全唯一的代表原模拟信号或者说能够由取样信号恢复出原始信号因此为了防止混叠失真和噪声干扰必须在采样前用一个锐截止模拟低通滤波器对语音信号进行滤波该滤波器称为反混叠滤波器或去伪滤波器预加重语音从嘴唇辐射会有6dB oct的衰减因此在对语音信号进行处理之前希望能按6dB oct的比例对信号加以提升或加重以使得输出信号的电平相近似可采用以下差分方程定义的数字滤波器 2 端点检测语音信号起止点的判别是任何一个语音识别系统必不可少的组成部分常用的端点检测方法有下面两种 1 短时平均幅度端点检测中需要计算信号的短时能量由于短时能量的计算涉及到平方运算而平方运算势必扩大了振幅不等的任何相邻取样值之间的幅度差别这就给窗的宽度选择带来了困难而用短时平均幅度来表示语音能量在一定程度上可以克服这个弊端 2 短时平均过零率当离散信号的相邻两个取样值具有不同的符号时便出现过零现象单位时间内过零的次数叫做过零率如果离散时间信号的包络是窄带信号那么过零率可以比较准确的反应该信号的频率在宽带信号情况下过零率只能粗略的反映信号的频谱特性 10 1 2语音识别特征提取特征提取也称为前端处理与之相关的内容则是特征间的距离度量特征提取即对不同的语音寻找其内在特征由此来判别出未知语音所以每个语音识别系统都必须进行特征提取特征的选择对识别效果至关重要同时还要考虑特征参数的计算量孤立词语音识别系统的特征提取一般需要解决两个问题一个是从语音信号中提取或测量有代表性的合适的特征参数即选取有用的信号表示另一个是进行适当的数据压缩对于非特定人语音识别来讲希望特征参数尽可能多的反映语义信息尽量减少说话人的个人信息对特定人语音识别来讲则相反从信息论角度讲这也是信息压缩的过程语音信号的特征主要有时域和频域两种时域特征短时平均能量短时平均过零率共振峰基音周期等频域特征线性预测系数 LPC LP倒谱系数 LPCC 线谱对参数 LSP 短时频谱 Mel频率倒谱系数 MFCC 等目前已有结合时间和频率的特征即时频谱充分利用了语音信号的时序信息以及基于听觉模型的特征参数提取如感知线性预测 PLP 分析 1 线性预测系数 LPC 线性预测分析从人的发声机理入手通过对声道的短管级联模型的研究认为系统的传递函数符合全极点数字滤波器的形式从而某一时刻的信号可以用前若干时刻的信号的线性组合来估计通过使实际语音的采样值和线性预测采样值之间达到均方误差 MSE 最小即可得到线性预测系数LPC 根据语音产生的模型语音信号S z 是一个线性非移变因果稳定系统V z 受到信号E z 激励产生的输出在时域中语音信号s n 是该系统的单位取样响应v n 和激励信号e n 的卷积语音产生的声道模型是一个可用下式阐述的全极点模型根据最小均方误差对该模型参数ak进行估计就得到了线性预测编码 LPC 算法求得的即为LP系数 p为预测器阶数对LPC的计算方法有自相关法 Levinson Durbin莱文逊杜宾法协方差法格型法等计算上的快速有效保证了这一声学特征的广泛使用 2 LPC倒谱系数 LPCC 倒谱系数是信号的z变换的对数模函数的逆z变换一般先求信号的傅里叶变换取模的对数再求傅里叶逆变换得到主要优点比较彻底地去掉了语音产生过程中的激励信息反映了声道响应而且往往只需要几个倒谱系数就能够很好地描述语音的共振峰特性 3 Mel频率倒谱系数 MFCC Mel频率倒谱系数是先将信号频谱的频率轴转变为Mel刻度再变换到倒谱域得到倒谱系数其计算过程如下 1 将信号进行短时傅立叶变换得到其频谱 2 求频谱幅度的平方即能量谱并用一组三角滤波器在频域对能量进行带通滤波 3 对滤波器的输出取对数然后作2M点傅立叶逆变换即可得到MFCC 这里 MFCC系数的个数L通常取最低的12 16 在谱失真测度定义中通常不用0阶倒谱系数因为它是反映倒谱能量的上面所说的在频域进行带通滤波是对能量谱进行滤波这样做的根据是考虑到一个多分量信号的总能量应该是各个正交分量的能量之和 4 过零峰值幅度 ZCPA 特征参数的好坏直接决定着系统的识别性能要想使识别系统有好的鲁棒性必须要求提取的特征参数有很强的抗噪性人类的听觉系统在噪音环境下能够很好工作所以如果语音识别系统能模拟人类听觉感知的处理特点噪音环境下识别率一定会提高近年来基于听觉模型的语音特征提取方法在语音识别领域日益受到重视过零峰值幅度特征ZCPA就是基于人类听觉特性的一种特征下图给出了基于人耳听觉特性的ZCPA特征提取原理图 ZCPA原理框图该系统由带通滤波器组过零检测器峰值检测器非线性压缩和频率接收器组成带通滤波器组由16个FIR滤波器组成用来仿真耳蜗基底膜过零检测器峰值检测器非线性压缩部分则仿真听觉神经纤维从过零检测器获得频率信息峰值检测器获得强度信息经非线性压缩后用频率接收器合成频率信息和强度信息最后将16路所获得的信息合成为语音信号的特征 10 1 3语音识别方法一般来说语音识别的方法有四种基于声道模型和语音知识的方法模式匹配的方法统计模型方法人工神经网络的方法基于声道模型和语音知识的方法起步较早没有达到实用的阶段目前常用的方法是后三种方法目前它们都已达到了实用阶段模式匹配常用的技术有矢量量化 VQ 和动态时间规整 DTW 统计型模型方法常见的是隐马尔可夫模型 HMM 语音识别常用的神经网络有反向传播 BP 网络径向基函数网络 RBF 及小波网络本书重点介绍经典的隐马尔可夫模型及其在语音识别中的应用模式匹配法用于语音识别共有四个步骤特征提取模板训练模板分类判决其原理框图如下训练过程输入语音经过预处理后语音信号的特征被提取出来首先在此基础上建立所需的模板这个建立模板的过程称为训练过程识别过程根据语音识别整体模型将输入的语音信号特征与存在的语音模板参考模式进行比较找出一系列最优的与输入的语音相匹配的模板然后根据此模板号的定义通过查表就可以给出计算机的识别结果动态时间规整 DTW 算法的思想把未知量均匀地伸长或缩短直到它与参考模式的长度一致时为止在时间规整过程中未知单词的时间轴要不均匀地扭曲或弯折以便使其特征与模型特征对正 DTW应用动态规划方法在孤立词语音识别中获得了良好性能但因其不适合连续语音大词汇量语音识别系统目前已被HMM模型和ANN替代隐马尔可夫模型是对语音信号的时间序列结构建立统计模型将之看作一个数学上的双重随机过程一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程另一个是与Markov链的每一个状态相关联的观测序列的随机过程前者通过后者表现出来但前者的具体参数是不可测的基于HMM的孤立词语音识别原理图采用HMM进行语音识别实质上是一种概率运算根据训练集数据计算得出模型参数后测试集数据只需分别计算各模型的条件概率 Viterbi算法取此概率最大者即为识别结果除训练时需运算量较大外识别时的运算量仅有模式匹配法的几分之一人工神经网络 ANN 在语音识别中的应用是当前研究的热点人工神经网络本质上是一个自适应非线性动力学系统模拟了人类神经元活动的原理具有自适应性并行性鲁棒性容错性和学习特性目前用于语音识别的神经网络有多层感知机 Kohonen自组织神经网和预测神经网由于神经网络反映了人脑功能的基本特征具有自组织性自适应性和连续学习的能力这种网络是可以训练的即可以随着经验的积累而改变自身的性能同时由于高度的并行性它们能够进行快速判决并具有容错性特别适合于解决象语音识别这类难以用算法来描述而又有大量样本可供学习的问题基于神经网络的语音识别原理图神经网络的语音识别方法与传统方法差异提取了语音的特征参数后靠神经网络中大量的连接权对输入模式进行非线性运算产生最大兴奋的输入点就代表了输入模式对应的分类神经网络的连接权系数是在使用中根据识别结果的正确与否不断的进行自适应修正比较起来神经网络识别系统更接近人类的感知过程矢量量化技术在语音识别中应用时一般是先用矢量量化的码本作为语音识别的参考模板即系统词库中的每一个字词做一个码本作为该字词的参考模板识别时对于任意输入的语音特征矢量序列计算该序列对每一个码本的总平均的失真量化误差总平均失真误差最小的码本所对应的字词即为识别结果矢量量化在语音识别中的应用 10 2HMM基本原理及在语音识别中的应用 10 2 1隐马尔可夫模型马尔可夫过程或马尔可夫链直观解释是在已知系统目前的状态现在的条件下将来与过去无关这种过程也称为无记忆的单随机过程如果这种单随机过程的取值状态是离散的我们又可以将它称作无记忆的离散随机过程假设有一个系统它在任何时间可以认为处在有限多个状态的某个状态下在均匀划分地时间间隔上系统的状态按一组概率发生改变包括停留在原状态这组概率值和状态有关而且这个状态对应于一个可观测的物理事件因此称之为可观测马尔可夫过程不可测随机的双随机过程只能通过另一组随机过程才能观测到另一组随机过程产生出观测序列行为而这组行为是可见不可测的因此这种双随机过程称为隐马尔可夫模型或隐马尔可夫过程通常 HMM对应的状态被假设为离散的且其演变是无记忆的因而 HMM也被称为无记忆的离散双随机过程隐马尔可夫过程是一个双重随机过程一重用于描述非平稳信号的短时平稳段的统计特征信号的瞬态特征可直接观测到另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段即短时统计特征的动态特性隐含在观察序列中基于这两重随机过程 HMM既可有效解决怎样辨识具有不同参数的短时平稳信号段又可解决怎样跟踪它们之间的转化等问题人的言语过程也是这样一个双重随机过程因为语音信号本身是一个可观察的序列而它又是由大脑里的不可观察的根据言语需要和语法知识状态选择所发出的音素词句的参数流大量实验表明 HMM的确可以非常精确地描述语音信号的产生过程 1 N 模型的状态数目状态的集合表示为 2 M 观测符号数即每个状态可能输出的观测符号的数目观测符号集合表示为 3 A 状态转移概率分布状态转移概率构成的矩阵为一个隐马尔可夫模型由下列参数来决定 4 B 状态的观测符号概率分布 5 初始状态分布为了完整地描述一个隐马尔可夫模型应当指定状态数N 观测符号数M 以及三个概率密度A B和这些参数之间有一定的联系因此为了方便 HMM常用来简记 10 2 2隐马尔可夫模型的三个基本问题给定HMM的形式后为了将其应用于实际必须解决以下三个基本关键问题 1 已知观测序列和模型如何有效的计算在给定模型条件下产生观测序列的概率 2 已知观测序列和模型如何选择在某种意义上最佳的状态序列 3 给定观测序列如何调整参数使条件概率最大 1 第一个问题的求解这是一个评估问题即已知模型和一个观测序列怎样来评估这个模型它与给定序列匹配得如何或怎样给模型打分这个问题通常被称为前向后向的算法解决一前向算法首先要定义一个前向变量即在给定模型条件下产生t以前的部分观测符号序列且t时刻又处于状态Si的概率以下是前向变量进行迭代计算的步骤 1 初始化 2 迭代计算 3 最后计算其中为状态转移矩阵中的元素为观测符号矩阵中的元素二后向算法同理可以类似地定义后向变量即在给定模型及t时刻处于状态Si的条件下产生t以后的部分观测符号序列的概率 1 初始化 2 迭代计算 3 最后计算前向和后向算法对于求解问题2和问题3也是有帮助的后向变量也可以用迭代法进行计算步骤如下由于表示t时刻处于状态且部分观测序列为而表示t时刻处于状态且剩下部分的观测序列为因而表示产生整个观测序列O且t时刻处于状态的概率即那么问题1也可以通过同时使用前向后向概率来求解即 2 第二个问题的求解这个问题是求取伴随给定观测序列产生的最佳状态序列这一最佳判据目的就是要使正确的状态数目的期望值最大它通常用Viterbi算法解决用于模型细调首先定义变量它是在给定观测序列O和模型的条件下 t时刻处在状态Si的概率由于所以有且从而可求出在各个时刻所处的最可能的状态为可用前后向变量表示为但是上式的求解仅仅从每个时刻出现最可能的状态来考虑的而没有考虑到状态序列的发生概率如没有考虑全局结构时间上相邻状态以及观测序列的长度等等上述问题的解决办法是对最佳判据进行修正最广泛应用的判据是寻找单个最佳状态序列路径亦即使最大下面介绍的Viterbi算法就是一种以动态规划为基础的寻找单个最佳状态序列的方法完整的算法如下所述初始化 2 迭代计算 3 最后计算 4 路径状态序列回溯 3 第三个问题的求解这个问题是调整模型参数使观测序列在给定模型条件下发生概率最大即模型参数重估问题训练问题事实上给定任何有限观测序列作为训练数据没有一种最佳方法能估计模型参数但是可以利用迭代处理方法 Baum Welch法或称期望值修正法来选择 A B 以使得最大可以用参数重估来解决首先定义变量即给定模型和观测序列条件下在时间t处于状态Si 而在时间t 1处于状态Sj的概率根据前后向变量的定义从计算图可以看出可写成如下形式 t 1t 2计算示意图此前己经定义了为在给定模型和观察序列O的条件下在时刻t位于状态为Si的条件概率将对j求和可把两者联系起来即利用上面的公式及计算事件发生的概念可以得到估计隐马尔可夫模型参数的方法其计算公式如下 1 的重估公式即在时间t 1处于状态Si的次数的期望值 aij的重估公式bj Ok 的重估公式把现在的模型定义为 A B 把重估模型定义为以上述方法为基础如果不断地用代替并重复上述重估计算那么就能够改善由模型观测到O的概率直到达到某个极限点为止 4 解决下溢问题后的重估公式我们可以看到上面的重估公式均涉及到了前向变量和后向变量的计算而每个前向变量和后向变量都是通过递推计算得到的即是由连续相乘的概率值组成当t达到较大数值如100 时二者的动态范围会超过任何计算机的精度范围从而导致下溢因此要用软件实现此算法必须在计算过程中使用定标算法即每递推计算一次便对运算结果乘以一个适当放大的比例因子下面给出了详细的定标过程并且推导了加入定标因子后三个参数的重估公式包括单序列和多序列重估公式定标的基本方法是对和乘以一个定标系数该系数与t无关即它只取决于t 目的是使定标后的和总是处在计算机的动态范围之内在计算结束后应当去掉所有的定标系数下面给出完整的定标过程 1 对前向变量进行定标定标过程需要引入几个新的变量和是待求前向变量值设为递推值为修正递推值由于的下溢问题在实际计算过程中这个变量不能出现所以公式中的必须用修正递推值代替设ct为标度定标因子则前向变量的递推计算按下面步骤进行初始化递推定标后前向变量的计算公式为根据上两个公式可以得到推理后有下式成立由于前向概率用修正递推值表示为而所以 2 对后向变量进行定标同上我们引入两个变量即递推值和修正递推值初始化令同理类似于前向概率的定标最终可以得到加入定标算法后即用修正递推值代替原来的前后向变量改写三个参数重估公式前面给出了单个序列训练模型参数的重估公式对于非特定人识别系统如果语音的全部知识只是词汇表中每个单词的一个例词却期望识别器具有非常优良的性能是不可能的应该给识别器提供单词模式的各种变异情况比较好的办法就是每个单词要有多个例词发音所以不能用一个观测序列来训练模型为了有足够的数据来可靠地估计模型参数必须使用多个观测序列即每个模型参数都要使用多个样本来训练假设有L个样本对应于L个观测序列现假定每个观测序列都是相互独立的调整模型的参数以使L个乘积的值最大此时对重估公式的修正办法是把每个观测序列的概率加在一起这样修正后多序列的重估公式为单序列和多序列 i的重估公式中都出现了概率P的计算这样又会引入新的下溢问题解决办法是在迭代计算P的过程中每次都乘以一个较大的数这样分子分母每次都乘以一个相同的数二者在同一数量级上所以对重估公式没有影响 10 2 3隐马尔可夫模型用于语音识别 1 实验方法用C 语言在Windows操作系统上实现了一个基于离散HMM的孤立词语音识别系统共使用了50词16个人的不同信噪比的语音数据来做实验包括无噪音 15dB 20dB 25dB 30dB的数据每人每个词发音3次其中9人的语音数据某种SNR 用于训练模型另外7人的用于识别得到这种SNR下语音的识别结果每个词的HMM参数使用27个样本 9人3次来训练测试样本文件的数目依实验所用的词汇量而不同具体实验步骤第一步特征提取第二步矢量量化第三步训练隐马尔可夫模型第四步对测试集单词进行识别 2 实验结果及讨论下表为使用ZCPA特征和HMM的不同词汇量单词在各种SNR下的识别结果比较系统性能影响因素的讨论 1 矢量量化影响由于系统使用的是离散隐马尔可夫模型方法所以需要事先对每个单词的特征参数进行矢量量化这样不可避免地会引入量化误差所以应使用好的方法生成码书以减小由此引起的失真从而使系统性能所受影响尽可能减小 2 初值设定影响HMM训练方法 Baum Welch算法本质上是一种梯度下降方法在训练过程中有可能到达局部最小值因此初值的选取比较重要好的初值可以避免局部极小问题我们可以加入一定的优化方法来选取初值在离散HMM中参数B对系统的性能有很大影响超过了参数A和所以也可以单独对参数B初值的选取采用一定的优化方法 3 训练数据量的影响为了训练出可靠的参数模型必须加大训练集的数据当在训练集中又加入了5个人的语音数据共16人数据测试集数据量不变分别对10词到50词的数据进行了无噪音及信噪比为15dB 20dB 25dB 30dB clean条件下的实验结果如下表所示实验结果表明增加训练集的样本数后与9人训练相比系统识别率有大幅度提高 4 输出概率矩阵的平滑问题训练集的有限性使得训练完以后的B矩阵中有一些零元素这些不合理的零概率会给识别带来一定的影响解决这个问题有三种方法基数法距离法和同现法实验中采用的是最简单的基数法它是将B矩阵中小于某个给定最小值的元素e e依据生成矩阵确定赋给一个值取10 4 10 6 然后修改B矩阵的其它元素使它满足约束条件即在第j个状态下实验结论将B矩阵进行平滑处理后对训练集内数据做识别测试时称为特定人识别识别率随值增大而下降未进行平滑前训练集内数据识别率为100 平滑处理后识别率略有下降这是由于的设置改变了原有训练参数而引起的而对测试集数据进行识别测试时称为非特定人识别识别率随值增加而上升说明对于测试集越小适应能力越差所以这种输出概率矩阵平滑方法只适用于HMM的非特定人识别在我们前述的识别系统中选取 10 4 结果表明识别率较没有进行输出矩阵平滑前增加了10 左右语音识别系统简述语音识别系统的本质就是一种模式识别系统它包括特征提取模式匹配参考模式库等基本单元由于语音信号是一种典型的非平稳信号加之呼吸气流外部噪音电流干扰等使得语音信号不能直接用于提取特征而要进行前期的预处理预处理过程包括预滤波采样和量化分帧加窗预加重端点检测等经过预处理的语音数据就可以进行特征参数提取在训练阶段将特征参数进行一定的处理之后为每个词条得到一个模型保存为模板库在识别阶段语音信号经过相同的通道得到语音参数生成测试模板与参考模板进行匹配将匹配分数最高的参考模板作为识别结果语音识别原理框图语音信号预处理分帧在实际处理时可以将语音信号分成很小的时间段约10 30ms 5 7 称之为帧作为语音信号处理的最小单位帧与帧的非重叠部分称为帧移而将语音信号分成若干帧的过程称为分帧预加重对于语音信号的频谱通常是频率越高幅值越小在语音信号的频率增加两倍时其功率谱的幅度下降6dB 因此必须对高频进行加重处理一般是将语音信号通过一个一阶高通滤波器1 0 9375z 1 即为预加重滤波器其目的是滤除低频干扰加窗为了保持语音信号的短时平稳性利用窗函数来减少由截断处理导致的Gibbs效应用的最多的三种为矩形窗汉明窗 Hamming 和汉宁窗 Hanning 几种典型的窗函数矩形窗汉明窗 Hamming 哈宁窗 Hanning 1 0 n N 1 WR 0 Other 0 5 0 46cos 2 n N 1 0 n N 1 WHM 0 Other 0 5 0 5cos 2 n N 1 0 n N 1 0 Other WHN 语音信号端点检测在基于DTW算法的语音识别系统中无论是训练和建立模板阶段还是在识别阶段都先采用端点检测算法确定语音的起点和终点语音端点检测是指用计算机数字处理技术从包含语音的一段信号中找出字词的起始点及结束点从而只存储和处理有效语音信号 1 短时能量2 短时过零率3 双门限端点检测短时能量语音和噪声的主要区别在它们的能量上语音段的能量比噪声段的大语音段的能量是噪声段能量叠加语音声波能量的和短时过零率短时过零表示一帧语音信号波形穿过横轴零电平的次数对于连续语音信号过零意味着时域波形通过时间轴而对于离散信号如果相邻的取样值的改变符号则称为过零双门限端点检测双门限端点检测顾名思义需要两级检测即短时能量检测和短时过零率检测语音train 0 wav的时域分析参数语音train 0 wav的端点检测结果语音识别参数的提取经过预处理的语音数据就可以进行特征参数提取特征参数的好坏将直接影响系统的性能和效率提取出来的参数直接用来进行语音识别对特征参数的要求 1 提取的特征参数能有效地代表语音特征具有很好的区分性 2 各阶参数之间有良好的独立性 3 特征参数要计算方便最好有高效的计算方法以保证语音识别的实时实现 LPC与LPCC系数MFCC系数 LPC与LPCC系数 LPC 线性预测系数模拟人发音器官的声管模型是一种基于语音合成的参数模型在语音识别系统中很少直接使用LPC系统而是由LPC系数推出的另一种参数LPCC LPCC 线性预测倒谱系数是LPC在倒谱域中的表示 LPCC的优点是计算量小易于实现对元音有较好的描述能力缺点是对辅音描述能力较差 MFCC系数人的听觉系统是一个特殊的非线性系统它响应不同频率信号的灵敏度是不同的基本上是一个对数的关系近年来一种能够比较充分利用人耳的这种特殊感知特性的系数得到了广泛应用这就是Mel尺度倒谱系数即MFCC 大量研究表明 MFCC系数能够比LPCC参数更好地提高系统的识别性能 DTW算法实现 DTW DynamicTimeWarping 动态时间规整是语音识别中较为经典的一种算法在实现小词汇表孤立词识别系统时其识别率及其它指标与HMM算法实现几乎等同又由于HMM算法复杂在训练阶段需要提供大量的语音数据通过反复计算才能得到模型参数而DTW算法本身既简单又有效因此在特定的场合下获得了广泛的应用 DTW算法原理 DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术它寻找一个规整函数im in 将测试矢量的时间轴n非线性地映射到参考模板的时间轴m上并使该函数满足 D是处于最优时间规整情况下两矢量的距离由于DTW不断地计算两矢量的距离以寻找最优的匹配路径所以得到的是两矢量匹配时累积距离最小所对应的规整函数这就保证了它们之间存在的最大声学相似性算法实质为运用动态规划的思想利用局部最佳化的处理来自动寻找一条路径沿着这条路径两个特征矢量之间的累积失真量最小从而避免由于时长不同而可能引入的误差第一讲绪论 1 语音信号处理的概念2 语音信号处理的学科基础3 语音信号处理的分支和应用4 语音信号处理的发展历史5 本课程的内容和特点6 参考书目7 学习要求 1 语音信号处理的概念语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科 2 语音信号处理的学科基础 3 语音信号处理的分支和应用语音识别语音合成语音编码说话人识别 3 1语音识别 1 语音识别研究的目的就是研究出一种具有听觉功能的机器能直接接受人口呼的命令理解人的意图并做出相应的反应语音识别的应用语音识别技术在信息处理领域的首要的巨大应用将在于提供了一种全新的人机交互形式苹果的Siri Siri恶搞国人Siri Siri惊魂 Siri日式英语语音输入法语音识别的分类针对说话人特定说话人语音识别和非特定说话人语音识别针对词汇量小词汇量中词汇量和大词汇量的识别针对说话方式孤立词识别和连续语音识别针对识别环境实验室环境语音识别电话语音识别和广播语音识别语音信号和自然语言的多变性和复杂性 1 连续语音词与词之间没有明显的停顿词与词之间的分割比较困难 2 每一个基本的声学识别基元如音素受前后音素发音方式的影响协同发音使特征变得不稳定 3 不同人不同心理和生理以及在不同的说话环境下说同一词时声学信号特征会发生变化 4 一个词的读音不仅包含了词义特征而且还包含了说话人性别年龄情绪等大量与词义无关的信息而这些信息的分离是不容易的 5 自然语言的多变性难以借助于一些基本语法规则进行描述因而使计算机编程变得困难 6 语音信号往往受到其他信号的干扰和信道的影响 3 2语音合成语音合成是将计算机自己产生的或外部输入的文字信息转变为可以听得懂的流利的口语输出的技术让电脑说话语音合成的应用 1 海量信息查询类业务大部分海量信息如考试查分征婚启事人才信息电话广告等由于其内容庞大往往无法在短期内完成录音即使可以事先录音也需要很长的制作周期而且在量大的时候肯定会出现人为错误采用语音合成技术可以节约大量人力缩短开发周期而且能够完全保证了所有信息100 正确 2 动态信息查询类业务声讯节目逐渐地由现在娱乐型节目为主的节目构成转向以应用型的节目为主而多数的应用类节目对实时性要求比较高如证券行情订票订房等上述应用中动态信息不可能事先录音需要实时地从数据库中读取动态进行语音合成保证信息的实时性自动报时报警公共汽车或电车自动报站打印出版过程中的文本校对电子函件及各种电子出版物的语音阅读列车惊魂语音合成配音Tom猫咆哮体马丁路德金演讲大脑扫描语音合成语音合成的例子霍金不能说话和做手势如何演讲写字在霍金的眼镜上约距右颊一英寸处安装了负责侦测肌肉活动的红外线发射器及侦测器譬如他想打招呼说声你好他先以眼球控制红外线感应器选定在屏幕上轮流出现的英文字母当计算机出现他想要的 H 时霍金再动眼球这样计算机就会不断显示以 H 为字头的英文字当 HELLO 出现时他又动一下以选定这个字当他造句完毕后才把句子传至合成器发声因此霍金要说一句话就要逐字逐句输入计算机再由语音合成器将文字化成声音一分钟只能处理3 5个字科大讯飞语音合成在线演示 3 3语音编码语音编码的研究目的是如何在尽量减少失真的情况下高效率地对模拟语音信号进行数字表达 VOIP VoiceOverInternetProtocol 语音编码的应用数字通信系统移动无线通信保密语音通信 3 4说话人识别说话人识别声纹识别可分为两种说话人辨认说话人确认目前声纹识别已经在证券交易银行交易身份证信用卡的认证等领域均有应用在国外声纹识别技术已经取得了较为广泛的应用美国已把声纹识别用到保险银行等行业迪拜在交通管理上使用声纹验证来确认驾驶员身份戴尔公司已经实施了声纹认证用于网上订购菲律宾政府的养老金系统现在也可以通过声纹识别来完成身份认证在国内声纹识别技术目前已广泛应用于嵌入式系统同时其他方面的应用也逐渐兴起如招商银行已经于2008年8月开始与以色列的PerSay公司进行声纹识别方面的项目合作声纹识别已成功应用在司法鉴定领域利用声纹识别技术确定犯罪证据如通过分析电话录音资料来确定犯罪嫌疑人的身份和犯罪行为等做法已在一些刑事案件的侦破中得到应用美国在1971年就公开认可使用声纹鉴定在国内随着各种录音设备的普及声音材料的留存十分方便因此一些案件就可以借助声纹鉴定来协助案件的侦查和审理声纹鉴定已经成为国内司法鉴定机构的一种重要技术手段其在司法活动的某些方面已然发挥出显著的作用声纹识别的应用还杰克逊一个清白爆炸新闻拉登之死车臣总统杜达耶夫 4 语音信号处理的发展历史国外发展历史人们在19世纪就已经发现元音主要是靠第一共振峰和第二共振峰来区别声母的感知主要靠共振峰的弯曲方向和力度但是真正的语音识别却是始于1952年当时贝尔实验室Davis等人通过提取语音的第一第二共振峰作为语音特征参数采用专用硬件实现了一台10个英文数字的语音识别系统AudrySystem 国外发展历史 20世纪50年代末60年代初集成电路出现语音信号终端系统从模拟方式演变为全数字系统方式语音数字信号处理从此开始最早从事此项重要技术变革的实验室有贝尔电话实验室麻省理工学院林肯实验室 IBMThomasWatson研究实验室 BBN语音研究小组和得克萨斯仪器公司以及一些著名的大学研究小组 1959年美国林肯实验室的J W Rogie和C D Forgie首次用数字计算机识别出了英语元音和以摩擦音开头的孤立字标志着计算机语音识别时代的开始国外发展历史 20世纪60年代快速傅立叶变换 FFT 技术被广泛地采用来进行频谱分析采用其逆变换还可以反求源信号在傅立叶分析的帮助下人们开始研究自然语音产生的内在机制和本质特征瑞典的G Fant的博士论文语音产生的声学理论就是这个时期的代表作对以后的语音处理的研究工作产生了深刻的影响国外发展历史 20世纪60年代末70年代初Baum等人首次系统地阐述了马尔可夫模型 HMM HiddenMarkovModel 并把它引入语音识别目前 HMM模型是语音识别的最好算法它也广泛应用于经济学上的预测问题与此同时语音识别的线性预测参数LPC首次被提出来采用线性预测进行研究的实践开始以后的低速率语音编码技术很大程度上都是依靠线性预测进行来实现的国外发展历史同时动态时间弯曲DTW技术出现有效的解决了语音识别过程中不等音长的匹配问题此时的许多系统都是建立在LPC参数和DTW匹配技术基础上的孤立词识别系统美国国防部高级计划研究局 ARPAR 的语音识别和理解研究计划产生了HAPPY HEARSAY II和DRAGON等典型的语音识别理解系统提出了具有深远意义的知识源黑板模型扩充转移网络 ATN 算法等国外发展历史 20世纪80年代贝尔实验室Rabiner等人对HMM模型进行了深入浅出的介绍从此以后HMM模型在语音识别领域里确立了不可替代的地位成为目前世界各国从事语音处理的最有效的方法矢量量化法VQ也在此时开始应用到语音识别中 1987年 IBM公司采用VQ HMM方案实现了一个具有2000个孤立字的特定人语音识别模型系统Tangora 2000 1988年CMU同样采用VQ HMM实现了一个具有977个词并且能构成4200个句子的非特定人连续语音识别系统SPHINX 国外发展历史 20世界90年代语音识别开始从实验室走向市场 CMU BBN IBM和AT T都推出自己的语音识别产品 Microsoft Apple Toshiba Philips和Intel不甘落后也开始致力于语音识别系统开发语音识别朝着大词汇量非特定人自然连续语音方向发展目前 MicrosoftOfficeXP以上版本已经集成了语音识别功能可以采用语音输入法输入汉字国外主要的研究单位美国的CMU 卡内基梅隆大学 MIT 麻省理工学院 IBM 美国电报电话公司AT T英国的Cambridge 剑桥大学国内发展历史 20世界50年代中科院声学所开始进行语音识别研究 1972年俞铁城先生最早在计算机上研究语音识别中国语音识别的真正的开端应该是1978年中科院声学所实现的采用带通滤波器组参数为特征的语音识别系统RTSRS 01 的产生国内发展历史 20世界80年代针对汉语单音节的特点清华大学中国科学院北方交通大学东南大学等开发了汉语特定人孤立字全音节语音识别系统清华大学王作英教授提出了DDBHMM模型 1986年国家863项目语音方向设立俞铁城先生受命筹备此项研究计划国内发展历史目前我国语音识别队伍主要有北大清华中科院等其中中科院声学所的人员大部分是原Intel资深的工程师因此在国内的语音识别领域一直遥遥领先国内一些大公司例如诺基亚摩托罗拉松下电器等也致力于语音识别领域的研究社科院长期进行实验语音学方面的研究国内发展历史目前国际和国内在实验室条件下的识别正确率均在90 以上实验室条件一般是采用高保真的Sennheiser麦克风录制的语音信号信道扭曲非常小几乎没有任何背景噪音标准的数据库有TIMIT数据库等 1991年2月NIST NationalInstituteOfStandardsAndTechnology 的测试报告结果如果不考虑语法约束识别正确率为80 多考虑语法约束后识别率提高到90 以上这些都是非常喜人的成果然而这些结果都是在高质量的实验条件下获得的实验证明当语音数据简单地通过电话线传播后识别正确率将会直线下跌国内发展历史 1995年林肯实验室将TIMIT数据库实验室条件和NTIMIT数据库 TIMIT数据库通过电话传输录音作了一次说话人识别的对比结果表明当实验对象简单经过电话信道传输后识别正确率由原先接近100 急速下降到60 多如何在自然环境下令人满意的进行语音识别依旧是国内外语音学家一个艰巨的任务国内发展历史 2003年从世界主要语音识别机构电话对话录音识别率基本是保持在70 80 之间国内发展历史 2004年我国863评测评测结果可以看863评测网站小组对国内主要机构再次进行评测测试集取样于马路边嘈杂环境最低信噪比大约5分贝在如此恶劣条件下在内容识别方面中科院声学所和自动化所均取得了约74 的正确率清华大学取得约50 的正确率其他院校最差的取得9 的正确率其中中科院的识别水平已经比较接近国际先进水平清华北大距离国际先进水平还有一定距离多数高校则远远未达到实用的要求国内主要研究机构中科院声学所中科院自动化所清华大学哈尔滨工业大学中国科技大学东南大学 5 本课程的内容和特点绪论语音信号处理的基础知识语音信号分析矢量量化技术隐马尔可夫模型语音编码语音合成语音识别语音增强本课程的特点内容不断更新涉及的前沿知识较多基础知识也广泛 6 参考书目语音信号处理易克初田斌付强编著国防工业出版社 2000 语音信号处理胡航编著哈尔滨工业大学出版社 2000 语音信号处理韩纪庆张磊郑铁然清华大学出版社2004 语音信号数字处理作者杨行峻迟惠生著电子工业出版社 1995LawrenceRabiner Bing HwangJuang FUNDAMENTALSOFSPEECHRECOGNITION 影印版清华大学出版社 1999 7 学习要求掌握书中基本内容会查阅资料会看文献会研究问题教材杂志会议论文硕博论文库学术期刊网 hk专著专利内部技术报告国内杂志声学学报电子学报自动化学报数据采集与处理人工智能国外杂志SpeechCommunication SignalProcessing会议论文IEEEInstituteforElectricalandElectronicEngineersICASSPInternalconferenceonacousticsspeechsignalprocessingICSLPInternalconferenceofspokenlanguageprocessingEUROSPEECH 语音信号处理与识别一语音识别概述二语音识别系统基本原理三预处理及特征参数提取四模板匹配技术及相似性判断方法五语音识别系统的设计和实现语音识别概述让机器听懂人类的语音这是人们长期以来梦寐以求的事情伴随计算机技术发展语音识别己成为信息产业领域的标志性技术在人机交互应用中逐渐进入我们日常的生活并迅速发展成为改变未来人类生活方式厅的关键技术之一语音识别技术以语音信号为研究对象是语音信号处理的一个重要研究方向其最终目标是实现人与机器进行自然语言通信发展和现状 20世纪50年代 AT TBell 贝尔研究所成功研制了世界上第一个能识别10个英文数字的语音识别系统一Audry系统这标志着语音识别研究的开始 60年代计算机的应用推动了语音识别的发展这一时期的重要成果是动态规划 DynamicProgramming DP 和线性预测分析 LinearPredictive 技术其中后者较好的解决了语音信号产生的模型问题对语音识别产生了深远的影响语音识别概述 70年代语音识别领域取得了突破在理论上 LP技术得到进一步发展动态时间规整技术 DTW 的基本成熟特别是提出了矢量量化 VQ 和隐马尔可夫模型 HMM 理论在实践上小词汇量孤立词的识别方面取得了实质性的进展实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统这一时期的语音识别方法基本上是采用传统的模式识别策略 80年代语音识别研究进一步走向深入其显著特征是HMM模型和人工神经元网络 ANN 在语音识别中的成功应用 HMM模型的广泛应用应归功于AT TBel实验室的Rabiner等科学家的努力他们把HMM纯数学模型工程化从而为更多研究者了解和认识研究的重点逐渐转向大词汇量非特定人连续语音识别 90年代随着多媒体时代的来临在语音识别技术的应用及产品化方面出现了很大的进展许多发达国家如美国日本韩国以及IBM Apple AT T NTT等著名公司都为语音识别系统的实用化开发投以巨资语音识别技术实用化进程大大加速并出现了许多实用化产品 IB

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新语音识别技术与声纹鉴定原理.ppt

文档简介

温馨提示

最新文档

评论

最新语音识别技术与声纹鉴定原理.ppt

文档简介

温馨提示

最新文档

评论

相关文档