下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息处理仿真实验 语音处理局部一、实验目的按所学相关语音处理的知识,自己设计一个孤立词语音识别程序,分析 所设计系统的特性。熟悉不同模块间如何进行有效的组合,以及模块内的设 计,重点掌握特征参数的提取和模式识别方法,并对不同的特征参数提取方 法和模式匹配方法有大概的了解,知道其不同的优缺点。二、实验内容1、熟悉预处理、特征参数提取、模式匹配三个模块的原理,并设计这三 个模块的matlab子程序。2、设计主程序,将上述3个模块合理组合构成一个系统,训练模板并测试。实验原理及设计步骤1、孤立词语音识别系统:先用端点检测将语音中有用的语音局部提取出来即将头部和尾部的静音局部除掉,然后提取语音信号的M
2、el尺度倒谱参 数(MFCC)进行动态归整(DTW算法)后与模板库里面的标准语音作比拟,具2、各模块解析预处理:包括反混叠失真滤波器、预加重器、端点检测和噪声滤波器。这里将预加重器和噪声滤波器放在下一个模块里,所以预处理主要进行端点 检测以捕捉到数据中的语音信息。端点检测采用双门限法来检测端点。同时,利用过零率检测清音,用短 时能量检测浊音,两者配合。整个语音信号的端点检测可以分为四段:静音、 过渡段、语音段、结束。程序中使用一个变量status来表示当前所处的状态。在静音段,如果能量或过零率超越了低门限,就应该开始标记起始点,进 入过渡段。在过渡段中,由于参数的数值比拟小,不能确信是否处于真
3、正的语音段,因此只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。而如果在过渡段中两个参数中任意一个超过了高门限, 就可以确信进入语 音段了。一些突发性的噪声可以引发短时能量或过零率的数值很高,但是往往不能维持足够长的时间,这些可以通过设定最短时间门限来判别。当前状态处于语 音段时,如果两个参数的数值降低到低门限以下,而且总的计时长度小于最 短时间门限,那么认为这是一段噪音,继续扫描以后的语音数据。否那么就标记 好结束端点,并返回特征参数提取:常用的语音识别参数有线性预测参数 LPC线性预测倒 谱参数LPCC和Mel尺度倒谱参数MFCC等。这里提取语音信号的 Mel尺度 倒谱参
4、数MFCC步骤如下:语音信号特征 参数图3.2特征参数提取分析: 预加重 加汉明窗 FFTy(n) x(n)-0.97x( n 1)Xw(n) y(n) w(n)Xw(k)N 1j2 nk/N en 0这里直接采用现成的FFT快速算法。 对频谱进行三角滤波程序采用归一化mel滤波器组系数 计算每个滤波器的输出能量N 12S(m) ln Xw(k) Hm(k)0 m Mk 0离散余弦变换DCT得到MFCCMC(n) S(m)cos n(m 0.5) / M n 1,2,., pm 1通常协方差矩阵一般取对角阵,三角滤波器组的对数能量输出之间存在 着很大的相关,采用 DCT这种正交变换可以去除参数
5、之间的相关性,从而 使后端识别模型采用对角阵具有更高的识别率归一化倒谱提升w = 1 + 6 * sin( u / 12) 1 u 12 w = w/max(w)计算差分系数并合并 mfcc 参数和一阶差分 mfcc 参数将其作为一个整体,让参数更完备模式匹配:有矢量量化技术、 DTW HMM技术、人工神经网络技术。 目前,语音识别的匹配主要应用HMM和DTW两种算法。DTW算法由于没 有一个有效地用统计方法进行训练的框架, 也不容易将低层和顶层的各种知 识用到语音识别算法中,因此在解决大词汇量、连续语音、非特定人语音识 别问题时较之 HMM 算法相形见绌。 HMM 是一种用参数表示的 ,用于
6、描述随 机过程统计特性的概率模型。而对于孤立词识别,HMM算法和DTW算法在相 同条件下,识别效果相差不大,又由于DTW算法本身既简单又有效,但HMM 算法要复杂得多。 它需要在训练阶段提供大量的语音数据 ,通过反复计算才能 得到参数模型,而DTW算法的训练中几乎不需要额外的计算。 鉴于此,DTW更 适合本系统的要求。DTW算法原理:该算法基于动态规划DP的思想,解决了发音长短不 一的模板匹配问题。如果把测试模板的各个帧号n=1N在一个二维直角坐标 系中的横轴上标出,把参考模板的各帧号 m=1M 在纵轴上标出,通过这些 表示帧号的整数坐标画出一些纵横线即可形成一个网络, 网络中的每一个交 叉点
7、n,m表示测试模式中某一帧的交汇点。DP算法可以归结为寻找一 条通过此网络中假设干格点的路径, 路径通过的格点即为测试和参考模板中 进行计算的帧号。路径不是随意选择的,首先任何一种语音的发音快慢都有 可能变化,但是其各局部的先后次序不可能改变,因此所选的路径必定是从 左下角出发,在右上角结束。DTW算法可以直接按上面的描述来实现,即分配两个 NX M的矩阵,分 别为积累距离矩阵D和帧匹配距离矩阵d,其中帧匹配距离矩阵di, j的 值为测试模板的第i帧与参考模板的第j帧间的距离。D :N,M丨即为最正 确匹配路径所对应的匹配距离。无论在训练和建立模板阶段还是在识别阶段,都先采用端点算法确定语 音
8、的起点和终点。已存入模板库的各个词条称为参考模板,一个参考模板可 表示为R=R 1,R2,Rm,RM, m为训练语音帧 的时序标号, m=1 为起点语音帧, m=M 为终点语音帧,因此 M 为该模板所 包含的语音帧总数,R m为第m帧的语音特征矢量。所要识别的一个输 入词条语音称为测试模板,可表示为 T=T 1,T2,Tn, T N,n为测试语音帧的时序标号,n=1为起点语音帧,n=N为终点语音 帧,因此N为该模板所包含的语音帧总数,Tn为第n帧的语音特征矢量。 参考模板与测试模板采用相同形式的 MFCC系数、相同的帧长、相同的窗函 数和相同的帧移。假设测试和参考模板分别用 T和R表示,为了比
9、拟它们之间的相似度, 可以计算它们之间的距离 DT,R,距离越小那么相似度越高。为了计算这一 失真距离,应从 T 和 R 中各个对应帧之间的距离算起。设 n 和 m 分别是 T 和R中任意选择的帧号,dTn:, Rm表示这两帧特征矢量之间的距离。 距离函数取决于实际采用的距离度量,在 DTW算法中通常采用欧氏距离。四、实验结果及分析首先通过训练得到词汇表中 '盘古 ''伏羲''女娲 ''神农 '各参考语音的特征 序列,直接将这些序列存储为模板。 在进行识别时, 将待识语音的特征序列依次 与各参考语音特征序列进行 DTW 匹配,最后
10、得到的总失真度最小且小于识别阈 值的就认为是识别结果:正在计算参考模板的参数 .ans =6824ans =7324ans = 6524ans = 6724正在计算测试模板的参数 .ans =5024ans =6724ans =5324ans =5024正在进行模板匹配 .正在计算匹配结果 .测试模板1 的识别结果为:盘古测试模板2 的识别结果为:伏羲测试模板3 的识别结果为:女娲测试模板4 的识别结果为:神农分析:从输出的结果看,识别得到了正确的结果,这是由于采用了预加重、 归一化导谱提升、参加差分系数。为了进一步验证识别的正确性,看一下匹 配距离距阵 dist 的数据:dist = 1.0
11、e+004 *2.31214.77227.22964.62766.82742.85809.49807.19587.25066.66242.40805.37983.97504.71984.77173.6102距离距阵的对角线上是正确匹配模板的对应分数,可见对角线上的 4 个数值都是在本行中最小的,由此验证了识别结果的正确性。但由于需要对大量路径及这些路径中的所有节点进行匹配计算,导致 计算量极大,随着词汇量的增大其识别过程甚至将到达难以接受的程度,因 此无法直接应用于大、中词汇量识别系统。五、实验体会与思考这次实验,我所做的工作主要是设计并实现各模块的合理组合。虽然在 学习课程中已经对MATLA
12、B有过一定的理论学习,但是要读懂 MATLAB的程 序还需要找相关的书来看, 通过这次实践,对 matlab 的语法与应用更加了解, 培养了我们独立分析问题和解决问题的能力。在设计过程中,我通过查阅大量有关资料,与同学交流经验和自学,并 向老师请教等方式,使自己学到了不少知识,也经历了不少艰辛,但收获同 样巨大。在整个设计中我懂得了许多东西,也培养了我独立工作的能力,树 立了对自己工作能力的信心, 相信会对今后的学习工作生活有非常重要的影 响。而且大大提高了动手的能力,使我充分体会到了在创造过程中探索的艰 难和成功时的喜悦。虽然这个设计做的也不太好,但是在设计过程中所学到 的东西是这次实验的最
13、大收获和财富,使我终身受益。要实现这个Dtw与Test的算法,主要是弄懂它的帧匹配距离的由来和累 积距离的计算公式。这也是实现本系统最难得一环,经过不断的调试修改, 最终实现了算法的要求。Dtw 算法采用动态规划技术,存在一些问题: (1)运算量大。由于要找出 最正确匹配点,因此要考虑多种可能的情况虽然路径限制减少了运算量, 但运算量仍然很大,因而使识别速度减慢这在大词汇量的识别中是一个严 重缺点。 (2)识别性能过分依赖于端点检测。 端点检测的精度随着不同音素而 有所不同,有些音素的瑞点检测精度较低。由此影响识别率的提高。(3)没有充分利用语音信号的时序动态信息。在检测语音信号的端点时, 一般采用平均能量或平均幅度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版慢性胆囊炎病症状剖析及护理指南
- 券商机构业务介绍
- 肺部的护理宣教
- 胶东避暑山庄介绍
- 新斯的明药品介绍
- 2025版癫痫常见症状及护理技巧分享
- 2025版关节炎常见症状及护理要领
- 种植牙种前介绍
- 预算的编制方法与程序
- 三方协议书要签多久
- 二构钢筋包工合同范本
- 医疗健康体检服务投标书标准范本
- 建筑公司安全生产责任制度模板
- 医院培训课件:《中医护理文书书写规范》
- 2024年国家公务员考试《行测》真题卷(行政执法)答案和解析
- 生猪屠宰兽医卫生检验人员理论考试题库及答案
- 基于STM32的自动灌溉系统
- 《等边三角形》第1课时-示范教学课件【初中数学人教版八年级上册】
- 电梯日常巡视记录表(日检查表)
- 舌癌的护理查房
- 专升本政治考试历年真题整理(含答案)
评论
0/150
提交评论