




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
特征提取与模型训练模块文档概述声学模型的好坏与识别结果好坏密切相关,本文简单介绍声学模型训练模块的核心技术。包括(1)特征提取和(2)模型训练两部分。特征提取采用美尔频率听感线性预测系数(MF-PLP),模型训练采用嵌入式BawnWelch重估和基于决策树分裂的聚类方法。第一部分 美尔(Mel)频率听感线性预测特征MF-PLPMF-PLP是综合了Mel频率,听感响度,线性预测三种技术的混合特征。今日的MFCC在语音识别领域已经无人不知无人不晓,采用MFCC+MFCC+MFCC特征参数已经成为语音识别领域的通用模式。它的成功在于它采用了Mel刻度,这种刻度更加符合人耳对音高的感知。人耳对Hz刻度的感知不是线性的,而是近似的对数曲线,音乐上每升高8度音,频谱大概翻一番,人们很容易控制和感知频率的翻倍,但是却很难把握频率到底增减多少个Hz。Mel刻度是对Hz刻度的一种弯折,经过Mel弯折之后,人耳感知的音高变化量,和Mel刻度的变化量是一致的。因此MFCC具有比其他系数更好的性能。图一左图给出的是Mel刻度和Hz刻度的对应关系,右图给出的是Mel刻度上的等距离滤波窗对应于Hz刻度的非线性滤波窗。图一 Mel刻度和Hz刻度的关系图二 听感响度曲线(北京大学、沈炯 教授制作)声学特征与听感相一致是非常重要的,MFCC考虑了听感音高与人耳的感知的非线性关系,实际上人耳对音强的感知也是非线性的。早在1933年,Zwicker等人就研究了白噪音掩蔽现象,并用大量数据测量描绘出人耳对音强感知的听阈曲线和痛阈曲线。图二给出了人耳对不同频率不同音量的感知关系,可以看出,听感强度和实际强度是非常不一致的,这就为特征的进一步优化提供了可能。中科院自动化研究所所采用的MF-PLP特征,结合了这两者的优点,既考虑到听感音高的非线性性,又考虑到听感音强的非线性,对频率轴和振幅轴经过非线性变换,得到更加接近人耳听觉的特征,从而具有更好的性能。美尔频率听感线性预测特征提取算法如下:第一步、对频谱进行美尔频率非线性压缩,得到各个滤波器组其中b表示第b个美尔频段。Hb(k)是根据听感响度设计的滤波窗,如图:第二步、对各个滤波器组输出求三次方根,得到响度Y(b) = S(b)0.33第三步、对响度进行福利叶反变换,得到听感自相关曲线第四步、提取线性预测系数第五步、由线性预测系数计算预测倒谱这样提取出来的倒谱称为MF-PLP,比MFCC有更好的性能。第二部分 基于决策树分裂的聚类和BawnWelch重估协同发音是非常普遍的发音现象,同一个音素受到不同上下文影响,会产生不同的变异,因此单音子建模是不够精细的,通常需要加上上下文信息,形成三音子,这样模型个数迅速增多,一方面,识别的时候需要很大的语料库来训练,另一方面,识别的时候拖慢识别速度。L.R.Bahl等人提取决策树理论和语音学知识相结合的方法进行声学建模,至今已经成为语境相关的声学建模的主要技术之一。它的思想是比较接近的音放在一起,希望这些音可以共享同一个模型。决策树把所有可能共享的音放在同一个共享池中,通过问题集一个个提问,如果分裂带来的增益高于给定的阈值,才按照问题把共享池一分为二,不断轮询直到没有任何共享池能够分裂为止,此时同个共享池中的模型将共享同一批训练数据,训练结果也共享同一个模型,如果阈值设置合理,不但能减少训练数据量,同时还能提高识别率。图三 决策树示意图Bawn Welch重估算法是非常经典的声学模型训练方法。为了计算方便通常假设语音特征的分布是高斯混合模型,于是模型观测到Ot的概率密度可以采用如下公式计算:其中bj(Ot)表示t时刻模型处在j状态的概率密度,每个状态都是高斯混合模型,需要混合权重c,均值和协方差矩阵三个参数来确定,重估方法如下:其中为了计算j(t) 通常采用下面的前向-后向算法:则:上面重估了单个模型的参数,模型间的转移关系,可以用下面方法重估:重任何一个初始值出发,经过若干次叠代之后,模型收敛到一个不动点,此时重估模型完毕,得到最终的声学模型。参考文献:1 Florian etc., Revising Perceptual Linear Prediction (PLP), InterSpeech 20052 Zwicker & Fastl, Psychoacoustics, Springer, 19993 吴宗济等,实验语音学概要,高等教育出版社4 Young etc., HTK book, Revised for HTK Version 3.3 April 20055
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重庆水利电力职业技术学院《医学地理学》2023-2024学年第二学期期末试卷
- 母子关系题目大全及答案
- 模拟专科招生题目及答案
- 国际关系学院《大学生创新创业与就业指导》2023-2024学年第二学期期末试卷
- 西安医学院《普通植物病理学》2023-2024学年第二学期期末试卷
- 西北大学《生物化学检验技术》2023-2024学年第二学期期末试卷
- 陕西电子信息职业技术学院《基础西班牙语(II)》2023-2024学年第二学期期末试卷
- 山东畜牧兽医职业学院《素描人体训练》2023-2024学年第二学期期末试卷
- 郑州师范学院《综合商务英语(2)》2023-2024学年第二学期期末试卷
- 邯郸科技职业学院《食品工程原理一》2023-2024学年第二学期期末试卷
- 2025年一年级道德与法治人教版试题
- 道法 期末复习模拟测试卷-+2024-2025学年统编版道德与法治七年级下册
- 字节跳动考勤管理制度
- 严重创伤患者紧急救治血液保障模式与输血策略中国专家共识(2024版)解读
- 母婴销售员合同协议书
- 安全工作规程课件
- 第二届全国化工和医药行业安全生产线上知识竞赛题库(共150题)
- 05S502阀门井图集
- 轮扣式支架模板施工方案
- 双门通道控制(共20页)
- 图像的频域增强
评论
0/150
提交评论