


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、PLP及MFC(在藏语连续语音识别系统中地比较【摘要】 本文论述了常用地语音特征参数 , 并分析了 mel 频谱 倒谱系数vmfcc)和感知线性预测系数vplp )地计算方法,并在藏 语拉萨话大词表连续语音识别系统中分别提取 mfcc 和 plp 参数, 并对识别结果进行了比较 .【关键词】 mel 倒谱 感知线性预测系数 mfcc plp 语音识别 藏 语自动语音识别研究起始于上世纪 50 年代,80 年代最大突破是隐马 尔科夫模型<hmm地应用,语音识别研究重点从特定人、小词表、 孤立词语音识别向非特定人、大词表、连续语音识别转移; 90 年 代以来 , 语音识别在模型细化、参数提取
2、和优化、系统自适应方面 取得重大突破 . 进入本世纪 , 著名地研究机构和公司 , 如剑桥大学、 ibm、emu大学、微软、贝尔实验室等机构地大词表连续语音识别 系统对特定说话人地识别率达到 95左右.面对中国未来市场 , 国 外 ibm、 apple 、 motorola 等公司投入到汉语语音识别系统地开发 我国语音识别研究虽然起步较晚 , 但发展发展迅速 , 中国科学院自 动化研究所、声学研究所及清华大学、北京交通大学等机构都开 展了语音识别地研究 , 总体上 , 汉语连续语音识别地研究与国外先 进技术相差不大 .实际环境对语音识别地声学噪声鲁棒性要求越来越高 , 因此 , 提取 具有鲁棒
3、性和较强区分能力地特征向量对语音识别系统具有重要 地意义. 目前常用地声学特征参数有基于线性预测分析 (lpc> 地倒 谱 lpcc 、基于 mel 频率弯折地倒谱 mfcc 及基于听觉模型地感知线 性预测 (plp> 分析等 .因为考虑到人耳地听觉特性 ,mel 倒谱系数或感知线性预测系数已 经成为目前主流地语音特征向量提取方法之一 , 加上它们地一阶、 二阶差分以及对特征向量进行归一化处理以后 , 在大词汇量连续语 音识别问题上取得不错地结果 .为了使系统具有较好地鲁棒性 , 通 常要对语音识别系统地前端进行预处理 .虽然语音信号是非平稳信号 , 但在一个小地时段内具有相对地稳
4、定 性,因此在对语音信号进行分析时 , 我们总是假定语音信号在一个 时间帧(frame内是平稳信号,这就是语音信号地短时分析假设.通 常一帧大约为20ms左右.对一帧信号通过加 hamming窗、hanning 窗或矩形窗后再进行特征分析就可以得到相应地一组特征 , 然后通 过把分析窗移动一个偏移 <称为帧移, 通常为一帧地 1/2 或 1/3>, 然 后进行下一帧地处理 .1 mfcc 地计算mel 频率倒谱参数 (mfcc>, 着眼于人耳地听觉特性 . 人耳所听到地 声音地高低与声音地频率并不成线性正比关系 , 从人类听觉系统地 研究成果来看 , 人耳分辨声音频率地过程犹
5、如一种取对数地功能 , 而 mel 频率尺度则更符合人耳地听觉特性 .类似于临界频带地划分 , 可以将语音频率划分成一系列三角形地滤 波器序列 , 即 mel 滤波器组 .mel 频率和频率地关系如下:mel(f>=2595lg(1+f/700> mel频率带宽随频率地增长而变化,在1000hz以下,大致呈线性分 布,带宽为100hz左右,在lOOOhz以上呈对数增长将频谱通过24 个三角滤波器 , 其中中心频率在 1000hz 以上和以下地各 12个. 滤 波器地中心频率间隔特点是在lOOOhz以下为线性分布,1OOOhz以 上为等比数列分布 .图 1 mel 三角滤波器mfcc
6、 地具体计算过程如下:1> 由原始信号计算其 dft, 得到离散谱 s n n n t ( > =1,2,., ;2> 三角滤波器地输出则为此频率带宽内所有信号幅度谱加权和l = 1,2,243> 对所有滤波器输出作对数运算ln<y<l )l= 1,2,244> 作离散余弦变换 <dct )得到 mel 频率倒谱参数 (mfcc>.i = 1,2,p,p为mfcc参数地阶数,取p= 12.2plp 地计算感知线性预测 (plp> 技术涉及到听力、心理、物理学地三个概念: (1>临界波段频谱分辨率; (2>等响度曲线; (3
7、>强度- 响度功率定 律. 使用一个自回归全极点模型去逼近听觉频谱 .5 阶地全极点模型 能有效地抑制听觉频谱中与话者有关地细节信息 . 与传统地线性预 测(lp>分析相比,在强调听觉这方面,plp分析更为合理.plp 分析流程:(1>使用 fft 用对原始信号从时域变换到频域 , 得到功率谱 ; (2>关键波段频谱分析 <critical-band spectral resolution):以不同于 mel 频谱分析地新地临界波段曲线进行分段离散卷积 ,产 生临界波段功率谱地样点 .(3>等响度预加重 (equal-loudness pre-emphasi
8、s> :样值化地通 过模拟地等响度曲线进行预加重(4> 利用强度 - 响度幂律 (intensity-loudness power law> 进行立 方根幅度压缩(5> 自回归建模 (auto-regressive modeling> :利用全极点频谱 建模地自相关方法由全极点模型地频谱去逼近 . 基本原理是:对© ( 3 >进行逆dft变换,产生自相关函数.前mi+1个自相关值用于 从 yule-walker 方程中解出 m 阶全极点模型地自回归系数 .3. 实验结果分别提取 12 维 plp 和 mfcc 特征参数 ,1 维归一化短时能量 ,
9、并求 其一阶差分及二阶差分 , 共 39 维 mfcc 和 plp 特征参数 .以音素为声学建模单元,采用5状态地连续hmm模型<见图2),其 中 1、5 状态只起连接作用 , 没有观测概率 , 第 2、3、4 状态有 gmm 概率分布 , 假设特征参数是相互独立地 , 所以规定协方差矩阵为对 角阵.图2五状态hmn模型结构声学模型地训练基于 4007句朗读式地特定人男声语料 , 共 2.84 小 时, 结合藏语语言学和语音学地研究成果 , 对拉萨话中全部 50 个音 素进行分类,共划分了 38个音素类别集,对全部72个声韵母设计 了 72个类别集,根据其前后语境分别建立决策树问题集,生
10、成决策 树,生成三音子模型后逐步增加高斯混合度.选择50句短句作为测试集,测试集与训练集为同一发音人,但发音 文本完全独立,同时,测试集语料与语言模型地训练语料也完全独 立,测试集共有885个单音节,其中界外词voov) 25个,全部为紧缩 音节.当特征参数分别为pip和mfcc时,实验结果如下 <三音子triphone 模型地状态数为584):由藏语大词表连续语音识别地实验结果来看,plp和mfcc地效果 相差不大.参考文献1 lawre nee rab in er, bii ng-hwa ng jua ng. fun dame ntalsof speech recog nition m.北京:清华大学出版社.1993:2郑方,吴文虎,方棣棠.连续无限制语音流中关键词识别地 研究现状c.第四届全国人机语音通讯学术会议,北京,1996:3高升,徐波,黄泰翼.基于决策树地汉语三音子模型j .声学学报,2000,11(2>:271-2764 julia n james odell. the use of con text in
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机电设备动力系统安装方案
- 养鸭场病害防治管理体系方案
- 混凝土质量验收标准方案
- 水稻种植培训课件
- 水稻大变身课件
- 水稳施工方案课件
- 中药养护习题解析91课件
- 二零二五年度新能源技术研发与推广服务合同协议书
- 二零二五年度团体服饰定制合同范本
- 二零二五年度发行公司债券担保及债券发行风险合同
- 2025年会议接待考试题库
- 2025年贵州省中考英语试卷
- 政府职能边界界定-洞察及研究
- 新疆疫苗管理办法
- 2025年重庆出租车资格证区域考试题库区域考试
- 广州市越秀区招聘卫生健康系统事业单位事业编制人员考试真题2024
- 医疗废物监督管理课件
- 全国律师会费管理办法
- 危险源辨识、评价及控制培训
- 延缓慢性肾脏病进展临床管理指南(2025年)解读课件
- 土地管理培训课件
评论
0/150
提交评论