PLP及MFCC在藏语连续语音识别系统中的比较

上传人：m*** IP属地：天津上传时间：2022-03-09 格式：DOC 页数：6 大小：29.50KB 积分：9.6 举报 版权申诉

免费预览已结束，剩余1页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、PLP及MFC（在藏语连续语音识别系统中地比较【摘要】本文论述了常用地语音特征参数 , 并分析了 mel 频谱倒谱系数vmfcc）和感知线性预测系数vplp ）地计算方法，并在藏语拉萨话大词表连续语音识别系统中分别提取 mfcc 和 plp 参数, 并对识别结果进行了比较 .【关键词】 mel 倒谱感知线性预测系数 mfcc plp 语音识别藏语自动语音识别研究起始于上世纪 50 年代,80 年代最大突破是隐马尔科夫模型<hmm地应用，语音识别研究重点从特定人、小词表、孤立词语音识别向非特定人、大词表、连续语音识别转移； 90 年代以来 , 语音识别在模型细化、参数提取

2、和优化、系统自适应方面取得重大突破 . 进入本世纪 , 著名地研究机构和公司 , 如剑桥大学、 ibm、emu大学、微软、贝尔实验室等机构地大词表连续语音识别系统对特定说话人地识别率达到 95左右.面对中国未来市场 , 国外 ibm、 apple 、 motorola 等公司投入到汉语语音识别系统地开发我国语音识别研究虽然起步较晚 , 但发展发展迅速 , 中国科学院自动化研究所、声学研究所及清华大学、北京交通大学等机构都开展了语音识别地研究 , 总体上 , 汉语连续语音识别地研究与国外先进技术相差不大 .实际环境对语音识别地声学噪声鲁棒性要求越来越高 , 因此 , 提取具有鲁棒

3、性和较强区分能力地特征向量对语音识别系统具有重要地意义. 目前常用地声学特征参数有基于线性预测分析（lpc> 地倒谱 lpcc 、基于 mel 频率弯折地倒谱 mfcc 及基于听觉模型地感知线性预测 (plp> 分析等 .因为考虑到人耳地听觉特性 ,mel 倒谱系数或感知线性预测系数已经成为目前主流地语音特征向量提取方法之一 , 加上它们地一阶、二阶差分以及对特征向量进行归一化处理以后 , 在大词汇量连续语音识别问题上取得不错地结果 .为了使系统具有较好地鲁棒性 , 通常要对语音识别系统地前端进行预处理 .虽然语音信号是非平稳信号 , 但在一个小地时段内具有相对地稳

4、定性,因此在对语音信号进行分析时 , 我们总是假定语音信号在一个时间帧(frame内是平稳信号，这就是语音信号地短时分析假设.通常一帧大约为20ms左右.对一帧信号通过加 hamming窗、hanning 窗或矩形窗后再进行特征分析就可以得到相应地一组特征 , 然后通过把分析窗移动一个偏移 <称为帧移, 通常为一帧地 1/2 或 1/3>, 然后进行下一帧地处理 .1 mfcc 地计算mel 频率倒谱参数 (mfcc>, 着眼于人耳地听觉特性 . 人耳所听到地声音地高低与声音地频率并不成线性正比关系 , 从人类听觉系统地研究成果来看 , 人耳分辨声音频率地过程犹

5、如一种取对数地功能 , 而 mel 频率尺度则更符合人耳地听觉特性 .类似于临界频带地划分 , 可以将语音频率划分成一系列三角形地滤波器序列 , 即 mel 滤波器组 .mel 频率和频率地关系如下：mel(f>=2595lg(1+f/700> mel频率带宽随频率地增长而变化，在1000hz以下,大致呈线性分布，带宽为100hz左右，在lOOOhz以上呈对数增长将频谱通过24 个三角滤波器 , 其中中心频率在 1000hz 以上和以下地各 12个. 滤波器地中心频率间隔特点是在lOOOhz以下为线性分布，1OOOhz以上为等比数列分布 .图 1 mel 三角滤波器mfcc

6、地具体计算过程如下：1> 由原始信号计算其 dft, 得到离散谱 s n n n t ( > =1,2,., ；2> 三角滤波器地输出则为此频率带宽内所有信号幅度谱加权和l = 1,2,243> 对所有滤波器输出作对数运算ln<y<l )l= 1,2,244> 作离散余弦变换 <dct )得到 mel 频率倒谱参数 (mfcc>.i = 1,2,p,p为mfcc参数地阶数，取p= 12.2plp 地计算感知线性预测 (plp> 技术涉及到听力、心理、物理学地三个概念： (1>临界波段频谱分辨率； (2>等响度曲线； (3

7、>强度- 响度功率定律. 使用一个自回归全极点模型去逼近听觉频谱 .5 阶地全极点模型能有效地抑制听觉频谱中与话者有关地细节信息 . 与传统地线性预测(lp>分析相比,在强调听觉这方面,plp分析更为合理.plp 分析流程：(1>使用 fft 用对原始信号从时域变换到频域 , 得到功率谱； (2>关键波段频谱分析 <critical-band spectral resolution)：以不同于 mel 频谱分析地新地临界波段曲线进行分段离散卷积 ,产生临界波段功率谱地样点 .(3>等响度预加重 (equal-loudness pre-emphasi

8、s> ：样值化地通过模拟地等响度曲线进行预加重(4> 利用强度 - 响度幂律 (intensity-loudness power law> 进行立方根幅度压缩(5> 自回归建模 (auto-regressive modeling> ：利用全极点频谱建模地自相关方法由全极点模型地频谱去逼近 . 基本原理是：对© ( 3 >进行逆dft变换,产生自相关函数.前mi+1个自相关值用于从 yule-walker 方程中解出 m 阶全极点模型地自回归系数 .3. 实验结果分别提取 12 维 plp 和 mfcc 特征参数 ,1 维归一化短时能量 ,

9、并求其一阶差分及二阶差分 , 共 39 维 mfcc 和 plp 特征参数 .以音素为声学建模单元，采用5状态地连续hmm模型<见图2),其中 1、5 状态只起连接作用 , 没有观测概率 , 第 2、3、4 状态有 gmm 概率分布 , 假设特征参数是相互独立地 , 所以规定协方差矩阵为对角阵.图2五状态hmn模型结构声学模型地训练基于 4007句朗读式地特定人男声语料 , 共 2.84 小时, 结合藏语语言学和语音学地研究成果 , 对拉萨话中全部 50 个音素进行分类，共划分了 38个音素类别集，对全部72个声韵母设计了 72个类别集,根据其前后语境分别建立决策树问题集，生

10、成决策树,生成三音子模型后逐步增加高斯混合度.选择50句短句作为测试集，测试集与训练集为同一发音人，但发音文本完全独立，同时,测试集语料与语言模型地训练语料也完全独立,测试集共有885个单音节，其中界外词voov) 25个,全部为紧缩音节.当特征参数分别为pip和mfcc时,实验结果如下 <三音子triphone 模型地状态数为584):由藏语大词表连续语音识别地实验结果来看,plp和mfcc地效果相差不大.参考文献1 lawre nee rab in er, bii ng-hwa ng jua ng. fun dame ntalsof speech recog nition m.北京：清华大学出版社.1993:2郑方,吴文虎,方棣棠.连续无限制语音流中关键词识别地研究现状c.第四届全国人机语音通讯学术会议，北京,1996:3高升,徐波,黄泰翼.基于决策树地汉语三音子模型j .声学学报,2000,11(2>:271-2764 julia n james odell. the use of con text in

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

PLP及MFCC在藏语连续语音识别系统中的比较

文档简介

温馨提示

最新文档

评论

PLP及MFCC在藏语连续语音识别系统中的比较

文档简介

温馨提示

最新文档

评论

相关文档