




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Acta Scientiarum Nat uraliumU niversitatis Pekinensis , Vol . 36 , No . 5 ( Sep ,2000)一种噪声环境下的语音识别方法( 线性预测误差法) 的研究冯成林吴淑珍(北京大学电子学系 ,北京 ,100871)摘 要 介绍一种平稳噪声环境下语音识别的新的方法 。该方法利用噪声的 L PC 系数去预测语音信号 ,从而得到 L PC 预测序列 ,然后把它代替原语音序列来进行语音端点的检测 、语音特征的提 取和在合适的匹配方式下的识别 。实验结果表明 :该法在噪声环境下自动检测语音端点和提取语 音信号的特征是可行的 ,获得了很
2、满意的识别率 。关键词 线性预测编码 (L PC) ; L PCP E ( 线性预测误差) ; 倒谱 ; 动态时轴弯曲或动态时间规正(D TW)中图分类号 TN 91213 ; TN 912134引言0本文对有背景噪声时的语音识别提出了一种新方法 ,并在特定人 、小词汇量和 IWR ( Iso2lated Wo rd Recognitio n ,孤立词识别) 条件下进行了实验 。通过与实验室环境下的语音识别方 法比较 ,确认了该方法的可行性 。需要强调的是 ,这种方法适用于平稳的随机噪声 ,而不要求 噪声是高斯的或者是白色的 ,只要平稳即可 。原理1在语音信号数字处理中 ,L PC (Line
3、ar Predictive Co ding ,线性预测编码) 分析是最有效和最流行的分析技术之一 。它是一种解卷的方法 :先建立一个 A R 模型 ( Auto regressive Mo del) ,再 按最小均方误差准则进行模型参数估计1 4 。均方误差 E 的计算如下 :p2E = e2 ( n) = s ( n)- is ( n - i )。( 1)i = 1nn对于平稳的随机噪声 ,也为之建立一个 A R 模型 ,在“静音”(可以是无声段 ,也可以是不含语音的单纯的噪声段 。下同) 期间 ,取一段噪声求得 p1 阶 L PC 系数 ,设为 1 ,2 ,p1 。用这 p1 个 L PC
4、 系数对整个所得的序列进行线性预测 ,并求得线性预测误差序列 e ( n ) 。显然 ,对于噪声 ,因它是平稳的 ,由最小均方误差准则知 E 的值一般较小 。对于语音 ,其 A R 模型与噪声的 A R 模型应该是有差别的 ,所得到的 1 ,2 ,p1 并不符合语音的最小均方误差准则 ,故 E 的值普遍要比噪声的 E 值大得多 。因此 ,如果用预测误差序列 e ( n ) 代替原输入收稿日期 : 1999210221 ; 修回日期 : 1999212208北 京 大 学 学 报 (自 然 科 学 版)第 36 卷666语音序列 x ( n) 来进行以后的各种处理 ,就可以起到减弱噪声的效果 。
5、由图 1 可以看到 ,这个方法是可以实现这个目的的 。下面把用预测误差序列 e ( n ) 代替原输入语音序列 x ( n ) 来进行以后的各种处理的方法简称为 L PCP E (L PC Predictio n Erro r) 法 。抽样频率 10 k Hz图 1 原输入语音序列 x ( n) 及其预测误差序列 e ( n) Fig. 1 The original speech x ( n) and it s p redictio n error e ( n)设一噪声环境下的语音信号序列为x ( n) = s ( n) + d ( n) ,( 2)其中 s ( n) 为语音信号 , d (
6、n ) 为平稳的随机噪声 。如前所述 , 在“静音”期间取一短段噪声求得1 ,2 ,p1 。用i 对整个序列 x ( n) 进行线性预测 ,得到p1p1p1x ( n) = i x ( n -= is ( n -+ i d ( n - i ) 。i )i )( 3)i = 1i = 1i = 1从而求得预测误差- x ( n)+ ed ( n) 。ex ( n ) = x ( n)= es ( n )( 4)其中第 5 期冯成林等 : 一种噪声环境下的语音识别方法 (线性预测误差法) 的研究667p1= s ( n) - is ( n - i ) ,es ( n)( 5)i = 1p1= d
7、( n ) - i d ( n - i ) 。ed ( n )( 6)i = 1此后用预测误差序列 ex ( n) 代替原输入语音序列 x ( n) ,对新的序列进行短时分析 。用各帧的能量检测语音段端点111帧能量为N - 1Ex = e2 ( n) 。( 7)xn = 0N - 1Ex = Ed = e2 ( n) , 其值很小 ; 对于含有语音的帧 , E 的它的特点是对于仅含噪声的帧 ,dxn = 0值比较大 。利用 Ex 的差异把语音段检测出来 。N - 1首先 ,在“静音”期间计算出 Ed = e2 ( n) , 由此确定出两个阈值 I EU 和 I EL 。dn = 0( 8)(
8、 9)I EU = k 1 Ed ,I EL = k 2 Ed 。其中 k 1 , k 2 满足 1 < k 1 < k2 。一般地 k 1 可取 5 左右 , k 2 ÷4 k 1 。接着 ,从第一帧开始按时间先后顺序把各帧的 Ex 分别与 I EL 比较 。若 Ex > I EL , 则把该帧作为初定起始帧 N 1 , 继续比较此后的 M 帧 ( M 与抽样频率 f s 有关 , 一般取 012 s 的时间 ,f s = 10 k Hz , 帧长 N = 256 时 M = 7) , 若在 M 帧中 , 存在 Ex > I EU 的帧 , 则把 N 1 作
9、为起始帧 , 否则继续把 Ex 与 I EL 比较 , 以重新确定初定起始帧 N 1 。确定起始帧后 , 继续把 Ex 与 I EL 比较以搜索终止帧 。若出现 Ex < I EL 的帧 , 则把该帧 作为初定终止帧 N 2 , 再比较此后的 M 帧 , 若在 M 帧中 , 所有的 Ex 均比 I EL 小 , 则 N 2 为终 止帧 。否则 , 从该 M 帧中 Ex I EL 的帧起重复搜索初定终止帧 N 2 和确定终止帧的操作。112语音特征的提取和模板匹配设x ( n ) 为 ex ( n) 加窗所得的序列 , 即x ( n) = ex ( n ) w ( n) 。( 10)则自关
10、函数为N - l - 1N - l - 1Rx ( l ) =x ( n )x ( n + l )=s ( n)+ d ( n)N - l - 1s ( n + l ) + d ( n + l ) n = 0n = 0( 11)N - l - 1= Rs ( l ) + Rd ( l ) + s ( n )d ( n + l )+ d ( n )s ( n + l ) 。n = 0n = 0其中N - l - 1N - l - 1Rs ( l ) = s ( n )s ( n + l )es ( n) es ( n + l ) w ( n) w ( n + l ) ,( 12)=n = 0N
11、- l - 1n = 0N - l - 1Rd ( l ) = d ( n)d ( n + l )ed ( n ) ed ( n + l ) w ( n) w ( n + l ) 。( 13)=n = 0n = 0如前面所述 , 在最小均方误差准则下 , 语音的预测误差 es ( n ) 普遍要比噪声的预测误差 ed ( n )大 。只要输入语音的信噪比不是特别低 , 应有北 京 大 学 学 报 (自 然 科 学 版)第 36 卷668N - l - 1N - l - 1Rs ( l ) µs ( n )d ( n + l ) ,µd ( n)s ( n + l )Rs (
12、 l ) µ Rd ( l ) ,因此可认为Rs ( l )( 14)n = 0n = 0Rx ( l ) Rs ( l ) 。( 15)在 L evinso n2Durbin 算法中用 Rx ( l ) 来求 L PC 系数 , 进而求得的倒谱可近似地认为是s ( n) 用i 线性预测所得误 差序列 es ( n) 的 L PC 倒谱 , 以此作为语音的特征参数 。 进一步考察 Rs ( l ) , 为了使形式简单 , 引入0 = - 1 , 可得 :N - l - 1Rs ( l ) = es ( n ) es ( n + l ) w ( n ) w ( n + l )n = 0
13、N - l - 1p1p1- is ( n - is ( n + l - i )i )w ( n) w ( n + l )( 16)=n = 0i = 0i = 0p1 p1N - l + j - 1is ( n - i ) s ( n + l - j ) w ( n) w ( n + l ) 。=ji = 0 j = 0n = max ( i , j - l)一般地 , 语音信号的自关函数有 14 N - l + j - 1j ) 。Rs ( l + i - j ) =s ( n -i ) s ( n + l -j ) w ( n - i ) w ( n + l -( 17)n = max
14、( i , j - l)因此 , 如果对 w ( n ) 选用矩形窗 , 即1 ,0 ,n = 0 , 1 , 2 ,其他 , N - 1 ;w ( n ) =( 18)则可以得到 Rs ( l ) 与 Rs ( l ) 的关系 :Rs ( l ) =p1p1ij Rs ( l + i -j ) 。( 19)i = 0 j = 0因为 0 i p1 , 0 j p1 , 所以 - p1 i - j p1 , 则可得p1+ hk Rs ( l + k )Rs ( l ) = h0 Rs ( l )k | ) 。Rs (| l -( 20)+k = 1其中p1p1 - kh0 = 2 , p1 。
15、( 21)h =,k= 1 , 2 ,iki i + ki = 0i = 0由此得到 es ( n ) 的自关函数 Rs ( l ) 与 s ( n ) 的自关函数 Rs ( l ) 的关系 。由式 ( 20) 可看出Rs ( l ) 是 Rs ( 0) , Rs ( 1) , , Rs ( l + p1) 的线性函数 。若要计算 p 阶的 L PC 系数 , 则要得到p + 1个 es ( n) 的自关函数 Rs ( 0) , Rs ( 1) , Rs ( p) , 这需要单纯语音信号的 p + p1 + 1 个自关函数 Rs ( 0) , Rs ( 1) , Rs ( p + p1) 。实
16、际应用要求制作模板时在实验室环境下 , 把语音信号每帧的 p + p1 + 1 个自关函数作为特征向量储存起来 。在进行识别时 , 先求得噪声的特性 i , 再对待识别语音求得预测误差ex ( n) , 进而求得每帧 ex ( n) 的 L PC , 得到待识别语音用 L PCP E 法的 L PC 序列 。在模式匹配时 , 通过i 和模板的自关函数用公式 ( 20) 求得 Rs ( l ) , 利用它求得模板的 L PC 序列 。识别的 过程就是将这两个序列进行比较 。实验2实验中所采用的词是汉语的 10 个数字“: 0 ,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9”。语音数据的采样
17、频率第 5 期冯成林等 : 一种噪声环境下的语音识别方法 (线性预测误差法) 的研究669大约为 10 k Hz ,用 12 bit 量化 。为了更好地研究识别率受噪声的影响程度 ,所采用的语音数据的含噪程度分为 4 种 ,分别是信噪比 ( SN R) > 25 、20 、10 和 0 dB 。 实验中采用含女声语音的噪声是低音频噪声 (该含语音噪声的信噪比小于 0 dB) ,图 2 是噪声的频谱图 。由图可知 ,所用的噪声并不是白噪声 ,而是在大约 1 k Hz 附近能量比较大 ,高 频部分的能量相对小 ,这跟通常的语音信号的能量分布很接近 ,对识别的影响相当大 。因为结果是通过 20
18、48 点的 F F T 计算出来的 ,图上只画了前 1024 个点 ,所以对于 10 k Hz 的抽样频 率 ,把图中的横坐标乘以 41883 即可得到实际的频率 。图 2 噪声的频谱Fig. 2 The spect rogram of t he noise为了寻找 L PCP E 法的特点 ,并对它进行客观的评价 ,在实验中采用了 3 个识别系统来进行比较 ,这 3 个系统是 :系统 :一般的语音段端点检测方法3 、直接对原始语音数据段 x ( n) 求 L PC 倒谱和采用D TW 进行模板匹配 。系统 :用预测误差 e ( n ) 进行语音段端点的检测 、直接对原始语音数据段 x ( n
19、 ) 求 L PC倒谱和采用 D TW 进行模板匹配 。系统 :用预测误差 e ( n ) 进行语音段端点的检测 、用预测误差 e ( n) 代替原始语音数据段x ( n ) 求 L PC 倒谱和采用 D TW 进行模板匹配 (匹配方法如前所述) 。此外 ,在这 3 个系统中 ,语音信号经抽样所得的序列先预加重 ,再进行后处理 。在求 L PC倒谱时帧长都是 256 个点 (10 k Hz 的抽样频率时 ,即 2516 ms) ,帧与帧之间有 128 个点的重叠 部分 。计算了 16 阶的 L PC 系数 ,并都求了 16 阶的 L PC 倒谱 。在检测语音段的端点时 ,帧长 也都是 256
20、个点 ,但帧与帧之间没有重叠 。用 L PCP E 法中 , p1 = 8 。结果3首先用 L PCP E 法对语音段端点检测的效果 。把系统 和系统 对端点检测的正确率列于表 1 。由表 1 可见 ,一般的方法在信噪比 10 dB 左右或者更小时已很难把语音段检测出来 , 在 0 dB 左右已不能把语音段跟噪声段分开 。而 L PCP E 法在 0 dB 还能很好地进行语音段端 点的检测 。北 京 大 学 学 报 (自 然 科 学 版)第 36 卷670接着来考察 L PCP E 法中特征提取和模板匹配方法对识别率的作用 。把系统 和系统 的识别结果列于表 2 中 。为了更好地仅对提取特征方
21、面的优缺点进行评价 ,表中的数据是先 把端点检测错误的语音排除在外 ,即仅在端点检测正确的语音数据中统计识别率 。表 1 2 种方法对端点检测的正确率Table 1 Accuracy rates of t wo speech2detected ways%表 2 2 种特征提取方法下的识别率recognitio n rates of t wo feat ure2ext racted ways%Table 2SN R/ dBSN R/ dB方 法方 法> 2520100> 2520100一般方法 ( 系统 )L PCP E 法 ( 系统 )10010092163100771669718
22、7093168一般方法 ( 系统 )L PCP E 法 ( 系统 )9810098100941449517986196911307512887164由表 2 可以看出 ,在噪声比较大的环境下 ,对 L PCP E 进行 L PC 倒谱的计算并用相应的模板匹配方法比用一般方法的识别效果更好 。尤其是在 0 dB ,在语音信号几乎要淹没在噪声中 的情况下 ,识别率提高了 10 多个百分点 。在别的信噪比下 ,识别率也有不同程度的提高 。下面再把 3 个系统的实验结果进行综合的统计 ,以全面地比较 3 个系统的优劣 。 统计结果见表 3 。表中的识别率把端点检 测错误的数据包含在内 。由表 3 可以
23、看出 ,从整个系统的性能 来说 ,系统 的性能要比其他两个系统的 要好 。10 dB 以上的输入信噪比时 , 识别 率约在 90 %以上 ,在 0 至 10 dB 之间 ,识别 率也有 80 %以上 ,且识别率普遍地要比系表 3 3 个系统的识别率Recognitio n rates of systems , and %Table 3SN R/ dB系 统> 2520100系统 系统 系统 98100981009810081105941749517965196851118913607015382111统 和系统 高 ,这个结果还是很令人满意的 。结论4由上述的实验结果和分析可以看出 :用
24、预测误差 e ( n) 代替原始语音数据段 x ( n ) 进行识别的 L PCP E 法用于特定人 、小词汇量和孤立词的识别系统中 , 是具有比较好的抗噪声性能 的 ,不管用于语音段端点检测还是用于语音特征参数的提取 ,在较强的平稳噪声下都取得很满意的结果 ,而且没有因性别的差异而造成识别率的较大变化 。总之 ,对于噪声环境下小词汇量 、孤立词的识别系统 L PCP E 法是可行的 ,基本达到了预 期的目的和实际应用的要求 。讨论5作为进一步探讨 ,作者还对信噪比为 - 5 和 - 10 dB 的情况进行了少量数据的实验 ,结果是 - 5 dB 时系统 和系统 的识别率都是 0 % ,系统
25、的识别率是 10 % ; - 10 dB 时 3 个系统 都无法识别 。虽然实验数据较少 ,而且所用的噪声中本身就混有女声 ( SN R < 0 dB) ,所得的识 别率不一定普遍正确 ,但也表明了 L PCP E 法的确有抗噪声的性能 ,在 SN R < 0 dB 时仍有识别第 5 期冯成林等 : 一种噪声环境下的语音识别方法 (线性预测误差法) 的研究671的可能 。除了含女声的噪声 ,还对另一种平稳噪声 汽车噪声进行一定数据量 ( SN R 0 dB) 的 实验 ,结果跟混有女声的噪声的识别率差不多 。这表明只要是平稳的噪声 ,L PCP E 法就可以 应用 。从推导中还可以
26、看出 ,只要是特征参数为自相关函数或以自相关函数为基本参数推导出来的特征参数 (如 L PC 系数 、L PC 倒谱等) 都可以用 L PCP E 法 ,对于别的与自相关函数无关的 特征参数 ,L PCP E 法就不适用了 。这是该法的一个局限 。虽然本文仅对特定人的小词汇量 、孤立词的情况进行了研究 ,但并不表示 L PCP E 法仅仅 适用于这样的系统 。从理论推导中可以知道 ,它和多人的识别4 和连接词的识别2 的方法是 没有冲突的 ,也可以尝试 。此外实现的系统是用 D TW 来匹配模板的 ,也可以用 HMM 甚至用目前研究十分活跃的人工神经网络 ,这在某些系统中可能会取得更好的效果
27、。参考文献 美 L . R. 拉宾纳 , R. W. 谢弗著 ,朱雪龙译. 语音信号数字处理. 北京 :科学出版社 ,1983杨行峻 ,迟惠生. 语音信号数字处理. 北京 :电子工业出版社 ,1995 陈永彬 ,王仁华. 语音信号处理. 合肥 :中国科学技术大学出版社 ,1990 陈尚勤 ,罗承烈 ,杨雪. 近代语音识别. 成都 :电子科技大学出版社 ,1991 胡光锐. 语音处理与识别. 上海 :上海科学技术文献出版社 ,1994 美 S. M . 凯依著. 黄建国 ,武延祥 ,杨世兴译. 现代谱估计原理与应用. 北京 :科学出版社 ,1994Cadzow J A. Spet ral Estimatio n : An Overdetermined Ratio nal Model Equatio n App roach. Proc I EEE , 1982 ,70 :90793912345
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年河北石家庄工程职业学院招聘笔试真题
- 经济增长中的资源配置效率问题试题及答案
- 2025届江西省上饶市鄱阳县数学八下期末检测模拟试题含解析
- 2025年数字货币对企业战略的影响试题及答案
- 计算机二级VB考试的重要复习技巧及试题及答案集锦
- 信息系统设计与实现试题及答案
- 行业发展对软件设计师考试的影响试题及答案
- 浙江省瑞安市2025年数学七下期末监测试题含解析
- 未来数字化环境中的公司战略调整试题及答案
- 技术员信息处理考试试题及答案要点
- 30题中国民航机场消防员岗位常见面试问题含HR问题考察点及参考回答
- 动车乘务员和动车餐吧乘务员培训内容
- 寄生虫的预防 小学生
- 公司危化品管理的关键要素与成功因素
- 手术室氩气刀操作规程
- 电线电缆投标文件
- 原始凭证粘贴单(模板)
- 学校安全管理责任分解图
- 畜牧微生物学课件
- 注塑模具成本计算
- 洗煤加工合同
评论
0/150
提交评论