(计算机软件与理论专业论文)语音识别特征提取算法的研究及实现.pdf_第1页
(计算机软件与理论专业论文)语音识别特征提取算法的研究及实现.pdf_第2页
(计算机软件与理论专业论文)语音识别特征提取算法的研究及实现.pdf_第3页
(计算机软件与理论专业论文)语音识别特征提取算法的研究及实现.pdf_第4页
(计算机软件与理论专业论文)语音识别特征提取算法的研究及实现.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机软件与理论专业论文)语音识别特征提取算法的研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语音信号具有很强的时变特性,在较短的时间间隔中语音信号的特征可看作 基本保持不变,这是语音信号处理的一个重要出发点。语音识别率的高低,也都 取决于语音信号特征提取的准确性和鲁棒性。因此,语音信号特征提取在语音信 号处理应用中具有举足轻重的地位。 论文首先研究了语音识别的基本知识,主要包括语音识别的原理;语音信号 处理的基本知识;各种语音识别和训练的方法。在此基础上本文完成的工作有: l 、着重研究了目前使用广泛的美尔频率倒谱系数( m f c c ) 参数,以2 4 维m f c c 参数为例,采用增减分量的方法分析了高阶参数缺失对识别率的影响,找出了对 噪音不敏感的高阶m f c c 参数,在识别率变化不大的情况下对2 4 维m f c c 参数进 行了优化组合。 2 、使用v c + + 根据动态时间规整( d t w ) 模型实现了一个连接数字串语音识别 系统,并进行了实验分析。系统的组成模块和语音识别系统的基本构成模型一致。 在实现时选用了美尔频率系数( m f c c ) 。 3 、实验过程中发现了汉语数码易于混淆的问题,在模板训练方法和参考模 板两方面做了改进,提出了使用多对特征矢量序列进行鲁棒性训练和进行声韵母 分割来构造参考模板的方法。 4 、最后本文研究了汉语连续语音识别中的声学建模方法,给出了识别汉语 易混淆词的方法。 本文通过对实际语音识别系统各个部分的实验和研究,为进一步开发实用 性语音识别系统的工作做了基础性的工作。 关键词:语音识别端点检测美尔频率倒谱系数动态时间规整 t h er e s e a r c ho ff e a t u r ee x t r a c t i o na l g o r i t h mf o rs p e e c h r e c o g n i t i o n a n dt h er e a l i z a t i o n a bs t r a c t s i n c et h e s p e e c hs i g n a l sh a v es t r o n gt i m ev a r i a n c e ,i ti s a ni m p o r t a n t s p r i n g b o a r do fs p e e c hs i g n a lp r o c e s s i n gt h a tt h ev o i c i n gf e a t u r e sc a l lo n l yb e c o n s i d e r e di n v a r i a b l ei nl i t t l et i m ei n t e r v a l t h er a t eo fs p e e c hr e c o g n i t i o nd e p e n d s o nt h ea c c u r a c ya n dr o b u s t n e s so fv o i c ef e a t u r ee x t r a c t i o n s o ,e x t r a c tt h ev o i c i n g f e a t u r e so fs p e e c hs i g n a lp l a ya ni m p o r t a n tr o l ei ns p e e c hs i g n a lp r o c e s s i n g f i r s t ,t h ep a p e rf o c u s0 1 1f u n d a m e n t a l so fs p e e c hr e c o g n i t i o n ,i n c l u d i n g : p r i n c i p l eo fs p e e c hr e c o g n i t i o n ,b a s i ck n o w l e d g eo fs p e e c hs i g n a lp r o c e s s i n g ,a n da l l k i n d so fm e t h o d so fs p e e c ht r a i n i n ga n dr e c o g n i t i o n b a s e do nt h eb a s i ct h e o r i e s ,t h e p a p e rh a sm o s tw o r k sa sf o l l o w : 1 、t h ep a p e rf o c u so nm f c cw h i c hw i d e l yu s e d ,a s2 4 一d i m e n s i o n a lm f c c t e r m s e x a m p l e ,a n a l y s i s t h e i m p a c t o fl a c k i n go fh i g hm f c ct e r m so n s p e e c h r e c o g n i t i o nr a t e sb yc h a n g i n gt h en u m b e ro ft h et e r m s ,f i n do u tt h eh i g h t e r m sw h i c hn o ts e n s i t i v et on o i s e sa r e g i v e n ,a n do p t i m i z et h e2 4 一d i m e n s i o n a l m f c ct e r m su n d e rr e c o g n i t i o nr a t e sc h a n g ei sn o tb i gs i t u a t i o n 2 、u s ev i s u a lc + + 6 0t oi m p l e m e n taf i g u r es t r i n gs p e e c h r e c o g n i t i o ns y s t e m w h i c hb a s e do nd t w m o d e l ,a n dm a k e sa ne x p e r i m e n to nt h i ss y s t e m t h es y s t e m i sc o n s i s t e n tw i t ht h em o d e lo ft h es p e e c h r e c o g n i t i o ns y s t e m t h ep a p e rs e l e c tm e l f r e q u e n c yc e p s t m mc o e f f i c i e n t ( m f c c ) a sf e a t u r et e r m s 3 、i ne x p e r i m e n t ,i tf i n d st h a tt h ec h i n e s ed i g i t a le a s yt oc o n f u s e ,i nt w oa s p e c t s , t r a i n i n ga n dr e f e r e n c et e m p l a t e ,w eh a v em a d ei m p r o v e d ,a n dp r e s e n taw a yo fu s e m o r ev e c t o rs e q u e n c e st or o b u s tt r a i n ,a n dam e t h o db yd i v i d i n gt h ei n i t i a la n df i n a l i n t ot w os e g m e n t s ,a n dc o n s t r u c tar e f e r e n c et e m p l a t e 4 、f i n a l l y , t h ep a p e rr e s e a r c h e sa c o u s t i c sm o d e l i n gm e t h o do fc h i n e s e i i c o n t i n u o u ss p e e c h r e c o g n i t i o n ,a n di n d i c a t e st h em e t h o dt or e c o g n i z et h ew o r d w h i c he a s i l yc o n f u s e di nc h i n e s ew o r d s t h r o u g ht h ee x p e r i m e n ta n dr e s e a r c ho f t h ea c t u a ls p e e c h - r e c o g n i t i o ns y s t e m ,i t c a r r i e so u tt h ef u n d a m e n t a la n de x p l o r i n gr e s e a r c hf o rt h ef u r t h e ra p p l i c a t i o no f s p e e c h - r e c o g n i t i o ns y s t e m k e y w o r d s :s p e e c h - r e c o g n i t i o n ,e n d p o i n td e t e c t i o n ,m f c c ,d t w i i i 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。 本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研 究所等机构将本学位论文收录到中国学位论文全文数据库或其它 相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名:鏖廛 指导教师签名: 妒8 年z 月7 日 砌莎年石月驴日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经 发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 学位论文作者签名:。霪何 砂心年么月7 日 第一章绪论 1 1 语音识别技术及其应用 语音是人类交流信息最自然、最方便、最有效的手段。随着电子计算机技 术的广泛应用,如何利用语言的这一特点让人简单、快速、准确、方便的使用 计算机,使计算机能更好的为人类服务,成为人类努力追求的目标。“阿里巴巴 与四十大盗”的故事说明让机器能听懂人说话,执行人的口头指令,是人类古 已有之的理想。语音识别简单的说,就是让计算机能听懂人说的话,并做出相 应的反应。 语音识别技术的研究广泛的涉及到声学、语言学、语音学、生理科学、数 字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多 学科,因此一个识别效果良好的语音识别系统,需要考虑包括说话人的心理状 态、输入设备、说话环境多方面的因素。 语音识别的应用范围极为广泛,可应用于各行各业,如医疗卫生服务、语 音拨号、智能玩具、智能家居、宾馆服务、军事监听、股票交易、翻译系统、 汽车导航、信息网络查询、工业控制等等。语音识别广泛涉及声学、语言学、 语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式 识别和人工智能等众多学科,是一门新兴的交叉学科。语音识别系统就其不同 要求可以分为一下几类: 根据对说话人说话方式的要求,可以分为孤立词语音识别系统,连接词语 音识别系统以及连续语音识别系统;根据对说话人的依赖程度可以分为特定人 和非特定人语音识别系统;根据词汇量的大小,可以分为小词汇量,中等词汇 量,大词汇量以及无限词汇量语音识别系统。 1 2 国内外语音识别技术的发展历史及其现状 1 2 1 国内外语音识别技术的发展历程 国外从上世纪5 0 年代初就开始研究语音识别技术,世界上最早能够识别语 音的系统a u d r y 是1 9 5 2 年b e l 实验室开发的乜1 ,还有1 9 5 6 年普林斯顿大学r c a 实验室开发的单音节词识别系统。早期的识别方法基本上都是用模拟电路实 现待测语音和参考语音的运算关系。 6 0 年代以后,各种语音识别的研究才开始展开,r c a 实验室的研究成果是 解决了语音在时间标尺上的非均匀问题h 1 。1 9 6 8 年,前苏联科学家v i n t s v u k 首 次将动态规划算法( d p ,d y n a m icp r o g r a m m in g ) 应用于语音分析3 。 7 0 年代语音识别开始快速发展,研究重心是孤立词语音识别。时间归整技 术眠刀( d 册,d y n a m i ct i m ew a r p i n g ) 搭配基于线性预测编码( l p c ,l i n e a r p r e d i c t i o nc o d i n g ,) 的谱系数提取,使得孤立词识别的效率大大提高,线性 预测技术在语音识别领域从此得到广泛的应用,并且演化出多种线性预测参数 形式和多种谱距离测度。比较有代表性的系统有:c a r n e g i e m e l l n 大学( c m u ) 的h e a r s a y i i 、i b m 的大词汇量自动语音听写系统和b e l l 实验室用于通迅的 与话者无关的语音识别系统。 8 0 年代,语音识别研究进一步走向深入,连接词和大词汇量连续语音识别 成为研究热点,统计模型取代模板匹配的方法成为主流。隐马尔可夫模型1 ( h m m ,h i d d e nm a r k o vm o d e l s ) 成为大词汇量连续语音识别系统的基础。结 合矢量量化技术,c m u 于1 9 8 8 年开发了s p h i n x ,这是世界上第一个非特定人 大词汇量连续语音识别系统。s p h i n x 能识别包括9 9 7 个词汇的4 2 0 0 个连续语 句,在语言复杂度为6 0 且环境匹配时,识别率可以达到9 4 7 ,经过多次改进, 其识别率达到9 5 8 。 9 0 年代,随着信号特征的提取和优化技术、声学模型的细化、自然语言理 解领域中语言模型的建立和解码搜索算法技术的不断成熟,出现了比较成功的 大词汇量、连续语音识别系统,比如i b m 的v i a v o i c e 系列、m i c r o s o f t 的 2 w h is p e r 、c m u 的s p h i n x i i 。 我国的语音识别研究比国外晚一些。但是国家现今比较重视,国家8 6 3 智 能计算机主题专家组为语音识别技术专门立项,专家组每一到两年举行一次 全国性的语音识别系统测试,其中具有代表性的研究单位为清华大学电子工程 系与中科院自动化研究所模式识别国家重点实验室。目前,我国大词汇量连续 语音识别系统的研究已接近国外最高水平。但从目前的市场应用范围来看,语 音产品的实际应用还很狭窄,这说明语音技术产品还存在缺陷,达不到市场化、 商品化的要求,在技术上还要有很多工作要做。 1 2 2 语音识别技术发展现状 近年来,在语音识别领域非常活跃的课题为鲁棒性语音识别、说话人自适 应技术、大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语 言模型和自适应语言模型以及深层次的自然语言的理解,研究的方向也越来越 侧重于口语对话系统。目前说话人自适应技术的研究已经取得相当大的进步, 出现了一些比较成熟的技术,如声道归一化技术、最大似然线性回归算法 ( m l l r ,m a x i m u ml i k e li h o o dl i n e a rr e g r e s s i o n ) 、贝叶斯( b a y e s ) 自适应估 计算法。 目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成 熟,已经能够满足通常应用的要求,并逐步投入了实用【7 1 。而非特定人、大词 汇量、连续语音识别仍是目前阶段语音识别研究的重点和难点。 1 2 3 语音识别面临的主要问题 目前的语音识别还做不到使机器能如同人类一样能“听懂”或理解自然语 言,像人与人之间的语言交流一样。主要原因是目前研究工作进展缓慢,主要 技术理论没有突破。虽然各种新的修正方法不断出现,但其普遍性和实用性还 存在问题。 具体的来说有如下: l 、语音识别系统的鲁棒性差,对环境依赖严重; 2 、语音识别系统的灵活性差,不能适应人类灵活、自然的说话方式; 3 、连续语音流中语音信号的声学特征随与之前后相连的语音的不同而有很 大的变化,且各语音单位之间不存在明显的界线,语音切分很困难; 4 、语音特征变化大。语音特征随发音人的不同、发音人生理或心理状态的 变化而有很大的差异; 5 、语音的模糊性,同音词大量而普遍存在; 6 、对韵律信息的利用不足;韵律信息指的是说话之中的重音、语调等超音 段信息;如何在语音识别中结合韵律信息还有待进一步的研究; 7 、自然语言的多变性难以借助于一些基本语法规则进行描述,语法、语义 规则定义困难。 对于汉语语音识别来说除具有一般语音识别的特点外,还有其独特的方面, 因为: 1 、汉语字以单音节为单位,发音时间短,不像英语以多音节为主; 2 、汉语有大量的同音字;汉语由6 0 个左右的声母和韵母组成4 0 多个无调 音节和1 2 0 0 多个有调音节,音节与音节之间相似性大、易混淆; 3 、中国民族众多,不同地区之间发音变化很大,方言多; 4 、汉语的字词不分使得词的切分成为汉语语言理解与处理独有和首要的问 题; 5 、灵活自由的语言表述难以用汉语语言知识表示方法来表达。 1 3 本课题研究的背景及内容 特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该 能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音 特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音 信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能 对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合 成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。 4 因此,语音信号特征提取在语音信号处理应用中具有举足轻重的地位。目前, 语音识别技术中最流行的特征参数时基于声道模型和听觉机理的l p c c ( l i n e a r p r e d i c t i v ec e p s t r a lc o e f i c i e n t s ) 和m f c c ( m e l f r e q u e n c yc e p s t r a l c o c f i c i e n t s ) 参数,而m f c c 在低频段具有较高的谱分辨率,对噪声的鲁棒性优 于l p c c ,更适合语音识别。但与人听觉系统非凡的感知能力比较,不管是l p c c 还是m f c c 参数,在不利的噪声环境下,其鲁棒性都会急剧下降。如何在特征提 取过程中抽取保持语音信号最重要的特征参数,成为一个急需解决的问题。本 课题从2 4 维m f c c 参数出发,研究了高阶m f c c 参数对语音识别系统的影响,找 出了对噪音不敏感的高阶m f c c 参数,在识别率变化不大的情况下并对2 4 维m f c c 参数进行了优化组合,在通用p c 机上实现了一个连接数字串的语音识别系统。 在实验中发现汉语易混淆数码的参数模板之间同样具有很强的相似性,因此我 们在系统的改进中主要改进了易于混淆的参数模板,取得了较好的效果,最后 指出了如何实现连续汉语语音识别系统的方法。本文通过对实际语音识别系统 各个部分的实验和研究,为进一步开发实用性语音识别系统的工作做了基础性 的工作。 1 4 本文的内容结构 论文结构安排如下: 第一章简要介绍了语音识别技术及应用,发展现状,面临的问题,最后阐 述了本论文的结构。 第二章简要介绍了语音识别的基础,包括语音识别的原理和基本的语音识 别系统的构成,语音的预处理,语音信号的特征提取。 第三章主要介绍了典型的语音识别及训练方法,包括动态时间弯折算法 ( d t w ) ,隐型马尔可夫模型( h m m ) 和人工神经网络( a n n ) 的原理等。 第四章首先从语音信号预处理,特征提取及识别等环节介绍了语音识别系 统的实现,对美尔频标倒谱系数( m f c c ) 做了深入研究,然后分析了m f c c 参数 各分量对于识别率的贡献,在识别率变动不大的情况下,提出了一种优化的m f c c 参数,最后在p c 机上用v c 完成一个连接数字串的语音识别系统。 第五章就系统中存在的汉语数码易于混淆的问题给出了解决方法,指出了 彻底解决易混淆汉语数码的方法。 第六章对全文所做的工作进行了总结并提出了下一步研究的方向。 6 第二章语音识别的基础 一个典型的语音识别系统包括语音信号预处理,特征提取,模型的训练与 识别等几个主要环节。 2 1 语音信号的预处理 2 1 1 语音信号的采样和量化 语音信号是一个时间和幅度都连续变化的一维模拟信号。而语音识别的过 程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对 其进行数字化,这个过程就是模数( a d ) 转化。模数转化过程要经过采样和量 化两个过程,从而得到时间和幅度上的离散数字信号。根据奈奎斯特采样定律, 采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而 且能从采样信号中准确的重构原始信号的波形。正常人的发音范围是从4 0 h z 到 3 4 0 0 h z 左右,因此在实验中,本文对语音信号的采样频率均为8 k h z 。 圈日圈日 模拟信号 采样 2 1 2 语音信号的预加重 量化数字信号 图2 1 a i d 转换示意图 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴 唇辐射后,高频端大约在8 0 0 h z 以上有6 d b 倍频的衰减。因此,在对语音信号 进行分析之前,一般要对语音信号加以提升( 预加重) 。预加重的目的是滤除低 频干扰,尤其是5 0 h z 或者6 0 h z 的工频干扰,提升对语音识别有用的高频部分, 使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。 7 语音信号的预加重一般在模数转化后进行,利用6 d b 倍频的一阶数字预 加重滤波器实现。其函数为: h ( z ) = 1 - pz q 2 - 1 其实现框图为: 其中x ( n ) 为原始语音信号,y ( n ) 为预加重后的语音信号。为预加重滤波 器的系数,取值范围一般在0 9 4 - 0 9 7 ,本文取0 9 5 o 二 ( a ) 预加重前的波形( b ) 预加重后的波形 ( a ) 预加重前的频幅 ( b ) 预加重后的频幅 图2 2 语音信号0 的预加重 2 i 3 语音信号的加窗处理 语音信号是一种非平稳信号,为了能对语音信号进行处理,我们可以假 定在l o m s - - 3 0 m s 之间语音信号是平稳的,语音频谱特性和语音特征参数恒定。 因此需将语音信号划分为一个一个的短时段,每一个短时段称为一帧,为了从 8 詈拉 8 c 语音信号中切去出样本信号,就要用时间窗函数乘以原始语音信号,这种操作 就称为加窗。 在语音信号数字处理中常用的窗函数有矩形窗,汉宁窗和汉明窗。 汉宁窗: w ( n ) 汉明窗: o n 三一l 其他 一s i f ,, 旦l - 1 ) 1 1 j w c n ,2 c | 二4 一。4 6c 。s ( 各) 对语音信号加窗的函数为: 0 n l 一1 其他 其他 0 1 1 l 一1 q 。= t x ( m ) 】w ( n 一聊) 其中t 表示信号处理方法,x ( m ) 为语音帧序列,w ( n r n ) 为各个语音帧 上的窗函数。窗函数的选择对语音信号的短时分析影响很大,窗函数越宽对信 号的平滑作用越好,窗函数的主瓣宽度要窄,旁瓣要尽可能小,使能量尽量集 中在主瓣中,以抑制频谱的泄露。目前应用最为广泛的是汉明窗。 9 h 仉 厂,、l 氤 m 臃 w 矩 。l 5 0 or弋 2 1 4 语音信号的端点检测 端点检测在语音识别中有着重要的作用。其目的是从语音信号中检测处语 音信号段和噪音段,准确的端点检测不仅可以减少计算量,而且可以提高系统 的识别率。目前端点检测的算法有很多,基于双门限比较法的端点检测,基于 滑动窗口的语音端点检测算法豳1 等等。常用的端点检测是基于x 2 f - j 限比较法例 的端点检测,就是根据语音信号的特征参数( 能量和过零率) 进行清音、噪音判 别,从而完成端点检测的。下面做以介绍: 语音信号的短时能量定义如下: e = e f 【工( 垅) w ( ? l - - m ) = e 石( m ) w ( 刀一肌) 】2 加= 卅= 2 6 一+ ,一i = 工( 朋) 2 h ( n - m ) = x 2 ( 刀) 宰办( 甩) 其中h ( n ) = w ( n ) 为窗函数,n 为窗长。从能量上来说,浊音的能量大于清 音的能量,因此短时能量可以用来判断清音和浊音,进一步也可以进行有声和 无声判断,连字分界等。 语音信号的短时过零率定义如下: z n = is g n x ( n ) - s g n x ( n - 1 ) l w ( n - m ) 其中s g n 是符号函数: x ( n ) 0 x ( r i ) 0 1 0 2 81 o rl、,l = 、, n ,l n g s r1 l w ( n ) : 2 n i l0 , ,o n n 一1 其他 过零率间接反应了语音的频谱特性,它把语音信号分成了多个通道,因此 可以用过零率对语音信号进行频谱分析。 基于双门限比较法的端点检测,就是通过语音信号的短时能量和过零率来 判断一段语音信号的端点。在检测的开始由于语音信号的能量会比较大,因此 先设置一个较大的门限瓦用来确认语音已经开始,再取一个较低的门限正来确 认语音真正的起点和终点,同时使用采用一个较低的过零率门限乃来判断语音 间隔。以下是英文数码3 的端点检测运行结果: 零雾爹篓霉爹擎震曩j 爹雾霉篙鬟雾鬻霈褰霪? 爹雾霉鬻锄n :,知| ,扎|i ”? :- * ,| “镰:,蟹 ,叱? 峨z q i ,n ,能i ”;一苷j 盘静? i u 。二鞭。i 筠,j , 、一一诤 1 j ;,# ,盛 l l 。刘。 置:。燕 呷- l 。而狮删” iilil : j o o o 一2 0 0 03 0 0 04 0 0 0 “。卯d 0 6 0 0 0j7 0 0 0 ;8j o o 7 9 0 0 01 0 0 0 0 “? 。 :。i i 瓷 、 一v ;。一。j o 。| 一 一0 _ ? 一? i 誊,j + 耄 j j j ? o 鎏 :霉 ii 一:,! 秀 ,1 一“ :。 。2 0j :”4 0 6 口誊8 djj 1 0 0 ,j1 2 0 :。磊 长 l “ 秘,_ 。,。 : j ? j 巍j o , 。一。j 。2 一i ;、“。j 。?j 蚤i 毽j i i ,甏一 。j ; 。:蛩 一 :。二鼍 l r 1 一 冬i ? ,j 瓷 。,i , i - - t i ? + 。2 0 7 7 。4 0 j j 6 0 。| _ 一8 0 。f | 。1 0 0 。一。:4 。“1 2 0i 。| ; 。一;-i ? ,“,。j;2 壤 。 善 * -j,鬻 一 一t “ 。 毫;、。? 砒j | i ,j 毫。鼍氇。:。j ,jh 1 t 尊j ;c 二i 蕊| 。t 豫i 娃i j ,”v i ,im ! 巍盛琵。邋 图2 3 英文数码3 的端点检测结果 2 2 语音信号特征参数的提取 经过对语音信号的预处理之后就要进行特征参数的提取,在语音信号的特 征提取中对特征参数的要求是: 1 、能有效代表语音特征,具有良好的区分性: 2 、特征参数之间有良好的独立性; 、 3 、特征参数易于计算,最好能保证语音识别的实时实现。 一般将语音信号的特征参数分为两类:第一类为时域特征参数,通常是将 一帧语音信号中的各个时域采样直接构成一个参数矢量;第二类为变化域特征 参数,这种参数是将一帧语音信号进行某种变化后产生的参数矢量,目前常用 的为频域特征参数。 2 2 1 语音信号的时域特征参数 语音信号的时域特征参数主要为短时过零率、短时能量和基因周期等。短 时过零率和短时能量前面已经介绍过,它们是语音信号端点检测中的重要参数。 基音周期也是语音信号中一个非常重要的参数,基音是指发浊音时声带振动的 周期性,基音周期则是声带振动频率的倒数。由于基音周期只具有准周期性, 所以只能采用短时平均方法估计该周期,这个过程就称为基音周期检测。 基音周期的检测方法大概可分为三类: 1 、波形估计法,直接使用语音波形来估计基音周期,分析出波形上的周期 峰值等。 2 、相关处理法,先将信号提取声道模型参数,然后利用它对信号进行逆向 滤波,得到音源序列,最后再利用自相关法求出基音周期。 3 、变化域法,将语音信号变化到频域或者倒谱域来估计基音周期,虽然基 音周期估计效果好,但这种方法的计算量较大而且复杂。 1 2 2 2 2 语音信号的频域特征参数 在语音信号的频域特征参数中,目前使用最为广泛的是线性预测倒谱系数 ( l p c c ) 和美尔频率倒谱系数( m f c c ) 。 线性预测倒谱系数的主要思想是利用语音信号采样点之间的相关性,用过 去的样点值来预测现在或者未来的样点值,也就是一个语音信号的抽样能够用 过去若干个语音抽样或者它们的线性组合来逼近。 线性预测倒谱系数是线性预测系数l p c 在倒谱域中的表示。线性预测倒谱 系数的求取过程如下图所示: 语音 图2 4l p c c 计算框图 一般计算l p c c 系数的公式如下: c ( 1 ) = a l c ( ,z ) = + 薯( 1 一言) 吒c ( 刀一尼) ,1 p 2 1 0 其中c 0 ) 为倒谱系数,口。为预测系数,p 为预测系数的阶数,n 为倒谱系 数的阶数。 使用倒谱可以提升参数的稳定性,而且能够主要反应声道响应,但是由于 l p c c 参数在频谱上是通过线性逼近得到的,因此不能很好的反应出入耳听觉特 性,且包含了语音高频部分的噪音。 美尔频率倒谱系数与线性预测系数不同,它是将人耳听觉感知特性与语音 的产生相结合的一种特征参数。实验发现人耳对不同频率的语音具有不同的感 知能力,在1 0 0 0 h z 以下,感知能力与频率成线性关系,在1 0 0 0 h z 以上,感知 能力与频率成对数关系。为了模拟这种人耳的感知特性,人们提出了m e l 频标 的概念,意义为:1 m e l 为1 0 0 0 h z 的音调感知程度的1 1 0 0 0 。具体关系定义为: , 厶= 2 5 9 5 1 0 9 l o g ( 1 + 蒜) 2 j 1 其中丘为实际线性频率,厶d 为m e l 频标。 m f c c 参数计算过程如下: 1 、对语音信号进行预处理,加窗分帧将其变为短时信号。 2 、通过f f t 将短时时域信号转化为频域信号只( 厂) ,并计算其短时能量谱 只( 国) : e ( 国) = 1 只( 厂) 1 2 = i x ,( e s o , ) 1 2 o f l l 2 - 1 2 3 、在m e l 频标内三角带通滤波器( 2 4 个) 加于m e l 坐标得到滤波器组巩( 尼) , 转化关系为: 厶= 2 5 9 5 l 。g l o ( 1 + ) 2 1 3 4 、计算能量谱尸( 缈) 经由此肌g ,滤波器组的输出,取帧计算的方法是:采 集中心频率在1 0 0 0 h z 以上和以下的各1 2 个: l片l 州沪m l 丢1 w ) 1 2 蹦尼) j 矧,2 ,k 2 - 1 4 l t = ij 凡一- ,二,、- k 表示第七个滤波器,k 表示滤波器个数。其中以( 尼) 表示k + m e l 滤波器 组,其中心频率从0 一采样频率2 间m e l 频率分布,中心频率为f ( m ) , 1 4 肌= 1 ,2 ,k ,其公式设计为: o q ( 尼) = , 1 肋k - ) f 一( 肋m - l 面) 七 f ( m + 1 ) f ( m 一1 ) j 厂( 肼) 2 1 5 黩 厂( 埘) 七厂( 肌+ 1 ) f ( m + 1 ) 一厂( 聊) 一7 7 5 、m f c c 系数c 埘d ( ,1 ) 在美尔刻度谱上可以采用离散的余弦变换( 肋) 求得。 ,、占,、万、 ( 加k = l9 似i ) c o s ( 刀 乩5 瑚( 1 刀p :肌) 2 - 1 6 “ 、1o ”一。, 标准的倒谱参数只反映语音参数的静态特性,认为不同帧间的语音是不相 关的,实际上由于发音的物理条件限制,不同帧间语音一定是相关的,变化是 连续的,所以在识别参数中还使用一阶差分m e l 倒谱参数,其定义为: d 。d ( 刀) = 寺善卜c ( f ) 2 - 1 7 、丕。尸。 其中k 为常数,一般取2 ,c ,d 都表示一帧语音参数,在实际使用中通 常将m f c c 参数和差分参数合并为一个向量,作为一帧语音信号的参数。 综上所述,m f c c 参数与l p c c 参数相比,m f c c 参数具有以下优点: 1 、语音的信息大多集中在低频部分,而高频部分易受环境噪声干扰。m f c c 参数将线性频标转化为m e l 频标,强调语音的低频信息,从而突出了有利于识 别的信息,屏蔽了噪声的干扰。l p c c 参数是基于线性频标的,所以没有这一特 点。 2 、m f c c 参数无任何前提假设,在各种情况下均可使用。而汉语数码语音 识别需要对辅音有较强的分辨能力,如2 - 8 ,6 - 9 等,所以m f c c 参数在汉语数码 语音识别中优于l p c c 参数。 3 、m f c c 参数提取过程中需要f f t 变换,我们可以由此顺便获得语音信号 频域上的全部信息,有利于端点检测、语音分段等算法。 1 5 2 3 本章小结 本章讨论了语音识别系统的信号处理技术,包括语音信号的模数转化,端 点检测及特征提取等方面的知识,目的是对语音信号处理有个大致的认识,为 后面的研究打下基础。 1 6 第三章语音识别的模型及其训练方法 语音识别系统本质上是模式识别系统。语音识别过程就是根据模式匹配原 则,按照一定的相似性度量法则,使未知模式与参考模式库中的某一个参考模 型获得最佳匹配的过程。目前语音识别比较常用的识别方法主要有模板匹配法, 以动态时间规整( d y n a m i ct i m ew a r p i n g ,d t w ) 为代表;随机模型法,以隐马 尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 为代表;基于人工神经网络( a r t i f i c i a l n e u r a ln e t w o r k s ,a n n ) 的识别方法。 3 1 动态时间规整算法( d t w ) 模板匹配法是多维模式识别系统中最常用的一种相似度计算方法,是最早 用于语音识别的方法。在训练过程中,经过特征提取和特征维数的压缩,针对 每个模式类各产生一个或几个模板,识别阶段将待识别模式的特征矢量与各模 板进行相似度计算,然后判别它属于哪个类。这种方法采用某种非线性时间对 准算法,解决了发音长短不一的问题。常用的是基于最近邻原则的动态时间规 整方法,简称d t w ,是效果最好的一种非线性时间规整模板匹配算法,在孤立 词语音识别中获得了成功的应用。d t w 算法与h m m 算法在相同环境条件下,识 别效果相差不大,但是d t w 所处理的数据量小,分析速度快。 d t w 就是将发音在时间轴进行弯曲,以使两次发音能够更好的匹配。假设 参考模板为:r ( 1 ,2 m ) ,测试模板为:t ( 1 ,2 ,n ) ,其相似度用距离d t ,r 来表示,假设1 1 和m 分别是t 和r 中任意选择的帧号,d t ( n ) ,r ( m ) 则表示两 帧之间的距离。在d t w 算法中通常采用欧式距离,距离越小相似度越高。 若n = m 则可以直接计算,否则要考虑将t ( n ) ,r ( m ) 对齐,对齐采用线性扩 张的方法,如果n m 可以将t 线性映射为一个m 帧的序列,再计算它与 r r ( 1 ) ,r ( 2 ) ,r ( m ) 之间的距离,但这样的计算没有考虑语音中各个段在不 同情况下的持续时间会产生的变化,因此识别效果不好,更多情况下是采用动 态规划n 们( d p ) 的方法。d p 算法就是要寻找一个最佳的时间规整函数,使被测 1 7 语音模板的时间轴i 非线性地映射到参考模板的时间轴j ,使总的累积失真量 最小。 , j , , l23t 567b 9加1 1 1 2 图3 1d t w 算法的搜索路径 如上图所示将测试模板的各个帧号n = 1 n 在一个二维直角坐标系中的 横轴上标出,把参考模板的各帧号m = 1 m 在纵轴上标出,通过这些表示帧 号的整数坐标画出一些纵横线即可形成一个网格,网格中的每一个交叉点( 1 3 ,m ) 表示测试模板中某一帧与训练模板中某一帧的交汇点。动态规划算法可以归结 为寻找一条通过此网格中若干格点的路径,路径通过的格点即为测试模板和参 考模板中进行距离计算的帧号。路径不是随意选择的,首先任何一种语音的发 音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径 必定是从左下角出发,在右上角结束。 假设路径通过的格点依次为( 缟、m 。) ,( 吩、m i ) ,( 刀、) , 其中( n 。、m 。) = ( 1 、1 ) , ( 拧、m m )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论