已阅读5页,还剩86页未读, 继续免费阅读
(信息与通信工程专业论文)基于麦克风阵列的语音增强与识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
m | i i i | l l i i l l l f i | | | | | i | i i i | i | i f f y 17 5 13 9 5 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得逝江盘鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谢意。 学位论文作者签名:各自夏鸯 签字口期: 知年,6 月口7 口 学位论文版权使用授权书 本学位论文作者完全了解逝婆盘堂有权保留并向国家有关部门或机构 送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝鎏盘堂可以 将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、 缩印或扣描等复制手段保存、汇编! 学位论文。 ( 保密的学位论文在解密后适用本授权j 伟) 学位论文作者签名:冬硬摩导师签名: 乞;含一 签字日期:2 6l 口年。6 月o7 日 签字日期:刁h 年6 月i o 同 j - 致谢 致谢 七年磨一剑,在此论文完成、临毕业之际,回顾在浙大生活和学习的点点 滴滴,每一个关心我、帮助我的师长、同学,对各位的感谢之情实在难以用言 。语表达。首先是我的导师徐文教授,三年的研究生生涯,徐老师给予了我悉心 的指导和无私的帮助,引领我进入声信号处理的殿堂。徐老师严谨、务实的治 学态度,积极开拓的科研精神,将时刻影响着我未来的工作和学习。宫先仪院 士作为我所在的声信号处理实验室的“大家长”,以其深厚的学术造诣和一丝 不苟的教导,帮我们打下了坚实的理论基础。宫老师渊博的学识和儒雅谦和的 风范,将深深铭记于我心中。感谢李建龙老师、潘翔老师和赵航芳老师在这三 年里给予的关怀和帮助,尤其是李老师,帮助我解决了研究中遇到的不少具体 问题,使我受益匪浅。感谢微软亚洲研究院的宋蠲平博士,与宋博士的交流大 大地拓宽了我的眼界,使我从科研工作中获得了不少领悟,激励我今后的学习 和工作。 感谢陈庆师兄,姜莹师姐,肖专师姐,对于我在研究中遇到的细节问题总 能给予透彻的讲解;感谢金婷婷,金丽玲,分别在我进入实验室之初和实验工 作中,提供了巨大的帮助;感谢姜哲圣,蔡立凤,童丸丸,夏梦璐,孙锋等实 验室的所有成员给予的支持,与你们共同走过的这三年,已成为我人生中珍贵 的回忆。 感谢我的母校浙江大学,无论是竺可桢学院雄厚的师资力量,还是信电系 一流的科研水平,母校浓厚的学术氛围和优良的学习条件,一路助我成长,无 论身在哪里,我时刻会铭记自己是浙江大学的学生。 最后,感谢父母的养育之恩,感谢男友盛丰的坚定支持,作为我生命中最 重要的存在,我将用一生来回报你们的关爱 浙江大学硕士学位论文 摘要 摘要 自动语音识别技术对纯净的语音信号已经可以达到较高的识别精度。然而实 际工作环境中环境噪声与混响的存在,以及其他声源的干扰,造成待识别语音特 征与训练模板之间的失配,使得系统识别性能急剧下降。本论文针对以小尺寸麦 克风阵为接收端的自动语音识别系统,研究若干宽带语音阵列处理方法,通过空 时联合处理提高实际工作环境下语音信号被正确识别的概率。 论文关于语音信号声源定位的研究,采用了基于旋转不变技术的信号参数估 计( e s p r i t ) 算法的宽带到达方向角估计方法,并结合多通道语音线性预测分析 和信噪比估计对算法进行了改进。实验证明,这种高分辨宽带信号处理方法应用 在小尺寸麦克风阵接收的语音信号上,具有远优于常规波束形成方法的性能,且 避免了其他典型高分辨方法中对整个角度域的扫描计算。定位结果用于指引后续 阵列处理以提取从特定说话人方向到达信号。 大多数现有麦克风阵语音识别系统包括阵列信号处理和特征识别两个先后 独立的阶段。论文将阵信号处理和特征识别统一起来考虑,识别系统的输出被反 馈至前端的麦克风阵列,结合识别过程调节滤波器系数,最大化似然概率的输出, 滤波器系数调节中并采用全局搜索算法进一步改善联合优化方案的性能。与常规 阵处理方法增强语音波形质量不同,论文研究增强语音特征使其与识别模型更为 匹配,直接提高识别过程中正确假设的似然概率。实验证明,采用联合优化方案 训练滤波器系数,系统的识别性能得到明显提高。 关键词:麦克风阵列语音识别宽带e s p r i t 算法f i r 滤波数值优化 i i l 浙江大学硕士学位论文 i v 摘要 a b s t r a c t a u t o m a t i cs p e e c hr e c o g l l i t i o n ( a s r ) t e c m q u e sl l a v ea h a d yb e e nc 印a b l eo f a c l l i e v i n gq u k1 1 i 曲r e c o g 血i o nm t e sf o rc l e a ns p e e c h u n d e rp r a c t i c a l 印p l i c a t i o n e n v i r o m e m s ,h o w e v e r ,e x i s t e n c eo fe n v i r o 衄e m a l n o i s e s锄dr e v e r b e r a t i o n s , a c c o m p a l l i e db yi m e r f b r e n c e s 丘o mo t l l e rs o u l l ds o u r c e s ,c a nc a u s e m i s m a t c hb e t 、) l ,e e n t h es p e e c hf e a n j r e st 0b er e c o 印i z e da i l dt l l e 仃砒【1 i n gt e i i l p l a t e s ,a n dm u ss e v e r e l y d e g r a d e s t l l e p e r f o n i l a n c e o f也e r e c o g i l i t i o ns y s t e m t l l i s 也e s i sc o r l c e r n s d e v e l o p m e mo fa r r a yp r o c e s s i n gm e t l l o d sf o r 诵d e b a i l ds p e e c hs i 盟a l si nt l l ec o m e x t o fa 1 1a s r s y s t e mw 油as m a l l - s i z e di i l i c r o p h o n ea n a y i l lt h ef r o n te n d 1 1 1 eg o mi st o , t l l r o u 曲j o 硫s p a t i a l t e m p o r a lp r o c e s s i n g ,i i l c r e a s e 吐l ep r o b a b i l i 够o fc o r r e c ts p e e c h r e c o g i l i t i o ni i lp r a c t i c a le n v i r o i l l n e n t s o ns p e e c hs o u r c el o c m i z a t i o n ,a埘d e b a i l dd i r e c t i o n - o f 二a 而v a l ( d o a ) e s t i m a t i o nm e m o db a s e do nt l l ee s p r i t ( e s t i m a t i o no fs i 伊l a lp a r 锄e t e r sv i a r o t a t i o r l a li n v 撕a i l c et e c h l l i q u e s ) a l g o r i t h mi sd e v e l o p e d ,a 1 1 d 如r c l l e r 曲p r o v e dv i aa c o m b i m - t i o n 谢mm u l t i - c h a n n e l l i n e a rp r e d i c t i o na i l a j y s i so fs p e e c hs i 弘a l sa sw e l la s s n re s t i m a t i o n e x p e 血l e n t sw 池as m a l l 一s 诬m i c r o p h o n ea n a yc o l l f i 姗t 1 1 a t 仳s m e m o dc a i la c h i e v eav e 巧h i 曲s p a t i a lr e s o l u t i o nf o r 晰d e b a l l ds p e e c hs i 弘a l l s ,陆 m o r e 吼l p e r i o rt 0c o n v e n t i o n a lb e 锄f o n t l i n gm e m o d s ,y e t 、忻m o u tb e 锄- s c a i m i n g a c r o s st l l ee m i r ea n g u l a rd o m a i nr e q u i r e db yo t h e rt ) ,p i c a l1 1 i 曲- r e s o l u t i o nm e t l l o d s s o u r c el o c a l i z a t i o nr e s u l t sa r em e nu s e dt og i l i d et l l es u b s e q u e n ta r r a yp r o c e s s i n gt o e x t r a c ts p e e c hs i 印a l s 丘d mt h es p e c i f i e ds p e a k e r m o s to ft h ec u r r e n tm i c r o p h o n ea r r a ya s rs y s t e m sc o m p r i s e st w oi n d 印e n d e m s t a g e s a 哪7s i 孕l a lp r o c e s s i n ga i l df e a t u r er e c o g i l i t i o n t 1 1 i st 1 1 e s i sc o n s i d e r st h e p r o c e s s i n gi 1 1t 1 1 0 s et w os t a g e si naj o 缸w a y :o u t p u t so ft l l er e c o g l l i t i o ns t a g ea r ef e d b a c kt ot h e 仔o n te n d ;a r r a yf i l t e r i n gc o e f 五c i e n t sa r et h e na d j u s t e dv i aa no p t i m i z a t i o n p r o c e d u r e i nw l l i c ht l l el i k e l i h o o do f 廿1 er i g h t 仃 m s c r i p t i o ni sm a x i i i l i z e df o ra s e l e c t e dv o c a b u l a r y 1 1 1a d d i t i o n ,ag l o b a ls e a r c m n ga l g o r i t h mi s 印p l i e dt of u r t h e r i m p r 0 v e 1 e p e 响m 觚c eo f n l i s j o i n to p t i i t l i z a t i o n s c h e m e d i 虢r e m舶m v 浙江大学硕士学位论文 c o n v e n t i o r 谢a n a yp r o c e s s i i 培蛐gt 0e 1 1 1 1 a i l c i n gs i g l l a lw 乏l v e f o m ,n l e 印p r o a c h h e r ee n h a j l c e ss p e e c hf e a :t u r e st 0b e t t e rm a t c h 廿l er e c o 嘶t i o nm o d e l ,t h l l sd i r e c t l y i l l c r e a s i n g t l l el i l 【e l i h o o d p r o b a b i l i 够 o fc o r r e c t h ) ,p o m e s e s i 1 1 r e c o g i l i t i o n e x p e r i m e n t sc l e a r l yd e m o n s 仃a t et 1 1 ep e r f b m a n c ei i i ) v e m e mo fm ep r o p o s e d 印p r o a c h k 叼w o r d s :m i c r o p h o n ea n a y ,s p e e c hr e c o g l l i t i o n ,w i d e b a n de s p 融ta l g o r i t h m , f i rf i l t e 血g ,n 啪e r i c 甜0 p t i i l l i z a t i o n 目录 目录 致谢i 摘要i i i a b s n ? a c t v 目录v i i 1i 者论1 1 1 课题背景及意义1 1 2 国内外发展现状3 1 2 1 语音识别技术的发展3 1 2 2 阵列处理技术的发展4 1 2 3 基于麦克风阵列的语音识别技术发展新趋势6 1 3 本文研究内容7 2 语音识别基本原理9 2 1 语音的产生及感知一9 2 1 1 语音产生的生理学解释9 2 1 2 自回归语音模型1 0 2 1 3 语音的感知1 2 2 2 语音的分析和处理方法。1 2 2 2 1 语音信号分析模型和特征参数提取1 3 2 2 2 语音信号的预处理1 6 2 3 基于h 的语音识别原理1 8 2 3 1h 删基本原理l8 2 3 2h 删在语音识别中的应用2 0 2 4 本章小结2 2 3 信号抵达角估计方法2 3 3 1 阵列信号处理基础。2 3 3 1 1 窄带阵列信号模型及空间滤波2 4 3 1 2 宽带信号模型2 6 3 2d o a 估计的经典方法2 7 3 2 1 波束形成法2 7 v i j 浙江大学硕士学位论文 3 2 2 互相关延时估计法2 9 3 2 3m u sic 算法3 2 3 2 4e s p r it 算法。3 5 3 3 本章小结3 7 4 基于e s p r i t 算法的语音信号抵达角估计3 9 4 1 宽带e s p r i t 算法原理3 9 4 1 1 信号的极点模态分解3 9 4 1 2 基于e s p r i t 的宽带d o a 估计4 0 4 2 宽带e s p r i t 算法实现4 2 4 2 1 极点估计4 3 4 2 2 留数矩阵估计4 4 4 2 3 子空间特征分解4 4 4 3 改进的极点估计算法4 5 4 4 算法性能分析4 8 4 5 本章小结5 0 5 阵列滤波与语音识别的联合处理。5 1 5 1 识别系统的联合处理结构。5 l 5 2 局部优化方案5 4 5 3 全局优化方案。5 5 5 4 频域子带滤波法5 8 5 5 本章小结5 8 6 实验数据处理5 9 6 1 实验设备与环境5 9 6 2 实验结果与分析6 1 6 3 本章小结6 8 7 总结与展望。6 9 7 1 全文总结6 9 7 2 未来展望7 0 参考文献7 3 作者简历及在学期间科研成果7 9 v l i l 绪论 1 绪论 1 1 课题背景及意义 语音信号处理是一门覆盖面很广的交叉学科,以语音信号为研究对象,涉及 语言学、计算机科学、信号处理、生理学、心理学等诸多领域。其中,自动语音 识别( a u t o m a ti cs p e e c hr e c o g n i ti o n ,简称a s r ) 是让机器经由识别和理解过 程,将人发出的声音、音节或短语转换成文字和符号,或者给出响应,如执行控 制、做出回答等,在工业、金融、商业、文化、教育等诸多方面,特别是在计算 机、信息处理、通信与电子系统、自动控制等领域有着极为广泛的应用。 由于数理统计理论以及神经网络算法的发展,目前的语音识别系统,对单纯 的语音可以达到较高的识别精度,但是在实际的工作环境下,环境噪声与混响的 存在,设备内部噪声以及其他说话人的干扰,造成训练模型与待识别特征之间的 失配,导致系统识别性能急剧下降。如何减小甚至消除这种失配的影响,成为语 音识别系统迈向实用阶段所亟待解决的关键问题。 空间阵列滤波的方法作为目前普遍采用的应对环境干扰的空时信号提取技 术,广泛应用于雷达、声纳、通信等众多涉及空间信号获取的研究领域,成为这 些领域不可或缺的内容幢1 。1 9 8 5 年,f l a n a g a n 将麦克风阵列引入到大型会议的 语音增强系统中1 ,首次将阵列信号处理的思想应用于语音信号处理。近二十年 来,麦克风阵列处理作为阵列信号处理技术的一种具体应用,已成为语音信号处 理研究的一个重要分支,基于麦克风阵列的语音处理技术在声源定位、语音增强 以及语音识别等方面取得了积极的进展。 实际的室内环境中,麦克风接收到的信号不仅有直接到达的语音信号,还包 括经过墙面和家具反射后由其他路径到达的目标混响信号,以及各种干扰噪声, 如风扇、空调、打印机等产生的噪声。在这种复杂的噪声混响环境下,相比于单 只麦克风,麦克风阵列系统能够有效地利用各麦克风接收的信号在时间或空间上 的差异,采用多路融合技术,以电子聚焦的方式从目标声源方向接收信号,同时 抑制其他方向上的信号以及环境噪声的干扰。 麦克风阵列用于语音信号处理,概括来说,就是用多个麦克风按照一定几何 结构摆放组成一个阵列,在时域和频域的基础上增加一个空间域,形成具有特定 浙江大学硕士学位论文 指向的窄波束,对来自空间不同方位的信号进行空、时联合滤波,再经过进一步 后续处理,得到增强的目标信号。此外,麦克风阵列不限制说话人的活动,在接 收范围内,可以自动检测、定位和追踪说话者。实验已经证明,采用麦克风阵列 对语音信号进行处理之后,信号波形能得到改善,语音识别系统的正确识别率得 到明显提高1 因此,麦克风阵列可以被广泛应用于各种背景嘈杂的环境。 麦克风阵列处理技术主要包括常规波束形成和自适应滤波两类方法。常规波 束形成的方法对麦克风阵列接收的语音信号进行延时估计、补偿后加权求和,得 到信噪比提高的目标语音信号。自适应滤波的方法是采用后置滤波器,对延时累 加的输出,利用前一时刻获得的信号,自动调节当前时刻的滤波器参数以适应信 号和噪声随时间变化的统计特性,从而实现最优滤波。自适应滤波技术,是在维 纳滤波、卡尔曼滤波等线性滤波基础上发展起来的最佳滤波方法,具有很强的适 应性和滤波性能,成为麦克风阵列信号处理的一个重要研究方向,在提高语音识 别系统的性能上,可发挥重要作用。 本文以消除实际工作环境下噪声混响干扰影响、提高语音正确识别概率为 目标,开展麦克风阵列信号处理研究。语音信号的阵列处理有其独特的要求,由 于语音信号是非平稳的,且其有效频率可覆盖高达三倍频程的范围,作为一种特 殊的宽带信号,需要用特定的宽带处理方法进行方位估计和空问滤波。考虑到小 型麦克风阵较强的实用性,论文重点研究适合语音信号处理的高分辨率宽带信号 抵达角( d ir e c ti o n o f a r r i v al ,简称d o a ) 算法,以及基于小尺寸麦克风阵的 联合滤波优化方案。 针对上述问题,本文以提高语音正确识别概率为目标开展麦克风阵列信号处 理研究,考虑到小型麦克风阵较强的实用性,重点研究适合语音信号处理的高分 辨率宽带信号抵达角( d i r e c t i o n o f a r r i v a l ,简称d o a ) 算法,以及基于小尺 寸麦克风阵的联合滤波优化方案。 按说话人讲话方式分类,可将语音识别分为孤立词识别、连续词识别和连续 语音识别三类。孤立词识别是指机器只识别孤立的单词或者短语;连续词识别 和连续语音识别,都是指机器识别连续的语音,区别在于连续语音识别可运用到 自然的连续说话中,而连续词识别需要明显感受到单词之间的停顿。从识别对象 的类型来看,语音识别可分为特定人语音识别和非特定人语音识别,特定人是指 2 绪论 针对一个特定用户的语音识别,非特定人则可用于不同用户。本文主要研究的是 针对非特定人的孤立词语音识别。 1 2 国内外发展现状 1 2 1 语音识别技术的发展 语音识别的研究可以追溯到二十世纪五十年代,1 9 5 2 年a t t 贝尔实验室开 发了第一个特定人的孤立英语数字语音识别系统a u d r ys y s t e m b l ;1 9 5 6 年,普 林斯顿大学的r c a 实验室开发了单音节词识别系统,能够识别特定人的十个单音 节词中所包含的不同音节1 ;1 9 5 9 年,m i t 的林肯实验室开发了针对十个元音的 非特定人语音识别系统 1 。这些早期的语音识别系统都是针对孤立语音,采用模 式匹配器和滤波器组进行识别,用模拟电路实现具体运算。 六十年代初,东京无线电实验室、京都大学和n e c 实验室在语音识别领域取 得了开拓性的进展,各自先后制作了能够进行语音识别的专用硬件眇1 0 1 。而其 他各国学者也展开了相应的研究工作,对其后二十年内语音识别技术的研究和发 展产生了深远的影响,主要有:r c a 实验室解决了语音时频尺度的非均匀性,以 便能可靠的检测到语音的起始点和终止点n u ;前苏联科学家v i n t s y u k 将动态规 划的方法应用到语音分析n 2 1 ;卡耐基梅隆大学的r e d d y 对音素进行动态跟踪,开 创了连续语音识别的研究1 那。 七十年代,语音识别的研究取得了突破性的进展,研究重心仍然是孤立词语 音识别。线性预测分析技术得到了进一步发展,演化出多种线性预测参数形式和 距离测度的方法,动态时间归整技术( d y n a m i ct i m ew a r p i n g ,简称d t w ) 搭配基 于线性预测编码( l i n e a rp r e d i c ti v ec o d i n g ,简称l p c ) 的语音参数提取,有效 提高了孤立词识别的效率n 。 八十年代,语音识别的研究进一步深入,n e c 提出了二阶动态规划算法n 鲥, b e l l 实验室提出分层构造算法n6 1 ,以及帧同步分层构造算法n7 1 等。同时,连接 词和大词汇量连续语音的识别得到了较大发展,统计模型逐步取代模板匹配的方 法,隐马尔可夫模型( h i d d e nm a r k o vm o d e l i n g ,简称h 嘲) 成为语音识别系统的 基础模型n 引。1 9 8 5 年,a t t 贝尔实验室建造了第一个智能麦克风系统,用来研 浙江大学硕士学位论文 究大室内空间的声源位置追踪问题1 。1 9 8 8 年,卡耐基梅隆大学结合矢量量化技 术( v e c t o rq u a n ti z a ti o n ,简称v q ) ,用v q h 删方法开发了世界上第一个非特 定人大词汇量连续语音识别系统s p h i n x ,能够识别包括9 9 7 个词汇的4 2 0 0 个连 续语句n 9 1 。此外,人工神经网络在语音识别中的应用也在这一时期兴起n 钔 上世纪9 0 年代以来,随着声学模型的细化、信号特征的提取和优化、自然 语言模型的建立以及自适应技术的不断发展,语音识别技术进一步成熟,出现了 比较成功的大词汇量、连续语音识别系统,比如i b m 的v i av o i c e 、微软的w h is p e r 系统等。很多国际著名的公司和研究机构都致力于麦克风阵列语音处理技术的开 发,并推出了一些相关的商业产品,如将麦克风阵列用于视频语音聊天及助听器 等2 1 ,微软公司推出的v is t a 操作系统中也集成了麦克风阵列算法以提高语音的 识别率。 我国语音识别研究工作起步较晚,但发展很快,不少科研机构都在从事语音 识别的研究,并取得了很大成就,目前己经进入到大词汇量、非特定人、连续语 音识别的高级阶段,研究水平己经基本上与国外同步,在汉语语音识别技术上还 有自己的特点与优势,早在1 9 8 8 年,清华大学和中科院声学所就已经在大词库 汉语听写机的研制上取得了突破性进展。微软公司于1 9 9 8 年在北京成立亚洲研 究院,也将汉语语音识别纳入重点研究方向之一。近年来,国家8 6 3 计划专门为 语音识别研究立项,不少机构和单位研发的汉语语音识别系统已经实现了较高的 识别率。 2 0 0 2 年,中科院自动化所及其所属模式科技公司推出了“天语刀中文语音 系列产品一一p a tt e ka s r ,结束了该领域一直被国外公司垄断的局面;清华大学 语音技术课题组开发的非特定人汉语数码串连续语音识别系统,关于汉语语音有 超过9 3 的正确识别率,性能已接近实用水平;中国科技大学语音实验室及其下 属的科大讯飞公司自2 0 0 7 年以来,推出了面向各种行业需求的嵌入式自动语音 识别系统的商业产品,对巩固我国该技术领域的竞争优势起到了重要的作用。 1 2 2 阵列处理技术的发展 在语音识别技术日渐成熟的同时,近五十年来,阵列信号处理的研究也取得 了很大的进步,发展出包括波束形成、后置滤波、子空间处理等空间滤波的多种 4 绪论 方法,以及以盲分离、盲去混响和盲解卷为代表的语音分离法。其中最为常见和 实用的方法是波束形成法,主要包括固定波束形成和自适应波束形成。固定波束 形成法的代表是f l a n a g a n 等在1 9 8 5 年提出的延迟求和波束形成算法b 1 ,算法结 构较为简单,适合于消除非相干噪声和散射噪声。 而自适应阵信号处理的研究自六十年代开始,起初主要集中在自适应波束控 制和零点控制上,如自适应滤波、自适应置零、自适应旁瓣抵消等。f r o s t 在1 9 7 2 年提出了线性约束最小方差( l i n e a r l yc o n s t r a i n e dm i n i 咖mv a r i a n c e ,简称 l c m v ) 自适应波束形成方法乜伽,这种方法用于语音增强,可以用较少的麦克风取 得较好的消噪效果。1 9 8 2 年,g r i f f i t h 提出了线性约束的广义旁瓣抵消器 ( g e n e r a l i z e ds i d e l o b ec a n c e “e r ,简称g s c ) ,为后来许多自适应算法提供了 理论框架n 1 1 。此后的学者又在此基础上,提出了不同的改进算法。这一类算法适 用于强相干噪声,而应用在非相干或弱相干噪声上,其消噪效果反而不如常规的 延迟求和波束形成,尤其在混响和回波同时存在的实际应用环境中,噪声被认为 是弥散的,其识别性能显著下降。带有后置滤波的自适应波束形成算法幢2 1 首先由 a l1 e n 提出,他将白适应波束形成法和维纳滤波相结合进行语音增强。随后, z e l i n s k i 和c o h e n 等也在此基础上,分别提出l m s 自适应后置滤波器算法n 扣, 以及将广义旁瓣抵消器和后置滤波器结合的方法幢4 1 ,取得了较好的效果。 八十年代阵列信号研究主要集中在空间谱估计上,诸如特征空间正交谱估 计、最大似然谱估计、最大嫡谱估计等。近二十年来关注的焦点主要在于各种经 典方法的相互融合,同时将小波变换、高阶统计量以及神经网络等相关思想容纳 进来。 上述各种阵列信号处理的研究,绝大部分是基于窄带信号的假设开展的,而 语音信号作为一种宽带信号,须采用相应的宽带信号处理方案。宽带信号处理, 一种简单的做法是将信号分解为若干个频段的窄带信号,对各频段内的信号分别 进行窄带处理,然后将各频段的处理结果加以综合。该方法是一种非相干信号子 空间的处理方法乜引,在信噪比较低的条件下性能并不理想,而且无法用于处理相 干源。同时,在实际应用中( 如室内会议,语音聊天,家电控制等) ,麦克风阵 的尺寸受到很大限制,而常规算法受到瑞利限的约束,导致小孔径阵的分辨率较 差,难以满足实际需要。针对小孔径阵列分辨能力弱这一问题,有必要在麦克风 浙江大学硕士学位论文 阵列信号处理中采用高分辨率技术来进行空间处理。 高分辨率谱估计技术的研究始于上世纪七十年代末,此方法可突破瑞利限的 约束,得到高的角度分辨率,主要包括:线性预测法,参数模型化方法,c a p o n 型方法等;同时以m u s i c ( m u l t i p l es i g n a lc l a s s i f i c a t i o n ,简称m u s i c ) 算 法2 卯啦副和e s p r i t ( e s ti m a ti o no fs i g n a lp a r a m e t e r sv i ar o t a ti o n a l i n v a r i a n c et e c h n i q u e s ,简称e s p r i t ) 算法拉7 1 为代表的信号子空间算法,也开 始在信号处理领域得到广泛的应用。 总的说来,当前高分辨率技术在宽带阵列信号处理中的应用还非常有限。常 用的高分辨率宽带算法包括1 9 8 5 年w a n g 和k a v e h 提出的相干信号子空间算法比9 1 ( c o h e r e n ts i g n a 卜s u b s p a c em e t h o d ,简称c s m ) ,该方法将不同的频率分量 在某一频率的子空间上对齐,然后对各子带的协方差求取平均得到“聚焦”的协 方差矩阵。陈庆等提出了基于鲁棒c a p o n 波束形成法的宽带自适应波束形成引, 结合环境不确实性的考虑,能有效消除多径干扰此外,g s u 提出了信号子空 间的模态分离法臼们,在系统的各极点上将信号子空间分离出来,进而对d o a 进行 估计。在此基础上,b 0 t t e r s t e n 提出了一种基于e s p r i t 算法的宽带信号d o a 估计方法m 1 1 2 3 基于麦克风阵列的语音识别技术发展新趋势 近二十年来,许多国家已相继开展了将阵列信号处理技术用于麦克风阵语音 信号处理的研究工作。相关算法的研究主要分为模型补偿法和语音增强法两类。 模型补偿法就是根据实际环境相应地调整训练模板,使模型与环境相适应,在不 同的环境下使用不同的语音模型。而语音增强则在于改进语音信号的质量,使待 识别信号尽可能与训练条件下较为纯净的语音模板相匹配,从而提高识别性能。 c o m p e m o 儿eb 羽、n o r d h o l m 1 先后将g s c 应用到语音处理中,提出了基于自 适应波束形成的麦克风阵列处理方法。g s c 在消除干扰的同时抵消了部分信号, 严重影响了语音识别的稳定性。鉴于此,不少学者进行了减小g s c 对目标信号抵 消的研究,h o s h u y a m a 等于1 9 9 9 年提出了一种鲁棒的自适应方法,采用系数约 束的自适应阻塞滤波器替代g s c 的阻塞矩阵町;g a n n o t 通过语音声学传递函数 比的估计来构建阻塞矩阵,最小化被g s c 阻塞的语音信号分量副。 6 绪论 此外,不少学者致力于将多种方法结合到麦克风语音处理中来。f i s c h e r 提 出将g s c 和维纳滤波相结合的频域麦克风阵语音增强方法,以消除环境中的相干 和非相干噪声n 们;m e y e r 和s i 衄e r 将维纳滤波和谱减法相结合,抑制高频和低 频噪声m 1 ;m a h n o u d i 等提出了一种基于小波变换后置滤波的方法,提高对非语 音段噪声的抑制3 引。1 9 9 6 年,一种倒谱域上的抗混响方法被提出,将麦克风阵 信号的最小相位分量和全通分量分开b 射。此外,还有基于盲分离、神经网络的语 音阵处理方法,以及基于语音线性预测模型的阵列处理方法等。 2 0 0 4 年,以m i c h a e ll s e l t z e r 为代表的一些美国学者提出了一种基于提 高识别过程中正确假设概率的有限冲击响应( f i n i t ei m p u l s er e s p o n s e ,简称 f i r ) 滤波优化算法h 叫“。这一方案将识别系统的输出结果反馈到前端的麦克风 阵列,自适应地调整阵列滤波系数以提高识别性能,提供了一种通过语音增强提 升语音识别性能的新的研究思路。 1 3 本文研究内容 本文针对以麦克风阵信号处理为前端的语音采集与自动识别系统,研究宽带 阵列信号处理方法,以期提高语音信号被正确识别的概率。研究主要围绕语音信 号d o a 估计,麦克风阵f i r 滤波与语音识别的联合优化两个方面展开。 本文关于语音信号d o a 估计的研究主要基于文献 3 0 】、 3 1 提出的模分解信 号子空间算法和基于e s p r i t 算法的宽带d o a 估计方法,利用信号子空间的旋转 不变性,直接计算出抵达角。实际应用条件下,麦克风阵列的尺寸常常受到使用 空间的限制,有必要采用高分辨技术提高估计精度。而本文采用的方法正是属于 高分辨宽带信号处理的范畴,并且可避免其他多数方法中对整个角度域的扫描计 算。 当前基于h 删的麦克风阵语音识别系统,主要包括阵列信号处理和特征识别 两个先后独立的阶段,其中前端的阵处理主要是为了进行语音增强,目的是在提 取语音参数之前,尽量减小信号波形的失真。这一做法基于的假设是,对波形质 量得到改善的信号进行特征识别能够提高识别性能。前期研究表明,在该假设下 采用包括基于m v d r 波束形成、维纳后置滤波和g s c 等方案在内的麦克风阵列信 号处理方法,相比于最基本的常规波束形成法,虽然信号波形得到了较大改善, 浙江大学硕士学位论文 但是系统的识别性能并未得到明显提高。 借鉴文献【4 0 【4 1 中的思路,本文将阵处理和特征识别两个过程统一起来考 虑,识别系统的输出结果被反馈至前端的麦克风阵列,通过调节阵列f i r 滤波器 参数来提高正确假设的似然概率,降低待识别特征与训练模型之间的失配,以达 到最佳的滤波效果。本方案对阵元接收的信号进行滤波求和,其目的并不是单纯 为了改善信号波形质量,而是在于增强对识别模型更为重要的语音特征,直接提 高识别过程中正确假设的似然概率,进而提高识别率。 总的来说,本文的创新点一方面在于发展适合语音信号处理的宽带信号d o a 估计算法,另一方面在于阵列滤波与语音识别的联合优化,最大化似然概率的输 出,其中结合识别过程采用全局优化算法调节滤波器系数,进一步提高联合优化 方案的性能。全文共分七章,具体结构如下: 第一章绪论,介绍本文的研究背景、研究意义,以及国内外发展现状,并简 要概括本文的研究内容和结构。 第二章介绍语音识别的基本原理,主要包括语音的产生和感知原理,h 删基 本理论,以及基于h 删的语音识别系统的工作原理。 第三章介绍常用的d o a 估计方法,主要包括波束形成法,互相关延时估计法, 以及两种信号子空间的处理方法一一m u s i c 算法和e s p r i t 算法。 第四章介绍基于e s p r i t 算法的宽带信号d o a 估计算法,以及将其应用到语 音信号d o a 估计中的可能性。此外,将线性预测分析结合进来,用以估计子空间 极点,实验证明,改进之后可进一步提高该方法的可靠性。 第五章进行阵列滤波和语音识别的联合优化,介绍结合h 删识别过程的滤波 系数优化方法,并分别采用局部优化和全局优化两种方法进行系数优化。 第六章实验部分,将实际的会议室环境中采集到的语音数据,采用本文提出 的方案加以增强和识别,与常规的方法进行比较,并对实验结果展开分析 第七章是总结和展望。 本论文研究来源于微软亚洲研究院大学计划项目基于小尺寸麦克风阵列的 语音增强与识别研究。 语音识别基本原理 2 语音识别基本原理 开展语音识别研究,首先必须了解自动语音识别的基本原理,主要包括语音 产生和被感知的原理,对语音信号进行分析和处理的方法,以及自动语音识别系 统的工作原理。由于本文采用的是基于h 的语音识别系统,所以将重点介绍这 一类系统的工作原理。 2 1 语音的产生及感知 2 1 1 语音产生的生理学解释 语音的产生主要包括四个步骤n 引,如图2 1 所示: 图2 1 语音形成原理图 首先在人类脑海中形成想要表达的消息内容,组成语句;然后根据语句内容 进行音素、韵律编码,形成音节单元串;接下来神经中枢控制发声器官的肌肉运 动,产生对应于各音节单元的激励源和声道构型;最后,声道对激励声源进行整 形,传递到嘴唇处的气压变化形成可传播的声波。 发声器官分为三个部分:肺、喉和声道,工作机理2 1 如图2 2 所示: l 一一l 一喉_ j l 一声道j 图2 2 语音产生机理的简化图解 在发声机制中,肺的作用相当于一个动力源,当吸入空气时,胸肋舒展,胸 膈降低,使得胸腔体积增大,肺内气压降低,空气通过声道和气管进入肺部;呼 出空气时,胸肋肌肉收缩减小胸腔体积,使肺部气压增大,迫使空气流向喉部。 o 浙江大学硕士学位论文 说话时,人会以短促的方式吸入空气,并通过控制胸肋周围的肌肉稳定地呼出气 流,呼出空气的时间大致等于一句话或短语的长度,气流被输送至喉部成为产生 语音的动力源。 喉是一个由软骨、肌肉和韧带构成的复杂系统,喉在发声中的作用是控制声 带。声带是两片带有肌肉及韧带的组织,可以在喉的前后之间伸展,两片声带之 间的裂缝称为声门,声带的运动控制着声门的张合。声带主要有三种状态:呼吸, 发浊音和发清音。呼吸时,声带肌肉放松,保持较宽的声门,来自肺部的空气可 以畅通无阻地通过;而发声时,声带紧绷并相互靠近,狭窄的声门阻碍气流的通 过,产生自激震动或者湍流,分别对应于浊音和清音的激励源。 声道包括口腔、鼻腔和咽腔,通过肌肉的运动,声道可以形成许多不同长度 和截面积的腔体,其作用就在于对声源频谱进行整形、润色而产生不同音色的声 音。声源气流经过声道,类似于接受具有谐振特性的线性滤波器滤波。此外,除 了随机噪声和周期性声源之外,声道通过收缩和内壁摩擦,还能产生冲击脉冲声 源1 。 可见,产生语音的声源主要分为三种:周期脉冲、噪声和冲击脉冲,但是从 语音产生机理的解剖学和生理学意义上来说,不会产生出完美的周期性,冲击性 或噪声般的声源,通常三种声源是混合出现的。 由周期性激励产生的语音被称为浊音,由其他形式声源产生的语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年海洋经济发展项目可行性研究报告
- 2025年国际物流服务项目可行性研究报告
- 幼儿园校本培训计划年度实施方案
- 医院重点科室绩效考核实施方案
- 幼儿园家长教育指导方案
- 建筑方案设计的图片怎么做
- 外卖充值营销方案
- 建筑隔声方案设计要求有哪些
- 装修造价咨询服务方案
- 技术项目评审流程模板技术方案及可行性分析
- 2024北京和平街一中高二10月月考语文试题及答案
- 成人ICU患者外周动脉导管管理专家共识解读
- 亚马逊店铺授权协议书
- T-CEA 0062-2024 电梯耐火层门技术规范
- 医院安全保卫制度
- 中国电信云网资源管理技能认证考试题及答案
- 2025齐齐哈尔医学院辅导员考试题库
- 情绪化管理主题班会
- BPCP列车管控制模块Corecompetencetrai
- 2025年四川省自然资源投资集团有限责任公司招聘笔试参考题库附带答案详解
- 2025年云南省交通投资建设集团限公司招聘70名自考难、易点模拟试卷(共500题附带答案详解)
评论
0/150
提交评论