




已阅读5页,还剩61页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版杜) 、 中国学术期刊( 光盘版 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属 在年一月解密后适用本规定t 非涉密论文口 论文作者签 导师签 期:塑! 兰:! :! z 期:丝! 皇:! 墨 汽车驾驶环境中的鲁棒性语哿识别 中义摘要 汽车驾驶环境中的鲁棒性语音识别 中文摘要 随着汽车越来越多的走入人们的生活,人们对汽车舒适性以及安全性要求的提 高,使得各汽车生产厂家和研究学者不断寻求各种更方便、更快捷的汽车电子操控 方式,语音识别技术在车载电子设备上的应用无疑可以解决很多操控方面的难题。 目前实验室环境下的语音识别已经达到很高的识别率,但是现实生活中无处不在的 噪声使得训练环境和测试环境的不匹配,导致识别率降低。因此提高汽车驾驶环境 下语音识别的鲁棒性成为当前车载语音识别研究的热点。本文主要研究工作有以下 几点: ( 1 ) 搭建了一个基于隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 的语音识别 实验系统。根据不同实验建立了完整的孤立词识别语音库和噪声库以及噪声度量标 准,保证了实验的可重复性。 ( 2 ) 提出一种m e l 频率随机映射( r p _ m f c c ) 倒谱特征参数,并通过实验验证了 该倒谱特征参数比传统的m e l 倒谱特征参数在低信噪比环境下有更高的识别率和 更好的抗噪性能,提高了语音识别的鲁棒性。 ( 3 ) 提出了语音识别预处理的两级维纳滤波去噪方法,通过对n o i s e x9 2 噪声实 验分析验证了该方法可以有效提高语音的信噪比,改善识别系统的鲁棒性。 关键词:语音识别,鲁棒性,随机映射,两级维纳滤波,特征提取 作者:周阿转 指导老师:俞一彪 a b s t r a c tr o b u s ts p e e c hr e c o g n i t i o ni nc a rn o i s ee n v i r o n m e n t r o b u s ts p e e c hr e c o g n i t i o ni nc a rn o i s ee n v i r o n m e n t a b s t r a c t w i t ht h ep r e v a i l i n go ft h ec a l i no u rd a i l yl i f e ,p e o p l eh a sc l a i m e dt h ec a l w i t hm o r e f u n c t i o n sa n dc o u l db em o r es a f e t y , s ot h a tm a n yc a rp r o d u c t i o nf a c t o r i e sa n dr e s e a r c h e s e x p l o r eq u i c k e ra n dm o r em a n e u v e r a b l ec o n t r o lm e t h o d ,n od o u b tt h a tc a re l e c t r i c a l d e v i c e sw i t hs p e e c hr e c o g n i t i o nt e c h n o l o g ym a y b et h eb e s ts o l u t i o nf o rt h i sp r o b l e m s p e e c hr e c o g n i t i o ns y s t e m sc a no b t a i nav e r yh i g ha c c u r a c yi nl a b o r a t o r ye n v i r o n m e n t , b u tt h ep e r f o r m a n c ew i l ld e g r a d er a p i d l yi nn o i s ye n v i r o n m e n t so w i n gt ot h em i s m a t c h b e t w e e nt h ea c o u s t i cm o d e l sa n dt h et e s t i n gs p e e c h t h e r e f o r e ,t oi m p r o v et h es p e e c h r e c o g n i t i o nr a t ei nc a rn o i s ei so n eo ft h eh o t t e s tr e s e a r c h e si nc a re n v i r o n m e n t t h e p a p e r sm a i n l yf o c u so nt h ef o l l o w i n ga s p e c t s : ( 1 ) c o m p l e t eas p e e c hr e c o g n i t i o ns y s t e mw h i c hb a s e do nh i d d e nm a r k o vm o d e l s e tu pa ni n t e g r a t e ds p e e c hd a t a b a s ea n dn o i s es p e e c hd a t a b a s ea c c o r d i n gt ot h ed i f f e r e n t e x p e r i m e n t ,e n s u r et h er e p e a t a b i l i t yo ft h ee x p e r i m e n t ( 2 ) t h ep a p e rp r o p o s e dt h er o b u s tf e a t u r ec o e f f i c i e n tw h i c ha d o p t e dr a n d o m p r o j e c t i o ni n f e a t u r es p a c e ,a n dc e r t i f i e dt h a tt h ep r o p o s e dm e t h o dh a st h eh i g h e r r e c o g n i t i o nr a t e a n dt h eb e t t e rp e r f o r m a n c e ,i m p r o v e dt h er o b u s t n e s so fs p e e c h r e c o g n i t i o n ( 3 ) t h ep a p e rp r o p o s e dt w o - s t e pw i n e rf i l t e rd e n o i s em e t h o do ff r o n te n do fs p e e c h r e c o g n i t i o n ,t h ee x p e r i m e n t sd i s p l a yt h a tt h em e t h o de n h a n c e dt h es i g n a lt on o i s er a t ea n d i m p r o v e dt h er o b u s t n e s so ft h er e c o g n i t i o ns y s t e m k e y w o r d s :s p e e c hr e c o g n i t i o n ,r o b u s t n e s s ,r a n d o mp r o j e c t i o n ,t w o - s t e pw i n e r f i l t e r , f e a t u r ee x t r a c t i o n w r i t eb yz h o ua z h u a n s u p e r v i s e db yy uy i b i a o 目录 第一章绪论1 1 1 课题研究背景及意义l 1 2 语音识别的发展及现状2 1 3 车载语音识别的发展与现状4 1 4 本文结构安排。5 第二章语音识别的基本原理7 2 1 语音信号的预处理8 2 1 1预滤波、采样、a d 转换8 2 1 2 预加重、分帧加窗处理9 2 2 语音信号的时域特性和频域特性l o 2 2 1语音信号的时域特性l o 2 2 2 语音信号的频域分析l l 2 3 特征参数提取1 3 2 3 1线性预测倒谱系数( l p c c ) 13 2 3 2 美尔频率倒谱参数( m f c c ) 1 5 2 4 隐马尔可夫模型( h m m ) 1 6 2 4 1隐马尔可夫模型定义1 7 2 4 2基于h m m 的识别及匹配算法1 9 第三章采用特征空间随机映射的鲁棒性语音识别2 5 3 1 随机映射原理2 6 3 2j o h n s o n - l i n d e n s t r a u s sl e m m a 2 7 3 3 随机映射矩阵的选择2 8 3 4 随机映射m e l 倒谱系数r p _ m f c c 。3 0 3 5 结合m a j o r i t yv o t i n g 的识别判决3 l 3 6 实验结果与分析3 2 3 6 1c e n s r e c - 2 语音库3 2 3 6 2 系统参数设置3 3 3 6 3 真实驾驶环境中的实验结果与分析3 5 3 6 4 基于n o i s e - x 9 2 噪声环境下的识别结果与分析3 8 第四章语音识别前端的鲁棒性技术4 1 4 1 鲁棒性语音识别技术4 2 4 2 短时谱估计方法4 3 4 2 1 短时谱估计原理4 3 4 2 2谱减法4 4 4 2 3 最小均方误差方法一4 5 4 3 两级维纳滤波方法4 7 4 3 1维纳滤波4 7 4 3 2两级维纳滤波算法4 8 4 4 实验结果与分析4 9 第五章总结与展望5 4 5 1 总结。5 4 5 2 展望5 4 参考文献5 6 攻读学位期间发表的学术论文6 0 致 射一6 l 汽车钙驶纠:境中的鲁棒怍语音识别第一章绪论 第一章绪论 用语音来传递信息是目前人类最有效、最方便和最常用的信息交换方式。自从计 算机诞生以来,人类就不断设想并研究如何让计算机能够听懂人类的语音,尤其是计 算机便携化的迅速发展,计算机环境的同趋复杂化,摆脱键盘而进行自然地、人性化 输入方式成为计算机发展的另一个新的突破点。语音信号处理作为人机交互的研究热 点从理论的研究到产品的开发已经走过了大半个世纪并且已经取得了很大的进步。 语音信号处理是以数字信号处理和语音语言学为基础,涉及语言学、模式识别、 机器学习、人工智能、信息论等领域的- - i 1 设计很广的综合性学科,它主要包括四 个部分:语音识别、语音合成、语音编码和语音分类。语音识别是指让机器在各种环 境下,能够理解人的意图并从语音信号中提取语言信息,来达到人机交互的目的。近 几十年来,语音识别在军事、工业、医学、交通、民用等各方面,特别是在计算机、 信息处理、自动控制、电子信息系统等诸多领域中有着广泛的应用。例如:在日常生 活中,可以甩掉键盘,通过语音命令输入对计算机进行各种操作,让人们对计算机的 输入输出更加方便和人性化;在车载行业,需要运用到语音技术的设备越来越多,并 且随着汽车工业的迅速发展,语音识别技术在车载环境下应用的需求越来越突出。车 载语音导航已经是车载导航产业的必然方向,其他方面如调度,监控等等都存在着对 语音技术的需求,随着汽车电子的发展,相信可以播报各种警示信息、故障信息及各 种数据的仪表会出现在将来某一天。因此语音识别技术的应用己成为一个具有竞争性 的新兴高技术产业。 1 1课题研究背景及意义 人们在语音通信过程中,不可避免地会受到各种环境噪声( 如高速公路、商场、 飞机、汽车环境中的噪音) 、传输媒介引入的信道噪声,说话者说话时的回声等。这 些所有的干扰使得接收者接收到的语音不再是原始的纯净语音,而是被环境噪声和信 道噪声污染过的带噪语音信号。这将最终使得语音识别系统性能急剧下降,因此鲁棒 性语音识别成为当前语音识别的一个研究热点。 从上世纪七十年代末八十年代初,国外就有人开始进行噪声环境下语音识别研 l 第一章绪论汽车驾驶环境中的鲁棒性语音识别 究。近几十年来,国外许多著名的研究机构都专门成立了研究小组进行鲁棒性语音识 别( r o b u s t n e s s ) 的研究,每年一次的语音处理领域最大的国际学术会议i e e e 声学会, 语言和信号处理大会( i c a s s p ) ,从2 0 0 0 年开始每年召开一次的由国际语音通信协会 发起的国际语音大会( i n t e r s p e e c h ) ,在这些国际会议论文集中,降噪处理以及鲁 棒性语音识别研究的论文也是不断增加。国内对鲁棒性语音处理方法的研究从上世纪 八十年代开始,到九十年代,国家八六三项目和国防科工委八五预研项目都 非常重视对语音识别鲁棒性技术的系统研究,从2 0 0 0 年开始的全国人机语音通讯学 术会议也都设有鲁棒性语音识别方面的专题讨论与研究。国内外的语音信号处理方面 的会议充分显示出鲁棒性语音识别这一研究领域正同益受到重视,也从侧面反映了语 音识别技术由实验室走向实用化的过程中还有许多值得研究的问题。 随着汽车从高端消费品走入人们的同常生活中,汽车市场也变得更大,各个汽车 生产厂家的竞争也变得更加激烈。这就要求各厂家的产品功能越来越强大,这样才能 吸引客户,因此车载电子设备的功能越来越复杂,要进行的操作也越来越多。但是, 在汽车驾驶过程中,这么多增加的操作无疑会影响驾驶者得安全驾驶,很多国家甚至 采用立法或行政的手段来对影响安全驾驶的行为进行处罚。这个问题的最佳解决方案 是在车载设备中采用语音控制接口,提高汽车驾驶环境中语音识别的鲁棒性,让人们 可以摆脱繁琐的按键操作,采用语音命令来控制各种车载电子设备,这使得驾驶者能 够专心驾驶,从而大大减小事故的发生率。由此可见,对车载语音识别的研究将是未 来几年中的一个热点。 1 2 语音识别的发展及现状 语音信号处理作为一个重要的研究领域,有着长久的研究历史。但真正的快速发 展是从1 9 世纪4 0 年代开始的,而真j 下具有实际意义的语音识别研究是从2 0 世纪5 0 年代开始的。1 9 5 2 年,贝尔( b e l l ) 实验室研制成功了可识别十个英文数字的语音识 别系统1 2 1 ,该系统通过测量英文数字中元音信号的共振峰来识别孤立的数字。1 9 5 6 年,美国普林斯顿大学r c a 实验室研制出能识别l o 个单音节词的识别系统,该系统 采用带通滤波器组获得的频谱参数作为语音信号的特征进行语音识别。1 9 5 9 年,f r y 2 汽车锯驶纠:境中的鲁棒性语爵识别第一章绪论 和d e n e s 等人尝试构建音素识别器来识别4 个元音和9 个辅音,并采用对语音信号进 行频谱分析和模式匹配进行识别决策【3 l 。 2 0 世纪6 0 年代,计算机的应用推动了语音识别的发展。在这个时期,线性预测 分析技术( l i n e a rp r e d i c t i o n ,l p ) 和动态规划【4 1 ( d y n a m i cp r o g r a m m i n g ,d p ) 对这一时期 语音识别的发展产生了深远的影响,l p 技术较好地解决了语音信号产生的模型问题; d p 技术由苏联的v i n t s y u k 提出,解决了语音识别中不等长的对j 下问题。 进入2 0 世纪7 0 年代,语音识别领域的研究取得了一系列重大突破。线性预测技 术得到进一步发展,已经应用于语音信号处理,日本学者i t a k u r a 提出的动态时间规 整算法( d y n a m i ct i m ew a r p i n g ,d t w ) 使得语音识别研究在匹配算法方面丌辟了新的 思路。l i n d a 等人丰富了矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 理论,解决了码书生成的 方法。同时隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 方法也获得初步成功。 2 0 世纪8 0 年代,语音识别研究进一步深入发展,语音识别算法从模式匹配转向 基于统计模型的技术,由美国b e l l 实验室的r a b i n e r 等人对隐马尔可夫模型深入浅 出的介绍,使得世界各国语音信号处理研究人员开始将h m m 广泛应用于语音识别 中,h m m 方法也是目前语音识别的主流研究途径。 进入2 0 世纪9 0 年代以后,语音识别逐渐由实验室走向实用化。一方面,隐马尔 科夫模型和人工神经网络的结合以及鲁棒性语音识别成为研究热点。另一方面,听觉 模型、讲话者自适应以及快速搜索识别算法等研究成为语音识别实用化的关键研究课 题。许多大型公司,如i b m ,a p p l e ,a t & t 以及m i c r o s o f t 等都对语音识别技术的实 用化投以巨资进行研发【5 】。1 9 9 7 年i b m 公司推出了针对中文的听写机的v i a - v o i c e 系统,该系统可以对大词汇量连续语音进行识别,并且达到很高的识别精度,是目前 最成功的商用汉语连续语音识别系统【6 l 。 目前,语音识别已不仅仅是满足实验室环境下的识别或者是某种特定环境下的语 音处理,将语音信号应用于人们的r 常生活中,代替繁琐的人工操作,例如车载电子 控制系统,智能家居控制系统甚至是近几年时兴的股票报价系统以及网络学习系统都 成为一种发展趋势,因此语音识别的实用化技术发展将为语音识别带来巨大的商用发 展空间。 3 第一章绪论汽车驾驶环境中的鲁棒性语音识别 1 3 车载语音识别的发展与现状 随着中国汽车工业的快速发展和汽车保有量的持续增加,汽车消费者对于汽车性 能提出了更高的要求,各汽车生产厂家为了提高整车性能,提高汽车的竞争力,在汽 车中不断力嚣入各种多媒体控制系统来满足使用者可在汽车的娱乐、工作等活动。但繁 琐的手动操作无疑会带来驾驶中的不安全因素,因此各厂家投入大量资金来提高操作 的舒适性,例如触摸屏操作,但无论多好的触摸体验,对驾车者来说,行车过程中手 动操作终端系统都是不安全的,如今汽车技术已经变得菲常先进。可以说目前的汽车 实际上就是一台装着轮子的电脑。因此驾驶过程中的语音识别技术显得尤为重要,成 熟的语音技术能够让车主利用声音进行人机交互,驾驶者的双手不再被车载终端束 缚,也能将注意力集中在行车上,减少事故的发生。 在1 9 9 8 年的巴黎车展上,法国的标志雪铁龙集团展出了萨拉a u t op c 汽车,该 款车型中配备语音控制系统,通过语音合成系统来实现用户与机器的对话。同时通用 汽车公司投入大量资金发展其o n s t a r 电子系统,并在2 0 0 0 年推出了世界上第一辆可 用语音进行控制的无线上网汽车。同时,一些豪华轿车也安装了基本的语音控制系统, 驾驶员可以利用语音指令来随意调节车内的音响和空调。随后,b o s c h 蓝宝公司、奔 驰公司、i b m 公司、宝马公司、丰闲公司等相继在后来的几年中分别推出具有不同 特点的语音控制系统的新车型。在美国,带有语音功能的s y n 已成为福特汽车销售 的一大卖点。 目前国内车载语音识别系统大都出现在较为高端的车型中。吉利在2 0 0 7 年曾推 出款风隐智能概念车,车上备有个性化中文语音控制系统。该技术是由清华大学和 吉利汽车合作研发完成,具有完全的自主性。该系统实现了车门、灯的打开与关闭, 空调、多媒体及导航的多方面控制,但要真正实现量产化还需要一段时同。国内有部 分研究机构已经在做车载语音识别系统方面的研究,如:吉林大学汽车动态模拟国家 重点实验室。清华大学汽车安全与节能国家重点实验室,上海交通大学与贝尔实验室 通信与网络联合实验室,武汉理工大学以及西南交通大学等,并已经研究出了一定的 成果,如吉林大学开发的以s p c e 0 6 1 a 单片机作为微控制器的车载语音识别系统【刀, 在车辆怠速且车内噪声小于5 0 d b 的环境中,两字语音的平均识别率为9 0 ,四字语 4 汽车驾驶环境中的鲁棒性语音识别 第一章绪论 音的识别率为8 5 ;车辆定置油门半开车内噪声为6 0 - 7 0 d b 的环境中,两字语音的平 均识别率为8 5 ,四字语音的识别率为8 0 。 目前车载语音控制系统的应用仅限于对部分多媒体电子设备的控制,如图1 1 所 示,可以在安全驾驶过程中( 即眼睛不离丌路面,手不离开方向盘) 拨打电话、自由 接收电子邮件、接收交通的气候信息、查询目的地以及收听唱片等功能进行语音控制, 但还不能操纵整车动力系统进行起动、加速、制动和转弯的智能控制。相信随着汽车 工业以及语音处理技术的发展,汽车驾驶环境中的语音识别技术在汽车中的应用水平 将成为衡量车型的一个重要标准。在未来的车型中,语音识别技术在汽车上的应用将 成为每款汽车都会具备的基本功能和配置。 现有的车载语音识别系统大都限于车载电话免提拨号系统,其应用范围受到了很 大的限n t 8 】【9 】【1 0 】,在汽车驾驶环境中的语音识别率还不足以应用到实际的系统中,因 此有必要对车载噪音环境下的语音识别进行研究。 图1 1语音识别系统控制的汽车电子设备 1 4 本文结构安排 除第一章绪论外,本论文的整体结构安排如下: 第二章主要介绍语音识别的理论基础,主要包括语音信号产生机理、产生的数学 模型,语音识别的基本原理,语音信号预处理以及特征参数提取,介绍了 n m 模型的 理论基础和h m m 的三个基本问题,文中的识别工作都是基于h m m 语音识别系统。 第三章介绍了随机映射的原理及理论基础,提出一种美尔频率随机映射 第一章绪论 汽车驾驶环境中的鲁棒性语音识别 ( r p _ m f c c ) 特征参数,并通过实验验证了该特征参数比传统的m f c c 特征参数在噪声 环境下有更高的识别率和更好的抗噪性能,提高了语音识别的鲁棒性。 第四章主要介绍了基于短时谱估计的鲁棒性语音识别方法,对提出的两级维纳滤 波方法进行实验分析,根据分析以及实验结果给出各种语音增强方法的优缺点以及适 用环境。 第五章对本文工作进行了总结,并对进一步的研究工作提出了建议。 6 汽7 f :锯驶环境中的鲁棒件语音识别第一二章语音识j j u 的艇奉腺理 第二章语音识别的基本原理 语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。它主 要有两个目的:一个是通过数字信号处理得到反映语音信号重要特征的语音参数,以 便高效地传输或保存语音信号的信息;另一个是要通过信号处理来达到人们的某种意 图,比如人工合成语音、辨识出讲话者、识别出讲话内容等。图2 1 给出了语音信号 处理框图,语音信号处理主要分为两大部分,一部分为语音识别,一部分为语音编码 合成,本文主要是针对语音识别进行的一系列研究。 图2 1 语音信号处理框图 本章主要研究语音识别的基础原理。包括预处理、语音信号的时域及频域特征、 特征提取和隐马尔科夫模型训练以及匹配的基本问题。 语音识别是机器通过对人类语言的识别和理解,将人类的语音信号转换为相应的 文本或命令进行处理的技术。它是语音信号处理的一个重要研究方向,是模式识别的 一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域, 甚至还涉及到人的体态语言( 如人在说话时的表情、手势等行为动作可帮助对方理 解) 。其最终目标是实现入与机器进行自然的语言通信。 语音识别系统典型的结构框图如图2 2 所示,一个完整的语音识别系统包括预处 理、特征提取、模型建立、模式匹配和判决规则等5 个部分。 7 第二章语音识别的幕奉原理汽车驾驶环境中的鲁棒性语音识别 竺掣 鼍一占,啬燮爹 成。从训练语音中提取语音特征,建立参考模型并进行储存的过程称为语音信号特征 2 1 语音信号的预处理 语音信号属于短时平稳信号,一般认为1 0 3 0 m s 内的语音信号特性基本上是不 变的,或者是变化很缓慢,因此,任何语音信号数字处理算法和技术都是建立在“短 时基础上。为了实现各种具体应用,对语音信号进行分析,提取语音参数之前,必 须先进行语音信号短时分析,这些短时分析技术包含语音信号的数字化、语音信号的 端点检测、预加重、加窗和分帧等,这些处理过程也是语音信号分析的关键技术。 语音信号的数字化过程一般包括放大及增益控制、反混叠滤波、采样、a d 转换 及编码,如图2 3 所示: 瞪近圣 翌蛩1 雯t 雯j 驾机 图2 3 语音信号的数字化过程框图 2 1 1 预滤波、采样、a d 转换 对语音信号进行预滤波有两个目的:( 1 ) 抑制输入信号各频域分量中频率超出 工2 的所有分量( z 为采样频率) ,以防止混叠干扰。( 2 ) 抑制5 0 h z 的电源干扰。因 此,预滤波器必须是一个带通滤波器,设其上、下截止频率分别为厶和五,则对于 8 汽车钙驶环境中的鲁棒件语音识别第二章语爵识别的雉奉原理 绝大多数语音编译码器,厶= 3 4 0 0 h z , = 6 0 。i o o h z 。由于人耳语音所能识别的 语音信号是从话筒中传来的模拟信号,要对语音信号进行分析,首先要得到计算机能 够处理的信号,即数字信号,经过a d 转换器将模拟信号转换为二进制数字码。 2 1 2 预加重、分帧加窗处理 ( 1 ) 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在8 0 0 h z 以上按6 d b 倍频程跌落,为此要在预处理中进行预加重。预加重的目的是提升高频 部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。预加重一般是 在语音信号数字化之后,参数分析之前,在计算机中用具有6 d b 倍频程的提升高频 特性的预加重数字滤波器来实现,它一般是一阶数字滤波器: 日( z ) = l 一z 叫( 2 1 ) 其中式( 2 1 ) 中值接近于1 ( 2 ) 分帧加窗处理 语音信号属于非平稳信号,是时变信号,但由于人的发声器官运动速度较慢,因 此可认为语音信号是短时平稳信号。将语音信号分为一段一段来分析其特性参数。其 中每一段称为一“帧”,帧长一般约为l o 3 0 m s ,即3 3 1 0 0 帧s 。分帧虽然可以用连 续分段的方法,但是为了使帧与帧之间平滑过渡,一般采用交叠分段的方法。分帧使 用可以动的有线长度窗口进行加权的方法来实现的。在语音信号处理中常用的窗函数 是矩形窗和汉明窗i 1 ,矩形窗和汉明窗数学表达式如下: l 、矩形窗 b = 0 8 9 a c o 。b o = 4 7 n ,a = - 1 3 d b ,d = - - 6d b o c t( 2 2 ) 2 、汉明( h a m m i n g ) 窗 嘶,= 0 5 4 - 0 4 6 c o s ( 等) ,n - - 0 , 1 , - , n - i 亿3 , b = 1 3 a m ,= 8 衫,a = 0 3 拈,d = - - 6 d b o c t 从图2 4 可以看出,汉明窗的主瓣即带宽比矩形窗大一倍,带外衰减也比矩形窗 大一倍多。矩形窗谱平滑性较好,但损失了高频成分。使波形细节丢失;而汉明窗正 第二章语音识别的基本原理 汽车驾驶环境中的鲁棒性语音识别 好相反,从这点来看,在进行语音信号加窗处理时汉明窗比矩形窗更合适。 矩形窗 矩形窗( d b ) 1 - 1 _ _ - _ 一0i 一一_ , 珈r 二一,一 一一一一一一一一一 、。f7 ,一一, ,| 、,- 0 i k l 鬻 一一一一一jj 一 0 40 60 81 汉甸驴静轴b ) 1 下一电吕- _ 一:一一_ i 弘5 二。羹蚤7 f i 颦l 毒;i j 。i 。j 一j 蠹坐i 二 2 2 语音信号的时域特性和频域特性 根据所分析参数的不同,语音信号的分析方法可分为时域、频域、倒谱域等。时 域分析的优点是直观、简单、运算量小及物理意义明确等等。但是更为常见、更为有 效的方法是在频域进行分析处理,因为语音信号中最重要的感知特性反映在语音信号 的功率谱中,而相位和幅度变化只起很小的作用。 2 2 1 语音信号的时域特性 语音信号的时域分析参数刚用短时能量和过零率来分析,图2 5 为语音信号“石 家庄”的时域波形及其短时能量和短时过零率的特征参数曲线语音信号时域。从图2 5 中可以看出短时能量特征和短时平均过零率都能够判断出寂声段和有声段的起点和 终点,短时能量比较直观的反映了语音信号实时能量的大小,因此当背景噪声较大时, 短时能量则无法区分信号和噪声。对于短时过零率,无声段语音信号的的过零率很小, 浊音段部分语音信号的过零率波形变化相对比较缓慢,而清音段由于口腔在发音时和 空气摩擦的原因,过零率波形在幅度上变化比较剧烈,通过零电平的次数也比浊音段 1 0 0 r n ,一一 一 f 1 l _ 一 一 一0 舶蜘蜘彻 嵇爨 一 酊 一 , 一 窗 一 一 o 明 r_i 一 汉 _ 一 一 一 一 一 rili,i芴 _ _ 1 一 5 0 n u ) 汽车甥驶环境中的鲁棒性语爵识别 第_ 二章语齿识别的幕奉原理 多。因此在背景噪声较小时,可用短时能量和短时过零率对语音信号进行端点检测。 1 c o 5 藿 o c ) _ 0 5 - 1 语音信号 一,【一一l 一 0 2 50 5 t i m e ( s e e ) 短时能量 o ! :7 一 二:= : 一 o 2o - 4 2 0 0 正 j1 0 0 0 0 6 1 1 m e ( s e e ) 过零率 0 2o 40 6 1 1 m e ( s 、 图2 5 语音信号的时域特征 2 2 2 语音信号的频域分析 ,7 、。 一 、 、 、一、 0 8 1 在实际应用中,尽管时域特征计算简单,物理意义明确,但是语音信号的一些重 要特征反映在功率谱中,因此语音信号处理过程中大部分是基于频域进行分析。 图2 7 中的( a ) 、( b ) 、( c ) 、( d ) 分别代表纯净语音信号、信噪比为2 0 d b 、1 0 d b 、0 d b 时的 语谱图,h w a n g 等人1 2 1 通过实验表明语音信号倒谱特征受白噪声的影响要比其他类噪 声的影响大。因此下面不同信噪比的语音信号是通过在纯净语音信号中加入白噪声来 进行分析。 ( , 、| 1 。、 一 ,i 一 1 雾山 第二章语音识别的基本原理 汽车驾驶环境中的鲁棒性语音识别 0 4 0 2 0 勺2 ( a ) c l e a ns p e e c h 旬4 0o 2 5 0 5 一- 一 雹 0 5 l i m e ( s e c ) ( b ) s n r = 0 d b o 7 5 旬5 00 2 50 50 7 5 l i m e ( s e c ) 图2 6 纯净语音和s n r = 0 d b 的加噪语音 ( a ) c l e a ns p e e c h 8 0 0 0 亘6 0 0 0 j l ) 、 o r - - 4 0 0 0 o 3 量2 0 0 0 u - 0 ( b ) s n r 一2 0 d b 00 5 10 t i m e ( s e c ) ( c ) s n r = 1 0 d b 画 0 51 t i m e ( s e c ) ( d ) s n r = 0 d b 0 51 0 t i m e ( s e c ) 1 2 0 51 t i m e ( s e c ) o 鲫 砌 砌 一n工一xuc3量止 嘞 唧 枷 啪 。 舢 沁 舢 一 。 一n工一xqco了u坐止 汽下锯驶环境中的鲁棒件语爵识j j 0第二章语爵识别的摧奉原理 图2 7 不同信噪比下的语音信号语谱图 图2 6 和图2 7 分别描述了纯净语音信号和带噪语音信号的时域波形图和频谱 图,从图2 7 的波形图( b ) 中可以看出纯净语音信号包络随时i 日j 的变化这一特征在出 现噪声时将会被淹没在背景噪声中。对应的语谱图中也可以看出,纯净语音信号有非 常清晰的纹理及共振峰值,但是随着噪声的增加,噪声频谱将信号频谱淹没,语音信 号的高次谐波成分丢失。因此当存在背景噪声时,语音信号的识别率将急剧下降。 2 3 特征参数提取 语音识别系统中的特征提取即提取适合的某些信息特征,是语音识别过程中的基 础环节,在语音识别系统中起着非常重要的作用。原始语音信号在经过预处理之后, 需要选择适当的语音特征参数,这些特征应能够对不同模式进行有效地区分,对同种 方式的变化保持相对稳定,尽可能地将重要信息与冗余信息分离。语音信号特征参数 提取可分为两大类:一种是不可压缩维数的时域特征参数,由各时域采样值直接未经 修改构成:另一种变换域特征参数,将每帧语音信号经过变换后得到的特征参数。 2 3 1 线性预测倒谱系数( l p c c ) l p c 系数是线性预测分析的基本参数,在实际应用中,通常是用l p c 系数推导 出整个l p c 系统冲击响应的复倒谱,即l p c c 应用到语音识别过程中。 设通过线性预测分析得到的声学模型系统函数为: 肌) 2 忑g 万 仁4 , l 一 口。z 叫 、7 由于所求的l p c 系数必须保证系统的稳定性,因此所对应的声道模型传输函数 具有最小相位。利用这一特性可以推导出语音信号的倒谱c ( n ) 与l p c 系数之间的递 推关系: 1 3 第二章语音识别的基本原理 汽车驾驶环境中的鲁棒性语音识别 c o ) = o l c c n ,= 口。+ 善( 一告) q c ( n 一忌) l p ) f 1 按上式求得的j l 研) 称之为l p c 的复倒谱。 ( 2 7 ) l p c c 方法由于利用线性预测分析中声道系统函数h ( z ) 的最小相位特性,避免 了相位卷绕问题;并且其运算量较小,仅仅是用f f t 求复倒谱时运算量的一半:又 因为l p c c 在应用过程中,一方面能够去掉语音信号产生过程中的激励信息,主要反 应声道响应;另一方面l p c c 只需要十几个倒谱系数就能够较好的描述语音信号的短 时谱包络和声门激励参数,因此在语音合成处理中经常采用l p c c 作为语音信号的特 征矢量1 1 3 1 1 1 4 1 。 1 4 汽下锯驶环境中的鲁棒十牛语音识j j u第二章语爵识别的幕奉原理 2 3 2 美尔频率倒谱参数( m f c c ) l p c c 是根据实际频率尺度计算的倒谱系数,然而人耳所听到声音的高低与声音 的频率并不成线性j 下比关系,m e l 频率尺度更符合人耳的听觉特性。m e l 频率与实 际频率的具体关系可用式( 2 8 ) 来表示: , f m e l = 2 5 9 5 1 9 ( 1 + 高) ( 2 8 ) 由于充分考虑了人耳的听觉特性,而且不需要任何前提假设,因此m f c c 具有 良好的识别性能和抗噪性【1 5 l ,m f c c 参数计算过程如图2 8 所示1 6 l : 图2 8m f c c 参数提取过程 ( 1 ) 语音信号经过数字化以及预处理后,经过f f t 将处理后的时域信号x ( n ) 转化 为频域信号x ( m ) ,并由此计算它的短时能量谱p ( f ) 。 n - i2 砌t - a x 。( 足) = ( ,1 ) p 叫下0 k n - i ( 2 9 ) m = 0 ( 2 ) 将p ( f ) 中的普通频率转化美尔( m e l ) 坐标上的p ( m ) ,其中m 表示美尔频率, 美尔频率充分考虑了人耳的听觉特性。 ( 3 ) 在美尔频域内将三角带通滤波器加于美尔坐标得到滤波器组日。( 七) ( 指包含 m 个三角滤波器的滤波器组,一般在m e l 滤波器选择中,都选择三角形滤波器,如 图2 9 所示) ,经过滤波器组的第m 个滤波器的对数能量输出为: 1 5 第二章语音识别的基本原理汽车驾驶环境中的鲁棒性语音识别 p ( m ) :l n 【n - i k ( 研h 。( i i c :) 】m = l ,2 ,m ( 2 1 0 ) k - - o 耥滁频餐 j 肘, - m 7 一 m ,i = 二用彤掂投器组 图2 9m f c c 的三角形滤波器组 ( 4 ) 得到滤波器组的对数能量输出后,进一步对所有滤波器输出做离散余弦变换 ( d c t ) 即可得到m f c c : 。 m 。 ( n ) = p ( m ) c o s l ( m 一1 2 ) 詈l ( 2 1 1 ) m f f i i “ 前面对目前主流的两种语音信号特征参数进行了详细的分析,其中l p c c 特征参 数由于本身极易被噪声干扰,因此基本已经不再直接用于语音识别系统( 目前主要应 用于语音合成和语音编码) ,但其各种派生特征及其改进仍然被广泛研究和使用。 m f c c 特征由于其良好的性能己经成为语音识别系统的标准前端,其算法框架被广泛 采用。但是m f c c 参数主要基于人耳的听觉特性,人类听觉系统对声音的感知无论 在时域上还是在频域上都是有限的,人类听觉过程是一个听觉神经和大脑对声音信号 处理的过程。听觉神经和大脑对声音信号的激励响应是有限的,在实验室环境下, m f c c 特征参数的语音识别系统可以得到较高的识别率,但是在环境复杂的噪声环境 中,识别率急剧下降,因此本文提出的美尔频率随机映射特征( r p _ m f c c ) 参数在 m f c c 基础上进行降维处理,去除噪声干扰,不仅减少了计算量,并且在噪声环境下 的语音识别系统得到较好的识别率。 2 4隐马尔可夫模型( h m m ) 隐马尔可夫模_ 型( h i d d e nm a r k o vm o d e l ,h m m ) ,作为语音信号处理中的种统 计模型,目前在语音信号处理的各个领域中得到广泛应用。有关它的理论基础是在 1 9 7 0 年前后由b a u
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 无人机物流保证承诺书(6篇)
- 难点解析-人教版八年级物理上册第5章透镜及其应用-透镜专项测试试卷(附答案详解)
- 考点攻克人教版八年级物理上册第5章透镜及其应用-生活中的透镜综合测评试题(解析卷)
- 京津冀大气污染防治协作机制考核试卷
- 2025年燃气管道行业反垄断考核试卷
- 2025年工业废气脱硝催化剂再生技术考核试卷
- 借助数学文化理解数学本质
- 解析卷-人教版八年级上册物理物态变化《汽化和液化》必考点解析试题(含解析)
- 2025年建筑工程监理合同协议(质量监督)
- 医师定期考核试题及答案
- 技术部经理竞聘演讲稿
- 电动车 - 雪佛兰Bolt减速器拆解分析报告
- 2025年河北建设投资集团有限责任公司人员招聘笔试备考题库及一套完整答案详解
- 腻子班组安全教育测试题及答案解析
- 2025年行政执法考试题库及答案(单选题)
- 考点解析自考专业(小学教育)(黄金题型)附答案
- 具身智能+军事模拟训练系统研究报告
- 交通志愿者培训
- 二甲评审院感工作汇报
- 2025年军考真题数学试卷及答案
- 2025年政务服务面试题库及答案
评论
0/150
提交评论