(控制理论与控制工程专业论文)汽车噪声环境下语音识别技术的研究.pdf_第1页
(控制理论与控制工程专业论文)汽车噪声环境下语音识别技术的研究.pdf_第2页
(控制理论与控制工程专业论文)汽车噪声环境下语音识别技术的研究.pdf_第3页
(控制理论与控制工程专业论文)汽车噪声环境下语音识别技术的研究.pdf_第4页
(控制理论与控制工程专业论文)汽车噪声环境下语音识别技术的研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(控制理论与控制工程专业论文)汽车噪声环境下语音识别技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 删 y 1 8 2 4 歹4 百。 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重鏖 整电太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文作者签名:会青睫 签字日期:硝年多月,口日 学位论文版权使用授权书 本学位论文作者完全了解一重鏖邮电太堂 有关保留、使用学位论 文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权一重麽邮电太堂 可以将学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:钎7 务 别磁辄忍肌司 j 卜 签字日期:矽髓年6 月,7 日 签字日期:矿年占月fo 日 重庆邮电大学硕士论文 摘要 摘要 语音是人机之间信息传递最简单、自然的方式,当工作条件恶劣、人 手受限时,这种方式的便捷性将更加显著。语音识别经过近六十年的发展, 到目前为止已经取得了不错的成绩,但目前语音识别技术的发展水平还远 不能达到实际应用的要求。其中实际应用环境中的噪声问题是制约语音识 别系统应用的一个主要因素。作为语音信号处理领域中比较困难的前沿课 题,抗噪声语音识别是语音识别系统实用化进程中必须解决的关键问题。 l 、本文首先在对语音识别系统构成研究的基础上,介绍了其原理、 算法并分析了各类算法的适用范围和优缺点。接着,结合本课题最终实现 目标一实现智能仪器仪表声控功能以及未来系统的扩展性,分别实现了三 种基线系统:特定人v q 、特定人c h m m 、非特定人v q 。 2 、然后,根据m f c c 分量对语音端点的敏感性,设计了一种基于 m f c c o 的新端点检测方法。一方面该方法利用了m f c c 特征参数的抗噪 性能,从而具有鲁棒性,另一方面该方法有着较高的检测精度。实验结果 表明,基于该方法的语音识别系统不仅可以通过端点检测大大压缩数据 量,而且提高了系统的识别率。 3 、结合抗噪技术的三大研究方向:语音增强、抗噪模型补偿技术、 抗噪特征参数提取技术,分别介绍了相应的经典方法和最新研究成果。并 从抗噪特征参数提取技术角度,基于c m nr a sm f c c 、d a sc m n 抗 噪特征参数提取原理和实现的基础上,提出了修正抗噪参数 m d a s c m n 。接着提出了基于人耳听觉m e l 频率上的含噪语音信号模 型,并在此模型基础上,提出了新特征参数m e lc m n 。实验结果表明, 新特征参数md a sc m n 和m e lc m n 对v b l v o 噪声具有更好的抗噪性。 其中m e lc m n 的抗造性更显著,这也从侧面证明了m e l 频率上的含噪语 音信号模型的合理性。 4 、最后,针对v 6 l v o 噪声环境下的语音识别系统的特点,修正了基于 m f c c 0 端点检测法,并利用自适应算法和本文提出的抗噪特征 md a sc m n 、m e lc m n 设计了两种新的系统。实验结果表明新系统更 适用车载语音控制系统的要求。 关键词:语音识别,端点检测,抗噪特征 a b s t r a c t a st h em o s tc o m f o r t a b l ec o m m u n i c a t i n gm e t h o d ,s p e e c hc a ns h o wi t s c o n v e n i e n c es i g n i f i c a n t l y ,e s p e c i a l l yw h e nw o r k i n ge n v i r o n m e n ti sa d v e r s e o rp e o p l ea r eb u s ya tw o r k i n g d u r i n gt h ep a s ta b o u t6 0y e a r s ,m a n yg r e a t a c h i e v e m e n t sh a v e b e e ng a i n e d b u tt h et e c h n o l g yo fp r e v a i l i n gs p e e c h r e c o g n i t i o ni s f a rf r o mp r a c t i c a l i t y t h en o i s e se x i s t i n gi nt h er e a lw o r l da r e o n eo fm a i nf a c t o r s b e i n gad i m c u l tp r o b l e mo fs p e e c hr e c o g n i t i o n ,r o b u s t s p e e c hr e c o g n i t o ns h o u l db e e ns o l v e df b ri t sp r a c t i c a l i t y f i r s t l v 。b a s e do nt h er e s e a r c ho nt h em o d e ls t r u c t u r e ,t h ea l g r i t h m sa r e i n t r o d u c e d t h e n ,c o s i d e r i n gt h eg o a lo ft h i sd i s s e r t a t i o n - s p e e c hc o n t r o l l i n g f u n c t i o no fi n t e l l i g e n ti n s t r u m e n ta n de x p a n s i b i l i t yo fs y s t e mf u n c t i o n ,t h r e e k i n d so fs y s t e m sa r er e a l i z e d s p e a k e r d e p e n d e n tv q,c h m ms y s t e m , s p e a k e r i n d e p e n d e n tv qs y s t e m s e c o d l y ,t h ep a p e rp r o p o s e san e we n d p o i n td e t e c t i o nm e t h o db a s e do n m f c c 0 ,a c c o r d i n gt os e n s i t i v i t ya n a l y s i so fc o m p o n e n t so fm f c c t h en e w m e t h o dg e t sb e t t e rr o b u s tb yu s i n gm f c c t h er e s u l t so fe x p e r i m e n t ss h o w t h a ts p e e c hr e c o g n i t i o ns y s t e mc a nr e d u c ec a l c u l a t i o na m o u n tg r e a t l ya n dg e t h i g h e rr e c o g n i t i o nr a t eb yu s i n gi t t h i r d l y ,t h ep a p e ri n t r o d u c e st h em e t h o d sf 6 rr o b u s ts p e e c hr e c o g n i t i o n b a s e do nt h ep r i n c i p l e so fc m n r a s m f c ca n dd a s c m n ,an e wr o b u s t f c a t u r e m d a s c m ni sp r o p o s e d t h e n ,an e wn o i s ys p e e c hm o d e lo fm e l f r e q u e n c yi sg i v e n r o b u s tf e a t u r em e l c m ni sp r e s e n t e d b a s e do ni t t h e r e s u l to fe x p e r i m e n t ss h o wt h eb e t t e rr o b u s to ft h e m t h er o b u s to fm e l c m n i sm o r es i g n i f i c a n t ,w h i c ha l s oc o n n r m st h a tt h em o d e lo fm e lf r e q u e n c yc a n d e s c r i b et h en o i s ys p e e c he f n c i e n t l y f o u r t h l y ,c o n s i d e r i n gt h ef e a t u r eo fs p e e c hr e c o g n i t i o ns y s t e mu s e di n n o i s y c a re n v i r o n m e n t , t h e e n d p o i n t d e t e c t i o nb a s e do nm f c c oi s m o d i n e d t h e n ,t w os y s t e m sa r eb u i l t e dw i t ht h i se n d p o i n td e t e c t i o nm e t h o d a n da n t i n o i s ef e a t u r e m d a s c m na n dm e l c m n e x p e r i m e n t a lr e s u l t s s h o wt h a tt w on e ws y s t e m sa r em o r es u i t a b l ef o rs p e e c hc o n t r o ls y s t e mi n v b l v on o i s e k e yw o r d s :s p e e c hr e c o g n i t i o n , e n d p o i n td e t e c t i o n , r o b u s tf e a t u r e i i 目录 目录 2 2 1 预加重7 2 2 2 分帧加窗7 2 2 3 端点检测8 2 2 4 特征参数提取技术8 2 3 识别模型1 0 2 3 1 动态时间弯折模型和人工神经网络模型1 0 2 3 2 矢量量化模型11 2 3 3 隐马尔可夫模型1 5 2 4 小结1 9 第三章端点检测2 0 3 1 引言2 0 3 2 双门限端点检测法2 1 3 2 1 检测参数2 1 3 2 2 双门限端点检测的原理和实现2 2 3 3 修正双门限端点检测法2 4 3 4 基于m f c c 0 端点检测法2 5 3 4 1 基于m f c c o 端点检测算法的实现2 7 3 4 2 实验结果与分析2 7 3 5 小结3 2 i i i i i 1 1 l 3 4 5 6 6 7 i c k k r 一 一 一 一 一 一果 一 一 一 一 重庆邮电大学硕士论文 目录 第四章抗噪语音识别技术3 3 4 1 抗噪语音识别技术的三大研究方向3 3 4 1 1 语音增强3 3 4 1 2 模型补偿技术3 5 4 1 3 抗噪特征参数提取技术3 7 4 2v o l v o 噪声环境下的抗噪特征研究3 9 4 2 1c m n r a s m f c c 、d a s c m n 提取方法3 9 4 2 2m d a s c m n 提取方法4 2 4 2 3 m 叭一c m n 提取方法4 3 4 3 小结4 4 第五章v o l v o 噪声环境下语音识别系统的设计与实现4 5 5 1 系统设计4 5 5 1 1 基线系统设计与实现4 5 5 1 2v o l v o 噪声环境下系统的修正4 9 5 2 实验结果与分析5 0 5 2 1 实验条件设置5 0 5 2 2 实验与分析5 1 5 3 小结5 6 第六章结论与展望5 7 6 1 结论5 7 6 2 展望5 8 致 射5 9 参考文献,6 0 附录6 3 重庆邮电大学硕士论文 第一章绪论 1 1 语音识别简介 第一章绪论弟一早三百y 匕 语音识别,又称自动语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) , 是指在各种情况下让机器通过识别和理解过程把人的语言信息转变为相 应的文本或命令的技术。它以语音为研究对象,是语音信号处理的一个重 要研究方向,同时又是模式识别的一个分支。从技术上看,语音识别属于 多模式识别和智能接口的范畴,是一项集声学、语言学、计算机、信息处 理、通信信息理论、模式识别理论、最优化理论、数理统计、人工智能等 于一身的综合技术。其根本目的是研究出一种具有听觉功能的机器,这种 机器能直接受人的语音,理解人的意图,并作出相应的反应,从而可将人 从繁重的劳动中解脱出来【l h 4 1 。 随着社会的不断发展,各种各样的机器参与了人类的生产活动和社会 活动。语音识别作为一种智能接口技术将为人与机器之间的通信提供一种 更为便捷的方式,从而使其可以成为继键盘和鼠标之后,人机交互界面革 命中的下一个飞跃。而语音作为人类最自然的、方便的交流模式,具有其 他方式所不能比拟的优越性,从而使语音识别可广泛应用在信息处理、通 信与电子技术、自动控制等领域。近二、三十年来,语音识别在工业、军 事、交通、医学、民用诸方面都有着广泛的应用,如:语音输入系统、语 音控制系统、自动身份确认等。可见语音识别具有广阔的应用前景,随着 其发展、成熟及实用化必将推动许多产业的迅速发展。 1 2 语音识别的发展与现状 语音识别起始于5 0 年代,标志就是a t & tb e l l 实验室实现了第一 个可识别十个英文数字的语音识别系统一一a u d r y 系统。 6 0 年代,计算机技术的发展推动了语音识别理论与技术的发展。这 一时期的重要成果是提出了动态规划( d y n a m i cp r o g r a m m i n g ,d p ) 和线性预 测分析技术( l i n e a rp r e d i c t i o n ,l p ) ,其中后者较好的解决了语音信号产生 的模型问题,对语音识别产生了深远的影响。 重庆邮电大学硕士论文 第一章绪论 7 0 年代,语音识别领域取得了突破。这一时期l p 技术得到进一步发 展,动态时间弯折技术( d y n a m i ct i m ew a r p i n g ,d t w ) 技术基本成熟。 线性预测编码技术( l i n e a rp r e d i c t i o nc o d i n g ,l p c ) 的引入,使语音识别的特 征提取产生了次飞跃,特别是提出了矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) 和隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 理论。实践上,实现了基 于线性预测倒谱和d t w 技术的特定人孤立词语音识别系统。 8 0 年代,对语音识别的研究进一步走向深入,其显著特征是h m m 模 型和人工神经元网络在语音识别中的成功应用。在此期间语音识别研究一 个重要发展是语音识别算法从模板匹配技术转向基于统计模型技术。h m m 模型的广泛应用应归功于a t & tb e l l 实验室r a b i n e r 等科学家的努力,他 们把原本艰涩的h m m 纯数学模型工程化,从而为更多的研究者了解和认 识。到8 0 年代中期,h m m 技术被世界上所有的实验室所采用。 进入9 0 年代之后,在细化模型的设计、参数提取和优化以及系统的 自适应等技术上取得了一些关键性的进展。随着多媒体时代的来临,人 们迫切要求语音识别系统从实验室走向应用阶段。许多国家如美国、日本、 韩国以及i b m 、a p p l e 、a t & t 、n t t 等著名公司都为语音识别系统的实 用化开发研究投以巨资。 我国的语音识别研究工作起步于5 0 年代,但近年来发展很快,紧跟 国际水平,同时研究水平也从实验室逐步走向实用化。国家也很重视这一 领域的研究工作,从8 7 年开始执行8 6 3 计划,由中科院声学所、自动 化所、北京大学、清华大学等单位研究开发,已经取得了高水平的科研成 果。在国际上,由于中国的国际地位与日俱增,以及在经济和市场方面所 处的重要地位,也鉴于中国未来庞大的市场,国外也非常重视汉语语音识 别的研究。i b m 、a p p l e 、m o t o r o l a 等公司相继投入到汉语语音识别 系统的开发中,其投资也逐年增加。a p p l e 公司在19 9 5 年推出第一个 商用的连接词语音识别系统。i b m 公司也于l9 9 6 年正式推出中文听写机 系统( v i a v o i c e ) ,该系统对新闻语音识别有较高的精度,是目前比较有代 表性的汉语连续语音识别系统。在应用领域,比较典型而成功的小词汇量 语音识别系统有a t & t 于1 9 9 2 年开发的v c r p 系统、a t & t 8 0 0 语音 识别系统,n t t a n s e r 语音识别银行服务系统等,这些都是基于计算机 的语音识别系统。此外还有一些公司将运算量与存储器需求相对较小的特 定人孤立词语音识别算法与d s p ( 数字信号处理器) 技术相结合,开发出 了多种型号的语音识别芯片。这些芯片为构建脱机实时语音识别系统提供 了可靠的处理内核,使得语音识别技术逐步在手机、玩具等家电产品上得 2 重庆邮电大学硕士论文 第一章绪论 到应用。 1 3 研究背景 语言是人类在长期的进化过程中形成的,是人与人交往、交流思想、 描绘事物的工具,是人类最自然、最方便和最有效的交换信息手段。摒弃 键盘和鼠标,实现人和机器的自然通信,一直是人类长期以来追求的目标。 在计算机应用广泛普及的今天,当人们对人类发声的生理机能和语音信号 的特征有了深刻理解后,就越来越期待着以语音方式与计算机进行交流, 人机之间进行语音交流已成为人机交互技术中的重要研究课题。语音识别 经过近六十年的发展,到目前为止已经取得了不错的成绩,但目前的语音 识别技术的发展水平还远不能达到实际应用的要求。其中实际应用环境中 的噪声问题是制约语音识别系统应用的一个主要因数。在实际应用中,由 于噪声的影响以及各种因素的干扰,训练模型和识别特征之间的产生失 配,从而使得语音识别系统的性能会急剧下降。因此,作为语音信号处理 领域中比较困难的前沿课题,抗噪声语音识别是语音识别系统真正实用所 必须解决的关键问题。而多媒体时代的来临,也迫切要求语音识别系统从 实验室走向实用。研究表明,即使在安静的环境下,语音识别系统一半以 上的错误来自端点检测,而提高端点检测技术的关键在于寻找稳定的语音 参数。语音识别系统主要由前端处理、训练、识别三大模块组成。一方面 语音识别系统各模块的实现算法仍存在着许多不足,有待改进和探求新算 法;另一方面每个模块的具体实现算法都将直接影响语音识别系统的性 能:计算量、存储量、识别率。如要将语音识别功能在不同的应用环境中 实现,就需要根据系统指标选择、修正、设计不同的算法来实现语音识别 系统各个模块,以使语音识别功能在不同应用环境的优化实现。所以,语 音识别算法研究是语音识别应用化进程中急需解决的问题。 随着我国经济发展,汽车数量的迅速增长。而在行使过程中驾驶员往 往需要分散注意力到控制仪器上,这给车辆驾驶带来了很大的安全隐患, 使用也非常不便利。如通过语音控制车载仪器仪表系统,驾驶员可以通过 说话的方式与系统对话,完成所需要的功能操作。同时语音控制作为一种 最为人性化的人机对话方式,已经成为未来人机界面发展的新趋势。采用 语音控制车载仪器仪表系统,驾驶员通过麦克风或无线耳机向系统输入指 令,车辆系统识别指令并做出相应处理,再用语音的形式反馈给驾驶员。 可想而知,语音控制车载仪器仪表系统,可大大的提高操作便利性。因此 3 重庆邮电大学硕士论文 第一章绪论 语音控制车载仪器仪表系统具有非常重要的研究意义和实用价值。 1 4 论文的主要研究内容及成果 本文首先研究了语音识别系统的构成、原理、算法和实现。然后从课 题来源的角度,针对语音控制车载仪器仪表系统特点:系统资源有限、控 制命令集有限、汽车噪声环境,对现有技术作了修正与改进。主要研究工 作和研究成果如下: 第一、基于对语音识别系统构成研究的基础上,结合各识别模型适用 范围、优缺点和本课题最终实现目标实现智能仪器仪表声控功能以及未来 系统的扩展性,分别实现了三种基线系统:特定人v q 、特定人c h m m 、 非特定人v q 。 第二、针对语音控制车载仪器仪表系统的环境特点,利用实验室录制 的干净语音和v o l v o 噪声库合成不同信噪比的噪声数据库,建立噪声测试 实验平台。 第三、根据m f c c ( m e lf r e q u e n c yc e p s t r a lc o e m c i e n t s ) 分量对语音 端点的敏感性,提出利用平常舍去的识别特征参数分量m f c c 0 作为语音 端点检测的参量。接着根据m f c c o 的特性设计了一种新的端点检测方法。 一方面该方法利用了m f c c 特征参数的抗噪性能,从而具有鲁棒性,另一 方面该方法有着较高的检测精度。实验结果表明,基于该方法的语音识别 系统不仅可以通过端点检测大大压缩数据量,而且提高了系统的识别率。 第四、结合抗噪技术的三大研究方向:语音增强、抗噪模型补偿技术、 抗噪特征参数提取技术,分别介绍了相应的经典方法和最新研究成果,从 而为后续新方法提供比较参考点和基线系统修正方法。 第五、从抗噪特征参数提取技术角度,在分析c m nr a sm f c c 、 d a s c m n 抗噪特征参数提取原理、性能、实现的基础上,提出了一类新 的修正抗噪参数m d a s c m n 。接着提出了基于人耳听觉m e l 频率上的 含噪语音信号的模型,并在此模型基础上,提出了新的特征参数m e lc m n 。 最后将特征参数m f c c 、d a s c m n 和本文所提出两类特征参数应用到语 音识别系统中,通过在v b l v o 噪声不同信噪比环境下的识别性能,说明了 新特征参数的有效性。 第六、针对v 6 l v o 噪声环境下的语音识别系统的特点,修正了基于 m f c c 0 端点检测法,并利用自适应算法和本文提出的抗噪特征 m d a s c m n 、m e l c m n 设计了两种新的系统。通过新系统与基线系统 4 重庆邮电大学硕士论文 第一章绪论 识别性能的实验结果比较,说明了新系统更适用车载语音控制系统的要 求。 1 5 论文结构 本文共分六章,各章的内容安排如下: 第一章首先介绍了语音识别技术及其应用前景,语音识别发展史及研 究现状。然后,针对语音识别研究存在的问题和语音控制车载仪器仪表系 统实际应用前景提出了本文的研究意义所在。接着,概述了论文所作的主 要研究工作和创新点所在。最后,介绍了论文个章节内容安排。 第二章系统介绍了语音识别系统的构成,并根据语音信号的特点逐个 阐述了个模块的原理及具体的实现方法。并针对语音控制车载仪器仪表系 统,详细介绍了矢量量化和隐马尔可夫模型的基本原理和具体实现方法, 为基线系统的实现做好理论准备。 第三章分析了端点检测的重要性,并介绍了两种常用的端点检测方 法。接着提出了一种更适合噪声环境下语音识别系统的端点检测方法。 第四章介绍了抗噪技术的三大研究方向中常用的抗噪技术和最新研 究成果,然后,从抗噪特征参数提取技术角度,在分析c m nr a sm f c c 、 d a sc m n 抗噪特征参数提取原理、性能、实现的基础上,提出了一类新 的修正抗噪参数md a sc m n 。接着提出了基于人耳听觉m e l 频率上的 含噪语音信号的模型,并在此模型基础上,提出了新的特征参数m e lc m n 。 第五章基于v b l v o 噪声,用统计实验检验了本文所提的m f c c 0 端点 检测法的检测性能和两类新的抗噪特征md a sc m n 、m e lc m n 的抗噪 性能。针对语音控制车载仪器仪表系统特点,修正了基于m f c c o 端点检 测法,并利用自适应算法和本文提出的抗噪特征md a sc m n 、m e lc m n 设计了两种新的系统。通过新系统与基线系统识别性能的实验结果比较, 说明了新系统更适用车载语音控制系统的要求。 第六章总结了本文所做的工作,并探讨了进一步的研究方向。 5 重庆邮电大学硕士论文第二章语音识别系统概述 第二章语音识别系统概述 2 1 语音识别系统的构成 语音识别本质上是一种模式识别过程,整个语音识别系统主要由三大 模块构成:前端处理、训练、识别。整个语音识别流程【l j - 1 4 j 为:对输入的 语音信号首先进行采样和a d 转换,将模拟信号转换为数字信号便于计算 机处理;接着进行预加重和分帧加窗处理,得到语音信号序列:然后进行 端点检测,得到语音信号起止点;最后对截取的语音信号段提取特征参数 序列完成前端处理模块。在训练阶段,对用特征矢量序列表示的语音信号 进行相应的处理,获得表示识别基本单元共性的标准数据,以此构成参考 模板。将所有能识别的基本单元的参考模板结合在一起,形成参考模板库。 在识别阶段,将待识别的语音经前端处理后,逐一与参考模板库中的各个 模板按某种原则进行匹配,找出最相像的参考模板所对应的语音,即为识 别的结果。 其基本原理图如图2 1 所示。即前端处理主要包括采样和a d 转换、 预加重、分帧加窗、端点检测和语音特征参数提取,但各部分的流程顺序 在不同的语音识别系统中可以变化。 图2 1 语音识别系统结构 6 第二章语音识别系统概述 都连续变化的模拟信号,要想在计算机中对它 和量化,将它变成时间和幅度都离散的数字信 率谱受声门激励和口鼻辐射的影响,所以高频 b 倍频程跌落,为此要在前段处理中进行预加 重滤波器。其目的就是要提升高频部分使信号的频谱变得平坦,便于进行 频谱分析。预加重用具有6 d b 倍频程提升高频特性的预加重数字滤波器实 现。 预加重滤波器:日( z ) :l 一舷 ,口:0 9 4 0 9 7( 2 1 ) 这样,语音信号s ( n ) 通过预加重滤波器后,可以表示为: s ( 刀) = s ( 刀) 一a 爆( 刀一1 ) ( 2 - 2 ) 2 2 2 分帧加窗 语音信号是一种典型的非平稳信号,其特性是随时间变化的。但是, 语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音 振动速度来讲要缓慢得多,因此语音信号常常可假定为短时平稳的,即在 1 0 3 0 m s 这样的时间段内,其频谱特性可近似地看作是不变的。这样, 就可以采用平稳过程的分析处理方法来处理了。为了得到短时语音信号, 要对语音信号进行加窗操作。窗函数平滑地在语音信号上滑动,将语音信 号分成帧。而为了使帧与帧之间平滑过渡,保持其连续性,则采用交叠分 段的方法。前一帧与后一帧的交叠部分称为帧移,一般取帧长的o 1 2 。 最常用的窗函数有两种,其定义分别为:( 为窗口长度) 矩形窗: ,、f l ,o 疗 一1 ( 2 - 3 ) 国【刀) 2 1o,其他 7 重庆邮电大学硕士论文 第二章语音识别系统概述 h a m m i n g 窗: 一 o 5 4 以4 6c p 州_ l h ? 掰。 q 。4 选择不同的窗口函数将影响到语音信号分析的结果,采用矩形窗时会产 生较大的g i b b s 效应,为了减小其影响,在求短时频谱时一般采用具有较 小上下冲的h a m m i n g 窗。 2 2 3 端点检测 为了使采集的数据真正是语音信号的数据,要对输入的语音信号进行 判断,准确找出语音段的起止点,从而减少数据量和运算量,减少处理时 间,这就是端点检测。语音信号开始很长一段时间属于无声段,每段语音 的最后一段也是无声段。如果在语音识别时把这两部分都包括在内,会增 加很大的工作量,同时也增加了语音识别的难度。作为语音识别的基础, 端点检测不仅是必须而且是语音识别的关键之一。一般端点检测的算法步 骤如下:对语音信号进行采样和a d 转换、预加重、分帧加窗得到语音数 据帧;对每一帧语音数据提取用于端点检测的特征参数,得原始语音特征 序列;采用一种判决准则,例如门限判定或模式分类,来检测每一语音的 特征序列,从而确定语音帧与非语音帧,找到语音的起止点对应的语音帧 号。对上述结果进行后处理,得到语音的全部区间。 在信噪比高时,常规的双门限方法可以取得较好的效果。但在实际应 用中,由于噪声的影响以及各种因素的干扰,常规的双门限方检测性能会 急剧下降。这就要求寻找具有一定抗噪性能的检测方法。 2 2 4 特征参数提取技术 所谓特征参数的提取,就是从语言信号中提取用于语音识别的有用信 息。特征参数的提取直接关系到语音识别系统性能,其基本思想是将预处 理过的信号通过一次变换,去掉冗余部分,而把代表语音本质的特征参数 抽出来。此后所有处理都是建立在特征参数之上,一旦特征参数不能很好 地反映语音信号的本质,识别就不能成功。因此,提取的特征参数必须满 足:反映语音的本质特征,具有良好的区分性:各分量之间有良好的独立 性:要计算方便,最好能有高效的算法,以保证语音识别的实时实现。 重庆邮电大学硕士论文第二章语音识别系统概述 目前在语音识别中最常用的特征参数是线性预测倒谱系数( l i n e a r p r e d i c t i o nc e p s t r a lc o e m c i e n t s ,l p c c ) 和m e l 倒谱系数( m e lf r e q u e n c y c e p s t r a lc o e m c i e n t s ,m f c c ) 。二者都是将语音信号从时域变换到倒谱域 上,前者从人的发声模型角度出发,利用线性预测编码技术求取倒谱系数。 后者则着眼于人耳的听觉特性,通过构造人的听觉模型,以语音通过该模 型的输出作为声学特征。在19 8 0 年s t e v e n 经过实验证明了选择一个基 于听觉特性的参数更适合于语音识别,即由于m f c c 系数考虑了人耳的 听觉特性,使它对噪声具有一定的鲁棒性。这样m f c c 参数能够比l p c c 参数更好地提高系统识别效果和抗噪性p j 。所以,本文采用m f c c 作为基 线系统的特征参数。下面将详细地介绍m f c c 的提取过程。 与普通实际频率倒谱分析不同,m e l 倒谱系数的分析着眼于人耳的听 觉特性。因为,人耳所听到的声音的高低与声音的频率并不成线性正比关 系,用m e l 频率尺度则更符合人耳的听觉特性。所谓m e l 频率尺度,它 的值大体上对应于实际频率的对数分布关系。m e l 频率与实际频率的具体 关系p 1 可表示为: 胞,( ) = 1 1 2 5l n ( 1 + 厂7 0 0 ) ( 2 - 5 ) m f c c 求取步骤p 1 为: 第一步对语音信号进行采样和a d 转换、预加重、分帧加窗和端点检 测得到有效语音信号数据帧; 第二步对每帧语音信号进行快速傅里叶变换以获得频谱分布信息: 第三步将频域信号通过一组中心频率在坛垓0 度上均匀分布三角滤波 器,其频率响应为: 日历( 后) = 七s 八所一1 ) 厂( , 一1 ) s 七( ,行) ( 2 - 6 ) 厂( 所) 七s 八小+ 1 ) 七,( m + 1 ) 式中,( 肌) 为滤波器的中心频率,而m e l 频率与实际频率的具体关系可由 ( 2 5 ) 式计算得到; 第四步求出每个滤波器的输出对数能量: h m ) = l n 匹l 从七) 1 2 ( 七) ) ( 2 7 ) 七 第五步对其进行离散余弦变换得m c c : 9 告杀 。一一 一一一。 o巾一吖 生哪o = | 一” 伽一 “一肋 八一肋 重庆邮电大学硕士论文第二章语音识别系统概述 酬= 兰取呐c 。0 研一哟期 ( 2 8 )c ( 功= 取,力c 0 4 以研一o 5 ) i( 2 8 ) ,声l l朋j ( 疗= o l 垅一三,为嬲的阶数,m 为三角滤波器的个数) 第六步最后对埘w 求差分得动态特征参数撇【6 】 皇 口( c ,+ 1 9 一c ,一丹) 2 - 9 中盘竺学旦 2p 二 其中,吨是时间t 的差分参数,q + 9 和c f 一秒是相应的静态参数,o 一般取 1 或2 。 2 3 识别模型 语音识别过程是根据模型匹配原则,计算未知语音模式与语音模板库 中的每一个模板的距离测度,从而得到最佳匹配模式。要建立一个性能良 好的语音识别系统,不仅要有好的语音特征参数,还要有好的语音识别模 型和算法。常用的模型训练和模式匹配技术有:动态时间弯折模型 ( d y n a m i ct i m ew a r p i n g ,d t w ) 、矢量量化模型( v e c t o rq u a n t i z a t i o n ,v q ) 和隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 广”j 。而近年来,基于神 经网络、支持向量机、遗传算法等语音识别技术方兴未艾。 2 3 1 动态时间弯折模型和人工神经网络模型 动态时间弯折模型 在语音识别中,简单地将待识语音与参考模板直接作比较存在很大的 缺点。因为语音信号存在很大的随机性,即使是同一个人在不同时间的同 一个语音,也不可能具有完全相同的时间长度,因此时间归正处理是必不 可少的。 d t w 是较早的一种模式匹配和模型训练技术,它应用动态规划方法 将一个复杂的全局最优化问题化为许多局部最优化问题一步一步地进行 决策,成功解决了语音信号特征参数序列比较时,时长不等的难题,在孤 立词语音识别中获得了良好性能。时间规整( 即时间校正) 是把一个单词 内的时变特征变为一致的过程,它用时间规正函数把输入语音参数模板的 l o 重庆邮电大学硕士论文 第二章语音识别系统概述 时间轴非线性地映射到参考特征摸板的时间轴,从而消除了语音参数与模 板参数时长不等带来的失真。d t w 利用了语音的时序关系,是一种有效 的时间归正和语音测度计算方法,对提高系统的识别精度是一种非常有力 的措施。 人工神经网络模型 人工神经元网络( a “t m c i a ln e u r a ln e t w o k s ,a n n ) 以类比于生物神经 系统处理信息的方式,用大量简单的处理单元并行连接而构成一种独具特 点的信息处理系统。这种系统是可以训练的,即可以随着经验的积累而改 善自身的性能。同时,由于高度的并行性,使其能够进行快速判决并具有 容错性。语音信号受说话人物理特性、环境特性等因素影响的复杂函数, 因此不同人之间以及同一人在不同时间收集的语音数据有很大的变化。在 这种情况下,采用a n n 模型进行语音识别具有潜在的优势。a n n 是一种 与传统模式识别完全不同的分布式并行信息处理系统,由于它具有自适 应、自组织以及联想等特性,特别适合于语音识别中的分类问题,可以不 必拘泥于选取特殊的语音参数,而对综合的输入模式进行训练和识别;可 以把听觉模型融合在网络模型中。 动态时间弯折模型适合孤立词、连接词识别,但受模型所限,使其无 法向更高的识别任务扩展。而且其识别性能过分依赖于端点检测,为了解 决这一问题多采用放松起止点的方法,这样使得训练、识别时搜索范围相 应扩大,计算量也随之增长。人工神经网络模型也存在训练、识别时间过 长的缺点,不适合资源受限的实际应用系统。结合本课题语音识别系统的 实际应用环境特点:系统资源有限、控制命令集有限,下面将详细介绍矢 量量化模型和隐马尔可夫模型。 2 3 2 矢量量化模型 矢量量化是二十世纪七十年代后期发展起来的一种数据压缩和编码 技术。v q 最初是在语音压缩中提出的,后广泛应用于语音编码、语音合 成、语音识别和说话人识别等领域。由于它具有较高的数据压缩率和优良 的分类能力。故可用v q 对大量的语音帧进行聚类压缩,使一个语音只用 少量的几个语音帧就能表示出来。这样不仅能节省大量的机器内存,而且 能大幅度地降低计算复杂度。 矢量量化是由标量量化推广和发展而来的一种信源编码技术。标量量 化是用若干个离散的数字值来表示每一个幅度具有连续取值的离散时域 重庆邮电大学硕士论文第二章语音识别系统概述 信号,即对信号的单个样本或单个参数的幅度进行量化。它将整个动态范 围分成若干各小区间,每个小区间有一个代表值,对于一个输入标量信 号,量化时落入小区间的值就用这个代表值代替,或者称被量化为这个代 表值。v q 是对矢量进行量化,它将若干个标量数据组成一个矢量( 或是从 一帧数据中提取的特征矢量) 在多维空间给予整体量化。和标量量化一样 它把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时 落入小区域的矢量就用这个代表矢量代替,从而可以在信息量损失较小的 情况下压缩数据量。矢量量化是标量量化的发展,本质上就是一个把多维 矢量用一个标号或索引号表示的过程。同时因为矢量量化有效地利用了矢 量中各分量间的相关性,使其其量化性能优于标量量化。 基本原理 矢量量化的研究目的就是针对特定的信息源和矢量维数,找到一种最 优的矢量量化器,它能够在量化速率( 用比特采样表示) 一定时,给出更 小的量化失真( 量化信号与原信号之间的误差和原信号比) 。在模式识别 中,还需要完成对每一个所要识别的矢量进行分类的任务。为此,通常的 做法是将所有要识别矢量的集合分成若干子集,然后用一个具有代表性的 矢量来表示具有相似的特征的各子集中的矢量。 r 一,1 矢量量化的基本原理卜1 是:把矢量空间分成若干个小区域,每个小区 域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替, 或者叫着被量化为这个代表矢量,即在语音识别中:首先将k 个标量组成 一个k 维矢量x ,来作为语音信号的参数帧,从而得到输入语音特征矢量序 列 置 r :然后把k 维矢量组成的欧氏空间划分为j 个互不相交的子空间 j 即有ur ,= r ,j j c ,nr ,= 当f ,时;在每个子空间中尺,中找一个代表矢 = l 。 。 量e ,则由这j 个代表矢量组成的集合 e ,就是k 维欧氏空间的一个码本, j 为码本尺寸,f 为码字;最后用码本中的码字f 代表待识语音z 。 失真测度 要对一个矢量进行量化,首先得选择一个合适的失真测度。即具体采 用哪种数学模型来描述两个矢量在进行比较时的失真或距离。目前,常用 的失真测度类有欧氏距离、i t a k u r a s a i t o 距离等。一般来说,失真测度类 型的选择与所采用的参数类型有关。对于语音识别系统中广泛采用的特征 参数:l p c c 通常采用i t a k u r a s a i t o 距离,而对于时域参数和m f c c 来说, 则通常采用欧氏距离。 重庆邮电大学硕士论文第二章语音识别系统概述 欧式距离【3 】 均方平均误差: d ( x ,y ) = 扣,一y 。1 加权欧式距离 d ( x ,y ) = 鼽) 2 q jd 绝对值平均误差: d ( x 川= 薹。h 一少,i q 。1 2 训练方法 利用矢量量化技术时,训练方法即利用训练语音数据集建立一个使得 量化失真统计平均值达到最小的码本。为了设计一个好的码本,应该遵循 以下两条准则:v q 量化器根据选择相应的量化值时,应遵循最邻近准则, 即如果 d ( x ,y ,) 2 器哩i ,( d ( x ,yj ) ) , ( 2 - 13 ) 则将t 归类为第r 类;设所有选择码字r 的输入向量集合为岛,那么应使此 集合中所有矢量与y 之间的失真均值最小即最小失真准则。 l b g 算法就是基于上述原则的一种码本的设计递推算法,该算法从 一个事先选定的初始码本开始进行迭代,直到系统性能满足要求或不再有 明显的改进为止。 1 ) 初始码本的设置方法【1 】 初始码本的设计对最佳码本的设计有很大影响,常用的构造法有随机 码本法、分裂码本法,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论