(机械电子工程专业论文)语音识别在电磁阀测试系统中的应用.pdf_第1页
(机械电子工程专业论文)语音识别在电磁阀测试系统中的应用.pdf_第2页
(机械电子工程专业论文)语音识别在电磁阀测试系统中的应用.pdf_第3页
(机械电子工程专业论文)语音识别在电磁阀测试系统中的应用.pdf_第4页
(机械电子工程专业论文)语音识别在电磁阀测试系统中的应用.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(机械电子工程专业论文)语音识别在电磁阀测试系统中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i _ l 一 j ad i s s e r t a t i o ni nm e c h a n i c a la n de l e c t r o n i ce n g i n e e r i n g a p p l i c a t i o no fs p e e c hr e c o g n i t i o n i nt h e t e s t i n gs y s t e mo fe l e c t r o m a g n e t i c v a l v e b yw a n gj i n g s u p e r v i s o r :p r o f e s s o r l i uh o n g y i n o r t h e a s t e r nu n i v e r s i t y f e b r u a r y2 0 0 8 ,堪,o一 1f1,vl。, 0 gi、 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 :圮 恧。 学位论文作者签名:互带 日 期:姗碑1z c 1 9 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师不同意网上交流,请在下方签名;否则视为同意。) 学位论文作者签名: 签字日期: 导师签名: 签字日期: j ,f,ll 东北大学硕士学位论文摘要 语音识别在电磁阀测试系统中的应用 摘要 随着科学技术的不断发展,满足人类各种需要的语音识别系统开始出现,这给人类 的生产和生活带来了极大的方便。本文所研究的便是基于s p c e 0 6 1 a 单片机的语音识 别系统在电磁阀测试系统中的应用。 本文介绍了语音识别在国内外的发展状况,讨论了语音识别系统的组成和原理。在 研究语音信号处理技术的基础上,应用m a t l a b 软件对预定语音进行了信号处理,提取 了信号的特征参数。根据本文设计的语音识别系统的特点,确定了动态时间归正( d t w ) 语音识别方法作为本系统的识别方法,并采用该算法对要识别的语音进行了仿真,得到 正确的识别结果。 本文自行设计了语音识别系统的硬件方案。在该方案的指导下,进行了系统硬件的 选择和电路原理图的设计:选用1 6 位单片机s p c e 0 6 1 a 作为系统硬件核心控制器,设 计了包括稳压直流电源、音频输入输出模块电路、驱动控制电路、键盘输入模块电路 在内的外围电路。利用单片机s p c e 0 6 1 a 提供的集成开发环境i d e 2 0 0 ,采用模块化程 序设计方法,应用c 语言和汇编语言进行了语音识别系统控制程序的编制,完成了语 音训练子程序和语音识别子程序的开发。 为检测电磁阀夹具语音识别系统的识别效果,设计了语音识别试验,分别在不同背 景噪声环境下对系统性能进行测试,并对产生的识别误差进行了分析,获得了满足用户 需求的识别效果。 关键词:夹具;语音识别;s p c e 0 6 1 a 单片机;动态时间规i e ( d t w ) l l a p p l i c a t i o no fs p e e c h r e c o g n i t i o n i nt h et e s t i n gs y s t e m o fe l e c t r 0m a g n e t i c v a l v e a b s t r a c t w i t ht h c 吼c e a s i n gd e v e l o p m e n to ft h et e c h n o l o g y , k i n d s o fs p e e c hr e c o g n i t i o ns y s t e m s m e e tt h ep e o p l ea p p e a ra n dc a l lb eh e l p f u lt op e o p l e sl i f e t h er e s e a r c h i nt h ep a p e r1 st h e a p p l i c a t i o no fs p e e c hr e c o g n i t i o ns y s t e mb a s e d o ns p c e 0 6 lam i c r o c o i l _ 昀i l e r1 nt h ct e s t l n g s y s t e mo fe l e c t r o m a g n e t i c v a l v e t h ed e v e l o p i n gs i t u a t i o na t h o m ea n da b r o a d o fs p e e c hr e c o g n i t i o n 1 s g e n 酬l y i f 啪d u c e da l 】l d t h ef o r m a n dt h ep r i n c i p l e o ft y p i c a ls p e e c hr e c o g n l t l o ns y s t e m a r e s y s t e m a t i c a l l yi l l u s t r a t e di nt h i sp a p e r o nt h eb a s i so f r e s e a r c ho fs p e e c hs l g n a lp r o c e s s m g t c c h n 0 1 0 9 y , s i 埘l u l a t i o np r o c e s so ft h e s c h e d u l e dv o i c ei sd o n ew i t h t h eh e l po fm a t l a b s o m a r ea n ds p e e c hf e a t u r ep a r a m e t e r sa r e e x t r a c t e d f i n a l l y , a c c o r d i n gt o t h ef e a t u r eo t s d e e c hr e c o g n i t i o ns y s t e r nw h i c hi sd e s i g n e di nt h ep a p e r , t h e p r i n c i p l eo fd t w a r i 缸硼c1 s d i s c u s s e dt ob em er e c o g i l i t i o nm e t h o do ft h i ss y s t e ma n dt h es i m u l a t i o n p r o c e s so ft h e r e c o 觚t i o nv o i c ei sd o n eu s i n g t h i sm e t h o d u l t i m a t e l y , t h ei d e a lr e s u l t1 sg a l n e d t h es c h e m eo fh a r d w a r ed e s i g ni s a c h i e v e di n d e p e n d e n t l yi nt h ep a p e l u n d e rt h e g u i d a n c eo ft h i ss c h e m e ,s y s t e m h a r d w a r es e l e c t i o na n dc i r c u i tp r i n c i p l ec h a r t sa r ed e s i - g n e d i n e l u d i n gt h es e l e c t i o no fc o r e c o n t r o l l e r s p c e 0 61a ,t h ed e s i g no fs t a b l ev o l t a g ep o w e r s y s t e mu s i n gi n t e 铲a t e ds t a b l ev o l t a g ec h i p ,t h ed e s i g n o ft h ec i r c u i to fa u d i oi n p u ta n do u t p u t m o d u l e ,t h ed e s i g no fd r i v ec o n t r o lm o d u l e ,t h ed e s i g no fc o m m u n i c a t i o nm o d u l e o n t h e b a s i so fi n t e g r a t e dd e v e l o p m e n te n v i r o n m e n ti d e 2 0 0s u p p l i e db ys p c e 0 6 1 a ,t h ec o n t r o i p r o g r a i no fs p e e e l lr e c o g n i t i o ns y s t e mi sc o m p l i e dw i t hcl a n g u a g e 觚d a s s e m b l yl a n g u a g e t h ep r o g r a mi n c l u d e ss p e e c ht r a i n i n gp r o g r a m a n ds p e e c hr e c o g n l t l o np r o g r 锄 i 芏lo r d e rt oi n s p e c t t h e r e c o g n i t i o ne f f e c t o fe l e c t r o m a g n e t i c v a l v ec l 锄ps p e e c n r e c o g n i t i o ns y s t e m ,t h ee x p e r i m e n t a t i o ns c h e m ei sd e s i g n e du n d e r t h ed i f f e r e n tc o n d i t i o n so f b a c k g r o 眦dn o i s e ,a n da n a l y z e d t h ec a u s eo fr e c o g n i t i o ne r r o r s ;o b t a i nr e c o g n l t l o ne f f e c to f u s e rr e q u i r e m e n t k e yw 。r d s :c l a m p ;s p e e c hr e c o g n i t i o n ;s p c e 0 6 1 a s i n g l e - m i c r o c o n t r o l l e r ;d t w t : 东北大学硕士学位论文 目录 目录 独创性声明i 摘要i i a b s t r a c t i i i 第l 章绪论l 1 1 课题的来源1 1 2 课题研究的目的与意义1 1 3 语音识别在国内外发展现状3 1 3 1 语音识别在国外的发展历程。4 1 3 2 语音识别在国内的发展5 1 4 论文内容5 1 5 本章小结6 第2 章语音信号处理与识别算法的m a t l a b 仿真7 2 1 语音识别系统组成及原理7 2 1 1 语音识别系统的组成7 2 1 2 语音识别原理。7 2 2 语音信号处理8 2 2 1 预处理8 2 2 2 端点检测1 2 2 2 3 语音特征参数的提取1 4 2 3 动态时间归正( d t w ) 语音识别算法2 2 2 3 1d t w 算法原理2 2 2 3 2 路径搜索2 4 2 3 3 识别结果判定2 6 2 3 4d t w 算法仿真实现2 6 2 4 本章小结2 8 东北大学硕士学位论文目录 第3 章语音识别系统的硬件设计2 9 3 1 硬件系统结构组成2 9 3 2 硬件系统的实现方案3 0 3 2 1 微控制器的选择和性能介绍3 0 3 2 2 稳压电源系统3 3 3 2 3 语音输入模块3 4 3 2 4 音频输出模块3 6 3 2 5l e d 显示模块3 8 3 2 6 驱动控制模块3 9 3 2 7 键盘输入模块3 9 3 2 8 串口通讯。4 0 3 3 系统硬件平台4 1 3 4 本章小结4 l 第4 章语音识别系统的软件设计4 2 4 1 集成开发环境i d e 4 2 4 1 1i d e 2 0 0 的开发界面4 2 4 1 2 程序代码编译流程4 3 4 2 软件系统实现方案4 4 4 2 1 问题提出4 4 4 2 2 语音的录制及压缩4 5 4 2 3 语音资源的存储和播放4 6 4 2 4 整体软件设计4 8 4 2 5 控制系统各功能模块软件设计4 9 4 3 本章小结5 5 第5 章系统性能测试与实验结果分析5 6 5 1 语音控制系统功能概述5 6 5 2 系统语音识别率测试及结果分析5 6 5 3 本章小结5 7 东北大学硕士学位论文 目录 第6 章结论与展望5 8 6 1 论文工作总结5 8 6 2 进一步的工作与展望。5 8 参考文献6 0 致谢6 3 东北大学硕士学位论文 第1 章绪论 1 1 课题的来源 第1 章绪论 本课题来源于东北大学机电研究所与某电磁阀厂的合作项目,即“电磁阀试验台架 改造”项目。由于该公司生产的电磁阀产品广泛应用于国防、科研、冶金、机械、消防、 矿山、石油、化工、制冷、食品、医药、轻纺、航海、航空、铁路等部门的自动化控制 系统中。因此,其生产的电磁阀的性能显得尤为关键。为了能够确保其质量,除了制造 工艺以外,一套高性能、实用性强、节能环保、扩展性好的电磁阀测试系统也是必不可 少的。根据“某电磁阀有限责任公司试验台架改造技术要求”,该系统可以在水、油、气 介质和真空条件下对电磁阀进行测试,可以进行电磁阀的动作试验、密封试验、泄漏试 验、水压强度试验、k v 值和阀流阻系数测定及寿命试验。此外,由于被测电磁阀在测试 过程中要处于被夹具夹紧状态下,并且要求电磁阀与夹具之间对接的自动控制方式为语 音识别控制,实现高度的自动化。 1 2 课题研究的目的与意义 随着现代科学和计算机技术的发展,人们在与机器的信息交流中,需要一种更加方 便、自然的方式,而语言是人类最重要的、最有效的、最常用的和最方便的通信形式。 这就很容易让人想到能否用自然语言代替传统的人机交流方式( 如键盘、鼠标等) 。人机 自然语音对话就意味着机器应具有听觉,能“听懂 人类的口头语言,这就是语音识别 ( s p e e c hr e c o g n i t i o n ) 的功能。语音识别是语音信号处理的重要研究方向之一,它是_ l 、- j 涉及面很广的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理、神经生 理学、神经心理学、模式识别、声学和人工智能等学科都有密切的联系它还涉及到生 理学、心理学以及人的体态语言( 如人在说话时的表情、手势等行为动作可帮助对方理 解) 。控制论创始人维纳在1 9 5 0 年就曾指出:“通常,我们把语言仅仅看作人与人之间 的通信手段,但是,要使人向机器,机器向人以及机器向机器讲话,那也是完全办得到 的”。 随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种 需要的语音识别系统的实现成为可能。近二三十年来,语音识别在工业、军事、交通、 东北大学硕士学位论文 第1 章绪论 医学、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制等领域中 有着广泛的应用当今,语音识别产品在人机交互应用中已经占到越来越大的比例。 语音识别技术目前应用主要为语音命令控制,传统的机器人控制一般都必须有一个 相应的控制板,人对控制板上的按健或开关进行操作,进而实现对机器人的控制。传统 控制方式的缺点就是携带不方便,特别是在某些不适合人对控制板进行操作的环境中, 这种控制方式的不方便性、不直接性就显得更加突出。而采用语音控制,通过语音信号 作为信息载体,则可以很容易地解决这样的问题。 语音控制的基本流程如图1 1 所示: 图1 1 语音控制的基本流程 f i g 1 1b a s i sf l o wo fs p e e c hc o n t r o l 其中语音识别是进行语音控制的基础。可以看出,语音控制只需人用嘴说出命令控 制字,就可以实现对系统的控制,这种控制方式的便捷性就显而易见了,非常适合于在 某些特殊的环境下,实现对系统的控制。而目前采用语音控制对操作人员专业水平的要 求也大大降低。 语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命 令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音 作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省 略键盘以节省体积。这样使用者就真正做到“君子动口不动手”。 语音识别技术发展到今天,除了p c 机的语音识别系统正趋于成熟外,随着语音算 法的深入研究和集成电路技术的发展,出现了一些具有实用价值和市场前景的语音识别 芯片。近年来,随着消费类电子产品对低成本、高稳健性的语音识别芯片的需求快速增 加,使得语音识别系统大量地从实验室的p c 平台转移到嵌入式设备中通过研究者的不 断努力,现在嵌入式非特定人语音识别系统识别精度已经达到9 8 以上,而对特定人语 音识别系统的识别精度就更高了。 嵌入式语音识别系统与p c 机的语音识别系统相比,虽然其运算速度和存储容量有 限,但它具有自己的一些特点。首先,它是一个完整的语音识别系统。除语音识别功能 外,为了对识别正确与否的验证,该系统还具备语音提示( 语音合成) 及语音回放( 语音 2 j 东北大学硕士学位论文笫i 章绪论 编码记录) 功能。其次,嵌入式语音识别系统多为实时系统。即当用户说完待识别的词 条后,系统立即完成识别功能并有所回应。第三,嵌入式语音识别系统具有体积小,可 靠性高、耗电省、投入少、价格低便携性好,可支持移动作业等优点。这是嵌入式语音 识别系统与p c 机的语音识别系统相比最大的优势。嵌入式语音识别系统的优点使得其 应用的领域十分广泛。 语音识别具有广阔的应用前景。当今社会中,机器在人类生产生活中无所不在,如 工业控制系统、办公室自动化系统等,它们的存在为人们带来了更为方便、舒适和高效 的生活方式。为了使人对机器的控制以及机器对人的反馈更为友善,人类需要研究智能 化的机器。作为人们最直接、方便、自然的信息交流手段之一的语音则理所应当地成为 人机交流的重要媒介。将语音识别与语音合成相结合,构成的“人机通信系统 即 可完成智能化机器的接口。因此,只要有机器存在的地方,就有语音识别应用的潜在可 能。 可以预测在近五到十年内,嵌入式语音识别系统的应用将更加广泛。各种各样的语 音识别系统产品将出现在市场上。据美国专家预测到2 0 0 8 年,具有语音识别功能的产 品可达5 0 亿美元,同时人们也将调整自己的说话方式以适应各种各样的识别系统。但 在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人 类面临的一个大的挑战,但我们正一步步朝着改进语音识别系统的方向迈进。 在本课题研究中,主要是用语音来控制电磁阀夹具进行有限的简单运动,以此开始 了对语音识别的研究,希望能将语音控制推广到工业应用中去,以获得较高的经济效益 和社会效益。 1 3 语音识别在国内外发展现状 语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的 高技术。作为专门的研究领域,语音识别又是- i i 交叉学科,它与数字信号处理理论、 信息论、计算机科学、声学、语音学、语言学等众多学科紧密相连。语音识别经过四十 年的发展,已经显示出巨大的引用前景。人们预计,未来1 0 年内,语音识别技术将进 入工业、家电、汽车电子、医疗、家庭服务、消费电子产品等各个领域。很多专家都认 为语音识别技术是2 0 0 0 年至2 0 1 0 年信息技术领域十大重要科技发展技术之一。 3 东北大学硕士学位论文 第1 章绪论 1 3 1 语音识别在国外的发展历程 语音识别的研究工作大约开始于2 0 世纪5 0 年代,标志就是a t & tb e l l 实验室实现 了第一个可识别十个英文数字的语音识别系统a u d r y 系统,它是第一个可以识别十 个英文数字的语音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是6 0 年代末7 0 年 代初,这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,最 重要是动态规划( d p ) 的方法的提出,有效的解决了语音识别中的不等长的对正问题。这 一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立 词识别,实现了基于线性预测倒谱和d t w 技术的特定人孤立词语音识别系统。8 0 年代, 语音识别研究进一步走向深入,其显著特征是h m m 模型和人工神经网络( a n n ) 在语音 识别中的成功应用。2 0 世纪7 0 年代未到8 0 年代,采用计算机语音识别技术研制成一些 实用的系统。例如,f a n 报道的瑞典的语音识别系统,它已被瑞典e r i c s s o n 公司用来装 备内部快呼通讯网,使用这种系统打电话时,人们不必再拨号或按数字键,只需要说出 受话人的姓名便可接通了。许多发达国家如美国、日本、韩国以及i b m ,a p p l e ,a t - t ,a 盯 等著名公司都为语音识别系统的实用化开发研究投以巨资。从2 0 世纪8 0 年代后期和9 0 年代初期开始,人工神经网络( a r t i f i c a ln e u r a ln e t w o r k ,a n n ) 的研究异常活跃,并且也被 应用到语音识别的研究中。进入9 0 年代后,相应的研究工作在模型设计的细化、参数 的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展,这使语音识别技 术进一步成熟,并且出现一些很好的产品。 i b m 公司于1 9 9 7 年开发出汉语v i a v o i c e 语音识别系统,次年又开发出可以识别上 海话、广东话和四川话等地方口音的语音识别系统v i a v o i c e 9 8 。它带有一个3 2 ,0 0 0 词 的基本词汇表,可以扩展到6 5 ,0 0 0 词,还包括办公常用词条,具有“纠错机制,其平 均识别率可以达到9 5 ,是目前具有代表性的汉语连续语音识别系统。s p e e c h w o r k s 公 司是世界领先的电话自动语音识别系统( a s r ) 解决方案的提供者,代表产品为 s p e e c h w o r k s6 ,利用该产品,用户可以通过电话用自然语言与系统进行交互,进行旅游 预约、股票交易、订票服务和寻呼服务等,无需服务人员介入。目前市场上出现了语音 识别电话、语音识别记事本等产品,如美国v p t c 公司的v o i c eo r g a n i z e r 和法国的p a r r o t 等。 4 东北大学硕士学位论文第1 章绪论 1 3 2 语音识别在国内的发展 我国语音识别研究工作起步于2 0 世纪5 0 年代,但近年来发展很快。研究水平也从 实验室逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能计算机专家 组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经 基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水 平。 语音识别技术的应用可分为两个发展方向:一个方向是大词汇量连续语音识别系 统,这些系统都是在计算机平台上实现的;另外一个重要的发展方向是小型化、便携式语 音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方 面的应用,这些应用系统大都使用专门的硬件系统实现。 目前,语音识别技术应用最广泛的就是在家电方面的应用。此外在通讯、自动控制 和各种智能机器人等方面都有着越来越广泛的应用。 中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、 中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方 面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模 式识别国家重点实验室。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串 连续语音识别系统的识别精度,达到9 4 8 ( 不定长数字串) 和9 6 8 ( 定长数字串) 。在有 5 的拒识率的情况下,系统识别率可以达到9 6 9 ( 不定长数字串) 和9 8 7 ( 定长数字 串) ,这是目前国际最好的识别结果之一,其性能己经接近实用水平。 中科院自动化所及其所属模式科技( p a t t e k ) 公司2 0 0 2 年发布了他们推出的面向不同 计算平台和应用的“天语 中文语音系列产品p a t t e ka s r ,结束了中文语音识别产 品自1 9 9 8 年以来一直由国外公司垄断的历史。 1 4 论文内容 本课题是语音控制系统的设计和研究,要求通过软硬件来实现语音控制电磁阀夹具 的加紧、松开和停止的动作,并对语音识别算法进行分析、仿真,在后面章节中论文将 对其具体介绍。以下是论文的章节安排: 第1 章概述课题来源、研究的目的和意义,以及国内外发展状况。 5 东北大学硕士学位论文第1 章绪论 第2 章语音信号处理与识别算法的m a t l a b 仿真。介绍了语音识别系统的组成及 原理,采用语音识别技术对语音信号进行了预处理、端点检测、特征参数的提取,并用 m a t l a b 进行了仿真。最后主要研究了适合于本系统的动态时间规整算法,并采用该算法 对语音命令“夹紧 、“松开”、“停止”进行了训练和识别,得到了很好的识别效果。 第3 章语音控制系统的硬件方案设计。依据简化硬件,保证性能,降低成本的原则, 选择台湾凌阳公司的s p c e 0 6 1 a 语音芯片为该系统的核心芯片,然后进行电磁阀夹具的 语音识别系统硬件设计,实现对夹具的语音控制。本系统的硬件电路具有体积小,性能 价格比高等特点。 第4 章语音控制系统的软件设计。根据控制系统的要求,在s p c e 0 6 1 a 提供的 i d e 2 0 0 集成开发环境下,利用c 语言和汇编语言完成了对语音的训练、存储、识别、 驱动的程序设计,并完成了调试,可以脱机运行。 第5 章系统性能测试与实验结果分析。为了检测系统的识别率,在不同环境下对系 统的识别性能进行了测试,并分析了产生误差的原因。 第6 章结论与展望。对论文的工作做了总结,并提出了今后待研究的问题。 1 5 本章小结 本章对课题的来源作了简要的介绍,阐述了课题研究的目的和意义,介绍了国内外 外语音识别系统的现状及发展趋势,并在最后介绍了论文的结构和内容安排。 6 东北大学硕士学位论文第2 章语音信号处理与识别算法的m a t l a b4 , $ 真 第2 章语音信号处理与识别算法的m a t l a b 仿真 原始语音信号不能直接进行模板训练和模式匹配,这是因为:( 一) 原始语音信号数 据量太大,系统的运算和存贮负担过重;( 二) 原始语音信号包含太多的随机因素,极大 地影响了系统的识别率。因此,需要对语音信号进行处理,得到所需要的能代表原始语 音的特征参数。这样一方面进行了信息压缩,降低了系统的运算量和存贮量;另一方面 使得进行模板训练和模式匹配的数据特征明显,提高了系统的识别率。语音信号处理技 术包括预处理、端点检测、特征提取和模型匹配,为语音识别的实现奠定了基础。下面 本章将介绍一下语音识别原理以及相应的语音信号处理技术和算法,并对其进行m a t l a b 仿真。 2 1 语音识别系统组成及原理 2 1 1 语音识别系统的组成 语音识别系统本质上是一种多维模式识别系统。目前主流的语音识别技术都是基于 统计模式识别的基础理论。一个完整的语音识别系统大致分为以下三个部分: ( 1 ) 语音特征提取( 前端处理部分) :目的是滤除各种干扰成分,从语音波形中提取 出随时间变化的能表现语音内容的特征矢量序列。 ( 2 ) 声学模型与模式匹配( 识别算法) :声学模型通常由获得的语音特征通过训练产 生,目的是为每个发音建立发音模板。在识别时将输入的语音特征同声学模型进行匹配 与比较,得到最佳识别结果。 ( 3 ) 语义理解( 后处理) :计算机对识别结果进行语义、语法分析,明白语音的意义 以便做出相应的反应,通常通过语言模型来实现。 2 1 2 语音识别原理 语音识别原理如图2 1 所示: 待识别语音经话筒转化为电信号后加在识别系统的输入端,经过预处理、端点检测 后,接着进行语音特征提取,用反映语音信号特征的若干参数来代表原始语音。常用的 语音特征包括:线性预测系数、线性预测倒谱系数、m e l 频谱系数等。接下来分为两个 阶段:训练阶段和识别阶段。在训练阶段,对用特征参数形式表示的语音信号进行相应 7 东北大学硕士学位论文第2 章语音信号处理与识别算法的m a t l a b 仿真 处理,获得表示识别基本单元共性特点的标准数据,以此构成参考模板,将所有能识别 的基本单元的参考模板结合在一起,形成参考模式库;在识别阶段,将待识别的语音信 号经特征提取后逐一与参考模式库中的各个模板按某种原则进行匹配,找出最相似的参 考模板所对应的发音,即为识别结果。 7 厍 壁h 恻 1r 叫。嬲) l 图2 i 语音识别系统原理框图 f i g 2 1s t r u c t u r ed i a g r a mo fs p e e c hr e c o g n i t i o ns y s t e m 2 2 语音信号处理 2 2 1 预处理 果 在语音识别系统里,对原始语音信号进行预处理是必要的,这样可以保证系统获得 一个比较理想的处理对象。语音信号的预处理主要包括抗混叠滤波、预加重处理以及加 窗分帧处理等内容。 2 2 1 1 抗混叠滤波 根据n y q u i s t 采样定理,如果模拟信号的频谱带宽是有限的,那么用等于或高于砺 的采样频率进行采样,则能从取样信号中恢复出原模拟信号【5 l 。就信号而言,浊音语音 的频谱一般在4 k h z 以上便迅速下降,而清音语音信号的频谱在4 k h z 以上频段反而呈 上升趋势,甚至超过了8 k h z ,以后应然没有明显下降的趋势f 5 1 。因此,为了精确表示语 j 音信号,一般认为必须保留1 0 k h z 以下的所有频谱成分,这意味采样频率应该大于或等 于2 0 k h z 。但是在许多实际应用中并不需要采用这么高地取样频率,试验表明对语音清 晰度和可懂度有明显影响的成分,最高频率约为5 7 k h z 。例如i t u ( i n t e r n a t i o n a l t e l e c o m m u n i c a t i o nu n i o n ,国际电信联盟) 在g 7 2 9 中提出的语音编解码系统采样频率为 8 k h z ,只利用了3 4 k h z 以内的语音信号分量【6 】【7 1 ,虽然这样的采样频率对语音清晰度是 有损害的,但受损失的只是少数辅音,而语音信号本身的冗余度又比较大,少数辅音清 晰度下降并不明显影响语句的可懂度。因此语音识别时常采用的采样频率为8 k h z 。 r 东北大学硕士学位论文第2 章语音信号处理与识别算法的m a t l a b 仿真 语音信号的采样之前要进行预滤波处理,其目的是:( 1 ) 抑制输入信号各频率分量 中频率超过a 2 的所有分量坼为采样频率) ,以防止混叠干扰;( 2 ) 抑制5 0 h z 的电源 干扰。进行预滤波处理后,在采用合适的采样频率进行采样。目前,设计较好的声卡通 常都带有带通滤波器。 2 2 1 2 预加重 语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在8 0 0 h z 以上按 6 d b o c t 衰减【4 】【8 】,因此在对语音信号进行处理之前要进行预加重,目的是提升高频部分。 按6 d b o c t 的比例对高频信号加以提升,使信号的频谱变得平坦,以便于频谱分析或声 道参数分析。通常的措施是用一数字滤波器实现预加重,其表达式为: 日( z ) = 1 一韶叫0 9 a 1 0 ( 2 1 ) 式中a 为预加重系数,其取值为0 9 - - 1 0 之间的数,通常取o 9 8 或o 9 7 。本文采用 a = 0 9 8 进行语音的预加重。预加重网络的输出y n 和输入的语音信号x n ,的关系可以用 一阶差分方程表示为: 儿= x 。一a x 川( 2 2 ) 图2 2 语音命令“停止”预加重处理前后波形对照 f i g2 2c o m p a r i s o nb e t w e e nb e f o r ea n da f t e rp r e - e m p h a s i so fs p e e c ho r d e r “s t o p 根据式( 2 2 ) ,在m a t l a b 中仿真得到语音命令“停止 的预加重处理前后波形见图 2 2 ,很明显,语音经过预加重后,音量变小了,因为其幅值变小了。 2 2 1 3 分帧加窗处理 语音信号是一种典型的非平稳信号,其特征是随时间变化的。但是,语音的形成过 9 东北大学硕士学位论文 第2 章语音信号处理与识别算法的m a t l a b 仿真 程是与发音器官地运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢的多, 因此语音信号常常可假定为短时平稳的,即在1 0 3 0 m s 这样的时间段内,其频谱特性 和某些物理特征参量可近似地看作是不变的。这样,就可以采用平稳过程的分析处理方 法来处理了。由此导出了各种“短时”处理方法,以后讨论的各种语音特征参数的提取都 是基于这种假定。这样依赖于时间处理的基本方法,是将语音信号分为一段一段来分析, 其中每一段为一“帧”。由于语音通常在1 0 - 3 0 m s 之内是保持相对平稳的,因此帧长 般即取为1 0 - 3 0 m s 。这些帧就好像是来自一个具有固定特性的持续语音片段一样,一 般都按要求重复( 常是周期的) ,对每帧语音进行处理就等效于对固定特性的持续语音 进行处理。短段之间彼此经常有一些重叠,对每一帧的处理结果是一个数或是一组数 9 1 。 经过处理后将从原始语音序列产生一个新的依赖于时间的序列,被用于描述语音信号的 特征。 语音分帧是用一个有限长度窗口函数进行加权的方法来实现的。设原始语音信号采 样序列为x ( m ) ,将其分成短段等效于乘以幅度为1 的移动窗w ( n - m ) 。当移动窗幅度不 是l 而是按一定函数取值时,所分成地短段语音地各个样值将受到一定程度的加权。 对语音信号的各个短段进行处理,实际就是对各个短段进行某种变换或施以某种 运算,其一般式为: j d n 锄= 妻m ( m ) l c o ( 胛一所) ( 2 - 3 ) 其中t 【宰】表示某种变换,它可以是线性的也可以是非线性的,x ( m ) 为输入语音信号 序列。锄是所有各段经过处理后得到地一个时间序列。 图2 3 语音分帧处理示意图 f i g 2 3s k e t c hm a po fs p e e c hs e g m e n tp r o c e s s i n g 1 0 东北大学硕士学位论文第2 章语音信号处理与识别算法的m a t l a b 仿真 加窗运算实际上是一种卷积运算。设n 为窗口长度,比较常用的有矩形窗和汉明窗。 矩形窗( r e c t a n g u l a r ) 和汉明窗( h a m m i n g ) l 拘定义如下: ) = 器裳州。1 ( 2 4 ) 劬斗5 4 - 0 4 6 c o s ( 器) 翼州- 1 , 10 硝。 其中n 为窗长。窗函数越宽,对信号的平滑作用越显著,窗函数过窄,对信号平滑 作用越不明显【4 1 。对波形乘以窗函数,相当于在频谱范围内,对信号的频谱进行窗函数 傅立叶变换的卷积,或者是进行加权移动的平均。一般希望窗函数具有一下地性质:一 是频率分辨高,即主瓣狭窄、尖锐;二是频谱泄露少,即侧瓣衰减大。由于汉明窗在频 率范围中的分辨率较高,而且侧瓣的衰减大于4 3 d b ,具有频谱泄露少的优点,所以在 本文的语音识别系统中,采用h a m m i n g 窗作为窗函数嘲。 图2 4 语音信号的预处理程序流程图 f i g 2 4p r e p r o c e s s i n gf l o w c h a r to fs p e e c hs i g n a l 1 1 东北大学硕士学位论文 第2 章语音信号处理与识别算法的m a t l a b 仿真 图2 4 是本文设计地语音识别系统信号的预处理程序流程图。本文采用a = 0 9 8 进行 系统的预加重,采用汉明窗对信号进行分帧,另外设置了一个窗长的范围8 w s i z e 1 0 2 4 ,因为如果帧长设置太短,不足以表现出语音特征,太长则违反了短时平稳的假 设,当窗长超出这个范围,系统输出:“h a me r r o r ,并结束程序。 2 2 2 端点检测 2 2 2 1 端点检测原理 端点检i 贝t 1 ( e n dp o i md e t e c t i o n ,e p d ) 是语音识别的一个基础步骤,其任务是准确判断 语音信号流中有语义信息的信号起止点,被广泛应用于语声应答系统、语音识别系统和 说话人识别系统中。在识别系统中,可靠而准确的端点检测使整句的语义信息更多的集 中在语音段,而不是被噪声所分散,使同一算法能给出更高地正确识别率,同时避免无 用数据参与运算,减少系统处理时间。 在静音情况下,端点检测有计算简单的特点,配合对语音持续时间长度的检测,能 够检测出语音信号【5 1 。在实际使用的系统中,系统可能被安装在p c 机中,在办公条件 下使用,也可能被嵌入在手持智能终端中,在这种情况下,系统可能处于一种不确定的 噪声环境中。本文对噪声特性的分析,采用短时能量和短时过零率相结合地方法,力求 使用低的存储器和计算资源,满足实时性和抗干扰地要求。 2 2 2 2 端点检

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论