已阅读5页,还剩80页未读, 继续免费阅读
(计算机应用技术专业论文)语音数控机床的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
沈阳航空工业学院硕士学位论文 摘要 语音识别是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技 术,目前应用于很多领域。语音识别技术在机床控制方面也大有用武之地。语音数控机 床可以打破人工、地点和设备的限制,突出人性化、智能化。在商贸谈判现场的应用更 加突显其优势,使得谈判成功率大幅提高。 本文从语音识别技术入手,首先论述了语音识别的原理和小波闽值降噪技术,其次 简要介绍了数控加工程序编制基础。通过应用微软语音应用程序软件开发工具包s p e e c h a p i5 1 ( s a p i ) 、o p e n g l 技术和v i s u a lc + + 6 0 编程工具,二次设计开发了语音数控机 床系统。本系统也是数控领域较为新颖的尝试与研究,旨在通过应用语音识别技术识别 出用户语音输入的基本命令、加工参数和零件几何信息,系统经过分析处理后自动生成 数控加工代码,最后进行动态模拟加工演示。本文针对语音识别、自动加工编程和模拟 加工三个方面重点论述了系统的设计方案以及具体实现过程。 本文对实验室和数控加工车间进行了系统语音识别率的试验。试验结果表明,语音 数控机床系统在实验室条件下的识别效果较好,可以满足实际应用的要求,但是在数控 加工车间噪声环境下的识别率还有待加强。通过提出改进语音识别效果的方法,指明了 本系统未来的研究方向,进步体现语音识别技术为数控领域所带来的创新革命。 关键词:语音识别;数控机床;自动数控编程;模拟加工 - 卜 沈刚航空工业学院硕士学位论文 a b s t r a e t t h es p e e c hr e c o g n i t i o ni sat e c h n o l o g yo fm i n i n gs p e e c hs i g n a lt oc o r r e s p o n d i n gt e x to r c o m m a n db ym a c h i n e s r e c o g n i t i o na n dc o m p r e h e n s i o n s of a r , i th a sb e e nw i d e l ya p p l i e di n m a n yf i e l d s s p e e c hr e c o g n i t i o nt e c h n o l o g yi sa l s ou s e f u li nt h ea s p e c to fm a c h i n et o o l s c o n t r o l l i n g s p e e c hn 哪e r i c a lc o n t r o lm a c h i n et o o l 锄b r e a kt h er e s t r i c t i o n so fm a n p o w e r , p l a c ea n de q u i p m e n t s i ta l s og i v e sp r o m i n e n c et ob eh u m a n i s ma n di n t e l l i g e n t i z e d i ts h o w s i t sp r e d o m i n a n c ei nt h es c e n eo ft r a d en e g o t i a t i o n , w h i c he n h a n c e st h es u c c e s s f u lr a t eo f n e g o t i a t i o ng r e a t l y t h i sp a p e rs t a r t e df r o mt h es p e e c hr e c o g n i t i o nt e c h n o l o g y , f i r s t l yd i s c u s s e dt h ep r i n c i p l e s o fs p e e c hr e c o g n i t i o na n dw a v e l e tt h r e s h o l dd e n o i s i n gt e c h n o l o g y , a n ds e c o n d l yi n t r o d u c e d t h eb a s i co fn u m e f i c a lc o n t r o lp r o c e s s i n gp r o g r a m m i n gs i m p l y t h es y s t e mo fs p e e c h n u m e f i c a lc o n t r o lm a c h i n et o o lw a ss e c o n d l y d e s i g n e db yu s i n gt h em i c r o s o f ts p e e c h a p p l i c a t i o ns o f t w a r ed e v e l o p m e n tk i ts p e e c ha p i5 1 ( s a p l ) ,o p e n g lt e c h n o l o g ya n d v i s u a lc + + 6 0p r o g r a m m i n gt 0 0 1 t h es y s t e mi sar a t h e ro r i g i n a la t t e m p ta n dr e s e a r c hi nt h e f i e l do fn 哪e r i c a lc o n t r o l ,t o o i ta i m sa tr e c o g n i z i n gt h eb a s i co r d e r s ,p r o c e s s i n gp a r a m e t e r s a n da c c e s s o r i e s g e o m e t r i c a li n f o r m a t i o n sw h i c ha r ei n p u tb yu s e r $ s p e e c h , u s i n gs p e e c h r e c o g n i t i o nt e c h n o l o g y t h es y s t e ma u t o m a t i c a l l yg e n e r a t e st h en 岫e r i c a lc o n t r o lp r o c e s s i n g c o d e sa f t e ra n a l y z i n ga n dd i s p o s i n g , a n dd y n a m i c a l l ys i m u l a t e st h ep r o c e s s i n ga tl a s t t h e e m p h a s i so ft h i sp a p e rw a sd i s c u s s i n gt h es y s t e m sd e s i g np l a n sa n dc o n c r e t ei m p l e m e n t a t i o n b ya i m i n ga t t h r e ea s p e c t s ,w h i c hi n c l u d e ds p e e c hr e c o g n i t i o n , a u t o m a t i c a l l yp r o c e s s i n g p r o g r a m m i n ga n ds i m u l a t i n gp r o c e s s i n g t h i sp a p e rh a de x p e r i m e n t e dt ot e s tt h es y s t e m ss p e e c hr e c o g n i t i o nr a t ei nt h el a b o r a t o r y a n dn u m e f i c a lc o n t r o lp r o c e s s i n gw o r k s h o p i tw a si n d i c a t e df r o mt h ee x p e r i m e n t st h a tt h e s y s t e mo fs p e e c hn m e f i c a ic o n t r o lm a c h i n et o o lh a dp r e f e r a b l er e c o g n i t i o ne f f e c tu n d e r t h e l a b o r a t o r ye n v i r o n m e n t ,w h i c hc o u l ds a t i s f yt h en e e d so fp r a c t i c a la p p l i c a t i o n , h o w e v e r , t h e r e c o g n i t i o nr a t ei nt h en n m e r i c a lc o n t r o lp r o c e s s i n gw o r k s h o pw h i c hi nt h en o i s en e e d e dt o s t r e n g t h e n t h i sp a p e rh a dp u tf o r w a r dt h em e t h o d so fi m p r o v i n gt h es p e e c hr e c o g n i t i o n 沈阳航空1 = 业学院硕士学位论文 e f f e c t , a n dd e s i g n a t e dt h e f u t u r er e s e a r c ho r i e n t a t i o no ft h i s s y s t e m i t e m b o d i e st h e i n n o v a t i v er e v o l u t i o nf o r t h ef i e l do fn u m e r i c a lc o n t r o lw h i c hi sb r o u g h tb ys p e e c h r e c o g n i t i o nt e c h n o l o g y k e y w o r t l s :s p e e c hr e c o g n i t i o n :n u m e r i c a lc o n t r o lm a c h i n et o o la u t o m a t i c a l l yn u m e r i c a l c o n t r o lp r o g r a m m i n g ;s i m u l a t i n gp r o c e s s i n g - 口卜 原创性声明 本人郑重声明:所呈交的学位论文是本人在导师的指导下独立完 成的。除文中已经注明引用的内容外,本论文不包含其他个人或集体 已经发表或撰写过的作品或成果,也不包含本人为获得其他学位而使 用过的成果。对本文研究做出重要贡献的个人或集体均已在论文中进 行了说明并表示谢意。本声明的法律后果由本人承担。 论文作者签名:夔姨 砌力年i 。月弓驴日泐,年月弓驴日 版权授权说明 本人授权学校“有权保留送交学位论文的原件,允许学位论文被 查阅和借阅,学校可以公布学位论文的全部或部分内容,可以影印、 缩印或其他复制手段保存学位论文”;愿意将本人学位论文电子版提交 给研究生部指定授权单位收录和使用。学校必须严格按照授权对论文 进行处理,不得超越授权对毕业论文进行任意处置。 授权人:夔篮 叼年月弓驴日 沈阳航空工业学院硕士学位论文 第1 章绪论 让机器听懂人类的语音,是人们长期以来梦寐以求的事。语音识别技术,简单地 说,就是让机器能够听懂人说的话,目前已经应用于很多领域【1 捌。在信息处理领域, 语音识别可以提供发送指令( c o m m a n d & c o n t r 0 1 ) 、听写系统( v i c t a t i o n ) 、信息查询以 及网上交流等方面的服务;在教育与商务领域,语音教学软件、电话查询、电子商务 等方向也应用到了语音识别技术;还有就是消费电子产品方面的应用。1 9 9 2 年舡t 开发了v r c t 系统,该系统是有五个单词和词组( c o l l e c t ,p e r s o n ,t h i r dn u m b e r ,o p e r a t o r 和c a l l l n gc a r d ) 的非特定人小词汇量语音识别系统;1 9 9 6 年9 月,c h a r l e ss c h w a b 开 通了首个大规模商用语音识别应用系统:股票报价系统:美国电信运营商s p r i n t 的p c s 部门于2 0 0 0 年为客户开通了语音驱动系统;加拿大最大的电信运营商b e l lc a n a d a 也 拥有多个语音驱动系统,提供从客户服务到增值业务和资讯服务等多种功能;北京的 汉王笔和台湾的蒙恬听写系列也运用语音识别技术,实现了非特定人的连续语音识 别。 语音识别技术在机床控制方面大有用武之地。语音数控机床系统就可以实现由语 音输入加工参数和零件几何信息,系统自动生成加工代码并模拟加工过程。编程人员 可以通过口述来代替鼠标和键盘的编程操作,而数控加工编程再也不用受到人工、地 点和设备的限制。 1 1 语音数控机床系统概述 语音数控机床是把语音识别技术与数控加工编程相结合的一个课题。用语音来描 述零件的轮廓以及刀具等加工信息,由系统自动生成加工g 代码,并且可以进行模拟 加工。在国内外的研究中,关于语音识别和数控编程这两方面的研究业已成熟,但把 这两部分结合起来应用还属较新的尝试。 1 1 1 语音识别国内外研究概况 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命 令的技术。而语音识别的目的,是要让机器可以昕懂人类口述的语音。机器听懂人类 沈阳航空工业学院硕士学位论文 的语音有语言层的理解和语义层的理解两个层次,它们分别要求机器实现将声学信息 转换成对应的书面语言及在识别出声学信息的基础上对语言进行理解的功能。 语音识别技术的研究工作开始于2 0 世纪5 0 年代,经过五十多年的发展,语音识 别的理论日臻完善,技术日益成熟,语音识别系统的性能也有了较大的提高。1 9 5 2 年 a t & t b e l l 实验室实现了第一个可识别十个英文数字的语音识别系统一a u d r y 系统。 1 9 5 9 年,美国l i n c o l n 实验室的r o r g i e 和f o r g i e 首次采用数字计算机识别英文的元音 和以摩擦音开头的孤立字,这标志着计算机语音识别时代的开始。6 0 年代,计算机的 应用推动了语音识别的发展。这个时期的重要成果是提出了动态规划( d p ) 和线性预 测分析技术( i j p ) ,其中后者较好地解决了语音信号产生模型的问题,对语音识别的 发展产生了深远影响。7 0 年代,语音识别领域取得了突破。在理论上,l p 技术得到 进一步发展,动态时间规整技术( d t w ) 基本成熟,特别是提出了矢量量化( v q ) 和隐马尔可夫模型( h m m ) 理论。8 0 年代,语音识别研究进一步走向深入,其显著 特征是h m m 模型和人工神经元网络( a n n ) 在语音识别中的成功应用。进入9 0 年 代,随着语音识别各方面问题的逐个解决,语音识别中最困难的非特定人大词汇量连 续语音识别已经达到了很高的性能【4 】。 目前,语音识别技术正从实验室研究中走出来,进入一个实用化的阶段。许多发 达国家如美国、日本、韩国以及i b m 、a p p l e 、a t & t 、n 兀等著名公司都为语音识 别系统的实用化开发研究投以巨资。1 9 9 7 年9 月,m m 推出了v i a v o i c e 中文连续语 音识别系统,标志着中文语音识别技术商业化进程开始启动。随后,微软推出了 w h i s p e r 系统,m i c r o s o f t 和i b m 又分别开发了应用于语音识别系统二次开发的s d k 。 语音识别技术已经在听写机、电话查询系统、家电控制等诸多领域获得了广泛的应用。 m i c r o s o f t 公司在o f f i c ex p 中嵌入了语音命令识别、语音听写引擎和语音合成引擎。 北京的汉王笔和台湾的蒙恬听写系列运用v i a v o i c e 语音识别技术,实现了非特定人的 连续语音识别。图1 1 表示了各种语音识别系统的复杂度、困难度,以及当前技术可 以达到的使用程度闸。从左下角到右上角,识别系统的复杂度和困难度增加。在从左 上角到右下角粗线以下的系统已经基本达到和接近实用。 卜 沈阳航空工业学院硕士学位论文 口语对话r i 语音流利i 饕l 煞鳃旗语音l 鎏连接词l l 孤立词l i 0 语音识别技术 2 02 0 02 0 0 0 2 0 0 0 0 无狠割 识鄹系统的词虻 图1 1 语音识别系统技术复杂度和当前可达到的应用能力 国内的语音识别研究开始于6 0 年代,率先由中国科学院声学所从事这方面的研究工 作。北京大学于1 9 7 9 年建立了由林熹先生主持的语音实验室,用实验方法研究普通话 语音。1 9 8 6 年,8 6 3 计划正式将语音识别技术列入重点。清华大学电子工程系以王作英 教授为核心的语音实验室承接了8 6 3 语音项目,从8 0 年代末开始进行语音识别和语音 信号处理方面的研究。中国社会科学院民族研究所于1 9 8 6 年建立了语音实验室,研究 我国少数民族语音。经过四十多年的发展,汉语语音识别也获得了丰硕的成果。目前国 内从事语音识别研究的机构包括:清华大学、中科院自动化所、中科院声学所、北京大 学、哈尔滨工业大学等。 从各大公司、各研究机构的语音研究项目来看,语音识别项目正在向综合化的方向 发展。m i c r o s o f t 的语音项目有噪声情况下的稳健性研究,剑桥大学增加了提高核心语音 识别技术的研究。密西西比州立大学研究大词汇量对话语音识别以及口头信息检索。总 之,语音识别研究正在朝深度和广度不断发展网。 进入二十一世纪,正像比尔盖茨所说的那样,语音识别技术将使计算机丢掉键盘和 鼠标。可以预见,语音识别将迅速走进大众的生活,它将改变人们学习、工作和生活娱 乐的方式。但是,尽管语音识别取得很大成功,可距离真正的人机自由交流还有很大的 距离。目前计算机还需要对用户作大量的语音训练才能更准确地识别用户的语音,可是 识别率也并不尽如人意。但是经过研究人员的不断努力,一定会攻克语音识别中的主要 难题,语音识别技术也将会对人类的生活方式产生深远的影响。 沈阳航空丁= 业学院硕士学位论文 1 1 2 数控编程国内外研究概况 1 9 5 2 年,美国帕森斯公司( p a r s o n s ) 希l 麻省理工学院( m 盯) 合作研制成功了世界第一台 数控机床,它是一台三坐标数控铣床,用于加工直升飞机叶片轮廓检测用的样板。1 9 5 5 年,该类机床进入实用化阶段,在复杂曲面的加工中发挥了重要作用。当今世界著名的 数控系统厂家有日本的f a n u c 公司、德国的s i e m e n s 公司、美国的a - b 公司、意大 利的a - b o s z a 公司等。1 9 5 9 年,数控机床的新一代加工中心诞生了,并成为当今 数控机床发展的主流,它可以在一次装夹中通过自动换刀实现铣、镗、钻、铰、攻丝等 多道工序旧。 目前数控加工编程分为手工编程和计算机辅助编程两种。手工编程是使用一般的计 算工具,以各种数学方法,人工进行运算和编制数控加工指令。其一般步骤为:分析工 件零件图及工艺要求;确定加工路线和切削用量;进行坐标计算;编制程序指令;制备 信息介质以及计算校验和指令检查等。手工编程的优点是方法简单、容易掌握、适应性 较大,但是存在效率低、周期长、易出错和对编程人员的经验依赖性较强等缺点,所以 它只适用于加工简单零件时的程序编制。 计算机辅助编程需要专用的数控编程软件,可分为以批处理命令方式为主的各种类 型的a p t 语言和以c a d 软件为基础的交互式c a d c a m 编程集成系统。 a p t i 吾言( a u t o m a t i c a l l yp r o 伊a 衄e d1 b o l s ) 用类似英语的指令来描述零件的几何形 状、工艺参数及运动轨迹等。它是美国麻省理工学院电子系研究所于1 9 5 2 年开始研究的。 1 9 5 3 年,该研究所在美国空军资助下开始研究自动编程系统,并于1 9 5 5 年公布了成果, 即a p ti 。随后经过多年不断使用、完善,发展了多个版本。各个国家也随即在t 语 言的基础上研究开发出本国的劁m 吾言自动编程系统,如德国的e x a p t 系统、日本的 f a p t 和h a i t 系统、法国的i f a p t 系统、意大利的m o d a p t 系统及我国的s k c 与z c x 系 统等。但是a p t 语言也存在编程直观性差、编程过程比较复杂以及编制过程不便于进行 阶段性检查等缺点栩。 计算机辅 i 鼢t ( c o m p u t e ra i d e dd e s i g n ,c a d ) 是在c a d 系统硬件、软件的支撑下, 研究对象的描述、系统分析和优化、产品设计、仿真、图形处理的理论以及工程方法, 使计算机可辅助设计人员完成产品的全部设计过程,最后输出满意的设计结果和产品图 纸。采用计算机辅助设计,可以改变传统的经验设计方法,由静态和线性分析向动态和 4 一 沈阳航空工业学院硕士学位论文 非线性分析、可行性设计向优化设计过渡。计算机辅助制造( c o m p u t e r a i d e d m a n u f a c t u r i n g ,c a m ) 有狭义和广义之分。狭义的c a m 仅包括计算机辅助编制数控加工 指令。广义的c a m 包括编制制造工艺规程和数控加工指令、控制数控机床、安排生产计 划和进度、制订材料需求计划、进行车间工段控制和进行质量监控等工作,采用c a m 可以避免许多由传统制造所引发的问题。 c a d c a m 技术目前已应用于机械、电子、航空、船舶、建筑等制造行业。c a d c a m 推动了几乎所有设计领域的革命,它的发展和应用水平已成为衡量一个国家科技和工业 现代化水平的重要标志之一。c a d c a m 技术从根本上改变了过去的手工设计绘图、凭 图纸组织整个生产过程的技术管理方式,变成了在图形工作站上交互设计,用数据文件 定义产品,在统一的数字化产品模型下进行产品的设计、分析计算、制定工艺装配、数 控加工和质量控制等工作。 目前国外基于c a d c a m 的商业化软件有m a s t e r c a m 、u g 、p r o e 等,这些软件具 有先进的管理基础、强大的工程背景、完善的操作功能和专业化的技术服务,业已赢得 广大用户的青睐。我国的数控仿真软件技术与国外有较大差距。从“七五”开始,我国已 将c a d c a m 作为重点研究项目,“八五”又投入了大量的人力物力进行深入研究。哈尔 滨工业大学的n c m p s 系统可面向多轴数控加工中心建立n c 加工仿真环境;北京科技 大学的s s c a d a m 微机零件c a d c a m 集成化系统实现了轴类零件的c a d c a m 集成。 清华大学、上海交通大学、华中科技大学、西安交通大学等单位都建立了相应的研究机 构进行设计研究。这些研究虽然取得了一定成果,但总体的技术水平仍与国外有较大差 距。我国现阶段的主要任务是研究开发面向工程化和实用化的c a d c a m 软件p 明。 1 2 课题的目的和意义 当前编制数控加工代码主要是由人工通过计算机直接编写数控加工程序,或者由人 工根据加工图纸在c a d c a m 软件中绘制零件图,然后由其自动生成加工代码。这两种 方法都受到人工、地点和设备的限制。如果实现了本课题,则可以打破以上限制。人们 可以在商贸谈判现场用电话说出加工参数以及零件轮廓信息,加工中心的计算机通过语 音识别自动生成数控加工g 代码传输给机床,机床就会直接加工出所需零件,谈判所需 零件随即送到,效率之高可见一斑,谈判成功率也大大提高。语音输入完加工参数以后, 卜 沈阳航空工业学院硕士学位论文 现场的加工人员可以根据实际情况进行修改,系统还可以动态模拟加工过程。加工中心 的编程人员也可以通过口述来代替鼠标和键盘的编程操作。 通过实现本课题,可以使机床控制更加方便、快捷、人性化、智能化,可以减少工 作量,适合远程控制,能进一步推动语音识别技术在更广阔领域的应用,也推动沈阳老 工业基地的发展和振兴。 1 3 本文的主要内容及结构 本文主要是从语音识别、自动加工编程和模拟加工这三方面来对语音数控机床系统 进行研究与探讨,并给出具体的设计与实现方案。本文的主要内容安排如下: 第一章主要介绍了语音数控机床系统研究的概况,其中包括语音识别和数控编程的 国内外研究的历史、现状、发展趋势等内容;阐明了课题的目的和意义,并对论文研究 的内容和安排进行了介绍。 第二章讨论了语音识别原理,包括语音信号的数字化、预处理、端点检测以及特征 提取,并重点论述了模板匹配技术。最后针对于系统的应用环境,探讨了小波阈值降噪 技术的原理和实现。 第三章简要介绍了数控加工程序编制基础,在讨论数控机床的组成和工作原理的基 础上,介绍了基本的编程指令,为系统的设计和研究提供了理论支持。 第四章为本文的重点,详细论述了语音数控机床系统的设计与实现。通过对语音数 控机床系统的需求分析和总体设计,针对语音识别、自动加工编程和模拟加工三方面给 出系统的具体设计方案,同时进行可行性分析。语音识别模块首先介绍开发工具和文法 文件,然后介绍了语音识别、语音信息处理以及自动绘制零件图的具体实现;自动编程 模块论述了其算法设计和实现方法;模拟加工模块在介绍o p e n g l 技术的基础上阐述了 模拟加工的具体实现。 第五章对语音数控机床系统的实验结果进行了分析讨论和总结,提出几种提高语音 识别率的方法。 卜 沈阳航空工业学院硕士学位论文 第2 章语音识别技术 语言是人类进行思想、观点和情感交流最自然快捷的交互方式。随着信息时代的到 来,人与机器之间用口语进行自由交流和沟通的遐想一直激荡着人类的创新欲望,正是 社会需求推动着语音识别技术的不断发展。 2 1 语音识别综述 语音识别( s p e z c hr e c o g n i t i o n ) 是机器通过识别和理解过程把语音信号转变为相应的 文本或命令的技术,其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接 受人的语言,理解人的意图,并做出相应的反映。从技术上看,它属于多维模式识别和 智能接口的范畴。语音识别技术是一项集声学、语言学、计算机、信息处理、人工智能 于一身的综合技术。 语音识别按不同的角度有下面几种分类方法【9 1 0 l : ( 1 ) 按所要识别的单元分。语音识别可以分为孤立词识别、音素识别、音节识别、孤 立句识别、连续语音识别和理解等。在孤立词识别中,机器只是识别一个个孤立的音节、 词或短语,并给出具体识别结果;在连续语音识别中,机器识别连续自然的书面朗读形 式的语音;语音理解是在语音识别的基础上,用语言学知识来推断语音的含义。 ( 2 ) 按识别的词汇量大小分。有小词汇( 1 0 5 0 个) 、中词汇( 5 0 2 0 0 个) 、大词汇( 2 0 0 个以上) 等孤立词识别。一般情况下,语音识别的识别率会随着词汇量大小的增加而下 降,由此来看,语音识别的研究难度是随着词汇量的增加而逐渐增加的。 ( 3 ) 按说话人分。可分为特定说话人( s p e a k e 卜d e p e n d e n t ) 和非特定说话人 ( s p e a k e r - i n d e p e n d e n t ) 。说话人识别,又称为声纹识别,是以语音对说话人进行区分, 从而进行身份鉴别与认证的技术。它不注重包含在语音信号中的文字符号以及语义内容 信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息,以达到 识别说话人的目的;对于非特定说话人识别,机器能识别任意人的发音,这种系统要能 从大量的不同人的发音样本中学习到非特定人的发音速度、语音强度、发音方式等基本 特征,并归纳出其相似性作为识别的标准。从难度上看,特定说话人的语音识别比较简 单,能得到较高的识别率:而非特定人识别系统通用性好、应用面广,但也难度较大, 沈阳航空工业学院硕士学位论文 不容易获得较高的识别率。 ( 4 ) 按识别的方法分。有模板匹配法、随机模型法和概率语法分析法。这三种方法都 属于统计模式识别方法。其识别方法大致如下:首先提取语音信号的特征构建参考模板, 然后用一个可以衡量未知模式和参考模板之间的似然度的测度函数,选用一种最佳准则 和专家知识做出识别决策,对识别候选者作最后判决,得到最好的识别结果作为输出。 其中模板匹配法是将测试语音与参考模板的参数进行比较匹配,判决的依据是失真测度 最小原则。随机模型法是使用隐马尔可夫模型( h m m ) 的概率参数来对似然函数进行 估计与判决,从而得到识别结果。概率语法分析法适用于大长度范围的连续语言的识别 情况,它可以利用连续语言中的形式语法约束知识来对似然函数进行估计和判决。 作为高科技应用领域的研究热点,语音识别技术从理论的研究到产品的开发已经取 得了长足的进步。虽然实用语音识别技术的研究是一项极具市场价值和挑战性的工作, 但其存在的问题和困难是不可低估的。实用语音识别研究中存在的几个主要问题和困难 如下【9 1 1 l : ( 1 ) 语音识别的一项重要应用是自然语言的识别和理解。这个工作首先要解决的问题 是连续的讲话必须分解成单词、音节或音素单位,其次是建立一个理解语音的规则或专 家系统。 ( 2 ) 发音的多变性。不同人发同一个音、同一个人在不同时间、不同身体状态、不同 情绪讲相同词语时,语言的信息是不同的。 ( 3 ) 语音的模糊性。在实际的连续语音流中语音声学变量与音素变量之间不存在一一 对应关系。说话者在讲话时,不同的语词可能听起来很相似。这种情况不论是在汉语还 是在英语中都很常见。 ( 4 ) 单个字母及单个词语发音时语音特性受上下文环境的影响,使得相同字母有不同 的语音特性。单词或单词的一部分在发音过程中其音量、音调、重音和发音速度可能不 同。 ( 5 ) 环境的噪声和干扰对语音识别有严重影响。语音库中的语音模板基本上是在无噪 声和无混响的环境中采集、转换而成的,但在实际应用中,噪声是无法避免的,它广泛 存在于各种通话场合,噪声源多种多样且易于变化,而且造成的失配较为严重,因为此 时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等。噪声使语音识 毋- 沈阳航空工业学院硕士学位论文 别的性能降低。 以上是在语音识别技术的实际应用中对识别率影响较大的几个因素。此外,方言或 口音、“口语”、协同发音现象、说话人变异等问题也对语音识别的研究与发展造成一定 的影响。再有,人类完善的语言听觉功能是在复杂的社会环境中逐步建立起来的,要想 让计算机具有人类的听觉智能是极其困难的。这些困难表现在语音信号可变性和自然语 言不规范性的建模上。事实上,只有建立从声学、语音学到语言学的知识为基础的语音 处理机制,才有可能获得能与人类相比的高性能的计算机语音识别系绀1 e l 。 2 2 语音识别原理 语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。语音 识别分为两步。第一步是根据识别系统的类型选择能够满足要求的一种识别方法,采用 语音分析方法分析出这种识别方法所要求的语音特征参数,这些参数作为标准模式存储 起来,形成“模板”,这一过程称为“学习”或“训练”。第二步就是“识别”或“测试”阶段。 根据实际需要选择语音特征参数,这些特征参数的时间序列构成了测试模板,将其与己 存在的参考模板逐一进行比较,进行测度估计,最后经由专家知识库判决,最佳匹配的 参考模板即为识别结果。语音识别的原理【9 】如图2 1 。 出 图2 1 语音识别的原理框图 语音信号的预处理和特征提取是语音信号的分析阶段。语音信号的分析是语音信号 处理的i j 提和基础,只有分析出可以表示语音信号本质特征的参数,才能利用这些参数 进行高效的语音识别处理,而语音信号分析的准确性和精确性对语音识别率起着至关重 要的作用。 模板匹配是语音识别的核心,它针对语音信号的特点选择和建立合适的语音信号的 数字识别模型和算法。输入的语音信号进行预处理和特征提取以后形成训练模板,通过 模板匹配将训练模板与标准模板进行匹配,计算两者之问的失真测度,以判别两者之间 卜 沈阳航空工业学院硕士学位论文 的相似程度。 模板库是声学参数模板,它是从不同讲话者的多次重复的讲话中提取语音特征参数, 并进行长时间的训练而聚类得到的标准模板,以作为识别标准。专家知识库用来存储各 种语言学知识,如汉语声调变调规则、音长分布规则、同音字判别规则、构词规则、语 法规则、语义规则等。 对于输入的语音信号经过计算而得的测度,根据若干准则及专家知识库,判决选出 可能的结果中最接近的结果,即判决模板库中的某一标准语句的语音特征与输入语音信 号的语音特征的相似度高低,并由识别系统输出,这就是判决过程。 2 2 1 语音信号的数字化和预处理 贯穿于语音分析的全过程的是“短时分析技术”。这是因为语音信号从整体上看,其 特性是随时间而变化的,所以它是一个非稳态过程,不能用处理平稳信号的数字信号处 理技术对其进行分析处理。但是,从另一方面来看,语音信号在一个短时间范围内其特 性基本保持不变,也就是相对稳定,所以可以将语言信号看作是一个准稳态过程,即语 音信号具有短时平稳性,这也就是需要对语音信号进 亍短时分析”,将语音信号分为一 段一段来分析,其中每一段称为一帧,( f r a m e ) 【9 1 0 l 。 在对语音信号进行分析和处理之前,必须对所采集的语音信号进行数字化和预处理, 其中包括数字化、预加重、分帧、加窗和语音信号端点的检测等过程。 1 语音信号的数字化 将原始的模拟信号变为数字信号,即语音信号的数字化,必须经过两个步骤:取样 和量化,从而得到时间和频度上均为离散的数字语音信号。 采样是把模拟信号在时间域上进行等间距取样,其中两个取样点之间的间隔称为采 样周期,其倒数称为采样频率。根据n y q u i s t 采样定理,采样率必须要大于等于信号带 宽的2 倍,这样才能从采样信号中精确地恢复出原模拟信号,否则在取样过程中会丢失 一部分信息。在实际语音信号处理中,取样率通常取8k h z 1 0 k h z ,为了提高识别率, 有的语音处理系统的取样率提高到1 5k i - i z 2 0 k h z 。 在语音信号进行采样的时候需要进行反混叠滤波,即预滤波过程。预滤波的目的是 抑制输入的语音信号各频域分量中频率超出f d 2 的所有分量( f s 为采样频率) ,以防止混叠 干扰;另一个目的是抑制5 0 i - i z 的电源工频干扰。语音信号经过预滤波和采样后,由a d 沈阳航空工业学院硕士学位论文 变换器变换为二进制代码,如图2 2 所剥8 1 。 语音输入厂 广 数字语音信号 叫反混叠滤波卜_ 叫a i d 变换卜- + 图2 2 语音信号的数字化 采样后的信号在时间域上是离散的形式,但是在幅度上还保持着连续的特点,所以 要进行量化。量化的目的是将信号波形的幅度值离散化,也就是在a d 变化中对信号进 行量化。量化过程不可避免地产生误差。量化后的信号值与原信号之间的差值称为量化 误差,又叫做量化噪声。 若用o r 2 x 表示输入语音信号序列的方差,石一表示信号的峰值,b 为量化字长,盯2 r 表示噪声序列的方差,则可证明量化信噪比( 信号与量化噪声之阃的比值) 为: s g n ( a b ) :1 0 l g ( ! :6 0 2 口+ 4 7 7 2 0 l g ( 二! 二氅) ( 2 1 ) oc o 假设语音信号的幅度服从l a p l a c i a n 分布,此时信号的幅度超过4 吒的概率很小,由此可 取工一一4 吒,此时式( 2 1 ) 变为 船( d 日) = 6 0 2 b 一7 2 ( 2 2 ) 式( 2 。2 ) 表明量化器中每b i t 对s r n 贡献为6 d b 。当b = 7b i t 时,s r n = 3 5d b 。此 时量化后的语音质量能满足一般通信系统的要求【8 9 1 q 1 3 1 。 2 语音信号的预处理 因为语音信号的平均功率谱受声门激励和口鼻辐射的影响,所以语音信号从嘴唇辐 射后高频端大约在8 0 0 h z 以上按6 d b o c t ( 倍频程) 跌落。因此,要在预处理中进行预 加重( p r e e m p h a s i s ) 处理,用来提高高频部分,使信号的频谱变得平坦,保持在低频到高 频的整个频带中,能用同样的信噪比求频谱,以便于进行频谱分析和声道参数分析。预 加重处理一般是在语音信号数字化之后进行,用具有6 d b o e t 的提升高频特性的预加重 数字滤波器实现,它一般是一阶的数字滤波器: 日( z ) - 1 一胆1 ( 2 3 ) 式中值接近于1 ,典型的取值在0 9 4 0 9 7 之间。预加重后的信号在分析处理之后需 沈阳航空工业学院硕士学位论文 要进行去加重处理p e e m p h 鹋蚴,即加上6 d b o c t 的下降的频率特性从而还原成原来的 特性。 语音信号是一个准稳态过程,假设语音信号在1 0 3 0 m s 的短时间内是平稳的。为 了得到短时的语音信号,需要对语音信号进行加窗分帧处理。一般情况下,每秒的帧数 约为3 3 1 0 0 。分帧可以用连续分段的方法,但一般是采用交叠式分段的方式,这样使 帧与帧之间平滑过渡,保持了信号的连续性。分帧是用可移动的有限长度窗口进行加权 的方法来实现的。对语音信号的各短段进行处理,实际上就是对各短段进行某种变换或 施以某种运算,其一般式为: q - e t x ( m ) w ( n m ) 】 ( 2 4 ) 其中,】表示某种变换,它可以是线性的也可以是非线性的,可以是时变的或者 时不变的, 文历) ) 为输入语音信号序列,w ( n 一叻为窗函数,q n 是所有各段经过处理后 得到的一个时问序列。 在加窗的时候,不同的窗i = 1 选择将会影响到语音信号分析的结果。在语音信号数字 处理中常用的窗函数o ) 有矩形窗、汉明窗( h a m m i n g ) 以及汉宁窗( h a r m i n g ) ,其定 义分别为: 矩形窗忡) 一。巍肌1 ( 2 5 ) 汉明州炉 o 5 4 。0 。4 6 。p 恤1 。巍肛1 眨6 , 汉宁窗吣) = 0 5 1 1 - c o s ( 77 一1 朔。巍州 ( 2 7 ) 式中n 为窗口长度。 对语音信号的时域分析来说,窗函数形状的选择非常重要,矩形窗的谱平滑性较好, 但波形细节会有一部分丢失,并且矩形窗会产生泄漏现象;而汉明窗可以有效地克服泄 漏现象,应用较为广泛。 在选择了窗函数后,还需考虑的问题是窗i = 1 长度的确定。不论什么样的窗函数,窗 沈阳航空工业学院硕士学位论文 函数的长度对能否反映语音信号幅度变化起决定性作用。若n 特别大,则不能反映波形 变化的细节;若n 太小,就不能得到较为平滑的短时信息。所以n 的选择比较有难度。 通常在采样频率为1 0 k h z 的情况下,n 的折衷选择为1 0 0 2 0 0 ( 即1 0 2 0 m s 持续时间) 【9 0 , 1 1 , 1 3 1 。 3 语音信号的端点检测 端点检测是指用数字处理技术来找出语音信号中的各种段落( 如音素、音节、词素、 词等) 的始点和终点的位置。在实际的应用中,由于环境噪声的影响,给语音识别系统 的稳健性( r o b u s t ) 带来严重的问题,使得系统的识别性能降低而影响实用。噪声语音 信号的语音端点检测,是语音处理系统中极其关键的一步。有效的端点检测不仅能使语 音信号的处理时间减少,而且能排出无声段的噪声干扰,从而提高语音识别系统的识别 率【8 , 1 0 , 1 1 1 。 基于短时能量和短时平均过零率的检测方式是目前广泛采用的语音信号的端点检测 方法。该方法也称为双门限比较法。在双门限比较法中,短时平均能量定义为: 瓦- k 如o 一肌) 】 ( 2 8 ) 短时平均能量的分析可以很好地区分无声和有声、声母和韵母的分界以及连字的分 界等。又因为浊音段的能量一般远大于清音段的能量,所以短时平均能量的分析还可以 有效地区分浊音和清音。 短时过零率是指每秒内信号通过零值的次数。对于离散时间信号,则是指每个样本 改变符号的次数。短时平均过零率定义为: z 。一| s g n k ( 晰) 】一s g n k ( m 一1 ) 】i 国0 一m ) ( 2 9 ) 式中s g i l 【】是符号函数,即 唧晰) 】一仁拣: 眨 利用双门限比较法进行语音信号的端点检测的过程如下:如图2 3 所示,首先根据 式( 2 9 ) 和( 2 1 0 ) 计算每帧语音的短时平均能量和短时平均过零率。由于语音一般都 沈阳航空工业学院硕士学位论文 存在能量较高的浊音段,因此根据语音信号的短时平均能量的轮廓选取一个较高的能量 门限m 1 ( 如图2 3 ( a ) 所示) 。大多数情况下,语音的短时能量都在此门限之上。当短时 能量超过m l 则可以基本确定是由语音信号引起,那么语音起止点应该位于该门限与短 时能量包络交点所对应的时间间隔之外( 即a b 段之外) 。然后根据背景噪声的平均能量 确定一个较低的门限m 2 ,并从a 点往起点方向,从b 点往终点方向搜索,分别找到短 时能量包络第一次与门限m 2 相交的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园数字文化展示平台搭建方案
- 消防控制室消防报警设备联动方案
- 高中消防安全宣传方案
- 仓库火灾模拟应急演练方案
- 教师团队工作总结及提升计划
- 年产xxx家用洗碗机项目可行性分析报告
- 冷冻设备建设项目可行性分析报告(总投资9000万元)
- 高中生物备课组组长工作计划范文
- 高密度区域给水管网建设方案
- 消防安全演习与应急响应方案
- 高一上学期英语期中考试质量分析会课件
- GB/T 17850.3-1999涂覆涂料前钢材表面处理喷射清理用非金属磨料的技术要求铜精炼渣
- GB/T 13477.18-2002建筑密封材料试验方法第18部分:剥离粘结性的测定
- FZ/T 01057.2-2007纺织纤维鉴别试验方法 第2部分:燃烧法
- 第五章-金融衍生工具市场-货币金融学-蒋先玲课件
- 加拿大育空考察报告 - 副本
- 《中药炮制技术》 教学课件大全
- 素描静物中苹果绘画步骤课件
- 半导体光刻技术
- 大学生创业计划书(创新创业课)
- 建筑工程标准工期定额
评论
0/150
提交评论