




已阅读5页,还剩52页未读, 继续免费阅读
(信号与信息处理专业论文)车载语音控制指令识别算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨理工大学工学硕士学位论文 车载语音控制指令识别算法的研究 摘要 随着汽车技术的日新月异,越来越多的控制技术被应用在汽车上来提高汽 车驾驶的安全性、舒适性和娱乐性。近几十年来,语音识别技术获得了快速发 展,语音产品开始从实验室走向市场。语音识别技术也被越来越多地应用于对 汽车局部电子电器设备的智能控制。本文应用动态时间规整( d t w ) 孤立词语 音识别方法,实现了一个车载语音控制指令识别系统的软件算法部分。 本文首先全面介绍了目前主要的语音识别方法,系统讨论了语音识别系统 的组成和原理。在此基础上,根据车载语音控制指令识别系统的特点,对比各 种语音识别方法的优缺点,确定了动态时间规整语音识别方法作为本课题的识 别方法,讨论了d t 算法的原理,对匹配路径的搜索过程进行了细致的分析, 并给出了语音识别结果的判定准则。针对d t w 算法存在的计算量较大、占用 存储空间较多的缺点,采用了一种分段弯折、搜索确定的平行四边形区域的 d r w 改进算法进行模式匹配。在语音信号处理部分,采用小波变换的方法去噪, 采用乘矩形窗函数的方法对语音信号进行分帧,采用过零率与短时能量特征双 门限法进行语音端点检测,将1 2 阶l p c 系数和1 2 阶l p c c 系数共同组成的2 4 维特征矢量作为语音信号的特征矢量。接下来,应用m a t l a b 软件对语音信号 的处理过程进行了仿真,证明了本课题所选算法可行。 为了检验语音识别算法的识别效果,设计了语音识别测试,分别在不同背 景噪声环境下来对算法性能进行测试,获得了良好的识别效果。达到了设计要 求。 关键词车载系统;语音识别;控制指令;动态时间规整 哈尔滨理工大学t 学硕士学位论文 r e s e a r c ho fv o i c ec o n t r o li n s t r u c t i o n s r e c o g n i t i o na r i t h m e t i ci nv e h i c l e a b s t r a c t w i t ht h ed e v e l o p m e n to fa u t o m o t i v et e c h n o l o g y , m o r ea n dm o r ec o n t r o l t e c h n o l o g yi sa p p l i e dt oc a l t oi m p r o v et h es a f e t y , r i d e c o m f o r ta n de n t e r t a i n m e n t d u r i n gt h er e c e n ty e a r s ,v o i c er e c o g n i t i o nt e c h n o l o g yh a sm a d er e m a r k a b l ep r o g r e s s , a n dv o i c ep r o d u c t sb e g i nf r o mt h el a b o r a t o r yt o t h em a r k e t m e a n w h i l e ,t h e t e c h n o l o g yi sp a i dm o r ea t t e n t i o nt oa p p l yt oa u t o m o t i v es y s t e mt oi m p l e m e n tt h e i n t e l l i g e n tc o n t r o lt ot h ep a r t i a le l e c t r o n i c & e l e c t r i ce q u i p m e n t s a ni m p r o v e d a l g o r i t h md t w i su s e di nt h i sp a p e rt or e a l i z et h es o f t w a r ep a r to fv e h i c u l a rs p e e c h r e c o g n i t i o n i ti sn o n - s p e c i f i c ,s m a l lv o c a b u l a r y , i s o l a t e dw o r ds p e e c hr e c o g n i t i o n s y s t e m a tf i r s t ,t h ep r e s e n tp r i m a r ys p e e c hr e c o g n i t i o nm e t h o d sa r eg e n e r a l l yi n t r o d u c e d t h ef o r ma n dt h ep r i n c i p l eo ft y p i c a ls p e e c hr e c o g n i t i o ns y s t e ma r es y s t e m a t i c a l i l l u m i n a t e di nt h ep a p e r a c c o r d i n gt ot h ef e a t u r eo fs p e e c hr e c o g n i t i o ns y s t e mw h i c h i sd e s i g n e di nt h ep a p e r , d t ws p e e c hr e c o g n i t i o nm e t h o di sd e t e r m i n e da st h e r e c o g n i t i o nm e t h o do ft h i ss y s t e mc o m p a r e dt oo t h e rs p e e c hr e c o g n i t i o nm e t h o d s , a n dt h ep r i n c i p l eo fd t wa r i t h m e t i ci sg e n e r a l l yd i s c u s s e d ,s e a r c h i n gp r o c e s so f m a t c h i n gp a t hi sp a r t i c u l a r l ya n a l y z e d ,t h ee s t i m a t i o nr u l eo fs p e e c hr e c o g n i t i o n r e s u l ti sg i v e n i na l l u s i o nt ot h ed i s a d v a n t a g eo fd t w v a s tc a l c u l a t i o na n dd a t a s t o r a g e ,an e wm o d i f i e dd t w a r i t h m e t i cu s i n gs u b s e c t i o nw a r p i n ga n ds e a r c h i n gt h e d e f i n i t ep a r a l l e l o g r a md o m a i ni sc a r r i e do u tt oi m p l e m e n tt h em o d e lm a t c h i n gt o a d a p tt ot h ed e m a n do fs y s t e mh a r d w a r er e s o u r c e i nt h es o f h 再, a r ea l g o r i t h m , s a e - s a z ( s h o r t t i m ea v e r a g ee n e r g ya n ds h o r t - t i m ea v e r a g ez e r o - c r o s s i n gr a t e ) i s a d o p t e di nt h ep a p e rt or e a l i z et h ee n d p o i n t l p cc o e f f i c i e n to f12b a n d sa n d12 b a n d sl p c cc o e f f i e i e n to ft h ec o m m o nc h a r a c t e r i s t i c so ft h e2 4 - d i m e n s i o n a lv e c t o r i su s e da sav o i c es i g n a lf e a t u r ev e c t o r n e x t , m a t l a bs o t t w a r ei s a p p l i e dt o s i m u l a t et h ev o i c es i g n a lp r o c e s s i n gp r o c e s si no r d e rt op r o v et h ea r i t h m e t i ci sf i g h t i no r d e rt oi n s p e c tt h er e c o g n i t i o ne f f e c to fv e h i c u l a rs p e e c hr e c o g n i t i o ns y s t e m , t h es p e e c hr e c o g n i t i o ne x p e r i m e n ti sd e s i g n e dt oc a l t yo nt h et e s to fs y s t e m 珏 哈尔滨理t 大学t 学硕十学位论文 p e r f o r m a n c e i nt h ed i f f e r e n t b a c k g r o u n dn o i s ee n v i r o n m e n t ,a n da tl a s tt h e e x p e r i m e n tg o tac o n s i d e r a b l er e c o g n i t i o ne f f e c ta n dm e e tt h ed e s i g nr e q u i r e m e n t s k e y w o r d sv e h i c u l a rs y s t e m ,s p e e c hr e c o g n i t i o n ,c o n t r o li n s t r u c t i o n s ,d y n a m i ct i m e w a r p i n g u i 哈尔滨理工大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文车载语音控制指令识别算法 的研究,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立进行 研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发 表或撰写过的研究成果。对本文研究工作做出贡献的个人和集体,均已在文中 以明确方式注明。本声明的法律结果将完全由本人承担。 作者签名椭 日期:腓 弓月,厂日 哈尔滨理工大学硕士学位论文使用授权书 车载语音控制指令识别算法的研究系本人在哈尔滨理工大学攻读硕士学 位期间在导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理工大 学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔滨 理工大学关于保存、使用学位论文的规定,同意学校保留并向有关部门提交论 文和电子版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以采用影 印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。 本学位论文属于 保密n ,在 年解密后适用授权书。 不保密毗 ( 请在以上相应方框内打4 ) 作者签名卿存许 日期:a 硒璋弓月牙日 导师签名:_ 窃燃 日期洳g年;月,j 一日 哈尔滨理工大学工学硕士学位论文 第1 章绪论 语音识别技术是2 0 0 0 年至2 0 1 0 年间信息技术领域十大重要的科技发展技 术之一。与机器进行语音交流,让机器明白我们说什么,这是我们长期以来梦 寐以求的事情。语音识别技术就是要让机器通过识别和理解两个过程把语音信 号转变为相应的文本或命令的高科技技术n 1 。 语音识别是一门交叉学科,它正逐步成为信息技术中人机接口的关键技术, 将语音识别技术与语音合成技术结合起来,就可以使人们甩掉键盘,通过语音 命令的方式对电脑进行操作。语音技术的应用已成为一个具有竞争性的新兴高 技术产业乜】。 1 1 课题的研究目的和意义 从2 0 世纪5 0 年代开始对语音识别的研究开始,经过几十年的发展已经达到 一定的高度,有的已经从实验室走向市场,如一些玩具,某些部门密码语音输 入等。随着d s p 和专用集成电路技术的发展,快速傅立时变换以及近年来对嵌 入式操作系统的研究,使得特定人识别尤其是小词汇量的特定人识别成为可能。 因此,对于非特定人语音识别技术在汽车控制上的应用的研究是很有前途的。 汽车是现代文明社会中与每个人关系最密切的一种交通工具,根据英国金 融时报的报导,欧美国家的汽车驾驶员与乘客,一生之中花费很多时间待在汽 车内,在西欧,每人每年待在汽车内的时数为2 7 4 小时,美国则更达到每年5 4 1 小时,整体来说,所有美国人每周待在车内的时数高达十小时左右。在国内, 随着经济的发展,汽车的普及率也是越来越高,由此可想利用语音技术进行汽 车控制这一领域蕴涵着相当大的潜在市场渖1 。 如今,随着人们生活水平不断提高,私人购车比例不断增加,汽车消费者 对整车性能的要求也越来越高。在这种情况下,语音识别技术被日渐应用在汽 车上来实现一些智能操作,顺应现代汽车消费者对在车内工作、休息、娱乐以 及安全方面的要求。人们已能在汽车中集成具有无线连接能力的d v d 播放器、 移动电话、全球定位系统( g p s ) 、m p 3 播放器、卫星电台和因特网浏览器,所 有这些系统都可以通过语音进行控制。语音控制汽车也是未来的一种趋势。根 据调查显示,在汽车应用方面。语音输入几乎成了“必需 的功能。司机坐在 座位上不用手脚动作,只要对着话筒,按需要发出语音指令,车上的装置就能 根据你的要求指挥汽车内的设备运行。这使得驾驶员能够专心驾驶,从而大大 哈尔滨理工大学工学硕士学位论文 减小事故的发生率。 由此可见,对车载语音控制指令识别系统的研究将是未来几年中的一个热 点。 1 2 语音识别技术现状和发展趋势 1 国外语音识别技术发展和现状国外从1 9 世纪末就开始了对语音识别 的研究。最初语音识别的研究对象是在电话线路上传输的模拟信号,而真正具 有实际意义的语音识别研究是从2 0 世纪5 0 年代开始的。概括来说其发展历程 如图1 1 所示。1 9 5 2 年,a t & tb e l l 实验室实现了第一个可识别十个英文数 字的语音识别系统a u d r y 系统。1 9 5 6 年,美国普林斯顿大学r c a 实掩饰研 制出能识别1 0 个单音节词的识别系统,该系统采用带通滤波器组获得的频谱参 数作为语音特征,1 9 5 9 年。f r y 和d 蛐e s 等人尝试构建音素识别器来识别4 个 元音和9 个辅音,并采用频谱分析和模式匹配进行识别决策n 3 。 2 0 世纪6 0 年代,计算机的应用推动了语音识别的发展。在这个时期,有两 大技术对语音识别的发展产生了深远的影响:一是线性预测分析技术( l i n e a r p r e d i c t i o n ,l p ) ,它较好地解决了语音信号产生的模型问题;另一个是动态规 划( d y n a m i c 它由苏联的v i n t s y u k 提出,解决了语音识别中不等长的对正闯题。 2 0 世纪7 0 年代,语音识别领域取得了一系列重大突破。在理论上,日本学 者s a k o e 提出了动态时间规整算法( d y n a m i ct i m ew a r p i n g ,d t w ) ,l i n d a 壹孪 人提出了矢量量化( v e c t o rq u a a t i z a t i o n ,v q ) 理论;在实践上,实现了基于线 性预测倒谱和d t w 技术的特定人孤立词语音识别系统。 囝1 - 1 语音识别的发展历程 f i g 1 - 1t h ed e v e l o p m e n tc o u r s eo f t h ev o i c er e c o g n i t i o n 哈尔滨理工大学工学硕士学位论文 2 0 世纪8 0 年代,语音识别研究进一步走向深入,就是识别算法从模式匹配 技术转向基于统计模型的技术,其显著特征是隐马尔可夫模型( h i d d e nm a r k o v m o d e l s ,h m m ) 在语音识别中的成功应用。h m m 模型的广泛应用应归功于 a t & tb e l l 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的h m m 纯数学 模型工程简化,从而为更多研究者了解和认识,使得h m m 技术成为语音识别 技术的主流。 进入2 0 世纪9 0 年代以后,还出现了以声学、语音学、语言学知识为基础 和基于人工智能方法的语音识别系统,其中包括小波变换、模糊数学、人工神 经网络( a r t i f i c i a ln e u r a ln e f w o r k ,a n n ) 等新兴的数学工具和方法解决语音识 别问题。 随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多 发达国家如美国、日本、韩国等都为语音识别系统的实用化开发研究投以巨资, 并且开发出很多高质量的语音识别系统。不少国际知名的大型1 1 企业已经进入 汉语语音识别领域的研究。i b m 、m i c r o s o f t 和i n t e l 等公司都有在中国建立自己 的研究机构,他们凭借资金和技术积累上的优势,取得了很好的成绩。例如i b m 公司推出的v i a - v o i c e 汉语语音识别系从2 0 世纪9 0 年代末开始在市场上销售, 是当前最成功的商用连续语音识别系统之一,基本词库是6 万词,只需经过3 0 分钟的训练,准确率即可达9 5 以上。贝尔实验室在s u n s p a r c 工作站上实 现了9 0 0 0 0 词的汉语语音识别系统,苹果公司历时8 年,耗资2 5 0 0 万美元,在 m a c i n t o s h 机上完成中文语音输入系统,据称可识别及理解词组多达3 5 0 0 0 0 条,输入速度达每分钟6 0 字,正确识别率达9 5 。 2 国内语音识别技术的发展和现状国内语音识别研究开展的较晚,我国 在这方面的工作最早是由中国科学院声学研究所开始的。马大猷院士领导的科 研小组从上个世纪5 0 年代起曾对汉语语音信号进行过系统的研究;之后到7 0 年代末,俞铁城研究员开发的通用实时语音识别系统是当时世界上最先进的孤 立词识别系统之一。上世纪8 1 9 r 年代中期,许多大学和研究所也开始开展语音识 别的研究。1 9 9 7 年在国家8 6 3 计划组织的汉语连续语音识别系统测评中,以清 华大学电子工程系、计算机系和中科院自动化所的非特定人大词汇量连续语音 识别系统最为出色,其中清华电子系的系统音节正确率超过了7 0 ,自动化所 在口语对话方面也有非常不错的表演系统睁钉。 新加坡和中国台湾、香港也都有不少关于这方面的成果出现,其中台湾的 李林山教授主持的小组相当出色地在7 片t m s 3 0 2 c 2 5 芯片并行工作构成的高速 处理板平台上,成功研制出一个实时汉语语音听写机g o l d e n m a n d a r i n 。 哈尔滨理工大学工学硕士学位论文 3 车载语音识别技术的现状和发展趋势1 9 9 8 年,雪铁龙公司在巴黎车展 上展出的萨拉a u t op c ,开创了车载通信技术的新局面。他它以微软视窗c e 2 0 操作系统为基础,使用语音控制,车辆可对操作者的语音命令做出反应,并能 通过语音合成系统同操作者进行对话。同年,通用公司也大力开发其o n s t a r 电 子系统,并把这一系统从基本的车道行驶系统发展到语音识别系统。2 0 0 0 年, 通用公司推出了世界上第一辆语音控制无线上网汽车。同时,一些豪华轿车如 “美洲虎s 系列”也安装了初步的语音控制系统。驾驶员可以利用语音指令来调 节车内空调和音响。2 0 0 1 年,奥迪公司在法兰克福车展上推出了多媒体界面控 制技术( m m i ) ,将车内所有电子系统整合在一起,并实现语音控制。2 0 0 3 年, 博世蓝宝公司开发了汽车语音多媒体,采用语音识别技术对电话、音响以及导 航系统进行智能控制。同年,奔驰公司新一代的e - - c l a s s 车型,也采用了语音 识别控制技术,对导航系统和车载电话进行语音控制。2 0 0 4 年i b m 公司w a s t o n 研究中心的科学家采用视频信道调整以读懂口型的办法来补充音频输入,实现 了车载语音控制系统。2 0 0 5 年,丰田公司技术人员为皇冠r o y a ls a l o o ng 开发 语音控制系统。同年,福特新一款u 型概念车展示了迄今为止最先进的语音控 制技术。它允许人们以自然说话的方式来操纵包括娱乐、导航、移动电话和气 候控制的车载系统。 在国内,2 0 0 5 年,一汽集团的载货汽车“j 6 商用车”上安装的车载免提电话 也采用了语音识别技术。同年,国产轿车“哈飞赛豹”首次应用蓝牙车载免提系 统。 目前,语音控制系统在汽车上的应用仅限于对局部的电子电器设备进行语 音控制,实现在安全驾驶过程中( 即眼睛不离开路面,手不离开方向盘) 自由 接收电子邮件、拨打电话、查询特殊目的地、接收交通的气候信息以及听唱片。 相信随着语音识别技术的发展,在不久的将来,可以实现利用语音对整车进行 起动、加速、制动和转弯等智能控制睁1 0 1 。 1 3 本课题主要研究内容 1 分析语音识别系统的组成和基本原理个完整的语音识别系统大致 分为语音特征提取、声学模型与模式匹配、语义理解三个部分。未知语音经过 话筒变换成电信号后加在识别系统的输入端,首先要经过预处理,预处理包括 反混叠失真滤波、预加重和端点检测。经过预处理后,语音信号的特征被提取 出来。常用的特征包括:短时平均能量或幅度、短时平均过零率、短时自相关函 啥尔滨理工大学工学硕士学位论文 数、线性预测系数、倒谱、共振峰等。接下来分为两个阶段:训练阶段和识别 阶段。在训练阶段,要输入一系歹f j 已知语音信号,提取它们的特征构成参考模 板,将所有能识别的基本单元的参考模板结合在一起,形成参考模式库;在识 别阶段,将待识别的语音信号经特征提取后逐一与参考模式库中的各个模板按 某种原则进行匹配,找出最相似的参考模板所对应的发音,即为识别结果。最 后进行语言处理。 2 语音识别算法的确立在分析几种典型语音识别算法的基础上,综合考 虑环境、算法的复杂度等因素,选出一种最适合本文所要实现的车载语音控制 指令识别系统的算法。 3 噪声问题考虑到汽车行驶过程中产生的各种强噪声,如发动机噪声, 轮胎噪声,进排气噪声,冷却系噪声等等。因此如何克服这些噪声达到理想的 识别效果也是本课题探讨的一个主要方面。 4 算法仿真应用m 棚a b 软件对语音信号处理的各个过程进行仿真,用 来验证算法的可行性。 5 算法性能测试设计测试实验来对所采用的语音识别算法进行性能测 试。 第2 章语音识别系统的基本原理 2 1 语音识别概述 语音识别简单地说,就是让电脑听懂人的话并做出正确反应,这是电脑 在拟人化上迈出的一大步。 作为一门综合学科,语音识别又是以语音为研究对象,是语音信号处理的 一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、 计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言( 如人在说话 时的表情、手势等行为动作可帮助对方理解) ,其最终目标是实现人与机器进行 自然语言通信。 语音识别技术是计算机技术重要的发展方向,多媒体时代的来临,迫切要 求解决自动语音识别的难题。语音识别技术己经成为计算机在亿万百姓中普及 的关键技术,并且必将成为信息产业的标志性技术和未来计算机的重要特征。 语音识别技术的解决不仅将使计算机成为普通百姓得心应手的工具,而且 对于许多机器的操作、生产过程的控制,还有通信、口语机器翻译等领域来说, 语音识别都大有用武之地。 语音识别听写机在一些领域的应用被美国新闻界评为1 9 9 7 年计算机发展的 十大事件之一;比尔盖茨认为下一代的操作系统和应用程序的用户界面将是语 音识另吐,微软最新操作系统w i n d o w sx p 就内嵌了语音识别模块,用户可以不用 键盘而是直接用话筒控制计算机;计算机行业巨头g o d _ d a am o o r e 说:“语音技术 将改变计算机的设计,它将使现在尚未使用计算机的人中的8 5 用上计算机”; i b m 总裁l o ug c r s m e r 指出,“有朝一日,将有数十亿的入运用自然语言( 利用语 音识别和语音合成) 在i n t e m e t 上浏览、查询”;a b i ( a u i e db u s i n e s si n t e l l i g e n c e ) 认为,在未来的网络化世界中,语音识别技术将扮演越来越重要的角色,新的 语音识别技术可以让用户更为轻松地收发电子邮件,获取股市行情,了解天气、 交通和道路情况,不久的将来,它将提供更为全面的更有价值的应用服务。 语音识别技术的渗透性很强,它已经悄悄进入我们的生活,并将无处不在 的改变我们的生活方式。 现在大多数的手机提供了“语音拨号功能”,使用“语音拨号 ,只需一次性 地输入( 读入) 人名和电话号码,在使用时便可以直接对着电话“说出”要通话人的 姓名经语音识别后,查出该姓名所对应的号码,然后自动地进行“拨号”。 哈尔滨理1 = 大学工学硕上学位论文 语音查询是语音识别的又一个应用领域,可用于旅游业及服务业的各种查 询系统。如语音自动导游系统,游客只要说出自己当前的位置和感兴趣的景点 名称,系统便自动显示出图文并茂的最佳路线、乘车方案、费用及其它相关信 息。另一个有代表性的应用就是在医疗查询中,医疗改革推行后,大多数的医 院都配备了电脑查询系统,供患者查询药品价格及医护人员简介。对于键盘输 入非常陌生的大部分患者来说,语音输入提供了最方便快捷的查询方式n 2 j 引。 语音识别还可以应用在控制领域,在一些工作环境恶劣、对人身有伤害的 地方( 如地下、深水及辐射、高温等) 或手工难以操作的地方,均可通过语音发出 相应的控制命令,让设备完成各种工作。 语音识别技术在帮助伤残人的各种设备中也将发挥其难以替代的作用。对 于一些肢体伤残者或盲人,若全部用声音控制,则给伤残者或盲人提供极大的 生活便利。一些办公设备加上语音功能后,即使是伤残者也可以足不出户地在 家里工作。 此外嵌入式语音识别软件具有语音识别、声控、用字母语音输入的语音键 盘等功能,可应用于手提电话、掌上电脑、电子记事本、声控设备、及便于残 疾人的自助设备等,应用前景非常广阔。 语音识别系统的设计要考虑服务对象、词表大小、工作环境、发音方式、 任务性质等许多因素,不同的应用需要采用不同的方法实现,才能达到理想的 效果n 射。以这些因素为依据,可以将语音识别系统分为不同的类别: 1 按发音方式发音方式指的是采用孤立字发音方式还是连续语音发音 方式。按发音方式可分为孤立字( 词) 语音识别系统和连续语音识别系统。 孤立字( 词) 发音识别系统指人在发音时,以单个字或单个词的发音方式 向语音识别系统输入语音,词与词之间要有足够的时间间隙,以便系统能够检 测到始末点。采用这种方式的语音识别系统实现起来较为容易,识别率也可以 做得比较高,并达到了实用水平。目前常见的各种语音命令控制系统大都属于 这种识别方式。 连续语音识别系统指在输入语音时,完全按照入的最自然的说话方式输入。 这种系统是最方便的输入系统,但是,实现起来也是最复杂和最困难的。 2 按服务对象服务对象是指语音识别系统是提供给特定的人使用,还是 不确定的任意人使用的。按服务对象可分为特定人和非特定人识别系统。 特定人的语音识别系统,对于每一个使用者都必须建立专用的参考模板库。 非特定人语音识别原则是事先用许多人( 通常3 0 4 0 人) 的语音样本训练系统,使 用者无论是否参加过采样训练都可以共用一套参考模板,使用该系统进行语音 哈尔滨理t 大学工学硕士学位论文 识别。 这两类系统的服务对象大不相同,为了达到良好的识别效果,其系统结构、 特征参数选择、识别方法都可能有极大的差别。对于非特定人的语音识别系统 来说,由于要考虑各种复杂因素,实现起来要比特定人的语音识别系统难得多。 3 按词汇表的大小每个语音识别系统都有一个词汇表,系统只能识别此 表中包含的词条。按词汇表的大小可分为小词汇表识别系统、中等词汇表识别 系统、大词汇表识别系统和无限词汇表识别系统。 随着词汇数目的增加,潜在的词间相似性会增加,系统的搜索运算开销及 存储开销相应增加,识别系统的难度一般会增加。当系统所能识别的词汇量越 大时,实现起来就越困难。 目前代表连续语音识别技术最高水平的语音识别系统是非特定人无限词汇 的连续语音识别系统。 语音识别技术作为高科技应用领域的研究热点,从理论的研究到产品的开 发已经走过了半个多世纪的发展历程,并且取得了长足的进步。但目前语音识 别技术的水平还远远不能达到使计算机与人类进行自然交流这个终极目标n 们。 具体来讲,主要有以下几个方面: 1 鲁棒性语音识别系统的适应性差,主要体现在对环境条件的依赖性 强,要求保持测试条件和训练条件一致,否则系统性能会严重下降。这是语音 识别中一个难点。 2 噪声问题现有的语音识别系统大多只能工作在安静的环境下,一旦在 噪声环境下工作,讲话人产生情绪或心理上的变化,导致发音失真、发音速度 和音调改变,即产生l o m b a r d 效应或l o u d 效应。常用的抑制噪声的方法,可 以概括为四个方面:谱减法、环境规整技术、不修正语音信号而是修正识别器 模型使之适合噪声、建立噪声模型。但这些方法还不能完全解决噪声的影响, 需要进一步改善。 3 语音识别基元的选择如何根据存贮空间和搜索速度的要求,选择合适 的识别单元,如词、音节、音素。一般来讲,要识别的词汇量越多,所用的基 元应越小越好。如何能构建更好的发音模型也是一个关键的问题,需要深入地 研究。 4 端点检测研究表明,即使在安静的环境下,语音识别系统一半以上的 识别错误是来自端点检测器的。提高端点检测技术的关键在于寻找稳定的语音 参数。如何提高端点检测的精度,构建出一种基于语音综合参数的端点检测算 法也是需要深入研究的问题。 8 哈尔滨理工大学工学硕士学位论文 5 语言模型目前,语音识别系统主要利用统计语言模型来减少搜索空间 和解决声学识别结果的歧义问题。但随着词表的增加,更多的约束信息显得越 来越重要。因此,如何在统计语言模型的基础上结合句法和语音信息也是一个 难题。 6 韵律信息的利用 韵律信息指的是说话之中的重音、语调等超音段信 息。实验表明,人可以从说话的韵律中获取很多重要信息。但目前的语音识别系 统却忽略了韵律信息。因此,如何在语音识别中结合韵律信息还有待进一步的研 究。 因为汉语自身的特点,使得汉语的语言信息处理比西方语言更为困难和复 杂。主要表现在:汉语的大字符集影响了汉字的快速输入;汉语的字词不分使 得词的切分成为汉语语言理解与处理独有和首要的问题;大量的同音字、词给 语音识别带来困难。 2 2 语音识别的基本原理 2 2 1 语音识别系统组成 语音识别系统本质上是一个模式匹配系统。一个完整的语音识别系统大致 分为以下三个部分n : 1 语音特征提取( 前端处理部分)目的是滤除各种干扰成分,从语音波 形中提取出随时间变化的能表现语音内容的特征矢量序列。 2 声学模型与模式匹配( 识别算法) 声学模型通常由获得的语音特征通 过训练产生,目的是为每个发音建立发音模板。在识别时将输入的语音特征同 声学模型进行匹配与比较,得到最佳识别结果。 3 语义理解( 后处理) 计算机对识别结果进行语义、语法分析,明白语 音的意义以便做出相应的反应,通常通过语音模型来实现。 不同的语音识别系统,尽管设计和实现的细节不同,但所采用的基本技术 是相似的。一个典型的语音识别系统过程如图2 - l 所示。 未知语音经过话筒变换成电信号( 即图中语音信号) 后加在识别系统的输入 端,首先要经过预处理,预处理包括反混叠失真滤波、预加重和端点检测。经 过预处理后,语音信号的特征被提取出来。常用的特征包括:短时平均能量或幅 度、短时平均过零率、短时自相关函数、线性预测系数、倒谱、共振峰等。接 下来分为两个阶段:训练阶段和识别阶段。在训练阶段,要输入一系列已知语 音信号,提取它们的特征构成参考模板,将所有能识别的基本单元的参考模板 哈尔滨理工大学工学硕士学位论文 结合在一起,形成参考模式库:在识别阶段,将待识别的语音信号经特征提取 后逐一与参考模式库中的各个模板按某种原则进行匹配,找出最相似的参考模 皈所对应的发音,即为识别结果。最后进行语言处理。 l j j 叠老嚣背庄i 1 芗弓俣甄厍 二五立盘各、一一 训练 带百硎八 恒 识别 1, _ _ + 预处理 。1 。1 - 。_ _ _ _ _ _ 。_ 。_ 。一_ _ _ _ _ _ _ _ _ - - _ 。_ _ _ _ _ 。- _ 。一 结果输出。 模式匹配后处理 语音特征提取 识别算法 语义理解 图2 1 典型语音识别系统 f i g 2 1t y p i c a ls p e e c hr e c o g n i t i o ns y s t e m 2 ,2 2 预处理 在对语音信号进行分析和处理之前,必须对其进行预处理,这样可以保证 系统获得一个理想的处理对象。预处理包括数字化、反混叠失真滤波、预加重、 分帧加窗及端点检测等。 2 2 2 1 语音采样语音信号是随时间而变的一维信号,它所占据的频率范围可 达1 0 k h z 以上,但是对语音清晰度可懂度有明显影响的成分最高频率约为5 , 7 k h z , c c i 订( 国际电报电话咨询委员会) 推出的数字电话g 7 1l 建议采样率为8 k h z ,只 利用了3 4 k h z 以内的信号分量,虽然这样的采样率对语音清晰度是有损害的, 但受损害的只有少数辅音,而语音信号本身冗余度是比较大的,少数辅音清新 度下降并不明显影响语句的可懂度n h 田。 要用计算机分析人的语音,就要将从话筒中传来的语音信号转换成计算机 能处理的数字信号,这个从模拟量到数字量的转变过程成为模数变换,在计算 机上只需要利用声卡外接一个话筒就可以很容易地将话筒中传来的模拟信号采 集成数字信号存入计算机。 采样前要先对语音信号进行滤波处理其目的有两个:首先是用低通滤波 器限制信号中频率分量超过采样频率一半的部分,以防止信号混叠干扰;其次 是要用高通滤波器抑制5 0 h z 的电源干扰。语音信号采样只是语音识别处理的开 哈尔滨理工大学工学硕士学位论文 始,在此基础上要对所采集的语音信号进行分析处理从中抽取语音识别所需的 信号特征。 2 2 2 2 预加重由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高 频端大约在8 0 0 h z 以上按6 d b i o c t ( 倍频程l 衰减。所以求语音信号频谱时,频率越 高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在对语音信号 进行分析之前对其高频部分加以提升。使信号的频谱变得平坦,保持在低频到 高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分 析啪1 。通常的措施是用一数字滤波器实现预加重,其公式表示为; h ( z ) = l - a z 。1 0 9 a 1 0 ( 2 1 ) 其中口为预加重系数。 2 2 2 3 分帧加窗语音信号是一种典型的非平稳信号,其特性是随时间变化 的,但是语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起 声音振动速度来讲要缓慢褥多,因此语音信号常常可假定为短时平稳的,即在 1 0 2 0 m s 的时间段内,其频谱特性和物理特征参量可近似地看作是不变的。这样, 就可以采用平稳过程的分析处理方法来处理了。由这个假定导出了各种“短时 处理方法,以后讨论的各种语音信号都是分隔为一些短段( 帧) 再加以处理。这 些短段就好像是来自一个具有固定特性的持续音片断一样。对每个短段语音进 行处理就等效于对固定特性的持续语音进行处理。短段之间彼此经常有一些叠 接,对每一帧的处理结果可用一个数或是一个组数来表示。因此语音信号经过 处理后将产生一个新的依赖于时问的数据系列,这些数据用于描述语音信号的 特征拟1 设原始语音信号采样序列为x ( 拧) ,将其分成一些短段等效于乘以幅度为1 的移动窗“捍埘) 。当移动窗幅度不是l 而是按一定函数取值时,所分成的短段 语音的各个取样值将受到一定程度的加权。 对语音信号的各个短段进行处理,实际上就是对各个短段进行某种变换或 施以某种运算,其一般式为: 三 q = - :研m ) 】,一棚) ( 2 - 2 ) 厢= 其中和表示某种变换,它可以是线性的也可以是非线性的, z ( 历) 为输入 语音信号序列。q 是所有各段经过处理后得到的一个时间序列。 用得最多的三种窗函数是矩形窗、汉明窗( h a m m i n g ) 、汉宁窗( h a n n i n g ) , 其定义分别为: 哈尔滨理工大学工学硕士学位论文 1 矩形窗 州= 三哒菇。 ( 2 3 ) 2 汉明窗 删= o 5 4 以4 6 薯。酬犯_ 1 籼菇1 ( 2 - 4 ) 3 汉宁窗 州= 0 5 【卜警秽卜d 怄嚣。 ( 2 5 ) 其中三为窗长。窗函数越宽,对信号的平滑作用越显著,窗函数过窄,对 信号几乎没有任何平滑作用,另外,矩形窗比汉明窗具有更显著的平滑效果。 2 2 2 4 端点检测端点检测是指从背景噪声中找出语音的开始和终止点,是语 音处理领域的基本问题。特别是在孤立词语音识别中,找出每个单字的语音信 号范围是很重要的,确定语音信号的开始和终止可以减少系统的大量计算,使 系统运行效率得到很大的提高阮瑚1 。 近二十年来,人们对语音端点检测做了全面的研究,提出了多种算法,主 要是根据语音的一些时域特征参数来实现,其中较为典型的时域特征为短时能 量和短时过零率。下面对这两个参数做具体介绍。 1 短时能量短时能量序列反映了语音振幅或能量随着时间缓慢变化的 规律。从原始语音信号图中可以看到语音信号幅度随时闻有相当的变化,特别 是清音段的幅度一般比浊音段的幅度小很多,语音信号的短时能量给出了反映 这些幅度变化的一个合适的描述方法。 语音信号x ( 功的短时能量的定义为: 色= 芝:【x ( ,疗) 1 氓撑一, ) 】2 ( 2 6 ) 短时能量的主要用途有:区分清音段和浊音段,语音为浊音时的短时能量值 比清音时大褥多,根据语音信号短时能量值的变化,可大致判定浊音变为清音 和清音变为浊音的时刻;在高信噪比的语音信号中,可以用来区分有无语音, 此时,无语音信号的噪声能量很小,而有语音信号时短时能量值显著地增大到 某一数值,由此可以区分语音信号的开始点和终止点。 但是,疋值对于高电平信号非常敏感( 因为计算时用的是信号的平方) ,因 此在实际使用时需加以处理,例如取对数等,以便将数值限制在一定的范围内。 2 过零率在离散时间信号情况下,当相邻的两次抽样具有不同的代数符 号时就称为发生了过零,过零率z 0 是指单位时问内信号由正变负、由负变正的 总次数短时过零率是窄带信号频率量的一个简单量度,例如。一个频率为五的 正弦信号以z 速率抽样,正弦波的一个周期内就有4 4 个抽样。每一个周期内 有两次过零所以过零率为2 石z 。由此可见,平均过零率可以适当的估计正弦 波的频率。 语音信号是宽带信号,所以用平均过零率量度信号频率的方法就不那么确 切。然而,应用短时平均过零率可以得到谱特性的粗略估计。短时平均过零率 的定义为: 。 三 z j = l s g n x ( m ) 一s g n x ( m 一1 ) 】| ,( 力一棚) ( 2 7 ) 其中: s g n t x ( n ) 】= 二1 蕊: ( 2 8 ) 俐: 2 怄搿_ ( 2 - 9 ) ,( 理) = 7 ,、甘冉 l u 丹匕 由于浊音频谱主要集中在3 k h z 以下低频区域,超过4 k h z 后频谱幅度便迅 速下降:而清音频谱幅度在超过4 k h z 以后反而呈上升趋势,甚至超过8 k h z 以 后仍然没有下降的苗头,这表明清音频谱主要集中在高频区域。短时平均过零 率粗略地描述了信号的频谱特性,因而可以根据它来区分浊音和清音。 利用短时平均过零率还可以从背景噪声中找出语音信号,以用于判断寂静 无语音和语音的起点和终点位置。 在比较安静的环境下,仅依靠短时能量与过零率这两个特征就可以较好地 完成语音信号的起点判决。但需要指出的是,这两个特征比较容易受外界噪声 的干扰,鲁棒性( r o b u s t ) 较差,当语音信号的信噪比较低时,信号的短时能量和 过零率将受到很大的影响。 端点检测的两级判断方法:基于能量过零率的端点检测一般使用两级判决 法,在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限。 一个是比较低的门限,其数值比较小,对信号的变化比较敏感,很容易就会被 超过。另一个是比较高的门限,数值比较大,信号必须达到一定的强度,该门 限才可能被超过。低门限被超过未必就是语音的开始,有可能是时间很短的噪 声引起的高门限被超过则可以基本确信是由于语音信号引起的眦矧。 整个语音信号的端点检测可以分为四段:静音、过渡音、语音段、结束。在 静音段,如果能量或过零率超越了低门限。就应该开始标记起点,进入过渡段。 在过渡段中,由于参数的数值比较小不能确信是否处于真正的语音段,因此 只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。而 如果在过渡段中两
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030数字化转型浪潮中企业级SaaS服务市场投资价值分析报告
- 2025-2030教育跨国并购案例研究及文化整合与协同效应分析报告
- 2025-2030教育机器人产品差异化竞争策略与市场渗透率预测报告
- 2025-2030教育保险行业市场需求分析及产品设计与市场推广策略
- 2025-2030放射性药物研发管线布局与核医学中心建设需求预测
- 2025-2030抗菌肽生物农药替代化学农药的技术成熟度与市场推广阻力报告
- 2025-2030抗菌卫浴材料技术应用与市场接受度调研报告
- 2025-2030微量元素缺乏与儿童认知功能障碍的关联性分析
- 2025-2030律师行业市场集中度与中小律所突围路径研究
- 2025-2030律师行业人才流动趋势及人力资源管理研究报告
- 医疗咨询行业营销策略方案
- 儿童儿童矮身材临床诊治矮身材临床诊治
- 人教版八年级数学上册重难考点专题04因式分解(知识串讲+13大考点)特训(原卷版+解析)
- 左心发育不良综合征超声
- 招标文件范本三篇
- 心衰病例分享演讲比赛课件
- 幼儿园小班语言课件:《小狗找朋友》
- 南方主要虫害图谱-稻飞虱课件讲解
- 临床技术操作规范重症医学分册资料
- ISO 15609-1 2019 金属材料焊接工艺规程和评定-焊接工艺规程-电弧焊(中文版)
- (正式版)JBT 106-2024 阀门的标志和涂装
评论
0/150
提交评论