




已阅读5页,还剩68页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士论文 摘要 语音识别技术在控制系统中的应用研究 摘要 与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的 事情。研究和应用语音识别技术,让机器通过识别和理解语音信号将其转变为相 应的命令来控制自动化设备,具有理论研究意义和实际应用价值。 本文以科研项目“电磁阀性能测试系统丌发”为背景,以通过语音命令进行 操作,简化机器控制过程为目的,对语音信号处理中的语音识别技术的若干问题 进行了研究,并以语音识别原理为基础,m a t l a b 、v c + + 为工具,设计与实现了 针对特定人、孤立词、小词汇量语音识别系统。此系统主要包括以下三个方面的 工作:端点检测,特征提取,模式匹配。在端点检测中利用声卡采集原始语音信 号,通过过零率和短时能量等声学参数来判断起始点和结束点,去掉噪声,提取 语音数据。为了实时监测用户的语音命令,实时录音是很有必要的,本文改变了 传统语音信号批处理方式,采用一种实时在线处理方式,更符合实用性的要求。在 特征提取中采用符合人耳感知特性的m f c c 参数作为特征参数进行标准模板存 储。在模式匹配中,为了克服说话人自然语速的差异,采用动态时间规划方法将 模板特征序列和语音特征序列进行匹配,比较两者之间的失真,得出识别判决的 依据。 m i c r o s o f t 的语音软件开发包( m i c r o s o f ts p e e c hs d k ) 是用于开发语音软件的 一个理想工具,它主要包括一套语音应用程序接口( s p e e c ha p p l i c a t i o n p r o g r a m m i n gi n t e r f a c e ,s a p l 5 1 ) 。s a p i 的a p i ( a p p l i c a t i o np r o g r a m m i n g i n t e r f a c e ,a p i ) ,以c o m 组件的形式提供,程序员无需了解复杂的语音技术,就 可以开发语音应用程序,使得语音技术更加容易使用,应用程序也更加健壮。我 一i i 东北大学硕士论文 摘要 们对s p e e c hs d k5 1 进行了应用研究,分析了s p e e c hs d k5 1 里语音应用程序接口 ( s a p i ) 的结构和工作原理,归纳总结出用s p e e c hs d k 开发应用程序的方法,开发 出“语音命令识别接口程序”,并成功嵌入到电磁阀性能测试系统中,实现了语音 控制,提高了系统自动化水平。 关键词:语音识别;测试系统;s p e e c hs d k 5 1 ;m a t l a b i i i 东北大学硕士论文 a b s t r a c t a p p l i c a t i o nr e s e a r c ho ns p e e c hr e c o g n i t i o n i nac o n t r o l s y s t e m a b s t r a c t p e o p l eh a v eb e e ne a r n e s t l yl o n gf o rc o m m u n i c a t i n gw i t hm a c h i n e r yw h i c hc a n c a t c ho nw h a tp e o p l es a y ,r e s e a r c ho ns p e e c hr e c o g n i t i o nt e c h n o l o g ya n da p p l y i n gi ti s o f a c a d e m i cs i g n i f i c a n c ea n da p p l i c a t i o nv a l u eb e c a u s et h a tm a c h i n e r yc a nm a k es p e e c h s i g n a lt r a n s f e rt oc o r r e s p o n d i n gc o m m a n di n o r d e rt oc o n t r o la u t o m a t i o nd e v i c e s t h r o u g hs p e e c hr e c o g n i t i o nt e c h n o l o g y t h i sp a p e r 。sb a c k g r o u n di ss c i e n t i f i cr e s e a r c hp r o j e c t e l e c t r o m a g n e t i s mv a l v e t e s t i n gs y s t e m la n di t si n t e n t i o ni st os i m p l i f ym a c h i n ec o n t r o lb yv o i c ec o m m a n d i t r e s e a r c h e so ns o m ep r o b l e m sa b o u ts p e e c hr e c o g n i t i o nt e c h n i q u eo fs p e e c hs i g n a l a n a l y s i s w ed e s i g na n di m p l e m e n ti s o l a t e dw o r d 、s m a l lg l o s s a r ys p e e c hr e c o g n i t i o n s y s t e mf o rs p e c i a lp e o p l eb ym a t l a ba n dv c + + b a s e do nt h et h e o r yo fs p e e c h r e c o g n i t i o n t h i ss y s t e mm a i n l yi n c l u d e st h r e ea s p e c t s :e n dc h e c k i n g ,c h a r a c t e r i s t i c e x t r a c t i o na n dm o d e l i n gm a t c h i n g o r i g i n a ls p e e c hs i g n a li sc o l l e c t e db ys o u n dc a r d a n de n dc h e c k i n gi sr e a l i z e d t h r o u g ha c o u s t i c sp a r a m e t e r c a l c u l a t i o ns u c ha s z e r o c r o s s i n gr a t ea n de n e r g y i no r d e rt oi n s p e c tt h eu s e l sv o i c ec o m m a n da ta n y m o m e n t ,r e a l t i m er e c o r d i n gi sn e c e s s a r y t h i sp a p e rc h a n g e st h es t r a t e g yf r o m t r a d i t i o n a lb a t c hp r o c e s s i n gt or e a lt i m ep r o c e s s i n go ns p e e c hs i g n a l ,w h i c hi sm o r e p r a c t i c a b l e m f c cp a r a m e t e ri sa d o p t e db yc h a r a c t e r i s t i ce x t r a c t i o na n d i ss t o r e da st h e t e m p l e t i no r d e rt oo v e r c o m et h en a t u r ev o i c e ss p e e dd i f f e r e n c e e v e nt ot h es a m e s p e a k e r , d y n a m i ct i m ep l a n n i n gi sa d o p t e dt om a t c ht h et e m p l e tc h a r a c t e r i s t i cs e q u e n c e 一 东北大学硕士论文 a b s t r a c t a n ds p e e c hc h a r a c t e r i s t i cs e q u e n c e ,c o m p a r et h ed i s t o r t i o no ft h e m ,a n de d u c et h e r e c o g n i t i o nj u d g e m e n t m i c r o s o f ts p e e c hs d ki sa 1 1i d e a lt o o lf o rd e v e l o p i n gs p e e c ha p p l i c a t i o ns o f t w a r e m i c r o s o f ts p e e c hs d k m a i n l yi n c l u d e s as e to fs p e e c ha p p l i c a t i o np r o g r a m m i n g i n t e r f a c e s ( s a p ) w h i c ha r ep r o v i d e db yt h ew a yo fc o m ( c o m p o n e n to b j e c tm o d e l ) , s ot h a t p r o g r a m m e r sc a nd e v e l o ps p e e c ha p p l i c a t i o ns o f t w a r ew i t h o u ta c q u a i n t i n g t h e m s e l v e sw i t hc o m p l e xs p e e c h t e c h n o l o g ya n ds p e e c ht e c h n o l o g yi se a s i e rt ob eu s e d a n ds p e e c ha p p l i c a t i o ns o f t w a r ei sm o r er o b u s t w er e s e a r c ho ns d k 5 1f o ra p p l i c a t i o n , i n c l u d i n ga n a l y z i n gt h es t r u c t u r em a dt h e o r yo fs a p i ,s u m m a r i z i n gt h em e t h o df o r d e v e l o p i n ga p p l i c a t i o nb ys p e e c hs d k a n dd e v e l o p i n ga s p e e c hr e c o g n i t i o na p p l i c a t i o n w h i c hi se m b e d d e di ne l e c t r o m a g n e t i s mv a l v et e s t i n gs y s t e m ,r e a l i z e sv o i c ec o m m a n d a n di r e p r o v e st h ea u t o m a t i o nl e v e l k e yw o r d s :s p e e c hr e c o g n i t i o n ;t e s t i n gs y s t e m ;s p e e c hs d k 5 1 :m a t l a b v 一 东北大学硕士论文声明 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中 取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表 或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 学位论文作者签名:荧i 倩 日期:2 一1 ,i g 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师不同意网上交流, 学位论文作者签名:蛐肖 签字日期: 。0 6 1 i6 请在下方签名;否则视为同意。) 导师签名:南1 吃& 签字日期:g i i ) 东北大学硕士论文 第一章绪论 第一章绪论 人类对语音的研究具有长远的历史。语音信号的研究工作最早可以追溯到1 9 世纪7 0 年代,而在2 0 世纪得到了长足的进步,到了2 0 世纪9 0 年代,i b m 、a p p l e 、 a t & t 、n t t 等著名公司为语音识别的实用化开发投以巨资,致使语音信号处理技术 的应用掀起了热潮。 1 1 语音信号处理的总体结构 语音信号处理以语音为研究对象,语音信号处理的总体结构“1 如图1 1 所示。 图1 1 语音信号处理的总体结构框图 f i 9 1 1t h eg e n e r a ls t r u c t u r eo fs p e e c hs i g n a lp r o c e s s i n g 从图中可以看出:无论是语音识别,还是语音编码与合成,对输入的语音信 号首先要进行预处理:接着进行特征提取,用反映语音信号特点的若干参数来代 表语音;最后,根据任务的不同,采取不同的处理办法。语音识别技术分为两个 阶段:训练阶段和识别阶段。在训练阶段,对用特征参数形式表示的语音信号进 行相应的处理,获得表示识别基本单元共性特点的标准数据,以此构成参考模板, 将所有能识别的基本单元的参考模板结合在一起,形成参考模式库;在识别阶段, 东北大学硕士论文第一章绪论 将待识别的语音经特征提取后逐一与参考模式库中的各个模板按某种原则进行比 较,找出最相像的参考模板所对应的发音,即为识别结果。语音编码与合成技术 都是将语音信号进行某种压缩处理;如果是语音编码,则对编码后的语音信号进 行传输,在接收端进行解压缩回放播出:如果是语音合成,则对编码后的语音信 号进行存储,待需要的时候进行解压缩回放播出。 语音合成的主要目的是让机器能说话,以便使一些其他存储方式的信息能够 转化成语音信号,让人能够简单地通过听觉就可以获得大量的信息。语音合成技 术除了在人机交互中的应用外,在自动控制、测控通信系统、办公自动化、信息 管理系统、智能机器人等领域也有着广泛的应用前景。目前各种语音报警器、语 音报时器、公共汽车上的自动报站、股票信息的查询、电话查询业务,以及打印 出版过程中的文本校对等均已实现商品化。另外,语音合成技术还可以作为听觉、 视觉和语音表达有障碍的伤残人的通信辅助工具。 语音信号的数字化传输一直是通信发展的主要方向之一,语音的数字通信与 模拟通信相比,无疑具有更好的效率和性能。最简单的数字化的方法是直接对语 音信号进行模数转换,只要满足一定的采样率和量化要求,就能够得到高质量的 数字语音。但这时语音的数据量仍旧非常大,因此在进行传输和存储之前,往往 要对其进行压缩处理,以减少其传输码率或存储量,即进行压缩编码。传输码率 也称为数码率或编码速率,表示传输每秒钟语音信号所需要的比特数。语音编码 的目的就是要在保证语音音质和可懂度的条件下,采用尽可能少的比特数来表示 语音。 与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的 事情。语音识别技术,就是让机器通过识别和理解过程把语音信号转变为相应的 文本或命令的高新技术。识别系统通过对语句进行分析,然后以事先设定好的响 应方式给出相应的响应,如语音回答,执行操作,给出需要的信息,或是输出特 定的控制信号给其他设备。其目的就是方便,快捷的辅助人类进行更有效的工作, 使人把双手从复杂的控制面板或是危险的操作环境解放出来,简化了机器的控制 2 东北大学硕士论文第一章绪论 过程。语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关 键技术。很多专家都认为,语音识别技术是2 0 0 0 年至2 0 1 0 年间信息技术领域十 大重要的科技发展技术之一。语音技术的应用已经成为一个具有竞争性的新兴高 技术产业。 1 2 语音识别技术应用领域 近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预 计,未来1 0 年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家 庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新 闻界评为1 9 9 7 年计算机发展十件大事之一。语音识别系统有着广泛的应用领域, 主要包括以下几个方面“1 : ( 1 ) 控制系统 这里包含广泛的内容。比如说生产线控制室中的复杂控制面板,许许多多的 按钮如今可以用一个麦克风代替;在飞机或汽车驾驶室中,驾驶员的双手离开操 纵杆或者方向盘是很危险的,为了进行其他操作,语言具有不可替代的优势,这 一点对正在进行抢救的医生来说也是非常重要的;另外,对于高危险区的控制, 人们不易接近实施操作,用语音指令就可以避免。 本项目与测试系统项目相结合,就是个很好的语音识别走向实用化的应用 于控制系统的例子。 ( 2 ) 查询系统 这是语音识别的另一个重要的应用。现代社会中信息查询日益显得重要,电 话号码、航班、火车、汽车时刻表,股票行情、天气预报、自动导购、问卷调查 等等,语音识别的实现,使得查询方式更加灵活,操作更加简便。像目前i b m 公 司内部就实现了自通电话号码查询系统。 ( 3 ) 语音玩具 这种应用使得玩具从简单的发出几种声音到可以和人进行简单的交流,必然 3 东北大学硕士论文 第一章绪论 使得玩具更加吸引人。但这里的简单的交流里自然语言对话还有很大的距离,后 者不仅要求语音识别技术的更加完善和发展,还与人工智能的发展密切相关,这 里只是做到简单的对话而已。 1 。3 国内外语音技术状况 语音识别技术发展到今天,特别是中小词汇量、非特定人语音识别系统识别 精度已经大于9 8 ,对特定人语音识别系统的识别精度就更高。这些技术已经能 够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别 系统也已经完全可以制成专用芯片,大量生产。用户交换机、电话机、手机也包 含了语音识别拨号功能。在西方经济发达国家,大量的语音识别产品已经进入市 场和服务领域。美国的m i c r o s o f t 公司、i b m 公司每年在语音识别系统上有大量的 投资。美国s e n s o r y 公司、日本o k i 公司、韩国三星公司、p h i l i p s 公司等都投入大 量资金用于开发语音识别专用芯片。 我国语音识别研究工作起步于5 0 年代,但近年来发展很快。研究水平也从实 验室逐步走向实用。从8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能计算机专家 组为语音识别专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基 本上与国外同步,在汉语语音识别技术上还有自己的特点与优势。清华大学电子 工程系的语音识别技术研究在国内外都达到先进水平。其中,语音技术与专用:凑 片设计课题组研发的非特定人汉语数码串连续语音识别系统的识别精度达到 9 4 8 ( 不定长数字串) 和9 6 8 ( 定长数字串) 。在有5 的拒识率情况下,系统识 别率可以达到9 6 9 ( 不定长数字串) 和9 8 7 ( 定长数字串) ,这是目前国际最好的 识别结果之一,其性能已经接近实用水平。研发的5 0 0 0 词邮包校核连续语音谚 别 系统的识别率已达到9 8 7 3 ;并且可以识别普通话与四川话两种语言。采用嵌入 式芯片设计技术研发的语音识别专用芯片系统,以8 位m c u 核心,加上低通滤波 器、a d 、d a 、功放、预放、r a m 、r o m 、p w m 等模块,构成了个完整的系 统芯片,这是国内研发的第一块语音识别专用芯片。芯片中包括了语音识别、语 4 东北大学硕士论文 第一章绪论 音编码、语音合成功能,可以识别3 0 条特定人语音命令,识别率超过9 5 ,其中 的语音编码速率为1 6 k b i t s s 。该芯片可以用于智能语音玩具;也可以与普通电话机 相结合构成语音拨号电话机。采用1 6 位通用数字信号处理器研发了一个通用语音 识别模块,该模块的特定人语音识别率达到9 9 ,对易混姓名的识别也接近9 0 , 非特定人汉语数码孤立词语音识别率达到9 7 t “。 1 4 课题的背景、思路和研究内容 本文来源于科研“电磁阀性能测试系统开发”项目,此系统实现在水、油、 气介质和真空条件下对电磁阀进行测试实验,可以测试电磁阀的空载动作、最小 压差动作、密封性测试、水压强度试验、泄漏量测试、k 值和阀流阻系数测定及 寿命实验。在测试之前,首先应把被测试对象电磁阀夹紧。传统的方法是人用双 手扶正电磁阀后,通知控制室人员按下某一命令按钮,使阀被夹持住或松开,以 便进行测试试验。这种方法的弊端就在于工作效率低,本来可以一人完成的工作 却因为人的双手而得到了限制。本文是在此项目的基础上嵌入语音识别功能。其 目的就是方便,快捷的辅助人类进行更有效的工作,使人把双手从控制面板中解 放出来,通过语音命令进行操作,简化了机器的控制过程。根据本课题需求的特 殊性,即控制机器的指令都为一些比较简单的口令,比如“夹持”、“松开”等 孤立词、小词汇量。为此选取小词汇量语音识别系统作为研究对象,建立一个特 定人、孤立词、小词汇量的语音识别系统。 本文的研究内容分为两大部分:首先从原理入手,研究了语音信号处理技术, 特别是深刻研究了语音识别技术,并以m a t l a b 、v c + + 为工具,独立开发了小词 汇量语音识别系统,实现了从语音到文本的成功转换;第二部分是研究了m i c r o s o f t 公司提供的语音识别二次开发工具s p e e c hs d k5 1 的s a p i ( 语音应用程序接口) , 归纳总结出用s p e e c hs d k 开发应用程序的方法,开发“语音命令识别接口程序”, 并成功嵌入到“电磁阀性能测试系统”中。 5 , 东北太学硕士论文第一章绪论 音编码、语音合成功能,可以识别3 0 条特定人语音命令,识别率超过9 5 ,其中 的语音编码速率为1 6 k b i t s l s 。该芯片可以用丁二智能语音玩具;也可以与普通电话机 相结合构成语音拨号电话机。采用1 6 位通用数字信号处理器研发了一个通用语音 识别模块,该模块的特定人语音识别率达到9 9 ,对易混姓名的识别也接近9 0 , 非特定人汉语数码孤立词语音识别率达到9 7 l 4 。 1 4 课题的背景、思路和研究内容 本文来源于科研“电磁阀性能测试系统_ 丌发”项口,此系统实现在水、油、 气介质和真空条件下对电磁阔进行测试实验,可以铡试电磁阀的空载动作、最小 压差动作、密封性测试、水压强度试验、泄漏量测试、五值和阀流阻系数测定及 寿命实验。在测试之前,首先应把被测试对象电磁阀夹紧。传统的方法是人用双 手扶正电磁阀后,通知控制室人员按下某命令按钮,使阀被夹持住或松开,以 便进行测试试验。这种方法的弊端就在于工作效率低,本来可以一人完成的工作 却囚为人的观于而得到了限制。本文是在此项目的基础上嵌入语音识别功能。其 目的就是方便,快捷的辅助人类进行更有效的工作,使人把双手从控制面板中解 放出来,通过语音命令进行操作,简化了机器的控制过程。根据本溧题需求的特 殊性,即控制机器的指令都为一些比较简单的口令,比如“夹持”、“松开”等 孤立溺、小词忙量。为此选取小词汇量语音识别系统作为研究对象,建立一个特 定人、孤立词、小词茫量的语音识别系统。 本文的研究内容分为两大部分:首先从原理八手,研究了语音信号处理技术, 特别是深刻研究了语音识别技术,并以m a t l a b 、v c 十+ 为工具,独立开发了小词 汇量语音识别系统,实现了从语音到文本的成功转换;第二部分是研究了m i c r o s o f t 公司提供的语音识别二次丌发工具s p e e c hs d k5 1 的s a p i ( 语音应用程序接口) , 归纳总结出用s p e e c hs d k 开发应用程序的方法,开发“语音命令谚 别接口程序”, 并成功嵌八到“电磁阀性能测试系统”中。 并成功嵌八到“电磁阀性能测试系统”中。 东北大学硕士论文 第一章绪论 1 5 论文内容安排 本文以“电磁阀性能测试系统开发”为背景,对语音信号处理中的语音识别 技术的若干问题进行了研究,具体内容如下: 第一章介绍了语音信号处理过程的总体结构、语音谚 别的应用领域,发展 概况,并说明了本文的课题背景、思路、研究内容和内容安排。 第二章研究了语音识别技术基础,包括语音识别系统类型,语音识别系统的 层次结构,语音识别系统本质,语音识别的几种基本方法。 第三章以m a t l a b 、v c + + 为工具,进行了小词汇量语音识别系统的设计与 实现进行了研究,包括预处理、特征提取、模式库建立、模式匹配等内容。 第四章研究了s p e e c hs d k5 1 的s a p i ( i g 音应用程序接口) ,归纳总结出用 s p e e c hs d k 开发应用程序的方法,开发“语音命令识别接口程序”,并成功嵌入到 “电磁阀测能测试试验系统”项目中。 第五章由论文的主要内容,得出结论,并为今后的研究方向提出建议。 6 东北大学硕士论文 第二章语音识别技术基础 第二章语音识别技术基础 语音识别技术关系到多学科的研究领域,在不同领域上的进步都对语音识别 的发展作出了贡献。和语音识别有关的领域可分为下面几个方面:( 1 ) 物理学( 声 学) :声音产生与传播原理、声电转换以及声音在房间回响等相关方面知识。( 2 ) 生 理学:有关人的声道与耳朵的生理结构、耳朵的听觉特征,在脑内高层的语言处 理等。( 3 ) 统计学和模式识别理论:基于各种统计方法对模式进行匹配,以及建 立有关的统计模型,对语音特征参数进行估值和分类。( 4 ) 信息理论和计算机科 学:各种算法的研究、快速搜索查找匹配的方法。( 5 ) 语音学:有关语音的结构、 基本的音素单元、语音模型的建立。( 6 ) 应用心理学:有关人的语言产生、感觉 方面的知识。( 7 ) 数字信号处理技术:信号的时频域分析、噪声消除、数字滤波、 线性预测等方面的知识。( 8 ) 微电子技术:超大规模集成电路( v l s i ) 技术的发 展对语音识别的具体应用有很大的影响,v l s i 使语音识别系统商品化成为可能p j 。 2 1 语音识别系统的类型 语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系 统的相关性考虑,可以将识别系统分为3 类:( 1 ) 特定人语音识别系统:仅考虑 对于专人的话音进行识别;( 2 ) 非特定人语音系统:识别的语音与人无关,通常要 用大量不同人的语音数据库对识别系统进行学习;( 3 ) 多人的识别系统:通常能识 别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组 人的语音进行训练。 如果从说话的方式考虑,也可以将识别系统分为3 类:( 1 ) 孤立词语音识别系 统:孤立词识别系统要求输入每个词后要停顿;( 2 ) 连接词语音识别系统:连接词 输入系统要求对每个词都清楚发音,一些连音现象开始出现;( 3 ) 连续语音识别系 7 东北大学硕士论文第二章语音识别技术基础 统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。 如果从识别系统的词汇量大小考虑,也可以将识别系统分为3 类:( 1 ) 小词汇 量语音识别系统。通常包括几十个词的语音识别系统。( 2 ) 中等词汇量的语音识别 系统。通常包括几百个词到上千个词的识别系统。( 3 ) 大词汇量语音识别系统。通 常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力 以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。 目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不 同的限制也确定了语音识别系统的困难度。 2 2 语音识别系统的层次结构 图2 1 人类语音的通信过程 f i 9 2 1t h ec o m m u n i c a t i o np r o c e s so f h u m a ns p e e c h 对人类语音通信过程的分析表明( 图2 1 ) ,人类产生、理解语音的过程是按 照层次逐步进行的,语音生成过程为图左半部分所示,语音识别( 这里我们广义的 认为语音理解和语音识别等同概念) 的过程可类比于图右半部分过程。尽管这个过 程中的一些机理还没有完全被弄明白( 例如听觉机理、神经系统控制和模拟) ,我们 8 东北大学硕士论文 第二章语音识别技术基础 仍可认为:语音识别就是将语义信息从声波上“解调”的过程,语音识别系统可 类比于通信系统的接收机( 语音合成系统相当于发射机) 。这样给我们一个信息:我 们可否仿照通信系统中的o s i ( 开放系统互连) 模型的建立,将语音识别定义为层 次模型,这样可以更清晰化的理解语音识别的整体结构。实际上,在许多已有的 语音识别系统中,研究人员或多或少地采用了分层处理的方式来设计语音识别系 统,表2 1 概括了对语音识别层次的描述。 表2 1 语音识别层次模型 t a b l e2 1 t h el e v e lm o d e lo f s p e e c hr e c o g n i t i o n 识别层次主要功能和定义 语义应月j 层 语句识别层 词语识别层 音节感知层 次音节感知层 特征提取层 预处理层 物理接口层 分析语义,映射应用,由任务语法约束 推断语句候选单元和可信度 音字转换,推断词语单元,提供语句候选序列及可信度 声韵母或音素合并成为音节单元,推断合理音节,提供词语候 选序列及可信度 声韵母或音素单元结构,提供音节候选序列及可信度 提取声学特征矢量,提供特征矢量序列 定义语音格式,采样、载波、分帧、加窗、预加重等,提供语 音帧序列 声音进入系统的物理接口输入语音信号 我们可以将物理接口层、预处理层、特征提取层定义为声学层:次音节感知 层、音节感知层定义为语音层;词语识别层、语句识别层定义为语言层。语音识 别系统应用层次越多,结构越复杂,需要的专家知识也越多。当然上述层次的划 分并没有严格上的定义,却是有助于对语音识别模型的理解和系统的设计。 对于一个应用语音识别系统,可能并不包括层次模型的每层结构,这就如通 信系统并不一定要满足o s i 模型的七层协议一样,不同的应用系统有不同的要求, 需要的处理方法也就不同,不一定要具备表2 1 的所有特征。在实际系统中,必 备的部分是特征提取和声学匹配。 典型的中小词汇量、孤立词识别系统以词语为基元建立模板,没有次音节、 9 东北大学硕士论文 第二章语音识别技术基础 音节单元,也没有上层的语句语义层次,每个词条命令就是识别的最终结果。这 种系统可认为语音、语言的知识都包含在以词组为单元的模板中。典型的识别系 统如a t & t 用于电话查询的系统。 以词语为识别基元、连续或连接词的语音识别系统为每一词条建立模板,最 终任务是按一定的语法规范将词语识别结果依次连缀成句子,这类系统往往用于 特定任务( 航班查询,电话查询等) ,具有明显的语句识别层次。 以全音节为基元模型建立的识别系统使用n b e s t 算法逐次获得前n 个最好的 候选单元( 无调、有调音节) ,再按词性、句法、语法网络信息得到最后识别结果。 这种方案多用于汉语大词汇量、连续语音识别系统。 2 3 语音识别系统本质 语音识别技术是一项集声学、语音学、计算机、信息处理、人工智能等于一 身的综合性技术,它可以广泛应用在信息处理、通信与电子系统、自动控制等领 域。语音识别系统本质上是一种多维模式识别系统。它的基本框图”3 如图2 2 所示: 图2 2 语晋识别的腺理框幽 f i g 2 2t h ep r i n c i p l eo f s p e e c hr e c o g n i t i o n 与常规的模式识别系统一样,包含有特征提取、模式匹配和参考模式库等三 个基本单元。但是由于语音识别系统所处理的信息是结构非常复杂、内容极其丰 富的人类语言信息,因此它的系统结构比通常的模式识别要复杂得多”1 。 ( 1 ) 预处理 预处理包括预加重、抗混叠滤波、模数转换、自动增益控制等处理过程,用 以去除声门励、口鼻辐射、高于l 2 采样频率的高频和噪声信号的影响,实现语 1 0 东北大学硕士论文 第二章语音识别技术基础 音信号的数字化。在语音识别中,预处理还包括在声学参数分析之前正确选择识 别单元的问题。 ( 2 ) 特征提取 经过预处理后的语音信号,要对其进行特征提取,即特征参数分析。该过程 就是从原始语音信号中抽取出能够反映语音本质的特征参数,形成特征矢量序列。 可选择的语音特征参数具体如下: 时域参数包括短时平均过零率、短时平均幅度或短时平均能量、基音周期。 短时平均过零率和帧能量用于检测语音端点,基音周期则用于清浊音分类和汉语 的声调识别。 频域参数包括短时频谱( 有1 3 0 个通道滤波器组的平均谱) 、d f t 仿人用觉频 率特性的m e l 谱等人前3 个共振峰( 有幅度、频率、带宽) 、倒谱、线性预测系数、 p a r c o r 系数( 偏自相关系数) 。 其他参数包括声道的形状函数( 用于求取讲话者的个性特征) 、随机模型 ( 即隐马尔可夫模型) 的概率函数、矢量量化的矢量。 超音段信息函数包括音长、音调、音色等。 欲选择抽取的参数不仅与所采用的识别方法有关,而且还与识别率和复杂度 之间的约束有关。特征的选择对识别效果来说至关重要,其衡量方法是特征域距 离量。选择的标准应体现对异音字特征间的距离尽可能大,而各同音字问的距离 尽可能小。若以前者距离与后者距离之比为优化准则确定“目标量”,则应使 该量最大。同时,还要考虑特征参数的计算量,应在保持高识别率的情况下,尽 可能减少特征维数,以利于减小存储要求和实时实现。 ( 3 ) 语音模型库 语音模型库即声学参数模板。它是用聚类分析等方法,从一个讲话者或多个 讲话者的多次重复的语音参数,经过长时间的训练得到的。 ( 4 ) 模式匹配 将输入语音的特征参数同训练得到的语音模式库进行比较分析,从而得到初 东北大学硕士论文 第二章语音识别技术基础 步识别结果。根据模式识别方法的不同,用于语音识别系统时有几种不同方法。 为了使全文连贯,将在2 4 章节详细介绍。 ( 5 ) 后处理 在大词汇量连续语音识别系统中,为了提高识别正确率需要使用语言模型, 利用语音识别单位之间连接时的相互制约的关系,采取统计方法与语法相结合的 方法建立语言模型,达到限制识别器译码时的自由度,提高系统的性能。可能涉 及语句分析、语句理解、语义网络以及语言模型等。它往往不是一个孤立的单元, 而是与匹配计算单元、参考模式库融合在一起,构成一个逻辑关系复杂的系统整 体。目前后处理在嵌入式语音系统中还很难使用。 2 4 语音识别的几种基本方法 一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹 配的方法以及利用人工神经网络的方法“1 。 ( 1 ) 基于语音学和声学的方法 该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由 于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。 通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的 频域或时域特性来区分。这样该方法分为两步实现:第一步、分段和标号。把语 音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根 据相应声学特性对每个分段给出相近的语音标号。第二步、得到词序列。根据第 一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可 结合句子的文法和语义同时进行。 ( 2 ) 模板匹配的方法 模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中, 要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种: 动态时间规整( d t w ) 、隐马尔可夫( h m m ) 理论、矢量量化( v q ) 技术。 1 2 东北大学硕士论文 第二章语音识别技术基础 语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识 别的基础。所谓端点检测就是在语音信号中的各种段落( 如音素、音节、词素) 的 始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依 据是能量、振幅和过零率。但效果往往不明显。6 0 年代目本学者i t a k u r a 提出了动 态时间规整算法( d t w :d y n a m i ct i m ew a r p i n g ) 。算法的思想就是把未知量均匀 的升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要 不均匀地扭曲或弯折,以使其特征与模型特征对正。 隐马尔可夫法( h m m ) 是7 0 年代引入语音识别理论的,它的出现使得自然语 音识别系统取得了实质性的突破。h m m 方法现已成为语音识别的主流技术,目 前大多数大词汇量、连续语音的非特定人语音识别系统都是基于h m m 模型的。 h m m 是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随 机过程:一个是用具有有限状态数的m a r k o v 链来模拟语音信号统计特性变化的隐 含的随机过程,另一个是与m a r k o v 链的每一个状念相关联的观测序列的随机过 程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际 上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根 据语法知识和言语需要( 不可观测的状态) 发出的音素的参数流。可见h m m 合理 地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为 理想的一种语音模型。 矢量量化( v e c t o rq u a n t i z a t i o n ) 是- z o o 重要的信号压缩方法。与h m m 相比,矢 量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形 的k 个样点的每一帧,或有k 个参数的每一参数帧,构成k 维空间中的一个矢量, 然后对矢量进行量化。量化时,将k 维无限空间划分为m 个区域边界,然后将 输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量 值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发 寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计 算失真的运算量,实现最大可能的平均信噪比。核心思想可以这样理解:如果一 1 3 东北大学硕士论文 第二章语音识别技术基础 个码书是为某一特定的信源而优化设计的,那么由这一信息源产生的信号与该码 书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真,也就是说 编码器本身存在区分能力。 在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致 可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括 树形搜索的矢量量化和多级矢量量化。 ( 3 ) 神经网络的方法 利用人工神经网络的方法是8 0 年代末期提出的一种新的语音识别方法。人工 神经网络( a n n ) 本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原 理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输 入输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的 缺点,目前仍处于实验探索阶段。 由于a n n 不能很好的描述语音信号的时间动态特性,所以常把a n n 与传统 识别方法结合,分别利用各自优点来进行语音识别。 1 4 东北大学硕士论文 第三章小词汇量语音i y , , 5 1 系统的设计与实现 第三章小词汇量语音识别系统的设计与实 现 本课题来源于科研项目“电磁阀性能测试系统开发”,本文是在此项目 的基础上嵌入语音识别功能。根据课题需求的特殊性,即控制机器的指令都为一 些比较简单的口令,为此选取小词汇量语音识别系统作为研究对象,并选取词为 识别的基本单元,以语音识别原理为基础,建立一个特定人、孤立词、小词汇量的 语音识别系统。 孤立词识别一直以来都受到人们的重视,因为孤立词的发音方式使得每个单 词语音的开始和结束具有明显的停顿,易于对输入语音进行端点检测等预处理工 作:而且对孤立词的发音一般比较到位,语音的特征参数不易受到协同发音的影 响而发生变化,因而其特征提取以及建模比较容易;另外通过对孤立词识别的研 究,有助于对语音识别技术的理解,并可将其中的很多技术推广到连接词识别和 连续语音识别等更复杂的识别技术中。下面我们从语音识别原理入手,深入研究 语音识别技术,并以m a t l a b 、v c + + 为工具,独立开发了小词汇量语音识别系统, 实现了从语音到文本的成功转换。 在这个系统的实现过程中,需要说明的是,我们采用了称为v o i c eb o x 的工具 箱。v o i c eb o x 工具箱是基于g n e 协议的自由软件,可以在互联网免费下载,其中 v o i c eb o x 工具箱包括了很多与语音信号处理相关的函数,在其主页是为 h t t p :w w w e e i c a c u k l a p s t a f f d m b v o i c e b o x v o i c e b o x h _ c m l 。下面提到的函数,如果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学英语课堂流动摊贩英语口语交际能力培养策略论文
- 高中数学建模竞赛中的数学建模问题发现与解决研究论文
- 芜湖分公司管理制度
- 苹果店规章管理制度
- 蛋白粉与免疫力提升
- 课标专用5年高考3年模拟A版2024高考物理专题十一电磁感应试题
- 教学目标知识与能力1培养观察日常生活中的景物事物的
- 山东省济宁市邹城市第一中学2024-2025学年高一下学期5月月考地理试卷(含答案)
- 江苏省南通市2024-2025学年八年级下学期数学期末考试模拟试卷(含答案)
- 设计与共享经济
- 国家开放大学化工节能课程-复习资料期末复习题
- JB-T 4088.1-2022 日用管状电热元件 第1部分:通用要求
- 国内民用船舶修理价格表(92黄本)
- 国家中长期科技发展规划纲要2021-2035
- 中学生早餐调查报告公开课一等奖课件省赛课获奖课件
- 【解析】江西省新余市2023年小升初语文试卷
- TACEF 077-2023 污染地块风险管控与修复工程职业健康防护指南
- 2023-2024学年四川省阿坝州小学语文四年级期末深度自测试卷详细参考答案解析
- 高等量子力学-课件
- 上消化道出血急救和护理演示文稿
- 公路箱梁水纹产生及防治
评论
0/150
提交评论