(计算机软件与理论专业论文)计算机辅助英语发音质量评价应用研究.pdf_第1页
(计算机软件与理论专业论文)计算机辅助英语发音质量评价应用研究.pdf_第2页
(计算机软件与理论专业论文)计算机辅助英语发音质量评价应用研究.pdf_第3页
(计算机软件与理论专业论文)计算机辅助英语发音质量评价应用研究.pdf_第4页
(计算机软件与理论专业论文)计算机辅助英语发音质量评价应用研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学硕士学位论文 摘要 计算机辅助英语发音质量评价应用研究 摘要 本文针对国内英语教学中存在的发音质量评价主观化的问题,研究了语音识别中的 关键技术,包括语料库、预处理、端点检测、特征提取和隐马尔可夫模型( h m m ) 等, 重点解决了声学模型的建立与训练、语音验证以及发音质量评价等问题,并利用h t k 和a t k 工具建立了一个基于h m m 建模的英语口语评测系统原型。 在对语音验证的方法上,提出了b p 网络验证算法。该算法利用相邻词后验概率的 差值组成的语音特征,作为b p 网络的输入,并将输出结果作为语音的置信度。在对英 语发音质量评价上,提出了客观评价与主观评价相结合的加权联合评分算法。该算法将 基于h m m 的后验概率得分,作为客观评价得分,而利用b p 评分网络对其进行分类, 以获取主观评价得分。 实验表明,采用上述两个算法的系统原型,对中文发音在一定程度上能够拒绝评分, 并对发音质量所评分与教师所评分较为一致,实时性能较好。 关键词:发音质量;隐马尔可夫模型;置信度;评分算法;b p 神经网络 一i i 东北大学硕士学住论文 a b s t t a c t r e s e a r c ho nt h ea p p l i c a t i o no fe v a l u a t i o no fc o m p u t e r - a s s i s t e d e n g l i s hp r o n u n c i a t i o nq u a l i t y a b s t r a c t f o rt h es u b j e c t i v i t yp r o b l e mo fe v a l u a t i o no fp r o n u n c i a t i o nq u a l i t yi nd o m e s t i ce n g l i s h t e a c h i n g ,t h et h e s i sr e s e a r c h e so ut h ek e yt e c h n o l o g yo fs p e e c hr e c o g n i t i o n , i n c l u d i n gc o r p u s , p r e t r e a t r n e n t , e n d p o i n t - d e t e e t i n g , f e a t u r ee x t r a c t i o na n dh m m e t e i ts t r e s s e st or e s o l v es u c h p r o b l e m sl i k ec o n s t i t u t i o na n dt r a i n i n gf o ra c o u s t i cm o d e l ,s p e e c hv e r i f i c a t i o na n d e v a l u a t i o n o fp r o n u n c i a t i o nq u a l i t y i tr e a l i z e st h ep r o t o t y p eo fs p o k e ne n g l i s he v a l u a t i o ns y s t e mb a s e d o nh m mu s i n gh t ka n d 蛆k f o rs p e e c hv e r i 矗c a n o n t h ea r i t h m e t i co f v e r i f i c a t i o nb a s e do nb pn e t w o r ki si n t r o d u c e d i tf i r s tc a l c u l a t e sp o s t - p r o b a b i l i t yd i f f e r e n c e so fn e i g h b o u r i n gw o r d sa st h es p e e c hf e a t u r e s i n t ob pn e t w o r k , t h e nb pn e t w o r ko u t p u t sc o n f i d e n c em e a s u r e so fs p e e c h f o re v a l u a t i o no f e n g l i s hp r o n u n c i a t i o nq u a l i t y , t h ew e i g h t e ds c o r i n g a r i t h m e t i c c o m b i n i n go b j e c t i v e e v a l u a t i o n 谢t hs u b j e c t i v eo n ei si n t r o d u c e d i tc a l c u l a t e sp o s t - p r o b a b i l i t ys c o r eb a s e do n h m m 嬲o b j e c t i v es c o r e t h e nc l a s s i f i e so b j e c t i v es c o r eu s i n gb ps c o r i n gn e t w o r kt og e t s u b j e c t i v es c o r e e x p e r i m e n tr e s u l t ss h o wt h a tt h ep r o t o t y p eo fs y s t e mu s i n gt h et w oa r i t h m e t i c sa b o v e c a n 蛹e e tt os c o r ef o rc h i n e s ep r o n u n c i a t i o ni nac ) e l - t a i nd e g r e ea n dh a sg o o dc o n s i s t e n c y b e t w e e ns c o r eo fp r o n u n c i a t i o nq u a l i t ya n do l l eg a v eb yt h et e a c h e r , w i t hg o o dp e r f o r m a n c e o f r e a lt i m e k e y w o r d s :p r o n u n c i a t i o nq u a l i t y ;h m m ;c o n f i d e n c em e a s u r e s ;s c o r i n ga r i t h m e t i c :b p n e u r a ln e t w o r k i n 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的 研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示诚挚 的谢意。 学位论文作者签名;砷 签字日期:跏7 7 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名:否则视 学位论文作者签名 :孑殍痧 l 导师签名 签字 日期:加订,7签字日期:如7 7 东北大学硕士学位论文第一章绪论 第一章绪论弟一早珀t 匕 语言是人类进行思想、观点和情感交流最自然便捷的交互方式。人们日常生活中大 约有7 0 5 多的交流都是通过语言完成的。学习语言成为众多渴望交流的人们互通思想的 重要途径。从对语言的认知过程来看,人类从来都是先会说话再会认字的,学英语也是 如此。目前中国的英语学习者大多数都是先学阅读和书写,再学如何说话。对此,公众 媒体的批评和教育学者的反思已是老生常谈。当然,随着计算机技术的发展,将计算机 多媒体、数字信号处理等技术运用到语言教学中,改善教学环境,在一定程度上弥补教 师水平差异,提高英语学习者口语发音水平,这对于英语教学和国内英语学习是具有实 际意义和应用价值的。 本章将介绍语音识别技术发展历程、研究现状以及对当前国内英语教学现状总结, 最后阐明本文的内容及结构安排。 1 1 语音识别发展历程及现状 语音识别研究的根本目的是使计算机具有类似人一样的听觉功能,能直接接受人的 语音,理解人的意图并做出相应的反应。语音识别按照任务的不同可以分为四个方面: 说话人识别、关键词检出、语言辨识和连续语音识别。下面就对其产生和发展过程作简 要回顾i i l 。 语音识别的研究开始于2 0 世纪5 0 年代。当时电子信号频谱分析仪器开始被用于从 语音信号中识别简单、少量的音节和音素。其中有代表性的是1 9 5 2 年美国b e l l l a b o r a t o r i e s 的d a v i s 等人首次研制成功能识别十个英语数字的实验装置,其识别方法是 根据语音第一、二共振峰位置提取若干特征,用模拟电路实现未知语音模式与参考语音 模式之间的互相关操作。 在1 9 6 0 年,d e n e s 和m a t h e w 用数字计算机实现自动语音识别,引入了时间规整( t w ) 算法改进匹配性能的概念,并提出一种基于双字母组合概率的语言模型约束的初步形 式。从此语音识别的研制变成用计算机模拟实验取代硬件研制的传统做法,大大加快了 方法研究的进展,先后出现了多种语音信号分析方法,如动态规划( d p ) 。在2 0 世纪6 0 年代,语音识别系统基本上都是用硬件实现的滤波器提取频谱特征,用计算机进行匹配 计算和判断。由于当时计算机技术和信息处理技术的限制,这十来年之中没有取得令人 一1 一 东北大学硕, - t - 学位论文第一章绪论 鼓舞的突破性进展。 2 0 世纪7 0 年代,三项研究成果对语音识别技术的长足进步产生决定性影响,分别 是: ( 1 ) 7 0 年代初,动态规划技术用于语音识别,此后隐马尔可夫模型法也获得初步 成功,使语音识别研究在匹配算法方面开辟了新思路。 ( 2 ) 7 0 年代中,i t a k u r a 提出的线性预测残差原理成功应用于语音识别,后来又应 用于语音编码。从此线性预测技术在语音处理的多个方面获得巨大成功,特别是研究出 多种线性预测参数形式和多种谱距离测度,对语音识别和语音编码研究的发展起了重要 作用。 ( 3 ) 7 0 年代末,g r a y 和m a r k e l 等人首次解决了矢量量化码书生成的方法,并将矢 量量化技术应用于语音编码获得成功,从此矢量量化技术不仅在语音识别、语音编码和 说话人识别等方面发挥了重要作用,而且很快推广到其它领域。 2 0 世纪6 0 和7 0 年代的语音识别技术有效地解决了语音的特征提取和时间不等长匹 配的问题,对特定人的语音识别十分有效。研究的特点以孤立词语音识别为主,通常把 孤立词作为一个整体来建立模板。 2 0 世纪8 0 年代以来出现语音识别技术产品化热潮。1 9 8 5 年i b m 公司研制成功5 0 0 0 词汇的英语听写机t a n g o r a - 5 ,后来到8 0 年代末又发展成为能识别2 0 0 0 0 词汇的 t a n g o r a - 2 0 ,识别率达到9 4 6 ,而且具有快速自适应于说话者的特性。9 0 年代初,国 外许多研究机构都研制出词汇量达到几万的大词汇量识别系统,比如能识别7 0 0 0 0 词汇 的d r a g o nd i c t a t e 词汇翻译系统,识别率达到8 0 以上。在非特定人大词汇量连续语音 识别方面有代表性的系统是由卡内基梅隆大学( c m u ) 研制出的s p h i n x ,它能识别包 括9 9 7 个词汇的连续语句,识别率达到9 5 8 ,被认为是语音识别历史上的一个里程碑。 这期间语音识别研究的重点之一是连续词语音识别,开发了各种连接词语音识别和 关键词识别算法,如多级动态规划语音识别算法。另一方面语音识别算法从模板匹配技 术转向统计模型技术,统计语言模型也开始取代规则语言的模型。 进入2 0 世纪9 0 年代后,在细化模型设计、参数提取和优化以及系统的自适应技术 上取得了一些关键进展,语音识别技术进一步成熟。其中比较有代表性的系统有d r a g o n s y s t e m 公司的n a t u r a l l ys p e a k i n g ,n u a n c e 公司的n u a n c ev o i c ep l a t f o r m 语音平台, m i c r o s o f t 的w h i s p e r ,s u n 的v o i c et o n e ,p h i l i p s 公司开发的s p e e c hm e d i a 和s p e e c hp e a r l 等。 一2 一 东北大学硕士学位论文第一章绪论 我国语音识别研究工作起步要比先进国家晚一点,但进步很快,成果突出。从1 9 8 7 年开始执行国家8 6 3 计划以来,国家8 6 3 智能计算机主题专家组为语音识别技术研 究专门立项。每两年滚动一次,从1 9 9 1 年开始,专家组每一至二年举行一次全国性的 语音识别系统测试,参加测试的系统代表了国内这一领域的研究水平。目前我国对大词 汇量连续语音识别系统的研究已经接近国外最高水平1 2 1 。由于中国国际地位的不断提高, 以及在经济和市场方面所处的重要地位,国外也非常重视汉语语音识别的研究。i b m , m i c r o s o f t ,l & h 等公司相继投入在汉语语音识别系统的开发,其投资也逐年增加。i b m 开发的v i av o i c e 和m i c r o s o r 开发的中文识别引擎代表了当前汉语语音识别的最高水 平。台湾的一些大学和研究机构也开发出大词汇量非特定人连续语音识别系统。 目前在语音识别领域非常活跃的课题为稳健语音识别、说话人自适应技术、大词汇 量关键词识别算法、语音识别的置信度评测算法、基于类的语言模型和自适应语言模型, 以及深层次的自然语音的理解。研究的方向也越来越侧重于口语对话系统。目前,说 话人自适应技术的研究已经取得相当大的进步,出现了一些较成熟的技术,如声道归一 化技术、最大似然线性回归算法、b a y e s 自适应估值算法。当前研究的热点转向如何实 现在线无监督的学习和多方法综合自适应学习算法。稳健语音识别的算法还未取得根本 性突破,但其研究意义重大。语言模型也是目前研究的一个重要方面,如何把统计语言 模型和基于知识的语言模型结合起来是其研究的重点之一。 从各大公司、研究机构的语音研究项目看,语音识别项目也在向综合化方向发展。 m i c r o s o f t 的在研语音项目既有语音识别( 主要是在噪声情况下的稳健性研究) ,也有说 话人辨认研究。剑桥大学的传统项目是语音的文本标注( a u d i ot r a n s c r i p t i o n ) ,近年又 新增了提高核心语音识别技术( i m p r o v i n g c o r e s p e e c h r e c o g n i t i o n t e c h n o l o g y ) ,主要从 识别器的一般性、适应性和便携性方面展开研究。约翰霍普斯金大学与i b m 合作开展 多语言口头档案访问( m u l t i l i n g u a l a c c e s s t os p o k e n a r c h i v e s ) 研究,其中包括自动语音 识别、专业领域多语言词汇计算机辅助翻译,元数据自动创建的自然语言处理技术等。 密西西比州立大学则研究大词汇量对话语音识别,口头信息检索( s p o k e nl a n g u a g e i n f o r m a t i o nr e t r i e v a l ) 。总之,语音识别研究正朝着深度和广度方向不断发展。 1 2 英语发音学习研究 随着国际化的趋势,具备多国语言的能力俨然成为个人生活、学习和工作中不可获 缺的技能。发音是语言学习的基础,只要发音准确流利,即使掌握的词汇量和语法非常 一3 一 东北大学硕士学位论文第一章绪论 有限,但听起来仍会觉着相当地道。反之如果发音低于一定水平,即使语法和词汇完全 正确,也不能进行有效地沟通。由于我国的英语学习是在“非语言环境”的“真空”中 进行的,一旦进入实际交谈状态,较容易受到实际语境中发音缺陷或者发音不到位等因 素的影响。在交谈过程中,只要有些“风吹草动”,听者的注意力、知觉敏感度和理 解的准确性就会大打折扣。因此,听者往往希望说话者吐字清晰、准确、易懂。 因此,以计算机辅助非母语语言的学习已受到相当重视,各方纷纷投入相关的研究。 其中对基于语音识别技术的英语发音学习研究是开始于2 0 世纪9 0 年。目前美国的s 对、 英国剑桥大学、香港理工大学和清华大学等组织均在开展此项工作。对英语发音学习的 研究主要集中在三个方面 6 1 : ( 1 ) 寻找反映发音质量的性能指标,主要研究如何对音调、重音、语速和韵律等 指标进行分析与计算。 ( 2 ) 对词、短语和句子的发音进行评分,并检测和定位音素级发音错误。 ( 3 ) 研究计算机辅助英语发音学习系统的性能评测手段。 1 2 1 我国英语教学现状 目前,我国的英语教学模式还是黑板、粉笔、书、教师加课堂的传统方式,有时也 会用到一些多媒体技术,但变化不大。但随着我国对外交往的日益频繁,语言教学和学 习模式也发生巨大的变化,已经从传统的单词和语法的学习,转向了更加注重相互交流 能力的口语学习,这其中很强调发音的准确性。所以传统的教室语言教学的模式已经无 法满足英语学习的需要,在新的历史条件下,这种方式遇到了下列无法解决的问题 7 1 : ( 1 ) 语言教学需要一个教师专注于一个学习者的学习,而在教室语言教学中,一 个教师不可能同时满足所有学习者的需要。 ( 2 ) 语言学习过程中,学习者需要进行大量单调的重复练习,这需要语言教师要 有足够的耐心和大量的时间。 ( 3 ) 语言学习不仅是一个对某种语言口腔肌肉方面的学习,也是一个心理上的学 习。很多学习者在练习语言的发音时,由于心理作用不愿意在有其他人的情况下练习发 音。 ( 4 ) 教室方式的语言学习对学习者的学习地点、时间要求严格,学习者无法在任 何自己方便的时间、地点进行像在上课时有教师辅导一样的学习。 另外英语教师的授课任务繁重,很难有进修和培训的机会,这使得英语教学水平参 - - 4 东北大学硕士学位论文第一章绪论 差不齐,不少教师在发音、语法、教学方法等方面都有待提高。针对上述国内英语教学 现状,可以通过计算机辅助语言学习系统( c o m p u t e r - a s s i s t e dl a n g u a g el e a r n i n gs y s t e m ) 加以改善。其中基于语音识别技术的英语发音学习系统,可以根据学习者的发音质量提 供反馈信息,改进学习者的发音,从而达到学习者与学习系统之间的交互,实现教师与 学习者一对一的学习模式。这样就能较好地解决发音学习问题,对于英语教学和国内英 语学习的推广都有积极意义。 1 2 2 英语发音学习系统 如今有很多公司和研究机构都在开发英语语言学习系统,如美国的s r i 、c m u 、 e n t r o p i e 公司、澳大利亚的n e w c a s t l e 大学以及日本的一些大学等。目前,已经有一些 英语语言学习系统结合了语音识别技术,用来训练学习者的英语发音,提高口语能力。 这些系统包括h e b r o ns o f t 公司的c n ni n t e r a c t i v ee n g l i s h ,c p i 公司的t r a c it a l k 和 m i c r o s o f t 公司的e n c a r t ai n t e r a c t i v ee n g l i s hl e a r n i n g ,另外还有一些基于语音识别技术开 发的英语发音学习系统,如表1 1 所示i 。1 z l 。 表1 1 英语发音学习系统 t a b l e1 1 e n g l i s hp r o n u n c i a t i o nl e a r n i n gs y s t e m 名称开发机构特点概述 f 1 1 ,e n c yc m u 通过启发式技术实现学习者构造句子的自 由性,着重了音素和韵律的监测和校正。 针对韩式英语的交互式发音教学系统,但只 d r s p e a k i n g e o n e oi n c 有有限个单词和句子。 从发音、节拍、音调和音量四方面评估发音 m ye n g l i s ht u t o r 艾尔科技水平,并根据发音错误,以3 d 动画方式演示 正确发音。 用i b mv i a v o i c e 的语音识别器评估发音水 t r a i ns p e e c h 平,并根据发音错误,提供给学习者一些改 正发音的建议。 1 3 论文内容及结构安排 为了改善英语教学环境,提高英语学习者口语水平,本文研究了基于h m m 建模的 语音识别系统所涉及到的若干关键技术,针对语音验证和发音质量评价,分别提出了 b p 网络验证算法和加权联合评分算法。结合上述算法,设计并实现了一个英语口语评 测系统原型。实验结果表明该系统原型具有较好的性能。 一5 一 东北大学硕士学位论文 第一章绪论 本文的结构安排如下: 第二章主要介绍基于h m m 建模的语音识别系统所涉及到的关键技术,如语料库、 预处理、特征提取等,着重阐述了隐马尔可夫模型基本理论及其结构与分类。 第三章主要对语音验证与发音质量评价算法进行归纳总结,重点阐述了以相邻词后 验概率差值为特征的b p 网络验证算法,以及基于h m m 的后验概率得分与b p 评分网 络相结合的加权联合评分算法。 第四章主要是在基于h m m 建模的语音识别系统和所提出的算法基础上,对系统原 型进行概要设计和详细设计,并实现了一个基于语音识别技术的英语口语评测系统原 型。 第五章主要介绍了构建系统原型时所使用到的h t k 和a t k 两种工具,以及对系统 原型进行三方面的实验测试结果与性能分析。 第六章总结了本文的研究工作,并讨论了进一步的研究方向和系统完善之处。 一6 一 东北大学硕士学位论文第二章基于h m m 建模的语音识别系统 第二章基于h m m 建模的语音识别系统 一个完整的语音识别系统,其最终实现及使用的效果不仅仅取决限于识别算法,许 多相关因素都直接影响着应用系统的成功与否,因为语音识别系统是由一系列复杂的技 术组成,包括语音识别基元的选取、声学模型的建立和所要采用的识别模型等。 本章构建了一个基于隐马尔可夫模型的语音识别系统,语音验证与评分算法的研究 将在此基础上展开。 2 1 语音识别系统 语音识别系统主要采用语音信号处理和模式识别的原理,首先根据待识别语音类 型,选择一种合适的识别算法,再依据识别算法的要求,利用相关的语音信号处理方法 提取相应的特征参数,在这之后,分两个阶段进行语音识别: 第一个阶段是学习和训练。由大量与系统应用相关的训练数据,提取相应的特征参 数,结合系统参考模型参数的初始值,对其进行调整,以使参考模型更适应所提供的训 练数据,以便提高系统的识别率,最后将训练后的参考模型参数以某种方式存储起来, 形成模板库。 第二阶段就是模式匹配。将待识别的语音信号的特征参数构成的模板与模板库中的 参考模板做匹配,在允许的误差范围内,进行各种有效的相似性计算,获得与该语音信 号最相似的参考模板,并将其作为识别结果。 语音识别系统一般包括预处理、特征提取、参考模型、模式匹配和后处理五大部分, 如图2 1 所示: 图2 1 语音识别系统结构 f i 9 2 1s a u c a t r e o f s p e e c hr e c o g n i t i o ns y s t e m 下面将就语音识别系统中语料库、预处理、特征提取以及语音识别模型方面做较详 东北大学硕士学位论文第二章基于h m m 建模的语音识别系统 细的介绍。 2 2 语料库 语料库( c o r p u s ) 可以认为是由大量收集的书面语或口头语构成,并通过计算机存 储和处理,用于语言学研究的文本库,它在语音识别的相关研究中举足轻重。从训练模 板的角度看,语料库是语音识别器所需语音知识的根本来源。从性能评测的角度看,语 料库的好坏会直接影响评测结果的科学性、有效性。 语料库一般具有以下基本特征旧: ( 1 ) 语料库的设计和建设是在系统理论语言学指导下进行的,具有明确而具体的 研究目标,如2 0 世纪6 0 年代初的b r o w n 语料库主要目的是对美国英语进行语法分析。 ( 2 ) 语料库的语料构成和取样,要按照明确的语言学原则,并采取随机抽样方法 收集自然语料,而不是简单地堆积。 ( 3 ) 语料库作为自然语言运用的样本,必须具有代表性,比如说话人在性别、年 龄、地域和语速等方面都要考虑。 ( 4 ) 语料库中的语料以电子文本形式存储,并且是通过计算机自动处理的,具有 一定的容量。 ( 5 ) 语料文本是一连续的话语文本片段,而不是孤立的句子和词汇。 英语语音识别系统通常需要两类语料库:标准发音语料库和非标准发音语料库。一 般来说,标准发音语料库主要用来训练发音单元模型,语料的内容应取决于将来系统采 用的基本发音处理基元的形式。非标准发音语料库用来测试专家手工训练分级评分模型 以及系统性能,应具有广泛的代表性,其语料的内容根据系统的功能有所不同。 英语标准发音语料库有两个通用的语料库:d a r p a 语料库和t i m i t 语料库,绝大 多数的英语语音识别研究都是在这两个语料库的基础上完成的。其中后者含6 3 0 0 句语 音,由来自美国八个主要口音地区中的4 3 8 位男性、1 9 2 位女性所录制,每人录制1 0 句。因其由德州仪器( t e x a si n s t r u m e n t s ,1 r i ) 录制,麻省理工学院( m a s s a c h u s e t t si n s t i t u t e o f t e c h n o l o g y ,m i t ) 转写而得名。 2 3 语音识别预处理 语音识别预处理,除了数字化语音信号必要的预处理技术外,还要依据识别任务的 要求做一些特殊的处理。这里先介绍必要的预处理,然后阐述语音识别单元的选取和端 一8 一 东北大学硕士学位论文第二章基于h m m 建模的语音识别系统 点检测技术。 必要的预处理技术主要包括三部分:预加重、分帧和加窗,每部分要完成的功能说 明如下1 1 4 1 : ( 1 ) 预加重 因为语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在8 0 0 h z 以上按6 d b 倍频程跌落,为此要在预处理中进行预加重处理。通过预加重处理可以消除 声带和嘴唇的效应,提升语音信号高频部分,平滑信号的频谱特征,以便进行频谱分析 或声道参数分析。预加重可用具有6 d b 倍频程的提升高频特性的预加重数字滤波器实 现,它一般是一阶的,即 日( 力= 1 - j + z 1 ( 2 1 ) 其中值接近于1 ,典型值为o 9 4 。 ( 2 ) 分帧 由于语音信号是非平稳过程,是随时间一维变化的,但是人的发音器官的肌肉运动 速度较慢,所以语音信号可以认为是局部平稳或短时平稳。因此语音信号常作短时分析, 用段或帧来处理。一般每秒帧数约为3 3 1 0 0 ,视具体情况而定。为了避免相邻两帧的 变化度过大,所以帧与帧之间需要重叠一部分,前一帧和后一帧重叠部分为帧移,帧移 和帧长的比值一般取i 1 或j 1 ,也就是每次位移一帧的j 1 或i 1 后再取下一帧,这样可以避 免帧与帧之间的变化太大。 ( 3 ) 加窗 为了让各个帧在频谱上的能量能更集中,将每一帧代入窗函数,这样可以消除各个 帧两端可能会造成的信号不连续性。常用的窗函数有矩形窗和哈明窗。若采用矩形窗, 则其频谱高频部分必将影响语音信号的高频部分,一般用高频分量幅度较小的窗体,以 避免这些影响。如哈明窗的带宽是矩形窗的两倍,但带外衰减却比矩形窗大得多。根据 处理要求,以不影响或少影响处理需要的语音特性为标准来选窗形较为适宜。在频谱分 析中经常采用哈明窗。设w ( o 为哈明窗,其定义为: 似力:0 5 4 - 0 4 6 c o s ( 器) ,o i n 眨:, 10,其它 其中值代表窗的大小。 - - 9 - - 东北大学硕士学位论文第二章基于h m m 建模的语音识别系统 2 3 1 语音识别基元选取 语音识别基元的选取在语音识别,尤其是连续语音识别中是非常重要的环节。识别 基元大小对语音训练数据量大小、语音识别率以及灵活性有很大的影响。语音识别基元 有单词( 句) ,音节和音素3 种,具体选择哪一种,由具体研究任务决定。一般来说, 语音识别基元的选取原则如下: ( 1 ) 单词( 旬) 基元广泛用于中小词汇语音识别系统,但不适合大词汇系统,原 因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。 ( 2 ) 音节基元多见于汉语语音识别,因为汉语是单音节结构的语言,而英语是多 音节,并且汉语虽然有大约1 2 8 2 个音节,但若不考虑声调,约有4 1 2 个无调音节,数 量相当较少。因此对中、大词汇量汉语语音识别系统来说,以音节为识别基元是可行的。 ( 3 ) 音素基元多见于英语语音识别研究中,但目前中、大词汇量汉语语音识别系 统也越来越多的采用这种基元。 2 3 2 端点检测技术 端点检测是指用信号处理技术找出语音信号中的各种段落( 如音素、单词) 的始点 和终点。在实际应用中,由于环境噪声的影响,使得语音识别系统的识别性能降低。噪 声语音信号的端点检测,对于连续语音识别是非常重要的。只有准确地判定语音信号的 端点( 尤其是起点识别) ,才能正确的进行语音处理。 详细说来,端点检测有两个过程: ( 1 ) 基于语音信号的特征,用能量、过零率、基音频率、熵和音高等参数以及它 们的衍生参数,来判断信号流中的语音月# 语音信号。 ( 2 ) 在信号流中检测到语音信号后,判断此处是否为语音的开始或结束点。 目前主要的端点检测方法主要有基于能量、基于信息熵、基于频带方差、基于倒谱 特征的带噪语音信号、基于h m m 、基于分形技术、基于自相关相似距离,基于迟滞编 码等检测方法僻1 s l 。本文采用基于短时能量和短时平均过零率的检测方法,该方法也被 称为双门限检测法,用于对有无话和词前端检测,如图2 2 所示。 在双门限比较法中,以以为标志的某帧语音信号的短时平均过零率z 。定义为: 2 n = is g n x ( m ) - s g n x ( m 一1 ) 】l + w ( n 一所) = s g n 【x ( 心) 卜s g n x ( n 1 ) 】i + 坝h ) ( 2 3 ) m o q 式中,s g n ( x ) 是符号函数,其定义如下: 一1 0 东北大学硕士学位论文 第二章基于h m m 建模的语音识别系统 s 酬世蒹: 汜4 , 其中x ( m ) 为原始语音信号采样序列,w ( n ) 是窗函数。 短时能量e 定义为: e = e 【x ( 小) + w ( n - m ) 2 = 【x ( m ) w ( n - m ) 2 ( 2 5 ) 其中x ( m ) 为原始语音信号采样序列,以行) 是窗函数。 双门限检测法考虑到语音开始以后总会出现能量较大的浊音,所以设一个较高的门 限毛用以确定语音开始,再取一比e 稍低的门限与,用以确定真正的起点l 及结束点 2 。判断无话和清音的差别,是采用另一个较低的门限,求越过该门限的过零率。 通常背景噪声的低门限过零率将明显低于语音的低门限过零率。一般短时能量低门限取 背景噪声平均能量的2 倍,较高能量门限取多帧语音数据的平均能量。 鹾零十 ,二磐= 二二上二二- ” v i2 图2 2 双门限检测法 f i g2 2 d o u b l et h r e s h o l d sd e t e c t i o nm e t h o d 2 4 语音信号特征提取 语音信号不仅包含语义信息,还有个人特征信息。特征提取的目的是从语音波形中 提取随时问变化的语音特征序列( 向量) 。通常我们可以把语音信号的特征向量分为两 类:时域特征向量和变换域特征向量。选取特征向量的合理与否关系到整个语音识别系 统的性能。代表性的语音特征向量有基音周期、线性预测参数、线谱对( l i n es p e c t r u m p a i r ) 参数、线性预测倒谱系数( l p c c ) 、m e l 频率倒谱系数( m f c c ) 、1 3 音敏感倒谱 一1 1 东北大学硕士学位论文第二章基于h m m 建模的语音识别系统 系数( a c c e n ts e n s i t i v ec e p s t r u mc o e f f i c i e n t ) 、感觉加权的线性预测参数、动态差分参数 等。 所有这些特征向量都试图充分表征语音信号,但是某一特征中一般只包含了部分语 音信息。因此,如何选择有效的特征或采用特征组合方式为识别模型提供数据,充分利 用已有的语音特征信息,是语音识别研究的重要课题。下面仅就l p c c 参数和m f c c 参数做一介绍。 2 4 1l p c c 参数 线性预测倒谱系数( l i n e a rp r e d i c t i o nc 印s t r a lc o e f f i c i e n t ,l p c c ) 是线性预测系数 ( l i n e a rp r e d i c t i o nc o e f f i c i e n t ,l p c ) 在倒谱域中的表示。该特征是基于语音信号为自 回归信号的假设,利用线性预测分析获得倒谱系数。l p c c 参数的优点是计算量小,易 于实现,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪音性能较 差。 l p c 的计算方法有自相关法、协方差法、斜格法等1 1 9 1 。由于通过自相关法求得的 l p c 系数能够保证系统的稳定性,使得式( 2 6 ) 所对应的声道模型传输函数具有最小 相位。 打( :) :箬一 ( 2 6 ) 1 一艺q = 1 式中g 为增益常数,分母是传递函数,p 为线l p c 的阶数。利用这一特性,l p c c 可以由l p c 得到 = + 喜譬( “ ( 2 7 ) 由于l p c c 同时继承了l p c 的缺陷,其中主要的一点就是l p c 在所有的频率上都 是线性逼近语音的,而这与人的听觉特性是不一致的,而且l p c 包含了语音高频部分 的大部分噪声细节,这些都会影响系统的性能。针对上述问题提出了m f c c 参数。 2 4 2m f c c 参数 m e l 频率倒谱系数( m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t s ,m f c c ) 充分考虑人耳的 感知特性,将频谱转化为基于m e l 频率的非线性频谱,然后转换到倒谱域上。实际上, 人的听觉系统是一个特殊的非线性系统,它对不同频率信号的响应基本上是一个对数的 东北大学硕士学位论文第二章基于h m m 建模的语音识别系统 关系。大量的研究表明,m f c c 参数要比l p c c 参数具有更好的识别性能和抗噪能力。 频率坐标到m e l 坐标的变换可用式( 2 8 ) 完成: = 2 5 9 5 h ( 1 + 矧j ( 2 8 ) 其中厂为实际线性频率,单位是h z ,为m e l 频率。f 在1 k h z 以下大致呈线 性分布,在1 k h z 以上呈对数增长。 m f c c 参数的计算过程如图2 3 所示: 预处理后 菌h 亟f 颦翌p 匿雪斟p 嗡出 图2 3m f c c 参数计算过程 f i g2 3 m f c cp a r a m e t g rc a l c u l a t i o np r o c e s s i n g ( 1 ) 语音信号在经过加窗处理后变为短时信号,用f f r 将这些时域信号x ( n ) 转 化为频域信号- 0 ,并由此可以计算它的短时能量谱尸( 力。 ( 2 ) 将p 由在频域轴上的频谱转化为在m e l 坐标上的尸( m ) ,其中m 表示m e l 频率,式( 2 8 ) 可以完成该转换。 ( 3 ) 在m e l 频域内将三角带通滤波器加上m e l 坐标得到滤波器组王乙( 七) ,然后计 算m e l 坐标上的能量谱p ( m ) 经过此滤波器组的输出: p ( m ) = l n 【ix ( k ) 1 2 玩( k ) 】k = 1 ,2 ,k ( 2 9 ) 式中k 表示第k 个滤波器,置表示滤波器个数。 ( 4 ) 通过一个具有4 0 ( k = 4 0 ) 个滤波器组。前1 3 个滤波器在1 k h z 以下是线性 划分的,后2 7 个滤波器在1 k h z 以上是在m e l 坐标上线性划分。 ( 5 ) 如 o ( m k ) 表示y g k 个滤波器的输出能量,则m e l 频率倒谱c 0 ( 行) 在m e l 刻度谱上可以采用修改的离散余弦反变换( i d c t ) 求得: g d ( 功= 窆口( m ) c o s ( 甩( 女一o 5 ) 争玎= l ,2 ,p ( 2 1 0 ) 式中p 为m f c c 参数的阶数。 2 5 语音识别模型 模型是对信号本质描述的数学方法之一。模型的本质是过程逼近,从识别的角度看, 东北大学硕士学位论文第二章基于h m m 建模的语音识别系统 模型应理解为分类模式。所有模型都要训练学习才。能用于识别。对于语音信号,根据任 务需求,可以使用多种语音识别模型,如动态时l 日j 规整( d t w ) 、隐马尔可夫模型( h m m ) 、 支持向量机( s v m ) 、高斯混合模型( g m m ) 和人工神经网络( a n n ) 等1 2 0 - ”1 。这里重 点介绍本文采用的隐马尔可夫模型理论。 2 5 1h m m 基本原理 由于h m m 是在m a r k o v 链的基础上发展而来的,为了更好的理解h m m ,首先应 该了解m a r k o v 链的基本概念。 若有一个随机过程 x ( f ) ,f r ( 这里r 表示随机过程的长度) ,在时刻f 的状态是 置,而在将来某时刻+ 的状态五+ 。仅仅与现在的状态置有关,而与过去时刻的状态 置- l ,置。,无关,则称x ( r ) 为马尔可夫过程。马尔可夫链是状态和时间都是离散 的马尔可夫过程,即 p ( 置。= g ,+ i 互= 吼,工一。= g f 。,x t = 吼) = p ( 置+ = g ,+ ,i 墨= 吼) ( 2 1 1 ) 其中,q l ,g :,g 卅。 ,岛,如) 是状态的取值,并且称弓为状态转移概率, 定义如下: 只( t , t + 1 ) = 以研。= eig f = 0 3 ,l - ,n ( 2 1 2 ) 这里表示状态可以取值的数目,当局( t , t + 1 ) 与f 无关时,称这个马尔可夫链为齐 次马尔可夫链。 若将状态转移概率己( f ,f + 1 ) 记为吩,1 _ ,蔓,可以构成一个状态转移概率矩阵, 即爿= ( 三:j j : ,且有。吩,差吩= 。 很显然,矩阵一表示的是已知前一状态时,后一状态取值的方向,但它不能决定初 始分布,即由a 求不出g l = 口的概率,这样完全描述马尔可夫链,除矩阵a 之外,还必 须引进初始概率矢量万= ( 蜀,乃,和) ,其中 乃= p ( q l = e ) 1 s i n ( 2 1 3 ) 显然有o 乃- 1 ,乃= 1 。此时由石和一共同描述一个完整的马尔可夫链。 一1 4 东北大学硕士学位论文第二章基于h m m 建模的语音识别系统 在前面m a r k o v 链的基础上,h m m 增加了参数来建立状态和观察值序列的关系, 它的定义由下列5 个特征参数描述: ( 1 ) n :隐马尔可夫模型中状态数目。记模型中的各个状态为6 ;,记t 时 刻所处状态为吼,研( 岛,民) ( 2 ) m :每个状态对应的可能的观察值数目。记m 个观察值为v p - - , ,记t 时 刻观察到的观察值为o ,d f ( v 1 ,) ( 3 ) 万:初始状态概率矢量,万= ( 巧,乃,h ) ,其中以= p ( 吼= 辞) ,l s f 茎 ( 4 ) a :状态转移概率矩阵,a 魄】,其中a , j = p ( 吼“= q ig f = 6 :) ,1 f ,_ , ( 5 ) b :观察值概率矩阵,b 2 【】,其中- - 1 ( o , = 唯ig ,= g ) ,1 _ ,1 七肘 这样可以记一个h m m 为:旯= ( ,m ,万,a ,b ) 由于和m 在模型中比较容易确定,并且不是模型研究的重点。彳、占和丌的取 值直接影响到语音识别系统的识别率,是决定模型的主要因素,所以h m m 也可以简记 为:, t - - ( a ,b ,石) 。 语音信号本身是一个可观察序列,但它是由大脑中( 不可观察序列) ,根据语言需 要和语法知识( 状态选择) 所发出的音素( 单词、句子) 参数流,所以可以用h m m 模 型来描述语音信号。从h m m 模型的定义可以看出,h m m 实际上是分为两个部分:一 部分是m a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论