![(电路与系统专业论文)基于HMM的非限定人口令式语音识别的浏览器[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/b4cc7fb3-0e22-46b1-bbfc-49c7d7f30cf9/b4cc7fb3-0e22-46b1-bbfc-49c7d7f30cf91.gif)
![(电路与系统专业论文)基于HMM的非限定人口令式语音识别的浏览器[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/b4cc7fb3-0e22-46b1-bbfc-49c7d7f30cf9/b4cc7fb3-0e22-46b1-bbfc-49c7d7f30cf92.gif)
![(电路与系统专业论文)基于HMM的非限定人口令式语音识别的浏览器[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/b4cc7fb3-0e22-46b1-bbfc-49c7d7f30cf9/b4cc7fb3-0e22-46b1-bbfc-49c7d7f30cf93.gif)
![(电路与系统专业论文)基于HMM的非限定人口令式语音识别的浏览器[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/b4cc7fb3-0e22-46b1-bbfc-49c7d7f30cf9/b4cc7fb3-0e22-46b1-bbfc-49c7d7f30cf94.gif)
![(电路与系统专业论文)基于HMM的非限定人口令式语音识别的浏览器[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/b4cc7fb3-0e22-46b1-bbfc-49c7d7f30cf9/b4cc7fb3-0e22-46b1-bbfc-49c7d7f30cf95.gif)
已阅读5页,还剩70页未读, 继续免费阅读
(电路与系统专业论文)基于HMM的非限定人口令式语音识别的浏览器[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 语音识别技术是信息技术中人机接口的关键技术,被誉为有可能引发人机界 面领域革命的关键技术。本文的目标是建立一个基于连续隐马尔可夫模型的非限 定人口令式语音识别的浏览器。即用户通过语音发送命令来操纵浏览器的行为。 论文对其中涉及的语音端点检测、基于连续隐马尔科夫模型的非限定人语音识别 中涉及的各种关键问题进行了深入的研究,最后讨论了语音识别内核的设计以及 和语音浏览器构件的问题。 语音端点检测的鲁棒性,对于构建实际语音识别系统具有重要的意义。谐波 成分是语音信号的一个基本特点,本文提出了一种基于谐波成分能量的端点检测 算法。通过s o b e l 算子计算窄带语谱图的方向场,通过g a b o r 滤波增强谐波区域, 通过门限方法得到二值化图,去除方向大于4 5 度和依赖度低的点,得到连续的 水平方向的带状分布,即谐波分布区域,提取谐波分布区域内的能量,以此作为 门限判决的特征。实验结果表明,在不同信噪比、多种非平稳噪声环境下都能够 达到较好的语音检出效果。其优点为,不需要噪声的先验知识,充分利用了语音 在频率域和时问域的相关性,适应于各种非平稳复杂噪声。 连续隐马尔可夫模型在口令式语音识别建模中的关键问题 讨论了采用连续因马尔科夫模型进行非限定人语音识别的原因。通过实验讨 论了,状念数和混合度等关键问题对识别率的影响等,选择了合适的c d h m m 作为我们的识别器内核的方向。 识别内核的软件设计和语音浏览器的构建,其中包括了识别内核具体设计思 路和方案,i e 浏览器操作对象i w e b b r o w s e r 2 对象的基本知识、接口以及获取这 个对象的具体方法。最后在此基础上构建了非限定人的基于口令语音识别的语音 浏览器系统。 关键词:语音识别鲁棒性连续隐马尔可夫模型语音端点检测浏览器口令式 a b s t r a c t a b s t r a c t a u t o m a t i cs p e e c hr e c o g n i t i o n ( a s r ) i st h ek e yt e c h n o l o g yo f h u m a n - c o m p u t e r i n t e r f a c ea m o n gi n f o r m a t i o nt e c h n o l o g ya n di sr e g a r d e da st h eo n ew h i c hc a l lt r i g g e r t h er e v o l u t i o ni nt h ef i e l do f h u m a n c o m p u t e ri n t e r f a c e t h i sp a p e r i st oc o n s t r u c ta s p e a k e r - i n d e p e n d e n ti n d i v i d u a la s re x p l o r e rb a s e do nc o n t i n u o u sd e n s i t yh i d d e n m a r k o vm o d e l ( c d h m m ) t h em a i nc o n t e n ta n dr e s u l t so fs t u d yi n v o i v e di nt h i s d i s s e r t a t i o na r ed i v i d e di n t of o u rp a r t s : t h er o b u s t n e s so fv a d ( v o i c ea c t i v i t yd e t e c t i o n li sc r u c i a lt ot h ec o n s t r u c t i o no f ap r a c t i c a la u t o m a t i cs p e e c hr e c o g n i t i o ns y s t e m t h i sp a p e rp r e s e n t san e wv a d a l g o r i t h mb a s e do nt h ee n e r g yo fc o n s o n a n c e ,w h i c hs e l v e sa sab a s i cf e a t u r eo f s p e e c h t h ec o n s o n a n c er e g i o ni sa t t a i n e dt h r o u g ht h ef o l l o w i n gs t a g e s :o r i e n t a t i o n e s t i m a t i o n ,c o n s o n a n c ee n h a n c e m e n t ,b i n a r i s a t i o na n dp o s t p r o c e s sv i as o b e lo p e r a t o r , g a b o rf i l t e r , t h r e s h o l dc l a s s i f i e ra n dp r i m i n gr e s p e c t i v e l y t h ep r u n i n gi sp e r f o r m e d m a i n l yt h r o u g hd i s c a r d i n gt h o s er e g i o n sw i t ho r i e n t a t i o ng r e a t e rt h a n4 5o rl o w d e p e n d e n c y t h ec o n s o n a n c ee n e r g y , s u mo ft h ec o n s o n a n c er e g i o n se n e r g y , i st h e n u s e da st h ef e a t u r eo ft h et h r e s h o l dd e c i s i o na r g u m e n to fv a d t h ee x p e r i m e n t a l r e s u l t ss h o w st h a t t h e p r o m o t e da l g o r i t h mh o l d s t h e f o l l o w i n ga d v a n t a g e s : i n d e p e n d e n to ft h ep r i o ri n f o r m a t i o n ,f u l l yu t i l i z i n gt h ec o r r e l a t i o no ff r e q u e n c ya n d t i m ed o m a i no f s p e e c h ,a c c u s t o m i z e dt ov a r i o u sc o m p l e xn o n - s t a b l en o i s e c r i t i c a lp r o b l e m so fc d h m mi ns p e a k e r - i n d e p e n d e n ta s ro fw o r dl e v e l 。t h e p a p e re x p l a i nw h yc d h m mi sa p p l i e dt os p e a k e r - i n d e p e n d e n ts p e e c hr e c o g n i t i o n t h ee x p e r i m e n t sa r ed e s i g n e dt od i s c u s st h ec h n i e eo fc d h m m t o p o l o g y , s t a t e n u m b e ra n dg a u s s i a nm i x t u r e ,a n dt h ee x p e r i m e n t a lr e s u l t ss h o w st h a tt h er e c o g n i z e r w i t h4s t a t e sa n d4m i x t u r e sc a nb r i n gh i 。g h e rp e r f o r m a n c ei nt h et e s t i n gc o r p u s s o f t w a r ed e s i g no fa s rk e r n e la n dc o n s t r u c t i o no fa s re x p l o r e r 1 i lt h i s s e g m e n t ,t h ed e t a i l e dd e s i g no ft h er e c o g n i z e rk e r n e li sg i v e nf i r s t a n dt h e nt h e b a c k g r o u n dk n o w l e d g e ,i n c l u d i n gt h ei n t e r f a c ea n dt h ea c q u i r e m e n tm e t h o d ,t o m a n i p u l a t e i ew i t hi w e b b r o w s e r 2 o b j e c t i s i n t r o d u c e d u l t i m a t e l y t h e s p e a k e r - i n d e p e n d e n ti n d i v i d u a la s re x p l o r e rb a s e do nc o n t i n u o u sd e n s i t yh i d d e n m a r k o vm o d e l ( c d h m m ) i sc o n s t r u c t e d k e yw o r d s :a s r ,e n d p o i n td e t e c t i o n ,m f c c ,r o b u s t n e s s ,i n t e r a c te x p | o r e r c d h m m 第l 章绪论 第1 章绪论 1 1 研究背景和意义 语音交流一直是也将会会是人类的社会联系和信息交流的主要方式。通过现 代通讯科技的发展,语音交流方式进一步得到极大的扩展,例如,人们可以通过 电话、电影、电视和互联网进行语音交流。随着信息科技的发展,人们也提出了 人机之问进行语音交流的迫切需求。 现代的计算机几乎都已经采用了图像用户接口( g u i ) 进行人机交互的方式, 以窗口、菜单、图标等元素体现出来。一方面,以键盘和鼠标作为输入设备,同 时以监视器把机器的反应反馈给用户,从而实现人机图像交互。但是,现代计算 机还缺少对昕、说、理解和学习的能力。如果基于语音的交互方式能达到成实用 的程度,那么采用了这种交互技术的家用设备、移动设备、办公环境等会大大改 变我们生活和工作。 语音交互技术不仅包括语音合成和语音识别两大方面,而且也包括语音理解 和机器学习等,这些技术的研究吸引了全世界的研究人员和工程师导入到这个领 域中。 语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或 命令的技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方 向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及 信号处理等诸多领域,甚至还涉及到入的体态语言( 如人在说话时的表情、手势 等行为动作可帮助对方理解) ,其最终目标是实现人与机器进行自然语言通信。 通俗的说,语音识别就是让机器能听懂人说话的语句或命令,而做出相应的 工作。这里的听懂有两种含义,第一种是将这种口述语言逐字逐词逐句地转换为 相应的文字;第二种则是对说的话中所包含的要求或询问做出正确的响应,而不 拘泥于转换为书面文字。 因为语音识别技术的复杂性,人们根据语音识别系统面对任务不同的方面进 行了分类。根据对说话人说话方式的要求,可以分为孤立字( 词) 语音识别系统, 连接字语音识别系统以及连续语音识别系统。 孤立词识别系统( i s o l a t ew o r d 第1 章绪论 r e c o g n i t i o ns y s t e m ) 是指输入的单词之间有停顿,因而实现起来相对简单。这是因 为单词的起始点和结束点的检测比较容易,而且单词之间的语调韵律等受上下文 的影响也相对减少。连续语音识别系统是指输入的是连续的句子,单词之间没 有停顿,因而对单词的之间的边界检测比较困难。单词之间由于上下文的联系, 发音,语调和韵律都受一定的影响。根据对说话人的依赖程度可以分为特定人和 非特定人语音识别系统。根据词汇量大小,可以分为小词汇量、中等词汇量、大 词汇量以及无限词汇量语音识别系统。小词汇量的识别系统主要用于语音控制系 统,例如电话拨号、命令控制等。同一个识别系统按照不同的关注点可以分成不 同的系统,例如一个系统可能是大词汇量的非限定入的孤立词语音识别系统。 1 2 语音识别研究概况 语音识别的研究工作大约开始于5 0 年代,当时a t & tb e l l 实验室实现了第 一个可识别十个英文数字的语音识别系统a u d r y 系统。6 0 年代,计算机的应 用推动了语音识别的发展。这时期的重要成果是提出了动态规划( d p ) t t l t 4 和线性 预测分析技术( l p ) 【4 】,其中后者较好地解决了语音信号产生模型的问题,对语音 识别的发展产生了深远影响。 7 0 年代,语音识别领域取得了突破。在理论上,l p 技术得到进一步发展, 动态时间归正技术( d t w ) 【1 1 基本成熟,特别是提出了矢量量化( v q ) 1 4 1 1 8 1 和隐马尔 可夫模型( h m m ) 1 1 1 1 2 1 1 4 理论。在实践上,实现了基于线性预测倒谱和d t w 技术 的特定人孤立语音识别系统。8 0 年代,语音识别研究进一步走向深入,其显著 特征是h m m 模型和人工神经元网络( a n n ) 嗣【删在语音识别中的成功应用。 h m m 模型的广泛应用应归功于a t & t b e l l 实验室科学家们的努力,他们把原本 艰涩的h m m 纯数学模型工程化,从而为更多研究者了解和认识。a n n 和h m m 模型建立的语音识别系统,性能相1 9 1 1 0 1 。进入9 0 年代,随着多媒体时代的来 临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩 国以及i b m 、a p p l e 、a t & t 、n t t 等著名公司,都为语音识别系统的实用化开 发研究投以巨资。 我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语 第1 章绪论 音识别的研究列入”8 6 3 ”计划,由中科院自动化所、声学所及北京大学等单位 研究开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美 国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到 相当高水平。且前语音识别研究的方向是生理学和自然语言处理与语音识别技术 的结合。因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品 的转化。科学技术推动了社会发展,满足人们的需求,社会需求也反过来推动科 学技术发展。多媒体时代的来临,迫切要求解决自动语音识别的难题,必然推动 语音识别理论和应用研究的进展。二十一世纪,语音识别技术将会在理论上和 应用上都取得突破性进展,我们将体会到语音识别带来的种种便利。 语音识别技术是信息技术中人机接口的关键技术,目前已经在语音电话本、 声动炫铃以及行业呼叫中心中有了广泛的应用,同时也在不断兴起诸如语音搜 索、语音控制等新的应用,被业界权威人士誉为有可能引发人机界面领域革命的 关键技术。 1 3 本文研究目标和内容 本文的研究目标是构建一个基于连续隐马尔可夫模型的非限定人口令式语 音识别的浏览器。即希望对用户发送的语音命令,通过识别系统识别出用户希望 浏览器执行的命令,最终希望替代键盘和鼠标操作通过这些语音命令来操纵浏览 器的行为。系统简要框图1 1 所示。 , 。”p t 7一 入 “”虮。# xj ” 一 一队 , 一 “ 。话音识别器 墼i 夕 。m i c r 硪浏览嚣。 塑攀 y j e “4 ”。二。 j 用户 、 , ? 。 ; 一t ,* 田1 1 语音浏览器框图 语音识别技术包含的范围非常广泛,而且各个方面都每一个方面取得进展的 研究都需要很大的精力和努力。本文之所以选择一个语音识别的一个比较成熟的 应用一语音识别浏览器,其目的出于如下几个方面的考虑: 。 1 、语音识别真正的应用还未大规模展开,但是针对于一些特定的领域,例 如:语音电话本,声动炫铃以及行业呼叫中心中有了广泛的应用。这些应用的一 3 第1 章绪论 个共同的特点都是基于对话形式的一种识别器和用户之间的交互,最终用户可以 在这个交互过程中得到用户需要的信息或者相应的服务。我们想构建的语音识别 器,本质上也是一个用户和识别器之问进行交互,最终由识别器完成用户所需的 服务。 2 、虽然语音识别语音浏览器是一个小规模的系统,但是它涉及到语音识别 技术的各个方面,其中包括的端点检测、前端预处理、鲁棒性特征提取、h m m 模型的训练、模型匹配算法、非限定人语音识别等方面,这些都是所有识别系统 都会面临的问题。这些问题的解决方法的研究同样具有重要的意义 3 、这个系统都是以用户的实际使用体验为最终的语音识剐的评判标准。这 个评判标准也是所有语音识别产品的最终评判标准。每一个语音识别产品都是为 了更加方便用户的使用、增加用户的价值。以这个标准作为出发,进行一些语音 识别技术的改进也是非常有意义的一件事情。 在这里,我们所说的浏览器是微软公司的i n t e r n e te x p l o r e r 6 o ( 下面我们都有 i e 这个缩写来表示) 。这个目标的实现面临两大类问题,一类是适合语音浏览器 命令的语音识别的系统的构建遇到的各种问题,另一类是操纵i e 的环境的建立 和与其交互的实现。 我们采用的是基于连续隐马尔可夫模型( c d h m m ) 的语音识别系统。口令 式语音识别通过训练对任务中可能会遇到的口令建立不同的h m m ,在识别过程 中通过把输入语音和各个h m m 进行模式匹配得到不同的得分,选择得分最大的 h m m 对应的口令就是这个语音的识别结果。把识别结果映射到相对应的命 令和这个命令需要的参数( 如果需要的话) ,通过这两个信息操纵浏览器作出相 应的行为。 这个系统的内容包括语音数据的录音、语音的端点检测、分帧和稳健性特征 提取、构建识别器、识别结果到i e 命令的映射,以及i n t e m e te x p l o r e r 的操作。 也包括h m m 的训练过程。图1 2 是一个典型的口令字语音识别系统示意图。 4 第1 章绪论 商 旷_ j l l 伊锄 识别结果 围1 2 口令式语音识别系统 本文的研究内容主要包括下面几个方面: l 、第二章主要介绍了菲平稳噪声环境下基于谐波能量的语音端点检 测。语音端点检测的鲁棒性,对于构建实际语音识别系统具有重要 的意义。谐波成分是语音信号的一个基本特点,本文提出了一种基 于谐波成分能量的端点检测算法。采用s o b e l 算子计算窄带语谱图的 方向场,通过o a b o r 滤波增强谐波区域,用门限方法获得二值化图, 并去除方向大于4 5 度和依赖度低的点,锝到连续的水平方向的带状 分布,即谐波分布区域,从中提取谐波分布区域内的能量,以此作 为门限判决的特征实验结果表明,在不同信噪比、多种非平稳噪 声环境下都能够达到较好的语音检出效果。其优点为,不需要噪声 的先验知识,充分利用了语音在频率域和时间域的相关性,适应于 各种非平稳复杂噪声。 2 、第三章介绍了 伍c c 特征参数。着重介绍了m f c c 参数及其动态参 数的提取方法,并实验比较了l p c c 和m f c c 参数的性能,以及不 同维度的m f c c 的性能和动态m f c c 的性能。 3 、 第四章介绍了h m m 的基本原理,在此基础上通过实验,讨论了 c d h m m 的拓扑结构。状态数和混会度等关键问题对识剔率的影响 第l 章绪论 等,选择了我们合适的c d h m m 作为我们的识别器内核的方向 第五章介绍了语音浏览器的构建,其中包括了识别内核具体设计思 路和方案,i e 浏览器操作对象l w e b b r o w s e r 2 对象的基本知识、接 口以及获取这个对象的具体方法。最后在此基础上构建了非限定人 的基于口令语音识别的语音浏览器系统。 6 第2 章基于共振峰谐波能量的语音端点检测 第2 章基于共振峰谐波能量的语音端点检测 2 1 语音端点检测的简介 语音端点检测的目的就是从麦克风采集用户说话的声音数据中找出语音的 起始点和终点,前后端点之间的语音数据作为特征提取模块的输入数据。简单的 说语音端点检测的功能就是区分发音段和不发音段。 语音端点检测在语音识别系统中有重要的作用。如果语音没有检测出来,会 使识别的删除错误增加,丢失重要的信息;而不发音段被判为语音不仅会增加识 别器的搜索负担,还会增加识别的插入错误,极大地降低系统的整体性能。许多 噪声中的语音识别算法需要估计噪声的频谱特性,如谱减法和并行模型混合算法 等。噪声的频谱特性需要用检测出的噪声段来估计。计算量对于小的移动设备尤 其重要。因为对h m m 模型匹配需要很大的计算量,语音端点检测可以滤除不必 要不发声段。从以上的分析可以看出,精确、可靠的语音端点检测算法是语音识 别系统所必需的。 语音端点检测算法有两种主要方法:基于门限的语音端点检测算法和基于模 型分类的语音端点检测算法两类。基于模型分类的语音端点检测算法主要是提取 一个或者多个特征,通过超平面分隔特征空间,或者建立语音和背景噪声的模型, 根据最大后验概率分类器、神经网或者模糊规则进行语音判决。从总体上说基于 多特征的方法比基于单特征的方法更合理的利用信息,检测性能更好。但是这种 算法需要离线训练语音和背景噪声的模型,因此比较适合特定的声学环境。如果 训练的声学环境和识别的声学环境不匹配,就会造成检测性能的极大下降。 从分析来看,特征值和门限比较的方法可以适用于不同环境下的语音端点检 测,更满足稳健性的要求。因此本论文主要集中讨论基于门限的语音端点检测算 法,在此基础上提出一种鲁棒性特征共振峰谐波能量的特征并且构建了相应的端 点检测系统。 第2 章基于共振峰谐波能量的语音端点检测 2 2 基于门限的语音端点检测算法 基于门限的语音端点检测算法逐帧提取语音端点检测特征,然后把特征的数 值和门限进行比较,最后将得到帧判决结果。时域对数能量是最常用的一种特征, 因为在高信噪比的环境下语音的能量高于背景噪声的能量。如果某帧的时域对数 能量丈于门限,那么就认为检测到了语音。图2 1 是基于时域短时能量和一个 门限的语音端点检测算法原理图,其中a ) 是语音信号的波形,b ) 是时域短时能量, c ) 是逐帧比较的检测结果。从图2 1 可以看出,基于门限比较方法的语音端点检 测中最重要的问题就是稳健的特征提取和稳健的门限估计算法。 魅 埘避 篓 c ,爨 奎 ;e 望兰圭三差 b 二 。口 图2 1 基于门限的语音端点检测算法的原理围 2 3 用于端点检测的特征参数 特征的选择决定了端点检测的正确性,因此特征的选择十分重要,下面我们 介绍一些现在广泛使用的特征: 1 时域短时能量和过零率特钳1 1 l 【1 2 】【1 3 1 。它们是最常端点检测特征。浊音和 清音的时域能量要高于无声段,时域能量可以用于确定浊音。清音的过零率要高 8 第2 章基于共振峰谐波能量的语音端点检测 于浊音和无声段,过零率可以用于确定清音。检测的方法是当一帧语音的能量超 过能量门限的时候,就往前根据过零率确定语音的起始点。同样的方法确定语音 的终点。 2 归一化一阶自相关系数特,征【1 4 1 ,它描述了相邻的语音采样点之间的相关 性。因为元音的能量主要集中在低频段,所以相邻点之间的相关性很大,归一化 一阶自相关系数对元音会趋向于1 ,而对于清音和某些噪声,则会比较小 3 归一化一阶自相关函数在基音周期范围内的峰值【1 町,语音的归一化一阶 自相关函数在基音对应的位置有明显的峰值,而对于无声段和辅音则没有这种特 性。所以这个参数可以用于语音端点检测。 4 线性预测系数( l p c - - l i n e a rp r e d i c t i o nc o e f f i c i e n t ) 和线性预测误差能量 ( l p e e l i n e a rp r e d i c t i o ne r r o re n e r g y ) 0 4 1 1 5 lf 1 6 m 。因为浊音,清音和无声段的 频谱分布不同,而l p c 系数和l p e e 系数一定程度的描述了频谱的信息。比如 l p c 的第一个系数,相当于信号倒谱的单位时延的值。l p e e 参数描述了频谱的 不一致性,是频谱的几何平均和算术平均的比值。语音的l p e e 要小于无声段。 以上的特征是干净环境下语音端点检测算法所使用的,这些特征从各个不同 的方面描述了语音。但是,这些特征在噪声环境下的稳健性却不够好【1 9 1 1 2 0 1 。基 于能量和过零率的方法在大于2 0 d b 的高信噪比下的性能很好,能够准确的确定 语音段。但是在噪声环境下,即使很复杂的规则也不能够取得很好的语音端点检 测结果。 下面本文提出以共振峰谐波能量作为特征的语音端点检测方法。共振峰谐波 结构是人类发音的一个基本规律,这个结构在复杂环境下都能表现出很稳定的特 性,但是提取这个特征存在着一定的困难性。本文就是在认真研究语音的窄带语 谱图三这个结构,通过g a b o r 滤波方法很好的解决了提取共振峰谐波能量提取的 问题。 2 4 基于共振峰谐波能量的语音端点检测 2 4 1 为什么引入共振峰谐波能量作为特征 语音识别系统通常工作在不同的噪声环境下,例如现在的车载系统会面临公 9 第2 章基于共振峰谐波能量的语音端点检测 路上复杂的噪声环境,我们的语音浏览器也会工作在网吧、办公室等等复杂环境 下。因此,无论是从语音识别系统本身的应用性要求,还是本文构建的语音浏览 器的应用要求来说,都需要构建一个鲁棒性的语音端点检测系统。那么,语音端 点系统需要有什么样的要求呢? 在构建实际的语音识别系统的过程中,语音端点检测算法在语音识别系统的 使用过程中具有非常重要的作用。语音识别系统中采用的端点检测应当适应种种 不利的情况,在实际应用中达到良好的性能。一个优秀的语音点测算法应该有下 面两个性能要求: 1 、对突发的高能量的持续一段时间的噪声具有很好的拒绝率。 在一个语音识别系统的真实的使用环境下,经常出现一些突发性的高能量噪 声,例如:咳嗽声、喘气声、咂舌声、关门声等等。如果一个语音端点检测器不 能很好的拒绝这些噪声的干扰,那么使用者和识别器之间的识别交互过程会经常 被非正常的打断、这样会大大降低用户的体验感。用户的对一个识别系统的满意 感和信任感是任何语音识别系统最终的评判标准。一个优秀的语音识剐系统内在 地要求语音端点检测算法具有能够拒绝突发的高能量的噪声的性能。 2 、对各种噪声背景下的语音端点检测都表现出优秀的性能的。 语音识别系统不仅仅工作在实验室环境下,更多地会在不同的噪声背景下工 作,这里面包含了两层意思:第一,噪声具有不同的种类,例如:食堂、公路上、 会议室、办公室、家庭环境下等等:第二,信噪比是不断交化的。一个典型的场 景是,一个人在马路上通过电话和公司的语音电话本系统进行交互,这个识别过 程的背景噪声信噪比也会随着身边的汽车的不断通过而不断变化。一个优秀的语 音端点检测算法也内在地要求能在不同噪声种类、不同信噪比环境下,正确地检 测出语音。 本章的目的就是寻找一种能够在上面两个性能上表现都很优秀的特征,采用 门限方法构建一个语音端点检测器,使之能满足语音识别系统的实际使用中的需 求。 人类声音的浊音段有稳定共振峰。共振峰信息是一个区分语音和噪声的明显 的特征,表现在下面两个方面: l 、对语音和高能量突发性噪声,共振峰都有明显的区分性 l o 第2 章基于共振峰谐波能量的语音端点检铡 2 、对不同种类的噪声、不同信噪比噪声背景下的语音都有明显的共振峰 清声段的共振峰表现不明显,对于清声段的语音端点检测,采用共振峰谐波 能量作为特征的语音端点检测算法就表现的无能为力了但是,基于汉语普通话 的发音特征,汉语的发音一般都是双音节发音,清声段的发音时问短、能量低。 现在采用的一般方法是,通过相邻距离不超过最大语音句问停顿( 例如4 0 0 m s ) 的语音段进行平滑( s m o o t h i n g ) 处理之后,在浊音段的前端点之前加一定的长度的 声音( m a r g i n ) ,例如4 0 m s ,作为最后送入识别器的语音数据。现在优秀的语音 识别器的识别网络地头尾都会加有噪声吸收模型( f i l l e rm o d e l ) ,噪声吸收模型 能够吸收前面的背景噪声,从而保留了清声数据。 本文提出了一种基于图像增强算法提取共振峰区域,从而得到共振峰谐波能 量的方法。这种提取共振峰区域的方法具有稳定性高、适应环境噪声变化的优秀 特征。实验结果表明,本文提出的基于共振峰谐波能量的端点检测算法不但在低 信噪比环境下有比较好的性能,而且对各种高能量的偶然性噪声有很好的拒绝 率。 2 4 2 声音的语谱图、共振峰和谐波 语音信号随时间变化的谱特性可以利用语图仪用图形显示,也称为语谱图。 其实语谱图是能量密度谱函数p n ( w ) ( 或功率谱函数) 的图形表示方法。能量密度 谱函数p n ( w ) 是二维的非负实值函数。用时间n 作为横坐标,频率w 做为纵坐标, 将p n ( w ) 的值作为灰度级所构成的二维图像就是语谱图( s p e c t r o g r a p h ) 这种反 映语音信号动态频谱特性的时频图在语音分析中有重要的实用价值,被称为可视 语言。语谱图可以对语音信号进行短时傅立叶变换得到。在语音分析中有两种语 谱图,一种是窄带语谱图,另一种是宽带语谱图。前者用于获得高的频率分辨率。 后者用于获得高的时间分辨率。 音节是说话时的自然发音单位,可以从听觉上把它们区分音节可以分为清 音和浊音,清音在发音时声带不振动,类似于宽带噪声源的输出气流高速冲过某 处收缩的声道而产生湍流得到的音;当气流通过声门时使声带发生震动产生准周 期脉冲,这些空气脉冲激励声道而得到的音就是浊音。 汉语的一个音节可以分为辅音和元音,元音一类的浊音是声带的准周期振 第2 章基于共振峰谐波能量的语音端点检测 动,经声道共鸣调制,由口鼻辐射出来,元音携带大部分能量。辅音一般都比原 音短促,且能量又小,发音时声道变化剧烈。汉语的一个字的发音一般是由清声 + 浊声,或者单独由浊声构成。 浊声在语谱图上有明显的特征: 1 、浊声在窄带语谱图上的特征 窄带语谱图有较高的频率分辨率,我们可以从浊声的窄带语谱图上看出一条 条清晰的谐波结构,但是共振峰结构并不明显。 2 、浊声在宽带语谱图上的特征 宽带语谱图有较高的时间分辨率,你可以从浊音的语谱图上看到声带的每一 个振动的能量峰值,功率谱的谐波结构在频率方向被平滑掉了,使得各个共振峰 各自连成一片而显得更突出。特别是时间分辨率高,可以清楚地看到浊音共振峰 的时变过程。 图2 2 元音i “e i a “o u 在宽带语谱图和窄带语谱图上面的表现 因此如果能够提取共振峰谐波能量作为语音端点检测的特征,应该能够很优 秀的检测出浊音端语音。同时利用汉语清声发音短促和语音识别器构建的噪声吸 收模型( f i l l e r m o d e l ) ,通过引言中描述的在浊音前端点之前加一定时间的声音, 也能很好的解决清声端点的判断问题。 1 2 第2 章基于共振峰谐波能量的语音端点检铡 2 。4 3 共振峰谐波能量 上一节讨论了干净环境下浊音语音的语谱图的特征,那么不同的声音和在背 景噪声下的语音会表现出来什么特点呢? 从下面图2 3 可以看出,不同的声音 在语谱图上面都有明显的特征,特征表2 1 所示( 以窄带语谱图为例) : 表格2 1 各种声考在语谱图上髀特征( 能量越高,亮度越大) 语音分类语谱图上的特征 咳嗽声、喘气声亮度比较大,没有条纹,说明能量较大,没有 明显的谐波成分 单频声音、有几条( 一个或二个) 明亮的条纹,说明能量 d t m f比较大,而且只集中在若干个单频谐波成分上 高s n r 语音整体比较明亮、但是有若干条有一定波动的明 显的谐波成分 低s n r 语音整体比较暗,有若干条有一定波动的明显的谐 波成分 从上面的分析,如果我们能够提取各个谐波的分布,从而得到谐波能量,把 所有谐波能量相加,得到共振峰谐波能量,那么这个能量也应该具有区分高能量 噪声和语音、能在低信噪比的环境下检测出语音的能力。 圈2 3 声音波形和窄带语谱图 从左到右分别是:咳嗽声、喘气声、单频声音、d t m f ,伽b 白噪声下的一段语音、高能量 第2 章基于共振峰谐波能量的语音端点检测 干净语罾,援熊量于净语詈 提出的特征如下: 共振峰谐波能量= 在频谱域内的谐波成分的能量的总和( 排除没有明显变 化的条纹,对应多频调制的声音的频带) 我们提出了一种提取共振峰谐波能量的方法,有如下几个步骤。提取各帧语 音在谱能量函数( 通过f f t ) 、提取各个谐波成分在时频空间的分布提取各个 谐波成分的能量、提取各个谐波能量的总和,即共振峰峰谐波能量、对共振峰谐 波能量采用门限端点检测算法,然后在前后端点加一定长度的声音,得到检测出 来的语音信号。 系统框图图2 4 所示。 圉圉圈 蕊 敢n 限端点橙蔫、平j 糟、前后语音端点加 1 小段语音m 咖) 团2 4 共振峰谐波能量端点检测系统框田 2 4 4 谐波成分在时频空间分布区域的提取 我们这里采用窄带语谱图,原因是:宽带语谱图对各个谐波成分进行了平滑。 虽然体现了声带的振动特性,但是存在一定的模糊性,对于高能量噪声和语音的 区分和低信噪比环境下语音的区分性都不是很明显;窄带语谱图具有这种优势。 普通的方法( 例如门限方法) 提取语谱图上的谐波成分的分布区域承载着很 多困难。困难主要有:各个谐波成分的能量是变化着的,各个谐波成分的能量差 别很大、背景噪声也改变各个谐波成分的能量、对于电话语音中的d t m f 这样 单频语音的拒绝困难大。所以,门限方法提取共振峰分布区域非常困难,而且鲁 捧性低。但是人类的眼睛却可以非常清晰地观察出各个谐波成分的分布,这是因 为谐波成分的分布更多的是通过和背景进行比较得到,真正的谐波成分的能量只 有相对而言才具有意义。 我们现在就要寻找一种能够适应环境嗓声变化、语音声音大,j 、变化的谐波成 1 4 第2 章基于共振峰谐波能量的语音端点检测 分分布区域的提取方法。我们现在提出了一种图象增强算法,对语谱图进行图象 增强,然后进行二值化进行提取谐波成分分布区域的方法。 下面介绍提取窄带语谱图的谐波成分的分布区域的图像增强算法。本方法是 在改进了h o n gc t a l 1 2 2 的方法的基础上提出来的。他的方法主要有规整图像、方 向场估计、脊线频率估计和g - a b o r 滤波。在此基础上我们又增加了分割和二值化 过程。下面论述一下这个过程的原理和方法。我们通过一个实际例子来说明这个 过程,图2 5 是我们要处理的一段语音数据。 l 、分割( s e g m e n t a t i o n ) 主要是分割前景( f o r e g r o u n d ) 和背景( b a c k g r o u n d ) ,前景包含谐波分布, 背景不包含谐波分布。方法是,先分割成小块,通过求取块内方差,去除小于域 值的小块达到分割的目的。 对于大小为w w 的小块的方差为: v 2 吉( 砸,) 一m ( 七”2 其中肘( 七) 为小块的均值。 2 、规整图像( n o r m a l i s a t i o n ) 把语谱图规整到同一方差和均值的图像,通过下面公式进行转换: w 沏:卜譬兰川p m 卜卢等型s e 其中m 和矿是均值和方差的估计, 厶和r o 是希望转换成的均值和方差。规 第2 章基于共振峰谐波能量的语音端点检测 整后的语谱图如图2 6 所示。 b ) 求取分别沿x ,y 轴方向的梯度a 。( f ,d 和a ,( f ,) ,分别对应的s o b e l m 训 吒( i ,j ) = 2 0 。秘,啪,( 致力 u 耐- w 1 2 忸j w 1 2 i + w 2j + w 1 2 v y ( i ,j ) = 2 a : ,v ) 2 a 沁v ) = 扣鬻 其中,o ( i ) 是中心点位于像素点( f ,j ) 的小块的本地方向( 1 0 c a lo r i e n t a t i o n ) 最小平方估计。 通过高斯滤波器平滑本地邻域的方向场得到最后的方向场。 首先把方向场转化为响应的矢量场: o 。( f ,) = e o s ( 2 0 ( i , j ) ) 第2 章基于共振峰谐波能量的语音端点检测 o ,( f ,) = s i n ( 2 9 ( i ,) ) 其中,( f ,) 、o 。( f ,) 分别是矢量场的x 轴、y 轴的分量 然后通过下面的公式进行高斯平滑 m :( f ,力= 艺g ( “,v ) ,( i - u w , j v w ) 札2 - 日2 m j ( f ,) = z g ( u , v ) o ,( f u w , j v w ) 这里,g ( u ,v ) 是大小为的高斯低通滤波器。 最后得到最后的方向场: d 毛劬- t 端 图2 7 方向场 1 7 ( 8 ) 第2 章基于共振峰谐波能量的语音端点检测 “ 图2 8 依赖度 4 、脊线频率估计( r i d g ef r e q u e n c ye s t i m a t i o n ) 脊线频率就是在一个像素点g 力附近,最小值之间距离的倒数,即: f ( i ,j ) = 丽1 其中s ( i ,j ) 是在沿着方向场方向的两个最小点的距离。 圈2 9 脊线频军估计 5 、g a b o r 滤波( g a b o rf i l t e r i n g ) 通过第3 步得到的方向场和第4 步得到脊线频率,我们就可以构建偶对称的 g a b o r 滤波器。二维g a b o r 滤波器是一个带有特定方向和频率、被高斯表面调制 的正弦平面波埘。选择g a b o r 滤波器是因为其有频率选择和方向选择的性质。因 此,利用调整好的g a b o r 滤波器能够在语谱图的谐波成分的脊线上得到最到的响 应,因此进行g a b o r 滤波后能很好的增强代表谐波成分的脊线附近区域,这也正 是我们需要的结果。 偶对称的g a b o r 滤波器是g a b o r 函数的实部,表现为被高斯表面调制后的余 弦波,如图2 1 0 所示。 图2 1 0 在空间域上偶对称的c 妇b o r 污渡器 用数学定义为i 矧 g c x ,y ;9 ,。= e x 七圭 毒+ 萼n c o s c :习, 而= x c o s o + y s i n o = - x s i n o + y c o s o 其中,p 为g a b o r 滤波器的方向,厂是余弦波的频率,最和是高斯表面 沿着x 轴,y 轴的标准差,南和分别定义了滤波器坐标的x ,y 轴 o a b o r 滤波过程通过g a b o r 滤波器和图像进行空间卷积得到,得到增强后的 语谱图。 m 。1 2口p z e ( i ,) = 艺g ( ”,v ;, o f f ,n f ( i ,- ,”( j 咄,一力 五( ,) 就是增强之后的语谱图,其中o ( i ,d 为第3 步得到的方向场,f ( i ;j 3 为第4 步得到空间频率场, ,( f ,) 为第二步得到规整后的语谱图,吐、哆分别 是g a b o r 滤波器的长和宽。 其中,正和玩分别由下面公式得到: 正= k ,f ( i ,力 第2 章基于共振峰谐波能量的语音端点检测 瓯= k y f ( i , j ) 得到,其中t 和k 是常量。 吐、国。分别由下面公式求得: 0 x = 6 6 | y = 6 6p 这样,就得到了图像增强后语谱图,如图2 1 1 所示。 圈2 1 1 增强后的谱田 6 、二值化过程( b i n a r i s a t i o n ) 为了提取语谱图的谐波成分分布区域,我们需要得到对语谱图的处理后的二 值化后的图像,用0 、l 表示,0 表示背景、l 表示谐波成分分布区域。g a b o r 滤 波器的一个性质是其直流成分为0 ,如果一个像素点的值大于o ,则设置为1 , 否则设置为0 。 2 0 第2 章基于共振峰谐波能量的语音端点捡铡 里2 1 2 二值化后的语谱图 7 、对得到的二值图像进行后处理,得到谐波分布区域 去掉方向场中方向距离水平方向大于4 5 度和依赖度低的点,得到连续的水 平方向的带状分布,这就是我们所说的谐波成分的分布区域,如图2 1 3 所示。 围2 1 3 后处理后的二值谱田 我们也可以对这些谐波分布进行后处理,例如通过判断单个谐波分布的变 化,去除单一频率的谐波。通过这个方法可以去除电话中的d t m f 。 8 、计算共振峰谐波能量参数 通过上面的过程的处理,我们就得到了声音的谐波成分的分布区域。提取这 些区域内的能量总和,得到共振峰谐波能量参数。 2 4 5 基于共振峰谐波能量参数的语音端点检测系统 以共振峰谐波能量参数作为特征,通过门限端点
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年下半年四川省泸州市经济和信息化委员会招聘易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年四川汶川县选调机关事业单位工作人员35人重点基础提升(共500题)附带答案详解
- 广东省六校联考2026届高三上学期第二次联考政治试卷(原卷)试题(含答案)
- 铸管工岗前技术水平考核试卷含答案
- 考点攻克人教版八年级物理《浮力》专项训练试卷(附答案详解)
- 公司乙醛装置操作工岗位职业健康技术规程
- 重难点解析人教版八年级上册物理《机械运动》单元测评练习题(含答案详解)
- 滴滴上岗前安全知识培训课件
- 考点攻克人教版八年级《简单机械》达标测试试题(含解析)
- 滚滚长江课件
- 留置导尿考试试题及答案
- 2025-2030铌行业市场现状供需分析及投资评估规划分析研究报告
- 电梯免保协议书
- 老旧小区基础设施环境改造工程施工组织设计
- 卵巢透明细胞癌临床诊治指南(2024年版)解读课件
- 《呼吸道梗阻的急救处理》课件
- 商业建筑设计手册
- 配电柜接线外包合同协议
- 物控管理制度
- 牛津深圳版小学英语三年级上册单元测试卷(含听力材料及答案)全册
- 专题04议论开头结尾及衔接的技巧(课件)中考议论文写作指导
评论
0/150
提交评论