(计算机应用技术专业论文)非特定人连续数字语音识别研究.pdf_第1页
(计算机应用技术专业论文)非特定人连续数字语音识别研究.pdf_第2页
(计算机应用技术专业论文)非特定人连续数字语音识别研究.pdf_第3页
(计算机应用技术专业论文)非特定人连续数字语音识别研究.pdf_第4页
(计算机应用技术专业论文)非特定人连续数字语音识别研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 语音识别研究的理论研究已经非常成熟,达到了很高的识别效果。我国语音识别研 究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。然而, 由于将语音识别应用于实际时,存在背景噪音、方言口音、口语等多方面的影响,一直 没有在实际中取得广泛应用。尤其对于嵌入式应用场合,面临着非常复杂的环境,更要 解决这些影响。使语音识别系统能应用于实际使用环境。 由于论文在语音识别方面的研究刚刚起步,且大词汇量语音识别系统需要建立词典 涉及到很多语言学知识,并且需要大型语音库,因此论文主要研究了非特定人数字串语 音识别系统,内容包括自适应端点检测门限研究,m e l 倒谱系数( m f c c ) 各维系数对识 别结果的贡献,持续时间状态模型的参数选取,以及隐马尔可夫( h m m ) 状态数选取, 训练集大小选取等问题。 端点检测方面,在分析了经典双门限检测方法后,认为经典方法中,高门限取值为 多帧语音数据能量平均值乘以固定系数a ( a = 1 ) 在信噪比改变的情况下是不合理的,需要 在实际应用之前,对系统进行自适应,通过逐步逼近的方法取得合适的系数a ,再进行 识别。实验证明,对系统进行自适应后,大大提高了系统的信噪比应用范围。 m f c c 系数是语音识别领域一个非常有效的声学特征,传统实验认为,由于前两维 系数反应的是幅度值,对识别结果有负效果,应该丢弃m f c c 的第一维和第二维。然而, 经过实验后发现。虽然这两维系数对区分数字贡献不大,但是可以用来区分语音和背景 噪音,可以应用在端点检测阶段,不应该简单丢弃。 最后,论文还对持续时间状态模型的参数选取,h m m 状态数和训练集大小进行了 实验,结果表明持续时间的均值为2 2 0 n :l s ,方差为6 0 m s ,h m m 状态数为5 ,训练集大 小为3 0 是比较合理的。 关键词:语音识另4 ;端点检测;自适应;美尔倒谱系数( m f c c ) 大连理工大学硕士学位论文 r e s e a r c ho fs p e a k e r - i n d e p e n d e n tc o n t i n u o u sc h i n e s ed i g i ts t r i n g s p e e c hr e c o g n i t i o n a b s t r a c t s p e e c hr e c o g n i t i o nh a sa c h i e v e dh i g hp e r f o r m a n c ei nl a b o u rn a t i o n sr e s e a r c ho n s p e e c hr e c o g n i t i o ns t a r t e di n1 9 5 0 sa n di sd e v e l o p i n gr a p i d l yi nr e c e n ty e a r sa n di sb e g i n n i n g t oa p p l yi np r a c t i c a ls y s t e m s h o w e v e r , i np r a c t i c a lu s e ,d u et ot h ee x i s t e n c eo fb a c k g r o u n d n o i s e ,d i a l e c ta n dt o n g u e , s p e e c hr e c o g n i t i o ns y s t e m sa r en o tu s e dv e r yw i d e l y e s p e c i a l l yf o r t h ec a s co f e m b e d d e ds y s t e m sw h i c ha r eu s e di nc o m p l e xe n v i r o n m e n t ,i ti sm o r ei m p o r t a n tt o s o l v et h e s ep r o b l e m s s i n c et h er e s e a r c ho ns p e e c hr e c o g n i t i o no f t h el a bh a s j u s ts t a r t e d ,t h ef o u n d a t i o no f l a r g e v o c a b u l a r ys p e e c hr e c o g n i t i o ns y s t e mn e e dt o c r e a t ed i c t i o n a r yw h i c hr e q u i r e sal o to f l i n g u i s t i ck n o w l e d g ea n da l s o n e e dab i gs p e e c hd a t a b a s e , t h ep a p e rm a i n l ys t u d i e s s p e a k e r - i n d e p e n d e n tc o n t i n u o u sc h i n e s ed i g i ts t r i n g ss p e e c hr e c o g n i t i o n ,i n c l u d i n gr e s e a r c h o na d a p t i v ee n d p o i n td e t e c t i o n , c o n t r i b u t i o no fm e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t ( m f c c ) c o m p o n e n t st or e c o g n i t i o nr a t e ,c h o i c eo f n u m b e r so f h m m s t a t u sa n ds i z eo f t r a i ns e t a f t e rs t u d yo nt r a d i t i o n a le n d r o i n td e t e c t i o n f i n dt h a th y p o t h e s i so fu s i n gaf i x e d c o e f f i c i e n ta ( 口= 1 ) i sn o ts u i t a b l ew h e nt h es i g n a ln o i s er a t i o ( s n r ) c h a n g e s i ti sn e c e s s a r y t oa d da d a p t a t i o np r o c e s sw h e nt h es y s t e mb e g i n st ow o r ku s i n gs t e pt os t e pa p p r o a c h i n g m e t h o d t h er e s u l to f e x p e r i m e n ts h o w st h a ta f t e ra d a p t a t i o n ,t h es y s t e mc a na p p l y i nl o w e r s n re n v i r o n m e n t m f c ci sa l le f f e c t i v ef e a t u r ei ns p e e c hr e c o g n i t i o n i nt r a d i t i o n a lu s e ,s i n c et h ef i r s tt w o c o m p o n e n t so fm f c cr e f l e c tt h ea m p l i t u d eo fw a v e f o r m sa n da r en e g a t i v ef o rt h er e s u l to f r e c o g n i t i o n ,t h e s et w oc o m p o n e n t sa r ea b a n d o n e d h o w e v e r , a f t e re x p e r i m e n t s ,i ti sf o u n d t h a ta l t h o u g ht h e s et w oc o m p o n e n t sd ol i t t l ec o n t r i b u t i o nt od i s t i n g u i s hb e t w e e nd i g i t s t h e y a r eu s e f u li nd i s t i n g u i s h i n gb e t w e e ns p e e c ha n dn o i s e s o ,t h e s ec o m p o n e n t sc a l lb eu s e di n t h es t a g eo f e n d p o i n td e t e c t i o n e x p e r i m e n t sa r ea l s od o n ei nt h ec h o i c eo fh i d d e nm a r k o vm o d e l ( h m m ) s t a t u sn u m b e r a n ds i z eo f t r a i ns e ta n di ti sf o u n dt h a ti ti sr e a s o n a b l et os e tt h en u m b e ro f h n s t a t u st ob e 5a n dt h es i z eo f t r a i ns e tt ob e3 0 k e yw o r d s :s p e e c hr e c o g n i t i o n :e n d p o i n td e t e c t i o n ;a d a p t i v e ;m e lf r e q u e n c yc e p s t r u m c o e f f i c i e n t ( m f c c ) - i i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:望垂日期:2 监幽盟旦 人迕理一大学硕士训f 究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 鎏 名 名 签 签 者 师 怍 导 大连理工大学硕士学位论文 1绪论 1 1背景目的和意义 在计算机技术快速的今天,计算机已经进入了人们生活的方方面面,对人们的生活 产生了深远的影响。虽然目i ; 有键盘,鼠标,手写板,触摸屏等各种人机交流界面,但 是人跟电脑的交流仍然以键盘和鼠标为主。与人类习惯的语音交流,肢体语言交流相比, 交流还主要是人在适应机器的要求,而不是机器为人服务。同时,在一些嵌入式应用的 场合,有可能人们的双手无法行动,比如在驾驶时,双手正在忙于驾驶,这时,键盘鼠 标这种输入就表现出了其局限性。几十年来,人们一直在努力设计更加友好的人机界面, 如人脸识别,语音识别,期待某一天人与电脑的交流就跟人与人之间的交流一样自然。 其中,语音识别是这项工作的重要一环,并取得了长足的进展。 语音识别系统的分类有三种依据:词汇量大小,对说话人说话方式的要求( 分为孤 立词语音识别和连续语音识别) 和对说话人的依赖程度( 分为特定人和非特定人语音识 别系统) 。在这三个问题的解决上,已经取得了非常满意的效果。例如,微软称嵌入到 o f f i c e 软件中的听写系统能在标准北京口音输入的情况下,首次识别率达到9 3 ,调试 之后达到9 6 ,并且新的技术j 下在使识别率不断上升。 技术的价值在于它服务于应用。虽然在实验室拥有如此高的识别率,在语音识别技 术从各个不同的突破口进行应用和产业化的过程中,“新三难”凸现出来,成为研究重 点。 ( 1 ) 首先,方言或口音会降低语音识别率,而对于拥有八大方言区的中文来说,应 用的难度会更大。 ( 2 ) “新三难”问题之二是背景噪音。人多的公共场所巨大的噪音对语音识别影响 自不用说,就算在实验室环境下,敲击键盘、挪动麦克风都会成为背景噪音。它将破坏 原始语音的频谱,或者把原始语音部分或全部掩盖掉,造成识别率下降。实际应用中, 噪音是无法避免的。研究将要解决的问题就是如何把原始语音从背景噪音中分离出来, 这将会使识别系统具有很强的适应性。同时,由于l o m b a r d 效应的存在,也就是说,在 噪音存在的情况下,说话的语速,强度和音调都会发生改变,进一步降低了识别率。 ( 3 ) 三个就是“口语”的问题。它既涉及到自然语言理解,又与声学有关。语音识 别技术的最终目的是要让用户在“人机对话”的时候,能够像进行“人人对话”一样自 然。而一旦用户以跟人交谈的方式来进行语音输入时,口语的语法不规范和语序不正常 的特点会给语义的分析和理解带来困难。另外,当人们在口语交流时,即便是人的大脑 非特定人连续数字语音识别研究 分析认为是非常标准的发音,在语音识别的时候上却由于从声学的角度上来讲差别很 大,因此随意发音带来的问题是很大的。 因此,要想将语音识别应用于实际,并取得满意的效果,还有很长的路要走。 1 2 语音识别的基本概念 语言是人类获得信息的主要来源之一,是人与外界交流信息的最方便、最有效、最 自然的工具。随着计算机科学与应用的发展,出现了计算机语音学( c o m p u t e r p h o n e t i c s ) 。 人们对计算机语音的研究主要有以下几个方面: ( 1 ) 语音编码( s p e e c h c o d i n g ) ( 2 ) 语音合成( s p e e c hs y n t h e s i s ) ( 3 ) 语音识别( s p e e c hr e c o g n i t i o n ) ( 4 ) 话者识别( s p e a k e rr e c o g n i t i o n ) 或话者确认( s p e a k e rv e r i f i c a t i o n ) 语音识别就是让计算机听懂人说话,它是发展人机声通信和新一代智能计算机的重 要组成部分。它有几种分类方法:按被识别人的范围可分为特定人( s p e a k e rd e p e n d e n t ) 和非特定人( s p e a k e ri n d e p e n d e n t ) 语音识别;按词汇量的大小可分为小词汇量( s m a l l v o c a b u l a r y ) 和大词汇量( l a r g ev o c a b u l a r y ) 语音识别;按说话方式可分为孤立词( i s o l a t e d w o r d ) 和连续语音或连接词( c o n t i n u o u ss p e e c ho rc o n n e c t e dw o r d ) 语音识别。 1 3 发展历史和国内外现状 1 3 1 语音识别的早期研究( 7 6 年以前) 早在6 0 年代末期,面对语音识别的重重困难,人们试图对语音识别的任务作一简 化,即不急于识别由任何人、以任何方式说的任何内容的连续语音,而是首先解决一个 子问题:特定人、小词表、孤立词,从而使语音识别研究能在当时的技术条件下得以开 展。这在7 0 年代中期取得了长足的进展: ( 1 ) 在语音信号表示和特征抽取方面提出两种表示法: 以滤波器组输出或f f t 系数这些领域特征作为特征参数。 以线性预测编码( l i n e a rp r e d i c t i v ec o d i n g ) 分析为基础的特征参数: l p c 参数、c e p 系数( 倒谱c e p s t r u m 系数) 、部分相关系数、声道面积、m e i - c e p 系数等等,以及相应的相似度测量。 ( 2 ) 以动态规划( d y n a m i cp r o g r a m m i n g ) 为基础的模板匹配技术的出现,使得在此 后近十年内,人们一直视动态时间弯折( d y n a m i ct i m ew a r p i n g ,d t w ) 为主要方法,并 使语音识别实用化成为可能。 大连理工大学硕士学位论文 ( 3 ) 以人工智能( a r t i f i c i a li n t e l l i g e n c e ) 为基础的d a r p a ( d e f e n s ea d v a n c e dr e s e a r c h p r o j e c t sa g e n c y ) 语音理解计划,把高层知识用于语音识别,但在实时性、实用性和鲁棒 性方面不理想。 1 3 2 语音识别的中期研究( 7 7 年- 8 2 年) 七十年代后期,当特定人、小词汇、孤立词语音识别达到令人满意的结果之后,人 们开始沿三个不同方向拓展研究领域和目标: ( 1 ) 特定人向非特定人拓展 采用k - m e a n s 聚类算法对多个人的发音样本进行聚类。 ( 2 ) 孤立词向连接词拓展 提出了l e v e l b u i l d i n g t l 捌,t w o s t a g ed p l 3 1 ,o n c - p a s s d p 4 1 等基于d p 的新的匹配方 法。以上两个扩展基本上都是基于小词汇量,尤其是数字识别( 0 9 ) 。 ( 3 ) 小词汇量向大词汇量拓展 这一扩展遇到了计算量和存储量急剧增加的困难,相应出现了以下方法: 矢量量化( v e t c o rq u a n t i z a t i o n ) 技术【5 】:它具有很好的数据压缩能力及理想的聚类 功能,因此人们将v q 用于语音识别进行预处理或预选,以减少识别运算量。子词单元 ( 如音节、音素等) 的提出和应用,主要用以减少运算量和存储量。 采用分级识别( 粗分类) 进行预选f “。 1 3 3 语音识别的近期研究( 8 3 年- 9 5 年) 8 0 年代中期以来,新技术的不断出现使语音识别有了实质性的进展,特别是隐马尔 可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 的广泛研究和应用,使语音识别能同时在大词 表、非特定人、连续语音三个方面取得重要发展。 ( 1 ) h m m 最早将隐马尔可夫模型用于语音识别7 0 年代中驯7 ,引,但对h m m 的全面研究和大 规模应用是8 0 年代以后的事。它受到广泛重视的原因是: 马尔可夫链可以用来描述蕴藏于观察数据中的时变特性,这使得它能处理语音 信号中常常出现的非平稳特性( 即时变特性) 。它不仅能用于描述各种不同层次的语音单 元,甚至可以描述v q 中的一个码字或由声学特征定义的任一种声学单元,并且由小单 元模型组成大单元模型( 音节( 或音素) 一单词一句子) 。 由v i t e r b i 解码可得到与语音序列对应的最佳状态序列,从而得到语音单元的最 佳分割,使子词单元的使用非常方便,大大避免了训练和识别时的分割困难,使连续语 音识别问题得到解决。 非特定人连续数字语音识别研究 随着对h m m 的深入研究和在语音识别中的需要,许多新的算法产生,如m l e 估计、平滑、外插、建立时间模型、话者自适应等等,使得这一技术在语音识别中有了 更深入的应用。 ( 2 ) 神经网络( n e u r a ln e t w o r k s ) 8 0 年代中期重新开始的n n 研究,也给语音识别带来一片新的生机。由于n n 具有 自组织和自动学习各种复杂分类边界的能力,以及很强的区分能力,使它特别适用于语 音识别这一特殊的分类问题。人们将n n 和h m m 在同一语音识别系统中结合使用,即 由n n 完成静态的模式分类问题,而用h m m 甚至传统的d p 来完成时间对准问题【9 2 1 。 从实验结果来看,这种思想可行而且有效,并能使n n 比较容易地用于连续语音识别问 题。 语音识别常用的n n 有: 时间延迟神经网络t d n n 递归神经网络r n n 连接预测神经网络l p n n 自组织神经网络s o n n 学习矢量量化l v q 混合语音识别系统 ( 3 ) 基于知识的语音识别 与上述基于统计分析和强有力的算法的研究几乎并行开展的是以m i t 的z u e 教授、 m c g r i l l 大学的d em o i l 教授和法国c r i n i n r i a 的h a t o n 教授为代表的基于语音学知识 的语音识别研究。m r r 的s u m m i t 系统则是基于知识的语音识别的典范,它实现了非 特定人、大词汇量和连续语音的识别。 1 3 4 语音识别的现状( 9 6 年至今) 语音识别在未来具有巨大的发展前景,国外公司如m m ,m i c r o s o f t 在9 0 年代就开 始进军中国市场。如1 9 9 7 年,m m 公司抢先在中国大陆市场推出了语音识别产品m m v i a v o i c e ,一年时间内占领了大陆近9 0 的市场份额,获取了上亿元的利润。 我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室 逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能计算机专家组为语 音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上 与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其 - 4 大连理 大学硕士学位论文 中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家 重点实验室。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串 连续语音识别系统的识别精度,达到9 4 8 ( 不定长数字串) 和9 6 8 ( 定长数字串) 。在 有5 的拒识率情况下,系统识别率可以达到9 6 9 ( 不定长数字串) 和9 8 7 ( 定长数字 串) ,这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5 0 0 0 词邮 包校核非特定人连续语音识别系统的识别率达到9 8 7 3 ,前三选识别率达9 9 9 6 ;并 且可以识别普通话与四川话两种语言,达到实用要求。 语音识别在实验室环境下已经取得了良好的效果,因此,9 0 年代至今,语音识别技 术开始向实用化发展,主要研究方向就是修改原有的理论来解决“新三难”问题 1 3 - 1 9 】。 比如,在噪音语音分离方面,寻找新的更加具有鲁棒性的声学特征来更好地去除噪声的 影响,使用麦克风阵列技术区分不同方位的声源达到分离语音噪音的目的,和人脸识别 相结合来识别语音。在h m m 方面,提出了各种新的h m m ,如线性预测h m m ,时间 驻留状态h m m ,基于最大互信息准则( m m i ) 的h m m 等等。针对汉语的特点,运用语 言学的知识来改进识别效果,如对声母韵母采取不同的处理,或者,将各个音素进行聚 类分析,再分别处理等等。 1 4 研究内容 虽然目前国内的汉字语音识别系统已经有较高的研究水平,达到了大词汇量,非特 定人,连续词识别要求,但是由于作者所属实验室在语音识别方面的研究剐刚起步,因 此,研究的是小词汇量( 中文数字吐9 数字串) 非特定人连续词识别。论文的章节安排如 下: 第一章简单介绍了语音识别的发展历史和当前研究重点。 第二章先简单介绍了前端处理和特征提取过程,然后比较了自适应端点检测门限和 经典双门限端点检测方法的实验效果,并考察了低门限和过零率搜索帧数的取值问题, 最后比较了m f c c 各维系数在区分语音和噪音上的能力和对识别各数字的贡献。 第三章主要从一般m a r k o v 模型的基本原理讲起,引申到隐m a r k o v 模型,并从离 散h m m 引申到连续i - i m m ,最后介绍了加入持续时间模型的h m m ,并介绍了在实验 中采用的持续时间模型类型和参数。 第四章先介绍了在将h m m 应用于语音识别中时采用的l b 算法和对多个训练集的 处理问题,然后介绍了整个语音识别系统的实验环境和采用的静音模型,最后对在使用 h m m 进行非特定人数字语音识别时状态数的选取及训练集大小的选取进行了实验。 非特定人连续数字语音识别研究 2 前端处理与特征提取 2 1 前端处理 2 1 1 流程简介 语音识别与训练的过程如图2 1 所示,首先根据文件列表描述文件读入语音文件, 将语音文件中的波形数据提取出来,进行前端处理,然后提取特征参数,如果是训练过 程,则根据语音内容描述文件找到对应的模型序列,并用特征参数对这些模型进行重新 估计;如果是识别过程,则根据特征参数对所有可能的模型计算属于该模型的概率值, 并输出概率最高的模型序列,这些模型序列对应的数字串就是最终的识别结果。 图2 1 语音处理过程 f i g 2 1 s p e e c hp r o c e s s 前端处理在其中起很重要的作用,其主要步骤如图2 2 所示: 图2 2 前端处理 f i g 2 2p r e - p r o c e s s i n g 其中,预加重的位置也可以放在分帧和加窗之间。有的系统在低通滤波和端点检测 之间还可能存在语音增强步骤,更好地加强系统的抗噪性能。端点检测对于用 d t w ( d y n a m i ct i m ew a r p i n g ,动态时间弯折) 进行训练和识别的系统是必须的,但对于 大连理工大学硕士学位论文 论文中使用h m m 的系统可以省略,不过在h m m 语音识别系统中,加入适当的端点检 测步骤可以减少系统的插入、删除错误。 2 1 2 预加重 人体发声系统模型表明,语音受声带振荡经过声门激励和口鼻辐射的影响,高频段 大约在8 0 0 h z 以上按6 d b 倍频程跌落,所以求语音信号时,频率越高相应的成分越少, 高频部分比低频部分难求,使用预加重主要目的就是去除声门激励和口鼻辐射的影响, 使得到的语音信号更能反应发声源的特性。同时,由于语音能量主要集中在8 0 h z - 1 2 k h z 之间,在高频能量较小,易受噪音干扰。加入预加重的目的是对语音的高频部分进行加 重,使信号的频谱变得平坦,保持在低频到高频的整个频段中,能用同样的信噪比求频 谱,以便于频谱分析或声道参数分析。预加重处理如公式( 2 1 ) 所示。 s i 】- s i + 1 - a x s i 】 ( 2 1 ) 这相当于在原始语音进行处理之前,先让它经过一个滤波器,该滤波器的系统函数 如公式( 2 2 ) 所示。 h z 】- 1 - 口z 。 ( 2 2 ) 其中,口为预加重系数,接近1 ,本文中取0 9 6 。 2 1 3 分帧 语音信号是一种时变的非平稳信号,然而,在1 0 m s 3 0 m s 时间内,语音信号的频率 特性和某些物理特性参数可以近似认为是不变的,即语音信号具有短时平稳性,从而可 以用平稳随机过程的分析方法来处理语音信号。基于这一原理,在处理语音信号时,要 将语音信号进行分帧,计算各帧的短时特征,如短时平均能量,短时平均幅度,短时过 零率,l p c 系数,m f c c 系数等。同时,为了保证帧与帧之间数据的平滑性,分帧时前 一帧和后一帧之间需要有一定的重叠,偏移的部分称为帧移,一般取帧长的0 - - 1 2 。本 文中,帧长取2 0 m s ,帧移取l o m s 。由于本文中的语音数据中的采样率为1 6 k h z ,因此, 每帧的样点数为3 2 0 个,帧移为1 6 0 个。 2 1 4 加窗 如果在分帧后不进行加窗处理,就相当于给语音信号加了矩形窗。这种窗的优点是 主瓣比较集中,缺点是旁瓣较高,并有负旁瓣,导致频域变换中带进了高频干扰和泄漏, 甚至出现负谱现象。因此,在语音信号处理时,一般要进行加窗处理,本文中使用的是 汉宁窗( h a r m i n g w i n d o w ) 。这种窗的特点是主瓣加宽,旁瓣显著减小,旁瓣衰减速度也 一7 非特定人连续数字语音识别研究 较快,约为6 0 d b ( 1 0 0 c t ) ,有效地抑制了频谱泄漏。论文中采用的汉宁窗公式如公式 ( 2 3 ) ,( 2 4 ) 所示。 j ,( 开) = 缸疗) 坝栉) 以竹) = o 5 一o 5 s ( 百2 7 m ) ,开= o ,1 ,j 一1 , ( 2 3 ) ( 2 4 ) 一般加窗的长度为2 5 6 或者5 1 2 ,一定是2 的指数倍长,以方便后面采用频域分析 时必须要采用的f f t 计算。由于文中语音文件的采样率是1 6 k h z ,帧长是3 2 0 个样点, 因此窗长为5 1 2 ,每帧数据不足的部分用0 补齐。 2 1 5 低通滤波 由于语音的频率在8 0 h z 1 2 k h z 之间,在语音处理时,可以在加窗后加入滤波处理, 以提升语音部分的相对强度,在一定程度上抑制噪音的干扰。本文中,用梳状滤波器抑 制5 0 h z 的工频噪音,再加上切比雪夫低通滤波器。加入低通滤波器只是一种简单的处 理,如果噪音干扰比较严重,可以在这里加入更加复杂的语音增强步骤,比如用谱减法 来抑制噪音。 2 2 端点检测 2 2 1 端点检测的目的 语音端点检测作为语音识别的前端处理部分,对系统识别的效果有重大的影响。目 前,小词汇孤立词识别系统多采用d t w 算法,而大词汇连续词识别系统则以采用h m m 算法居多,对于d t w 算法,要求有比较精确的端点检测算法进行前端处理,h m m 算 法对端点检测的要求相对宽松一些,即便如此,端点检测算法对h m m 算法仍有很大的 影响。例如,在英文连续数字识别系统【2 0 】中,单词“砌”的插入和删除错误占总错误率 的5 0 左右,同时,实验中也发现,如果数字和数字之间有较长的自然停顿,由于静音 模型的平均时间长度比较短,这种较长的自然停顿就会被误认为是含有语音( 大部分被 误认为“s x ”) 而引起插入错误。由于较长时间的静音段相对于短时间静音段概率很小, 因此,即使改变h m m 的语音持续时间模型也无法消除这种错误,而使用良好的语音端 点检测算法进行前端处理缩短这种静音段将有助于减少这种错误。 经典的语音端点检测算法采用基于结合短时能量和短时过零率的双门限检测法,该 算法在高信噪比环境中有较高的识别率,可以达到9 0 以上,但是在信噪比较低的实际 环境中,由于门限值不适应环境的变化,识别率急剧下降。针对这一情况,有的文献采 用抗嗓性较好的特征来取代能量和过零率,如频能比【2 l 】,谱熵【2 2 1 ,倒谱特征【2 3 】,信息 一8 一 大连理工大学硕士学位论文 剧2 4 1 ,l p c 美尔倒谱特征【2 5 】,自相关相似距离【2 6 1 等,有的文献动态地跟踪背景噪音的 特刎2 ”,实时地更新门限值,有的采用有限状态机。但是所有的方法都会需要一个门限 值,而这个门限值通常都是采用经验值,一旦环境发生改变,就很难适应环境的变化。 本文在在经典双门限算法的基础上,采用二分法,动态地得到门限值,实验证明,该方 法具有一定的鲁棒性。 2 2 2 传统算法 经典的双门限检测法首先确定一个高能量门限,短时能量值高于该门限的确定为语 音帧。然后,在语音段附近搜索若干帧,高于低能量门限的为语音帧。最后,再扫描一 遍,在语音段前后根据清音的短时能量比较小,难以用能量值从背景噪音出区分出来, 而其短时过零率比背景噪音大的特点,将过零率大于一定值的帧确定为语音帧。其中, 高门限一般取多帧语音数据的平均值,低门限取背景噪声平均能量的2 倍。门限值的选 择在这里是根据经验值确定的,如果门限值过高,会发生漏检状况,如果过低,又会将 噪音误识为语音。双门限法检测出来的语音的帧数取决于高门限的取值,根据传统方法, 分别用短时能量,短时幅度和短时对数能量对一段加了不同能量,不同类型噪音的语音 段的端点检测结果见表2 i 一表2 4 所示,0 表示失效,即多检或漏检,1 表示识别出正确 的语音个数。本文中,在原始语音中分别加入了白噪音,粉红噪音和棕色噪音。 白噪声( w h i t en o i s e ) 中各个频点或频段具有相同的电平或能量,如1 0 0 h z 2 0 0 h z 与1 0 0 0 h z 1 1 0 0 h z 范围内的噪声能量是相同的,但由于人耳的听觉特性对高频较敏感, 实际听到的是明亮的“咝咝”声。电视机无信号时的背景噪声和调频收音机无台时的背景 噪声均是白噪声。白噪声可用来测量扬声器和耳机的谐振和灵敏度等。 粉红噪声( p i n k n o i s e ) 的电平从低频向高频不断衰减,其幅度与频率成反比( 1 2 。在 对数坐标中其幅度每倍频程( 一个8 度) 下降3 d b 。噪声能量在每倍频程内是相等的,如 1 0 0 h z 2 0 0 h z 与1 0 0 0 h z 2 0 0 0 h z 范围内的噪声能量是相同的,因此从人耳中听到的是 平直的频率响应,是一种非常悦耳的噪声。 棕色噪声( b r o w n n o i s e ) 的能量也是从低频向高频不断衰减,其幅度与频率的平方成 反比( 1 ,产) ,频率分量功率主要集中在低频段。 在比较经典算法和自适应算法时,因为能量类型的特征对噪音和语音的区分能力比 较差,为了更好地比较传统算法和新算法,并没有使用频域特征,而是使用了短时平均 能量( 短时能量) ,短时平均幅度( 短时幅度) ,短时对数能量3 种特征。 短时平均能量的公式如公式( 2 5 ) 所示。 非特定人连续数字语音识别研究 e = x 2 ( ) 吣一肌) ( 2 5 ) 短时平均幅度的公式如公式( 2 6 ) 所示。 a n = i x ( n ) 1 w ( n - m ) ( 2 6 ) 短时对数特征的公式如公式( 2 7 ) 所示。 l o g e , = l o g ( e , ) ( 2 7 ) 或者如公式( 2 8 ) 。 l o g e = l o g ( x 2 ( 甩) ) “一一m ) ( 2 8 ) 论文中采用的是公式( 2 8 ) 。 短时平均过零率( z e r oc r o s s i n gr a t e , z c r ) 是语音信号时域分析中最简单的一种特 征。顾名思义,它是指每帧内信号通过零值的次数。对于离散信号,短时平均过零率实 质上就是信号采样点符号变化的次数。短时平均过零率仍然可以在一定程度上反映其频 谱性质。可以通过短时平均过零率获得谱特性的一种粗略估计。 短时平均过零率的公式如公式( 2 9 ) 。 z 一2 击。戮g n 咖) 卜s g n e x ( 舻1 ) 】叫) ( 2 一) 其中,s g n 为符号函数,见公式( 2 1 0 ) 。 s 卧,= ! 。浆: 亿埘 公式( 2 5 ) 一公式( 2 9 ) 中的仉以) 是窗函数。由于前文中的前端处理中已经加了汉宁 窗,并且,汉宁窗的作用主要是方便频域分析,而经典端点检测中没有用到频域分析, 因此这里采用的窗是矩形窗,如公式( 2 11 ) 所示。 俐= 亿鬈叫 亿 其中,为窗长,同前文中的窗长一致,即5 1 2 。 表2 1 原始语音( 在实验室环境下录制,内容为0 到1 0 中文数字语音串) t a b 2 1 o r i g i n a ls p e e c h ( r e c o r d e di nl a b 肛1 0c 1 1 i n e s es p e e c h ) 大连理工大学硕士学位论文 表2 2 原始语音加白噪音 t a b 2 2 o r i g i n a ls p e e c hp l u sw h i t en o i s e 由表2 卜表2 4 可见,单纯地采用固定门限,在信噪比较高( 6 7 d b ) 的情况下都可能 失效。 2 2 3 自适应算法 目前,国内外研究在端点检测的自适应方面提出了很多方法,其中自适应门限指的 是在语音识别过程中,根据环境噪音的实时变化,将一个固定系数a 乘以环境噪音的能 量或者用固定系数a 乘以语音数据平均能量,由此,得到的语音门限是随着时间的推移, 实时发生变化的。这种自适应门限的理论依据是由于噪音是动态变化的,门限也应该根 据噪音的变化实时变化。但是,这种自适应门限存在一个问题,那就是系数a 是由经验 值得到,并且是保持不变的。由前文的分析可以看到,在平稳噪音情况下,虽然噪音强 度比较平均,但是由于信噪比的不同,固定系数a 并不能满足所有情况的要求。因此, 本文提出了一种自适应门限,在该方法中,系数a 会随着信噪比的变化而变化,动态地 适应了不同环境的要求。具体步骤如图2 3 ,图2 4 所示: 非特定人连续数字语音识别研究 图2 3a 值上限与下限的计算流程 f i g 2 3 c a l c u l a t i o no f m a xaa n dm i n i m u ma 图2 44 的计算流程 f i g 2 a c a l c u l a t i o no f a 一1 2 一 由壹 大连理工大学硕士学位论文 由于这种自适应门限主要是解决语音的多检和漏检问题,而低门限主要是对检测出 来的语音帧的边缘进行修饰,因此,主要应用在高门限上。假设端点检测用的判据是能 量,则高门限的取值是口语音平均能量,在传统方法中,a 的取值为1 ,而本文则是动 态取得。先取a 为l ,经过图2 3 的循环,得到高低2 个门限。如果在循环过程中得到 了合适的a ,则退出整个循环,否则,进入图2 4 的循环。在图2 3 图2 4 中,判断得出 的4 是否过大,还是过小,还是刚刚合适,是个难点。在训练过程中,由于已知语音的 个数,因此只要将端点检测得到的语音个数和已知的个数比较,就可知口是否合适,如 果正好相符,则口合适,如果比已知个数多,则a 过小,如果比已知个数少,则a 过大。 但是在识别过程中,由于语音个数未知,判断a 是否合适就比较困难,可以由语音长度 估计语音个数,再计算a 。由此可见,这种门限比较适用于训练过程,应用于识别过程 还是有一定困难,这样其应用价值有了很大的局限性。解决这个问题的办法是在识别之 前,由系统提示用户朗读已知长度的数据,在这个过程中决定自适应系数a ,然后在识 别时,再用系数a 。由于很多系统在应用时,都会提示用户朗读一些已知数据,以调整 系统的各项系数,因此,加入这个自适应系数4 并不会增加太多额外的时间开销。同时 需要指出的是,这种方法除了可以应用在传统双门限端点检测上之外,还可以应用在各 种别的类型的基于门限检测的端点检测的门限确定上。 2 2 4 实验结果与讨论 将自适应门限分别应用在与表2 卜表2 4 相同的语音数据上,得出的实验结果如表 2 5 一表2 8 ,表中的值为在各个信噪比之下得出的系数a 。 表2 5 原始语音( 在实验室环境下录制,内容为0 到1 0 中文数字语音串) t a b 2 5 o r i g i n a ls p e e c h ( r e c o r d e di nl a b 肛1 0c h i n e s es p e e c h ) 非特定人连续数字语音识别研究 表2 7 原始语音加白噪音 t a b 2 7 o r i g i n a ls p e 曲p l u sw h i t en o i s e 表2 5 一表2 8 中,错误( e r r o r ) 是指在整个循环完成得到合适的a 之后,检查发现有 将噪音当成语音和语音当成噪音的现象同时存在,则无论怎么调整a 都无法得到正确的 端点检测结果。这种失效,是由于采用的特征矢量已经无法区分噪音和语音,是由于特 征矢量的抗噪性差而不是由门限值的错误选取造成的。解决的办法为采用更好的特征矢 量或者加入更多的去噪前端处理,这些内容已经超出了论文的讨论范围。 对比表2 卜表2 4 和表2 5 一表2 8 得到如下结论: ( 1 ) 采用了自适应门限后,端点检测能在更大范围的信噪比内起作用,大大提高了 系统的鲁棒性。 ( 2 ) a 的值在o 7 5 1 1 2 5 间浮动,绝大部分都非常接近1 ,由此可见,经典门限将a 设为1 是有一定道理的。但即便如此,a 值小小的变化仍然引起了检测结果的巨大改变, 可见基于能量与幅度的端点检测对噪音的变化非常敏感,目前的解决办法是将频率类的 特征加入作为判断语音和噪音的判据,以此来增加门限的鲁棒性。 ( 3 ) 白噪音,粉红噪音和棕色噪音相比,白噪音对端点检测的结果影响最大,棕色 噪音影响最小。 ( 4 ) 随着信噪比的减小,门限值逐渐变大。在未来的实验中,或许可以通过大量的 实验来拟合得到门限值与信噪比的曲线关系,这样,可以大大减少计算a 的计算量。但 是,该曲线取得比较困难,而且,也不一定能得到通用的关系,因此目前可以采用本文 的二分法来逐步得到合适的门限值。 短时对数能量和短时能量与短时幅度相比,并没有显示出明显的优势,同时,由于 计算复杂,而且计算成对数值时,还要解决溢出等问题,因此在本文中没有采用短时对 数能量。而短时能量和短时幅度相比,短时能量能很好地抑制由于小能量噪音的而引起 大连理工大学硕士学位论文 的毛刺,但是短时能量在抑制小能量噪音的同时,也抑制了较小能量的语音,造成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论