(电路与系统专业论文)实用的非特定人命令集汉语语音识别系统若干关键技术的研究[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)实用的非特定人命令集汉语语音识别系统若干关键技术的研究[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)实用的非特定人命令集汉语语音识别系统若干关键技术的研究[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)实用的非特定人命令集汉语语音识别系统若干关键技术的研究[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)实用的非特定人命令集汉语语音识别系统若干关键技术的研究[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(电路与系统专业论文)实用的非特定人命令集汉语语音识别系统若干关键技术的研究[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实用的非特定人命令集汉语语音识别系统 若干关键技术的研究 摘要 近年来,语音识别技术取得了巨大的进展。人们迫切希望把它推 f 向r 泛的实用领域,而不满足于只是理论研究。本文以开发个实用 的非特定人命令集汉语语音识别系统为背景,分析解决了在其研发过 程中遇到的各种技术难点,并且设计了个基于d s p 的硬件系统用于 实现该语音识别系统。 从实验室走向市场的过程中,稳健性与成本是遇到的最大挑战。 在实际的应用场合中,说话人的变化、噪声干扰、信道失真等因素常 常导致语音识别系统性能的大幅下降。在硬件实现方面,实时的语音 信号处理需要高速的硬件处理器,语音模板体积往往较大,需要占用 很大的存储资源,导致硬件成本偏高,从而限制了语音识别技术的实 用。j i 本文针对非特定人命令集汉语语音识别,就实用语音识别系统中 涉及到的若干关键技术,进行了较深入的研究和探讨。 1 ) 在分析比较d t w 和删两种语音识别系统的基础上,通过改进 的多段矢量量化( m s v q ) 方法优化模板,实现了基于d t w 的算法压力 小、模板体积小、识别性能良好的非特定人命令集语音识别系统。 2 ) 提出基于m s v q 模板的区别性训练方法,该方法通过m c e g p d 算法对模板进行优化训练。与尽可能精确的描述训练数据的不同的最 大相似度训练相比,区别性训练主要考虑模板的区分能力,能明显提 高系统的识别率。 r 3 ) 【实用的语音识别系统的最终用户可能是特定的一个或几个特定 k j 的人,有必要提高非特定人系统对最终用户的识别性能。y 本文提出基 于m c e g p d 算法的说话人自适应方法,它既有良好的收敛特性,又能 实现快速的自适应。 r 4 ) 鼯音识别系统如果处于不同于训练时所处的外部环境时,性能 将会乃重下降。语音识别系统的稳健性是语音识别技术走向实用的关 v 键。i 本文在背景噪声情况下,采用倒谱均衡方法进行特征补偿;在信 i 道失真的情况下,采用m c e g p d 自适应算法学习新环境特征,自适应 调整模板参数,都取得了良好的识别效果。 5 ) 设计了一个基于d s p 的硬件系统,用于实现一个实用的语音识 别系统。 一,一+f , 关键词:语音识别,命令集,实用, 话人自适应,稳健性,d s p 。、 - 。 、7 多段矢量量化,区别性训练,说 s t u d yo nk e yt e c h n o l o g e i so fa p r a c t i c a l s p e a k e ri n d e p e n d e n tc o m m a n d ss e t m a n d a r i n s p e e c hr e c o g n i t l o ns y s t e m a b s t r a c t c o n s i d e r a b l ep r o g r e s sh a sb e e nm a d ei nt h ef i e l do fa u t o m a t i c s p e e c h r e c o g n i t i o n ( a s r ) d u r i n gt h er e c e n ty e a r s n o wt h et e c h n o l o g yo fa s r i s b e i n gp u tt op r a c t i c a lu s e s t h i sp a p e ri sm a i n l yf o c u s e do ns o m et e c h n i c a l d i f f i c u l t i e si n d e v e l o p i n g ap r a c t i c a l s p e a k e ri n d e p e n d e n tc o m m a n ds e t m a n d a r i ns p e e c h r e c o g n i t i o ns y s t e ma n d i t sh a r d w a r e i m p l e m e n t a t i o nb a s e d o n d s p r o b u s t n e s sa n dc o s ta r et h eb i g g e s tc h a l l e n g e sw h e na s r p r o d u c t sa r ep u t i n t om a r k e tf r o ml a b o r a t o r y i nr e a la p p l i c a t i o n s ,s o m ef a c t o r ss u c ha sn e w s p e a k e r ,b a c k g r o u n dn o i s ea n dc h a n n e ld i s t o r t i o nd e g r a d et h ep e r f o r m a n c e o fa s r s y s t e mg r e a t l y o nt h eo t h e rh a n d ,i t sh i g h l yd e m a n d e df o rh i g h s p e e dp r o c e s s o rf o rs p e e c hs i g n a lp r o c e s s i n ga n db i gs t o r a g er e s o u r c ef o r s p e e c ht e m p l a t e t h a tc o s tm u c h t h em a i ni s s u e si n t e n s i v e l ys t u d i e da n dd i s c u s s e di nt h i sd i s s e r t a t i o na r e l i s t e da sf o l l o w s : 1 ) a p p l i e dai m p r o v e dm s v q m e t h o dt od ot e m p l a t eo p t i m i z a t i o na n ds e t u pad t w - b a s e ds p e a k e ri n d e p e n d e n tc o m m a n d ss e tm a n d a r i ns p e e c h r e c o g n i t i o ns y s t e m w i t h a d v a n t a g e so f l o w c o m p u t a t i o n ,s m a l lt e m p l a t e s i z ea n dh i 曲p e r f o r m a n c e ,c o m p a r i n gw i t ht r a d i t i o n a ld t wa n dh m m a s r s y s t e m 2 ) p r e s e n t e d a l l i m p l e m e n t a t i o n o ft h em c e g p d a l g o r i t h m f o r d i s c r i m i n a t i v e l yt r a i n i n gm s v q - b a s e ds p e e c hr e c o g n i z e r d i f f e r e n tw i t h m l e t r a i n i n g ,w h i c h t r i e st od e s c r i b ed a t av a r i a t i o na sa c c u r a t e l ya s p o s s i b l e ,d i s c r i m i n a t i v et r a i n i n gi st op e r m i td i s c r i m i n a t i o nf o rm i n i m u m r e c o g n i t i o n e r r o r 3 ) t h ee n du s e r so fp r a c t i c a la s rp r o d u c t sw o u l db eo n eo rag r o u po f s p e c i f i cs p e a k e r s i t sv e r yn e c e s s a r y t ou s e s p e a k e ra d a p t a t i o n t o i m p r o v et h es y s t e mp e r f o r m a n c e o fs p e c i f i c s p e a k e r s w ee m p l o y e d m c e g p da l g o r i t h mo nf a s t s p e a k e ra d a p t a t i o n w h i c hh a s g o o d c o n v e r g e n c ep r o p e r t y 4 ) m a n ys t u d i e s h a v es h o w nt h a ta u t o m a t i c s p e e c hr e c o g n i t i o ns y s t e m s p e r f o r mp o o r l yw h e n t h e r ea r ed i f f e r e n c e si nt h ea c o u s t i c so ft h et r a i n i n g a n dt e s t i n ge n v i r o n m e n t r o b u s ts p e e c hr e c o g n i t i o nt e c h n i q u e sa r et h e k e yo fp r a c t i c a la s r w ee m p l o y e d f e a t u r ec o m p e n s a t i o nm e t h o db a s e d o n c e p s t r a l n o r m a l i z a t i o nt o i m p r o v ep e r f o r m a n c eo fa s rs y s t e m i n n o i s e w ee m p l o y e dm c e g p da l g o r i t h mt oh a n d l ec h a n n e ld i s t o r t i o n , d u et oi t s s e l f - l e a r n i n ga b i l i t y t h et r a i n i n g a n d t e s t i n g c o n d i t i o n m i s m a t c hc a r lb eo v e r c o m ea n ds i g n i f i c a n tg a i n si nr e c o g n i t i o na c c u r a c y c a nb ea c h i e v e d 5 ) ah a r d w a r es y s t e mb a s e d o nd s pw a sd e s i g n e dt o i m p l e m e n tt h e p r a c t i c a la s rs y s t e m k e y w o r d s :s p e e c hr e c o g n i t i o n ,c o m m a n d ss e t ,p r a c t i c a l i t y ,m s v q , d i s c r i m i n a t i v et r a i n i n g ,s p e a k e ra d a p t a t i o n ,r o b u s t n e s s ,d s p 上海交踅大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于, 不保蠢口。 v ( 请在以上方框内打“4 ”) 学位论文作者签名:嗾印笄 日期:五幻j 年2 月日 砀 绍始槲 名 年 馘 净 秘 哆 教 k 戥 期 割 巨 上海交避大学 学位论文原饲性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期:一;年j 月,彦日 ! :越至通厶堂趔上堂丝丝皇 2 c m s a n n a s r c m s c p l d d s p d t w g p d h m m l p c l p c c m a p m c e m f c c m l e m l l r m s v q s a s d s i v q 英文缩略语表 2 - l e v e lc m s2 级倒谱均值相减 a r t i f i c i a ln e u r a ln e t w o r k人工神经网 a u t o m a t i c s p e e c hr e c o g n i t i o n 自动语音识别 c e p s t r a lm e a n s u b t r a c t i o n倒谱均值相减 c o m p l e xp r o g r a m m a b l el o g i c d e v i c e 复杂可编程逻辑器件 d i g i t a ls i g n a lp r o c e s s o r数字信号处理器 d y n a m i ct i m ew a r p i n g 动态时间归整 g e n e r a l i z e dp r o b a b i l i s t i cd e s c e n t泛化概率下降 h i d d e nm a r k o vm o d e l隐马尔可夫模型 l i n e a rp r e d i c t i o nc o d i n g线性预测编码 l p c c e p s t r a l 线性预测编码倒谱 m a x i m u map o s t e r i o r ip r o b a b i l i t ye s t i m a t i o n 最大后验概率估计 m i n i m u mc l a s s i f i c a t i o ne r r o r最小误识率 m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s m e l 刻度频率倒谱系数 m a x i m u ml i k e l i h o o de s t i m a t i o n最大相似度估计 m a x i m u ml i k e l i h o o dl i n e a rr e g r e s s i o n最大相似度线性回归 m u l t i s e c t i o nv e c t o rq u a n t i z a t i o n多段矢量量化 s p e a k e ra d a p t a t i o n 说话人自适应 s p e a k e rd e p e n d e n t 特定人 s p e a k e ri n d e p e n d e n t 非特定人 v e c t o rq u a n t i z a t i o n矢量量化 4 e 篷奎通厶堂丝堂焦迨塞 第一章绪论 1 1 语音识别技术的发展 语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是 模式以别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号 处理等诸多领域,甚至还涉及到人的体态语言( 如人在说话时的表情、手势等行 为动作可帮助对方理解) ,其最终目标是实现人与机器进行自然语言通信。 人类从1 9 世纪术就丌始了对语音识别的研究。最初语音识别的研究对象是 在电话线路上传输的模拟信号,而真正具有实际意义的语音识别研究是从上个 世纪5 0 年代开始的。我们可以将语音识别的发展历史划分为4 个时期: 1 ) 初始发展期。1 9 5 5 年,b e l l 实验室的d a v i s 等人利用共振峰特征研制 出了世界上第一台原始语音识别系统。1 9 5 9 年,美国l i n c o l n 实验室的 r o r g i e 和f o r g i e 首次采用数字计算机识别英文的元音和以摩擦音开头的孤立 字,这标志着计算机语音识别时代的丌始。 2 ) 基础突破期。在六、七十年代,一系列的里程碑式的基础性突破为语音 识别的发展奠定了基础。在语音学方面,瑞典通信工程师f a n t 发表了著名的博 士论文语音产生的声学理论;人们还对人的听觉生理和心理进行了研究, 提出了临界频带理论。在信号处理方面,线性预测编码( l i n e a rp r e d i c t i o n c o d i n g ,l p c ) 技术在7 0 年代被日本学者i t a k u r a i2 成功地应用于语音识别,成 为迄今为止最为有效的语音特征参数之;前苏联科学家v i n t s y u k 在6 0 年代 将动态规划应用与模式识别,成为语音识别方法的重要基础;而日本学者 s a k o e 和c h i b a 3 1 提出了动态时间伸缩( d y n a m i ct i m ew a r p i n g ,d t w ) 算法,成 为第一种通用的语音识别算法,在特定人语音识别中获得了广泛的应用。 3 ) 综合发展期。8 0 年代以后,语音识别的任务开始由特定人孤立词语音 识别转向非特定人连续语音识别,识别的方法也逐渐从模板匹配方法转变到统 计模型方法。该期间最重要的成果是隐含马尔科夫模型( h m m ) 在语音识别中的应 用。在此期问,美国国防部的d a r p a 4 1 计划对语音识别研究起到了巨大的推动作 用。参加d a r p a 计划评测的各研究机构都推出了各种的识别系统,如 5 :攫窑迪6 坐型主筵迨竖 c a r n e g i e m e l o n 大学的著名的s p h i n x 5 1 系统,b b n 公司的b y b l o s t 6 1 系统等。 b e l l 实验室以r a b i n e r 7 1 为首的小组则对英语数字串英语识别作了大量的研 究,成为小词表语音识别的典范。同一时期,人工神经网络络成为了新兴的语 音识别方法。 4 ) 成熟期。九十年代以来,随着语音识别各方面问题的逐个解决,语音识 别中最困难的非特定人大词汇量连续语音识别已经达到了很高的性能。目前对 于理想环境下的语音数据,英国剑桥大学的h t k 系统的误识率已达到5 以 下;对于广播语音,剑桥的h t k 系统误识率达到1 6 2 :而对于电话系统大词 汇量语音识别,美国c a m e a e m e l l o n 大学的系统词误识率为4 5 1 。这些系统 代表着目前语音识别的最高水平。 1 2 语音识别系统的实用化 随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多 发达国家如美国、同本、韩国以及t b m 、a p p l e 、a t & t 、n t t 等著名公司都为 语音识别系统的实用化开发研究投以巨资。 语音识别技术的应用可以分为两个发展方向:一个方向是大词汇量连续语 音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的 语音信息查询服务系统,这些系统都是在计算机平台上实现的;另外一个重要 的发展方向是小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设 备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专 门的硬件系统实现,如m c u 、d s p 和语音识别专用芯片。本文主要研究后卜 发展方向,称其为实用语音识别系统的研究。 实用语音识别系统的应用领域主要包括以下几个方面: 1 1 电话通信的语音拨号。特别是在中、高档移动电话上,现已普遍的具有 语音拨号的功能。今后普通的固定电话上也将具备语音拨号的功能。 2 、汽车的语音控制。由于在汽车的行驶过程中,驾驶员的手必须放在方向 盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方 式。此外,对汽车的门、窗、空调、照明以及音响等设备,同样也可以由语音 来方便的控制。 6 3 ) 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增 加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器 发出命令,机器用语音做出应答。 4 ) 个人数字助理( p e r s o n a ld i g i t a la s s i s t a n t ,p d a ) 的语音交互界面。p d a 的 体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在p d a 上使用键盘 非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方 法仍然让用户感到很不方便。现在业界一致认为,p d a 的最佳人机交互界面是 以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提 高,可以预见,在不久的将来,语音将成为p d a 主要的人机交互界面。 5 ) 智能玩具。通过语音识别技术,我们可以与智能娃娃对话,可以用语音 对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的 电予看门狗。智能玩具有很大的市场潜力,而其关键在于降低语音识别产品的 价格。 6 1 家电遥控。用语音可以控制电视机、v c d 、空调、电扇、窗帘的操作, 而且一个遥控器就可以把家中的电器皆用语音控制起来,可以让令人头疼的各 种电器的操作变得简单易行。 随着实用语音识别系统的技术不断提高,将给人们带来极大的方便。 1 3 实用语音识别系统的特点 大词汇量连续语音识别系统一般都是基于p c 机平台,而实用语音识别系统 的中心运算处理器则只是一片低功耗、低价位的m c u 或d s p 专用芯片,与一 台甚至多台p c 机相比起来,其运算速度,存储容量都非常有限,因而这些由 专用芯片实现的实用语音识别系统有如下几个特点: 1 ) 大多是中、小词汇量的语音识别系统,即其识别的词汇量在1 0 - 1 0 0 个命 令词之间。近年来,丌始出现连续数字或连续语音的语音识别系统 2 ) 一般限于特定人语音识别的实现,即需要让使用者对所识别的词条先进 行学习或训练。这一类识别功能对语种、方言没有限制。有的系统也能够实现 非特定人语音识别,即预先将所要识别的语音模型训练好并装入系统的存储 7 l 瞧塞逼盔堂亟土堂焦迨塞 器,用户使用时不需要再进行学习而直接应用。这一类识别功能只适用于规定 的语种和方言,而且所识别的语句只限于预先已训练好的语句。 3 1 一般是实时系统,即当用户说完待识别的词条后,系统立即完成识别功 能并有所回应,这就对电路的运算速度有较高的要求。 4 1 除了要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、 耗电省、价钱低等特点。 1 4 语音识别系统的主要算法 现在应用较为广泛的语音识别的算法主要有以下几种: 1 1 动态时间规整( d y n a m i ct i m ew a r p i n g , d t w ) 。这一方法自六七十年代发 展至今,现在在孤立词、特定人、小词表识别系统中,仍然有其优点。其训练 方法简单,计算量较小,在很多任务简单的识别系统当中,还在使用这种方 法。 2 ) 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) t ”。h m m 方法是当前语音 识别系统的主流识别算法。它是建立在统计模型基础上的识别方法,其识别性 能高,稳健性( r o b u s t n e s s ) 好,尤其在非特定人识别中,具有明显的优势。但该 方法运算量大,算法复杂度高,主要用于大词汇量连续语音识别。 3 ) 人工神经网( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 【q 】。由于语音信号是一个时间 区间动态变化的信号,一般采用的多层前向感知机算法。但是,由于人工神经 网络很难达到和语音信号的最佳匹配,因此应用人工神经网络优化有一定困 难,难以达到很高的识别性能,而且学习时间长,运算量过大。 1 5 实用语音识别系统的实现方法 根据硬件系统的不同,实用化的语音识别系统大致有以下几种类型: 1 ) 由多带通滤波器及线性匹配电路构成。这是在二十世纪8 0 年代初期的产 品,也是最早期的语音识别专用集成电路( i n t e g r a t e dc i r c u i t ,i c ) 。它是出一组带 通滤波器组成特征提取电路,然后用线性匹配电路进行模式匹配。这种电路的 语音识别性能低,现已很少应用。最典型的芯片是东芝公司1 9 8 6 年生产的 t 6 6 5 8 a ,它由2 3 个开关电容l s i ( l a r g e s c a l ei n t e g r a t i o n ,大规模集成电路) 组成 8 ;塑銮适叁堂塑:! :堂焦迨塞 的带通滤波器及线性模式匹配电路组成,为特定人孤立词识别,最高识别4 0 个 词条,平均识别率为8 0 左右。 2 ) 由单片微控器( m i c r o p r o g r a m m e dc o n t r o lu n i t ,m c u ) 组成的语音识别系 统。用8 位机或1 6 位机为计算核心,外加a d 变换,d a 变换以及存储器组 成。由于m c u 的运算能力有限,因而其识别算法不可能复杂,精度也低,故 一般识别率不会太高。 3 ) 由数字信号处理器( d i g i t a ls i g n a lp r o c e s s o r ,d s p ) 组成的语音识别系统。一 般由定点1 6 位d s p 组成,外加a d 变换、d a 变换,以及r o m 、r a m 、 f l a s h 等存储器组成。由于d s p 包含用作数字信号处理运算的专用部件,因 而运算能力强,精度高,适于组成较高性能的语音识别系统。最常用的d s p 芯 片有t i 公司的t m s 3 2 0 a c 5 4 x x 系列,a d 公司的a d s p 2 1 8 x 系列,以及 d s p g 公司开发的o a k 系列。用d s p 组成的语音识别系统可以实现孤立词特 定人和非特定人语音识别功能,其识别词条可以达到中等词汇量。 4 ) 语音识别片上系统( s y s t e mo nc i r c u i t ,s o c ) 。将m c u 或d s p 、a d 、 d a 、r a m 、r o m 以及功放等电路集成在一个芯片上,只要加上极少的电源供 电等单元就可以实现语音识别语音合成以及语音回放等功能,其性能价格比较 高,功耗省。最有代表性的是s e n s o r y 公司的r s c 一3 6 4 。 1 6 实用语音识别系统的难点 从实验室走向市场的过程中,稳健性与成本是遇到的最大挑战。 具体来讲,困难主要表现在: 1 ) 对说话人的依赖:非特定人( s p e a k e ri n d e p e n d e n t ,s i ) 语音识别的难度要比 特定人( s p e a k e rd e p e n d e n t ,s d ) i 吾音识别要大的多,错误率比特定人系统要高出 3 5 倍【”】。从语音中抽取的特征参数必定包含一些与说话人声学特性高度相关 的参数。由于不同况话人的发音速度、语音强度、发音习惯方式均有不同,因 此即使对同一音提取的特征参数也会有相当大的差异,这就导致系统对训练集 内的说话人有较强的依赖性,给非特定人语音识别带来困难。解决这一问题的 途径有两种:一种是系统使用中或使用前做说话人自适应训练,使系统能适应 9 l 盟塞望厶堂型5 :堂位监堑 新的说话人特性。另一种是直接建立多用户系统,这就要求训练集能覆盖各种 说话人的语音特性。 2 ) 对使用环境的依赖:大多数语音识别系统只适合于识别“干净”的语 音。然而在实际的语音识别系统中,背景环境噪声、电话及其它信道中的有限 带宽传输,不同的编码方式乃至其他浼话人的干扰都会造成语音信号的畸变。 实践证明这些原因完全可以导致一个原本性能良好的系统完全无法正常工作。 3 ) 硬件成本的考虑:实用的语音识别系统大多作为产品的辅助功能,要得 到广泛的应用,必须要有较低的成本。基于h m m 的语音识别系统虽然性能很 好,但是算法复杂度高,模板所占存储空间大,不利于在资源非常有限的硬件 系统上实现。实用的语音识别系统必须要有一个高效的识别算法,满足商识别 率、快识别速度的要求,而且模板体积要小。 1 7 本文研究重点 中小词汇量语音识别系统已逐渐开始在手持终端、家电等领域得到应用, 但总的来说很多产品使用效果仍不尽人意,如识别率低,识别词汇量少,识别 速度慢等。为了使语音识别技术具有很好的实用性和得到更广泛的普及,除了 提高硬件性能和降低硬件成本外,还必须要在算法上做更多的工作,使识别速 度和识别率能得到进一步提高。 本文研究的目标是设计具有良好稳健性、识别率高、模板体积小的实用语 音识别系统,并在低成本的资源有限的硬件系统上得到实现。本文着重于如下 几个关键技术的研究:模板优化、区别性训练、说话人自适应和稳健性技术。 通过对这些技术的深入研究并应用到系统设计中,我们初步实现了基于d s p 平 台的实用化的非特定人命令集汉语语音识别系统。 1 8 论文的安排 本文篇章是这样安排的: 第一章是绪论,简要介绍了语音识别的发展史,实用语音识别系统的应用 领域、特点、主要算法和硬件实现方法,最后概括了本文的主要研究重点。 1 0 l 盟塞迤厶堂熊土鲎焦监坚 第二章简要介绍了语音识别的结构和基本原理,常用的语音特征和识别算 法。最后是几个基本识别系统的性能介绍,并引出了本文的研究方向。 第三章提出了通过改进的m s v q 方法来对模板进行优化的方法,采用该算 法可以得到具有接近于h m m 训练性能的高效模板,同时其模板体积可以大大 缩小。 第四章提出了基于m s v q 的区别性训练方法,该方法通过m c e g p d 算法 对模板进行优化训练。本文并对其作了全面的分析和讨论,给出了实验数据结 果与分析。 第五章首先介绍了目前常用的说话人自适应识别技术,并结合本文研究的 基于m s v q 的d t w 系统,提出了基于m c e g p d 算法的说话人自适应方法, 并给出了实验结果与分析。 第六章首先介绍了常用的稳健语音识别技术,重点研究了在噪声环境和信 道失真环境中采用的算法,给出了实验结果和分析。 第七章给出了基于d s p 芯片的语音识别系统的硬件总体设计,重点阐述了 其中的c p l d 模块的设计和系统的自举方法。 第八章是对全文的总结与展望。 ! :塑童适厶掌丝:堂丝丝塞 第二章语音识别系统的结构和基本原理 语音识别系统一般由三个主要功能模块构成:前端处理、声学模型和模式 匹配。一个典型的语音识别系统的基本结构如图2 1 所示。 2 1 前端处理 图2 - 1 语音识别系统的原理框图 f i 9 2 - 1t h e b a s i cs t r u c t u r eo f s p e e c hr e c o g n i t i o ns y s t e m 前端处理一般可以分为两部分:预处理和特征提取。 预处理是提高语音识别性能,增强稳健性的重要环节。一般情况下预处理 包括对原始语音信号的滤波、预加重、分帧、加窗等环节。同时还可能包含语 音增强、噪声抵消、端点检测等等。 预加彰主要是为了提升高频部分,以弥补声音在唇部辐射时产生的高频 损失,可以使信号的频谱平坦,减少信号的动态范围。预加重的形式为: l a z ,一般a 取在0 9 和1 之间。 端点检测可以避免不必要的计算量,同时设定语音识别解码的起点和终 点,防止无效搜索。端点检测大多数采用短时能量或者过零率作为判别准则, 文献中介绍了多种端点检测的方法。 经过预加重的语音信号通过分帧之后,以帧的形式进行处理。分帧的过程 由两个参数决定:帧长、帧移。对于短时过程而言,帧长决定了频率区分度和 1 2 l 毖窑逼厶堂亟主堂焦造 时间区分度。帧长较长的帧( 3 0 0 m s ) ,其时间区分度较差。而帧长太短,则短 时特性明显,频率区分度下降。目前采用的 k 帧 帧长在1 0 0 2 5 0 m s 之间。帧移决定了相邻两!k + i !;+ + 帧之问的时间间隔,一般在语音识别中, ; 鉴墨 ! , i j k + 3 : l o o m s 是常用的帧移。当帧移小于帧长时,就卜一: 出现了部分重叠。 帧移帧长 语音信号中含有丰富的信息,特征提取 图2 2 帧长和。黼 就是对语音信号进行分析处理,去除对语音 i 8 2 三器箸:盖警“幽 识别无关紧要的冗余信息,提取出对语音识 别有用的信息的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能 多的反映语音信息,尽量减少说话人的个人信息( 对特定人语音识别来讲,则相 反1 。从信息论角度讲,这是信息压缩的过程。特征提取是语音识别前端处理的 主要任务。特征如果具有很好的区别性,模型的设计和训练就会变得简单高 效。因此,语音识别所用特征需要满足以下条件: 1 ) 稳健性强。语音受周围环境、说话方式、采集条件等因素的影响较大,因 此,语音识别的特征必须具有很强的稳健性,使得语音特征在不同条件下可以 保持相对一致,以保证识别系统有较为稳定的识别性能。 2 ) 区别性强。对于基于模式识别的语音识别模式而言,用于进行识别的特征 必须具有很强的区别性。换而言之,不同类型语音的特征在特征空间中的分布 要有明显的区别。具体表现在:同种模型的特征集中度应该高,不同模型的特 征应该相距较远。 目前常用的语音特征是l p c c 和m f c c ,现简单介绍如下: 2 1 1 线性预测编码和线性预测编码倒谱 线性预测的基本原理是:语音信号的现在估计值可以用先前的p 个采样值 的线性组合的加权来逼近。 线性预测编码( l i n e a r p r e d i c t i v ec o d i n g :l p c ) 是一种基于语音发声机制的编 码方式( 图2 3 ) : 语音发声模型由激励源、声道模型和辐射模型三部分构成,激励源分为清 音和浊音两个分支,通过浊音和清音开关进行选择。浊音是准周期信号,可以 1 3 图2 - 3 语音的发声模型 f i 9 2 3t h ep r o d u c t i o nm o d e lo f s p e e c h 看作是一个周期脉冲发声器通过声门激励产生,而清音类似于随机噪声,通过 白噪声发声器来模拟。基音周期决定了周期脉冲的频率,a v 决定了清音或者浊 音的幅度。 在语音识别中,这个模型可以被简化( 图2 - 4 ) ,这样语音信号s ( n ) 的z 变换 可以写为: s ( z ) = e ( z ) h ( z )( 2 - 1 ) e ( z ) 为激励源的z 变换。h ( z ) 包含了声道模型、辐射模型等。 f i 9 2 4t h es i m p l i f i e ds p e e c h p r o d u c t i o nm o d e l n ) 作更进一步的假设,如果h ( z ) 是全极点模型,那么可以用一个统一的方程 ( 2 2 ) 来得到线性预测的语音信号: p j ( 月) = g t l s ( n f ) + a v u ( n ) ( 2 - 2 ) ,= i 当浊音时,u ( n ) 为周期的脉冲。清音时,“( ”) 则为白噪声。 而预测语音和实际语音之间的差为: n p ( ) = s ( n ) 一i ( 珂) = s ( n ) - a l s ( n - 1 ) ( 2 3 ) 1 4 :盘鸾通盔堂亟主堂焦迨兰 在某种线性测度下,选择最优的系数口,得到“最小的”e ( n ) ,这时的口,即 为语音的线性预测编码。l p c 可以通过自相关函数或者自协方差计算得出。采 用德宾算法、格形算法和舒尔算法的l p c 求解算法在很多文献【”1 上有详细说 明,这里不再重复。 由于l p c 能够e 确地反映声道谱的特征。同时提取算法较为简单,因此在 语音处理和语音识别中有很广泛的应用。而从l p c 中也能提取很多特征,例如 声门面积、共振峰、线谱对等。在语音识别中,则广泛采用基于l p c 的倒谱 线性预测编码倒谱( l p cc e p s t r a l :t , p c c ) 作为特征。 由于巩是最小相位因果序列,由同态信号处理可以推出倒谱l p c c : c 13 a 1 = 喜竿鸲,k 御 其中p 为倒谱系数的阶数。 线性预测分析技术是目前应用广泛的特征参数提取技术 是纯数学模型,没有考虑人类听觉系统对语音的处理特点。 2 1 2m ei 刻度的频率倒谱系数 r 2 4 a ) f 2 4 b ) 但线性预测模型 l p c 反映的是语音的声道状况,对于语音识别而言,语音信息主要包含在 语音的频谱结构上,语音的感知特性更为重要。感知实验表明,人类对于语音 的听觉感知可以抑制平稳的背景噪声,并增强变化的语言学信息。因此,基于 听觉感知特性的语音分析方法具有很强的鲁棒性。语音的感知特性并不集中在 若干个频点上,而是体现在多个频谱段的分布上。某一频率上的峰值会抑制相 邻频率范围的感知度,同时噪声对于纯音,低音对于高音都存在掩蔽效应 ( m a s k i n ge f f e c t ) 。 针对语音的感知度,另一大类的语音特征主要基于滤波器组( f i l t e r b a r & ) 一又 称梳状滤波器一的输出,滤波器组的输出反映了语音信号在各个频率段上的分 布状况。一般情况下采用频率相应为三角形的带通滤波器来构成滤波器组,可 以用式f 2 5 ) 来表示: 1 5 k 龌鸾亟太芏亟堂焦监塞 日。, 女】= 0 2 ( k f m 一1 ) ( 厂【,l + i 】一f m l 】) ( 厂【,l 】一f m - 1 ) 2 ( m + 1 - k ) ( f m + 1 卜f m 一1 】) ( 厂【m + 1 卜厂【m 】) 0 k f m + 1 】 r i m 一1 为第m 个带通滤波器的中心频率。h 。【r 】表示第m 个滤波器的频率 响应。滤波器的上下截止频率分别为f m 1 、f m + l 】。 每个滤波器组输出信号的能量相当于语音信号在对应频段的频率分布。可 以采用等频率间隔的滤波器,这样能够均匀地反映频率结构,对于提取基音周 期或者共振峰都较为合理。 另一方面,人的感知度和频率有关。实验表明,在声强为4 0 d b 时,低于 2 k h z 的纯音可辨别的差阈为3 h z ,而对于1 0 k h z 的纯音,可辨差值为 3 0 h z i h l 。对于声音的鉴别能力随着声音强度的降低而降低,随着频率的增加而 降低,人对于声音的低频部分的感知度要高于高频部分。 根据人对于语音各频段的敏感度来设计频率间隔,m e l 刻度是一种反映听觉 音调高度的频率尺度,反映了人对于音高的判断尺度。m e l 刻度在小于l k h z 时 是线性的,在1 k h z 以上,则采用对数形式: b ( f ) = 1 1 2 5 l n ( 1 + f 7 0 0 )f l k h z ( 2 - 6 ) 采用m e t 刻度来设计的滤波器组如图2 5 。 1 o j ,i l j 2 l 玎3 】 4 】 ,1 5 】,【6 】 7 】 图2 - 5 根据m e l 刻度的滤波器组 f 1 9 2 - 5m e l f r e q u e n c y f i l t e rb a n k 1 6 ,e 盘至遭盔堂亟l 主堂焦适塞 对于每一个滤波器的输出取对数能量s m ,再对s m 做余弦变换,得到 m e l 刻度的频率倒谱系数( m e lf 11t e rb a n kc e p s t r a lc o e f f ic ie n t ,m f c c ) : m - 1 c m = s m c o s ( n n ( m + 1 2 ) m ) o 月 o ( 4 - 4 ) 成本函数近似于我们要进行最小化的分类错误函数。 识别器的性能可以用成本函数的期望值来表示: l ( a ) = e ( 工;a ) ( 4 - 5 ) 这个性能判掘能够用自适应的梯度下降方法来进行最小化。当每一个训练 语句x 被评估时,参数集就小幅度地调整一下。参数集a 的调整方法如下表 述: a 。= a ,+ 矾, ( 4 - 6 ) 其中人,表示第f 次迭代时的参数集。 梯度下降过程是这样执行的:给定一个z c ,如果参数的调整 8 a ( x ,c k , 人) 可以表示为 8 a ( x ,c ,a ) = 一e u v i , ( x ;a ) ( 4 - 7 ) 其中u 是一个正定矩阵,s 是一个值很小的正实数,v 是对参数集的梯度 运算,那么可以得到如下结论: e 6 l ( a ) 】0( 4 8 ) 当有无穷多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论