(信号与信息处理专业论文)大词汇量汉语连续语音识别系统中若干问题的研究.pdf_第1页
(信号与信息处理专业论文)大词汇量汉语连续语音识别系统中若干问题的研究.pdf_第2页
(信号与信息处理专业论文)大词汇量汉语连续语音识别系统中若干问题的研究.pdf_第3页
(信号与信息处理专业论文)大词汇量汉语连续语音识别系统中若干问题的研究.pdf_第4页
(信号与信息处理专业论文)大词汇量汉语连续语音识别系统中若干问题的研究.pdf_第5页
已阅读5页,还剩102页未读 继续免费阅读

(信号与信息处理专业论文)大词汇量汉语连续语音识别系统中若干问题的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学博士学位论文大词汇量汉语连续语音识别系统中若干问题的研究 大词汇量汉语连续语音识别系统中若干问题的研究 摘要 汉语大词汇量连续语音识别的研究已经进行了十多年,取得 了一定的成果,但仍然有许多问题亟待解决。首先,声学模型的 鲁棒性和准确性有待进一步提高,需要深入研究语境相关的声学 建模,特别是汉语三音子模型;其次,汉语是有调语言,声调在 语音辨识中担当着重要角色,针对声调建模已经提出了一些方 案,但都不是很理想,还需进一步研究更好的声调建模技术:此 外还有语言模型和识别算法的研究,这些都将为大词汇连续语音 识别系统实用化的做出重要的贡献。近年来,小波变换和希尔波 特黄变换( h h t ) 被广泛应用于语音信号处理和语音识别。小波分 析具有多分辨率分析的特点,在高频部分具有较高的时间分辨 率,低频部分具有较高的频率分辨率。与小波分析方法相比,h i l t 具有小波分析的全部优点,在分辨率上消除了小波分析的模糊和 不清晰,具有更准确的谱结构。语音信号是一种非平稳信号,采 用小波变换对带噪的语音信号进行处理,虽然会使对语音识别有 用的高频成分受到一定的削弱,但能在一定程度上消除高频部分 的噪声。因此对于这对矛盾( 如何能既消除噪声,又不丢失有用 的高频成分) 的研究也是很有意义的。本文采用现代信号处理的 方法即小波变换和希尔波特黄变换的经验模式分解,对大词、汇量 汉语连续语音识别系统中若干问题进行了研究。 本文的大词汇量汉语连续语音识别系统主要由三个开源工 具构筑而成:声学模型的训练采用英国剑桥大学的h t k 工具包、 语言模型的训练采用卡内基梅隆大学的c m u c a mt o o l k i t 统计 语言模型工具包、识别器采用日本京都大学和日本 i p a ( i n f o r m a t i o n t e c h n o l o g yp r o m o t i o na g e n c y ) 联合开发的一个日 语大词汇量连续语音识别引擎。具体的工作及创新包括以下几个 方面: 北京邮电大学博士学位论文大词汇量汉语连续语音识别系统中若干问题的研究 1 对基于无调三音子的大词汇量非特定人汉语连续语音识别 系统的研究。采用h t k 、c m u - c a mt o o l k i t 和j u l i u s 三个工具, 构筑了一个大词汇汉语连续语音识别系统。采用统一的有调三音 子建模技术,对带调三音子的大词汇量非特定人汉语连续语音识 别系统进行了研究。 2 提出一种基于小波分析的大词汇汉语连续语音识别系统的 研究方法。通过对干净语音库中的原始语音文件进行五层小波分 解,然后重构各层的小波系数,得到五层重构的语音信号的数据 库。通过对各层重构的语音信号进行训练,得到各层的声学模型; 对各层重构语音数据的测试表明:对于含有加性高斯白噪声和真 实环境噪声的带噪语音,该方法能提高系统的性能。在此基础上 采用数据融合技术对基于小波分析的多层声学模型进行集成处 理,提高了系统的性能。 3 在传统的小波降噪方法( c w t ) 的基础上,提出了一种二次小 波变换( s w t ) 的降噪方法,并结合经验模式分解0 s m d ) 方法对小 波降噪进行了研究。传统的小波降噪方法一般只对信号进行一次 变换,然后对小波系数进行阅值处理。本文提出的二次小波变换 降噪方法先对信号进行小波变换,然后对重构后的信号再进行一 次变换,最后进行阈值量化处理。实验结果表明,和传统小波变 换降噪方法相比,本文提出的s w t 降噪法能更有效去除掉语音 信号中的加性噪声。此外相比e 册c w t 的降噪方法, e m d + s w t 的方法也能更有效的去除掉语音信号中的加性噪声。 4 对有监督自适应训练和无监督自适应训练进行了研究,采用 的自适应算法是最大似然线性回归( m l l r ) ,最大后验概率 ( m a p ) 以及m l l r + m a p 。实验结果表明,相对于基线系统的识别 结果,采用无监督的自适应和有监督的自适应训练都能使识别结 果有一定的提高,当进行有监督自适应训练时,采用m a p 算法 时,系统性能是最好的;当进行无监督自适应训练时,采用 m l l r + m a p 算法时,系统性能是最好的。 关键词:连续语音识别,小波分析,降噪,经验模式分解,自适 应 as t u d yo fs e v e r a lp r o b l e m s0 nl a r g e v o c a b u l a r yc h i n e s ec o n t i n u o u ss p e e c h r e c o g n n i o n a b s t r a c t l a r g ev o c a b u l a r yc h i n e s ec o n t i n u o u ss p e e c hr e c o g n i t i o nh a sb e e n r e s e a r c h e df o rm o r e t h a nt e ny e a r s a l t h o u 曲t 1 1 e r ea r es o m e a c h i e v e m e n t si nc o n t i n u o u ss p e e c hr e c o g n i t i o nr e s e a r c h ,a l o to f p r o b l e mi s n e e d e dt ob er e s o l v e du r g e n t l y f i r s t ,t h er o b u s t n e s sa n d a c c u r a t e n e s so ft h ea c o u s t i cm o d e lh a v et ob ei m p r o v e d t h ec o n t e x t d e d e n d e n ta c o u s t i cm o d e l i n gn e e d e d t ob er e s e a r c h e di nd e p t h , e s p e c i a l l yc h i n e s et r i p h o n em o d e l s e c o n d l y , c h i n e s e i sat o n el a n g u a g e t h et o r t ei n f o r m a t i o np l a y sa ni m p o r t a n tr o l ems p e e c hr e c o g n i t i o n s o m em e t h o d si nt o n em o d e l i n ga r es t i l ln o ts a t i s f i e d i ti sn e c e s s a r yt o t a k em o r er e s e a r c ho nt o n em o d e l i n gt e c h n i q u e f u r t h e rm o r e ,r e s e a r c h o fl a n g u a g em o d e la n da l g o r i t h mo fr e c o g n i t i o na r ea l s ov e r yi m p o r t a n t a l lt h e s ew i l lm a k eal o to fi m p o r t a n tc o n t r i b u t i o nt ot h ea p p l i c a t i o no f l a r g ev o c a b u l a r yc o n t i n u o u ss p e e c hr e c o g n i t i o n i nr e c e n ty e a r s ,w a v e l e tt r a n s f o r ma n dh i l b e r t - h u a n gt r a n s f o i t f l h a v eb e e na p p l i e di ns p e e c hs i g n a lp r o c e s s i n ga n ds p e e c hr e c o g n i t i o n w i d e l y w a v e l e ta n a l y s i sh a st h ec h a r a c t e r i s t i c so fm u l t i - r e s o l u t i o n t h e w a v e l e ta n a l y s i sp r o d u c e sf i n et i m er e s o l u t i o na th i g hf r e q u e n c i e sa n d f i n ef r e q u e n c yr e s o l u t i o na tl o wf r e q u e n c i e s b e s i d e sh h th a sa l lt h e a d v a n t a g e so fw a v e l e ta n a l y s i s h h th a ss o m ea d v a n t a g e so v e rw a v e l e t a n a l y s i si nr e m o v i n gt h ea m b i g u i t yo ft h er e s o l u t i o n i th a sa na c c u r a t e s p e c t r u ms t r u c t u r e s p e e c hs i g n a li s an o n es t a t i o n a r ys i g n a l a l t h o u g h a p p l y i n gw a v e l e tt r a n s f o r r o o i ln o i s y s p e e c h w i l l l o s es o m eh i g h f r e q u e n c yw h i c hm a ym a k ec o n t r i b u t i o n st or e c o g n i t i o n ,t h en o i s ei n j ! 塞堂皇查兰堡主兰垡堡壅 查塑至墨竖垦垄堡至童望型墨丝! 堇王塑璧堕! ! 墨 h i g hf r e q u e n c yc a nb es u p p r e s s e di ng r e a t t h e r e f o r et h er e s e a r c ho nt h e m e t h o dw h i c hc a l ln o to n l yd e n o i s eb u ta l s ok e e pt h ev a l u a b l eh i g h f r e q u e n c y i sv e r ym e a n i n g f u l b yu s i n gt h em o d e ms i g n a lp r o c e s s i n g m e t h o d s u c ha sw a v e l e tt r a n s f o r ma n de m p i r i c a lm o d ed e c o m p o s i t i o n o fh h t , t h er e s e a r c ho ft h i sp a p e ri n c l u d e ss e v e r a li m p o r t a n tp r o b l e m o f l a r g ev o c a b u l a r yc h i n e s ec o n t i n u o u ss p e e c hr e c o g n i t i o ns y s t e m t h ec o n t i n u o u ss p e e c hr e c o g n i t i o ns y s t e mi sc o m p o s e do ft h r e eo p e n s o u r c et o o l k i t s a c o u s t i cm o d e lw a st r a i n e db yh i d d e nm a r k o vt o o l k i t w h i c hi sd e v e l o p e db yc a m b r i d g eu n i v e r s i t y l a n g u a g e m o d e lw a s t r a i n e db yc m u c a mt o o l k i tw h i c hi sd e v e l o p e db yc a r n e g i em e l l o n u n i v e r s i t ya n dc a m b r i d g eu n i v e r s i t y t h er e c o g n i z e ri s j u l i u sw h i c hi s d e v e l o p e db yk y o t ou n i v e r s i t ya n d p a t h er e s e a r c ha n di n n o v a t i o n s a r ea sf o l l o w si nd e t a i l s 1 r e s e a r c ho nl a r g ev o c a b u l a r ys p e a k e ri n d e p e n d e n t c h i n e s e c o n t i n u o u ss p e e c hr e c o g n i t i o ns y s t e mb a s e do nt r i p h o n ew 曲o u tt o n e a l a r g ev o c a b u l a r yc h i n e s ec o n t i n u o u ss p e e c hr e c o g n i t i o ns y s t e m w a s c o n s t r u c t e db yu s i n gh t k ,c m u - c a m t o o l k i ta n dj u l i u s b yu s i n g u n i f o r mt o n a lt r i p h o n em o d e l i n gt e c h n i q u e ,t h el a r g ev o c a b u l a r ys p e a k e r i n d e p e n d e n tc h i n e s ec o n t i n u o u ss p e e c hr e c o g n i t i o ns y s t e mb a s e d 0 n t o n a lt r i p h o n eh a sb e e nc o n s t r u c t e d 2 aw a v e l e ta n a l y s i sm e t h o d m a n d a r i nc h i n e s ec o n t i n u o u s i sp r o p o s e df o rl a r g ev o c a b u l a r y s p e e c hr e c o g n i t i o n t h e w a v e l e t d e c o m p o s i t i o ni su s e dt od e c o m p o s ec l e a ns p e e c hs i g n a li n t of i v el e v e l s w a v e l e tc o e f f i c i e n t so fe a c hl e v e lw a sr e c d n s t r u c t e d b yt r a i n i n gf i v e l e v e lr e c o n s t r u c t e ds p e e c hs i g n a l ,t h ea c o u s t i cm o d e lo fe a c hl e v e lw a s o b t a i n e d ,b yt e s t i n gt h ea c o u s t i cm o d e lo fe a c hl e v e l ,t h ee x p e r i m e n t a l r e s u l t ss h o wt h a tt h em e t h o do ft h i sp a p e ri se f f e c t i v eo ng a u s sw h i t e n o i s ea n dr e a le n v i r o n m e n t a ln o i s e t h em u l t i - l e v e la c o u s t i cm o d e l s w e r ei n t e g r a t e db yu s i n gd a t af u s i o nt e c h n i q u e t h ep e r f o r m a n c eo ft h e s y s t e mw a si m p r o v e db yt h i sm e t h o d 3 i nt h i sp a p e r , b a s e do nc o n v e n t i o n a lw a v e l e tt r a n s f o r m ( c w t ) d e - n o i s i n gm e t h o d ,an e wm e t h o do fs p e e c hs i g n a ld e n o i s i n gb a s e do n s e c o n d a r y w a v e l e tt r a n s f o r m ( s w t ) i sp r o p o s e d e m p i r i c a l m o d e d e c o m p o s i t i o na l g o r i t h mi sc o m b i n e dw i t hs w t d e n o s i n gm e t h o d f o r 北京邮电大学博士学位论文大词汇量汉语连续语音识别系统中若干问题的研究 c w tm e t h o di ns p e e c hd e n o s i n g t h ew a v e l e tt r a n s f 0 1 1 1 1w a sc a r r i e do u t f o ro n et i m e t h es p e e c hs i g n a lw a sr e c o n s t r u c t e da f t e rp r o c e s s i n gt h e t h r e s h o l dv a l u eo fd e c o m p o s e dc o e 伍c i e n t s f o rs w tm e t h o di ns p e e c h d e n o s i n g t h ew a v e l e td e c o m p o s i t i o ni su s e dt od e c o m p o s es p e e c h s i g n a li n t ot h r e el e v e l sn es p e e c hs i g n a lo fe a c hl e v e lw a so b t a i n e db y r e c o n s t r u c t i n gt h ew a v e l e tc o e f f i c i e n t a n dt h er e c o n s t r u c t e ds i g n a lw a s d e c o m p o s e db ys e c o n d a r y w a v e l e tt r a n s f o r m b y p r o c e s s i n g t h e t h r e s h o l dv a l u eo fd e c o m p o s e dc o e f f i c i e n t s ,t h ef i n a ls p e e c hs i g n a lw a s r e c o n s t r u c t e d t h ee x p e r i m e n t a lr e s u l t ss h o wt h a ts w tm e t h o di sm o r e e f f e c t i v et h a r tt h ec o n v e n t i o n a lw a v e l e tt r a n s f o r md e n o i s i n gm e t h o di n s p e e c hd e n o i s i n g e m d + s 呵i sm o r ee f f e c t i v et h a nt h ee 加+ c w t d e n o i s i n gm e t h o di ns p e e c hd e n o i s i n g 4 b yu s i n gm a x i m u ml i k e l i h o o dl i n e a rr e g r e s s i o nm e t h o d ,m a x i m u m ap o s t e r i o ra n dm l l r + m a p , u n s u p e r v i s e da d a p t a t i o na n ds u p e r v i s e d a d a p t a t i o n w e r ec a r r i e do u t t h e e x p e r i m e n t r e s u l t ss h o wt h a t u n s u p e r v i s e da d a p t a t i o na n ds u p e r v i s e da d a p t a t i o n c a r l i m p r o v et h e p e r f o r m a n c eo ft h eb a s e l i n es y s t e m b yu s i n gt h em a pa l g o r i t h mi n s u p e r v i s e da d a p t a t i o n ,t h ep e r f o r m a n c eo ft h es y s t e mi st h eb e s to n e b y u s i n g t h em l l r + m a pa l g o r i t h mi nu n s u p e r v i s e da d a p t a t i o n ,t h e p e r f o r m a n c eo f t h es y s t e mi st h eb e s to n e k e yw o r d s :c o n t i n u o u s s p e e c hr e c o g n i t i o n ,w a v e l e ta n a l y s i s , d e - n o i s i n g ,e m p i r i c a lm o d ed e c o m p o s i t i o n ,a d a p t a t i o n v 创新性声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名 隆互日期:塑:! 三 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅:学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。 本学位论文不属于保密范围,适用本授权书。 本人签名 导师签名 康参 一二霉驽 日期:坐堕:! ,! 日期: 2 主:,i 三 北京邮电大学博士学位论文大词汇量汉语连续语音识别系统中若干问题的研究 1 1 引言 第一章绪论 在二十世纪五十年代,就开始了语音识别的研究工作。当时大多采用共振 峰分析方法,由于计算机还不像现在这么普及,一般是用专用硬件实现语音识 别。1 9 5 2 年,贝尔实验室的d a v i s 等人实现了特定人的孤立数字识别;1 9 5 9 年, 麻省理工学院的f o r g e 建立了能识别l o 个元音的非特定人识别器。到五十年代 末期,随着计算机的发展,开始采用计算机模拟方法,不仅提高了效率,而且 开创了计算机语音识别的新时代。 在六十年代,研究人员比较深入的研究了语音信号的产生机理和内在特征、 人类的听觉生理和心理等问题,并提出了动态规划和线性预测分析技术,其中 后者解决了语音信号的产生模型问题,对语音识别的发展影响深远。 在七十年代,线性预测技术应用到语音识别中并用来提取特征参数,对语 音识别的发展产生了重大影响。1 9 7 5 年,i t a k u l a 以l p c 为特征参数设计了一个 语音识别系统。在这时期,动态时间规整( d y n a m i c a lt i m ew a r p i n g ,简称d t w ) 技术日渐成熟,并在语音识别中得到广泛应用它比较有效地解决了语音信号 不等长匹配的问趔2 - 4 】。来自i b m 的b a k e r 和j e l i n e k 等人开创了应用统计方法 解决语音识别的问题,b a u l 和b a k e r 分别研究了隐马尔可夫模型理论在语音识 别中的应用。在美国国防部a r p a ( a d v a n c e d r e s e a r c h p r o j e c t s a g e n c y ) 计划支 持下,研究人员开发出h a p p y 、h e a r s a y - i i 等语音识别系统。 到了八十年代,语音识别的研究进一步深入,显著标志是矢量量化技术 ( v e c t o r q u a n t i z a t i o n ) 、隐马尔可夫模型和人工神经元网络在语音识别中的成功 应用。1 9 8 7 年i b m 采用v q h m m 开发了一个具有2 0 0 0 词汇的特定人孤立字 识别系统t a n g o r a 一2 0 :1 9 8 8 年c m u 用同样方法建立了一个9 9 7 个词汇的非 特定人连续语音识别系统s p h i n x 。同时,统计语言模型也开始应用到语音识 别中。 进入九十年代之后,在各方面的推动下,语音识别技术获得了更深入而广 泛的研究,并逐步从实验室走向市场。由于隐马尔可夫模型结构简洁、训练识 北京邮电大学博士学位论文 大词汇量汉语连续语音识别系统中若干问题的研究 别算法完善以及计算量小等优点,逐渐成为语音识别研究的主流。随着计算机 的普及、通讯和网络技术的发展,信息时代已经来临,语音识别技术正日益显 示出它的优越性和巨大的市场潜力。许多国际著名的大公司纷纷投以巨资加强 这方面的研究和开发能力,如i b m 、贝尔实验室、m i t 、c m u 、d r a g o n 、b b n 、 l h 、m i c r o s o f t 、剑桥大学等。 汉语语音识别相对来说起步较晚,但在国家8 6 3 高科技计划、中科院八五 攻关计划以及国家9 7 3 计划的大力支持下,国内的一批科研院所( 如中科院自 动化所、声学所,清华大学,北京大学等) 进行了汉语大词汇量连续语音识别 的研究,取得了许多研究成果,使得汉语语音识别得到快速发展。鉴于汉语语 音识别产品市场前景广阔,许多知名大公司都在中国设立研究中心进行这方面 的研发,如i b m 、m i c r o s o f t 、i n t e l 等。 语音识别的发展走过了一条漫长的路,从孤立字识别到连续语音识别,从 小词汇量到大词汇量,从朗诵式语音识别到口语语音识别、广播语音识别等, 并开始融合自然语言理解技术,开创了多语种语音翻译,研究的领域越来越宽 广和深入,研究的问题也越来越复杂。 1 2 大词汇量连续语音识别中的关键技术 大词汇量非特定人连续语音识别基本上涵盖了语音识别技术的各个方面 因此我们从这个角度来谈一谈语音识别中所涉及的关键技术: 1 2 1 鲁棒的特征提取 鲁棒性特征提取主要是为了提高特征参数对说话人、环境以及信道的鲁棒 性。目前,常采用的技术有声道归一化、倒谱归一化、l d a 分析以及语音中的 噪声处理技术等。 1 2 2 声学模型 声学模型的鲁棒性和准确性直接影响系统的性能,所以提高声学模型的性 能一直是研究的重点之一。为了达到这个目标,一种途径是精心设计语音数据 库的脚本和不断增加语音库,使语音库尽可能覆盖所有可能的声学和语言现象: 二 北京邮电大学博士学位论文大词汇量汉语连续语音识别系统中若干问题的研究 另一种途径是研究更好的建模技术,如分类建模和语境相关建模( 如双音子 ( d i p h o n e ) 、三音子( t f i p h o n e ) 模型) ,提高模型的准确性。目前,在大词汇 量连续语音识别系统中,三音子模型已获得广泛应用,大大降低了识别系统的 误识率。为了提高模型的抗噪能力,还可以进行模型补偿【5 1 。 1 2 3 语言模型 语言模型在大词汇量连续语音识别系统中的作用是有目共睹的,它不仅约 束了搜索空间,提高了裁剪的准确性,而且大大降低了误识率。语言模型的优 劣直接影响到识别系统的性能,训练一个好的语言模型,不仅仅要增大训练语 料库,而且要优化词典和“净化”训练语料库,去掉语料库中的“噪声”。 1 2 4 搜索框架 搜索是识别器的核心,它聚集了各种知识,其组织结构直接影响系统的识 别率和效率。目前,典型的搜索技术有宽度优先搜索算法( b r e a d - f i r s ts e a r c h t e c h n i q u e ) 和深度优先( d e p t h f i r s ts e a r c ht e c h n i q u e ) 算法 6 卅l 。 1 2 5 声学模型自适应 在同等条件下,特定人识别系统要比非特定人识别系统的误识率低 1 0 - - 4 0 左右,但是为每个人单独训练一套声学模型又是不现实的,因为我 们有时无法获得足够的语音数据。因此,发展了声学模型自适应技术,它利用 很少的语音数据( 一句话或几十句话) 学习某个人的发音特点,把非特定人声 学模型转换成特定人声学模型,从而降低误识率( 对自适应者而言) 。最流行而 且有效的自适应技术有最大线性回归算法( m a x i m u ml i k e l i h o o dl i n e a r r e g r e s s i o n ,简称m l l r ) 和最大后验概率准则( m a x i m u map o s t e f i o f i ,简称 m a p ) 算法。 1 2 6 语言模型自适应 同声学模型自适应一样,语言模型自适应同样很重要。实验研究发现封闭 北京邮电大学博士学位论文大词汇量汉语连续语音识别系统中若干问题的研究 语料的测试结果总是要比开放语料好很多,所以,根据用户实际使用的领域情 况,应用语言模型自适应技术把通用的语言模型转化成专业领域的语言模型, 不仅可以大幅度降低误识率,而且也会提高系统的识别速度f 1 4 一”l 。 1 3 大词汇量汉语连续语音识别中的问题 汉语大词汇量连续语音昕写机的研究已经进行了十多年,取得了一些成果。 但同英语连续语音识别的研究状况相比,无论从声学模型的鲁棒性和准确性, 还是从搜索的效率上都还有一段差距,这些差距影响着汉语语音识别技术走向 市场。英语的三音子模型已经进行了很深入的研究,而且实验显示三音子模型 的系统与双音子模型的系统相比,误识率有很大降低;而汉语三音子模型的研 究则刚刚起步,我们的很多演示系统还都基于双音子模型。此外,汉语语音识 别也有自己的特点,如汉语是有调语言,声调在汉语语音的辨识中担当着重要 的脚色,而在目前的大词汇量汉语连续语音识别系统中,基本上不考虑声调特 征。虽然有些系统考虑了声调特征,但是模型和搜索算法比较复杂,不能充分 发挥声调的作用。对于带噪语音的降噪方法的研究也是语音识别前端语音信号 处理的关键技术。此外,对说话环境的自适应也是目前汉语连续语音识别的一 个热点。 1 4 论文的课题背景、研究思路、工作内容及创新 从目前的语音识别技术来看,具有实用价值的语音识别系统大部分还是建 立在与任务或主题相关的中小词汇量语音识别系统,这其中有一部分还属于特 定人语音识别系统、孤立词语音识别系统。听写机之类的大词汇( 或无限词汇 量) 非特定人连续语音识别系统,虽然在噪声比较小的说话环境下已经达到了 实用化的要求,但在真实的噪声环境中,系统的性能还是不能满足实际的需要, 这无疑是限制当今大词汇量连续语音识别系统实用化的最大瓶颈。 近年来,作为现代信号处理的个分支,小波变换和希尔波特黄变换( h h t ) 被广泛应用于语音信号处理和语音识别 培- 2 ”。小波分析具有多分辨率分析的特 点,在高频部分具有较高的时间分辨率,低频部分具有较高的频率分辨率。与 小波分析方法相比,h h t 具有小波分析的全部优点,在分辨率上消除了小波分 北京邮电大学博士学位论文大词汇量汉语连续语音识别系统中若干问题的研究 析的模糊和不清晰,具有更准确的谱结构。但是在语音识别中,小波分析仍然 没有成为主流的方法,这与小波分析不易构建出传统意义上的语音特征参数有 关。目前,对于将小波分析用于语音识别以及如何构建特征参数这些问题都有 较深的研究。 基于大词汇量汉语连续语音识别系统中的问题,本文的主要内容及创新主 要包括: 1 对无调三音子的大词汇非特定人汉语连续语音识别系统的研究。讨论了连 续语音识别中声学模型的构筑问题,并采用8 6 3 语音库以及h t k 、 c m u c a mt o o l k i t 和j u l i u s 三个工具,实现了一个大词汇汉语连续语音识别系 统。采用统一的有调三音子建模技术,对带调三音子的大词汇非特定人汉语连 续语音识别系统的研究。讨论了声调特征在语音识别中的应用以及声调特征的 建模问题。在分析了现有各种声调建模方案的优缺点之后,我们提出了一种统 一的有调三音子建模技术。相比无调三音子声学模型,有调三音子声学模型比 无调三音子声学模型的性能有了很大的提高,词识别率提高8 8 ,声韵母识别率 提高1 4 5 2 。 2 语音信号是一种非平稳信号,采用小波变换对带噪的语音信号进行处理, 虽然会使对语音识别有用的高频成分受到一定的削弱,但能在一定程度上消除 高频部分的噪声。因此对于这对矛盾( 如何能既消除噪声,又不丢失有用的高 频成分) 的研究也是很有意义的。本文提出一种基于小波分析的大词汇汉语连 续语音识别的新方法,并对系统的鲁棒性进行了深入研究。通过对于净语音库 中的原始语音文件进行五层小波分解,然后重构各层的小波系数,得到五层重 构的语音信号的数据库。通过对各层重构的语音信号进行训练,得到各层的声 学模型:对各层重构语音数据的测试表明:对于含有加性高斯白噪声和真实环 境噪声的带噪语音,该方法能提高系统的性能。在此基础上采用数据融合技术 对基于小波分析的多层声学模型进行集成处理,提高了系统的性能。 3 由于语音信号中各种频率成分所占的比重和所起的作用都是不一样的,传 统的小波变换降噪方法只是对信号进行一次小波变换,所分析的信号就是原始 的语音信号。本文在传统的小波降噪方法( c w t ) 的基础上,提出了一种二次小 波变换( s w t ) 的降噪方法,并结含经验模式分解( e m d ) 方法对小波降噪进行了 北京邮电大学博士学位论文大词汇量汉语连续语音识别系统中若干问题的研究 研究。传统的小波降噪方法一般只对信号进行一次变换,然后对小波系数进行 阈值处理。本文提出的二次小波变换降噪方法先对信号进行小波变换,然后对 重构后的信号再进行一次变换,最后进行闽值量化处理。该方法是对小波重构 后的信号再次进行小波变换,所分析的信号是各个子带内的信号,这样对原始 语音信号分析就更加细致了。实验结果表明,和传统小波变换降噪方法相比, 本文提出的s w t 降噪法能更有效去除掉语音信号中的加性噪声。此外相比 e m d + c w t 的降噪方法,e m d + s w t 的方法也能更有效的去除掉语音信号中的 加性噪声。 4 本文采用h t k 自适应工具包,对有监督自适应训练和无监督自适应训练进 行了研究,采用的自适应算法是最大似然线性回归( m l l r ) ,最大后验概率 ( m a p ) 以及m l l r + m a p 。实验结果表明,相对于基线系统的识别结果,采用无监 督的自适应和有监督的自适应训练都能使识别结果有一定的提高,当进行有监 督自适应训练时,采用m a p 算法时,系统性能是最好的;当进行无监督自适 应训练时,采用m l l r + m a p 算法时,系统性能是最好的。 参考文献 1 】b i i n g h w a n gj u a n ga n ds a d a o k if u r l ,“a u t o m a t i cr e c o g n i t i o na n du n d e r s t a n d i n g o fs p o k e n1 a n g u a g e _ af i r s ts t e pt o w a r dn a t u r a lh u m a n - m a c h i n ec o m m u n i c a t i o n , p r o c e e d i n g s o f t h e i e e e ,v 0 1 8 8 ,n o 8 ,印1 1 4 2 - 1 1 6 5 ,a u g u s t 2 0 0 0 2 】h a r v e yf s i l v e r m a na n dd a v i dp m o r g a n , “t h ea p p l i c a t i no fd y n a m i c p r o g r a m m i n gt oc o n n e c t e ds p e e c hr e c o g n i t i o n ”,i e e ea s s pm a g a z i n e ,p p 6 2 5 , j u l y1 9 9 0 3 】h e r m a n nn e ya n ds t e f a no r t m a n n s ,“d y n a m i cp r o g r a m m i n gs e a r c hf o r c o n t i n u o u ss p e e c hr e c o g n i t i o n ”,i e e es i g n a lp r o c e s s i n gm a g a z i n e ,p p 6 4 - 8 3 ,s e p 1 9 9 9 【4 h e r m a n nn e ya n ds t e f a no r t m a n n s ,“p r o g r e s si nd y n a m i cp r o g r a m m i n gs e a r c h f o rl v c s r ”,w o r k s h o po na u t o m a t i cs p e e c hr e c o g n i t i o na n du n d e r s t a n d i n g , p p 2 8 7 2 9 4 ,19 9 7 5 】c h i n h u il e e ,“o ns t o c h a s t i cf e a t u r ea n dm o d e lc o m p e n s a t i o na p p r o a c h e st o 北京邮电大学博士学位论文大词汇量汉语连续语音识别系统中若t - n 题的研究 r o b u s ts p e e c hr e c o g n i t i o n ”,s p e e c hc o m m u n i c a t i o n ,n o 2 5 ,p p 2 9 4 7 ,19 9 8 6 】c h i n h u il e ea n dl a w r e n c er r a b i n e r , “af r a m e s y n c h r o n o u sn e t w o r ks e a r c h a l g o r i t h mf o rc o n n e c t e dw o r dr e c o g n i t i o n ,i e e et r a n s o na c o u s t i c s ,s p e e c ha n d s i g n a lp r o c e s s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论