




已阅读5页,还剩119页未读, 继续免费阅读
(模式识别与智能系统专业论文)汉语广播电视新闻语音识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 日前,以汉语广播电视新闻语音为对象的语音识别技术的研究,对于语音识 别的实用化发展具有非常重要的意义a 本文针对汉语广播电视新闻语音识别的 技术难点,主要进行r 以下几个方面广泛而深入的研究。 首先:在广播电视新闻语音的连续语音分割方面,本文提出基于检测熵变换 趋势的音频特征跳变点检测方法,用来检测连续音频信号中的声学特征发生改 变的地方。f 这种方法是根据一段数据窗内的每一个可能的声学特征跳变点所分 割的两段语音信号的熵的变化趋势来确定声学特征跳变点。相比于国际上通用 的基于b i c 准则的声学特征跳变点检测方法,本文提出的音频特征跳变点检测 方法具有较高的灵敏度和较鲁棒的检测门限,可以较好的适应各种场合的声学 特征跳变点的检测。1 其次:在广播电视新闻语音识别的自适应方面,本文详细分析了国际上通用 的各种广播电视新闻识别系统的自适应算法的优点和缺点。f 特别针对基于自适 应回归树的m l l r 算法需要依靠先验知识来决定自适应变换类的这一缺点和不 足,提出一种基于目标驱动的多层自适应算法。这种自适应算法能够根据自适 应数据的似然概率的增加来动态的决定自适应变换类的种类和数目,可以更加 充分的利用有限的自适应数据进行自适应,提高系统的识别率。j 最后:在广播电视新闻的连续语音识别方面,本文基于现有的广播电视新闻 的连续语音识别系统在处理相关性特征建模这个问题上的缺点和不足,结合特 缸层的线性旋转变换和模型层的方差建模技术,提出一种用方差建模技术来实 现的共享状态空间旋转变换矩阵的相关特征建模方法。这种方法利用基于状态 的旋转变换方法的解相关作用,在变换后的不相关的特征空间上建立高精度的 具有对角方差结构的混合高斯模型。f 同时又利用方差建模技术来进行状态空问 变换矩阵的参数共享和参数优化,克服了基于状态的特征旋转变换方法所导致 的模型参数数目过多、解码时计算垂较大的缺点。在汉语普通话连续语音测试 和广播语音的连续语音测试中,本文提出的相关性特征建模方法在增加较少的 内存占用量和解码讨算量的情况下,能够比采用传统的具有对角方差结构的高 蜥混合模型的建模方法获得2 0 的相对误识率的降低。1 。 关键词:广播电视新闻语音识别;连续音频分割f 说话人自适应 特征空间旋转变换;方差建模技术 a b s t r a c t a b s t r a c t i nt h ep a s tt e ny e a r s ,g r e a tp r o g r e s sh a sb e e nm a d ei nt h es t a t e o f - t h e a r t l a b o r a t o r y s p e e c h r e c o g n i t i o ns y s t e m r e c e n t l yt h ef o c u so fs p e e c hr e s e a r c hh a ss h i f t e df r o m r e a ds p e e c ht ot h es p e e c hd a t af o u n di nt h er e a lw o r l d l i k eb r o a d c a s tn e w so v e rr a d i o a n dt v d u r i n gt h et h r e ey e a r so fm yp h d s t u d y , ih a v e i n v e s t i g a t e d t h e k e y t e c h n o l o g i e so fb u i l d i n gb r o a d c a s t i n gr e c o g n i t i o ns y s t e m t h em a i nr e s e a r c hw o r k f o c a s e do nt h ef o l l o w i n gt h r e ea s p e c t s : i p r o p o s e d an o v e lm e t h o df o ra c o u s t i c c h a n g ep o i n t d e t e c t i o n w h i c hi s i m p o r t a n tf o rt h ei m p r o v e m e n to fp e r f o r m a n c eo fb r o a d c a s t i n gs e g m e n t a t i o ns y s t e m t h e m e t h o dp r o p o s e dh e r ed e t e c t st h ea c o u s t i c c h a n g ep o i n t sb yc h e c k i n gt h e c h a n g i n gt r e n do fd i v i d i n ge n t r o p yo fe v e r ys i g n a lp o i n t s i nas l i d i n gw i n d o w c o m p a r e dw i t ht h et r a d i t i o n a jd e t e c t i o nm e t h o db a s e do nb a y e s i a ni n f o r m a t i o n c r i t e r i o n ( b i c ) ,t h em e t h o dc a nd e t e c tt h ea c o u s t i cc h a n g ep o i n tm o r ea c c u r a t e l y , e s p e c i a l l yf o rm a tb e t w e e nt w os h o r ts i g n a l s t h em l l r a d a p t a t i o nm e t h o dh a sb e e nw i d e l yu s e di nt h es p e e c hr e c o g n i t i o n s y s t e m t h et r a d i t i o n a lm l l ra d a p t a t i o nm e t h o dd e f i n e st h er e g r e s s i o nc l a s s e sb a s e d o nt h ea s s u m p t i o nt h a ta 1 1t h eo u t p u td i s t r i b u t i o n sc l o s ei no r i g i n a la c o u s t i cf e a t u r e s p a c es h o u l db et i e da n dt r a n s f o r m e dt o g e t h e r , w h i c hm a yn o tb ev a l i di ns o m e c a s e s 1 no r d e rt oo v e r c o m et h ed r a w b a c ko ft h ea s s u m p t i o n ip r o p o s e dat a r g e t d r i v e n m l l ra d a p t a t i o na l g o r i t h mw i t hm u l t i p l el a y e rs t r u c t u r e ,i nw h i c ht h er e g r e s s i o n c l a s s e si sd e f i n e di no r d e rt oh a v et h em a x i m i z i n gi n c r e a s eo ft h ei i k e l i h o o do ft h e a d a p t a t i o nd a t a i nc o m p a r i s o nw i t ht h et r a d i t i o n a lm l l ra d a p t a t i o nm e t h o d ,t h e n e wa l g o r i t h mg i v e sa b o u tl o r e l a t i v ee r r o rr e d u c t i o na n dc a u s e sl e s sc o m p u t a t i o n l p a d c o n t i n u o u ss p e e c hr e c o g n i t i o nt e c h n o l o g yi st h em o s ti m p o r t a n tt e c h n o l o g yi n t h eb r o a d c a s t i n gr e c o g n i t i o ns y s t e m am e t h o db a s e do nf e a t u r es p a c et r a n s f o r mi s p r o p o s e d t om o d e lc o r r e l a t i o n sb e t w e e nf e a t u r ee o e f f i c i e n t s i nt h em e t h o d , s t a t e s p e c i f i e dr o t a t i o n ( s s r ) t r a n s f o r mg e n e r a t e sr e f i n e dm u l t i p l em i x t u r ed i a g o n a l g a u s s i a nm o d e l sf i r s tb yr o t a t i n gt h ef e a t u r ev e c t o r si ne a c hs t a t et oa nu n c o r r e l a t e d n e wf e a t u r es p a c e b e c a u s et h ea c o u s t i cm o d e lg e n e r a t e db ys s rm e t h o dh a sm u c h c o m p u t a t i o nl o a dd u r i n gd e c o d i n g ,at y i n gm e t h o du s i n gt h eo p t i m i z a t i o ns t r a t e g yo f s e m i t i e dc o v a r i a n c et r a n s f o r m ( s t c ) i sp r o p o s e dt ot i et h ef e a t u r e - s p a c et r a n s f o r m m a t r i xa m o n gd i f i e r e n ts t a t e s e x p e r i m e n t so nl v c s rt e s ts h o w e dt h a tt h em e t h o d c a na c h i e v en e a r l y2 0 r e l a t i v ee r r o rr e d u c t i o n sc o m p a r e dt ot h et r a d i t i o n a id i a g o n a l g a u s s i a nm o d e l i n gm e t h o da n dc a u s el e s sc o m p u t a t i o nc o s td u r i n gd e c o d i n g k e y w o r d s : b r o a d c a s t i n gs p e e c hr e c o g n i t i o n ,b r o a d c a s t i n g s p e e c h s e g m e n t a t i o n ,a d a p t a t i o n ,s t a t e - s p e c i f i cr o t a t i o n ,s e m i t i e dc o v a r i a n e em o d e l i n g i i 独创性声明 本人声明所提交的论文是我个人在导师指导下迸行的研究工作及取褥的研究成果。尽我所知 除了文中特别加以标注和致谢的地方外,论文中不愈含其他人已经发袭或撰写过的研究成鬃。与 我同工作的同志对本研究所做豹饪何贯献均器在论文中作了嚼确媳说明并表示了谢意。 签名:困期 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关僳鳃、使用学位论文懿娥定,韶:中圆科学 动化研究所有投僳留送交沦文豹复印件,允许论文被查潮和借阗;可以公布论文的全部或辩 容,可以采用彩印、缩印或其匏复制手段保存论文。 签名: ( 保密豹论文在瓣密艏应遵守此援定) 一导师签名: 嗣期: 第一孽汉语“播电视新闻语音识别概述 第一章汉语广播电视新闻语音识别概述 1 1 广播电视新闻语音识别研究的意义 目前,语音识别技术在实验室条件下已经相当成熟进入实用发展阶段。 商业产品大量涌现,这方面包括计算机用户的语音服务,如语音命令、听写报 告等,以及电信业务方面的自动寻呼和语音拨号等。另方面,研究者们也在 对提高语音识别系统的应变能力进行更加深入的研究。在这些方面的研究t 作 中,最引人瞩目的应当要算广播电视新闻的语音识别系统的研究和开发了。 广播电视新闻节目的连续的音频信号段中包含了大量的不同声学和语言学 特征的信号段,不同信号段的语音既有猛烈的突变,也有平缓的过渡。信号的 质量既有可能是播音室的高保真信号,也可能是经过电话或其他含噪声通道传 送的有限带宽信号,或是在音乐背景下的语音混合信号或是纯声音信号。除此 之外,仅对语音信号而言,说话人的口音也是形形色色,既有新闻播音员、脱 f i 秀主持人,也有地方e l 音浓重的普通百姓和语音不地道的外国发音者。针对 这样的变化多端的语音信号,如果用实验室里的纯净语音训练出来的声学模型 进行识别,显然不能得到很好的识别效果。因此,开发广播电视新闻的语音识 别系统对传统的语音识别技术提出了若干挑战:首先是如何将连续的音频信号 分割成相互独立的音频信号段,然后把与语音信息无关的背景音乐信息和噪声 信息去除掉。只有这样才能采用现在的实验室里的连续语音技术对广播电视新 闻语音进行识别。除此之外,还要解决重叠语音信号的分离问题,非自然流利 的口语语音识别问题,不同人的发音方式和方言口音对语音识别系统的影响, 环境与背景噪声以及信道情况对语音识别系统的影响等等。 要综合解决这些问题,除了需要建立连续语音信号的自动分段和分类系统 之外,就要在现有的语音识别技术基础之上探索建立更精细的声学模型,更强 有力的语言模型和更新的语音识别方法,使系统对不同的发音方式,方言和口 音以及不同的声学环境等因素的变异不敏感,提高系统适应环境的能力,使语 音识别系统走向实用化,让计算机能够真正听并且理解所听的内容。从而提高 计算机对不同任务的适应性和灵活性,拓展计算机技术的实用范围,让计算机 更好的为人类服务。 汉语r 播电视新闻语音识别 广播电视新闻语音识别的研究的意义主要有以下几个主要方面: 为语音识别技术的实用化发展做准备。语音识别技术要想走向实用,必须 使语音识别系统能在实际应用环境下保持较高的识别性能,对说话人、方言口 音、麦克风、声学环境、讲话内容等方喵的变化保持一定的鲁棒性。而广播电 视新闻节日,不但包括了上述实际应用环境中的各种复杂声学特征,并且易于 收集数据,形成统一的评测标准。因此,广播电视新闻节日的语音识别研究对 于语音识别的实用化发展而言,是一个理想的研究方向。 为实现多媒体信息的语音检索做准备。随着现代信息技术特别是多媒体技 术的发展,数据急剧增加,如何在海量的数据中进行检索,提取出有用的信息 对于合理的信息利用是很重要的。广播电视新闻语音识别的一些关键性技术, 例如自动分割技术等,可以把多媒体信号根据音频特征的不同分割开来,为结 合图像的多媒体场景分析做准备。除此之外,根据广播电视新闻语音识别的识 别后的结果,又可以建立多媒体新闻的语音索引,利用这个索引对现有的广播 电视新闻节目数据库进行有效的检索,可以极大的提高人们对广播电视新闻等 多媒体信息的利用率,同时也为其它的多媒体信息的内容检索提供了一条依靠 语音来进行检索的可行的方案。 为进一步研究和开发更好的连续语音识别系统做准备。广播电视新闻语音 识别是国际上评价语音识别系统性能的一个重要的评价标准。它有公共的声学 模型和语言模型的训练语料,也有公共的测试集,还有固定的系统评测方案。 从是广播电视新闻语音识别的研究有利于于国际接轨,更好的提高我们的连 续语音识别水平,促进全世界范围的语音识别水平的提高和进步。 1 2 国内外研究现状 1 2 1广播电视新闻语音识剐的发展历史 在国际上广播电视新闻记录检索系统起源于美国国防部高级研究计划部 ( d a r p a ) 下属的信息技术处( i n f o r m a t i o nt e c h n o l o g yo f f i c e ) 所资助的人类语言 系统( h u m a nl a n g u a g es y s t e m ) 项目中的语音技术部分。该项目的总的1 7 1 标是 让计算机具备听的能力,并能理解所听的内容。d a r p a 将这个项目分成很多项 目,有很多家高校和研究机构来完成。其中参与口语识别与理解方面项目的研 究机构或高校有b b n ,c m u ,m i t 和科学应用公司等。 为了对国际上广播电视新闻记录检索系统的技术发展进行衡量,美国 第一幸汉语r 播电视新闻语音识别概述 n t s t ( n a t i o n a li n s t i t u t eo fs t a n d a r da n dt e c h n o l o g y ) 每年都要举行一次性能评测, 这个语音技术评测基本上代表了当今世界语音技术的最高发展水平。9 5 年第一 次测试时,所有参加测试的研究机构都没有对广播语音进行识别的经验,冈此 这次测试又被称为演习测试。参加测试的有四家单位( i b m 、c m u 、b b n 等) 。 这次测试所采用的基本识别技术仍然是大词汇量连续语音识别技术( l v c s r ) ,测 试的语料没有按照声学状况的类别进行分割( s e g m e n t a t i o n ) ,最后的测试结果很 小尽人意。在测试后举行的研讨会上,与会者认为,对于这种混合类型的语料 的识别必然要先将语音段按照声学条件类型进行分段,然后针对各个不同的声 学特征段进行分类识别。于是在1 9 9 6 年初的研讨会上,参加会议的几家研究机 构讨论并制定了分类( p a r t i t i o n e ) 测试协议。在处理测试数据以及对测试结果总结 时都采用了分类评测,以便于把研究重点集中在复杂声学条件的语音识别的研 究。分类识别是把声音条件相似的声音环境放在一起进行识别,用以降低误识 率。在当时的分类协议中,声学条件的分类是根据语料中的口音、讲话方式、 保真度和复杂声学条件等进行划分的【l 】。 表1 - 1n i s t 广播新闻自动记录测试系统测试数据声学条件分类 类别口音讲话方式保真度背景 基本播音f 0母语文稿式高纯净 口语播音f l母语口语式高纯净 有限带宽f 2母语任意方式中低纯净 含背景音乐f 3母语任意方式高音乐 退化声学模型f 4母语任意方式高语声或其它噪声 非母语讲话人f 5非母语文稿式高纯净 所有其它类别f x 显然,以前传统的大词汇量连续语音识s i j ( l v c s r ) 技术对基本类型f o 的语 音的识别效果最好。对f l 和f 2 以后类别的识别效果就逐渐下降。针对这种情 况,各个参加评测的单位分别采用了分类无监督自适应的方法来提高广播电视 新闻语音识别的鲁棒性。这种方法首先是在广播语音的前端信号分析过程中根 据说话人和说话通道的不同对广播语音的音频信号进行聚类,把属于同一个说 话人和属于相同的说话通道的语音划分为一类,然后对相同一类的语音采用无 监督自适应的方法来提高这一类语音的识别效果,从而提高整体的广播电视新 闻语音识别的识别率。 从1 9 9 6 年以后,参加评测的研究单位逐年增加,各个在语音研究方面有实 汉语r _ 播电视新闻语音议别 力的研究单位也纷纷参加评测,以比较其自身的识别系统的识别能力。9 6 年参 加的有八个单位的九个研究组,评测的内容只限于英语。从1 9 9 7 年开始,也逐 渐开始进行非英语的语种的评测,参加评测的非英语语种为汉语和西班牙语。 汉语普通话的测试结果的总的平均字的误识率为:i b m 的系统是1 9 8 ,d f a g o n 系统为2 0 2 1 2 】。虽然1 9 9 8 年以前的系统都能够成功的把误识率降低到2 0 以 内,但是一般系统识别的识别时间都比较长。各个参加评测的单位,为了提高 识别率,都采用了各种复杂的多遍解码和自适应技术,系统的运行时间经常在 1 0 0 倍的实时左右。从1 9 9 8 年开始,n i s t 的广播电视新闻语音识别的评测方案 中又对广播电视新闻语音识别的识别速度有了进一步的要求,即广播电视新闻 的识别速度被限制在1 0 倍实时的范围以内( 识别系统采用一个c p u ) ,参加的各 个单位必须给出识别程序的各个环节的c p u 时间和内存使用情况的书面技术报 告。这表明广播语音的识别正在进一步向实用化发展。在识别速度的l o 倍实时 的要求下,1 9 9 9 年汉语普通话的测试结果的总的平均字的误识率为:i b m 的系 统是1 7 1 ,d r a g o n 系统是2 0 6 【3 1 。 在国内,广播电视新闻语音识别的研究和发展才l 目l n i j 起步,还没有成熟的 广播电视新闻语音识别系统出现。 1 2 2国外广播电视新闻语音识别系统和识别技术概述 ( 1 ) 下面首先列举出i b m 的1 9 9 8 年汉语普通话广播电视新闻语音识别的训 练数据、测试数据【4 】: 表1 - 2i b m 的汉语普通话识掰系统的训练和测试语料 声学模型训练语料l d c1 9 9 7 ( h u b 4 ) 汉语普通话训练数据 集。这批数据集中共有可用于训练的语 音数据2 6 个小时,数据集中共有8 3 4 个说话人,男女声各一半。训练语料分 别来自v o a 的新闻节目,c c t v 的新 闻联播节目和来自l o sa n g e l e s 的 k a z a 。 语言模型的训练语料带美国口音的v o a 新闻、人民日报新 闻、北京日报新闻、北京晚报新闻、中 国青年报瓤闻、市场导报新闻、国家新 闻出版署新闻、解放军报新闻等新闻体 第一章汉语“播电视新闻语音识别概述 【 语料和语音训约i 数据的文本。 l 测试语料l d c1 9 9 7 ( h u b 4 ) 汉语普通话语料测试 集。测试语料的数据源与训练语料相 同,没有任何可供识别过程使用的注解 信息。 下面给出i b m l 9 9 8 年汉语普通话识别系统简述 表l 一3i b m 的汉语普通话识别系统 系统前端的特征提取每帧的语音提取出2 5 维m e l 一倒谱特 征,维能量特征,一维基频特征,然 后把相邻9 帧的特征合并在一起进行 l d a 和m l l t 变换。最后每一帧语音 提取出6 3 维的特征向量。 系统的声学模型训练训练语料为l d c1 9 9 7 ( h u b 4 ) 汉语普通 话训练数据集。采用基于决策树的三音 子模型。决策树的是否继续分裂条件变 为由b i c 准则进行控制。在决策树生成 三音子模型后,分别采用s a t 和c a t 进行训练。模型训练后生成的声学模型 有两个:小模型有2 8 0 0 个状态,3 0 k 的高斯。大模型有3 0 0 0 个状态,3 3 k 的高斯。 语言模型采用上述语言模型的训练语料分别生 成四个语言模型,这四个语言模型的最 优结合权重分别在语言模型的1 1 练中 给出。 搜索技术 采用被称为e n v e l o ps e a r c h 的搜索算 法。这种算法是把a 搜索和时间同步的 v i t e r b i 搜索结合起来的时间异步的搜 索算法,具有较快的速度和较高的精 度。在时间同步的v i t e r b i 搜索占主导地 位的今天,这种时间异步的搜索算法仍 然被i b m 、m i t 的l i n c o l n 实验室和目 鲨堕! :塑皇堡堑塑堕童望塑! l i ! 塑墨壅墅塞量墨旦:f ( 3 ) 下面给出i b m 系统各个关键技术环节的实验结果【5 ,6 】 首先是特征层结果: 表l - 4 声学模型大小和不同的前端处理方法的比较 s m a l i a m b i g g e ra m 2 5 d i m 2 5 9 2 5 5 l d a 2 1 1 2 0 6 l d a + m l l l 2 0 3 1 9 5 g e n l d a 1 9 7 1 8 8 其次给出使用b i c 准则进行模型优化时的结果。表1 - 5 中的参数n a m m 指 的是控制模型复杂度的加权系数。由于汉语普通话的这一实验结果没有给出, 本报告给出i b m1 9 9 8 年英文评测的评测结果: 表1 - 5b i c 模型和普通模型的比较 # g a u s s i a na j j s t a n d a r d9 0 k2 6 o n a m t a = 1 0 09 0 k2 5 2 n a m t a = 0 6 51 7 8 k2 4 2 n a m t a = 0 4 52 8 9 k2 3 5 再给出i b m 系统的前端广播语音分割系统的分割结果,由于汉语普通话这 一结果没有给出,本报告给出i b m l 9 9 8 年英文评测的评测结果: 表1 - 6手工分割的识别结果和自动分割的识别结果的对比 a l lf 0f if 2f 3 f 4f 5f x s t a n d a r d l1 8 08 91 9 92 7 92 9 4 1 2 92 4 82 5 2 i b m l1 8 3 8 91 9 62 8 82 8 81 3 12 2 42 6 5 s t a n d a r d 21 5 19 61 6 52 0 31 6 01 8 41 5 74 0 2 i b m 21 5 19 51 6 22 0 31 6 。41 8 o1 2 94 0 3 再给出i b m 系统的自适应算法的自适应结果,由于汉语普通话这结果的 给出有些模糊不清,本报告给出i b m l 9 9 8 年英文评测的评测结果: 第章汉语j 、播电视新闻语音识别概述 表i 7白适应模型前后的识别率的比较 a i if 0f lf 2f 3f 4f 5f x 2 8 9 k b a s e1 751 0 71 7 72 6 52 3 92 1 91 7 53 4 4 m l l r + v a r ( f u l i ) 1 5 69 81 6 22 1 22 1 32 041 4 63 2 3 c a t 十m l l r1 5 29 5l5 52 1 32 1 3l8 91 5 23 2 1 s a t + m l l rl5 19 61572 0 32 0 81 8 11 5 2 3 1 7 最后给出的是1 9 9 8 年国际上知名语音识别研究单位的英语评测的总的结果f 3 1 嚣 差 薹 舯 笛 棚 5 n 5 q 图l l1 9 9 8 年英语评测的各系统比较 从国际上的各个语音识别研究机构的研究进艘来看,对广播电视新闻语音 识别影响最大的技术就是自动分段技术和自适应技术。另外,在i b m 的系统中 作为连续语音识别技术的重要组成部分区分度的特征提i 玻( l d a ) 技术也对 系统的识别率的提升贡献不小。 1 2 3 广播电视新闻语音识别的技术特点 从上面的分析可以看出,广播电视新闻语音识别技术是结合连续语音识别 技术、音频的自动分割技术和无监督自适应技术的一项高难度和高复杂度的语 音识别技术。由于在听写机系统中已经对连续语音识别技术有了广泛的讨论和 研究,本报告在这里主要讨论广播电视新闻语音识别区别于普通的连续语音识 别的主要技术特点:广播电视新闻语音识别的自动分段技术和广播电视新闻语 音识别的分类自适应技术: 广播电视新闻语音识别的自动分段技术 广播电视新闻节目中包含了大量的不同声学和语言学特征的信号段,在信 号段之间语音既有猛烈的突变,也有平缓的过渡,信号的质量既有播音室的高 汉语广播电视新闻语音识矧 保真信号,也可能是经过电话或其他含噪声通道传送的有限带宽信号,或是在 音乐背景下的语音或是纯声音信号。除此之夕 ,仅对语音信号而言,说话人的 口音也是形形色色,由新闻播音员,脱口秀主持人、地方口音浓重的普通百姓、 语音不地道的外国发音者。面对这样复杂的变化多端的信号,在实验室里用纯 净语音训练出来的声学模型,显然是不能完成识别任务的。因此,广播电视新 闻语音识别的关键性技术之就是广播电视新闻的自动分割技术。 广播电视新闻的自动分割技术是指根据不同种类的语音的声学特征的小 同,把一段连续的音频新闻按照说话人身份的不同、背景噪音的不同、说话通 道的不同和背景音乐的不同等,划分成各个独立的音频数据段,然后抛弃掉与 语音信息无关的音乐和噪音部分,最后把属于同一个人或同一类人的音频数据 划分为一类,为广播电视新闻语音识别以及以后的音频数据检索做准备。 广播电视新闻语音识别的分类自适应技术 广播电视新闻节目中也包含了大量的不同声学和语言学特征的信号段,用 实验室里的纯净语音训练出来的单一的声学模型显然不能够适应这种复杂声学 场景的识别问题。而由于资源的限制,我们又不可能针对每一种类别的声学特 征都建立特定的声学模型。因此在广播电视薪闻语音识别的发展初期,如何对 这些声学特征不同的信号段进行识别,一直是困扰研究人员的一个难题。广播 电视新闻语音识别的分类自适应技术就是为了解决这种多种复杂声学场景混合 的语音识别问题而发展起来的。 由于在上一步的分割系统中已经能够把属于同一个说话人或相同声学特征 的语音划分成一类,这就为识别系统利用自适应技术分别对这些具有同一个说 话人或具有相同声学特征的语音段的分类识别打下了坚实的基础。自适应技术 主要是利用特定说话人和特定发声环境的少量语音数据。对模型参数或者特征 参数进行自适应调节,使非特定人( s p e a k e ri n d e p e n d e n t ) 的语音识别系统的识别 效果接近特定人( s p e a k e rd e p e n d e n t ) 的语音识别系统。应用这种技术,在识别每 一段具有相同说话人或相同声学特征的语音数据时,可以对最初识别系统中的 声学模型的参数进行自适应调节,提高识别系统对每一类语音的识别率。自适 应技术已经成为国外绝大多数广播电视新闻语音识别系统中一种不可缺少的关 键技术。 自适应技术按照自适应数据的语音内容是否已知可以分为有监督自适应和 无监督自适应两种。这两种自适应技术都可以被应用到广播电视新闻的识别当 中。有监督自适应技术是在待识别的说话人的少量语音数据的文本内容己知的 时候,为了提高识别系统对特定说话人的识别率,对声学模型参数进行自适应 第一章汉语j 、播电视新闻语音识别概述 调节的自适应方法。在广播电视新闻语音识别中,也可以采用少量的经过手丁 标注的自适应数据,对播音员的语音进行有监督自适应。无监督自适应技术通 常是指等待自适应的语音文件的内容在自适应前是未知的,进行自适应时必须 估计出这些语音文件的文本内容,然后再利用这个估计出的文本内容进行声学 模型的参数调节。通常情况下,这个文_ :奉= 内容是通过识别过程来估计的。相比 于文本内容已知的有监督自适应,这种无监督自适应的一个主要问题就是通过 识别所估计出的自适应语音的文本内容会产生的错误,而这个错误会大大影响 自适应的效果。所以当前的广播语音系统中大都采用多遍的极大似然线性回归 ( m l l r ) 自适应方法f 2 3 】( 包括标准的只对均值进行自适应的m l l r 和同时对均值 和方差进行自适应的c o n s t r a i n e d m l l r 7 ) 。在这种多遍自适应方法中,每次自 适应结束以后,都会利用更新过的声学模型重新开始对未知内容的语音进行新 的识别,然后利用这个识别结果重新开始自适应过程。这种多遍m l l r 自适应 的自适应变换类的数日也是逐渐增加的,其原因也是因为开始时的识别文本错 误比较多,在这种情况下,自适应变换类的数目应该比较少,必须依靠正确识 别出的音素的发音来纠正识别锩误的音素的发音,然后逐渐的增加自适应变换 类的数目,最大限度的利用有限的自适应语音数据来提高最终的识别率。因此 我们可以看出正是由于广播语音的这种无监督自适应的要求决定了我们设计自 适应算法的基本原则。 近年来,国际上出现了将自适应算法应用于模型训练的模型自适应训练方 法,比较有代表性的是说话人自适应训练s a t ( s p e a k e ra d a p t i v et r a i n i n g ) 8 和说话 人分类自适应训练c a t ( c l u s t e ra d a p t i v et r a i n i n g ) 1 9 1 。用这种模型的自适应训练 算法训练出来的声学模型,具有较小的方差和比较紧凑( c o m p a c t ) 的特点 1 0 】,能 够把各种不同声学特征的训练数据与语音信息无关的特征( 比如说话人特征) 去除掉,最大可能的使模型反映语音的声学特征。i b m 首先将这种自适应训练 算法应用于广播语音的声学模型训练过程中并且在1 9 9 8 年的汉语广播语音频 评测中取得了较好的效果( 误识率下降0 5 个绝对百分点) 。 在1 9 9 8 年以后的参加评测的系统中,绝大多数系统都只是采用m l l r 自适 应方法。在有些系统中( 如1 9 9 9 年的b b n ) 【l l 】,为了提高自适应速度,用l s m r 代替m l l r ,在基本上保存原来的自适应效果的基础上,提高了自适应时的 算速度。 汉语广播电视新闻语音识别 1 3 n l p r 汉语连续语音识别技术分析( 论文工作基础) 从报告前面的分析我们可以看出,自动分段技术、自适应技术和连续语音 识剐技术是广播电视新闻语音识别技术的三个主要的技术难点,现在本文简单 的阐述我们研究组( n a t i o n a ll a b o r a t o r yo fp a a e mr e c o g n i t i o n ) 的现有的语音识别 研究的技术现状。熟悉我们现有的语音识别技术,能够更好的为开发和研制广 播电视新闻语音识别系统做准备。 ( 1 ) 汉语大词汇量连续语音识别技术的声学模型的建立 n l p r 的声学模型部分采用国际上主流的两音子( b i p h o n e ) 建模和三音子 ( t r i p h o n e ) 建模u 2 ,1 3 。在进行三音子建模时,国际上主流的输出分布共享算法有 基于状态聚类的三音子模型状态间共享方法【1 4 】和基于决策树的三音子模型的 状态间共享方法i 1 5 ,1 6 。n l p r 采用通过决策树的方法进行的三音子模型的状 态间共享【1 7 】。这种方法可以融合语音学的先验知识,采用数据驱动机制,以训 练数据的似然概率最大的增加为目标进行模型的状态间共享,可以在三音子模 型的模型复杂度和有限的训练数据之间做很好的折衷。而且基于决策树的状态 间共享很好的解决了宋出现的三音子模型的状态预测问题,从而为连续语音的 高精度识别探索出了一种具有一致性和可训练性的声学建模方法。 ( 2 ) 汉语作为一种特殊韵有调语膏钓在谱奢识掰鬟晨历史上的独特之处 汉语是一种的有调语言决定了汉语的除了采用常用的语音识别方法外,还 拥有自身的许多特点。对声调的建模问题是汉语语音识别不同于其他语种的关 键问题。 汉语有五种语调:一声、二声、三声、四声和轻声。汉语中超过3 0 的词 如果没有语调的区分的话将难于辨别。因此对汉语而言,如何正确进行声调建 模对汉语大词汇量连续语音的识别具有举足轻重的作用。通常用的汉语语调建 模有两种方法,一种是对声调和音素的本身的分别建模 i s l ,另一种方法就是把 声调信息和声调的一阶差分信息直接的结合到模型的特征里面,用颗的特征进 行模型的训练和识另l j 1 9 1 。在这类方法中,最有效的和富有创意的就是n l p r 的 使用决策树来进行声调的建模 2 0 1 。决策树可以在语音学的先验知识的引导下, 依靠数据驱动的原则对马尔科夫模型的状态间进行合理的共享,成功的解决了 三音子模型的模型复杂度和训练数据之间的矛盾。在利用三音子模型进行声调 建模过程中,声调的语音学先验知识被总结成决策树的问题而划归到问题集中, 在进行输出分布共享的时候,声调问题和其他的语音学问题是同等权重的被用 筛争汉语j 播电视新闻语音识别概述 作决策树分裂的问题依据的。这样的话,在输出分布共享过程结束以后,所产 生的三音子模型都是与声调特征有关的三音子模型。这样的依靠声学特征的先 验引导和数据的自身驱动机制,卢调建模和原先的没有声调的三音子建模融为 一体,很完美的解决了汉语这种有调语言的声调建模问题。在识别的时候,搜 索过程是在一个有调的词树上进行的,这样的话就可以根据声调的1 i 同来搜索 到小同的模型,高速有效的得到识别结果。 ( 3 ) 大词汇量连续语音识别的搜索技术 当前,国际上主流的搜索算法仍然是基于帧同步的动态规划方法。这种基 于帧同步的动态规划搜索的主要优点是可以结合高效的裁减技术和融合很多其 他的知识源,比如说语言模型和词数等。这对于把这种搜索方法应用到大词汇 量连续语音识具有至关重要的作用【2 1 1 。n l p r 研究组已经成功研究出国际领先 的遍搜索算法,这种算法仍然属于基于帧同步的动态规划方法。相对于多遍 搜索算法而言,这种搜索算法能够有效的融合多种信息源,更加准确地进行裁 减和预测。该算法主要特征描述如下: 第:语言模型的一次性利用,这样可以更加有效地进行语言模型的预测 和有效的进行裁减。 第二:把基于帧同步的动态规划算法扩展到基于声学词树上的帧同步的动 态规划算法。这种基于词树的搜索算法,可以以一种很有效的结构来组织搜索 的空间,可以使得搜索空间变得更加有序,使高速有效的搜索成为可能。在这 种搜索结构下,语言模型的使用也是可能的,这就更好的为多种知识源更有效 的被引入到识别系统中创造了条件。 第三:动态的构建搜索空间。在大词汇量连续音的搜索算法中,搜索空间 彳i 再是静态的和一成不变的,而是在搜索过程中动态的发生变化,随着路径的 合并、路径裁减、路径的历史纪录的改变、路径在词树上的位置的改变等,每 一条路径的搜索空间都在动态的发生改变,这种动态构建的搜索空闯可以有效 利用计算机的硬件资源以及高效有序的遍历庞大的搜索空间。 第四:更加有效的裁减技术。在大词汇量连续语音的识别系统中,在做裁 减的时候引入语亩模型的预测概率,这样就可以进行更加可靠的裁减,提高搜 索的准确性。 f 4 ) 自适应技术 自适应技术主要是利用特定说话人和特定发声环境的少量语音数据,对模 型参数或者特征参数进行自适应调节,使非特定人( s p e a k e ri n d e p e n d e n t ) 的语音 识别系统的识别效果接近特定人( s p e a k e rd e p e n d e n t ) 的音识别系统。经过近几 汉语j7 播电 ;! i ! 新闻语音l 别 年的研究,在模型端进行自适应调节的m a p 2 2 1 和m l l r 2 3 1 获得了一定的成 功。m a p 是在自适应数据比较多时较为常用的方法,它根捌所获得的自适麻数 据,对每个模型的模型参数都进行独立的调节。可以证明,在数据量足够大 时,用m a p 自适应的非特定人语音识别系统的模型参数是收敛于基于m l 准则 的特定说话人的语音识别系统的模型参数的。而m l l r 则是在自适应数据比较 少时较常用的方法。m l l r 根据所有的自适应数据对语音识别系统的所有模型 输出分布的均值参数都乘上一个相同的线性回归矩阵,一次性的对所有模型的 参数进行统一调节,提高语音识别系统的识别率。基于自适应回归树的m l l r 算法是一种基于数据驱动原则的m l l r 自适应算法 2 4 ,2 5 。它首先对语音识别 系统中的所有的模型输出分布按照一定的概率距离准则进行聚类,根据自适应 数据在每一类中出现的数目的多少决定聚类的数目的多少,然后根据概率距离 较近的输出分布可能享有相同的m l l r 变换这一先验知识对每一类进行一次标 准的m l l r 变换,最大限度的利用有限的自适应数据提高系统识别率。 1 4 开发广播电视新闻语音识别系统所需解决的技术难点 n l p r 实验室在进行语音识别的研究方面进行了很长时间的积累,而且在汉 语连续语音昕写系统的研究和开发方面积累了很多宝贵的经验。但是对于开发 广播语音的连续语音识别系统,n i g r 实验窒在l ;【下几个方面还有所欠缺: 首先:广播电视新闻语音识别系统需要一个自动分段系统来把连续的一段 语音分割成具有相同属性的成各个独立的音频数据段,然后抛弃掉与语音信息 无关的音乐和噪音部分,最后把同一个人或是同一类人的音频数据划分为一类。 通过自动分段系统,可以把具有相同特征的语音划分在一起,为以后的分类识 别做准备。 其次:由于广播电视新闻语音识别系统采用的是分类识别的方法,因此自 适应技术在广播语音的识别中会有很广泛的应用。n l p r 实验室的基于自适应回 归树的自适应方法在听写机系统中能蟛取得很好的效果,但是这种方法是依靠 一定的先验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 棉花纤维质量分析工艺考核试卷及答案
- 浆料复卷工艺考核试卷及答案
- 芳烃抽提装置操作工突发故障应对考核试卷及答案
- 聚氨酯弹性层施工规范考核试卷及答案
- 信息技术考试试题及答案
- 信息技术发展试题及答案
- 中医诊断学基础知识点试题测试卷
- 银行债券笔试题库及答案
- DB33-T 1261-2021 全装修住宅室内装修设计标准 附条文说明
- 银行写作试题及答案
- 人力资源知识竞赛题库及答案
- 地铁轨道安全培训报道课件
- 2025年征信题库及答案
- 传染病及其预防(第一课时)课件-2025-2026学年人教版生物八年级上册
- (2025秋新版)二年级上册道德与法治全册教案
- 老挝药品注册管理办法
- 2025年社工工作者考试真题及答案
- 建设工程项目协同作业方案
- 同城理发店转租合同范本
- 问题解决策略:反思 课件 北师大版数学八年级上册
- 2025年国防竞赛题库及答案
评论
0/150
提交评论