




已阅读5页,还剩119页未读, 继续免费阅读
(模式识别与智能系统专业论文)汉语广播语音识别系统的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 广播语音识别技术的研究是当前大词汇量连续语音研究的一个热点问题。广 播电视新闻节目包括了说话人、方言口音、声道变化、声学环境的一系列声学 的复杂特征,对于语音技术的实用化研究是一种理想的研究对象,对于语音技 术走向实用化方砸有着重大的意义。本文针对广播语音识别系统中的关键问题, 在以下几个方面进行了广泛和深入的研究。 首先,在广播语音的音频数据切分方面,本文提出了种基于检测熵变化趋 势的变窗长音频特征跳变点检测方法。本文提出的方法在一个固定的数据窗内, 通过检测窗内所有可能跳变点的熵的变化趋势来最终确定真实的音频跳变点。 这种方法不同于传统的基于b i c 准则的音频跳变点检测方法,避免了由于设定 固定门限而导致引起漏检和数据积累带来的累积误差。在分类的过程中,用分 组高斯方法代替传统的高斯混合模型( g m m ) 分类器,取得了更加准确的分类结 果,实现了快速高效的基于矢量量化的多码本聚类算法。 其次,在广播语音识别系统的自适应训练方面,本文提出了一种基于子空间 聚类的多层m l l r 自适应算法,这种算法在子空间框架下对高斯模型进行聚类, 基于目标驱动的原则,通过引入反馈机制,根据自适应数据的似然概率的增加 动态的决定自适应变换类的数目。通过采取子空间聚类的策略,大大减少了待 估计参数的数目。实验结果表明,本方法在自适应数据比较少的情况下,有着 比传统基于自适应回归树算法更高的识别率。在无监督自适应方面,本文对可 信度机制做了一些探讨,通过合理的引入可信度机制可以提高系统无监督自适 应的性能。 最后,在广播语音的声学建模方面,针对现有对角方差建模的缺陷与不足, 在空间旋转变换的理论基础上,结合部分方差共享( s t c ) 的模型补偿方法,本文 提出一种基于共享状态空间旋转变换的相关特征建模方法( 1 _ y i n gs s r ) 。通过状 念空间旋转变换方法( s s r ) ,在变换后的新的特征空间实现解相关的目的,在新 的不相关的空间采用对角方差建模技术对声学特征进行精确建模。以似然概率 损失最小为原则,对变换矩阵进行合并共享,通过b i c 准则方法确定最终的合 并类数,最后用部分方差共享技术对变换矩阵的参数进行模型补偿和重估。避 免了由于变换矩阵过多,在识别解码阶段增加系统的存储空间和运算量的增加。 :一垫墨 关键词: 广播语音识别系统,音频分割,说话人自适应,方差建模技术 i i a b s t n 目c t a b s t r a c t b r o a d c a s tn e w sc o n t i n u o u ss p e e c hr e c o 印i t i o ni sah o tq u e s t i o n t h ed a t ai n b r o a d c a s t sa r en o th o m o g e n e o u s ,a n di n c l u d eas e r i e so fa c o u s t i c a lc h a r a c t e r i s t i cs u c h a ss p e a k e rs t y l e s ,d i a l e c ta n da c c e n t ,c h 籼e 1v a r i e t y 柚da c o u s t i c a le n v i m n m e n t s b r o a d c a s t sa r eap e r f e c t l yr e s e a r c h o b j e c tf o rs t i l d yp r a c t i c a l l ya b o u ts p e e c h t e c h n 0 1 0 9 ya i ma ts e v e r a lk e yp r o b l e m so fb r o a d c a s tn e w ss p e e c hr e c o g n i t i o n ,i p r e s e n tt h er e c e n tp r o 铲e s so ni m p r 0 v i n gt h ep e r f o r n l a l l c ef o rm a n d a r i nb m a d c a s t n e w ss p e e c hr e c o g n i t i o ns y s t e m f i r s t ly ,an o v e lm e t h o df b ra c o u s t i cc h a n g ep o i md e t e c t i o ni sp r o p o s e d t h e m e t h o dd e t e c t sc h a n g ep o i n tb yc h e c k i n ge n n o p yc h a n g e 缸n do fa l ls i g n a lp o i n t si n s l i d es h i n i n gv a r i a b l e s i z ed a t aw i n d o w s d i 日 e r e n tf m m 订a d i t i o n a ld c t e c tm e t h o d b a s e do nb a y e s i a ni n f o m a t i o nc r i t e r i o n ( b i c ) ,f 酗it od e t e c ta i l de r r o ra c c 砌u l a t i o n a r ea v o i d e df b re s t a b l i s h i n gf i x e dt 1 1 r e s h o l di nt h ec h e c k i n ge n 仃d p vc h a n g em e t h o d s o nt h ec l a s s i f i c a t i o np a n ,t r a d i t i o n a lg m mi sr c p l a c e db vc o m p o n e n tg r o u pg m m ( c gg m m ) ,m o r ea c c u r a t ec l a s s i f i c a t i o nr e s u l ti sg o t t e n s e c o n d l y m u l t i 一1 a y c rs t n l c t u r em l l ra 出p t a t i o na l g o r i t h n lw i t h s u b s p a c e r e g r e s s j o nc l a s s e s ( s r c m l l r ) a n dt 扣n gi sp r o p o s e d t h em e t h o dg r o u p st h e g a u s s i a n so naf i n e ra c o u s t i cs u b s p a c el e v e l ,t h em u l t i - l a y e rs t n l c t u r eg c n e r a t e sa r e g r e s s i o nc l a s sd v n a m i c a l l yf o re a c hs u b s d a c eu s i n gt h eo u t c o m eo f l ef o r f n e r m u 。rt m n s f b r n l a t i o n t h e r ea r ef b w e rp a r a m e t e r st ob ee s t i m a t e df o rm es u b s e q u e n t m l l rt r a n s f o r m a t i o nm a t r i xb ya d o p t i n gs u b s p a c ec l u s t c r i n gs t r a t e g y e x p e r i m e n t s i nl a 昭ev o c a b u l a r ym a n d a r i ns p e e c hr e c o g n i t i o ns h o wm ea d v 觚t a g e so fs r c m l l r o v e rt h e 仃a d i t i o n a lm l l rw h i l et h ea m o u n ta d a d t a t i o nd a t aa r es c a r c e c o n f i d e n c e m e a s u r ei sd i s c u s s e df o ru n s u p e n ,j s e d m e a s u r ei s 印p l i e d t oe l i m i n a t et h e u n s u p e r v i s e dm o d ei si m p m v e d a d a p t a t i o nm o d e w h e nt h ec o n f i d e n c e u i l r e l i a b l er e s u l t s ,t h e p e r f b 硼a i l c e o f t h i r d l v am e t h o db a s e do ns t a t e s p e c i 丘e dr o t a t i o n ( s s r ) 锻m s f o n na 1 1 d s e m i t i e dc o v a r i a n c et r a n s f o 册( s t c ) i sp r o p o s e dt om o d e lc o r r e l a t i o n sb e m e e n f c a t l l r ec o e 位c i e n t s ,w h i c hw ec a l l t y i n gs s r ht h em e t h o d ,s s rt r a n s f o mi su s e d t or e m o v et h ec o r r e l a t i o n so fe l e m e n t so ft h ef e a t i l r ev e c t o ri ne a c hs t a t e ,r e f i n e d a c o u s t i cm o d e li sg e n e m t e di na nu n c o r r e l a t e dn e wf e a t i l r es p a c e at y i n gm e 也o d u s i n gm ep r i n c i p l et h a tt h el e a s td e c r e a s eo fa u x i l i a i y c t i o ni sa d o p t e d ,a n d b a v e s i a ni n f o r m a t i o nc r i t e r i o ni su s e df o rc h o o s i n g 血en 啪b e ro ft i e dc l 鹪s i nt h e e n d ,s e m i t i e dc o v a r i a n c et r a n s f o r r ni sa d o p t e df o ru p d a t i n gp a r a m e t e r so f t 1 1 en e w l y i a b s t r a c t t i e dt r a n s f o r mc l a s s t h em e t h o d so v e r c o m e ss h d r t c o m i n gb e c a u s eo ft h ea c o u s t i c m o d e lg e n e r a t e db ys s rh a sm u c hc o n l p u t a t i o n1 0 a d k e yw o r d s : b r o a d c a s tn e w sc o n t i n u o u s s p e e c hr e c o g n i t i o n , a u d j od a t a s e g m e n t a t i o n ,s p e a k e ra d a p t a t i o n ,s e m i t i e dc o v a r i a n c em o d e l i n g 插图目录 插图目录 图1 11 9 9 8 年n i s t 英语评测1 0 倍实时各系统比较 图l 一2h t k 声学模型的训练流程图 图1 3m f c c 倒谱的提取过程示意图 7 1 0 1 5 图2 1l i m s i 系统切分算法流程图2 7 图2 2 几种分割方法的比较2 9 图2 3 一段三人对话的语音第一维m f c c 系数随时间的变换图3 0 图2 4 对图2 3 中的音频数据应用基于b i c 准则的方法检测的结果3 1 图2 5 分段对图2 ,3 中的音频数据应用基于b i c 准则的方法检测的结果3 1 图2 6 两个人对话的语音波形图3 3 图2 7 一个人讲话的语音波形图3 3 图2 8 对图2 6 中男女生对话使用基于熵变化趋势的分割方法检测的结果3 3 图2 9 对图2 7 中男生讲话使用基于熵变化趋势的分割方法检测的结果3 4 图2 一1 0 对于图2 3 语音中第一个声学跳变点使用基于熵变化趋势的分割方法检 测的结果3 4 图2 1 1 对于图2 3 语音中第二个声学跳变点使用基于熵变化趋势的分割方法检 测的结果3 5 图2 1 2 变窗长音频跳变点检测方法图示一3 5 图2 1 3c g g m m 的计算结构3 9 图。2 一1 4 语音与音乐对于h z c r r 特征的概率分布曲线图,4 4 图2 一1 5 语音与音乐对于l s t e r 特征的概率分布曲线图4 4 图3 1 自适应算法原理:使分布尖锐化 图3 2 自回归树的定义 图3 3 自适应变换类的控制策略 图3 4s m l l r 与t m l l r 变换结构的比较 图3 5 词格示意图 图3 61 6 个变换类的f m l l r ,b m l u 乙s r c m l u t 识别率的比较结果 图3 78 个变换类的f m l l r ,b m l u ks r c m l l r 识别率的比较结果 图3 8 不同回归类的s r c m l u t 识别率的比较结果 图4 一l 特征各维之间相关性的曲线示意图 图4 2 似然函数值和b i c 值随着变换类个数变化的趋势图 图4 3 不同的共享门限对识别率影响的实验结果 钉舛“卯佗 跎鲥钙 表格目录 表格目录 表l - ln i s t 广播新闻自动记录测试系统测试数据声学条件分类4 表l - 29 6 年n i s t 的评测结果5 表l 一39 7 年n i s t 的英文评测结果5 表1 49 7 年n i s t 的中文评测结果6 表1 59 8 年n i s t 的英文评测结果6 表1 69 8 年n i s t 的中文评测结果7 表1 79 9 年n i s t 的英文评测结果8 表l 一8 测试集中不同数据所在比重9 表l 一9 语言模型训练的数据库1 0 表l 1 0 测试集b n e v a l 9 5 上词的误识率1 1 表1 1 i 几种模型训练方法在测试集b n e v a l 9 8 上识别率的比较结果1 2 表l 1 2 手工切分、c m u 系统和h t k 系统对b n e v a l 9 7 的识别结果比较1 2 表1 1 3 基于g l 模型对于b n e v a l 9 8 测试集的m l l r 自适应实验结果1 2 表i 一1 4 两种自适应算法的识别率的比较1 2 表l 一1 5 三音予模型与双音子模型识别率的比较1 8 表2 1c c t v 音频数据的分割的实验比较结果4 3 表2 2v o a 音频数据的分割的实验比较结果4 3 表2 3k a z n 音频数据的分割的实验比较结果4 3 表2 4g m m 方法与c ga m m 方法对c c t v 音频数据的实验比较结果4 5 表2 5g m m 方法与c gg m m 方法对v 0 a 音频数据的实验比较结果4 6 表2 6g m m 方法与c gg m m 方法对k a z e 音频数据的实验比较结果4 6 表2 7m a p 自适应后的性别标注结果4 6 表2 8 采用多码本v 0 聚类方法的聚类的实验结果4 7 表2 9t r s 数据对于固定窗长和变窗长方法切分结果的比较一4 8 表2 ,l o 平均概率打分方法标记结果4 8 表2 一l l 帧数占优统计标记结果4 8 表3 一l1 6 个变换类的几种方法识别率的比较结果 表3 2 两种自适应方法无监督自适应的实验结果比较 表3 3 引入可信度机制的无监督自适应的实验结果 表3 4 测试集对无监督自适应的实验结果 表3 5 自适应速度的比较结果 表3 6 测试集对有监督自适应的实验结果 表f 一1 两种不同自适应策略计算量的比较 7 5 7 7 7 8 7 9 7 9 8 0 1 0 3 独创性声明 本人声明所成交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知, 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与 我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确地说明并表示了谢意。 签名日期:2 型! :! 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定,即:中国科学院自 动化研究所有权保留送交论文的复印件,允许论文被查阅和借阅;可以公布论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存论文。 签名 ( 保密的论文在解密后应遵守此规定) 导师签名日期一。1 j 。 1 0 第一章汉语r 捅语音识别技术概述 第一章汉语广播语音识别技术概述 1 1 汉语广播电视新闻语音识别研究的意义 语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。 它的传播速度快,无严格的方向限制,又可以在黑暗中传播,是图片、文字或 者按钮等其它视觉、触觉信息所无法替代的工具。早在上个世纪四、五十年代, 人们就已经开始进行语音识别技术的研究。随着计算机的出现和发展,让人与 计算机自由地交谈,机器能听懂人的讲话,一直是人们的梦想和追求 1 。进入 九十年代以后,语音识别方面的研究进一步升温,连续语音识别技术正趋于成 熟,出现了很多实用化方向发展的研究,其中广播电视新闻自动记录的研究就 是一个非常富有挑战性的语音识别研究方向。 广播语音的识别给大词汇量连续语音的识别带来了新的难题。以往的语音识 别技术主要是集中在安静环境下或背景噪音比较小的条件下的语音文件解码问 题 2 ,而广播语音将很多语音信息与非语音信息揉和在一起,情况比传统的语 音识别问题复杂的多。在广播语音的识别中不仅涉及到音乐和背景噪声的处理, 而且还要处理诸如:说话人性别、方言口音以及麦克风和声道变化等情况下的 语音识别鲁棒性等一系列问题。 广播电视新闻节目中包括了不同的声学和语言学特性的信号段,在段与段之 间的变化既有猛烈突发的,也有平缓过渡的,信号的质量可能是播音室的高保 真质量,也可能是经过有电话或其它含噪信道传送的有限带宽信号,以及在音 乐背景下的语音或者是纯音乐段。仅对语音信号来说,讲话人也是形形色色的, 有新闻播音员,也有脱口秀主持人,有方言口音的普通百姓,也有非母语的外 国人等等。面对这样复杂多变的信号,在实验室用纯净语音训练出来的声学模 型,对识别显然是不能胜任的。 广播电视新闻的语音识别研究除了对语音识别技术的研究发展提供更广阔 的研究天地之外,对广播电视新闻节目的音频信息检索和多媒体信息的综合利 用分析也具有重要的作用。随着现代信息技术特别是多媒体技术的发展,人们 面临的信息数据急剧增加,如何在海量的数据中进行检索提取出有用的信息, 一 堡堕! :堡堕童塑型至竺塑塑塑 对于合理的信息利用是很重要的。广播语音识别的一些关键性技术,例如自动 分割技术,可以把多媒体信号根据音频特征的不同分割开来,为结合图像以及 其它的多媒体场景分析做准备。除此之外,根据广播语音识别的文字结果。又 可以建立多媒体新闻语音信息的文本索引,因此,建立个广播电视新闻自动 记录系统无论是在语音识别理论上,还是对于语音技术走向实用化方面都有着 重要的意义 3 。 广播语音识别技术是一个多方面的问题,我们不能期待着用一种简单的算 法技巧来加以解决。对于汉语广播语音识别系统的关键技术,综合起来可以大 致分为以下三个方面: 1 音频分割和聚类问题; 2 声学模型的建模问题: 3 声学模型的自适应闯题; 从根本上讲,广播语音识别技术的发展是依托与大词汇量连续语音的发展 的,但它也有自身的特点。广播语音识别技术的研究的重要意义有如下几个方 面: 1 为语音识别的实用化发展做好准备。 语音识别技术要想真正走向实用化阶段,必须是语音识别系统能够在实际的 应用环境下保持较高的识别性能,对说话人、方言口音、麦克风、声学环境、 讲话内容等方面的变化保持一定的鲁棒性。对于孤立词识别和限定领域的连续 语音识别,我们已经取得了很好的效果,对于实验室条件下的大词汇量连续语 音识别的研究工 乍,我们也有了很长时间的积累,尤其是在听写枫的研究和丌 发方面积累了很多宝贵的经验。但实际应用的环境要比实验室环境复杂得多, 而广播电视新闻节目包含了实际应用环境中的各种复杂声学特征,并且数据易 于收集。因此,广播语音识别方向的研究对于大词汇量连续语音识别技术的实 用化发展,是一个理想的研究方向。 2 为实现多媒体信息的语音检索和信息监铡做好准备 随着现代信息技术的发展,尤其是多媒体技术的发展,人们生活中面临的数 第一章汉沿,“播语音识别技术概速 据急剧增加,如何在海量数据中进行检索,如何对有害信息进行过滤,如何对 有用的信息进行利用,这些都是很重要的。音频是多媒体中的一种重要媒体。 语音是一种特殊类型的音频,它与文本可以互相转换,因此,可以利用文本检 索技术进行信息检索。广播语音的自动切分技术,可以把多媒体信号按照音频 特性的不同进行分类,可以进行说话人识别、关键词检测和音乐检索等方面的 工作。这些结果与图像分析结合起来,可以进一步做多媒体场景分析。除此之 外,根据广播语音的识别结果,可以建立对广播电视新闻节目的语音检索,提 高人们对广播电视新闻节目的利用率。 3 可以进一步推进大词汇量连续语音识别技术的发展 广播新闻语音的信号比较复杂,尤其是口音问题、背景噪声问题和信道问题 对语音识别系统的影响,这些也都是当前语音识别技术所需要解决的问题。从 事广播语音识别技术的研究,能够更好的提高我们的连续语音识别水平,促进 全世界范围的语音识别水平的发展和提高。 1 2 国内外的研究现状 1 2 1 广播语音识别系统的发展历史 广播电视新闻识别系统的研究起源于美国国防部高级研究计划署 ( d a r p a :d e f e n s ea d v a n c e dr e s e a r c hp r o i e c t sa g e n c y ) 所资助的人类语言系统 ( h u m a nl a n g u a g es y s t e m ) 项目中的语音技术部分。该项目是以让计算机能够听 懂并能理解所昕到人类的语音为主要目的,d a 砌) a 将这个项目分成很多子项 目,由很多家高校和研究机构来共同完成。其中参与口语识别与理解方面项目 的研究机构和高校主要有b b n ,c m u ,疆m ,p m l i p s ,和u m s i 等 4 ,5 ,6 , 7 。 为了对国际上广播电视新闻记录检索系统的技术发展进行衡量,美国国家 标准与技术研究所( n i s t :n a t i o n a l i n s t i m t eo fs t a n d a r da n dt e c h n o l o g y ) 每年都 要举行一次性能评测,这个语音技术评测基本上代表了当今世界广播语音技术 的最高发展水平。9 5 年开始的第一次评测时,参加的科研机构有1 b m 、c m u 、 b b n 等四家单位 8 。所有参加测试的研究机构都没有广播语料的识别经验, 这次测试所采用的基本识别技术仍然是大词汇量连续语音识别技术,测试的语 汉语广播语音识别系统的研究 料没有按照声学状况的类别进行分类标注,测试结果很不尽人意。在测试后举 行的研讨会上,与会者认为,对于这种混合类型的语料识别必然要先将语音段 按照声学条件进行分割( s e g m e n t a t i o n ) ,而语音识别系统进行自动分段标注这 样的任务也是非常富有挑战性的,而且可能使研究的重点偏离语音识别任务。 于是在1 9 9 6 年初的研讨会上,参加会议的几家研究机构讨论并制定了分类测 试协议,在处理测试数据中以及对测试结果总结时都可以采用分类标注信息 9 ,l o 。测试完整系统时,如果没有采用标注文件中的分类信息。就是未分 类评测( u e :u n p a r t i t i o n e de v a l u a t i o n ) ,反之就是分类评测( p e :p a n i t i o n e d e v a l u a t i o n ) 。以后参加评测的各研究单位都可以采用分类评测,以便于集中于 复杂声学条件的语音识别的研究。 分类识别是把声音条件相似的声音环境放在一起进行识别,用以降低误识 率。在当时的分类协议中,声学条件的分类是根据语料中的口音、讲话方式、 保真度和复杂声学条件等情况进行划分的,具体可分为7 类,如表l 所示 1 0 。 表1 1n r s t 广播新闻自动记录测试系统测试数据声学条件分类 类别 u 音 讲话方式 保真度背景 正式播音f 0 母语文稿式高纯净 口语播音f 1母语口语式 高纯净 低保真皮播青f 2母语任意方式 中低纯净 含背景音乐f 3母语任意方式 高音乐 含背景噪声f 4母语任意方式 高语音或其它噪声 非母语讲话人甲5非母语 文稿式高 纯净 所有其它类别f x 参加评测的各个研究机构的广播语音识别系统都是由以前的大词汇量连 续语音识别系统( l v c s r ) 发展起来的,而且这些机构也多次参加了n i s t 以前 的相应测试,在出现了广播新闻识别系统的评测后,这些研究机构也都转而参 加了这项测试。因此,从n 】s t 每年的评测结果,可以看出国际上在广播语音 识别系统方面的研究状况。 4 第一章汉语,“播语音识别技术概述 从9 6 年起,参加评测的单位逐渐增多。在9 6 年n i s t 举办的评测中,一 共有c m u 、i b m 、l i m s i 、s r j 等八家单位的九个研究组参加了评测。测试数 据的形式分为标记切分好的( p e ) 和没有经过标记切分好的( u e ) 的整段语音两 种,评测的内容仅限于英语测试集1 9 9 6 h u b 4 。在这次评测中,第一次向语音 自动识别系统提供了混合的整体性输入测试语音信号,即典型的无线广播和电 视广播信号混为体的声音信号。这样,使得所有类别的测试条件也更加严酷 了。其中识别率晟高的主要三家研究单位的结果 1 0 如下 表1 29 6 年n i s t 的评测结果 s y s t e m a l lf 0 f lf 2f 3f 4f 5 f x b b n lp e3 0 22 1 62 9 5 3 2 7 2 3 3 3 8 43 1 84 9 9 b b n 2 u e3 j 82 2 83 1 63 4 32 7 1 3 8 s3 8 i5 0 9 c m u lp e3 4 92 5 83 2 13 8 63 6 6 4 3 73 6 55 5 9 c m u 2 u e3 5 92 4 73 3 1 3 9 14 8 44 2 13 5 55 8 2 i b m lp e3 2 22 1 6 3 0 43 8 9 2 8 0 4 2 23 0 85 4 2 i b m 2 u e3 8 92 6 83 6 | 84 2 45 6 ,2 4 3 o 3 4 。1 6 0 7 在上表所示的测试结果可以看出,结果切分标记后的测试结果优于没有切分标 记的结果,对于i b m 的系统对于f 3 条件的测试结果尤为明显。 从9 7 年开始,除了英语外,逐渐加入了非英语语种的测试。参加评测的 非英语语种主要有汉语和西班牙语。不同于9 6 年的是,这次切分标记( p e ) 不 是采用手工标记的,而是用c m u 提供的软件进行自动切分标记的。参加英语 评测的有c m u 、c u j l t k 、0 r a 9 0 n 、b b n 、i b m 等九家单位的十个研究组参 加。评测结果 1 1 如下: 表1 39 7 年n i s t 的英文评测结果 s y s t e m a l lf 0f lf 2f 3f 4f 5f x b b n l2 0 31 1 41 7 83 1 22 8 12 2 12 6 94 2 7 c m u l2 3 81 4 42 2 83 1 o3 3 92 7 33 1 14 8 2 汉语j “播语音识别系统的研究 c uc o n l2 7 11 5 52 6 33 7 53 5 13 1 22 5 75 9 1 c uh t k l1 6 29 91 5 42 0 12 7 91 9 42 4 12 9 9 d r a g o n l 2 3 11 3 92 3 43 1 13 4 92 6 51 9 o4 3 9 l b m l1 7 91 0 31 7 82 4 92 4 62 0 31 8 1 23 6 3 l i m s l l1 8 31 1 61 7 o2 2 1 2 7 92 1 92 7 1 3 6 3 0 9 i l 3 8 82 8 ,63 8 05 2 55 0 o3 7 33 8 76 2 o p h p s l 2 3 - 31 4 42 1 73 0 8 3 4 ,4 2 5 7 3 0 94 7 1 sr i l 2 0 3 1 2 52 0 5 2 6 43 2 o2 3 12 6 83 5 2 在d a ) a 的评测报告中对于中文的结果给出的比较简单,只给出了以下两个 单位的结果: 表l _ 49 7 年n i s t 的中文评测结果 d r a g o nc m u 2 0 2 1 9 8 在9 8 年以前,对于识别器没有识别时间的要求,为了追求识别率的提高,各 个评测单位都加入了很多复杂的多遍搜索和自适应算法,系统的识别时间经常 要在l o o 倍实时左右,这很不利于这项技术的推广应用。因此,从9 8 年丌始, n i s t 在评测方案中对识别速度有了进一步的要求,加入了对识别速度的限制, 将广播语音识别速度限定在1 0 倍实时左右。下面给出英语评测的各系统的比 较结果 1 2 ,1 3 ,1 4 : 表1 59 8 年n i s t 的英文评测结果 s v s t e m a | lf 0f 1f 2 f 3f 4f 5f x b b n l 1 4 79 o1 5 0 2 0 61 9 21 3 9 1 7 92 5 9 c uh t k l1 3 8 7 81 5 12 0 11 5 81 3 6 1 6 62 4 1 d r a g o n l 1 4 5 8 31 6 81 9 o1 5 2 1 3 42 4 32 5 6 6 第一章汉语广播语音识别技术概述 1 b m l1 3 58 2 1 6 o 1 7 41 7 31 2 11 5 32 2 1 l l m i s i l1 3 ,68 - 21 4 41 6 91 6 | 31 3 62 1 32 2 2 o g i l 2 5 71 4 92 7 33 8 - 33 3 42 4 82 9 44 4 o p h i l i p s l 1 7 61 0 12 0 22 5 62 2 1 1 6 42 9 42 9 5 s n r a c h l2 0 81 3 ,l2 4 33 0 2 2 4 51 9 42 4 33 2 7 s r i l2 1 11 3 22 2 4 2 5 92 3 32 0 52 5 53 6 0 下图是识别速度在1 0 倍实时的各系统的比较情况,其中只有s p r a c h 系统的识 别速度在1 0 倍实时以内 1 2 。 瓣 豁,“ 熬j 褥i 。 褥l 萋、i 叁r 一茎薹蛰 。ji 二1 71 一二:_ 二二= i i :! :二二i 习 r “一一一r 一“”r 一o l 篱誊 瓠 图1 11 9 9 8 年n i s t 英语评测1 0 倍实时各系统比较 同9 6 年的评测结果相比,9 8 年的系统在性能与效率上都有明显的提高。对于 基准语音测试即分类f o ,讲话风格为播音员发音的语音,最佳系统的英文词 误识率( w e r ) 已经降到7 8 的水平。 下面给出9 8 年中文广播语音的评测结果 1 2 ,1 5 : 表l 一69 8 年n i s t 的中文评测结果 l d r a g o “ l b m 2 0 6 1 7 1 一巷苦王j奄巷銎 像龟 甏鼍瓷 汉语广播语音识别系统的研究 从9 9 年开始n i s t 没有将汉语列为评测内容,对1 9 9 9 h u b 4 测试集英语单词平 均误识率的测试结果为 1 6 ,1 7 ,1 8 : 表1 79 9 年n i s t 的英文评测结果 b b ni b ml i m s i 一,- 3 1 7 8 1 7 1 对予汉语广播语音识别的研究,除了参加d a 趾a 评测的几家单位外,台湾的 一些研究机构也进行了一些研究 1 9 ,2 0 ,但没有一个可以和上述研究机构进 行对比的结果。在国内,广播语音识别的研究工作开展的比较晚,还没有比较 成熟的广播语音识别系统。 1 2 ,2 国际上广播语音识别系统的主要技术特点 现有的广播语音识别系统都是由原有的大词汇量连续语音识别系统发展 而来,从总体上看,这几年广播语音识别系统在发展的框架上并无重大的变化。 同大词汇量连续语音系统相比,主要是增加了语音自动切分和强化了自适应学 习这两个部分,同时对各个模块加以优化,采用越来越复杂的搜索解码算法。 由于从2 0 0 0 年开始,n i s t 就没有再举行大规模的广播语音的评测,在这 罩根据剑桥h t k 系统最新技术报告,以及他们在英文广播语音识别系统的最 新进展为例 2 l ,2 5 ,对广播语音识别技术加以简单介绍。 ( 1 ) 训练和测试数据 声学模型训练语料由美国l d c ( l i n g l l i s t i cd a t ac o n s o n i u m ) 公司提供- 来源 于美国的各种广播新闻( 电视新闻和无线广播新闻) ,包括两个训练集 b n t r a i n 9 7 和b n t r a i n 9 8 。其中b n 仃a i n 9 7 包括7 2 个小时的语音数据,这些数 据按照声学特性相似性( 相同的说话人,背景噪声和通道特性) 进行了分类;而 b n t r a i n 9 8 包括7 1 个小时的语音数据,不同于b n t r a i n 9 7 的是,在b n t r a i n 9 8 中对背景条件不做区分。 测试集同样包括b n e v a l 9 7 和b n e v a l 9 8 两个数据库。对于语音的分类还是 按照表1 1 分成七类。下表将给出两个测试集中不同类别数据所在的比重 2 1 : 第一章汉语广橘语音识别技术概述 表1 8 测试集中不同数据所在比零 数据测试数据 b n e v a l 9 7b n e v a l 9 s 类别 f o4 5 0 3 0 6 f 12 0 o 1 9 3 f 21 6 1 3 4 f 3 5 1 4 3 f 44 9 2 8 2 f 5 2 3 o 7 f x6 3 1 3 4 5 从上表可以看出,两个测试集在f 0 、f 2 、f 4 和f x 几类数据上的比重有比较 大的差异。 ( 2 ) 系统描述 声学特征的提取: 1 2 维的m f p l p ( m f c c + p l p ) 倒谱系数+ m e l 倒谱的第0 维系数以及它们 的一阶、二阶差分,进行分段的倒谱均值归一化( c m n ) 2 2 ; 优化的m f p l p 第三阶差分,进行异方差的线性区分度分析( h l d a : h e t e r o s c e d a s c i cl i n e a rd i s c r i m i n a n ta n a l y s i s ) 2 3 : 声学模型的训练 系统训练语料为b n 仃a i n 9 7 和b n 妇i n 9 8 两个训练库,采用基于决策树聚 类上下文相关的三音子( t r i p h o n e ) 模型,描述最后聚类得到6 9 7 6 个状态输出, 每个状态输出用1 6 个混合高斯模型来; 进行男女混合建模和通道混合建模; 进行m l e ( m a x i m u ml i i 【e l i h o o de s t i m a t i o n ) m p e ( m i n i m 哪p h o n ee n d r ) m p e m a p ( m a x i n w m ap o s t e r i o r i ) 2 4 训练。 基本的训练过程可以山下图表示 2 5 : 9 一一 堡堕堡塑童塑型墨竺塑塑窒 图1 2h t k 声学模型的训练流程图 语言模型的训练 语言模型训练的数据如下表所示 2 5 : 表1 9 语亩模型训练的数据库 s i z 皂 0 l i r c ee d o c l l ( m w ) a p m n a r ys o i j r c em e d i ab nt 怕n s c r i 限i o n s 1 9 9 2 1 9 9 9 2 7 5 t d t2 3c i o s e c ic a 【) t i o n s bc n ns h o w st r a n s cr i d t i o n1 9 9 9 。2 0 0 l6 6 ct d t 4c l o s e dc a p t i o n s ? db i o a ( i c a s t1 1 e w sa c ol l s t i ct r 3 f n i n gt r a n s c “p t i o l l s1 9 9 7 l1 9 9 8 一 a c o i i s t i ct r a l l s c r i f ) t i o l l sf o rm a r k e t p l a c es h o w s 1 9 9 6 i 三l o sa n g e l e st i m e sn e w s w i r es e r v c et e x t s 1 9 9 5 。1 9 9 8 w a s h - 1 1 9 t o np o s ti 、e w s w i r es e r v i c et e x t s 1 9 9 5 。1 9 9 8 6 7 4 n e wy o r kt i n l e sn e w s w i r et e t s1 9 9 7 2 0 0 l 数据库共有1 0 1 9 m 个词。最后得到的词表为5 9 k ,裁减后的语言模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 云南省富民县2025年上半年事业单位公开遴选试题含答案分析
- 2025年度专业物流司机个人运输合同范本
- 2025仓储运输合同-跨境电商B2C物流配送服务
- 2025版新型城镇化示范区建设项目投标保证合同书
- 2025版蔬菜种植基地与旅游开发公司合作合同范本
- 2025版绿色有机农资采购合作协议
- 2025年度医疗器械委托运输与环保回收服务合同
- 2025版净身出户离婚协议书模板编制与风险评估合同
- 2025版砌砖工程节能评估与施工合同
- 2025版牲畜养殖企业承包与养殖废弃物处理合同
- 2024-2025学年湖南省“炎德·英才·名校联考联合体”高二第一次联考(暨入学检测)数学试题(含答案)
- 夹娃娃机合同模板
- 维修人员技能提升与企业绩效关联研究
- 2024-2030年中国儿童室内游乐园行业市场发展现状及发展趋势与投资前景研究报告
- GB 44263-2024电动汽车传导充电系统安全要求
- 项目资金融资合同范本
- DL∕T 1945-2018 高压直流输电系统换流变压器标准化接口规范
- DL∕T 1848-2018 220kV和110kV变压器中性点过电压保护技术规范
- 人教PEP版(三起)五年级英语暑假专练-阅读理解题(含答案)
- YDT 4484-2023物联网云平台技术要求
- QB/T 2660-2024 化妆水(正式版)
评论
0/150
提交评论