已阅读5页,还剩70页未读, 继续免费阅读
(计算机科学与技术专业论文)基于动态贝叶斯网络的音视频语音识别模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 动态贝叶斯网络( d b n ) ,以其扩展性和对时间序列的强大描述、推导和学习 能力,逐渐被应用于连续语音识别中。本文设计了一种能够适用于音频或视频语 音的单流d b n 模型,不仅能够给出单词级的识别结果,而且能科学地识别并切分 出音素或视素的时间边界。具体工作如下: 首先研究了传统的基于隐马尔可夫模型( 卸m ) 的连续语音识别系统的嵌入 式训练和识别过程。录制连接数字音视频语音数据库,对音频流,提取了m e l 倒 谱特征( m f c c ) ,对视频流,提取了三种唇部特征:1 ) 静态几何特征;2 ) 静态 和差分动态几何特征;3 ) 对静态和动态特征,按照音频帧率进行线性内插的几何 特征。音频流识别实验表明,三音素h m m 模型词识别率明显高于单音素h m m ; 对于视频流数据,第三种唇部特征的单词识别率明显高于其他两种唇部特征。 研究了动态贝叶斯网络的拓扑结构,概率推导公式,树型推理和边界推理算 法、连接树算法。研究表明,d b n 比h m m 具有更好的通用性、显式性和扩展性。 研究并改进了整词状态d b n ( w s d b n ) 模型,设计了基于整词音素d b n ( w p d b n ) 的声学语音模型,和基于整词视素d b n ( w v - d b n ) 视觉语音模型, 利用图模型工具包( g 姗【) ,实现了音频和视频识别系统。w p d b n 和w v 二d b n 模型,充分体现了单词音素( 视素) 组成及音素( 视素) 之间细微的概率转移关 系,以及输出音素( 视素) 级切分结果的特性。 采用单词识别率、单词识别精度和音素( 视素) 切分得分率三种评价准则, 比较了在各种信噪比数据下,w s d b n 、w p d b n 、w v - d b n 、单音素h m m 、三 音素h m m 及单视素h m m 的识别和切分性能。音频实验结果表明,w p d b n 模 型:1 ) 对纯净语音,与三音素h m m 具有相当的识别率;2 ) 对带噪语音,比h m m 具有更强的噪声鲁棒性。视频实验结果表明,线性内插后的唇部特征增加了单视 素h m m 的识别率,而前两种唇部特征足以满足w s d b n 和w v d b n 的建模需 要。另外,基于d b n 的模型比基于h m m 的模型引入的单词插入误差更小,且 w p d b n 和w v d b n 模型对音素和视素的切分时间边界与h m m 切分时间边界 相当。 关键词:动态贝叶斯网络,图模型工具包,整词音素d b n ,整词视素d b n a b s t r a ( 了r d y n 锄i cb a y e s i 孤n e 铆o f k b n ) ,b c c a u s eo fe x t e n s i b i h 鸭p o w e r f i l l d c s c r i p t i o n ,i n f e 咖c c 柚dl e a i i n ga b i l i t i c sf o i t h et i n l e r i e s b c i n gu di n 也e s p e e c hr e c o g n i t i ht h i sp a p e r ,t h ca u t h o fd e s i 掣坞as i n 酉es h e a md b n m o d e lf b r a u d i oo rv i d 印e e c hr e c o g i i i t i o na n dp h 伽e m e ( o rv e m e ) s e g m e n t a t i t h ew o r l 【s o f t h i sp 叩盯i s 伽t l i n e d 够t h ef o l l 响,i n g : 陆s t ,t h e 卸t h o r 姗e s t j g a t 龉m cc 0 n t i n 璐s p c c c hr e c 0 鲥t i o ns y s t e mb a s c d 彻碰d d 衄m a r k o vm o d c l ( h m m ) ,i n d u d i n gt h ep i o c e 鹊i n go f 锄b e d d c d 臼a i l l i n g 柚dr e c o g n j t i 伽n ec o 姗e c t i n gd i 西t a l 卸d i o 卸dv i d c od a t a b a h 勰b e c nr e c o d e d f o r 卸d i os 仃c 锄,m e lf i n c r b a n l 【c e p s 仇i mc o 咖d e n 协( m f c c ) f e a t u i e sb c c x t r a d e d ,f o rv i d c os t r c 锄,t h l 优k i n d so fn pf e a t u sb c 懿t r a l c t e d :1 ) s t a t i cg e o m e 疵 f c a t w e s ,2 ) s t a t i ca n dd e l t ad y n a m i cg m e 仃i cf c a t l l f e s ,3 ) l i n e 盯i n t c r p o l a t i g e o m e 仃i cf c a t u r c sb a s c do ns 协t i c 如dd y n a m i cf b a t u r 鼯a u d i 0e x p e r i m e n t s u n s s h o wt l l a t 仃i p h o n ei m mh 豁h i g h c rw o f dr e c o 弘i t i f a t 髂t h 缸m 叩o p h eh m m d c oe x p c r i m e mr 髓u l t ss h o wt h a tt h et h i r dl i pf 明t i l r c sh 勰h i g h c rw o f dr e c o g i l i t i o n r a t e st l l 姐t h eo t h e 培 s c c o n d ,s t u d y i n gt h eb 弱i cp r i n c i p l co fd b n ,t o p o l o 鼢p r o b a b i l i s t i ci n f c 瑚c e f o 瑚u l a ,t r h f c 瑚c c ,f r 伽t i e rh f c r e n c c 强dj u n d i t r e e 础酬t h m r c s u n s s h o wt h a td b ni sm o u n i v e 培a l ,c x p i i d t 柚de x t 朗s i b l et h 锄h m m 1 1 i 媳s t u d ) ,i i l g 粕di m p r 0 v i n gt h ew d r d - s t a t cd b n ( w s - d b n ) m o d e l ,d c s 枷 t h ca 璐t i cs p e e c hm o d db 鹊c d w b r d - p h 伽ed b n ( w p d b n ) m o d e l ,n 地v i s u a l s p e e c hm o d c lb 弱e d w b f d - v i s c m ed b nm ,、,d b n ) m o d e l ,i m p l 锄e mt h cs y s t e m o fw s - d b n 缸dw v - d b nw i n lg f a 圳c a lm o d e l1 b o l 垃( g m ,r 目1 h ew p d b n a n dw d b nm o d e l s 锄u l a t cm es t r u d l l r eo fw o r d p h 伽e ( o rw o r d - v i s 锄e ) ,s h o w t h e 位吣i t i o np i 曲曲i h t i 鹤b c t w c c np h e s ( o rv i s e m e s ) 粕dt h ec h a 姐c i e r0 ft h e 咖t p u tt h ep h 伽e ( o fv i s c m c ) g m 柚t a t i w i mt i m i n gb 0 硼d a r i 髓 f i n a n y ,t h c 卸t h 凹d e 丘n e sc v a l u a t i 衄c r i t c r i ao fw o r d - e 鲥t i 蚰r a t 鸭w o r d r a 。o g n i t i a 倒r a d 鼯孤dp h e ( o r 、,i s 锄c ) s e g e m e n t a t i s c o m c c 衄p a mt h e f e g n j t i 柚ds e g m 蜘t a t i p c m 唧柚c c so ft h ew s d b nm o d e l ,w p d b nm o d e l , w v - d b nm o d c lm 蛐o p h ch m m ,仃i - l h 衄eh m m 翘dm o n o v i m eh m mi n d i 疵瑚tn o i s ye n v 的咖锄t s a u d i o 既p c r i n l 蛐t a lr e s u l t ss h o wt l l a tw p - d b nm o d e l : 1 ) a l m o s th 弱t h es a m er e c o g n i t i 蛆n t 龉c o m p a r et ot h e 仃i p h o h m mf o rd e 粗 s p c h ;2 ) a 他m o r o b u s tt o i s ye n v i 砌咖t sc o m p a r ct ot h eh m m d e o c x p e r i l l l e n t a l 北如i 协s h o wm a tl i n e 盯i n t e r p o l a t i o nl i pf e a t u mo n l yi i i l p r o ”t h e o o g n i t i m t c so ft h em o n o v i s e m eh m m ,t h es e c 仰dl j pf e a t u r c sw m b es u m d e n t t ot h cw s - d b n 如dw v :d b nm o d e i s 1 na d d i t i o nt h ed b nm o d e lh 弱m u c h 锄a l l c r w o r di 鹏e r te 1 1 0 rt h 孤h m m r c s u l t sa l s h o wt h a tw p - d b n 柚dw v - d b n p r o d u c c v e r ) rd o s c 掣n 锄t a t i r e 鲫l t s 舔h m md 0 锚 k e y w o r d 戤d y n 锄i cb a y c s i 姐卜k 魄o r kp b n ) ,g m p h i c a lm 0 d c l1 b o l l ( i t ( g m l 1 p , ,o i d - p h ed b n ( w p d b n ) ,、7 l ,o r d - s e m ed b n 畔d b n ) 西北工业大学业 学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期闻论文工作的 知识产权单位属于西北工业大学。学校有权保留并向国家有关部门或机构送交论文的复印件 和电子版。本人允许论文被查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时本人 保证,毕业后结合学位论文研究课题再撰写的文章一律注明作者单位为西北工业大学。 保密论文待解密后适用本声明。 学位论文作者签名:丕:墅2 垂) 加7 年孑月,日 指导教师签名: 如叼年弓月占日 西北工业大学 学位论文原刨性声明 秉承学校严谨的学风和优良的科学道德,本人郑重声明:所呈交的学位论文,是本 人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容 和致谢的地方外,本论文不包含任何其他个人或集体已经公开发表或撰写过的研究成果, 不包含本人或其他已申请学位或其他用途使用过的成果。对本文的研究做出重要贡献的 个人和集体,均己在文中以明确方式表明。 本人学位论文与资料若有不实,愿意承担一切相关的法律责任。 学位论文作者签名:鱼:! 塑多】 两| 年弓asb 西北工业大学硕士学位论文第一章绪论 1 1 课题来源及研究意义 第一章绪论 本课题来源于中国科技部和比利时弗拉芒大区的国际合作项目听视觉语音 合成与识别:多模态方法,由西北工业大学计算机学院语音图像教研室和比利 时布鲁塞尔自由大学( j b ,v 嘶eu n i v e 瑙i t i c tb m s 1 ) 联合开展研究。整个项目 的目的旨在建立基于文本驱动或者语音驱动的带有感情的音视频的三维合成动 画。我们的任务是建立带有感情色彩的音视频数据库,分别提取听觉、视觉的特 征并进行语音识别,同时对音视频数据库进行音素级别的识别和切分,为后面进 行带有感情的音视频合成动画系统建立基础。本人主要从事音视频单流的连续语 音识别的建模及切分研究工作。 在语音识别领域,基于隐马尔可夫模型( 碰d d e nm a r k o vm 0 d e l s ,h m m ) 语音识别已经相当成熟,并获得较高的识别结果,然而,随着实验环境的要求, 尤其在噪声环境下,识别率骤然下降,怎样降低噪声的影响,提高我们语音的识 别率,是研究者需要解决的问题。伴随语音的视觉特征,作为一种辅助语音识别 有用的信息,引起了研究者的注意,实验表咧1 1 ,在噪声环境下,视觉信息完全 不受噪声的影响,因而利用视觉信息的这一特性,可以弥补语音识别中听觉特征 对噪声鲁棒性较差的缺点,有效地提高在噪声环境下语音识别的识别率。鉴于此 特点,需要我们构建一种能够有较强噪声鲁棒特性的昕视觉融合的模型。 另一方面,具体到本项目中,我们还需要对音视频的建模单元进行切分。研 究表明嘲,由于发音器官运动的异步性,语音在听视觉感知上是存在异步,我们 听到声音的时间一般要比嘴形的开始时间晚1 2 0 m s 左右。如图1 1 所示,我们可 以看到在发音之前,嘴巴已经张开,而且嘴形张开的时间约为3 8 0 m s ,而声音真 正发音时间为4 8 0 m s ,相差了将近1 0 0 m s 。因而准确的划分每个建模单元的时间, 对于研究听视觉的异步性有不可忽视的作用。 图1 1 声音波形与嘴形对应图( 横坐标单位:秒) 西北工业大学硕士学位论文 第一章绪论 在听视觉融合的语音建模方法上,现在常用的方法有:多流h m m ( m u l t i s 仃c a mh m m ,m s h m m ) ,乘积h m m ( p m d u dh m m ,p m 订m ) 和耦 合h m m ( c o u p l eh m m ,c h m m ) 等,但是,在这些模型中,听觉流和视觉流 的异步程度被限制在模型的状态级,即语音单元之内,因此切分出来的语音单元 在听觉流和视觉流上还是同步的,这样严重限制了细节的描述,也违背了语音听 觉流和视觉流在音素外存在异步的本质特性。 由此我们可以看到,要更好的解决听视觉语音识别和异步切分研究,关键在 于模型结构的选择,因此我们必须寻找一种能够突破h m m 结构限制的,体现听 视觉流更大程度异步,对噪声鲁棒的科学的模型结构。 动态贝叶斯网络( d y l l 锄i cb a y e s i 粗n 咖o r l 【s ,d b n ) 作为一种能够为听视 觉融合及异步性研究提供新方法的模型结构,出现在我们面前。 使用d b n 对听视觉多流信息建模,具有以下几点潜在优势: 1 、d b n 具有强大的描述能力和显式的建模特点,特别适合对听、视觉感知 之间的细节和深层信息进行描述。在加m 中,隐含了特征向量的内部关系,只 能作为一个整体输入语音模型中,而在d b n 中,这些内部结点均可设置成隐含 变量,通过d b n 的结构学习算法,可从观测语音数据中学习到模型参数和隐含 过程之间的依赖性; 2 、d b n 具有高度的灵活性,可以对听、视觉之间的关系进行自由设置,模 拟听视觉感知的机理。听视觉之间的异步程度可以通过不同流之间共享同一语音 单元变量( 如音素、词甚至任意长度的语音单元) 来模拟; 3 、d b n 可以实现多种信息流的有效集成。首先,采用d b n 对多种信息流 建模,可以避免带来的状态空间过大的问题,其次,d b n 通过多种控制机制, 可以在模型精度和计算复杂度之间取得很好的折中;再次,通过联合概率的因式 分解,将状态信息分配到有条件独立假设的任意一组隐含变量中,使得在描述相 同的信息量时,d b n 所需的参数数目变少,计算量也随之降低。 基于d 】b n 的强大的建模优势,本文提出了基于动态贝叶网络的音视频语音 识别和单元切分模型,目的在于为连续语音识别找到一种能够同时适合于音频流 和视频流语音识别的科学的模型结构,分别研究音频流和视频流两种特征在噪声 环境下的识别效果,同时研究能够切分出音素和视素的时间边界的模型结构,从 而为今后研究音视频融合的多流语音识别以及音视频的异步关系打下良好的基 础。 2 西北工业大学硕士学位论文第一章绪论 1 2d 刚语音识别研究的历史及现状 1 2 1 国内外研究历史 在语音识别领域中,h m m 一直是语音识别系统中应用最广泛的统计模型, 然而随着语音识掰系统复杂性不断的增加和新的需隶的出现,阳肼受到其表示 能力的局限,更加不能适应对复杂多变的语音信号的建模要求。动态贝叶斯网络 ( d v l l a m i cb a v 鹤i 觚n e 呐o r k ,d b n ) 以其强大的表示能力和通用的学习和推理 算法,正在成为语音识别模型研究的新热点 动态贝叶斯网络是近年来发展起来的统计模型,d b n 本身的理论尚未完全成 熟,但是它的优越特性以及模型的显式表达能力,已经引起了越来越多的研究者 的关注。d b n 除了在语音识别技术上的应用以外,许多研究专家还在说话人检 测方面【3 】、以及视频跟踪方面1 4 l 都作了大量研究,并取得一定成果。 在我国,对于d b n 理论的研究还处于刚刚起步阶段,针对动态贝叶斯网络的 精确推理算法,周本达【5 l 等提出了简单有效的l ( 1 2 ) 片联合树推理算法,减少 了对不确定性问题推理的复杂度;针对动态贝叶斯语音应用领域研究方面,仅在 一些学校和研究单位开展了研究工作,浙江大学的桑利锋1 6 】等人利用d b n 的强大 表达能力,在说话人识别方面以及基于d b n 信息融合方面做了深入的研究,并 在说话人确认和鉴别测试上都取得了非常不错的效果;此外,清华大学的吴志勇 博士及蔡莲红教授【7 】利用动态贝叶斯网络对不同层级的音视频关联关系建立模 型,实验结果表明,动态贝叶斯网络为描述音视频关联关系提供了有效的建模方 法,在不同语音信噪比的情况下均能不同程度的提高说话人识别的性能;在基于 d b n 的语音识别方面,i n t e l 中国研究中心的y mz h 觚一8 】等人利用d b n 的建模优 势,提出了一种多流d b n 模型( m u l 6 s 恤a md b n ,m s d b n ) ,该模型使用d b n 对各种声学特征进行同步和异步建模,实验证明了该方法比传统的基于h m m 的 融合方法带来更高的识别率,词识别率由6 6 6 提高到6 9 9 9 ,并体现了更强的 噪声鲁棒性,同时基于多流的d b n 模型也要优于基于单流的d b n 模型的语音识 别结果;在西北工业大学和布鲁塞尔自由大学共同承担的,中国科技部与比利时 弗拉芒大区科技合作项目现实世界的机器视觉和语音技术中,谢磊1 9 】等人在 基于d b n 的特征融合等关键问题上,也进行了一定研究。 针对语音的动态贝叶斯网络模型的研究,国外的研究要早于国内,而且研究 也比较深入。早在1 9 9 7 年加拿大多伦多大学的z o u b i ng h a h 姗觚i 等研究者就对动 态贝叶斯网络的基本的推理、学习算法进行了简单的描述i 堋,后来美国伯克利 大学( b c r k d e yu n i v e 璐蚵) 的z w e i g 等人成功的将动态贝叶斯理论用于孤立词语 3 西北工业大学硕士学位论文第一章绪论 音识别中【n l ,在他的实验中,使用类似于h m m 的d b n 拓扑结构,并清晰的描述 了词内音素之间的概率转移关系,同时阐述了动态贝叶斯网络模型与传统概率统 计模型在语音识别应用方面的区别。2 0 0 2 年m r r 的k c v i np m u r p h y 对d b n 的表示 方法,精确推理及模糊推理过程进行了详细描述1 1 2 1 ,并编写了开源的d b n 的 m a a b 工具包。尽管前人利用动态贝叶斯网络在语音识别方面做出了一定的研 究,但是,针对连续语音识别方面,还没有构造合理的d b n 模型。 2 0 0 2 年,在美国自然科学基金的支持下,华盛顿大学电子工程系( w 勰h i n g t u n i v e 璐i 哆,e l e c 啊c a le n g i n e e 血gd c p t ) 的b i l m e s 等人利用动态贝叶斯网络构建用 于连续语音识别的图模型工具包( g m p h i c a lm o d e l1 b o l l 【i t ,g h x ) l ”j ,在该工 具包中,深入地研究了d b n 模型中隐状态之间的概率关系,利用特有的描述方 式,构建了基于音素的二元文法的d b n 语言模型,大大简化了语音训练及识别 的模型结构,提高了识别的运算速度,用户可以方便的通过修改其中的脚本文件 来对模型结构进行实际需要的改动,开创了d b n 在语音识别领域应用的新局面, 最近又在此基础上设计了基于音素的三元文法d b n 语言模型、词间扩展三音素 的d b n 模型,以及树型结构的词法模型1 1 4 j 。 以上都是对d b n 在单流的语音识别中的研究历史做了阐述,针对音视频多流 语音识别方面,采用多流h m m 【”l ,选择不同的同步点,在两个同步点之间,不 同的数据流可以存在一定的异步性,同时在同步点保持同步。这种模型反映了视 觉和听觉的同步异步性。在此基础上,构建了乘积h m m 【1 6 】,将听觉和视觉的异 步性控制在音素内。利用乘积h m m 构建状态同步和状态异步的双模态语音识别 模型切,实验表明,音视频融合的识别系统的识别率要明显高于单流的语音识 别系统。近来,克莱姆森大学( a e m s u n i v e 璐i t y ) 的j o h nn g o w d y 等人在研究 d b n 建模优势的基础上,针对听视觉融合的语音识别,建立了多流音视频混合 类型的d b n 模型( m i 】【e d1 卯em u l t i s 仃c 锄d b n ,m i m s d b n ) 【坞】,该模型综合 考虑了多个音频特征流与视频流之间的异步特性,实验表明,针对双流同步的 d b n 模型比双流同步的 拟m 模型的词识别率提高2 ,混合类型的d b n 模型与音 视频三个流特征同步的d b n 模型结构相比较,词识别正确率提高了4 ,另外, 实验也证明了d b n 模型较之h m m 模型,具有更强的噪声鲁棒性。在听视觉特征 的基础上,ki j v e s c i l 等人【1 9 】又利用发音模型潜在的提高识别率的能力,将发音 模型和昕视觉语音识别结合,构造了基于发音模型的d b n 模型。 综上所述,d b n 在语音识别领域的应用已经从单流音频语音识别扩展到音 视频多流的语音识别中,并取得了开创性的进展。 4 西北工业大学硕士学位论文第一章绪论 1 2 2 现状分析及解决方案 通过对国内外现状的研究,我们发现,基于d b n 的语音识别建模方法,对比 基于h m m 的建模方法,表现出了极大的灵活性和噪声鲁棒性。针对音视频融合 的m s h m m 模型已经不能科学的体现音视频之间的异步关系,逐渐被d b n 这样一 个灵活的模型所代替。 如上所述,国内外在d b n 语音识别方面做出了一定的研究,针对连续语音识 别b i l m e s 研究出了基于整词一状态d b n ( w b r d s t a l ed b n ) 的模型结构,这种模 型相对于h m m 模型具有较强的噪声鲁棒性,然而该模型结构,将每个单词固定 的分配给几个状态,针对每个状态与观测向量之间对应一个混合高斯模型,忽略 了词与基本建模单元( 音素或视素) 以及单元之间的转移关系,因而不能够切分 出音素( 视素) 单元的时间,限制了我们对音素和视素异步性的研究。尽管后来 b i l m 髂描述了整词一音素d b n ( w o r d p h 伽ed b n ) 结构的思想,然而没有给出具 体实现,仅给出单词识别率的实验结果。 针对这种现状,我们对整词一状态d b n 模型进行研究,构建充分体现音素之 间关系的,同时适合于音频和视频的连续语音识别的d b n 模型。基于以上考虑, 本文修改整词一状态d b n 结构,结合连续语音识别h m m 模型的建模思想,将每 个单词由对应音素组成,同时,将状态修改成音素( 视素) 单元,将状态之间的 概率转移描述成音素( 视素) 之间的概率转移关系,针对音素( 视素) 和观测向 量之间转移关系对应一个混合高斯模型,构建整词一音素d b n 模型和整词一视素 d b n 模型,这两种模型不仅综合了整词一状态d b n 模型能够进行词一级识别、对 强噪声鲁棒的优点,而且能够切分出音素( 视素) 单元时间,从而为今后音视频 的异步性研究做基础工作。 一 1 3 研究所做工作以及文章的安排 本文主要的研究工作如下: 1 录制了英语发音的连接数字音视频数据库,录音文本采用a m r o r a 2 o 语音数据 库中的文本,总共录制了2 3 0 句话。采用音视频分离工具,将视频分解成音 频流w a v 文件和静态图像m p e 醇文件序列。针对音频流文件,加入白噪声, 构造多种信噪比的带噪声音文件。分别针对音频和视频数据流提取了特征向 量序列,作为后面实验的基础: 针对音频流,提取了m e l 滤波器组倒谱系数( m e l f r e q u 锄c yc c p s t r u m c o e 伍伽t s ,m f c c ) 特征和能量,及其一阶差分倒谱和二阶差分倒谱, 5 西北工业大学硕士学位论文 第一章绪论 形成了3 9 维的语音特征向量序列,该特征充分体现了音频流中的发音和 动态特性。 针对视频流,用贝叶斯切形状模型( b a y 髓i 蠲t a n g e n ts h a p cm o d d , b t s m ) 算法自动标定每一帧人脸图像的8 3 个特征点。利用唇部外轮廓 和内轮廓的2 0 个特征点,提取了以下三组唇部特征: 2 0 维静态特征( s 锄e2 0 、r - s ) :提取横向、纵向1 6 组距离参数, 以及反映嘴形张合度的4 组角度参数,共同组成2 0 维静态特征。 4 0 维静态+ 差分动态特征( v i s e m e4 0 vsd ) :在原有2 0 维静态特征 基础上,考虑相邻图像帧特征向量之间差值的动态几何特征。 4 0 维线性内插特征( v i m e :4 0 ysdi ,) :考虑到音视频数据采样 率不匹配的问题,在4 0 位维动态特征基础上,对帧率2 5 帧,秒的4 0 维视频特征进行线性内插,形成与音频特征具有相同帧率1 0 0 帧,秒 的4 0 维视频特征。 2 研究了连续语音h m m 模型的嵌入式训练和识别过程,构建了连续语音识别 系统。针对音频语音,采用1 0 0 句纯净语音训练了单音素、三音素的h m m 模型,并采用其他3 0 句纯净语音及其信噪比在o d b 4 0 d b 的带噪语音进行了 语音识别实验,对纯净语音得到了9 9 0 6 的识别率;对于视频语音,分别采 用1 0 0 句语音的三种视频特征建立了单视素的h m m ,并用其他3 0 句测试语 句的相应视频特征进行纯度识别实验,结果表明,v i s e m e4 0 、,sdi ,特征 的识别率要高于其他视频特征。 3 研究了动态贝叶斯网络的基本原理,包括概率公式推导方法;拓扑结构组成; 针对特殊的树型结构网络图的树型推理算法;针对一般d b n 网络结构的连 接树算法,包括其三角化和道义化过程及其边界推理算法等。针对边界推理 算法,给出了实例网络图中各结点的概率推理过程。最后,本文还从结构描 述、推理和学习算法等多个角度,比较了h m m 模型和d b n 模型的异同。 4 分析了目前整词状态d b n ( w b r d s t a 诧d b n ,w s d b n ) 的f 网络拓扑结构, 结点概率关系及存在的问题。研究发现,w s d b n 模型只是反映了单词和状 态之间的关系,相当于为每个单词建立一个h m m ,结构中没有次词单元( 音 素或视素) 关系的反映,因而不能够切分出音素( 视素) 的时间。在此模型 基础上,我们添加音素层和音素转移层,定义了单词音素、音素观测向量 以及音素转移和单词转移等各结点之间的条件概率关系,设计了能够同时输 出单词和音素切分结果的整词音素d b n ( w b r d p h ed b n w p d b n ) 模型, 将模型中的音素单元替换为视素单元,设计了能同时给出单词和视素切分结 果的整词视素d b n ( w b r d v i m cd b n ,w v d b n ) 单流模型,这两种模型 6 西北工业大学硕士学位论文第一章绪论 本质上是为每个单词的音素( 视素) 组成建模,体现了能够输出音素( 视素) 级识别和切分时间的特性。 5 利用g m n 【工具包,编写实现w s d b n 、w p d b n 、w v d b n 的学习及推 理的g m n 也脚本文件,同样采用l o o 句音视频语音作为训练集,其他3 0 句 语音作为测试集进行单词和音素( 视素) 的识别和切分实验。并采用不同的 准则进行评价,结果表明,虽然w s d b n 更适用于小词汇量的单词识烈,但 是它不能给出音素( 视素) 级的切分结果,而w p d b n 模型和w v - d b n 模 型不仅对单词识别比h m m 引入更小的插入误差,而且音素和视素的切分结 果和h 的切分结果相当。 单词识别率评价 对音频特征,实验比较了单音素h m m 、三音素h m m 、w s - d b n 和 w p d b n 模型在不同信噪比下的单词识别率,结果表明,w s d b n 的识别率要明显高于其他三种模型的识别率,对于纯净语音, w s d i m 和w p d b n 以及三音素h m m 的识别结果非常好,但是在 d b n 模型表现出了较强的噪声鲁棒性,尤其强噪声情况下( 2 叫b 以 下) ,w s d b n 模型和w p d b n 模型的识别率明显高于三音素h m m 的识别结果。与单音素h m m 相比,w p d b n 在各种信噪比下的平 均识别率更是从7 0 8 3 提高到7 9 2 5 。 对视频特征,实验比较了单视素h m m 、w s d b n 和w v d b n 在三 种视频特征之下的词识别率,结果表明,、s d b n 依然得到最高的 识别率,尤其在m e4 0 、,sdl 特征下的词识别率达到了 6 9 5 7 ,相对于v i m e2 0 vs 特征下的词识别率提高了1 0 8 7 。增 加帧率后的视频特征更符合单视素h m m 模型,在 s e m e4 0 vsd1 ,下的识别率相对于s e m e4 0 、,si ,特征下的识 别率,提高了4 7 5 。这是因为单视素h m m 要为视素的内部动态变 化建模,因而需要更高的帧率,而对于w s d b n 和w v - d b n 模型, 由于描述的是单词的动态变化,而不是视素的内部动态变化,因而帧 率的增加不会带来词识别率的较大变化。 单词识别精度评价 统计每种模型下的单词识别精度,结果发现,无论是视频流还是音频流 数据,两种d b n 模型的的识别精度都要高于h m m ,即引入插入误差最小。 对于纯净语音,w p d b n 识别精度为8 4 8 1 ,远远超过三音素h m m 的识别 精度;对于各种视频特征下,w v - d b n 的识别精度也都远远高于单视素h m m 的识别精度。 7 西北工业大学硕士学位论文第一章绪论 音素( 视素) 切分结果评价 计算w s d b n 和w v d b n 模型下,所有测试语句的音素或视素相对于硼的 音素或视素的平均切分得分率。结果表明,w p d b n 下音素的切分得分率为 7 9 0 5 ,w v 二d b n 下视素的平均切分得分率为7 2 8 9 ,与h m m 的音素( 视素) 切分边界基本接近。 论文的主要安排如下: 第一章,主要介绍课题的研究意义以及国内外的研究现状。 第二章,简要介绍h m m 的基本概念、以及基于h m m 的连续语音识别系统, 分别针对音频和视频进行特征提取,并进行识别和切分实验,给出实验结果。 第三章,介绍图模型、贝叶斯网络的基本概念,在此基础上引入动态贝叶斯 网络,并详细介绍d b n 的推理和学习算法。从多角度,比较d b n 和h m m 两 种模型的异同,最后对用于构建d b n 模型的g m t k 工具包做相应介绍。 第四章,构建适于我们要求的能够切分出音素、视素时间的整词一音素d b n 单流模型和整词一视素d b n 单流模型,描述模型的基本结构以及相关的概率关 系。最后,在两种d b n 模型上,分别针对音频和视频进行识别和切分实验,给 出实验结果,并与整词一状态d b n 、单音素h m m 、单视素h m m 、三音素h m m 实验结果进行比较,给出分析结果。 第五章,总结本文的研究成果以及不足之处,提出今后需要展开的工作。 8 西北工业大学硕士学位论文第二章基于h m m 的音视频语音识别和切分 第二章基于嗍m 的音视频语音识别和切分 如今的连续语音识别系统大多采用隐马尔可夫模型( m d d e nm a 血o vm o d e l s , h m m ) 【捌。隐马尔可夫模型之所以成功的运用是因为特有的双重随机性能,可 以描述语音信号的短时平稳性和总体非平稳性,同时又提供了一套完整的训练和 识别算法,非常易于实现。在连续语音识别上h m m 的优点在于可以把单个基元 的h m m 级联成为一个非常大的句子级的 删m ,另一方面,它可以和高层的语 言模型结合起来,使得整个语音识别过程可以用一个统一的概率统计模型表示出 来,得到一个整体的解决方案。 对传统的隐马尔可夫模型,无论它的理论还是在语音处理中的应用都不是新 知识,且在许多专著中都有详细的介绍,这里我们只做简单的阐述。本章主要探 讨针对于连续语音识别建模、训练和识别过程。 2 1 隐马尔可夫模型 2 1 1 定义 首先,我们根据i 玎讧m 的模型结构,定义相关的特征参数,一个通常的h m m 结构是由状态结点和观测结点组成,如图2 1 所示,是一个一阶的由5 个状态组 成的从左至右的隐马尔可夫模型: 图2 15 个状态隐马尔可夫模型 假设模型中各个状态为仉2 ,) ,在t 时刻所处的状态为吼,每个状态的 观测符号为y - p ,v :,) ,观测序列为d 一 d l ,d :,) 。我们需要定义以下 几个参数: ( 1 ) 初始状态概率分布石,选择一个初始状态吼- f 。 ( 2 ) 状态转移概率分布4 - 【口。】,其中 口- h 鼋,“- ,i 吼一蛆1 s f s ,1 , ( 2 一1 ) ( 3 ) 观测向量的概率分布口一【6 , ) 】,其中 9 西北工业大学硕士学位论文第二章基于 珊叫的音视频语音识别和切分 6 , ) - 研d i 一唯i 吼- 力 ( 2 2 ) 这里的b 值为离散情况,一般我们用高斯m 元混合密度函数来表不b , 即, 6 ,( 。) 。荟。肛【o ,p 皿,u 业l 1 , 二3 式中,d 为观测向量,为状态j 中第k 个混合加权系数,n 【】是高斯 分布,芦皿和u 皿是状态j 中第k 个混合分量的均值矢量和协方差矩阵 我们将h m m 的参数记为 一伽,爿,田。 2 1 2 推理算法 在h m m 中使用经典的前向后向算法( f o 刑a r d s - b a c k w 粕曲a l g o r i 恤,f b ) 进行推理,在前向算法中,定义前向变量q 回一p d 。,d 2 ,d f ,口l f i a ) ,在后向 算法中,定义后向变量鼠( f ) 一尸p ,。,口f + 2 ,。m ,吼- f i a ) ,通过递归计算口和, 计算此模型下产生观测序列的概率p ( d i a ) 。 2 1 3 学习算法 在h m m 中,学习的过程,就是不断调整模型参数a ,使得p ( dla ) 最大的 过程。这里利用经典的b 姗w b l c h 算法,即e m 算法,基本思想为:按照某种 参数重估公式【2 l l 从现有的模型a 估计出新的模型参数名,使得 p ( d i 爿) 乏p ( d i a ) ,用力替换a ,重复上述过程直到模型参数处于规定的收敛状 态,即得到了最大似然模型。我们在【矧可以看到详细的参数重估的推理过程,这 里不再复述。 2 2 基于h 舢的连续语音识别系统 本文中基于h m m 的连接词识别实验是在隐马尔可夫工具( i i i d d 蚰m a 血0 v m o d d1 b o l 姓m 限) 【纠的基础上构建的识别系统,h 是由英国剑桥大学工程 系开发的一套构建隐马尔可夫模型的工具,该工具的主要目的是建立语音识别系 统。其中包括语音特征的提取、模型的训练、识别算法,所有的程序都是以命令 行的方式,并提供了源代码,用户可以在分析其代码的基础上,对其算法和模块 进行修改。针对音频流,硼提供了逐步细化的建模过程,先建立单音素的 西北工业大学硕士学位论文第二章基于h m m 的音视频语音识别和切分 h m m ,再考虑音素上下文,扩展到三音素h m m ,最后进行状态捆绑。 2 2 1 系统架构 这里在隐马尔可夫模型工具包的基础上,对基于h m m 的连续语音识别过 程中的模型结构、训练和识别系统框架以及所涉及的新的方法进行阐述。 图2 2 连续语音训练识别系统框架 从图2 2 可以看出,一个典型的连续语音识别系统要经过训练和识别两个部 分。训练就是m i m 建模的过程,根据一定的参数重估算法,不断调整模型参 数,得到鲁棒性较好的模型,通过对基本模型的改进和优化,提高模型的精确度, 以到达较好的识别效果。识别就是根据已经建立好的h m m 模型库、词典和语 法构成的识别网络,使用某种搜索算法搜索最佳匹配的过程。 2 2 2 基本建模单元选择 1 音频流的建模单元 我们称音频流的建模单元为声学模型i 硼,声学模型是连续语音识别系统中最 关键的部分,其目标是提供一种有效的方法以计算语音的特征矢量序列与每个发 音模型之间的距离,声学模型的设计与语言特点密切相关。 基本声学单元的选择对于语音训练数据量的大小、语音识别率等都有较大的 影响。基本声学单元选择的越大,则越容易在模型中包含协同发音的现象,有利 于提高系统的识别率,但是计算量较大、所需的模型存储量也大,而且要求的训 练数据量相对增加。而选择较小的声学单元,要求的训练数据量相对降低,但是 带来的问题是对应语音段的定位和分割更加困难,以及需要更复杂的识别模型。 1 1 西北工业大学硕士学位论文 第二章基于h m m 的音视频语音识别和切分 因此,在连续语音识别中,一般不使用词来作为训练和识别的单元。语言学家把 语音的最基本单位定义为音素,英语中常用的音素单元有4 m 5 0 个,我们称为 p h o n e m e 。 由于音素模型容易构造,实际效果好,因此本文采用音素作为h m m 建模的 基本单位。 规定好音素表后,通过重估算法,不断调整h m m 的模型参数,直到达到收 敛的理想结果。在训练之前,首先要定义每个音素的i 似m 模型结构,本文采用 的状态数为5 的从左向右的一阶连续隐马尔可夫模型( c d h m m ) 。模型结构如 图2 1 所示。 然而,简单地以音素h m m 作为识别单位也存在一些问题,由于发声器官的 惯性和连续动作,每一个音素的发音都受左右紧邻音素的强烈影响,这就是人们 常说的“协同发音”现象。为了获得更好的音素区分性,对不同上下文的音素, 必须分别调练其h m m 。最常用的方法是采用三音素模型洲p h o n c ) 嘲,即对每 一个有不同左或右上下文的音素,都认为是一个新的模型,例如,如果用x y + z 来表示音素y 发生在x 之后,而在音素z 之前,那么短语“b e a t “”就可以被阐 释为三音素序列 s ns j l - b + i yb i y + ti y - t + i ht - i h + ti h t + s i ls i l 在此注意到,音素上下文超越了词的边界,“b e a t ”和“i t ”中的两个相同 音素t 要由不同的三音素“i y t + i h ”和“i h - t 砌”来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- NBT 11314-2023 输电线路共享铁塔设计规程
- DLT 5461.2-2013 火力发电厂施工图设计文件内容深度规定第2部分:总图运输
- 广州酒家集团面试题及答案
- 公务员面试随机面试题及答案
- 农业数字化管理新模式实践案例总结报告
- 公务员面试募捐面试题及答案
- 会计招聘面试题及答案
- 海南航空校招真题及答案
- 公务员面试纪实面试题及答案
- 光大集团招聘笔试题及答案
- 2025全国医疗应急能力培训系列课程参考答案
- 初中英语试卷讲评及课堂教学设计
- 上海安保考试题目及答案
- 糖尿病专家培训课件
- 2025-2026学年深圳市罗湖区九年级(上)英语第一学期期中联考试卷(解析版)
- 雨课堂在线学堂《中国传统文化》课后单元测试答案
- 2025年大学《社会工作-社会福利思想》考试参考题库及答案解析
- 独孤一箭实盘交割单 独股一箭20w实盘交割单
- 2025交管12123学法减分题库附含参考答案
- 冬季施工混凝土养护方法
- 2025年医学高数期末考试题及答案
评论
0/150
提交评论