




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于视觉信息的语音识别技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕士学位论文 摘要 在人机交互领域中,传统的单语音识别技术在相对安静的环境下能够对连 续的单词及词组达到较高的识别率。然而,将其应用到有背景噪声或多人交互 的真实环境时,其识别能力受到了极大的限制。现实语音交流中,说话人的视 觉信息可以明显提升接受者的感知能力。因此,本文主要研究了计算机视觉技 术在自动语音识别中的应用。 本文首先介绍了基于视觉的视听语音识别( a v s r ) 系统的整体框架,并对 传统的单视觉、单音频的特征提取和识别方法进行了分析比较。认为人脸嘴部 视觉特征的检测提取与视、音特征融合是提高系统整体语音识别能力的关键, 亦是本文主要的研究工作。 为了满足视觉特征的实时检测,我们首先引入了旋转哈尔特征在积分图像 中的应用,在基于a d a b o o s t 推进学习算法上通过使用单值分类作为基础特征分 类器,以级联的方式合并强分类器,划分检测区域并用于嘴部定位,最后通过 卡尔曼滤波跟踪、主成分分析、线性判别、音节分析,抛弃了大量对后期特征 融合识别无用的特征量,快速有效的提取了人脸嘴部特征。音频语音特征的提 取我们采用了较成熟的m e l 倒谱系数方法。对所获取的单视、音特征采用隐马 尔可夫模型作为训练识别算法。耦合隐马尔可夫模型的实现可以在时间上对视、 音频流状态的异步过程建模,并且保留了视、音特征的独立性,实现了视、音 特征流在决策级上的融合识别。 最后,本文将单视、音及视一音融合识别技术应用于视听语音识别系统中, 对连续单词进行多级噪声环境下的语音识别测试,实现了基于视觉信息的语音 识别技术在外部环境干扰下较为稳定的识别能力。 关键词:双模态积分图像视一音融合隐马尔可夫模型 v 上海大学硕士学位论文 a b s t r a c t i nh u m a nc o m p u t e ri n t e r a t i v e ( h c i ) t e c h n o l o g i e s ,t h et r a d i t i o n a ls p e e c h r e c o g n i t i o nh a sq u i t eh i g hc o r r e c t i o nr a t ei nc o n t i n u o u sw o r d si nq u i e te n v i r o n m e n t n e v e r t h e l e s s ,s u c ht e c h n o l o g yh a sg r e a tl i m i t a t i o ni nm o s tc i r c s ,s u c ha sn o i s y b a c k g r o u n d ,m u l t i - i n t e r a t i v e i nr e a l t i yc o m m u n i c a t i o n ,s p e a k e r sv i s i o ni n f o r m a t i o n h a sp r o v e dc a p a b i l i t yo fl e v e r a g et h er e c e i v e r sp e r c e p t i v e s o ,a p p l y i n gc o m p u t e r v i s i o nt e c hi ns p e e c hr e c o g n i t i o ns y s t e mh a sd r a w ne x t e n s i v ea t t e n t i o ni nt h i sp a p e r f i r s t l y , w ei n t r o d u c e dt h ef r a m e w o r ko fv i s i o n b a s e da v s rs y s t e m ,a n dt h e n c o m p a r e dt h et r a d i t i o n a lm e t h o d so ff e a t u r ea b s t r a c t i o na n dr e c o g i n i t o ni ns i n g l e v i s u a l ,a u d i or e s p e c t i v e l y t a k i n gt h ed e t e c t i o no fv i s u a lf r o n t - e n df e a t u r ea n d a u d i o v i s u a lf u s i o nw h i c ha st h ek e yt oi m p r o v et h ep e r f o r m a n c eo fa v s rs y s t e ma s t h em a i l yr e s e a r c hi nt h ep a p e r t os a t i s f yt h er e a l t i m ed e t e c t i o na n da b s t r a c t i o no fv i s u a lf e a t u r e ,w ea p p l i e d r o t a t e d h a r r - l i k e f e a t u r ei n i n t e g r a l i m a g e ,l e a r n i n ga l g o r i t h mb a s e d o n a d a b o o s tw i t hs i n g l ev a l u et r e e sa sb a s ec l a s s i f i e r s ,c o m b i n a t i o no fc o m p l e x c l a s s i f i e r si n “c a s c a d e ”,r e g i o n a l i z a t i o no ft h ef a c ea r e a , t r a c i n gm o u t hm o v m e n tb y k a l m a nf i l t e r , s y l l a b l ea n a l y s ea n dp c a ,l d ap r o j e c t i o n w ea p p l i e dm f c c m e t h o di na u d i of e a t u r ea b s t r a c t i o n ,a n dt a k et h eh m mt r a n i n gm o d e li ns i n g l e a u d i o ,v i s u a ls p e e c hr e c o g n i t i o n c h m mw a su s e di na u d i o v i s u a ld e c i s i o nf u s i o nt o k e e pt h et h ei n d e p e n d e n to fa u d i o ,v i s u a lf e a t u r ei nd e c i s i o nl e v e l f i n a l l y , w ea p p l i e dc o n t i n u o u sw o r d ss p e e c hr e c o g n i t i o ni na v s rs y s t e mi n n o i s ye n v o i r n m e n t ,a n dp r o v e dw e l ls t a b i l i z a t i o ni nv i s u a l b a s e ds p e e c hr e c o g n i t i o n a c c o r d i n gt oe x p e r i m e n t a lr e s u l t s k e y w o r d s :b i m o d a l i t y ;i n t e g r a li m a g e ;a u d i o - v i d e of u s i o n ;h i d d e nm a r k o vm o d e l s v i 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均己在论文中作了明确的说明并表示了谢意。 签名:自鋈鱼日期: 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:纠墨鱼导师签 ,扩、o j 2 o 上海大学硕士学位论文 1 1 引言 第一章绪论 随着个人计算机c p u 处理速度的不断提升、存储容量的加大,人机交互 ( h u m a nc o m p u t e ri n t e r a c t i o n ,h c d 技术越来越引起人们的重视。传统的h c i 设 备,如键盘、鼠标等,由于自身速度、友好性方面的限制,会逐渐被更加友好 的h c i 所替代。人机交互技术已经从以计算机为中心,逐步转移到以人为中心 的交互方式。 现阶段的h c i 研究中,语音识别技术的发展迅速,使得自动语音识别系统 ( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 有了广泛的应用。较好的有i b m 开发的 v i a v o i c e 语音系统,微软的语音识别引擎。这些系统在相对安静的环境下能够 对连续的单词及词组达到较高的识别率。然而,将其应用到有背景噪声或多人 交互的真实环境时,其较差的抗干扰能力,使其无法满足广泛应用的要求【l 】。 事实上,在真实的吵杂环境中,人们对语言的感知是双模态( b i m o d a l i t y ) 【2 】的,它很自然的包含了语音及视觉信息。其中,最显著的例子就是当人们欣 赏视频片段时,清晰的画面与音响效果同样重要。早在1 9 5 4 年p o l l a c k 就提到 了视觉信息在语音识别中的辅助性,而m c g u r k 效应则完全说明了视、听融合 在语音感知的重要性【3 】。例如:观众在观看中文配音的外语电影时,当听到喇 叭里说话人的声音为g a ,而屏幕中看到嘴部的发声口型为b a 时,大多数人会 错误的感觉对方表达的音节是i d a 。而对于一些单音节,如浊辅音b ,d ,鼻音 m ,n ,在普通交流中正常人根本无法分辨,而一些聋哑人却可以通过观察嘴 部口形正确的理解说话人所要表达的音节。这些行为都说明了人脸嘴部的视觉 信息无论是在正常人之间的语音交流还是有听力障碍聋哑人的手势交流中都起 着非常重要的感知作用。 因此,对于计算机语音识别技术来说,除了传统的音频信息以外,也可以 通过人脸嘴部的视觉信息,或人体的手势动作【4 】来提高人机交互的识别效果。 我们将这种使用多种信息融合的方式进行语音识别的过程称为多模态 上海大学硕上学位论文 ( m u l t i m o d a l ) 语音识别系统。将仅利用视、音频信息的多模态识别系统称之 为视听语音识别系统( a u d i o v i s u a ls p e e c hr e c o g n i t i o n ,a v s r ) 。 如何有效的通过人脸嘴部的视觉信息提高语音识别率,传统的思想是利用 听觉和视觉信息进行双模态的机器识别,即所谓的“唇读识别( s p e e c h r e a d i n g ) 。 p e t a j a n 于1 9 8 4 年最早尝试将视觉信息融合至现有的识别系统中 5 】。8 0 年代后, 基于人脸嘴部视觉信息的研究才在世界范围内兴起,并且伴随着语音识别技术 的不断成熟而逐渐显露出它的重要性。此类基于视觉的双模态识别系统一般包 含个音频处理子系统和一个视频处理子系统,如图1 1 。在视频处理子系统中, 摄像机获取说话人的视频,进行数字化的图像处理,得到用于后期融合识别的 视觉特征。通常提取的视觉特征包括嘴的高度、宽度、形状、圆度,下颌的位 置、速度。同时,麦克风记录音频信号,同样进行数字化和数字处理以提取语 音特征。最后,识别系统综合视频和音频两个子系统的特征参数进行分类识别。 图1 1 中的音频处理子系统与经典的单模态语音识别系统非常相似。因此,典 型的基于视觉的语音识别系统研究重点主要是视频处理中的特征检测与提取, 视、音融合策略,识别算法的研究。 类似与通过观察说话人的口型进行语音交流,人机交互中视觉特征的引入 可以提高传统单语音识别系统的性能。由于视觉特征不受外界噪声环境的影响, 系统识别能力更具健壮性、实用性。 图1 1典型的基于视觉的语音识别系统 2 0 0 2 年5 月,上海大学向上海市科委确立了“基于p c 平台的a r 系统的关 键技术研究及应用”科研项目( 0 2 5 1 1 5 0 0 8 ) 。该项目同时开展了包括系统结构、 场景建模、模型转换、跟踪注册、融合显示、人机接口等多方面基于p c 平台 上海大学硕十学位论文 a r 系统关键技术的研究。语音识别作为未来人机交互接口的关键部分,应用 领域十分广泛。通过将视觉信息引入传统单语音识别系统以提高语音识别率, 使得a r 系统在真实环境中的人机交互可以得到充分的发挥。 1 2 应用价值 基于视觉的语音识别技术拓展了传统单声学语音识别难以实现的领域,可 广泛应用于安全识别、视频电话、交互式电视、视频游戏、军事应用等领域, 因而日益受到人们的关注。例如在现今社会中,语音识别已经出现在各类简单 的操作软件中了,在一些智能手机,p d a 的设计中,用户只要说出电话联系人 的名字,热点网址或者通用命令,浏览器( 软件) 就可以执行相应的操作。而 基于视觉信息的语音识别技术可以增强此类系统在吵杂环境中的识别性能,另 外关于表情( 点头或摇头) 以及注视方向的视觉信息也有助于语音命令的识别。 增强语音识别技术的广泛应用必将对人们的生活和工作方式产生重大的影响。 1 3 国内j , l - 研究概况 1 3 1 国外研究概况 目前,国外从事基于视觉的双模态语音识别系统下的视觉特征检测与提取 的模式方法及技术相对成熟。其中,s i l s b e e 6 】采用了矢量量化的方法,使用的 码本矢量是在训练数据中手工选择的,以反映嘴部的不同变形结构。基于此方 法的视听双模态语音识别系统对两个小规模的音素数据库和一个中规模的孤立 词数据库进行了识别实验,结果表明,视听识别系统的性能在不同的信噪比下 比同样情况的纯声学的系统识别率从2 0 改进到6 5 。m a t t h e w s 等提出了一 种非线性图像分解方法“筛变换”,将图像分解到颗粒域。通过对一个4 人的 2 6 个孤立字母发音的小规模数据库的识别实验表明,单视觉识别达到5 0 的 识别率,视听双模态语音识别在低信噪比的情况下比纯声学识别得到最大1 0 的改进。m a s e 等【7 】贝0 建立了一个基于光流计算的视听识别系统,通过计算嘴部 4 个窗口中的光流,得到语音产生过程中的嘴部肌肉运动。由于运动光流估计 3 上海大学硕上学位论文 的条件受到约束,该方法也存在局限性。c o s i i s 的系统中用反光标志标定了8 个 点,包括3 个参考点( 左右耳垂与鼻尖) 与5 个目标点( 4 个唇点与1 个下颌 点) ,由此可以得出1 4 个视觉参数。l a v a g e t t o 等 9 】在其语音视觉合成系统中 采用了一组独立的视觉参数,共有6 个。许多研究者采用强反光点或加亮唇部 以获得几何特征,甚至三维深度特征。这些特征提取方法简单,易受外部光照 环境影响,获取的视觉语音特征单一,对后期的视、音融合识别作用不大。表 1 1 列出了国外一些基于视觉的语音识别系统研究所取得的一些成果。 表1 1不同基于视觉的语音识别系统的特征列表 特征提取 系统脸部定位嘴部定位识别算法融合策略识别目标 方法模型 学习 p e t a j a n8 4 n o s t r i l sc 或j 值一1 o1 o距离晚期字母 f i n n8 6 反光点o 21 0距离v c v y u h a s8 8 见 】01 on n o 一明 v p e n t l a n d8 9 运动0 91 0 l t w 数字 s t o r k9 2 索 反九点 0 7i 0t d n n h 吖t 晚 c v g o l d s c h e n 9 3 闽值 一0 91 0h m m 句了 s i l s b e e9 3 v q 一0 91 0hmm 晚期c ,v 词 b r e g l e r9 4 $ 表面 0 o1 on n h m m早期 ;+ :母,词 h e n n e c k e9 5颜色边缘,灰度模板0 71 0hmmh 期词 颜色,运动,t d n n w a i b e l9 5 边缘n n p c 九l d a0 o1 o 中期字母 形状d t w a d j o u d a n i 9 5 木 口红r 红o 31 0i m mh i 晚c v c b r c g l e r9 5复合方法 复合o 41 on n h m m晚期字母 v o g t 9 5 颜色模板o 60 9 l a v a g e t t o9 5 口红模板0 60 9t d n n晚期b d m o v e l l a n9 5 簟 灰度1 o一0 3hmm早晚数# s i l s b e e9 5 边缘,灰度模板 o 60 9h m m 晚期 c v p c t a j a n9 5 眼睛,鼻孔轮廓 0 9一1 0 l u e t t i n9 5 士士 形状 o 6o 9 卓士 数字 d a l t o n9 5口红 轮廓 0 81 0d t w 早期 b d c o i z n i z9 5 边缘,灰度模板o 71 0 木 句子 c o s i9 4 反光点o 2 1 0丁d n n r f i 期v c v s t o r k 9 6颜色 边缘,灰度模板 0 71 0b z 一 i 期 v c v 注:c 辅音,v - 元音 4 上海大学硕士学位论文 1 3 2 国内研究概况 国内,最早有中科院声学所语音交互信息技术研究中一i 二, ( s i i t ) 于1 9 9 6 年开 始视昕语音识别系统关键技术的研究。其在信号分析基础技术、采集与分析的 集成研究平台、立体匹配算法、汉语语音的视、听语音识别数据库、基于模型 的视觉特征提取技术等领域取得了一系列重要的成果【m 】。这些成果的取得,为 未来建立一个完整的汉语视听语音识别系统打下了重要的基础。哈工大的姚鸿 勋博士对人脸唇部运动有着广泛的研究【1 1 1 ,内容包括有基本口型的视觉特征提 取、描述与表示,口型识别与理解等。清华大学人机语音通信研究所采用的基 于数据驱动的线性变换方法,在人脸嘴部跟踪、特征选择等方面也都有较好的 性能 1 2 1 。 1 4 本文研究工作 本文所要设计及实现的目标是一个简单的视听语音识别系统。在模拟的吵 杂环境中,摄像头及麦克风作为基本的硬件设备实时捕捉说话人对连续单词发 音的视频片段,软件系统则分别对视、音频作异步处理,将所得到的特征量进 行融合并识别出说话人所叙述的单词。软件平台开发工具主要采用v s 2 0 0 5 , o p e n c v ,d i r e c t xs d k 等。本文主要做了以下几个方面的研究工作: 一 视觉特征检测与提取。采用基于象素的特征提取方法完整的保留了 视觉信息的语音特征,受外部环境干扰少,计算量大、特征冗余高。为了达到 实时检测的要求,我们首先引入了旋转哈尔特征在积分图像中的应用,在基于 a d a b o o s t 推进学习算法上通过使用单值分类作为基础特征分类器,以级联的方 式合并强分类器,划分检测区域并用于嘴部定位,最后通过卡尔曼滤波跟踪、 主成分分析、线性判别、音节分析抛弃了大量对后期特征融合识别无用的特征 量。 二 视、音特征融合与识别。对所获取的单视、音特征采用隐马尔可夫 模型作为训练识别算法,此方法无法同步来自视、音流的特征量进行分类判别。 采用耦合隐马尔可夫模型可以在时间上对视、音状态的异步过程建模并且保留 j :海大学硕士学位论文 了自然视、音特征的独立性,实现了视、音特征流在决策级( 后期) 上的融合 识别。此方法主要针对两个相互关联的随机过程进行建模和分类,可以视作为 多个隐马尔可夫模型( h m m ) 的集合,每个作为一组数据流,通过状态节点之 间的转移概率捕获视、音特征流之间的交互关系。 1 5 论文结构 第一章主要阐述了课题研究的来源、目的、国内外研究现状及研究内容。 第二章阐述了a v s r 系统框架的整体结构设计,介绍了当前视、音频特征 提取,融合识别的相关技术,及实现一个a v s r 系统所必需的软、硬件平台。 第三章通过描述一种改进的基于旋转哈尔特征推进级联分类器的机器学习 方法及相关的后期降维处理,详细地阐述了视觉前端设计在a v s r 系统的实现。 第四章阐述了音频特征提取,隐马尔可夫模型理论,以此为基础推导出基 于耦合隐马尔可夫模型的视、音融合识别算法的实现。 第五章首先介绍了整个a v s r 系统流程,实现了第三章中视觉特征提取的 步骤及实验数据,并在第四章的理论基础上实现了单视、音和视一音融合的连 续单词识别,通过比较得出了基于视觉的语音识别技术较之传统单音频识别的 优势。 第六章对全文进行了总结,说明了系统实现的目标、存在的不足,并对未 来基于视觉的语音识别系统的实现进行了展望。 6 海大学硕小学位皓文 第二章视听语音识别系统介绍 2 1 视听语音识别系统总体框架 除了来自奇频流的语音特征之外,通过挖掘说话人的嘴部视觉特征以改善 传统自动语音识别( a s r ) 系统的识别率,我们称之为视听语音识别系统 ( a v s r ) 。多数情况,特别是在吵杂环境下,添加了视觉特征的语音识别系统 在稳定性上比传统的单语音识别系统性能要出色的多。同时,基于视觉信息的 语音识别技术给我们带来了相对于传统单语音识别技术下更多的研究方向与挑 战。如图2 1 ,在a v s r 系统中,除了通常的音频特征提取阶段,来自说话人脸 部带有语音信息的视觉特征同样要求在视觉前端( v i s u a lf r o n te n d ) 模块中被 提取。在此阶段中,不但要求准确的人脸检测,而且要求对说话人嘴部或唇部 的位置精确估算与跟踪,以得到可适用于后期视、音融合的视觉特征。相对于 单音频语音识别或单视觉唇读识别,a v s r 系统的后端j i | | j 是对两者提取特征的 融合,其语音识别性能较之传统的单模态语音识别有一定的提高空间。传统的 单模态特征提取及识别技术己相当成熟,新的a v s r 系统所带来的两大问题是 视觉前端设计( v i s u a l f r o n te n d d e s i g n ) 及视、音融合( a u d i o v i s u a l f u s i o n ) 与识别, 亦是本文后续章节所要详细叙述及实现的技术。 幽21 视听语音识别系统总体框架 上海大学硕士学位论文 2 2 音频特征提取 2 2 1 音频识别技术介绍 音频特征提取的目标是从说话人的音频流中提取信号特征参数用于后期语 音识别。传统的单音频识别系统首先需要进行静音检测,判断说话人语音的起 始点与结束点,位于起始点与结束点之间的音频对应说话人的语音。通过这一 步的判断可缩小信号处理范围,减少后期运算量。然后对说话人语音进行分段 处理,将其分为清音段和浊音段,并输出相应音频信号特征参数。人类语音信 号的短时平稳性,可以看作是一个缓慢时变线性系统,线性系统参数在1 0 - - - - 2 0 m s 时间范围内近似不变【1 3 】。语音信号分析正是利用人类语音的这种短时特 征,将语音信号分为一些短段,通过研究短时特征来研究语音信号,提取特征 参数。这一过程可以抽象表示为: 生 q = 丁 x ( 七) w ( ,z k ) ( 2 1 ) n = - o o x ( k ) 表示语音信号,函数t x ( k ) 表示对语音信号进行变换,w ( n ) 是窗函数。 通常使用的是矩形窗或h a m m i n g 窗。 1 ) 特征参数提取技术1 4 】 语音信号中含有丰富的特征信息,如何从中提取出对语音识别有用的信息 则需要对其进行分析处理,去除对语音识别无关紧要的冗余信息,获取影响语 音识别的重要信息。对于非特定人语音识别来讲,我们希望特征参数尽可能多 的反映语义信息,尽量少的降低说话人的个人信息( 对特定人语音识别来讲, 则相反) 。从信息论角度讲,这是信息压缩的过程。 其中,线性预测( l p ) 分析技术是目前广泛应用的特征参数提取技术,当 前许多自动语音识别系统都采用基于l p 技术提取的倒谱参数。但线性预测模 型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。m e l 参数和基于 感知线性预测( p l p ) 分析提取的感知线性预测倒谱,在一定程度上模拟了人 耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。采用这种技 上海大学硕:t 学位论文 术,语音识别系统的性能有一定提高。也有研究人员尝试把小波分析技术应用 于特征提取,但目前性能难以与上述技术相比,有待进一步研究。 2 ) 模式匹配及模型训练技术 模型训练是指按照一定的准则,从大量已知模式中获取表示该模式本质特 征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一 个模型获得最佳匹配。语音识别所应用的模式匹配和模型训练技术主要有动态 时间归正技术( d t w ) 、隐马尔可夫模型( h m m ) 和人工神经元网络( a n n ) 。 d t w 是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解 决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得 了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前己被h m m 模型和a n n 替代。 h m m 模型是语音信号时变特征的有参表示法。它由相互关联的两个随机 过程共同描述信号的统计特性,其中一个是隐蔽的( 不可观测的) 具有有限状 态的m a r k o v 链,另一个是与m a r k o v 链的每一状态相关联的观察矢量的随机过 程( 可观测的) 。隐蔽m a r k o v 链的特征要靠可观测到的信号特征揭示。这样, 语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号 随时间的变化由隐蔽m a r k o v 链的转移概率描述。模型参数包括h m m 拓扑结 构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的 特点,h m m 模型可分为离散隐马尔可夫模型( 采用离散概率密度函数,简称 d h m m ) 和连续隐马尔可夫模型( 采用连续概率密度函数,简称c h m m ) 以 及半连续隐马尔可夫模型( s c h m m ,集d h m m 和c h m m 特点) 。一般来讲, 在训练数据足够的c h m m 性能优于d h m m 和s c h m m 。现今,h m m 模型的 训练和识别都已研究出有效的算法,并不断被完善,以增强h m m 模型的健壮 性。 人工神经元网络在语音识别中的应用是现在研究的又一热点。a n n 本质上 是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、 联想、对比、推理和概括能力。这些能力是h m m 模型不具备的,但a n n 又 缺少h m m 模型的动态时间归正性能。因此,通过研究如何把二者的优点有机 9 卜海大学硕- 上学位论文 结合起来,从而提高整个模型在语音识别中的鲁棒性。 2 2 2 音频识别技术发展的局限 目前,自动语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 技术的研究 工作进展缓慢,主要表现在理论上一直没有突破。虽然各种新的修正方法不断 涌现,其交互识别效果始终无法满足人们日常需求。主要困难表现在: 1 ) 语音识别系统的适应性差,对外部环境依赖性强,即在某种环境下 采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另 外对用户的错误输入无法正确响应,交互性差。 2 ) 吵杂环境下的语音识别进展网难,因为此时人的发音变化很大,如 声音变高,语速变慢,音调及共振峰变化等等,即所谓l o m b a r d 效应。 2 3 视觉前端设计 2 3 1 视频处理 视频处理的目标是对每一帧的图像序列进行预处理,检测并提取适用于后 期语音识别的视觉特征。所处理的视频图像形式多样,可能是全彩色的、灰度 的、二值的【1 5 】【1 6 1 ,整个脸部或仅仅嘴部区域,或是正面、侧面或任意可能的角 度。对于实际应用的系统,其采用的处理算法需应对外部环境的不同变化。如 说话者的身份、性别、年龄,检测目标的位置、旋转角度、尺度,外部光线照 明、方向等各种因素。与语音识别相关的重要视觉特征的提取应对上述方面的 变化具有不变性。识别需要的特征量可因系统软、硬件条件而异。 2 3 2 视觉特征检测 人脸嘴部的检测与定位是视觉特征提取的首要条件,主要是从视频图像序 列中检测到嘴部的大致位置。普遍认为,基于人脸图像进行嘴部定位的方法更 为高效,此方法首先需要人脸检测。检测方法主要有两类:基于模型的方法和 基于象素的方法。 1 0 上海大学硕士学位论文 所谓基于模型的方法,就是对检测目标的轮廓建立模型,外形的描述通过 一系列的参数集合。参数描述方法就是对与语音有密切关联的唇部轮廓,通过 采用可变模板,即用一个四次曲线精确描述唇的形状情况。最后将部分参数及 参数的线性组合作为语音特征送入识别器识别。此类方法的优点是重要特征被 表示成低维特征量且不因目标平移、旋转、放缩或光照而改变。缺点是采用的 模型不可能包括所有后期识别相关的语音信息。 所谓基于象素的方法,就是直接利用包含嘴部的灰度级图像或直接经过若 干预处理( 如:肤色模型法等) 后得到特征向量的方法。此类方法的优点是特 征数据包含了所有语音信息,缺点是分类器的学习过程中对一般的二维或三维 的平移、旋转、放缩,或光照变化或说话人的变化都很敏感,而且特征向量维 度、冗余高,计算量大。本文针对此类方法的部分缺陷,给出了一个改进的基 于旋转哈尔特征推进级联分类器的快速人脸嘴部检测方法,比较有效地降低了 系统实时检测的计算量及数据冗余。 2 3 3 视觉特征提取 主分量分析( p r i m a r yc o m p o n e n t a n a l y s i s ,p c a ) 。用主分量分析的方法可以 训练出被检测到的目标( 人脸、嘴部) 关键区域的前几个主要变化模式,使用 这些主要变化模式作为特征匹配的基础。具体过程如:给定一些已经标出关键 区域矩形范围的训练帧以后,将该区域按照m 列n 行重新采样,得到各训练 帧的维数为m * n 的关键区域矢量r 。主分量分析过程即在r 上应用,首先计 算得到各帧的平均矢量r 和协方差矩阵罗。,然后求出对应于高维数据的前d 个最大特征值的特征矢量,将这些特征矢量作为组成矩阵只( 朋d ) 的列向 量,此矩阵即为p c a 投影矩阵。经过p c a 投影矩阵投影后的d 维子空间与同 样维数的其他子空间相比,能够很好的描述关键区域矢量的主要分布特性,即 描述了关键区域的前d 个主要变化模式。 线性判别分析( l i n e a rd i s c r i m i n a n t a n a l y s i s ,l d a ) 。l d a 和p c a 是被广 泛应用于特征选择的线性变换方法,它同样是一种通过降维来提取特征的线性 上海大学硕士学位论文 变换,但与p c a 方法旨在描述数据集的分布特征有所不同,它还利用了一些分 类信息的先验知识,使得在低维的子空间里,不同类的数据能够被更好地区分 开来【17 1 。因此,l d a 更加适用于a v s r 系统中的视觉特征提取。l d a 所用的 训练集是按类标记的,定义两个度量:类内离散度s ,= p ( c ) “,其中c c c 为类集合,p r ( c ) 为c 类的经验概率,。为类c 的协方差矩阵;类间离散度 s 口= e ( c ) ( 聊c - m ) ( m c - m ) 7 ,其中m 忙为类c 的均值矢量,m 为全局均值 c e c 矢量。l d a 通过公式2 2 来判别由投影矩阵w 所确定子空间类的区分能力。 q ( w ) = d e t ( w 。s b w ) d e t ( w 。s 。形) ( 2 2 ) 我们可以将l d a 方法中用到的类集合应用到后期所有h m m 组成的集合, 即将该方法应用于关键区域矢量r 上,通过训练可以得到d7 维最优的判别子空 间类的投影矩阵( i n d ) 。对某一帧图像关键区域的特征矢量进行投 影,即可得到l d a 视觉特征d :删= ( o ,乙,) ,其中,。= ( 为 投影矩阵的第i 个列向量) 。 2 4 视、音特征融合与识别 基于视觉信息的语音识别算法与传统的a s r 、唇读识别系统大致相同。采 用的训练识别算法有隐马尔可夫模型( h m m ) 和神经网络( n n ) 。h m m 具有在 识别语音速率上的不变性,可以对大量连续单词进行高效的训练和识别。h m m 的缺点是难以充分地学习协同发音现象,h m m 状态数难以确定,其所作的一 些假设难以保证。与h m m 不同,n n 只对数据作了很少的假设,因而很容易 推广到相当大的训练集。其缺点是训练速度慢,难以保证速率不变性。使用n n 进行不同分类时期融合的结构如图2 2 所示。 i “i 厶“磅 ( b ) 中明盥合n n 1 2 l 一i kk l , 测粼 粼蘸 vvv 、r ( c ) 晚期矗台n n 然 登 j :海大学硕士学位论文 图2 2 基于n n 的融合策略 所谓视、音融合,即将来自视、音频流通道的特征信息结合在一起,以就 音节子分类的问题得出相同的描述规则,以达到语音识别同步的要求。由于视 觉信息和语音信息来自不同的通道,其特征数据在表述问题本质、时间先后、 噪声干扰上皆不相同。其相应的融合权重也需要进行调整。基于h m m 的视、 音双模态特征融合策略按分类时期分为早、中、晚期融合,如图2 3 所示。 瞪m 攀斟 yvv “) 旱嬲童合n m m ( b ) 中朋毫台蝴堋h 也曰f - z 3 lk 日l z 当q vvv ( c ) 晚期鼬合h m m 图2 3 基于h m m 的融合策略 早期融合( e a r l yi n t e g r a t i o n ) 是在识别前将视、音频提取的特征简单连接作 为特征矢量。晚期融合( l a t ei n t e g r a t i o n ) ,也称为决策级融合,分别计算h m m 转移概率的最大似然度再以某种方式结合。只有少数的系统采用中期融合的策 略。早期融合可以作为视、音最简单的种融合方式,无法根据精度和语言相 关性自动加权信息,相比晚期融合含有大量未知参数,因此识别过程需要更多 的训练数据。并且,硬件限制也会对早期融合产生影响,如使用的捕捉设备无 法达到视、音频通道同步的情况。h m m 具有速率不变性,当语音的视频通道 速率与音频通道速率不同时,在晚期融合系统中,两个独立的h m m 可以各自 调整到合适的速率。另外,如果识别器要学习不同噪声级下视、音频特征信息 的正确权重,必须对可能存在的所有噪声级的数据进行i ) i l 练,进一步增加了训 练数据。晚期融合分别采用了两个识别处理器,一个是视觉特征数据处理器, 1 3 上海大学硕: :学位论文 另一个音频特征数据处理器。每一个识别处理器独立计算最大似然函数,在以 某种算法结合。例如:简单的假设两个识别通道相互独立,通过似然度相乘或 对数似然度相加得到识别结果。另外,还可以结合某种加权策略,如对相乘项 取指数。这种决策级上的融合方法因为识别器相互独立,视、音频通道之间不 必保持严格的同步,其结构设计也可以不同。实验表明,晚期融合具有比早期 融合更高的性能【1 8 】。 2 5 硬件平台 基于p c 平台的视听语音识别系统的整体硬件架构,主要由d e l lp r e c i s i o n 6 9 0 服务器,罗技p r 0 4 0 0 0 摄像头,u s b 3 5 0 耳机麦克风等外部设备组成。 d e l lp r e c i s i o n6 9 0 服务器使用双核英特尔至强6 4 位处理器( 主频为 3 7 3 g h z ,含2 x 2 m b 二级缓存1 0 6 6 前端总线) ,高性能显卡、5 1 2 m b 显存,硬 盘1 6 0 g b ,内存1 g b 、四通道d d r 2 全缓冲d i m m5 3 3 m h ze c c ,适用于视频 实时处理、复杂矩阵运算、多线程应用及多任务环境下工作。罗技p r 0 4 0 0 0 摄 像头采用了1 3 0 万象素的v g ac c d 镜头,最高可拍摄1 2 8 0 9 6 0 高分辨率图象, 具有手动调整焦距功能,内置麦克风,采用u s b 连线。通过附带的m g iv i d e o w a v ep c 软件,可以方便的采集说话人的视、音频信号。 2 6 软件平台 系统运行平台为w i n d o w s2 0 0 3s e r v e r ,整合开发环境是微软的v i s u a ls t u d i o 2 0 0 5 ,用于二次开发的s d k 包括了o p e nc v l 0 ,d i r e c t x 9 0 ,s t l 2 6 1 等软件 库。 o p e nc v l 0 是i n t e l 公司专门针对其所生产的处理器指令集进行优化、开 发的的图像处理和计算机视觉函数库,具有统一的结构和功能定义,强大的图 像和矩阵运算能力,方便灵活的用户接口,同时支持m s w i n d o w s 、l i n u x 平台。 d i r e c t x 9 0 2 7 1 2 8 1s d k 是w i n d o w s 系统下专用的多媒体开发平台,提供了 1 4 j :海大学硕十学位论文 一套应用程序编程接口( a p i s ) ,这些编程接口可以提供开发高质量、实时应用 程序所需要的各种资源,并且支持硬件加速。d i r e c t s h o w 2 9 1 则是d i r e c t x 开发库 的一个集成子集,提供丰富而强大的多媒体c o m 构件,这些构件被称为滤镜 ( f i l t e r ) ,如图2 4 。采用上述技术,我们可以方便的对所采集的视频片断进行 过滤、分解为单独的视、音频流,及视频格式转换。 7 | 、 :l : 、 l :i :i 图2 4d i r e c t s h o w 程序滤镜图 太# t # 位论z 第三章视觉信息特征检测与提取 3 1 视觉前端系统设计 视听语音识剧系统叶1 最先遇到的问题是如何对视觉前端系统进行设计以检 测、提暇有效的视觉特征。我们可以通过快速准确的人脸、唇部或嘴部的检测 与跟踪,特征降维的方法达到系统实时运算的要求。本章后续部分将详细讨论 一个改进的基于旋转哈尔特征推进级联分类器的快速人脸嘴部检测方法( 小节 3 2 ) ,通过对检测的重要区域( r o i ) 跟踪( 小节3 3 ) 、丰成份分析、线性判别 ( 小节3 4 ) 、线性插值、中值规格化( f m n ) 、音节同步等一系列数值处理, 丢弃了大量对后期融合识别无效的特征量。相对于传统基于象素的特征检测方 法,此方法解决丁计算量太,数据冗余等问题,完整的保留了前端视觉的语音 信息,有效提高了系统后期的整体语音识别性能。视、听融合与识别将在 接下来的两章中讨论。 3 2 视觉特征检测 圈31 视蹙前端系统设计流程幽 3 2 1 旋转哈尔特征在积分图像中的应用 图像中任何矩形特征值都可以通过间接表示方法快速计算,我们称此图像 为积分图像。如图32 a ,积分图像在位置( x ,y ) 点的值可咀通过原始图像在 此点矩形中所有像素值的累加表示,如公式( 3 1 ) 所示。 上海大学硕士学位论文 i i ( x ,y ) = 戤7 ,y7 ) ( 3 1 ) 膏。j ,y s y 其中i i ( x ,少) 为积分图像,f ( x ,y7 ) 为原始图像小于( x ,y ) 的任意点,通过公式 s ( x ,y ) = s ( x ,y 一1 ) + i ( x ,y ) ( 3 2 ) i i ( x ,y ) = i i ( x 一1 ,y ) + s ( x ,y ) ( 3 3 ) 积分图像的计算完全可以忽略原始图像的象素值。其中s ( x ,y ) 是累计的行值, s ( x ,一1 ) = 0 ,i i ( 一1 ,y ) = 0 。因此,积分图像中任意矩形特征值都可以参考4 个 特征点计算得到。如图3 2 b ,积分图像位置1 ,即矩形a 的计算通过公式( 3 1 ) 累加得到。同理,位置2 为a + b ,位置3 为a + c ,位置4 为a + b + c + d 。因此, 矩形d 值的计算可通过4 + 1 ( 2 + 3 ) 得到。 图3 2 a 积分图像( x ,y ) 点的计算 图3 2 b 积分图像矩形的计算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年学历类自考专业(汉语言文学)美学-写作(一)参考题库含答案解析(5套)
- 2025年医卫类放射医学(士)-相关专业知识参考题库含答案解析(5套试卷)
- 2025年医卫类医学检验(士)-基础知识参考题库含答案解析(5套试卷)
- 电工安全培训试题及答案
- 新《安全生产法》及其他安全知识考试试题及答案
- 卫生监督骨干人才能力提升培训试题(附答案)
- 设备点检润滑考试试题(附答案)
- 护理核心制度考试题目及答案
- 2025版轻工产品展览展示承包合同书
- 2025版物流运输安全合作协议下载
- 【完整版】2025年二级建造师《建筑实务》考试真题及答案
- 水库维修承包合同协议书范本
- 2025年浙江省中考英语真题(解析版)
- 2025年广西中考道法真题卷含答案解析
- 2025年国企中层干部竞聘笔试题及答案
- 2025年人民检察院公开招聘用制书记员考试题及答案
- 数学小升初试卷真题打印版
- 医院学术委员会组织职责
- 国际经济法课件马工程版
- 重庆临时摊点管理办法
- 3.4中国的海洋资源课件-八年级地理上册商务星球版
评论
0/150
提交评论