（生物医学工程专业论文）计算机唇读技术研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：108 大小：8.47MB 积分：0 举报 版权申诉

已阅读5页，还剩103页未读，继续免费阅读

（生物医学工程专业论文）计算机唇读技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

东南大学博士学位论文 a b s t r a c t h u m a ns p e e c hp e r c e p t i o ni sm u l t i m o d a li nn a t u r e ：h u m a nc o m b i n ea u d i oa n dv i s u a l i n f o r m a t i o ni nd e c i d i n gw h a th a sb e e ns p o k e n v i s u a li n f o r m a t i o ni sp a r t i c u l a r l yb e n e f i c i a lw h e n t h el i s t e n e rs u f f e r sf r o mi m p a i r e dh e a r i n go rw h e nt h ea c o u s t i cs i g n a li sd e g r a d e d c o m p u t e r l i p r e a d i n g ，at e c h n i q u ea i m i n ga tr e c o g n i z i n gw h a th u m a ns a yb ya n a l y z i n gv i s u a ls p e e c h i n f o r m a t i o ns u c ha sl i pm o v e m e n t ，a p p e a r e si ns u c hab a c k g r o u n da n dd e a l sw i t ht h ef i e l d so f c o m p u t e rv i s i o n ，i m a g ep r o c e s s i n g ，p a u e mr e c o g n i t i o n ，h u m a n - c o m p u t e ri n t e r a c t i o n ，a n ds oo i l i tc a nf u r t h e rb ei n t e g r a t e dw i t ha u d i os p e e c hi n f o r m a t i o nt oi m p r o v er e c o g n i t i o na c c u r a c yf o r m o r ec o n v e n i e n th u m a n c o m p u t e ri n t e r a c t i o n o nt h eb a s i so fc h i n e s ea u d i o - v i s u a ld a t a b a s es e u c a v dc o n s t r u c t e db y u s ，k e y t e c h n i q u e si n v o l v e di ns p e a k e r i n d e p e n d e n ta u t o m a t i cs p e e c hr e c o g n i t i o na r es t u d i e d ，t h em a j o r c o n t r i b u t i o n so f t h i sd i s s e r t a t i o na r ep r e s e n t e d 嬲f o l l o w s ： 1 ) i nt e r m so f s p e e c hs e g m e n t a t i o n ： an e wa p p r o a c hf o rc o n t i n u o u ss p e e c hs e g m e n t a t i o nw a sp r o p o s e db yc o n v e r t i n g s p e e c hw a v e f o r mc l u s t e r i n gi n t oh i s t o g r a ms e g m e n t a t i o n i n i m a g ep r o c e s s i n g t h e e x p e r i m e n t a l r e s u l t ss h o wt h a tp o s s i b l ef a l s e d e t e c t i o no rm i s s - d e t e c t i o nb r o u g h tb y c o n v e n t i o n a lp r e s e tt h r e s h o l dc a r lb ea v o i d e de f f i c i e n t l y 2 ) i nt e r m so fl i pl o c a l i z a t i o na n dt r a c k i n g ： an e w ( c b c , s ) s k i n l i pm o d e lc o m b i n i n g 觋c r 、h s vc o l o rs p a c e si sb r o u g h t f o r w a r dt oe n h a n c et h ed i f f e r e n c eb e t w e e nc o l o r so fs k i na n dl i p t h e nac a s c a d i n g c o m p o n e n ti n c l u d i n gl i g h t i n gp r e p r o c e s s i n g 、o t s u sm e t h o d 、l i pc o l o rv a l i d a t i o ni sa d d e d i n t of i s h e rt r a n s f o r r n a t i o nt oo b t a i nb e t t e rb i n a r i z a t i o nr e s u l t s t os i m p l i f yt h es a m p l i n go p e r a t i o n ，g a u s s i a nm i x e dm o d e l s ( g m m ) a r ea d o p t e da n d h a l ft h es a m p l i n gw o r kc a r lb es a v e d a n dt h ed i s t r i b u t i o n so fs k i na n dl i pc a nb eo b t a i n e d s i m u l t a n e o u s l yi no n em o d e l i n gp r o c e d u r e 3 ) i nt e r m so ff e a t u r e se x t r a c t i o n ： f o r s h a p e - b a s e df e a t u r e s ，d u e t ot h e u n r e l i a b i l i t y o ff e a t u r e se x t r a c t i o na n d i n s u f f i c i e n c yo fi n f o r m a t i o nr e p r e s e n t a t i o n ，p a r a m e t e r sd e r i v e df r o ma c c u r a t el o c a l i z a t i o n a n de n e r g y b a s e df e a t u r e sa r es u c c e s s i v e l yi n t e g r a t e d ，a n dt h eh i g h e s tv i s u a l 。o n l y r e c o g n i t i o na c c u r a c yi n c r e a s e sf r o m3 6 2 5 t o4 4 2 5 w i t hl o wf e a t u r e sd i m e n s i o n f o re n e r g y - b a s e df e a t u r e s , a l li m p r o v e da p p r o a c hc o m b i n i n gl o c a le n h a n c e de d g e i n f o r m a t i o nw i t hg l o b a ll o wf r e q u e n c yi n f o r m a t i o nf o rf e a t u r e se x t r a c t i o ni sp r e s e n t e d t h e e x p e r i m e n t a l r e s u l t sd e m o n s t r a t et h a tt h e p r o p o s e d a p p r o a c h c a na c h i e v eb e t t e r i i p e r f o r m a n c et h a no t h e rm e t h o d su t i l i z i n ge i t h e rf e a t u r e a n dt h er e c o g n i t i o na c c u r a c y i n c r e a s e sf r o m5 4 0 0 t o5 5 5 0 w h e nt h ed c tc o e f f i c i e n t sd i m e n s i o nv a r i e sf r o m4 9t o 9 9 4 ) i nt e r m so fa u d i o v i s u a lf u s i o n ： a ni m p r o v e df u s i o nm e t h o dc o n s i d e r i n gb o t hc r e d i b i l i t ya n di m p o r t a n c eo fd i f f e r e n t e v i d e n c ei sp u tf o r w a r do nt h eb a s i so fd e n g y o n g sm e t h o db yi m p r o v e m e n to nt h ef u s i o n m o d e l t h e nt h ee q u a t i o nc h a r a c t e r i z i n gr e l a t i o n s h i pb e t w e e na u d i ow e i g h ta n ds i g n a ls n r i si m p r o v e dt oo b t a i nm o r er e a s o n a b l ew e i g h ta u t o m a t i c a l l y t h ee x p e r i m e n t a lr e s u l t ss h o w t h es u p e r i o r i t yo fo u rm e t h o dt h a nc l a s s i c a ld e m p s t e r - s h a f e rm e t h o da n dd e n g y o n g s m e t h o d k e y w o r d s ：l i p r e a d i n g ，r e g i o no fi n t e r e s t ( r o d ，l o c a l i z a t i o n ，f e a t u r e e x t r a c t i o n ，d a t a f u s i o n ，a u t o m a t i cs p e e c hr e c o g n i t i o n ( a s r ) n i 东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名：日期：东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外，允许论文被查阅和借阅，可以公布 ( 包括以电子信息形式刊登) 论文的全部内容或中、英文摘要等部分内容。论文的公布( 包括以电子信息形式刊登) 授权东南大学研究生院办理。研究生签名：名：阳期：叫第一章绪言第一章绪言计算机唇读是日前人机交互领域的一个研究热点，它指利用计算机对说话者的居动等视觉语音信息进行分析以识别出其所说内容的过程，并可与听觉语音信息相融合以进一步提高计算机的识别率，从而使人机交互更加自然。本章从计算机唇读系统的各环节八手综述了该领域的研究进展，并讨论了现有诸方法的优缺点最后提出了本论文的着眼点及工作安排。 1 1 研究背景人类对语言的感知是多通道的，人在识别和理解他人说话内容时除了利用听觉来感知信息，常常还利用了视觉信息如唇动来提高感知准确性。对于听力障碍者而盲利用视觉信息的重要性则更为突出。计算机唇读技术正是在这样一种背景需求下同时得益于人机交互技术及图像处理、模式识别、语音识别等诸多领域的技术的发展而产生的。已有研究表明：将唇读与语音识别相结舍能够改善识别率，尤其是在噪声环境下吐 c 二壹克r 图l 一1 计算机唇读系统示意图一个完整的唇读系统应包括唇部定位及跟踪、唇动特征提取、屠读识别等关键环节，另外还包括预处理环节如视、音频分割，在广义上还包括屏读与语音通道的信息融台( 如图1 - 1 所示) 。自首个计算机唇读系统于1 9 8 4 年由p e t a j a n 提出后“，针对唇读的研究在世界范围内迅速兴起并成为人机交互领域的热点下面将分环节对该技术近年来的研究进展 e v 东南大学博士学位论文来进行综述。 1 2 唇读研究进展 1 2 1 唇部定位及跟踪唇部定位、跟踪是计算机唇读系统的首个环节，其准确与否将直接关系到唇动特征的有效提取，从而最终对识别率产生影响。早期的唇读研究往往是用摄像机直接摄取嘴部区域，或是手工标定唇部区域，这种做法等于是给唇读加上了限制条件，从而给实际应用带来了困难。随着人脸检测与定位技术的发展与成熟，这一制约得到了相当程度的缓解，唇读的第一步工作完全可由计算机来完成，也即首先是人脸的自动检测和定位，然后才是在此基础上的进一步的唇部定位。在检测到人脸区域后，接下来就是确定唇区域。一种方法是直接按人脸几何特征确定大致的唇区域，但对唇区域变化明显的唇读图像而言，该法显得过于粗糙，从而给后续环节处理增加了难度。目前唇读中多使用彩色图像，对其进行唇部定位的主流思想都是先将图像转换到肤、唇色聚类效果好且两者间易于区分的色彩空间，然后再结合其它方法进一步处理f 3 ，4 ，5 ，6 刀。另外也出现了无需转换色彩空间的方法，如针对红色在唇、肤色中都占较大比重这一特点提出的直接用l o g ( g b 1 值进行唇色判断的r e de x c l u s i o n 方法( l e w i s 等【8 1 ) 。唇部定位后，唇动跟踪则相对容易实现，具体可参考入脸跟踪相关技术，本文中不再赘述。 1 2 2 唇动特征提取唇动特征是唇读识别的基本依据，其能否有效、全面地表征视觉语音信息将直接影响到识别率的高低。目前用于唇动特征提取的方法总体可分为三大类：基于模型的方法，基于图像的方法以及混合方法。 1 2 2 1 基于模型的方法基于模型的方法就是用参数模型对唇动形状特征( 主要是唇轮廓) 进行描述，其优点是仅需很少几个参数即可对特征进行描述，直观形象、意义明确，且不受旋转、缩放影响，缺点则是不能包含图像全部信息，且要求图像有较清楚的边缘信息。 2 第一章绪言 1 2 211 几何特征法几何特征法p ，1 0 ，1 1 1 2 1 3 1 利用的是嘴唇的几何参数作为特征，如k a y n a k 等用唇轮廓口径、张角等以及相应的一阶差分的组合作为特征：z h a n g 等用嘴唇的高、宽等参数，并附加舌和牙齿的像素点个数作为嘴内特征。几何特征法的优点是特征的提取简单、快捷，实时性强，但对唇动信息的描述不够全面，从而造成部分有用信息丢失。该法更适合于进行粗分类。 1 2 212 参数曲线法参数曲线法主要有s n a k e 模型1 1 4 1 5 ，1 6 ，1 7 1 和变形模板法【1 8 , 1 9 2 0 ，2 1 2 2 1 。 s n a k e 模型由k a s s 等人于1 9 8 7 年提出1 2 3 】，其基本思想就是定义一条可变形的闭合参数曲线及相应的能量函数，然后通过使曲线的能量最小化来达到使曲线收敛于目标边缘的目的。s n a k e 模型具有良好的提取、跟踪特定区域内目标边缘的能力，但其缺点在于对初始位置敏感，需要给出一个与物体边缘接近的初始轮廓，且不易用形状特点进行约束。变形模板法的基本思想是先根据先验知识定义一个有参数的形状模型，然后通过使预先定义的能量函数极小化来实现变形模板与实际形状特征的匹配，其实质上是一种特殊的 s n a k e 模型。y u i l l e 等于1 9 9 2 年首先提出将变形模板法用于人脸特征( 人眼轮廓、嘴唇轮廓) 的提取【2 4 1 。该法的优点是仅需少数参数即可描述形状特征，直观形象，且不受旋转、缩放影响，更由于利用了先验全局信息，故能较好地检测出相应的特征形状，还有就是便于描述嘴的开、闭状态，而缺点则是不能包含图像全部信息，且要求图像有比较清楚的边缘信息。 1 2 2 2 基于图像的方法基于图像的方法是指将数字图像看作一个二维矩阵，然后直接利用该矩阵或是对矩阵进行某种变换来得到特征的方法，其优点是图像全部数据都起作用，损失信息量小，缺点则在于特征的高维度、高冗余度，不能直观反映唇动信息，且大都对旋转、缩放和光照变化敏感。 1 2 221 基于图像变换的方法这类方法主要有p c a 一t r m 分析) 。a ：去1 2 5 , 2 6 , 2 7 , 2 8 2 9 3 0 】、s v d ( 奇异值分解) 法t 3 1 3 2 】、 d c t ( 离散余弦交换) 法【2 9 3 3 弘，州、d w t ( 离散小波变换) 法 2 9 1 、l d a ( 线性判别分析) 法【2 9 ，3 5 1 、m l l t ( 最大似然线性变换) 法【2 9 筇1 。 p c a 法的基础是k l 变换。k l 变换作为图像压缩中的一种最优正交变换，可将图像 3 东南大学博士学位论文从高维空间转换到低维空间表示，且由低维空间重建的图像和原图像有最小的均方误差。图像在较大特征值对应的特征向量上的投影具有较大的能量，即主分量，反之为次分量， p c a 法也就是去掉部分次分量以达到降维的目的。该法的好处是保留了图像的大部分信息且不要求图像有清楚的轮廓信息，但对光照变化、旋转、尺度变化、姿态变化非常敏感。与主分量分析法思想较接近但不是从统计角度出发的另一种变换是s v d 法。矩阵的奇异值分解是一种有效的代数特征抽取方法，奇异值反映了图像的一种代数本质，相比于 p c a 法，奇异值特征具备代数、几何上的不变性及良好的稳定性【3 6 】。 d c t 是一种与傅立叶变换密切相关的数学运算，因变换后图像能量集中在低频部分，故能降低维数，在这点上与p c a 法类似。d c t 有快速算法，信号重建的截断误差与k l 变换接近，但计算复杂度较低，且无k l 变换的基依赖于训练样本的问题，但在使用d c t 法之前仍需精确的唇定位过程；与d c t 这种全局变换不同，d w t 是时间和频率的局部变换，它通过伸缩、平移运算对信号进行多尺度分析，可弥补傅立叶变换的部分不足。此外还有一些d c t 与p c a 相结合的方法如文献【3 孔。上述各法通常能较好的实现图像降维，但并非最佳分类特征，而l d a 法、m l l t 法则可作为特征提取的后处理环节来弥补该不足。l d a 法能够提高特征的分类性能，m l l t 法则通过用一个非奇异的方形矩阵对特征空间进行旋转以易于分类。m a t t h e w s 等在用d c t 、 d w t 或p c a 等方法提取出特征后，再用l d a 法投影到更低维空间，紧接着用m l l t 法进行旋转，从而得到最终用于识别的视觉特征。 1 2 222 基于运动分析的方法唇动是一个连续的动态过程，唇的运动信息对表征视觉语音特征的重要性不言而喻，光流分析法就是这样一种基于运动分析的方法。所谓光流是指图像灰度模式表现出的运动速度分布，用光流分析, 法1 3 8 , 3 9 , 4 0 1 进行唇动特征提取的优点是易于描述唇动变化，不需要知道目标形状先验知识，也不需要对嘴唇进行精确定位和轮廓提取，缺点则是要求运动物体为刚体且相邻帧之间的像素移动不能太大。 1 2 2 3 混合方法前面讨论的两大类方法各有优缺点。如何有效利用二者的优点将是一个很有潜力的方向。a s m ( 主动形状模型，a c t i v es h a p em o d e l s ) | 4 1 , 4 2 4 3 散4 5 4 6 ，4 7 1 和a a m ( 主动面模型， a c t i v ea p p e a r a n c em o d e l s ) 4 7 , 4 8 ，4 9 1 正是这类方法的代表。 a s m 是一种用标定点集合来表征物体形状的弹性模型。该模型最初由c o o t e s 于1 9 9 4 年提出1 5 0 】，l u e t t i n 于1 9 9 6 年将其应用于视觉语音特征的提取，在通过对标定点集进行主分量分析后，任何唇形就可被近似表示为平均唇形和最主要的几个变形量的线性组合。后来，l u e t t i n 又通过加入轮廓向量模型对其进行了改进，使提取的特征融合了嘴唇的形状变 4 第一章绪言化信息和灰度信息，从而能较完善地描述嘴唇的变化，且无需象变形模板那样进行形状假设，实际上此时的模型已经演变成将基于模型的方法和基于图像的方法相结合的混合特征提取方法。 c 0 0 t e s 等于2 0 0 1 年提出的a a m 是一种结合了形状和表面灰度信息来描述图像中非刚体目标的统计模型，其实质是a s m 的发展，尽管该法进行处理时的速度要慢于a s m 。但鲁棒性却大为增强。该方法的缺点是标定特征点的过程比较烦琐，且匹配的泛化能力依赖于训练样本集中包含的变化情况近年来，随着m p e g - 4 标准的推出与完善，与之相结合的唇动特征描述方法也开始出现【2 6 5 1 5 2 5 3 ，5 4 1 。m p e g - 4 标准和以往标准最显著的差别在于其基于对象的编码理念，如对人脸视频对象定义了人脸动画参数f a p s 和人脸定义参数f d p s 。该方法实质上是一种与 a a m 法类似的方法，其难点在于能否准确可靠地获得参数。此外，近年来还出现了一些多视角特征的文献 5 5 , 5 6 l ，该法在以往仅仅对人脸正面进行单视角唇动特征提取的基础上，考虑了侧面视角特征，以期能更全面的对唇动特征进行反映。 1 2 3 识别方法早期的唇读识别只能对单音素或孤立词进行识别，如r a o 掣 j 将d t w ( d y n a m i ct i m e w a r p i n g ) 法用于孤立词的识别，这是一种把时间归正和距离测度计算结合起来的非线性归正方法，它采用动态规划技术将一个复杂的全局最优化问题转化为许多局部最优化问题，一步一步地进行决策，从而解决了孤立词识别中语速不均带来的时间伸缩变化问题。但该方法对端点检测正确性的要求很高，且没有充分利用信号的时序动态信息，因而当识别对象变为连续语音时，d t w 方法将不能胜任。目前，能适用于连续语音识别的方法主要有基于h m m ( 隐马尔可夫模型) 的方法、基于人工神经网络的方法以及混合方法。 1 2 3 1 基于h m m 的方法 h m m ( h i d d e nm a r k o vm o d e l s ，隐马尔可夫模型) 作为信号的一种统计模型，已经在语音识别等诸多领域得到了成功的应用。h m m 的理论基础是在2 0 世纪6 0 年代末期和7 0 年代早期由b a u m 等人【5 8 , 5 9 , 6 0 , 6 1 6 2 1 发表的一系列经典文章所建立，随后由c m u 的b a k e d 6 3 1 和i b m 的j e l i n e k 等人1 6 4 , 6 5 6 6 6 7 , 6 8 , 6 9 , 7 0 将其应用到语音识别之中。后经贝尔实验室的r a b i n e r 等人r 7 1 】在2 0 世纪8 0 年代对h m m 进行深入浅出的介绍，才逐渐使h m m 为世界各国从事语音处理的研究人员所了解和熟悉。 h m m 过程是一个双重随机过程，其中之一是马尔可夫链，这是描述状态转移的基本随机过程，另一个随机过程则描述状态和观察值之间的统计对应关系。与d t w 相比，h m m 一方面用隐含的状态对应于声学层相对稳定的发音单位，并通过状态转移和状态驻留来描 5 东南大学博士学位论文述发音的变化；另一方面，它引入了概率统计模型，不再用动态时间对齐的方法求取匹配距离，而是用概率密度函数计算语音参数对隐马尔可夫模型的输出概率，通过搜索最佳状态序列，以最大后验概率为准则找到识别结果。总之，h m m 较为完整地表达了语音的声学模型，并且采用统计的训练方法将底层的声学模型和上层的语言模型融入统一的语音识别搜索算法中，从而可以获得较好的识别结果。一个h m m 可以由下列参数描述： 1 ) n ：模型中马尔可夫链状态数目。记个状态为b ，乱，记，时刻马尔可夫链所处状态为g f ，显然，g f ( b ，o n ) ； 2 ) m ：每个状态对应的可能的观察值数目。记m 个观察值为k ，记f 时刻观察到的观察值为o t ，其中，d ，( k ，吃) ； 3 ) 万：初始状态概率， 7 = ( ，7 t n ) ，式中，乃= p ( q l = 谚) ，1 i n ( 1 1 ) 4 ) a ：状态转移概率矩阵， ( 嘞) x ，式中， = p ( 吼+ l = o ji 吼= 谚) ， 1 f ，n 5 ) b ：观察值概率矩阵， ( 乞) ，式中， = 尸( q = 圪l 绣= o j ) ， l ，1 七m 这样就可记一个h m m 为：兄= ( ，m ，7 ，a ，召) 或简写为：兄= ( j r ，a ，b ) ( 1 2 ) ( 1 3 ) ( 1 4 ) ( 1 5 ) 图1 - 2h m m 组成示意图 6 第一章绪言 h m m 蕴含着这样的双重随机过程：其中之一是马尔可夫链，由万，a 描述，产生的输出为状态序列；另一个随机过程则由b 描述，产生的输出为观察值序列，如图1 2 所示。总之，h m m 的精髓就在于：观察可测，状态隐含。在语音识别中，所谓的观察序列就是通过计算得到的一帧帧的语音参数，如m f c c 参数，而状态则是在训练阶段事先规定好的不同语音单元，对汉语普通话来说，语音单元可以是一个完整的音节，也可以是声母或韵母，甚至是更为精细的音素。在唇读识别中，入的唇动也与这种双重随机过程相符合：人对要说的话的内容进行思考( s f 可观察的状态转移过程) ，并发音从而表现出唇动特征序列( 观察序列) 。用h m m 进行唇读识别实际上是将唇读信号视作短时平稳的随机过程，并用状态转移来描述时变。自从1 9 9 3 年g o l d s c h e n 首次采用h m m 进行唇读识别以来田1 ，h m m 已成为目前主流的唇读识别方法【9 ，1 0 , 2 6 , 2 8 , 2 9 3 3 ，3 4 ，3 8 4 3 ，5 1 7 3 ，7 4 ，7 5 ，7 6 , 7 7 l 。 1 2 3 2 基于人工神经网络的方法人工神经网络是一种以大量处理单元为节点，单元之间实现加权值互联的拓扑结构，其表现出来的一些优良特性如学习能力、自组织能力、容错能力等使之在模式识别领域得到了广泛的应用，然而它却不适合直接用于动态序列特征的识别，这耐t d n n ( 延时神经网络，t i m e d e l a yn e u r a ln e t w o r k ) 7 8 , 7 9 , 8 0 , 8 1 , 8 2 1 就体现出了优点。t d n n 与普通神经网络不同处在于其输入层是一个变化的时序窗，因而可以对动态序列特征进行识别。继w a i b e l 等将t d n n 应用于语音识别领域后1 8 3 】，s t o r k 等将其应用范围扩展到唇读领域【7 8 l ，他们使用的t d n n 包括输入层( 对1 0 0 0 m s 信号每隔1 0 m s 进行采样得到的视觉语音特征) 、隐层、指数传递函数层、输出层( 字母概率层) 。与h m m 法相比，t d n n 法只需要很少的先验假设，其不足之处在于网络训练速度较慢，且要求训练样本比较充分，这样才能保证识别具有较好的鲁棒性。 1 2 3 3 混合方法除了上面介绍的两大类方法，也出现了一些混合方法，如b r e g l e r 等提出的人工神经网络与h m m 相结合的识别方法i s 4 j ，其特点在于音素概率由多层感知器进行估计，而不是使用混合高斯模型，这样做的好处在于不必对输入数据作分布概率和相互间保持独立性的假设；h e c k m a n n 等也使用了类似的方法f s 5 l 。其它还有如g o r d a n 等提出将s v m ( 支持向量机，s u p p o r tv e c t o rm a c h i n e s ) 和h m m 相结合进行唇读识别【8 6 1 ，在利用了s v m 方法相比于人工神经网络有更好泛化能力的同时将其与h m m 相结合，从而弥补了s v m 作为静态分类器不适于识别发音这种动态信息的不足。 7 东南大学博士学位论文 1 2 4 唇读与语音通道的融合作为语音识别的辅助手段，人们通常要关心将唇读和语音结合以后系统的整体识别率如何，这就带来了如何将唇读和语音进行融合的关键问题，这一融合策略主要有早融合、中融合、晚融合三种方式( 如图1 - 3 所示) ，s t o r k 等对这三种融合策略进行了讨论【8 7 】。 ( a ) 早融合( b ) 中融合( c ) 晚融合图1 3 唇读通道与语音通道的三种融合方式( 引自文献1 5 0 j ) a ：音频数据，v ：视频数据，( ) ：特征提取环节，g ( i ) ：第i 类的判别函数， m a x ：将最大判别值对应的类作为识别结果输出早融合【9 , 1 0 , 3 8 , 7 7 约做法通常是直接将从唇读通道和语音通道提取到的特征组合在一起构成更高维的复合特征，然后一并输入识别器进行识别，这种融合方式的优点是充分利用了两个通道的信息，且仅需一个识别器即可，但同时也给识别器带来了更多的参数，显然所需训练数据将更多；还有，早融合要求两通道严格同步，这也给硬件提出了更高要求；此外，因为不同通道所提取特征的物理意义、量纲往往不同，所以采用早融合还要面临如何对特征进行合理归一化的问题。晚融合系纠2 6 , 2 8 , 3 3 , 5 1 , 7 3 , 7 4 i ! l ! l j 是对唇读、语音两个通道分别建立识别器，并采用加权的方式对两个通道的识别结果进行融合。这种融合方式的好处是不需要两个通道的信号完全同步，各通道独立处理，但却丢失了两通道在时间上的相关信息，另外如何合理确定加权系数也是一个需要慎重考虑的问题。和前面两种方式相比，中融合【3 4 , 7 5 1 贝1 j 是一种折中的方法，该法使两个通道的识别器在保留各自的判别函数的前提下，通过某种方式相互影响，以期结合两种融合方式的优点。 1 3 论文主要工作内容及结构安排本文将从以下几点入手，针对非特定人唇读识别进行了研究，旨在提高系统的识别性能，具体如表1 1 所示： 8 第一章绪言表1 。1 论文着眼点及目标论文具体研究工作及文章结构安排如下： l 在第一章中，介绍了课题的研究背景和意义，并按系统组成对唇读技术的研究进展分环：符依次进行了综述。 2 第二章对语料库的建设和分割方面进行了研究： 1 )建立了包括中文数字、数字串及汉字的视、音频双模态汉语数据库，数据库规模为1 0 人；劲针对连续视音频自动语音识别系统，从不同于传统的角度出发，提出了一种新的结合o t s u 法和传统方法( 基于短时能量、过零率的方法) 的语音分割方法，该法特点是将语音波形图的聚类问题转化为图像处理中的直方图分割问题，实验结果表明该方法有着较强的鲁棒性和较高的准确率，对中文数字串库的分割准确率达到了9 6 8 3 。 3 第三章对唇部定位及跟踪进行了研究： 1 )结合两种具有亮度与色度分离优点的颜色空间，提出了一种改进的( g c r s ) 肤、唇色模型用于进行人脸检测和唇部粗定位； 2 )在f i s h e r 变换的基础上，提出加入亮度预处理、o t s u 法以及唇色验证的后处理级联环节实现唇部精定位，增强了定位的准确性； 3 )为简化肤色、唇色的采样过程，提出基于高斯混合模型对嘴唇区域进行采样、建模的方法，不但将以往肤色、唇色分开采样的操作量减少一半，而且通过一次建模过程即可同时获得二者的聚类分布。 4 第四章对唇动特征提取进行了研究： 1 ) 研究了唇部感兴趣区域( r o i ) 对唇读的影响： i 研究了r o i 的预处理方法对唇读识别率的影响。在对四种不同的图像预处理方法进行比较后，指出对于基于能量的唇动视觉特征提取，损失信息较少的预处理方法将获得较好的识别性能： i i ，探讨了不同尺寸、分辨率的r o i 对唇读识别率的影响，实验结果均表明嘴唇面积占整个图像比重较大的r o i 更有利于突出唇动信息的重点，识别率也更 o 东南大学博士学位论文高： 2 )研究了嘴唇轮廓参数作为视觉特征时的系统识别性能： i 在唇部精定位的基础上，使用变形模板法对唇轮廓进行定位，针对内唇定位的困难，提出对口腔区域边缘图进行非线性最d 、- - - - 乘曲线拟合实现内轮廓定位，实验结果表明定位可靠性得到了增强； i i 在唇轮廓形状参数特征的基础上，提出了两种改进的组合特征作为唇动视觉特征：乱提出用引入精定位区域可靠参数的混合形状参数特征进行唇读识别，从而使特征受轮廓定位不准影响的程度降低，实验结果表明该法相比于单纯的形状参数特征的识别率有一定程度的提高，单纯视觉通道最高识别率为3 9 1 7 ； b 进一步地，为弥补形状参数描述特征信息的不全面性，提出将基于模型的高级特征和基于图像的低级特征结合的组合特征法，实验结果表明该法相比于混合形状参数特征有更进一步的提高，在特征依然具有低维数优点的前提下，单纯视觉通道最高识别率达到4 4 2 5 ； 3 )从图像能量的角度出发，提出了一种结合全局低频信息和局部增强边缘信息的视觉特征提取方法，并在视觉特征提取的过程中，采用7 - 维d w 二维d c t 两步级联法进一步压缩图像信息并去除不利于非特定人识别的高频信息，实验结果表明本文方法能稳定地优于其中任何一种特征单独使用时的性能，并且在二维d c t 系数维数取4 9 和9 9 时分别获得了5 4 0 0 和5 5 5 0 的单纯视觉通道识别率； 4 )在识别方法上，为减少量化误差，采用连续型隐马尔可夫模型对非特定人唇读序列进行训练和识别，拓扑结构为自左向右的无跨越型。 5 第五章对视、音频通道融合进行了研究： 1 )从改进融合模型的角度出发，在邓勇方法的基础上，考虑了证据重要度对多信道融合的影响进而提出了一种改进的综合利用证据可信度和证据重要度的融合方法，从而不但能处理经典证据方法无能为力的证据失效问题，而且能够根据重要度分配各传感器证据的作用，并通过对支持度最小的证据限定重要度上限阈值的方法避免对失效证据赋以较大重要度值导致融合结果不合理，使得该融合方法的适用条件更加灵活，融合结果也更合理； 2 )为使视音频融合更加合理，提出了改进的权值系数与信号信噪比之间的关系式，据此可按照音频通道信噪比自动确定更合理的融合权系数，实验结果表明本文所改进的关系式得到的融合识别性能在整体上优于姚鸿勋所提关系式；同时，使用本文提出的改进融合方法并结合改进的关系式时获得的识别性能不但能稳定地优于单一通道，而且优于经典d e m p s t e r - s h a f e r 方法、邓勇方法的融合结果，其中在实验室安静环境下的视、音频融合识别率达到了8 8 5 8 ； l o 第一章绪言 3 )研究了d e m p s t e r - s h a f e r 证据方法在多特征视音频融合中的应用，在前面工作的基础上增加z e m i k e 矩视频特征通道，在合理分配融合权值后，在实验室安静环境的最高融合识别率达到8 9 1 7 ，提高幅度为0 5 9 ，在音频质量为5d b 时的最高融合识别率达到5 5 0 8 ，提高幅度为0 9 1 。 6 第六章对论文进行了总结，并对迸一步的研究进行了展望。东南大学博士学位论文第二章视音频双模态数据库的建立 2 1 视音频双模态数据库的录制视音频双模态数据库是进行唇读研究的基础，由于目前国内的有关数据库尚未进行共享( 如中科院声学所的c a v s r l o 凹1 、哈尔滨工业大学h i tb i c a v d a t a b a s e l l 3 0 1 、五邑大学的双模态数据库勰i ，它们各自的主要指标列于表2 1 中) ，所以我们建立了自己的汉语视音频双模态数据库：s e u c a v d ，具体由3 个不同内容的库组成，并依次命名为 s e u c a v d 1 一s e u c a v d 3 ，其详细内容介绍如下：表2 。1 国内现有的主要视音频双模态数据库的主要指标对比数据库中科院卢哈尔滨工业大学学所 h i t 五邑大学指标 c a v s r l ob i c a v d a t a b a s e 2 0 ( 1 2 男，实验人数1 0 ( 6 男，4 女)4 0 ( 2 5 男，1 5 女) 8 女) 标准实验句、特定 2 4 6 个句子( 对8 27 9 个汉l o 个数任务实验句；语料7 8 个汉字个字每字造3 旬) 字字正面、左4 5 。、左 9 0 。的头部面像重复次数2 1 3 5 1 图像分辨 3 5 2 2 8 82 5 6 x 2 5 63 5 2 2 4 01 9 2 1 6 03 5 2 2 4 0 塞视频采集 2 5 h z2 5 h z3 0 h z 帧速率图像格式8 位灰度2 4 位真彩色2 4 位真彩色音频采样 2 2 0 5 k h z1 1 0 2 5k h z1 6k h z 窒语音量化 8 b i t8 b i t1 6 b i t 数 1 2 第二章视音频双模态数据库的建立 2 1 1 视音频双模态数据库的内容 1 ) s e u - c a v d i ：1 0 个孤立数字 2 )s e u c a v d 一2 - 3 0 个连续数字串( 长度3 5 ) ( 见表2 2 ) 表2 2s e u 。c a v e ) 2 内容 3 5 94 3 78 6 36 7 30 9 2 5 1 42 5 71 6 27 3 79 8 5 1 9 8 25 4 2 37 7 8 64 3 1 90 6 2 5 6 4 7 52 6 1 28 8 3 69 4 3 53 6 5 9 1 3 4 5 25 8 6 9 72 3 0 5 44 6 5 7 36 4 3 0 9 7 6 3 5 43 8 2 8 59 5 7 1 68 7 6 5 40 3 4 0 7 3 ) s e u c a v d 一3 ：81 个单音节字汉语语言的基本单位是汉字，对应于语音学中的音节，汉语的有调音节共1 3 2 7 个，而不考虑四声区别的无调音节个数为4 1 4 ( 见马大猷【1 ) ，即使是使用全部无调音节仍显规模太大，故我们借鉴了中科院徐彦君的双模态汉语语音数据库语料表( 共7 8 个单音节) 9 0 j ，并补充了3 个音节：l v ，w e n g ，c a ，这样我们最终使用的音节个数为8 l ( 见表2 3 ) ，特点是涵盖了汉语中全部声韵母，而且语料中各语音的出现率与实际接近，即语音平衡。表2 3s e u c a v e ) 3 内容 a1a l q4 a n g4 b i3b i a n 4 b i a o1b i n1 b a3c h i3 c h o n 9 1 c a ld e2 d i a n 4d i4 d o n g

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（生物医学工程专业论文）计算机唇读技术研究.pdf

文档简介

温馨提示

最新文档

评论

（生物医学工程专业论文）计算机唇读技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档