




已阅读5页,还剩65页未读, 继续免费阅读
(通信与信息系统专业论文)mpeg4中人脸视频对象的模型基编码研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文 摘要 盹蛾7 1 i 随着计算机网络的广泛普及和人们对多媒体信息需求的不断提高,低码率的图 像压缩编码技术成为一个活跃的研究领域。模型基图像编码方法由于在码率和图 像质量性能上比传统编码方式有了很大提高,因此受到了极大的关注,并在 m p e g 一4 标准中得劲了体现。m p e g 一4 中定义了人脸对象,并提供了相关的工具来 处理这一对象。l 本文研究了m p e g 一4 中人脸视频对象的模型基编码,对整个系统进行了全面 的分析,将系统按编解码结构分成分析和合成两部分。在图像分析中,利用颜色、 灰度和梯度信息寻找特征区域,解决模板初始化位置问题,并用模板匹配方法估 计表情运动参数。另外,利用点匹配法跟踪相邻帧特征点的位移,估计头部整体 运动参数。并将这些参数转化为符合m p e g 一4 标准的f a p ,进行压缩。根据实际 情况,还增加了三个头部平移的f a p 。合成部分实现了图像的重建。误差掩盖后 的参数通过k d 肌肉模型映射为线框模型顶点的运动,然后用纹理映射产生真实 感的图像。文中提出了一种符合m p e g 4 标准的表情f a p 参数的分级描述,可作 为f a p 的插值规则。为了探讨算法可行性,对合成部分的运算量进行了统计,表 明在实验条件下,实现该部分的实时处理是可行的。 除了图像分析合成,模型基编码中还有很重要的一个部分就是特定人脸模型的 生成。本文讨论了其他研究者在这方面的做法后,提出了一种实用的根据人脸正面 视图匹配模型的方案,并开发了m o d e l m a t c h 工具来实现这一功能。模型匹配分两 个步骤:先是用本文提出的径向收缩法满足控制点位置的匹配,然后在此基础上, 将线框模型看成是有弹性的,并分不同区域采用不同的调整规则,进行整个线框 中其他受控点的调整,匹配出了包含真实纹理的特定人脸模型。 论文最后介绍了模型基编码在开发视频聊天系统g r i m a c ec h a t 中的应用,并 展望了今后的工作方向。 关键词:模型塞精磊,m p e 吕:脸动画,图杂募岳合成,主二配 浙江大学硕士学位论文 a b s t r a c t l o wb i tr a t ei m a g ec o m p r e s s i o nh a sb e c o m ea na c t i v er e s e a r c hf i e l db e c a u s eo ft h e c o m f n o nu s eo fc o m p u t e rn e t w o r ka n di n c r e a s eo fp e o p l e sr e q u i r e m e n tt om u l t i m e d i a i n f o r m a t i o n d u et o t h e g r e a ti m p r o v e m e n to n b i tr a t ea n d i m a g eq u a l i t y , t h e m o d e l b a s e dc o d i n gt e c h n o l o g yf o c a s e sr e s e a r c h e r s e y e s t h em p e g 4s t a n d a r d r e p r e s e n t st 1 1 i st h e o r y i td e f i n e s af a c eo b j e c ta n do f f e r ss o m et o o l st or e n d e rt h eo b j e c t i nm i st h e s i s m p e g 4m o d e l b a s e dc o d i n gf o rf a c i a lv i d e oo b j e c ti si n v e s t i g a t e d t h ew h o l ec o d e cs y s t e mi sg e n e r a l l yd i s c u s s e da n dd i v i d e di n t ot w op a r t so f a n a l y s i s a n d s y n t h e s i s i n t h e p r o c e s s o fi m a g e a n a l y s i s ,t h ec o l o r , g r a y a n d g r a d i e n t i n f o r m a t i o na r ee x p l o i t e dt of i n dt h ef a c i a lf e a t u r er e g i o n s w h i c hr e s o l v e st h ei n i t i a l p l a c e m e n tp r o b l e mo f d e f o r m a b l et e m p l a t e t h e nt h et e m p l a t ei su s e dt oe s t i m a t et h e f a c i a la n i m a t i o np a r a m e t e r s w h i c hi sc o n v e r t e dt of a p c o m p a t i b l ew i t hm p e g 一4a n d c o m p r e s s e dl a t e r a d d i t i o n a l l y , t h r e eh e a dm o t i o nf a p sa r ee s t a b l i s h e da c c o r d i n gt h e p r a c t i c e t h es y n t h e s i sp a r tr e c o n s t r u c t si m a g e s p a r a m e t e r sa f t e r e r r o rc o n c e a l m e n t d r i v et h ev e r t i c e so ff r a m em o d e lb vk dm u s c l em o d e l t h e nt h et e x t u r em a p p i n g m e t h o dr e a l i z e sar e a l i z i n gi m a g e ah i e r a r c h i e a l s t r u c t u r ei sb u i l tt od e s c r i b e e x p r e s s i o nf a p w h i c hi sc o m p a t i b l ew i t hm p e g 一4a n dr e g a r d e da st h ei n t e r p o l a t i o n r u l et oc a l c u l a t eo t h e rf a p s as t a t i s t i c a le x p e r i m e n ti sa c h i e v e dt os h o wt h a ti ti sa b l e t od ot h ei m a g es y n t h e s i si nr e a lt i m e b e s i d e si m a g ea n a l y s i sa n ds y n t h e s i s m o d e l b a s e dc o d i n gr e s e a r c hs t i l lh a sa n i m p o r t a n td i r e c t i o nt or e c o n s t r u c ta l li n d i v i d u a lf a c i a lm o d e l _ a t i e ri n v e s t i g a t i n go t h e r r e s e a r c h e r s w o r ki nt h i sf i e l d t h et h e s i so f f e r sap r a c t i c a ls c h e m et om a t c hg e n e t i c m o d e lt oas p e c i f i cf a c eb yt h ef r o n t v i e wf a c i a li m a g e a n dam o d e l m a t c ht o o li s d e v e l o p e dt o a c h i e v ei t t h em o d e lm a t c hp r o c e s sh a st w os t a g e s :f i r s t m a t c ht h e c o n t r o lp o i n t sb yr a d i a ls h r i n km e t h o dp r o p o s e di nt h i st h e s i s t h e ns u p p o s et h ef r a l n e m o d e li se l a s t i ca n dd i v i d e di n t os e v e r a lf e a t u r er e g i o n s e a c hr e g i o nh a si t so w n a d j u s t i v er u l e s ot h ec o n t r o l l e dp o i n t sc a n b ea d j u s t e db yt h ep r e d e f i n e dc o n t r o lp o i n t s a c c o r d i n gt h er u l et oe s t a b l i s ha n i n d i v i d u a lf a c i a lm o d e li n c l u d i n gt e x t u r e f i n a l l y , t h e t h e s i si n d i c a t e st h em o d e l b a s e dc o d i n gi m p l e m e n ti nd e v e l o p i n gv i d e o c h a ts y s t e mg r i m a c ec h a t ,a n dd i s c u s s e st h ep r o s p e c to f f u t u r ew o r k k e y w o r d :m o d e l b a s e dc o d i n g ,m p e g 4f a c i a la n i m a t i o n ,i m a g ea n a l y s i s s y n t h e s i s , m o d e lm a t c h m p e g 4 中人脸视频对象的模型基编码研究 第一章绪论 随着现代信息处理技术的发展,人们对多媒体信息的需求也越来越广泛。从以前 的电影电视广播,发展到d v d 、可视化人机交互,直至如今的虚拟现实、可视通信, 多媒体技术正在生活中扮演越来越重要的角色。在这种情况下,多媒体信息的传输和 储存就显得日益关键了。因此,图像压缩编码技术从一开始就不仅仅是一门理论学科, 更是一项应用性很强的实用技术,与其它应用技术一样,为了规范该技术,使不同国 家、公司开发的产品具有兼容性、互通性,保护生产者和消费者的利益,国际标准化 组织( i s o ) 和国际技术联合会( i t u t ) 从八十年代末起制定了一系列的针对不同应 用场合、不同传输码率、不同图像格式和不同图像质量要求的国际标准。这其中就有 已广泛使用,为大家所熟悉的h 2 6 1 、h 2 6 3 、m p e g 一1 和m p e g 2 等标准。实践表明, 这些标准在各自的应用场合中的应用都是比较成功的。但是随着新业务的拓展,如无 线通信,互联网络等由于带宽的限制,对图像视频的码率提出了更高的要求。从技术 上讲,这些传统的标准也是对以往图像编码技术发展的一个总结,都是建立在香农信 息论基础上的,其中用到的方法如预测编码,变换编码或者矢量量化等都是考虑到信 号的随机特性来进行压缩的【1 ,其图像压缩码率受到率失真理论的限制,在定图像 质量下,码率不可能很低。这些现有的方法是以块( b l o c k ) 为基本单位处理压缩图像 的,在低码率场合下不可避免的要产生方块效应。于是,相继又涌现出了一些低码率 图像编码的方法,如子带编码,小波编码,分形编码,面向对象的图像编码,模型基 图像编码和语义基图像编码等。下面将着重介绍一下模型基编码方法。 1 1 模型基编码 1 1 1 模型基编码简介 在一幅图像中,人们往往是对其中特定的目标比较感兴趣,因此利用面向对象的 思想,可以对这一特定的物体进行专门的编码,而不是像传统的方法把整个图像当成 象素点的集合来处理。模型基编码就是这样一种新型的方法。 模型基编码( m o d e l b a s e dc o d i n g ) ,也称知识基编码,最早是由瑞典的f o r e h h e i m e r m p e g - 4 中人脸视频对象的模型基编码研究 和p a r k e 及后来日本的a i z a w a ,h a r a s h i m a 2 提出的。模型基,也就是基于模型的,它 是一种综合图像分析和计算机图形学的高效的压缩编码方法。模型基方法考虑物体的 3 d 特性来描述图像。其编码方法有3 d 模型和2 d 模型,3 d 模型需要建立对象的3 d 参数;2 d 模型则是一种通用的方法,它无需知道3 d 参数,常使用形变三角形来分割 图像并基于运动模型用仿射变换来压缩图像。2 d 模型中还包括基于区域分割及运动 补偿的编码方法。 3 d 方法主要有两类:一类是用一般的几何方法来描述物体的表面如平面和光滑的 表面:另一种是利用物体的参数模型如参数化的脸部模型,这又可分为3 d 特征方法 和3 d 模型方法。在3 d 特征方法中有分割表面模型,对物体运动引起的区域变化进 行检测,并使用平面拟合或抛物面拟合的方法。3 d 模型法需要物体的三维参数,从 图像中获得这些参数非常困难,所以就被限定在对特定的图像类进行编码,如人的头 肩图像,只要建立头部和肩部的参数模型就可以了。 可以看出模型基编码和传统的编码方式有本质的不同。它不是把图像信号作为一 个统计模型来考虑,而是作为一个结构模型,利用结构化的方式来描述图像组成,需 要对图像的内容有所了解 3 。该方法认为编码的图像具有边界、轮廓和区域等结构信 息,在低码率编码时给予保留,因此能使恢复的图像维持较高的视觉质量,有效地克 服了传统编码方式在低码率下产生严重方块效应等问题,是一种在低码率条件下高质 量压缩图像的方法 4 。模型基编码系统一般包括分析和合成两大部分。在编码端,调 整编码对象的通用模型使之适应场景中的特定对象,并分析其运动变化,得到运动参 数;在接收端,这些参数用来驱动模型,通过计算机图形技术合成出原始图像。图l 所示为模型基编码系统的通用框图。 输入图 编码器解码器 图1 模型基编码系统的通用框图 出图像 m p e g - 4 中人脸视频对象的模型基编码研究 1 1 2 人脸模型基编码 由于模型基编码需要对图像内容有一定的了解,因此比较适用于一些出现对象较 为固定的场合。当前视频图像的很多应用场合如视频会议、可视电话及智能人机交互 界面中,人的头肩图像是很常见的。并且在这些应用中关心的主要是人的头肩像,也 就是说图像中的物体不是未知的而是特定的。为了进一步利用这种知识,就可以利用 模型基分析合成方法实现对人脸的编解码。这种方法的基本原理是对图像序列中 的特定物体人的头肩像建立模型,并在此基础上通过图像分析提取模型的参数, 这些参数就是对原始图像的压缩编码,在解码端的一个与信源端完全相同的模型上, 利用这些参数可以恢复出图像。和面向对象的方法一样,恢复出来的图像不会出现方 块效应、蚊子效应等视觉敏感的误差,取而代之的是一种被称作几何失真的误差,不 易被人眼发现,因此主观质量明显提高,而模型基的方法又因为比面向对象的方法更 多地利用了图像中的知识所以可以得到更高一些的压缩l t 2 5 1 。得益于模型的3 d 特 性,模型基编码比起传统方法又有了更广泛的应用 1 】: 1 ) 虚拟空间电视会议 1 2 1 :如图2 所示,会议参加者分别用3 d 模型基编码,并 可与其他图形对象组合在一起显示出来,这将提供一个高级的通讯界面。 图2 虚拟空间电视会议 2 ) 结构化视频和虚拟演播室 1 1 1 3 :由于模型基是以高度结构化的方式来处理 图像的,因此可以自由地组合各种视频对象。虚拟演播室就是一种典型的应用。 让人物在真实或者人工生成的场景中活动,就可以创造出本来没有的,符合要 求的视频了。这种结构化的特点甚至可以为多媒体数据库提供视频索引。 m p e g - 4 中人脸视频对象的模型基编码研究 3 ) 文字语音驱动的脸部动画系统:在网络信息交换和人机交互界面中,文字和 语音已经是习以为常了,如果能加上相应的视频图像,将会得到更加自然的效 果。利用特定的引擎,通过文字或语音驱动3 d 模型,去得到同步的视频,达 到视觉和听觉的配合。这种应用可以大大减少实时通讯中分析图像的复杂度, 需要的运算量也很小。 4 ) 从2 d 图像去获取3 d 信息 8 】:既然有了3 d 的模型,将2 d 图像看作是3 d 真 实世界的投影,从2 d 图像中就可以构建出3 d 对象,实现更多的3 d 应用。 模型基编码的这些独特应用吸引了许多研究者【1 【5 【6 】【7 【8 】【9 】【1 6 】,对于一个脸 韶运动编码系统f a c s ( f a c i a la c t i o nc o d i n gs y s t e m ) ,研究主要集中在分析和合成两个 方面。分析端从整个图像中找出人脸对象,再提取出对象的运动参数,具体要做的工 作有:1 ) 脸部和脸部特征区域的检测:2 ) 头部( 整体) 运动的跟踪;3 ) 脸部表情 ( 局部运动) 提取。合成端则可利用3 d 线框模型从如下几个方面来重建图像: 1 ) 纹理重建( t e x t u r el e v e lr e p r o d u c t i o n ) :通过纹理更新如剪贴局部特征图像的方 法来重建脸部活动。 2 ) 结点参数控制( n o d ec o n t r o ll e v e lp a r a m e t e r i z a t i o n ) :通过控制线框模型上的结 点参数,内插出结点位置和模型上的纹理来重建脸部活动。 3 ) 形状参数控锘l ( s h a p ec o n t r o ll e v e lp a r a m e t e r i z a t i o n ) :通过控制脸部线框模型的 形状,将眼睛嘴巴等的形状参数用于重建脸部活动。 4 ) 肌肉运动参数控带t ( m u s c l ec o n t r o ll e v e lp a r a m e t e r i z a t i o n ) :将肌肉运动模型运 用于线框模型上,通过控制肌肉运动重建脸部活动。 除了这两方面的外,还有研究致力于将模型基编码与传统编码方式相结合的混合 编码方式【5 1 0 】。 瑞士日内瓦大学的m i r a l a b 实验室在人脸模型方面做了深入的研究。t a r og o t o 等人提出了一种自动脸部特征检测方法,用于3 d 模型的建立。他们通过统计分析脸 部相片上的特征,分两个步骤建立模型:整体匹配寻找特征位置,细节匹配检测特征 形状,能够在1 分钟内生成特定的3 d 模型 8 】 3 0 【3 6 。在此基础上,s u m e d h a 等开发 了一套在i n t e r n e t 上进行带有个性化人脸的语音通信系统 3 8 ,克隆人脸模型作为真 实图像的替代,并从自然语音中提取出实时音素,驱动模型,使用户可以在远距离与 对方进行虚拟通信。 4 m p e g 4 中人脸视频对象的模型基编码研究 除了在图像压缩编码中的应用外,模型基的一个突出优点在于通过一种结构化的 方式,用容易操作和编辑的码来描述景物。利用模型及分析存储的图像来产生新的图 像序列,操作图像内容是模型基编码的一个重要应用,将在虚拟现实( v r ) 中发挥 它的更大效能。m p e g 建立了一个新的合成自然对象混合编码小组( s n h c :s y n t h e t i c a n dn a t u r a lh y b r i dc o d i n g ) ,研究各种2 d 3 d 对象,静止图像,视频音频等在场景中 的混合操作。模型基在医学上也得到了应用,( 3 t 通过x 射线图像,3 1 3 一c t 建立了包 括头骨在内的脸部模型,可用于模拟脸部外科手术,使医生可以预测将会遇到的情况, 充分准备好手术。另外,在动画、游戏制作 4 0 1 茅u 基于内容的多媒体检索方面,模型 基研究也获得了不错的成绩。 由于模型基编码的诸多优点及人脸图像的典型性,在新的m p e g 4 标准中定义了 “人脸对象”这样一类特殊的对象。 1 2m p e g - 4 中的人脸动画 继m p e g l ,m p e g 2 后,针对视频会议、可视电话等低码率场合的要求,i s o i e c 制定了新的m p e g 4 标准,这是是一种面向对象的图像编码方式,可以根据要求灵活 的操纵控制对象。为了达到此目的,m p e g 一4 中引入了a v 对象( a v o :a u d i o v i d e o o b j e c t ) 的概念,主要定义为画面中分割出来的不同物体,可以是场景中的某一物体 或背景,一段音频,也可以是计算机合成的二维、三维图形,当然还可以是人脸。图 3 说明了这一概念,整个场景由视频( 人物) 、合成的三维家具、二维背景图还有音频 组成,还可以自由添加组合其他对象,创制出新的场景。这就一改以往将整个场景当 作一个整体来处理的呆板方式,按照需求灵活多变,富有创造性。 图3 m p e g - 4 中的a v 对象 m p e g - 4 中人脸视频对象的模型基编码研究 人的头肩部图像作为一种经常出现的对象,其压缩处理方法一直受到广泛的关注, 基于其典型性,m p e g 一4 中特别引入了“人脸对象” 1 5 ,这是一种人脸结构的表现 方式,能够尽可能忠实地重现说话者的表情,意思和情绪,并且提供了相应的工具来 实现脸部动画( f a c i a la n i m a t i o n ) ,图4 是一个人脸动画系统的框图。 视 附 h 。 i f s ( 出 图4m p e g - 4 中人脸动曲系统框图 对这类人脸对象,m p e g 一4 用的是模型基方法来实现极低码率编码。与传统的视 频解码器不同,m p e g 一4 解码器在恢复了人脸对象的参数之后,并不能马上看到图像, 而是需要有一个重绘的过程才能得到原始图像。该过程就是在人脸模型的基础上,根 据人脸肌肉运动的规律,将抽象的数值转化为具体的、可供显示的图像阵歹l j 1 8 1 。为 了实现这一目的,m p e g - 4 中定义了三种脸部运动参数:f d p ,f a p 和f i t 。 1 2 1f d p ( f a c i a ld e f i n i t i o np a r a m e t e r ) f d p 主要用来设置人脸模型的参数,它是可以下载的一个人脸模型,也是如何使 之根据后继的一系列f a p 参数来产生活动图像的一套规则。一般来说,f d p 只在 个场景序列中出现一次,且出现在序列的开头。若序列没有提供模型下载,也可以用 f d p 定义的特征点坐标来调整解码端已有的通用模型,使之成为特定的人脸模型,也 就是说,f d p 可以携带模型信息或调整信息。即使解码器没有收到f d p 信息,也还 是可以根据收到的f a p 和本地的模型直接绘制人脸动画。这种情况一般出现在单端 系统,而非通信系统中,或者出现在恢复图像与原始图像有相同的运动和表情,但表 现在完全不同的脸上的情况下。从图4 中可知,在m p e g 4 标准中,f d p 参数作为场 景描述的一种和其他场景描述数据一起编入二进制场景描述流b i f s ( b i n a r yf o r m a t f o rs c e n ed e s c r i r i t i o n ) 中,用于场景的建立。 f d p 参数确定了脸部一些特征点的位置坐标,根据器官的分步,这些参数被分成 6 型墅翌= 生立堕塑塑壁墨塑夔型萎塑塑堑塞 若干组,每组的点都有其三维坐标,这样就建立起一个人脸的模型,如图5 所示,标 号的第一个数字表示组号,第二个数字表示在这组中的序号,每个特征点确定一个位 置如左眼角,鼻尖等。其中有一部分特征点还受到f a p 参数的控制,用来产生脸部 动画的效果。 图5f d p 特征点集 m p e g 4 中人脸视频对象的模型基编码研究 1 2 2f a p ( f a c i a la n i m a t i o n p a r a m e t e r ) 与静态的f d p 参数相对应的是动态的f a p 参数,f a p 是一个完整的脸部基本运 动的集合,它基于对人脸细微运动的研究,与脸部肌肉运动密切相关。通过牵扯模型 上关键点的移动,f a p 参数就能描述出自然的或创造出夸张的脸部表情。由于f a p 参数独立于人脸模型并提供连续的运动信息,因此f a p 是作为一个基本流单独编码 的。 在m p e g 一4 中,总共规定了6 8 个f a p ,分成l o 组,包括口形和表情、下巴、眼 部、眉毛、脸颊、舌、头部转动、嘴唇、鼻子、耳朵等。其中第一组是口形( v i s e m e ) 和表情两个高层参数,代表了一组控制点的动作,与其它稍有不同。口形参数是与音 素( p h o u e m e ) 相对应的视频参数,代表了定发音时的嘴部形状。标准中例举了1 4 种不同音素的口形,如表格1 所示。虽然这只是静态的口形参数,但还是可以利用一 系列这样的参数来重绘出视频序列的。例如在发b u 这个音时持续了4 帧,就可以取 第l 和第1 4 个口形参数,在这4 帧中两个参数的比重逐步变化,就能模拟发音的过 程了。这可用于实现t t s ( t e x tt os p e e c h ) 。表情参数提供了6 种基本的人脸表情: 喜悦、悲伤、愤怒、恐惧、厌恶和吃惊,每种表情包含了一组控制点,这样可以减少 数据量。和口形相似,实际的表情也是两种表情组合而成的。 表格1 口形参数的可选值 标号音素范例 0n o n en a 1 p ,b mp u t ,h a d ,m i l l 2 f ,vf a r ,v o i c e 3t d t h i n k ,t h a t 4 t d t i p ,d _ o l l 5 k ,gg a l l , t a s 6 t s ,d z sc h a i r ,l o i n 。s h e 7 s ,zs i r ,z e a i 8n 1t o t ,n o t 9rr e d 1 0a :c a r 1 1eb e d 1 21 t 徊 m p e g - 4 中人脸视频对象的模型基编码研究 在通常情况下,脸部运动的调整都是先将脸调整为“中性脸”,然后再以f a p 来 描述。m p e g 一4 中对“中性脸”作出了较为明确的定义,如图6 ,即: ( 1 ) 头部轴线平行于坐标轴; ( 2 ) 视线方向与z 轴方向一致: ( 3 ) 所有脸部肌肉放松; ( 4 ) 眼睑与虹膜相切: ( 5 ) 瞳孔直径是虹膜的三分之一; ( 6 ) 双唇接触,唇线水平,并与嘴角在同一水平线上; ( 7 ) 嘴闭合,上下齿扣合: ( 8 ) 舌头水平平坦,并且舌尖与上下齿缘相触。 i r i s d = t i s d o 1 0 2 4 e s = e s o 1 0 2 4 e n s = e n s 0 1 0 2 4 m n s = m n s 0 1 0 2 4 m w = m w 0 1 0 2 4 a u = 1 0 。t a d 图6 中性脸和f a p u 的定义 除高层参数外的6 6 个f a p 表示的是脸部特征点相对中性脸的位移,代表了脸部 表情的最基本运动,例如“左外嘴角上移”,“右上眼睑闭合”,“头部倾斜”等。具体 参数可详见 1 5 。这些f a p 按部位分为9 组,除了转动参数用弧度做单位外,平动参 数都选择模型上某一特征距离的相应比例来作为单位。m p e g 4 也规定了这些f a p 参 数的单位,即f a p u ( f a p u n i t ) ,f a p 的位移量就以f a p u 的倍数来表示。为了让f a p 的值独立于不同的人脸模型,f a p u 的定义是根据脸上特征点的距离作出的,这些特 征距离包括双眼间距0 j s o ) 、眼鼻f n q g e ( e n s o ) 、鼻嘴间距( m n s 0 ) 、嘴宽( m w 0 ) 、虹膜 直径( i r i s d 0 ) 等,这样就可以保证f a p 参数是相对位移,在不同的模型上也能得到一 致的结果。图6 说明了这6 种单位的定义,对于不同组中的f a p 参数,所使用的单位 是不一样的。 m p e g 4 中人脸视频对象的模型基编码研究 1 2 3h t ( f a p i n t e r p o l a t i o nt a b l e ) 虽然m p e g 一4 中规定了一套完整的f a p 参数,但在实际应用中,无论从参数提取 还是节省带宽的角度来看,解码端都不可能得到所有的f a p 值,因此只能通过一些 关键的f a p 去推出其他的f a p ,f a p 插值表( f i t ) 就提供了这种插值规则。对于克 服带宽的限制来说,f i t 是一个非常有用的工具。此外,当编码端的参数提取存在缺 陷或是f a p 传输发生丢失时,还可以用f i t 来恢复。f i t 包括两个主要元素:f i g ( f a p i n t e r p o l a t i o ng r a p h ) 和有理多项式。h g 描述了插值的语法,而有理式确定了插值的函 数;f i g 描述了f a d 之间复杂的关系,而多项式表示了线性或非线性的插值函数。与 f d p 一样,f i t 也是在场景序列的开头传送的。 f i g 描述了不同f a p 参数之间的插值关系。在f i g 中,一组f a f 参数可以确定另 组f a f 的取值( 这里的组和上面f a p 的分组并不同) 。在某些情况下,部分f a d 可以由不止一组的f a f 参数插值得到。此时,这些用来插值的f a p 组是有优先级次 序的。f i g 由带箭头的直线和其所连接的节点构成,是一树形结构。每一个节点包含 一组f a p 参数;箭头由父节点指向子节点,表示予节点的f a d 值可以从父节点的参 数中插值得到。但高层的口形和表情参数是不能由其他f a f 插值得到的。在一个f i g 里,个f a p 参数可以出现在多个节点中,一个节点可以有多个父节点并且这些父 节点具有优先顺序,称为第一父节点、第二父节点,等等。在插值过程中,第一父节 点的f a p 都是已知的话,子节点首先用第一父节点进行插值,否则就看第二父节点 的值是否已知,以此类推。一旦一个f a p 的值由插值得到,就可以作为已知的f a p 参数去求其他未知的f a p 参数。 在f i g 中每一个带箭头的直线代表了一套插值函数,用于决定子节点中f a p 参数 的取值。假设f ,兄,b 是父节点中的f a p 参数,五,五,厶是子节点中的f a p 参数,则有胁个插值函数,表示为: 如:i l ( f | ,f 2 ,f ,) 如= 1 2 ( f l ,f 2 ,f r ) k = l mt f i f 2 f n ) 插值函数以) ( k - - - - - 1 ,埘) 是一个有理多项式,当父节点中不包含口形和表情参数 时,有理式表示为 m p e g - 4 中人脸视频对象的模型基编码研究 ( c f 兀 ,( e ,r ,e ) = o 1 “ 丌f ,”) ,- l 如果考虑到口形和表情参数,那么还要再加上一个脉冲函数 6 ( 矗一a ,) ( c ,兀 ,( ,c ) = “ “ 兀可9 ) j = l 在上述两个公式中,k 和p 是多项式的项数,c i 和b f 是第i 项的系数,b 和m “是第z 项中巧的幂次。当,岛= 韧,时,冲击函数的值为1 ,其余情况下为0 。r ,的取值为 v i s e m e s e l e c t l 、v i s e m e s e l e c t 2 、e x p r e s s i o ns e l e c t l 和e x p r e s s i o n _ s e l e c t 2 。当凡的值为 e x p r e s s i o n _ s e l e c t l 或e x p r e s s i o n _ s e l e c t 2 时,a f 取0 到6 的整数:当b 的值为 v i s e m e s e l e c t l 或v i s e m e _ s e l e c t 2 时,a i 取0 到1 4 的整数。在传送f i t 时,芷、p 、a i 、 s 、白、b ;、 ,和m f ,都要发送到解码端。 1 3 小结 随着多媒体应用的日趋广泛,人们对图像传输的码率要求越来越严格,同时逐渐 关心图像的内容,而不仅仅是满足于将其当作象素点的集合。在这种情况下,模型基 编码因其面向对象的结构化特性,并且能够在低码率下避免传统的方块效应,保持良 好的主观视觉质量,因此得到广泛的关注。本章介绍了模型基编码的概念,比较其与 传统方式的区别,着重探讨了人脸模型基编码研究的方向和应用。 在新的面向对象的m p e g 一4 图像编码标准中定义了“人脸对象”,引入了模型基 编码的概念。为了实现脸部动画( f a c i a la n i m a t i o n ) ,标准中提供了相应的工具,提出 了3 种脸部运动参数:f d p 参数用来设置人脸模型,f a p 参数驱动模型实现脸部表情, f i t 则提供插值表,通过主要的f a p 获得其他f a p 。 1 4 本文的内容和所做工作 本文研究了m p e g 4 中人脸视频对象的模型基编码,对整个系统进行了透彻的分 析,将系统按编解码结构分成分析端和合成端,并开发了一个m o d e l m a t c h 工具用来 实现通用模型到特定真实人脸的匹配,最后介绍了模型基编码在开发视频聊天软件 m p e g - 4 中人脸视频对象的模型基编码研究 g r i m a c e c h a t 中的应用,并展望了今后的工作方向。本文的内容如下: 第一章,主要介绍了模型基编码的概念,比较其与传统方式的区别,着重探讨了 人脸模型基编码研究的方向和应用。在m p e g 一4 图像编码标准中定义了“人脸对象”, 引入了模型基编码的概念。为了实现脸部动画( f a c i a la n i m a t i o n ) ,标准中提供了相应 的工具,提出了3 种脸部运动参数:f d p 、f a p 和f r r 。 第二章,对脸部检测和特征定位方法做了概述,具体分析了基于特征的方法。然 后剖析了整个分析端的结构流程。在图像分析中,利用颜色信息分割脸部区域,然后 根据灰度和梯度直方图缩小特征区域范围,在此基础上,将新建的眼睛、嘴巴模板在 特征区域内匹配。在估计脸部表情参数时,由于解决了模板初始化位置问题,并且提 出一种新的数据结构来描述模板,使得耗时大为减少,鲁棒性更好。另外,利用点匹 配法跟踪相邻帧特征点的位移,估计头部整体运动参数。为了符合m p e g 一4 的定义, 将这些参数转化为标准的f a p 。根据实际情况,又增加了三个头部平移的f a p ,作为 标准的补充,最后对f a p 参数进行压缩,比较了基于帧和基于d c t 两种方法的结果。 此外,针对原来线框模型的不足,在上面增加了耳朵,以获得更自然的视觉效果。 第三章,讨论了其他研究者在特定模型建立方面的做法后,提出了一种实用的根 据人脸正面视图匹配模型的方案,并开发了m o d e l m a t c h 工具来实现这一功能。模型 匹配作为模型基编码的一个重要环节,和分析合成都有着密切关系。模型匹配分两个 步骤:先是找出特征点,满足控制点位置的匹配,然后才在此基础上进行整个线框中 其他受控点的调整。本文提出了径向收缩的方法来匹配控制点:将线框模型看成是有 弹性的,并根据不用区域采用不同的调整规则,讨论了眼部和嘴部受控点的调整。最 后匹配出了包含真实纹理的特定线框模型。 第四章,主要说明了合成端图像的重建。首先说明了图像失真的类型和原因,并 据此利用时间和空间信息来掩盖部分误差。将修正后的参数用来合成图像需要两个步 骤,用k d 肌肉模型调整线框模型上的顶点,然后用纹理映射产生真实感的图像。本 文提出一种符合m p e g - 4 标准的表情f a p 参数的分级表示,可作为插值f a p 的f i t 规则。为了探讨算法可行性,对合成部分的运算量进行了统计,并对纹理映射算法提 出了修改意见,以加快运算速度。结果表明,在实验条件下,实现该部分的实时处理 是可行的。本章的最后,讨论了脸部动画的皱纹模型,以期获得更好的合成自然度。 第五章,介绍了自己开发的g r i m a c ec h a t 可视聊天系统,这也是模型基编码研究 m p e g - 4 中人脸视频对象的模型基编码研究 的一个应用实例。 最后,总结了本文的内容和今后的工作方向。 本文的主要研究成果及贡献有: 对脸部线框模型进行改进,添加了耳朵,增加了自然度。 对脸部检测和特征定位方法做了详细介绍,具体分析了基于特征的方法。 利用颜色信息和灰度梯度直方图及模板匹配方法来进行局部表情参数的分析 提取。 新建眼睛、嘴巴形变模板,提出一种新的数据结构来描述模板,由于解决了 模板初始化位置问题,使得算法耗时大为减少,鲁棒性更好。 根据实际处理中遇到的r 廿不足以描述的运动情况,增加了三个头部平移的 f a p ,作为标准的补充,更好地描述真实世界中头脸部的活动。 压缩f a p 参数,比较了基于帧和基于d c t 两种方法的结果。 提出了一种实用的根据人脸正面视图匹配模型的方案,并开发了m o d e l m a t c h 工具来实现这一功能。提出了径向收缩的方法用于匹配控制点。 提出一种符合m p e g 一4 标准的获取描述表情的f a p 参数的分层结构,可作为 插值f a p 的f i t 规则。 统计合成算法的运算量,表明其实现实时处理的可能性。 将模型基研究成果应用于g r i m a c ec h a t 可视聊天系统实例中。 m p e g 4 中人脸视频对象的模型基编码研究 第二章分析部分 作为一个完整的模型基编解码系统,正如图1 和图4 所指出的,包括有分析和合 成两个部分。对于m p e g 一4 人脸对象的模型基编码来说,在分析端要将图像参数化, 也就是把脸部图像用模型特性来描述,并提取出脸部特征的分布参数和运动参数,然 后将这些参数编码成符合m p e g - 4 标准的码流。在合成端也就是解码端则是重建图 像,将接收的码流转化为参数后,重绘模型,并驱动其产生和分析端一样的运动。本 章主要介绍分析端的算法结构和实现。 2 1 脸部检测和特征定位 在分析端要提取脸部特征和运动参数,关键的技术是脸部探测和特征定位。由于 脸部是一个特殊的固定对象,有许多先验知识可以利用,根据使用这些知识的方法不 同,这些技术可以被分为两大类:第一类定位的依据主要是脸部的特征,因此称为基 于特征( f e a t u r e b a s e d ) 的方法。这种方法是自上世纪七十年代以来研究的经典方 法,一些脸部的特性像皮肤颜色和几何结构等在系统的各个层次上得到利用,最终的 识别归根结底在于对从场景中获得的视觉特征如距离,角度和面积等的测量和操作。 第二类称为基于图像( i m a g e b a s e d ) 的方法。这种方法运用了模式识别的最新进展, 关注的是整体的识别,而不是某个个别的特征。其脸部的表示是直接通过对一组脸部 图像的训练学习得到的,不需要特征的提取和分析。与基于特征的方法不同,这种新 的基于图像的方法是通过映射( m a p p i n g ) 和训练的手段来实现对脸部知识的利用的。 2 1 1 基于特征的方法 用基于特征的方法考虑复杂场景中人脸定位的典型问题时,低层次( 1 0 w l e v e l ) 分析首先利用象素特性如灰度和颜色来进行分割,但这种分析得到的特性是很模糊 的。因此接下来在特征分析( f e a t u r ea n a l y s i s ) 中,运用脸部几何分布知识把可见的特 征组织起来形成脸的概念。这样,特征的模糊度就降低了,脸和脸部特征的位置就能 够确定。另外,动态形状模型( a c t i v es h a p em o d e l ) 的使用能够有效地提取那些复杂 的非刚性的特征像瞳孔和嘴唇轮廓等,这些模型包括从八十年代提出的s n a k e 到最近 4 m p e g - 4 中人脸视频对象的模型基编码研究 的点分布模型( p o i n t d i s t r i b u t e dm o d e l s p d m ) 。 2 1 1 1 低层次分析 作为计算机视觉应用中最原始的特征,利用边缘的方法在最早的脸部识别中就得 到了运用。通过分析脸部的轮廓来定出其位置,首
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字货币新格局2025年央行数字货币(CBDC)对金融消费者权益的保护报告
- 父进程中的数据驱动系统优化-洞察及研究
- 炊事保障组织与实施课件
- 澳大利亚食住行介绍
- 建筑入口解决方案设计
- 建邺区房顶防水施工方案
- 家庭咨询方案
- 加装排风扇施工方案
- 滨海实小安全培训课件
- 滨洲全员安全培训中心课件
- 小学二年级上册体育教案
- 别墅装修施工工艺
- 《手术室护理实践指南》专项测试题附答案
- 医务科依法执业自查表
- 部编版小学音乐五年级上册教案
- 综合实践活动(2年级下册)第3课时 自动浇水器的设计与制作-课件
- 2023年江苏省盐城公证处招聘公证人员5人笔试参考题库(共500题)答案详解版
- 保密室及保密要害部位搬迁发案
- 恐龙灭绝介绍课件
- 核赔经典疑难案例解析
- 尿道损伤的分类与治疗
评论
0/150
提交评论