(计算机应用技术专业论文)基于mpeg4的人脸模型基编码技术研究.pdf_第1页
(计算机应用技术专业论文)基于mpeg4的人脸模型基编码技术研究.pdf_第2页
(计算机应用技术专业论文)基于mpeg4的人脸模型基编码技术研究.pdf_第3页
(计算机应用技术专业论文)基于mpeg4的人脸模型基编码技术研究.pdf_第4页
(计算机应用技术专业论文)基于mpeg4的人脸模型基编码技术研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机应用技术专业论文)基于mpeg4的人脸模型基编码技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

捅妾 摘要 随着计算机网络的广泛普及和人们对多媒体信息的需求不断提高,低码率图 像压缩编码技术成为活跃的研究领域。m p e g 一4 作为新一代多媒体压缩标准,将 众多多媒体应用集中于一个完整框架,提出基于具体视频对象的模型基编码标 准,由于该编码方法在码率和图像质量性能上比传统编码方法有很大的提高,因 此受到极大关注。本文将视频图像中的人脸作为专门的研究对象,根据m p e g 一4 为模型基编码制定的一系列标准进行编码算法研究。 本文着重在m p e g 一4 人脸模型基编码方面开展工作,在编码系统的前端分析 及后端合成两部分中提出了若于创新点。前端分析过程采用由粗到精,由全局到 局部方式进行。首先跟踪脸部整体运动,在此基础上提取脸部特征点位置。为了 提高参数提取的准确度,本文提出了椭圆环模板与肤色模型相结合的算法跟踪头 部整体运动。具体地,首先根据肤色模型对图像进行分割,对分割后的区域通过 椭圆环方法搜索确定脸部肤色边缘。在利用肤色模型分割区域的过程中可同时定 位出眼睛和嘴巴的位置,根据该特征位置和椭圆环位置可实现人脸姿态估计。 在脸部特征提取的研究中,本文提出两种方法:( 1 ) 利用脸部光流场和 c a n d i d e 模型相结合的方法。首先通过l u c a s k a n a d e 算法得到光流场并由此确 定表情变化,为增加特征提取的准确性还利用了模型拓扑结构和脸部特征之间的 位置关系。( 2 ) 利用特征模板进行精确定位的方法。此方法为各个特征( 眼睛 和嘴巴) 建立独立特征模板,通过分析灰度和肤色边缘进行模板匹配,实现特征 精确定位。特征点位置的准确提取是获得人脸动画参数( p a p ) 的关键,这对于 模型基编码是非常重要的。 在后端合成中,本文研究了根据面部动画参数驱动特定人脸模型,生成基于 伪肌肉模型的m p e g - 4 人脸动画,减小动画驱动的计算量。人脸模型建立使用的 是通过扫描仪得到的人脸纹理,增加了真实感。 本文最后将分析端和合成端的工作集成为一个模型基编码的完整实验系统。 通过同一段视频中提取出的面部动画参数,驱动不同的面部模型,得到相同的人 脸表情,证明了面部动画参数的模型独立性。 关键词:模型基编码、m p e g 4 、头部跟踪、特征提取、动画合成 北京工业大学工学硕士学位论文 a b s t r a c t l o wb i tr a t e i m a g ec o m p r e s s i o nh a sb e c a m e a na c t i v er e s e a r c hf i e l da st h e c o m m o nu s eo f c o m p u t e r n e t w o r ka n d i n c r e a s i n gr e q u i r e m e n o fp e o p l e t o m u l t i m e d i ai n f o r m a t i o n a san e wm u l t i m e d i a c o m p r e s s i o ns t a n d a r d ,m p e g 一4 r e p r e s e n t st h i st h e o r ya n d c o l l e c t sm a n ym u l t i m e d i a a p p l i c a t i o n si naf r a m e ,i nw h i c h m o d e l b a s e d c o d i n g s t a n d a r do nc o n t e n ti sd e f i n e d m o d e l b a s e d c o d i n gg r e a t l y i m p r o v e sb i t r a t ea n di m a g eq u a l i t ya n dg e t sm o r ea t t e n t i o nf r o me x p e r t so ni m a g e c o m p r e s s i o nf i e l d i nt h i sp a p e r ,m o d e l b a s e dc o d i n ga l g o r i t h m sa r er e s e a r c h e do n m p e g - 4a n df a c ei nv i d e os e q u e n c ei st h ec o d i n g o b j e c t t h i s p a p e r r e s e a r c h e st h em o d e l b a s e dv i d e o c o d i n g a n d p r o p o s e st h en e w r e s e a r c hm e t h o d sa b o u tf a c em o t i o na n a l y s i sa n ds y n t h e s i s t h ef a c e a n a l y s i s i s p r o c e s s e df r o mg l o b a lt o l o c a la n dg r a d u a l l yp r e c i s e l y ,t h a tm e a n st h eh e a dg l o b a l m o t i o ni st r a c k e da n dt h e nt h ef a c i a lf e a t u r ei se x t r a c t e d f o r p r e c i s ef e a t u r ed e t e c t i o n w ep r e s e n ta na l g o r i t h mf o rh e a dt r a c k i n ga n dp o s ee s t i m a t i o nb a s e do ns k i nc o l o r m o d e la n d e l l i p t i c a lt e m p l a t e t h ep i e c e i ss e g m e n t e da c c o r d i n gt ot h es k i nm o d e l a n dt h e nt h ef a c ee d g ei sd e t e c t e db ye l l i p t i c a lt e m p l a t e b yt h em e a n t i m et h em o u t h a n de y e sc a nb ed e t e c t e d t h ef a c ep o s ei se s t i m a t e da c c o r d i n gt ot h el o c a t i o no ft h e f a c i a lf e a t u r e sa n dt h ec o n t o u ro f t h ef a c e w er e s e a r c ht w oa l g o r i t h m so ne x t r a c t i n gf a c i a l n a t u r e ( 1 ) f e a t u r ed e t e c t i o n b a s e do nc a n d i d em o d e la n do p t i c a lf l o w a l g o r i t h mt h eo p t i c a lf l o wg o t t e nb yt h e l u c a s k a n a d ea l g o r i t h mc a nb eu s e dt o p r o v i d ef a c ea n i m a t i o np a r a m e t e r so ft h e c a n d i d em o d e l t h es t m c t u r eo fm o d e li sh e l p f u lt oi m p r o v et h ed e t e c t i o ne f r e c t ( 2 ) f e a t u r et e m p l a t ea l g o r i t h m st od e t e c tt h ee y e sa n dm o u t h e a c ho ft h ee y e sa n d m o u t hi st r a c k e da ss i n g l eo b j e c tw i t hi t sc o r r e s p o n d i n g t e m p l a t ei nt h ea l g o t i t h m s d u r i n gt h em o d e l b a s ec o d i n g ,p r e c i s en a t u r ed e t e c t i o ni st h ek e yt of a c ea n i m a t i o n p a r a m e t e r s ( f a p ) c a p t u r e i nt h es y n t h e s i sm o d u l e ,s p e c i f i cf a c em o d e li sd r i v e nb yf a pa n df a k em u s c l e m o d e li sc o m b i n e dt or e d u c ec a l c u l a t i o no fa n i m a f i o ns y n t h e s i s a n dt h ef a c em o d e l b a s e do nt h es c a n n e df a c et e x t u r ei m p r o v e sf a c ea n i m a t i o nr e a l i s m a tt h ee n do ft h i sp a p e r ,t h ej o bo fa n a l y s i sm o d u l ea n ds y n t h e s i sm o d u l ea r e i n t e g r a t e di n t oam o d e lb a s e dc o d i n ge x p e r i m e n t a ls y s t e m w ee x t r a c tf a c ea n i m a t i o n p a r a m e t e r sf r o mt h es a l t l ev i d e os e q u e n c et od r i v ed i f f e r e n tf a c em o d e la n dg e tt l e s a m ef a c ee x p r e s s i o n ,s ot h ei n d e p e n d e n c yb e t w e e nt h em o d e la n dt h ef a c ea n i m a t i o n p a r a m e t e r si sp r o v e d k e yw o r d s :m o d e l - b a s e dc o d i n g ,m p e g 一4 ,h e a dt r a c k i n g ,f a c e a n a l y s i s ,f a c e s y n t h e s i s i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:圣型豳盎日期:立坐:f 坌 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:丕泌导师签名 弛篷望日期:翌兰:- 。 第一章绪论 第一章绪论 随着现代信息处理技术的发展,人们对多媒体信息的需求也越来越广泛。从 电影电视广播,发展到d v d 、可视化人机交互,直至虚拟现实、可视通信,多 媒体技术正在生活中扮演越来越重要的角色。在这种情况下,多媒体信息的传输 和存储就显得日益关键。为了规范编码技术发展,国际标准化组织( i s o ) 和国 际技术联合会( i t i zt ) 从八十年代起制定了一系列针对不同场合、不同传输码率、 不同图像格式、不同图像质量要求的国际标准,如h 2 6 1 ,h 2 6 3 ,m p e g i 和 m p e g 一4 等。实践证明,这些标准在各自应用场合中较为成功。随着多媒体应用 的f 1 趋广泛,人们对图像传输的码率要求越来越严格,同时逐渐关心图像的内容, 而不仅仅是满足于将其当作象素点的集合。在这种情况下,模型基编码因其面向 对象的结构化特性,并且能够在低码率下避免传统的方块效应,保持良好的主观 视觉质量,因此得到广泛的关注。本文研究的目的是试图给出一套面向m p e g 一4 标准的人脸视频图像合成压缩编码的理论方法与算法模型。下面将着重介绍模型 基编码方法。 1 1 研究背景及意义 随着基于互联网络的流媒体传输越来越得到广泛的应用,流媒体信息的传输 和储存就显得同益重要。流媒体数据在计算机服务器中的存储读写、在网络中的 传输和编码解码处理需要实时,而且随着新业务的拓展,如无线通信,互联网络 等现有带宽的限制,人们对传输信道的码率不断地提出更高的要求,不仅要求能 利用现有较窄的信道传输流媒体,也要求利用带宽可能发生变化的无线信道传输 流媒体,或在几兆的带宽中传输高质量的流媒体,以及能够享受个性化的高清晰 度交互数字电视点播业务等。比如虚拟视频会议、可视电话等就是甚低码率视频 编码的典型应用。 压缩编码技术具有很强的理论性和应用性,为了规范该技术,使不同国家和 公司开发的产品具有兼容性、互通性,国际标准化组织( i s 0 ) 和国际技术联合会 ( i t u t ) 从八十年代末开始制定一系列针对不同应用场合、不同传输码率、不同 北京工业大学工学硕士学位论文 图像格式和不同图像质量要求的国际标准,包括广泛使用的h 2 6 1 ,h 2 6 3 , m p e g 一1 和m p e g 一2 等。实践表明,这些标准在各自场合正取得成功的应用。 8 0 年代中后期,相关学科的迅速发展和新兴学科的不断出现为图像编码的 发展注入新的活力。人们对图像信息的需求剧增也有力促进了图像压缩编码技术 的进步。许多学者结合模式识别、计算机图形学、计算机视觉、神经网络、小波 分析和分形几何等理论开始探索图像压缩编码的新途径。于是又相继涌现出一些 低码率图像编码的方法,如子带编码,小波编码,分形编码,面向对象的图像编 码,模型基图像编码和语义基图像编码等。其中9 0 年代初发展起来的基于模型 的图像编码技术,是一种很有前途的低比特率的编码方法。它利用了计算机视觉 及计算机图形学的方法和理论,其出发点是在编、解码两端分别建立起相同的模 型。基于模型的编码器并不压缩实际的量化数据,而是采用个人脸表示模型, 传送的信息告诉接受方如何改变模型以匹配新输入的图像运动。基于模型的解码 器也有一个与对应编码器相同的模型,解码器利用受到的数据调整其模型并生成 显示的图像。由于基于模型的图像编码方法利用先验模型来抽取图像中的主要信 息,并以参数形式表达它们,因而可以获得很高的压缩比。 现在的国际标准充分考虑了视频的高倍压缩,在保留传统波形编码的同时, 加入了对新一代基于模型编码的规定。继m p e g 一1 ,m p e g - 2 后,针对视频会议、 可视电话等低码率场合的要求,i s 0 i e c 制定了新的m p e g - 4 标准,这是一种面 向对象的图像编码方式,可以根据要求灵活的操纵控制对象。m p e g - 4 标准考虑 基于对象的编码合成模式,引入a v 对象的概念,主要定义为画面中分割出来的 不同物体,可以是场景中的某一物体或背景,一段音频,也可以是计算机合成的 二维、三维图形,还可以是人脸。整个场景由视频( 人物) 、合成的二维背景还有 音频组成,还可以自由添加组合其他对象,创制出新的场景。 m p e g 一4 是新一代多媒体压缩标准,它将众多的多媒体应用集中于一个完整 的框架,为不同性质的音视频数据指定通用、有效的编码方案,提出基于具体视 频对象的编码标准。m p e g 4 引入合成与自然混合编码,对于频繁出现的视觉对 象分别定义了他们的纹理形状和动画参数,它预见到虚拟动画人脸在将来的应用 中会有重要的作用。因此在专门的s n h c 小组中对人脸合成及动画进行研究, 将人脸作为一个专门的研究对象,并且为人脸动画指定一系列的标准。人脸图像 作为一种经常出现对象,其压缩处理方法一直受到广泛关注,基于其典型性, m p e g 一4 特别引入“人脸对象”概念,这是一种人脸结构的表现方式,能够尽可 能忠实地重现说话者的表情、意思和情绪,并且提供了相应的工具来现脸部动画。 与传统视频解码器不同,m p e g 一4 解码器在恢复人脸对象参数之后,并不能马上 看到图像,而是需要有一个重绘的过程才能得到原始图像。该过程就是在人脸模 型的基础上,根据人脸肌肉运动的规律,将抽象的数值转化为具体的、可供显示 的图像序列。为了实现这一目的,i p e g 一4 中定义了一系列面部运动参数。 1 2 基于模型的编码技术概述 在一幅图像中,人们往往是对其中特定目标比较感兴趣,因此利用面向对象 的思想,可以对图像中一特定的物体针对性地编码,而不是像传统方法那样把整 个图像当成像素点集合进行处理。基于这种想法产生了模型基编码。 模型基编码也称知识编码,最早是由瑞典的f o r c h h e i m e r 和p a r k e 及日本的 a i z a w a ,h a r a s h i m a 提出的,是一种综合图像分析和计算机图形学的高效压缩编码 方法。和传统的编码方式不同,模型基编码不是把图像信号作为一个统计模型来 考虑的,而是作为一个结构模型,利用结构化的方式来描述图像组成,因而需要 对图像的内容有所了解。该方法认为待编码的图像具有边界、轮廓和区域等不同 结构信息,在低码率编码时保留恰当的信息,能使恢复后的图像仍具备较高的视 觉质量,有效的克服了传统编码方式在低码率下产生严重方块效应等问题,是一 种在低码率条件下高质量压缩图像的方法。模型基编码系统包括两大部分。在编 码端,调整编码对象的通用模型使之适合场景中的特定对象,并分析其运动变化, 得到运动参数;在接受端,这些参数用来驱动模型,通过计算机图形技术合成原 始图像。 基于模型的编码中涉及的模型主要是头肩模型。在编码端对包含静态、简单 背景下的人脸图像序列进行分析,以得到兼容于m p e g 一4 的描述人脸全局运动和 局部运动的人脸动画参数f a p ,这些参数和三维模型一起描述人脸的当前表情。 在解码端根据得到的参数按特定人的人脸表情对现有的头肩模型进行变形,再加 上纹理信息,从而完成真实感人脸的合成。因为大多数时间只需要传输参数,所 以可以达到较高的压缩率。 北京工业大学工学硕士学位论文 本章介绍模型基编码的概念,比较其与传统方式的区别,着重探讨了人脸模 型基编码研究的方向和应用。 1 2 1 人脸模型基编码的一般框架 模型基方法考虑物体的三维特性来描述图像,其编码方法有三维模型和二维 模型,三维模型需要建立对象的三维参数,二维模型则是一种通用的方法,它无 需知道三维参数,常使用形变三角形来分割图像并基于运动模型用仿射变换来压 缩图像。二维模型中还包括基于区域分割及运动补偿的编码方法。 三维方法主要有两类:一类是用一般的几何方法来描述物体的表面如平面和 光滑的表面:另一种是利用物体的参数模型如参数化的脸部模型,这又可分为三 维特征方法和三维模型方法。在三维特征方法中有分割表面模型,对物体运动引 起的区域变化进行检测,并使用平面拟合或抛物面拟合的方法。三维模型法需要 物体的三维参数,从图像中获得这些参数非常困难,所以就被限定在对特定的图 像类进行编码,如人的头肩图像,只建立头部和肩部的参数模型。 在编码方式方上,面模型基编码和传统的编码方式有本质的不同。它不是把 图像信号作为一个统计模型来考虑,而是作为一个结构模型,利用结构化方式来 描述图像组成,需要对图像的内容有事先了解 3 。该方法认为编码的图像具有 边界、轮廓和区域等结构信息,在低码率编码时给予保留,因此使恢复的图像维 持较高的视觉质量,有效克服传统编码方式在低码率下产生严重方块效应等问 题,是一种在低码率条件下高质量压缩图像的方法 4 。 由于模型基编码需要对图像内容有一定的了解,因此比较适合用于一些出现 对象较为固定的场合。当前视频图像的多应用场合如视频会议、可视电话及智能 人机交互界面中,人的头肩图像很常见的。在这些应用中主要关心的是人的头部, 这样就可以利用模型基分析合成方法实现对人脸的编解码。这种利用的基本原 理是对图像序列中的特定物体人脸建立模型,并在此基础上通过图像分析提 取模型的参数,这些参数就是对原始图像的压缩编码,在解码端在建立一个模型, 利用这些参数就可以恢复出图像。解码段模型可以和源端模型相同也可以不同。 这样恢复出的图像不会出向方块效应等视觉敏感的误差,取而代之的是几何失真 误差,不易被人眼发现,因此主观质量明显提高,而模型基的方法比面向对象的 方法更多的利用了图像中的知识,所以可以得到更高的压缩比。 模型基编码的这些独特应用吸引了许多研究者,对于一个脸部运动编码系 统,研究主要集中在分析和合成两个方面。分析端从整个图像中找出人脸对象, 在提取对对象的运动参数,在接收端,这些参数用来驱动模型,通过计算机图形 技术合成出原始图像。分析端具体要做的工作:1 ) 头部运动的跟踪;2 ) 脸部表情 的提取。合成端要做的工作:1 ) 三维人脸模型重建;2 ) 视频合成。如图1 1 所 示为模型基编码系统的通用框图。 基于头肩模型的编码的一般框架( 如图1 1 ) 包括头部的建模,面部分析、 面部合成等模块。如下图所示,分析端和合成端事先都拥有相同的人脸模型。在 分析端利用计算机视觉的方法对人脸序列进行分析,得到人脸运动参数,将参数 通过信道送至合成端,利用计算机图形学的知识实现人脸的动画序列。在分析端 有一个可选的模块,实现预先的合成,比较合成图像与原始图像之间的相似程度, 并进行迭代,将达到要求的结果送至后端。 图1 - l 基于模型编码的基本框架 f i g u r e l 1t h ef r a m eo f m o d e l b a s e dc o d i n g 1 2 2 模型基编码的应用 1 ) 低比特率的视频电话会议 随着网络带宽的提高和网络技术的发展,人们希望通过网络进行可视化交 流。如何传输人脸图像和接收人脸图像是视频电话或电话会议中一个核心问题。 北京工业大学工学硕士学位论文 根据模型基编码的有关理论,信道两端具有相同的一般人脸网格模型,编码端主 要的功能是分析视频中描述人的面部外观的信息和人的面部运动信息,并且将这 些运动信息经过编码传送到另外的一端。该系统的另外的一端是解码端,解码端 根据编码端传送来的人脸信息恢复视频中人脸图像。由于在信道上只传输人脸运 动参数,所以压缩率会极大的降低,占用的网络带宽较小,可以达到实时。 2 ) 人机智能交互 在人机交互智能中,需要对人脸表情信息进行分析,不可避免要对人脸特征 进行跟踪,通过提取的特征点恢复出人脸三维信息,使智能机更加准确的知道人 脸的真实运动增加人机交互的智能性。 3 ) 从二维去获取三维 既然有了三维的模型,将二维图像看作是三维真实世界的投影,从二维图像中 就可以构建出三维对象,实现更多的三维应用。 4 ) 结构化视频和虚拟演播室 由于模型基是以高度结构化的方式来处理图像的,因此可以自由地组合各种 视频对象。虚拟演播室就是一种典型的应用。让人物在真实或者人工生成的场景 中活动,可以创造出本来没有的,符合要求的视频。这种结构化的特点也可以为 多媒体数据库提供视频索引。 1 3 研究现状 模型基编码研究主要集中在分析和合成两个方面。对于m p e g 4 人脸对象模 型基编码来说,分析端从图像中找出人脸对象,提取运动参数,主要工作包括脸 部及特征区域的检测,头部整体和局部表情的跟踪。在分析端要将图像参数化, 也就是把脸部图像用模型来描述,并提取出脸部特征的分布参数和运动参数,然 后将这些参数编码合成符合m p e g 一4 标准的码流。在合成端用这个码流驱动提前 建好的三维人脸模型,从而产生和分析端一样的运动。本章主要介绍分析端的算 法结构和实现。 1 3 1 分析部分 为了实现模型基编码,必须利用己知特定编码对象的先验知识来建立模型。 对象运动时,模型也要发生相应的变化。因此需要获取对象的运动参数,可以通 过图像分析来得到。编码的前端分析又称为人脸跟踪,通过跟踪人脸提取脸部特 征和运动参数。在分析端关键的技术是人脸跟踪和特征提取,这也是模型基图像 编码的关键部分,可以归为以下方面: 1 1 图像分割:把需要的头部从背景中分离出,提取与模型有关的几何特征参 量,如头部轮廓和脸部区域等,常用边缘信息,色彩信息和帧矧运动信息来处理。 2 1 特征提取:定位眼睛、鼻子和嘴巴等表情区域,并求得相应的特征参数, 及与表情有关的表情参数。 3 ) 运动估计:头部模型运动包括全局的头部运动和局部的脸部表情变化两部 分。运动估计分为两类:一类基于特征点、线的估计,计算量小;_ 1 类基于区域, 如光流场估计,计算量大。而对全局运动和局部表情的估计也有两种方法:把全 局运动和局部运动分开估计和把两类运动合起来一起估计。 由于脸部是一个特殊的固定对象,有许多先验知识可以利用,根据使用这些 知识的方法不同,这些技术可以被分为基于特征和基于图像两类。第一类的定位 依据主要是脸部特征,一些脸部的特性像皮肤颜色和几何结构等在系统各个层次 上得到利用,最终识别归结于对从场景中获得的视觉特征如距离,角度和面积等 的测量和操作。第二类方法运用模式识别的最新进展,关注整体而不是个别特征。 其脸部表示直接通过对一组脸部图像的训练学习得到,不需要特征提取和分析, 通过映射和训练手段实现对脸部知识的利用。 1 31 1 基于特征的方法 基于特征的方法考虑复杂场景中的人脸定位时,低层次分析首先利用象素特 性如灰度和颜色进行分割,这种分析得到的特性很模糊。因此接下来在特征分析 中,运用脸部几何分布知识把可见特征组织起来,使特征的模糊度降低,脸部及 特征的位置就能够确定。另外,可变形模板的使用能够有效地提取那些复杂的非 刚性特征。 这种基于特征的定位方法根据运用的信息不同分为三类 ( 1 ) 利用边缘信息 边缘作为计算机视觉应用中最原始的特征,通过分析脸部的轮廓来定位,首 先要进行边缘检测。现在有很多的边缘检测算法,s o b l e 算子最为常见,另外, m a n 一h i l d r e t h 和各种高斯算子衍生出来的方法也都有广泛的应用。基于边缘检测 北京q - 业大学工学硕士学位论文 的方法中,边缘必须匹配到人脸模型中来验证是否正确的人脸轮廓。 g o v i n d a r a j u 1 8 提出了一种验证方法,标明正面人脸图像的左右边界和头发 轮廓,把边缘匹配到人脸模型上,根据理想脸部的黄金分割关系,计算代价函数 来验证候选区域。通过对包含9 0 张脸的6 0 幅复杂背景的测试图像的处理,识别的 正确率有7 6 灰度信息是另一种脸部特征。眉毛,瞳孔和嘴唇等区域比周围区域要暗些, 这个特点可以用来区分一些脸部区域,有些算法就是通过寻找局部灰度最小值实 现的。y a n g 【1 9 研究了图像塔式分解后的灰度行为发现,在低分辨率下,利用一 定规则选出统一样式作为脸部候选区域。然后在高分辨率下用局部最小值通过寻 找突出的脸部特征来验证候选区域的正确性。 2 3 中r e i s f e l d 等人介绍了一种基于象素边缘算子的全局对称算子,由于脸 部是对称的,不需要高层先验知识的算子可以有效表示高层脸部特征并定位,可 以对低层次特性进行总结归纳而获得高层次的整体特性。 特征搜索法先确定显著脸部特征区,然后根据脸部几何分布特点假设那些非 显著特征区。2 4 ) 中提出了的特征搜索算法,先确定头顶位置,然后向下扫描, 若边缘密度突然增加,表明是眼睛所在水平位置。头顶到该平面的趾离用来作为 参考长度,根据脸部比例初定位可变形模板,利用边缘代价函数精确定位。特征 分析的方法利用了特征分布在空间上的顺序,在复杂背景头部姿势变化较大的情 况下,星座图分析就很有必要了。在m a i o 和m a l t o n i 1 6 提出的系统中,面部作为 一个整体模型,通过梯度算子把输入图像转换为梯度图。然后在这个梯度图上用 h o u g h 变换和表示脸部分布的二值模板来完成定位。 ( 2 ) 利用颜色信息 灰度是一种表示图像的基本特性,而颜色是一种更有效分辩对象外观的手 段。由于包含比灰度更多的信息,两个灰度相近的物体在颜色空间中可能是完全 不一样的。研究表明每个人的皮肤颜色在颜色空间中都是集中在- 4 , 部分里,意 味着皮肤颜色的组成在不同个体之间差别很小,可以用取阈值的方法找出脸部区 域。利用颜色特性更进一步的做法是颜色统计模型,新的颜色变化会通过学习加 到颜色模型中。这种自适应的方法使颜色探测对周围环境因素如光照和相机特性 的变化更具鲁棒性。o l i v e 等人就运用了这种学习方法 2 0 。 第一章绪论 有的研究者将肤色模型和可变形模板结合起来,先将面部图像分解到r g b 空间,然后单独对肤色进行增强,最后再利用可变形模板对关键点进行跟踪。然 而由于不同光照,胡须的影响,舌头的颜色、面部颜色有时同背景较难分清,难 以达到满意效果。 h a n g 和c h e n 提出了基于统计颜色模型和可变形模扳的实时人脸跟踪系统。 这个算法可以跟踪多个人脸,并能处理一些遮挡问题。基于统计颜色模型和可变 形模扳的实时的单个人脸跟踪算法首先由r a o 和m e r s e r e a u 提出。j y a n g 和 a w a i b e l 在1 9 9 6 年实现了一个基于归一化颜色模型的实时人脸跟踪系统。2 0 0 0 年s c h w e r d t 和c r o w l e y 提出了一个新的基于颜色的分析的人脸跟踪算法。y a n g e t a l 提出了一种利用自适应肤色模型跟踪人脸的方法。这些方法的特点是非常快, 但是跟踪得不准确。 ( 3 ) 利用运动信息 视频序列的运动信息可以作为确定活动对象的一种手段。运动分割最直接的 方法就是帧差分析,通过测量帧差获得的两个相邻候选区域在水平和垂直方向上 的位移来确定脸部特征部位 2 2 1 。 基于特征的块匹配方法中包含有人眼、嘴巴等特征点的位置被一帧帧地跟 踪,这种跟踪是基于两帧之间变化很小这样的前提的。l l ! z n j e b r a 用基于特征的块 匹配方法跟踪特征点。 j e b r a 所完成的分析合成系统中,用k a l m a n 滤波来估计特定人头部的姿势, 用正交化相关性准则来跟踪特征点。他们的系统中人脸只有刚性运动没有表情变 化。该系统中运用一个反馈环来优化跟踪结果,即把合成图像上得到的特征点在 原始图像上迭代,得到最佳结果。 s t e p h a n ev a l e n t e 采用一个反馈环来分析和合成。先在合成图像上找到特征 点,然后用这些点和下一个原始帧做块匹配,将得到的结果输送给k a l m a n 滤波 器,输出人脸的三维运动参数。这种方法由于在反馈环中用滤波器估计刚性运动 参数,把块匹配的结果作为滤波器输入,会改善参数估计的准确度。 基于k a l m a n 滤波器的研究方法,只能得到刚性运动参数。如果在环中做了块 匹配,速度会加快,但由于k a l m a n 滤波器本身的理论依据是先知道研究对象的运 动描述,事先只能知道三维头部的刚性运动规律而不能知道面部局部运动规律, 北京工业太学工学硕士学位论文 所以最终只能得到人脸的刚性头部运动。 基于光流的方法对整幅图像的光流信息做处理,是对整个图象每个像素点进 行计算,取得估计的参数,会导致大量的点对应运算。单个点对应运算不如基于 特征点的对应运算准确,但由于有大量的对应点方程,所以点的误配可以控制。 w e n k e l m a n n 等人的工作中金字塔方法的使用可以在一定程度上减少光流较大 的计算量。b l a c k 和y a c o o b 提出了标准的光流场方法。通过分割二维平面上的不 同的光流得出光流场进行跟踪。为了避免了二维模型的弊端,b a s ue ta l 利用这种 技术和一个三维模型结合。这样的可以跟踪到大角度的旋转和远距离平移。但是 他们的结果非常的不准确。 从低层次分析中得到的特征是模棱两可的,例如用颜色模型分割时,背景中 相似颜色的部分也会被提取出来。这种模糊性是典型的多对问题,可以利用更 高层次的特征分析来解决,人脸的几何分布常用来从模糊状态中确定特征。 131 2 基于图像的方法 基于图像的方法是根据人脸纹理进行人脸动画参数的提取,可分为两大类 ( 1 ) 利用人脸纹理模板匹配 单独跟踪单个特征的问题在于局部性,没有考虑特征之间的相互约束。为了 考虑上述因素的影响, j o g e n a l b e r g 采用基于模板的方法在接连的两帧之间进行特征点跟踪,得到运 动参数,首先建立一个三维网格模型,描述特定人脸的特性和表情变化的规律。 跟踪过程中利用优化算法将网格每一帧地调试到新来的图像上去。然后利用 w a r p 算法来实现图像的变形,生成新的人脸,根据这个新的人脸纹理和模板纹 理的差值推断跟踪的准确度。由于三维网格的节点符合面部语义定义,所以网格 调好以后,就得到特征点的位置。该方法得到刚性和弹性运动参数,时间上也可 以接受。但由于该算法的贪婪本质,一旦两帧之间运动较大,会得到一个局部最 优点,得到错误的结果。 在g a t h o m a s 的工作中,事先要有一些典型特征的小参考图像,当寻找特 征的时候,就用这些参考图象在输入图象的相应位置上做匹配,匹配结果较好的 就是搜索到的特征点。该方法问题在于表情变化范围很大,参考图象要足够多, 而且角度变化难以控制,光照影响难以去除。 ( 2 ) 基于训练集的方法 有研究者使用二维正面图像做为训练集,以模式匹配的方法进行特征点提 取。其优点在于计算量较小,速度快,其局限在于只能达到小角度、小变形,而 且对于复杂背景,对象众多的情况,有时不稳定。其中有代表性的是te z z a t 和 t p o g g i o 以及l a n i t i s a ,t a y l o r c ,c o o t c s t 的方法。 动态轮廓s n a k e - - 般用来获取头部边界,在接近头部边界的地方初始化s n a k e , 然后用能量函数最小化来生成s n a k e 边缘。能量函数包括内部和外部能量函数。 内部能量函数反映了s n a k e 的本质特性并规定了其发展方式。s n a k e 典型的发展方 式为收缩和扩张。外部函数中和了内部函数使得轮廓线最终呈现附近特征区的形 状,即头部的边界。在运用s n a k e 的过程中需要考虑的两个主要问题是选择怎样 的能量函数和使能量函数趋向最小的方式。 要获得脸部特征的准确边界较为困难,因为局部区域的边界难以用通用轮廓 线条来描述。这些特征周围的亮度差异并不明显,也使得边缘检测会出问题。 y u i l l e 【1 3 利用s n a k e 的思想并进一步将眼睛的整体信息也考虑进柬,用带1 1 个参数的圆和抛物线表示眼部区域,建立眼睛的形变模板,增加了提取过程的可 靠性。这些参数控制着模板形变的过程,改变参数,模板的形状就发生变化,并 最终与图像中的特征边缘吻合。除了眼睛,还有嘴巴,鼻子等形变模板。由于考 虑整个特征区域的信息,比较准确,但计算量大。 a s m 和a a m 的轮廓线是一组离散的标记点,这些点的变化要服从一定规则 的要求,而这些规则在对一组包括不同大小和姿势的目标训练中得到。利用主成 分分析,特征变化可用线性可变模型表示,包含了所有特征的均值和点变化法则。 l a n i t i s 9 的模型描述了包括眉毛、眼睛、嘴巴和鼻子等特征的脸部整体外观,用 1 6 0 幅脸部图像作训练,手工设置了1 5 2 个点,这个模型可以在训练集中识别9 5 的脸部形状。为了把一个模型匹配到脸上,首先把平均形状模型覆盖在大致位置。 然后用灰度搜索的方法把每个点移到对应的边界点上。在形变过程中,形状的改 变只能遵循从训练集中得到的法则来进行。 尽管人脸特征跟踪的硬件和算法的效率有了很大的提高,但是鲁棒性的人脸 跟踪始终是计算机视觉研究中的一个很困难的闻题。入脸特征跟踪之所以如此困 难是因为以下因素的存在: 1 :跟踪环境的不同 北京工业大学工学硕士学位论文 i 跟踪对象的不同 光照和背景的变化 表情和姿态的变化 遮挡 2 :跟踪过程的自动和实时要求。 这些因素的存在使鲁棒性、实时的人脸特征跟踪一直没有得到解决。 本文从两个方向讨论前端分析工作:一是头部运送跟踪;一是脸部表情提取。 1 3 2 合成部分 建立一个人脸动画系统一般都会经历两个步骤:人脸建模和人脸动画。人脸 建模就是把真实人脸的框架标准化,然后用网格表示出来,作为将来生成真实感 人脸和面部动画的基础。不同的建模方式决定不同的动画产生方式,人脸动画就 是以人脸模型的几何和纹理为基础,采用动画技术使得人脸模型产生整体或局部 的形变,达到模拟人脸运动的目的。 对于三维人脸建模来说,为了动画表达生动,希望采用较多网格来表示几何 结构,但考虑到生成动画的计算代价,不可能无限增加网格数量。人脸建模的基 本要求是用最少的数据量来表达人脸的一些基本特征。各种人脸动画技术就是要 在动画序列的每一帧中准确控制人脸模型的变形。控制人脸模型的方法可以直接 或者间接控制模型表面上的点。 常见的建模和动画方法有:参数模型、肌肉模型、基于图像的变形模型以及 基于人脸库的组合模型等。可归纳为以下三种: 1 32 1 基于关键帧和视频片的动画合成方法 关键帧插值技术在人脸动画中得到很广泛的应用,这种技术的思想是在两个 时刻分别定义一个人脸表情,那么在这两个时刻之间的动画序列可以由计算机插 值而得到,从而生成一段人脸动画序列。 基于视频片粘贴的方法在描述局部表情变化时,只变形模型的纹理。对于不 同的表情事先要作好一个码书,在合成端以码书为索引查找不同的表情模板,然 后利用这些模板组合出整体的表情。w j w e l s h 的工作中,模板是面部不同五官 部分,合成时需要五官定位和无缝拼接。另外传输时还要足够开销来传输码书本 身,表情越复杂,码书就越庞大。 1 32 2 基于生理的动画合成方法 按照人的生理规律,人面部的表观和表情动作是由人面部和头部的骨头、软 骨、肌肉、神经、血管、结缔组织、皮肤和头发等部件共同表达的结果。因此要 建立理想的人脸模型必须从研究人脸的生理结构开始。为了得到人脸表面的变 化,面部肌肉组织的变化及其相互影响,p l a t t 和b a d l e r ( 1 9 8 1 ) 提出了最原始的 人脸肌肉模型;基于p l a t t 的人脸肌肉模型,1 9 8 7 年w a t e r s 1 0 开发了一个基于肌 肉模型的人脸动画系统。该模型由一个使用多边形网格表示人脸,并用肌肉向量 来控制其变形。通过基于向量肌肉和括约肌的收缩变化来控制人脸网格上的控制 顶点,就可以产生表情动画。 另一种伪肌肉模型是自由变形模型。自由变形( f f d ) 通过控制点的操作对具 有定体积的物体( s e d e r b e r g 9 6 进行变形。k a l r a 等人用有理自由变形来模拟 肌肉变形的局部视觉效果。在人脸表面上定义了肌肉运动的局部区域。通过交互 方式实现皮肤的变形,并用线性插值来决定位于相邻区域边界点的变形。 由于人脸肌肉模型通过研究人脸生理学的运动变化规律,并通过不同的可计 算模型将人脸行为的内在变形机制的引入人脸的动画和模拟中,通过肌肉变形产 生非常丰富的面部动作和人脸表情,但肌肉模型的缺点是实现起来相对比较复 杂,需要大量计算,模型的特定化也许要大量的交互工作。 1 32 3 基于图像的动画合成方法 基于图像的方法从图像中分析出人脸的几何信息,同时也由图像得到人脸的 纹理。f p i g h i n 在 1 2 中提出一个基于图像的真实感人脸建模和动画系统。 h o r a s eh s i p 等人1 9 9 5 年 5 提出一种通过正面和侧面人脸图像自动生成特定 人的三维人脸模型。 r o b e r t op o c k a j 等 5 8 用径向基插值的方法,实现了人脸模型的特定化。在模 拟人脸表情和动作方面,针对m p e g 4 中人脸动画参数( f a p ) 的定义,使用径向基 插值的方法实现了m p e g 4 中所有的低级f a p ,开发了一个基于m p e g 一4 的人脸动 画系统。该系统具有较好的兼容性,可以嵌入到一些具体的应用中。 1 4 本文的组织结构 本文研究对人脸视频进行基于m p e g 一4 标准的模型基编码方法,对整个系统 北京工业大学工学硕士学位论文 进行分析,将系统按编解码结构分成分析端和合成端,第二、三、四章讨论面部 分析提取面部动画参数的方法,第五章介绍面向m p e g 一4 的人脸动画驱动模型。 结构如下: 第一章介绍了m p e g 一4 以及模型基编码的概念,比较其与传统方式的区别, 着重探讨了人脸模型基编码研究的方向和应用,按照编码系统的分析端和合成 端,详细介绍了相关的工作及研究现状。 第二章提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论