(检测技术与自动化装置专业论文)人脸建模和基于mpeg4的动画实现.pdf_第1页
(检测技术与自动化装置专业论文)人脸建模和基于mpeg4的动画实现.pdf_第2页
(检测技术与自动化装置专业论文)人脸建模和基于mpeg4的动画实现.pdf_第3页
(检测技术与自动化装置专业论文)人脸建模和基于mpeg4的动画实现.pdf_第4页
(检测技术与自动化装置专业论文)人脸建模和基于mpeg4的动画实现.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(检测技术与自动化装置专业论文)人脸建模和基于mpeg4的动画实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着多媒体计算机的快速发展,计算机与人进行交流日益在增 加,而人的面部传递着人类最广泛的信息,如情感,精神状态等,虽 然每个人脸特征很相似,但却有不同的表情特征,于是人脸成为计 算机视觉与计算机图形学中重要的研究课题。本文的下作包括三个方 面:基于m p e g 4 标准的面部动作编码、中文文本驱动的人脸动画、连 续汉语语音驱动的人脸动画,他们也一直是计算机视觉和计算机图形 学中一直具有挑战性的研究课题。 首先提出了本论文的研究背景及研究内容,然后对人脸建模、人 脸动画技术、嘴唇动画以及m p e g 4 人脸动画标准,分别进行探讨, 分别对这些方法进行分类,并比较其优点、缺点,指出研究的难点。 本文提出了一种基于m p e g 4 的面部动作编码系统,该系统从高 到低定义了二个层次:m p a ( m i n i m a lp e r c e p t i l ea c t i o n ) 层,f c ( f a c i a l c o e f f i c i e n t ) 层幂l lf a p ( f a c i a ld e f i n i t i o np a r a m e t e r ) 层。以m p e g 4 定义的 6 8 个人脸动画参数f a p 为基础,首先进行f a p 到f c 的转换,根据m p a 与f c 的多对多关系,获得m p a 集合,建立以m p a 矢量表达的人脸视 位。在基于m p a 的人脸表情动画中,采用b 样条插值生成过渡帧, f a c s ( f a c i a la n i m a t i o nc o d i n gs y s t e m ) 弓擎会根据m p a f c f 的映射 关系把m p a 所描述的人脸动作装化为m p e g 4 规定的f a p 的值,然后 再驱动线框架的三维人脸模型产生动画。 为了获取作为人脸动画基础的静态视位库,提出了一种基于参数 化嘴唇模型的视位分类方法。参数化的嘴唇仅用7 个参数就能比较精 确地描述嘴唇动作,采用参数化的嘴唇来实现聚类算法比使用与嘴唇 有关的特征点更鲁棒。 在面部动作编码系统和静态视位库的基础上,提出了一套完整的 文本驱动人脸动画的方法,以中文文本为数据源,提取出音素流,从 嘴唇静态视位库中选取由m p a 矢量表达的关键帧,采用基于权重函 数的协同发音模型来拟合过渡帧,由f a c s 引擎来驱动三维人脸为了 得到更真实的嘴唇动画效果,在协同发音模型里面还建立了汉字之间 停顿的自适应模型,协同发音上下文的边界模型,另外,还采用变频 采样技术来强化爆破音和超短音的效果。 语音驱动人脸动画与文本驱动相比,需要建立声音一视位的对应 关系,本文采用识别连续汉语发音为策略,以识别的文木为选择静态 视位的脚本,辅以协同发音过程,来合成人脸动画。为此提出了一种 基于汉语发音规则的i f n e t 网络,模拟了汉字的拼写规则,脱离了庞 大的样本数据库实现汉语语音识别。 本文提出的算法具有潜在的应用价值,可以应用在虚拟主持人、 低频带的网络通讯、电影、游戏和广告中的角色模拟等许多领域。 关键词:m p e g 一4三维人脸模型面部动作编码系统 表情交互f d pf a p f a c em o d e l i na n dt h er e a l i z a t i o no f3 一df a c i a l a n i m a t i o nb a s e do nm p e g 4 a b s t r a c t t h eh i g hd e v e l o p m e n to fm u l t i m e d i at e c h n o l o g yr e q u i r e st h a t c o m p u t e r sc a n c o m m u n i c a t ew i t hh u m a nb yr i c hb e h a v i o re m o t i o n a l t h o u g ht h e r e i sas t r o n g r e s e m b l a n c ea m o n gt h ef a c i a lf e a t u r e s o f i n d i v i d u a l s ,h u m a nf a c e sa r ea c t u a l l v d i s t i n c t b e s i d e s ,f a c e ss u r v e ym o s to ft h e c o m p r e h e n s i v ei n f o r m a t i o ns u c ha s e m o t i o na n ds p i r i tc o n d i t i o n ,s oh u m a nf a c eh a sb e e na ni m p o r t a n tr e s e a r c hf i e l di n c o m p u t e rv i s i o na n dc o m p u t e rg r a p h i c s t h ed i s s e r t a t i o nf o c u s e so nt h ef o l l o w i n 2 t h r e ea s p e c t s :m p e g 一4 一b a s e df a c i a la c t i o nc o d i n gs y s t e m ,t e x td r i v e nf a c i a la n i m a t i o n a n ds p e e c hd r i v e nf a c i a la n i m a t i o n ,w h i c hh a v ea l w a y sb e e nc h a l l e n g e si nc o m p u t e r v i s i o na n d c o m p u t e r g r a p h i c s f i r s to fa l l ,t h eb a c k g r o u n da n dc o n t e n ta r eg i v e n t h e nr e l a t e d w o r k ,i n c l u d i n g f a c em o d e l i n g ,f a c e a n i m a t i o n ,l i pa n i m a t i o na n dm p e g 4f a c i a ls p e c i f i c a t i o n i s c l a s s i f i e da n dc o m p a r e d i s s u e so nt h em e r i t sa n df l a w so ft h e s ea p p r o a c h e sa r e f o l l o w e d af a c i a la c t i o nc o d i n gs y s t e mb a s e do nf a p so fm p e g 4i s p r e s e n t e d t h e s y s t e mi sd i v i d e di n t ot h r e el a y e r sf r o mt o pt ob o t t o m m p al a y e r ,f cl a y e r ,a n df a p l a y e r s u p p o s e dt h a tw eh a v ea l r e a d yg o t t e nt h e6 8f a p s ,f c sc a nb ec a l c u l a t e df r o m t h e s ef a p s e a c hm p ai sc o m p o s e do fs e v e r a lf c s s oav i s e m ec a nb ed e s c r i b e db v as e to fm p a p a r a m e t e r s d u r i n gf a c i a la n i m a t i o n ,b s p l i n ei n t e r p o l a t i o ni su s e dt o g e n e r a t et h ei m m e d i a t ef r a m e sb e t w e e nk e yv i s e m e s ,t h e nt h ef a c i a lm o t i o nd e s c r i b e d b ym p as e q u e n c e si sc o n v e r t e dt of a p sb yt h ef a c se n g i n e ,t h e s ef a p sa r et h e u l t i m a t ep a r a m e t e r st oa n i m a t et h e3 - d i m e n s i o nt a l k i n gf a c e i no r d e rt oo b t a i nt h es t a t i cv i s e m el i b r a r ya st h eb a s i sf o rf a c i a la n i m a t i o n a c l u s t e r i n ga l g o r i t h mo fv i s e m e sb a s e do np a r a m e t r i cl i pm o d e li sd e s i g n e d t h el i pi s p a r a m e t e r i z e db ys u p e r i o ra n da n t e r i o rb e n df o ru p p e ra n dl o w e rl i p ,w i d t ho ft h e m o u t h ,w e i g h to fl i p s r a d i u m t h ee x p e r i m e n tr e s u l ts h o w st h a tp a r a m e t r i cl i pm o d e l 4 i sm o r er o b u s tt h a nf e a t h e rp o i n t si nc l u s t e r i n gm o u t hv l s e m e s b a s e do nt h ef a c sa n dc l u s t e r i n ga l g o r i t h mo fv i s e m e s ,w ep r e s e n tas y s t e mt o a n i m a t e3 - d i m e n s i o nf a c ed r i v e nb yt e x t t h ep h o n e m es t r e a mi so b t a i n e df r o mt h e i n p u tt e x t t h ek e yv i s e m e s a r es e l e c t e df r o mt h es t a t i cv i s e m el i b r a r yw i t ht h e c o r r e s p o n d i n gp h o n e m e s t h ei m m e d i a t ef r a m e s a r eg e n e r a t e db yt h ec a l c u l a t i o n m o d e lb a s e do nd o m i n a n c ef u n c t i o n s h es i l e n c eb e t w e e nw o r d si ss i m u l a t e db ya n a d a p t i v es i l e n c em o d e l t h eb o u n d a r ym o d e li se m p l o y e dt o l e a dt h ed o m i n a n c e f i l n c t i o nt oz e r oa tt h eb o r d e ro ft h ec u r r e n tc a l c u l a t i n gw i n d o w t h et a r g e tp o s i t i o n s o fb i l a b i a ls t o p sa n df r i c a t i v e sa r er e a c h e de x a c t l yb yf r e q u e n c y c o n v e r s i o ns a m p l i n g c o m p a r e dw i t ht e x t d r i v e nf a c i a la n i m a t i o n ,s p e e c h - d r i v e nf a c i a la n i m a t i o nm u s t d os p e e c hr e c o g n i t i o n t h ei f n e t b a s e do nc h i n e s em a n d a r i np r o n u n c i a t i o nr u l e si s p r e s e n t e dt o a c h i e v es p e e c hr e c o g n i t i o n t h er e s u l tp h o n e m es t r e a m o fs p e e c h r e c o g n i t i o nc a nb ec o n s i d e r e da st h ei n p u to ft e x t - d r i v e nf a c i a l a n i m a t i o ns y s t e mt o s y n t h e s i z et a l k i n gf a c e t h ea l g o r i t h m sd e s c r i b e di n t h i sp a p e r ,c a nb ee x p l o i t e di nm a n ya p p l i c a t i o n s s u c ha sv i d e oc o n f e r e n c i n g ,g a m e s ,v i r t u a l ”s h o w m a n ”,o n l i n ec h a t t i n ga n dv i r t u a l r e a l i t y ,e t c k e yw o r d s :m p e g 4 3 df a c em o d e l s f a c i a la c t i o nc o d i n gs y s t e m e x p r e s s i v ei n t e r a c t i o n f d pf a p 5 j j 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有丕实之处,本人承担一切相关责任。 本人签名:兰旦兰! 重日期:丕当蓬i 母! 壁 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:兰翌二二芏日期:型鱼! 鱼! 竺: 导师签名: 继拙日期:盘盈2 :主:2 1 2 第1 章绪论 1 。1 研究背景 人脸是人类相互交流的渠道,在虚拟的计算机世界中,虚拟的人脸就是人脸 表情和语言的载体。近几年来,人脸建模技术作为计算机图形学的一个独特分支 越来越受到人们的重视。受电影和录像中高频率地出现虚拟人物,廉价的桌面处 理能力,和人机交互中需要一种全新的沉浸感的影响,人脸建模技术的研究成为 近年来的一个新热点。 人脸建模系统具有广泛的应用。有些用于娱乐方面的,如:电影的制作,有 些使我们的生活变得更便利的,有些则是用于特殊的目的,如:电视电话技术。 建模系统的选择主要依赖于所要开发的应用它的覆盖面很广。 人的面部能够传递很广泛的信息,比如情感、精神状态等,虽然每个人的面 部特征很相似,但却有着不同的表情特征,这使得其成为计算机视觉与计算机图 形学中重要的研究领域,相关的研究领域包括人脸建模、人脸跟踪、人脸识别、 人脸动画、虚拟人、。数字人等等。 从计算机图形学最顶级的国际会议a c ms i g g r a p h 以及计算机视觉最高档 的国际会议i e e ei n t e r n a t i o n a lc o n f e r e n c eo nc o m p u t e rv i s i o n ( i c c v ) $ 【l i e e e c o m p u t e rs o c i e t yc o n f e r e n c eo n ;c o m p u t e rv i s i o na n dp a t t e r nr e c o g n i t i o n ( c v p r ) 上发表的文章我们可以看得出,每年都有相关的文章发表,足见人脸三维建模、 人脸识别、表情等领域在国际上是一些值得研究的问题。 人脸相关的领域不但在理论是研究热点,而且具有极其厂泛的应用。当今恐 怖活动是人类的一大隐患,从美国“9 1 l ”事件后,人脸识别作为一个热点问题 重新得到研究人员的重视;本世纪初由中国刑警学院教授、我国著名的刑事相貌 学专家、痕迹考古学家赵成文复原两千年前西汉贵妇人头像,包括1 8 岁时的豆范 年华,以及5 0 岁的一脸沧桑,2 0 0 2 年1 2 月他复原连云港汉代双龙女尸:古埃及头 像的恢复,这是标准的人脸从骨骼恢复三维模型的应用;随着电脑和多媒体的快 速发展,大部分的电影游戏制作中的角色表:隋、动画等,如电影“怪物s h r e c k ”、 “最终幻想”、“恐龙2 ”等虚拟的丰富的人脸表情。 人脸三维建模及人脸表情的科学研究足足有1 0 0 多年的历史了,但是像现在 这样采用计算机进行研究也就是几十年的历史,日益复杂的计算机动画角色需要 生动且表达力很强的人脸。最早的计算机人脸表示出现在二十世纪七十年代。 1 9 7 1 年c h e m o f f 建议使用两维人脸去表示k 维数据。第一个二维人脸动画由p a r k e 在1 9 7 2 仓v j 建出来。在1 9 7 3 年,g i l l e n s o n 发展交互系统用于安装和编辑线画人脸图 像。在1 9 7 4 ,p a r k e 发展了一个参数化的三维人脸模型。在二十世纪八十年代, 出现了由p l a t 提出的第一个基于物理的肌肉控制的人脸模型和b r e n n a n 的人脸漫 画( c a r i c a t u r e s ) 技术。在1 9 8 5 年,短片“t o n yd ep e l t r i e ”树立了人脸动画进程的 一个里程碑。它第一次用计算机人脸表情和说话的动画形式来讲述故事。在1 9 8 0 的后期,w a t e r s 发展了一个新的基于肌肉的模型,而n a d i am t h a l m a n n 和她的同 事则进一步发展了一个抽象的肌肉运动模型。h w i s 和h m 发展了人脸说话的合成 的方法。1 9 9 0 年人脸的动画技术得到突飞猛进的发展,人脸动画技术在“玩具总 动员”、“怪物s h r e c k ”,“最终幻想”等好莱坞大型电影中发挥得淋漓尽致, 并取得了较好的经济效益。 近一段时间以来,随着计算机硬件和软件的突发猛进,人们对计算机的要求 越来越高,m i c r o s o f t 提出的人情化的计算机的概念,希望计算机能与人进行有情 感的交流,这是多媒体计算机的发展趋势,中国国家自然科学基金2 0 0 2 年的申请 指南也指出,人机交互与虚拟现实是信息学科的两大主题,而人脸表情充当着人 情化的计算机最有特色的方面,越来越受到人们的重视,个性化的虚拟用户化身 ( a v a t a r ) 与场景的表情交互是其中最基础和代表性的研工作,而人脸的三维重 建、基于视频流的人脸运动跟踪是生成人脸表情的基础,它们都是虚拟现实与人 机交互中最基本的研究工作之一,本文就是围绕这三个方面的内容展开深入研究 的。 人脸的三维重建、基于视频流的人脸跟踪应用广泛。具体而言,个性化的人 脸三维重建与人脸跟踪的应用前景包括: ( 1 ) 低频通讯,在低频带的网络中,对人脸进行三维模型编码及通信,使人 脸在低频网络上进行数据传输成为可能n _ 引。人情化的计算机能与人交流丰富的 情感,而人脸传递着极为广泛的视觉信息( 如身份、情感状态等) ,本研究为人 机之间的交流提供了重要的辅助作用。 ( 2 ) 网络虚拟主持人。随着i n t e r n e t 的迅速发展,虚拟主持人成为计算机视觉 与图形学热门研究课题之一协1 ,现已经能够自动生成逼真的主持人,还可模拟人 的表情,满足虚拟主持人视频交互的需要 ( 3 ) 娱乐。如电影、游戏和广告中的角色模拟等盯1 ,人脸三维重建可以应用 于游戏与电影的制作,能够很大程度上减少成本,并使之更具有娱乐性和交互性。 ( 4 ) 在线聊天与视频会议。采用三维模型信息除了更加逼真之外,还可以在 低频带宽的网络进行视频会议与聊天m 1 。 ( 5 ) 人脸检测与识别。人脸的跟踪研究也可以扩充为三维的人脸实时识别, 能够 2 满足人脸不同方位识别的要求砷。 ( 6 ) 脸部外科手术。根据人脸的表情与建模,研究可以应用于脸部外科手术 预测0 1 等。 a v a t a r 指用户虚拟化身含义,关于a v a t a r 的应用很多,包括语音驱动,多用 户虚拟场景协同n2 | 、虚拟主持人等。在虚拟场景中,如果他她的a v a t a r n 匕够具 有类似人的视觉感知能力感知周围的环境并采取相应的行动,是非常有意义的研 究工作,而人脸表情就是a v a t a r 的最好的交互方式。在前面建立人脸的三维模型、 表情动画的基础土,研究的难点在于如何自动生成a v a t a r 的真实感的人脸模型, 因为人脸动画可以通过变形模型得到,但人脸动画的生成只能通过动画师去手工 调整实现,且虚拟的角色还不具各备智能决策能力,这与实际的应用还有一定的 差距。 1 2 文本的工作 本文的研究工作包括三维人脸建模研究和基于m p e g 4 的面部动作编码、文 本驱动的人脸动画、语音驱动的人脸动画等几项内容,它们是虚拟现实与人机交 互中最基本的研究之一,具体来说,包括如下内容: ( 1 ) 人脸建模的研究: ( 2 ) 基于m p e g 4 的人脸运动单元的分解和组织; ( 4 ) 协同发音模型,中文视位的分类; ( 5 ) 基于i f n e t 的汉语语音识别。 本文的工作由第二章、第四章、第五章中的内容来描述。 1 3 本文的组织结构 第一章,我们提出了本论文的研究背景及研究内容。 第二章,提出了人脸建模的方法,在第三章中,我们给出基于m p e g - _ 4 的面部 动作编码系统。以m p a 矢量来参数化地表达一张人脸的表情。 第四章,给出了文本驱动的人脸动画系统。提出了基于参数化嘴唇的嘴唇视 位归类算法,基于一种改进的协同发音模型,能够生成自然的,平滑的,考虑到 上下文关系的过渡帧。 第五章,在前两章的基础上,给出了语音驱动的人脸动画系统。利用i f n e t 网络来进行中文语音识别,并利用前一章的基础,进行人脸动画的驱动。 第六章,给出结论和未来发展的方向。 第2 章人脸特征点提取与三维重建 人脸照片是用摄像机采集的人脸在某个角度的投影成像,其只能反映人脸各 个器官的在该投影面上二维位置分布信息,而我们要进行人脸三维建模则需要得 到人脸的三维几何信息。如何从人面的照片中获取人脸的三维几何信息则是本章 的主要研究内容。 2 1 特征点提取原理 2 1 1 立体视觉 立体视觉是由计算机视觉中用两幅或多幅二维图像获取物体三维几何信息 的方法。如图3 1 所示,对于空间物体表面的任意一点p ,如果用c 1 摄像机观察, 看到它在c 1 上的图像点位于冀,但我们无法从互知道p 的三维位置,只知道p 点 位于d 1 p 连线上的某一位置。但是如果我们用c 1 和c 2 两个摄像机同时观察p 点, 并且能够分别确定p 在c 1 与c 2 图像上的成像点墨与,就可以唯一确定p 点的 三维空间位置,其必然位于直线0 】只与q p 的交点上。 r 囊 。 7 7 0 。 f x w 卜 、 x 2 图2 1 用摄像机观测空间点 2 1 2 空间点重建 假定我们在拍摄照片时,使得摄像机的c 1 光轴与物体坐标系的z 。轴重合 ( 如图2 1 所示) ,且摄像机c 1 的坐标系中的z 。轴与物体坐标系的z o 轴平行。摄像 4 机c :为摄像机c 1 在物体坐标系下绕z 。轴旋转角目后得到。设点p 在物体坐标系 下的坐标为( x ,y ,z ) ,摄像机c 1 的光心0 1 与,与距离为d ,摄像机c 1 与c :的 各项参数均相同且焦距为l ,像点只与足在各自摄像机图像平面上的坐标分别为 ,v 。) 和 :,v :) ,根据线像机模型我们可以得到 m ,:j l y u :j l z 1 d , ( 2 1 ) 2 而两意百丽( y c o s 0 - x s i n 0 ) v :l 一z 当摄像机的拍摄距离d 、摄像机的焦距l 和旋转角度8 已知时,解式2 1 中的方程组就可以得到空间p 点的三维坐标。这三个参数可以通过立体视觉摄 像机定标得到,此处不再熬述。特殊的,当旋转角p = 9 0 度时,摄像机的成像平 面成为两个正交的投影面,则上式简化为2 2 式。 只需要知道拍摄距离d 及摄像机的焦距l ,我们就可以通过空间点在二维图像 的成像对空间点进行准确定位。不过使用正交投影面进行物体三维重建时需要注 意的是,选择正交的投影面时应以能反映最多的物体几何信息为原则。 “:j l y 1 d x 1 ,:j l z d 一义 “;j l x d y ;j l z ( 2 2 ) 2 1 。3 正、侧面照片中特征点的重建 对于一般的使用者来说,摄像机定标是一个比较繁琐的事情。相对而言直接 拍摄人面的正、侧面照片更容易一些。因此我们必须考虑从给定的正、侧面照片 中提取出入脸的特征点数据。 实际上在使用人面照片进行三维重建时,我们更关心的是重建的结果是否相 像,而重建后的人脸尺寸与真人是否完全相同则显得并不重要。根据针孔模型的 拍摄原理,物体在摄像机里的成像,是对物体在拍摄方向上的投影按比例缩放后 所得到的图像( 使用广角镜头拍摄除外,其在远离图像中心处会有较大的畸变) 。 故我们可以做以下简化处理: 1 ) 用仿射变换代替射影变换。在根据照片中的成像点计算其对应的三维 空间点时,用仿射变换代替射影变换,则空间点的相对坐标变为: x :且“ v2 。 y = k “2 z=kv 1 ( 2 3 ) 其中k 为归一化系数。我们对物体上所有的空间点均经过归一化处理,仍保 持物体的形状不变。 2 ) 在建模时,我们可以根据需要对得到的物体尺寸进行按比例缩放,对造型 的逼真度不会有影响。从给定的正、侧面照片中自动提取出人脸的特征点数据是 一个难度较高的课题,也一直是模式识别领域中的一个难题,迄今为止还没有一 个有效的通用算法,因此在考虑到自动提取十分困难的情况下,我们采取人机交 互的方式进行。 由于定义的特征点数据比较多,如果逐个的从照片中提取,效率十分低下, 而且可操作性很差。为此,我们使用了基于特征点模板修改的方法。采集一个真 实人脸的特征点数据作为模板,绘制出空间网格并投影到照片平面上,手动调整 网格即可获取照片中特定人脸的数据。 2 2 人脸特征点提取 2 2 1 照片预处理 对于给定的特定人脸的正、侧面照片,往往很难保证拍摄距离保持一致,从 而造成人脸器官尺寸的大小不一致,需要在提取特征点之前对其进行归一化处 理,以保证坐标的统一。 图2 - 2 照片归一化示意图 在人面照片的拍摄过程中,当正、侧面照片中的人脸的大小发生变化时,照 片中人脸上各个器官会随着人脸大小变化近似按比例缩放。因此我们可以在正侧 面照片中选择同一基准,通过其的变化对正侧面照片进行按比例的缩放,实现归 一化。如图2 2 所示,由于眼睛与嘴巴的中心线在正、侧面照片中很容易准确定 位,而且不受头发发型等因素的影响,故我们选择其之间的距离作为基准,对人 面的正侧面照片进行归一化处理。设在正、侧面照片上,眼睛与嘴巴的中心线距 离分别为h ,与日。照片中原始坐标为( x ,y ) 的像素点,归一化后的坐标如下: i ( x y = :k 七( p x h h ) ) 其中日2 :, ( 正面照片) ( 侧面照片) 2 2 2 特征点提取 我们以采集的一般人脸的特征点模板数据作为控制点,绘制出一般人脸的三 维控制网格,并将控制网络经过坐标变换后投影在正面,侧面照片所在的二维平 面上,在提取照片的特征点时,将所有控制网格上的特征点拖动至与特定人脸照 片中对应的特征点位置相重合,人工辅助完成特征点模版的匹配过程,从而求出 特定人脸的特征点数据。根据三维人脸造型的坐标系定义,显然正面照片中所能 反映特征点在y 轴和z 轴方向的位置信息,在侧面照片中能反映特征点在x 轴 和z 轴方向的位置信息,所以对于特征点模版中的特征点p ( x ,y ,z ) ,投影到正, 侧面照片所在的二维平面得到的点p ( x 。,y ) ,与p “( x ”,y “) 分别为: 正面照片投影点p c x ,y ,:( x y ;= k k z y ( 2 4 ) 侧面照片投影点p ”( x ”,y ”) :x = ( 2 5 ) 【y 2k z 其中k 为常数因子,与照片归一化中的k 值相同。使用上述的坐标公式将特 特征点模版中所有的特征点投影到正、侧面照片所在的二维平面上,并人工拖动 其投影到照片上对应得特征点位置。经过修改后的特征点数据就是照片中待重建 人脸的二维特征点数据,我们只需要将正,侧面照片中的特征点数据进行合并计 算即可得到照片中人脸的三维特征点数据。 合并计算的转换过程为投影变换的逆变换,即一直特征点在正、侧面照片 平面上投影的坐标,要计算出特征点的三维坐标,设特征点p ( x ,y ,z ) 在正、侧面 照片所在平面上投影点分别为p ( x ,y ) 与p ”( x ”,y ”) ,则p 点的坐标为: 特征点p y ,z ) : fx ”= k x iy ”= k z ( 2 6 ) 2 2 3 设计与实现 在程序实现上,我们采用面向对象的方法,将人脸上的分区设计为人脸分区 对象,类关系图所示。主要的类说明如下: c l a s s c f a c e o b j e c t :p u b l i cc o b j e c t ( p u b l i c :| l & t t r i b u t e c s t r i n g ms t r n a m e , u i n t m u i f a c e t a g ; p a t i o n d e r a i lmp a t i o n d e t a i l ; d r a w p o d n l smp o i n t s f r o n t ; d r a w p o 烈t sm p o i n t s s i d e ; p u b ! i c :o p e r a t i o n s 戚氦名稿 ,a 寸象的标志 分区数据信息 控制点的绘制坐标 胜制点的绘制坐标 初始化分区数据,实现从三维特征点到二维的投影转换 v i r t u a lv o i di n i t d a t a f r o m f a c e o b j e c t ( c o n s tf a c e p a t l 0 n & f a c e p a t i o n ,c r e c t & r e c t ) ; 绘制控制网格 v i r t u a lv o i dd r a w ( c d c 丰p d c ,c r e c t & r e c t ,b o o lb f r o n t ) o ; 获取照片的三维特征点数据,完成从二维特征点到三维的转换 v i r t u a lv o i dr e c o m p d a t a f r o m l m a g e ( f a c e p a t i o n & f a c e p a t i o n ,c r e c t 】 c l a s sc f a c e :p u b l i c c f a c e o b j e c t p u b l i c :| a t r i b u t e f a c e p a t i o n c e y e s c n o s e c m o u t h c c h i n c c h e e k c f o r e h e a d p u b l i c : b o o l b o o l mf a c e p a t i o n ; m e v e ; m n o s e ; mm o u t h ; mc h i n ; mc h e e k ; m f o r e h e a d ; o p e r a t i o n s 三维人脸数据 i 艮睛分区对象 鼻子分区对象 嘴巴分区对象 下巴分区对象 脸颊分区对象 前额分区对象 l o a f r o m f i l e ( c s t i i n gs p a t h n a m e ) ; 读入特征点数据 s a v e t o f i l e ( c s t r i n gs p a t h n a m e ) ; 保存特征点数据 图2 - 3 人脸分区对象示意关系图 2 3 三维重建 不同的人脸之间有着共同的特征,每个人的脸部都有眉毛、眼睛、鼻子、嘴 巴、耳朵等器官,器官形状基本相同,且每个器官在面部的相对位置是稳定的, 如成人眼睛在头部的二分之一处,儿童和老人略在三分之一以下:眉毛外角弓到 下眼眶,再到鼻翼上缘,三点之间的距离相等,两耳在眉与鼻尖之间的平行线内 等。 面部特征的个体差异也是客观存在的,世界上根本不存在两张完全相同的人 脸,即使是看起来非常相似的双胞胎,在某些方面也存在着不同之处。对于一个 特定人而言,眼睛的大小、鼻子的高低、嘴唇的形状以及相互之间的位置等都刻 画了这个人的面部特征,而这些面部特征被我们定义的人脸特征点所反映。 由于人脸的特征点有限,而人的面部是十分复杂的,要想使用有限的特征点 数据直接进行人脸三维重建基本不太可能,但是可以利用人脸之间的共性与差异 来完成三维重建。我们可以定义一张典型的、不具备任何明显特征的人脸作为一 般人脸。使用特定人脸与一般人脸的特征点差异对一般人脸模型进行修改,使其 通过变形向特定人脸的真实造型逼近,从而得到特定人脸的三维造型。 2 3 1 一般人脸模型生成 一般人脸模型是一般人脸的三维控制网格模型,是对一般人脸的真实测量数 据经过数据压缩简化处理后得到的控制网格数据。在生成一般人脸模型时,我们 使用第三章中的样本数据进行数据简化。 2 3 2 一般人脸模型数据结构般人脸模型 在第二章的2 3 节中,我们将人脸分为眼睛、鼻子、嘴巴、下巴、脸颊、额 头与人头后部七个区域。同样,我们将一般人脸模型也分为这七个区域,并对经 过简化处理后的控制点按所属的区域划分,并加上分区标识。这样做主要是为实 现从二般人脸模型到特定人脸模型的修改的需要。 一般人脸模型的数据模型如图2 - 4 所示。整个人脸的数据由n 个等值线层构 成,等值线层依次按顺序排列。每个等值线层是经过数据简化后得到的控制点队 列,队列中包含按逆时针顺序排列的属于若干分区的控制点,且同一分区的控制 点彼此相邻接。控制点在拥有本身的位置数据信息上,还有一数据项能标识出自 己属于那个人脸分区。具体的数据结构定义如下:控制点数据结构定义 t y p e d e fs t r u c t d o u b l ex : d o u b l ey ; d o u b l ez : i n tp a t i o n l d : i n te d g e t a g ; 】p a t i o n p o i n t ; 数据点的x 坐标 数据点的y 坐标 数据点的z 坐标 数据点所属分区标志 分区边界点标识 等值线层数据结构定义 t y p e d e f s t r u c t i n tp o i n t n u m ; 等值线上数据点个数 1 0 p a t i o n p o i n t l i s tp o i n t l i s t ;等值线上数据队列 ) i s o l i n e l a y e r ; 一般人脸数据结构定义 t y p e d e fs t r u c t ( in t l a y e r n u m ; i s o l i n e l a y e r l i s tl a y e r l i s t 】 c o m m o n f a c e t e m p l a t e ; 一般人脸的等值线层数 - 般人脸的等值线队列 图2 4 一般人脸模型数据结构示意图 2 4 模型修改 一般人脸模型的到特定人脸的修改过程分两步进行。第一步是整体修改,对 一般人脸模型进行整体轮廓的修改,使其与特定人脸在脸形与五官的位置相一 致,做到形似。第二步是局部修改,根据特定人脸的眼睛、鼻子、嘴巴等器官的 形状对模型进行进一步的修改,使其与特定人脸在具体的人脸器官上也相同,做 到神似。 2 4 1 整体修改 1 图2 5 给出了三维人脸造型在y o z 平面的投影示意图( 三维人脸造型 的坐标系定义见图2 5 ) ,人脸轮廓尺寸也就是人脸外接立方体的尺 寸,即立方体的长、宽、高数据,主要尺寸在图中己标出,具体说 明如下: 2 。 长度尺寸:长度尺寸l 包括前额分区长度l ,、鼻子分区长度t ,嘴巴 分区长度l 。、下巴分区长度。四个部分,这四个尺寸可以从相应人 脸分区的边界点数据计算得到。 3 宽度尺寸:图中0 ts1w 尺寸。为人脸两侧颧骨( 点己与点p ,) 之 间的距离,该尺寸可以从脸颊分区特征点的第6 个边界点计算得到。 4 高度尺寸:高度尺寸也就是人脸的厚度尺寸h ,为前额的眉心点( 图 中点p ,:和后脑勺点之问的距离,图中虽然没有明显标出,但可以从 前额分区的内点计算得到。 设修改前的人脸模型的外形尺寸长、 宽、高分别为l 。( 分为,。,l 0 ,l 。与l 。四 部分) ,日。,从正、侧面照片中得到的特 定人脸的外形尺寸长、宽、高分别为l i ( 分 为l l ,、l 。,与l 。,四部分) 、彬,日;。 变换公式如下: 其中( x o ,y 。,z 0 ) 为原始坐标,( _ ,y ,z ,) 为经过变换后得到的坐标。根据原始点所属 的人脸分区,l 。( 取值为l ,0 l 删l 。,l c 。) 与厶 ( 取值为l l k ,l c l ) 分别取相应的值。 2 5 曲面重构 2 5 1b 样条曲线、曲面的定义 图2 5 人脸模型坐标系 ( 2 7 ) h 矽勺 儿l h 形km = = = x y z 关于b 样条的理论最初是由舍恩伯格( s c h o e n b e r g ) 于1 9 4 6 年提出,1 9 7 2 年德 布尔( d eb o o r ) 与考克斯( c o x ) 分别独立的给出关于b 样条计算的标准算法b 样条 方法兼具了贝齐尔( b e z i e r ) 方法的一切优点,具有表示与设计自由型曲线曲面 的强大功能,是最广泛流行的形状数学描述的主流方法之一。 1 样条曲线 ( 1 ) b 样条曲线方程 为了保留b e z i e r 方法的优点,b 样条曲线的方程定义为: p ( u ) 2 篆d i n i , ku ) ( 2 8 ) 其中峨( f :o ,1 ,2 ,n ) 为是控制多边形的顶点,m ) ( i - - 0 ,1 ,2 , n ) 称为k 次b 样条基函数,其中每一个称为规范b 样条。它是一个称为节点矢量的 非递减的参数u 的序列【,:“os “- s sh m + - 所决定的k 阶分段多项式,也即为k 次多项式样条 ( 2 ) 样条的递推定义u ,s us u 川 b 样条有多种等价定义,其中最著名的是作为标准算法的德布尔和考克斯的 递推定义( 又称为德布尔一考克斯递推公式) 。这个著名的递推公式的发现是b 样 条理论最重要的进展之一。公式定义如下: 隆一 “f “+ l u f + l ) ( 2 9 ) n m 的双下标中的第二个下标足表示次数,第一个下标i 表示序号。该递推 公式表明,欲确定第i 个i i :次b 样条n i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论