




已阅读5页,还剩72页未读, 继续免费阅读
(计算机应用技术专业论文)2d人脸动画中的图像变形算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着计算机多媒体和嗣络技术的迅速发展,人们对各种人机交互界面的人 性化稷度要求越来越高。入验动画作为人枫交巨中的重要技术之一,在三卡多 年来一壹是计箕机图形学领域的研究热点,可以广泛应用于电影制作、游戏娱 乐、医疗研究、远程会议,代理和化身等领域。图象变形技术是人脸动画中的 关键技术之一。利用高效的图象变形算法,可以产生具有真实感的人脸动画。 本文对人脸动画中的图象变形算法进行了研究,实现了一个语音驱动的人脸动 溺系统。主要研究内容及成果如下: i ) 总结了现有的圈象变形算法,并详缨阐述了基于三角剖分的算法、基于 特镊线的算法以及蒸于径海基函数灼算法的原理及实现,分柝了这些算 法的优缺点。 2 ) 对传统的m e s hw a r p i n g 图象变形箕法进行了改进。将原算法中的一维 插值技术从样条插值简化为分段线性插值,提高了变形的实时性,并将 图象变形完全独立到x 和y 两个方向进行,降低了样条构造以及变形 的难度。最后,利用该算法进行萄象变形,产生了说话者各种口型以及 表情。 3 ) 提出了一耱基于b i h a r m o n i c 样条搔值的图象变形算法。幂l 鞠该算法实 现了图象渐变,并针对变形图象真实感、变形图象边界稳定性、变形实 时性以及操作灵活性等方面,与m e s hw a r p i n g 算法进行了比较,实验 结果表明,该算法产生的变形图象更真实,操作更灵活。 4 1 基于m p e g - 4 的人脸动画参数定义,利用s a p l 5 0 语音识别引擎提取语 音中的可视音素及时间信息,剩用改进的m e s hw a r p i n g 算法产生说话 者各种口型以及丰窝的衷情,从而实现了一个语音驱动的入脸动画系 统。 关键字:入脸动灏、图象变形、m p e g 一4 、可视音素 a b s t t a c t a b s t r a c t w i t ht h eq u i c kd e v e l o p m e n to fm u l t i m e d i aa n dn e t w o r k ,t h eh i g h e rq u a l i t y h u m a n h k eh u m a n - c o m p u t e ri n t e r f a c ei sr e q u i r e d a sa l li m p o r t a n t t e c h n i q u eo f h u m a n c o m p u t e ri n t e r f a c e ,f a c i a la n i m a t i o ni st h er e s e a r c hf o c u si nt h ef i e l do f c o m p u t e rg r a p h i c s ,w h i c hc a nb eu s e di nt h ef i e l d so fm o v i e s ,g a m e s ,m e d i c a l d i a g n o s i s ,n e tm e e t i n g ,a g e n ta n da v a t a ni m a g ew a r p i n gi sak e yt e c h n i q u ei nf a c i a l a n i m a t i o n ,s i n c eah i g h e f f i c i e n c yi m a g ew a r p i n ga l g o r i t h mc a np r o d u c ear e a l i s t i c f a c i a la n i m a t i o n t h i sd i s s e r t a t i o nd i s c u s s e st h ei m a g ew a r p i n ga l g o r i t h m si nf a c i a l a n i m a t i o n ,a n dr e a l i z e saf a c i a la n i m a t i o ns y s t e md r i v e nb ys p e e c h t h em a i nw o r k a n da c h i v e m e n t so f 也ed i s s e r t a t i o nc a ub es u m m a r i z _ ,e da sf o l l o w s : 1 u s u a li m a g e w a r p i n ga l g o r i t h m sa r es u m m a r i z e d n ep r i n c i p l ea n d i m p l e m e n t a t i o no fi m a g ew a r p i n ga l g o r i t h m sb a s e do nd e l a t m a yt r i a n g u l a t i o n , f e a t u r el i n ea n dr a d i a lb a s ef i m c f i o na r ed i s c u s s e d 2 t h ec o n v e n t i o n a lm e s hw a r p i n ga l g o r i t h mi si m p r o v e d f i r s t l y , t h er e a l t i m e p r o p e r t yo f i m a g ew a r n n gi se n h a n c e db ys i m p l i f i n gt h e1 di n t e r p o l a t i o nt e c h n i q u e f r o ms p l i n ei n t e r p o l a t i o nt op i e c e w i s el i n e a ri n t e r p o l a t i o n s e c o n d l nt h ed i f f i c u l t y o fs p l i n ec o n s t r u c t i o na n di m a g ew a r p i n gi sd e c r e a s e db yw a r p i n gi nxa n dy d i r e c t i o ni n d e p e n d e n t l y f u r t h e r m o r e ,af e wv i s e m e sa n de x p r e s s i o n sa r ep r o d u c e d b yt h i sa l g o r i t h m 3 a ni m a g ew a r p i n ga l g o r i t h mb a s eo nb i h a r m o n i cs p l i n ei n t e r p o l a t i o ni s p r o p o s e d ,w h i c hi m p l e m e n t si m a g em o r p h i n g a tt h ea s p e c to fw a r p e di m a g e s r e a l i t y , b o u n d a r ys t a b i l i t y , r e a l t i m ep r o p e r t ya n df l e x i b i l i t y , t h i sa l g o r i t h mi s c o m p a r e dw i t hm e s hw a r p i n gb ya ne x p e r i m e n t t h er e s u l ts h o w st h ew a r p e d i m a g e sp r o d u c e db yt h i sa l g o r i t h ma r em o r er e a l i s t i ca n dt h eo p e r a t i o ni sm o r e f l e x i b l e 4 t h ef a pi sd e f i n e di nm p e g 一4 t h ev i s e m e sa n dt i m ei n f o r m a t i o na r e e x t r a c t e db ys a p l 5 0 ss p e e c hr e c o g n i t i o ne n g i n e ,a n dt h e ns p e a k e r sv i s e m e sa n d e x p r e s s i o n sa r ep r o d u c e db yt h ei m p r o v e dm e s hw a r p i n ga l g o r i t h m f i n a l l y , af a c i a l a n i m a t i o ns y s t e md r i v e nb ys p e e c hi sr e a l i z e d k e yw o r d s :f a c i na n i m a i o n ,i m a g ew a r p i n g ,m p e g 一4 ,v i s e m e l i 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:之塾! :羞 叩年6 月f 日 第一章绪论 第一章绪论 1 1 人脸动画的研究背景和意义 人脸是人类情感表达和交流的最重要、最直接的载体。通过人脸可以推断 一个人的种族、地域,甚至身份、地位等信息。另外,通过人脸丰富而复杂的 变化,可以得到这个人的个性和情绪状态等信息,例如害怕、生气、快乐、惊 奇、难过、厌恶、沮丧等基本情绪,以及兴高采烈、烦躁不安、急躁易怒、困 惑混乱、聚精会神等动态情感状态。 随着计算机技术的迅速发展,人们用各种途径来表示复杂的人脸对象,通 过各种不同方法在计算机上实现人脸模型,并寻找人脸表情、动作等动态信息 的描述和表示方法,最终建造真实感的虚拟人脸。具有真实感的三维人脸动画 是自然人机交互中的关键技术,而后者是计算机系统的基本功能,它将使计算 机获得更有效的应用。当前普遍采用的人机交互方式仍主要依赖于键盘和鼠 标,其特点是让人来适应计算机,效率较低。而以人类习惯的、比较自然的方 式与计算机进行交流,使计算机能够主动地适应人的要求,正是人机交互研究 所要达成的长远目标。为实现该目标,不仅需要有硬件技术方面的发展( 主要是 计算能力、显示技术和各种智能接口设备) ,还需要语音分析与合成、人脸识别 和验证、表情和行为分析、人脸建模与动画等算法方面的进步。相对于上述提 及的其它方面,人脸建模与动画是人机交互系统中直接与用户沟通的视觉窗 口,其重要性不言而喻。如果计算机不仅使用文本和声音,还能通过表情对人 的行为做出反馈,这无疑会使人机间的交流更为自然而生动。然而真实感人脸 建模却是一个极具挑战性的课题。 首先,人脸具有非常复杂的生理结构。人脸是一个复杂的层次结构,一般 可分为头骨、肌肉层、结缔组织层和外部皮肤层。人脸表情的产生是由脸部多 个肌肉群的协作变形引起的。产生人脸表情或动作涉及到的主要肌肉有口轮匝 肌、鼻肌、颧肌、眼轮匝肌、皱眉肌等。例如唇部动作主要由口轮匝肌来完成, 皱鼻子等动作主要是由鼻肌的收缩产生,颧肌的收缩会造成颧骨处脸颊的提 高,眼睛及眼部周围的交化主要是由眼轮匝肌收缩导致的。 其次,人脸的几何形状很复杂,而且每个人均不相同。特别是头发、嘴巴, 耳朵、眼睛的几何形状很难用一个恰当的模型来表示,它们的几何数据也很难 第一章绪论 获得。人脸运动时的几何变化则更难以模拟。人脸的运动包括刚性的人脸姿态 变化和非刚性的人脸器官和肌肉运动,这些由人脸的皮下肌肉和人脸皮肤的动 力学特性决定的运动很难用模型来表示。 最后,人脸的光照特性也很复杂。人脸的皮肤存在着皮下散射和折射,眼 睛的光照特性很难获得,人脸的复杂几何以及皱纹、胡子、眉毛和脸部细毛使 人脸的光照特性非常复杂。目前还没有比较好的方法来直接测量人脸的光照特 性,现有的人脸模型和系统一般都不能很好地处理人脸的真实光照问题。 因此,真实感人脸建模和人脸动画是目前计算机图形学、计算机视觉领域 最根本、最困难的问题之一,同时该问题也是包括生理学、心理学、物理学等 多个领域的跨学科问题。该问题的研究和解决可以为复杂对象的建模提供借 鉴,对于类似的科学问题具有重要的促进意义。 除了具有重要的科学研究意义之外,真实感人脸建模还具有广阔的应用背 景。真实感人脸建模在电影、广告、计算机游戏、视频会议、可视电话、人机 交互、医学、公安安全等许多领域都具有广阔的应用前景。下面列出一些主要 应用。 1 影视广告 计算机生成的三维虚拟人物在影视、广告中的应用越来越普遍。人物面部 动画是影视处理中最繁琐的工作之一,能否得到真实感的绘制效果是影响影视 制作的一个关键因素,但一般情况下只能获得近似的模拟。尽管如此,佳作仍 不断涌现,从玩具总动员、真实的谎言、夺面双雄、黑与自到 m a g e ) ) , 其制作过程都体现了面部虚拟处理技术的魅力。图i 1 是玩具总动员中的 动画角色。 2 游戏行业 图i - i “玩具总动员”中的动画角色 2 第一章绪论 传统游戏中的二维场景和虚拟人物很难使游戏者达到身临其境的感觉。随 着图形硬件设备的快速发展,在游戏中使用三维场景和虚拟人物己成为一个趋 势。最典型的例子是视频游戏最终幻想,在该游戏中游戏人物的外形和运 动都显得非常逼真,如图1 2 所示。 图l - 2 “最终幻想”中的人物形象 3 视频会议和可视电话 随着网络带宽的提高和网络技术的发展,人们希望通过网络进行可视化的 远程交流,视频会议和可视电话等应用越来越受欢迎。如何传输入脸图象和接 收入脸图象是这些应用中的核心问题。一般视频会议或可视电话系统包括编码 端和解码端。编码端的主要功能是分析视频中人脸的外观信息和面部运动信 息,并将这些信息进行编码,通过信道传送到解码端。解码端根据编码端传送 来的人脸外观和运动信息合成和恢复人脸视频图象。基于模型的人脸编码系统 ( m o d e l - b a s e d c o d i n g t e c h n i q u e s ) 【l 】是实现实时、低比特率可视应用的可行方案。 图1 门基于模型的编码在人脸图象压缩中的应用 如图卜3 所示,编码端对摄像机拍摄的实际人脸进行运动估计和脸部表情 分析,得到表示人脸方向、形状、特征的若干人脸参数;解码端接收到这些人 霞 第一章绪论 脸参数,就可以根据三维人脸模型进行脸部表情合成,得到具有真实感的虚拟 人脸。这种只传输人脸参数的方法与传统的压缩视频图象的方法相比,传输的 数据量要小得多。 4 医疗行业 医疗行业中人脸动画的主要应用是外科手术和心理学研究领域。不断发展 的人脸动画系统为心理学家进行人脸运动和表情的研究提供了依据。1 9 8 2 年以 来,许多脸部动画系统在构造人脸模型时都使用了e l m a n 和f r i e s e n 的脸部 运动编码系统( f a c i a la c t i o nc o d m gs y s t e m , f a c s ) 圆作为指导。心理学家可 以用人脸运动的计算机模型来实现他们的研究,这比以前他们必须使用照片或 随意地叫人刺激肌肉来做研究更方便。 5 代理和化身 继图形用户界面( g r a p h i c a lu s e r i n t e r f a c e ) 和多媒体用户界面( m u l t i m e d i a u s e ri n t e r f a c e ) 之后,人们正在研究使用代理( a g e n t ) 的人性化用户界面。人 性化用户界面要求计算机能够与用户交谈并且做出各种反应,使用户感觉是在 与活生生的人而不是冷冰冰的计算机进行交流,这就需要具有真实感的人脸作 为计算机的代理。 人们在网络虚拟社区、三维语音动画聊天室等虚拟世界进行交流时,由于 设备条件的限制和心理作用,往往不会直接使用自己的真实图象,而是使用虚 拟人脸作为自己在虚拟世界的化身( a v a t a r ) 1 2 人脸动画的研究现状 自从p a r k e 在2 0 世纪7 0 年代在计算机上建立了第一个人脸模型【3 堀,人 脸的建模和动画就一直是计算机图形学、计算机视觉、模式识别等领域最为活 跃的研究热点之一。当前的人脸动画方法多种多样,本节从人脸动画中的网格 控制方法、纹理生成方法以及驱动技术三个方面对人脸动画的研究进展进行分 类介绍。 1 2 1 网格控制方法 人脸表情变化的一个最基本的特征是人脸外形的改变,而在人脸动画中人 脸几何形状是依靠网格来表现的,因此如何控制网格的形变是人脸动画中必然 要解决的技术。现有的人脸网格控制方法有: 4 第一章绪论 1 、关键帧 关键帧方法是在两个不同时刻进行建模,得到相应的几何模型,然后在这 两个时刻的模型之间进行插值,得到中间时刻的几何模型,由此可以得到不同 时刻人脸的表情或运动。关键帧技术是最传统和最原始的动画方法,容易实现, 但是工作量很大。 2 、参数模型 p a r k e 最早引入了人脸参数模型【4 l ,指出有两种参数应被考虑:特定人标识 参数和人脸表情控制参数。特定人标识参数因人而异,用于描述特定人眼睛的 大小,鼻子的高低,额头、下巴的形状等特定人的独立特征。表情控制参数则 用于描述眼睛的开合,眉毛的位置,脸颊的运动等情况。1 9 8 2 年p a r k e 又对参 数化人脸模型进行了改进【5 1 。参数模型建立在网格模型基础上,面部表情的完 成是通过挤压代表面部表情网格的相应区域实现的。由于这种方法使用纯几何 模型,忽略了人脸的现实层状结构和人脸皮肤的柔韧性,实现方法只是简单的 表面几何形变,这样就在一定程度上降低了合成人脸的真实感。 3 、肌肉模型 1 9 8 0 年,p l a t t 提出了第一个基于物理的肌肉控制人脸模型司 7 1 。1 9 8 7 年 w a t e r s 又提出了一种肌肉模型来模拟人脸表情产生过程,从而生成逼真人脸动 画 8 1 ,而后又进行了改进,提出了一种改进的人脸模型 9 1 。这种模型将人脸描 述为一种层状结构的实体,层与层之间有许多弹簧相连。采用这种模型通过跟 踪视频图象中非刚性的面部特征运动,可以达到合成瞬间表情的目的,只是其 实现方法比较复杂。r o l lm k o g h 等人在w a t e r s 肌肉模型的基础上,采用了有 限元的方法来产生人脸表情1 0 1 。他们的这种方法相对于质点肌肉模型更加精 确,目前己经应用于医学研究。1 9 9 9 年,n o h 等提出的径向基函数变形方法是 一种新的伪肌肉模型【1 1 】。2 0 0 1 年,b r e t o n 等提出了参数化模型与肌肉模型相结 合的混合方法埘,对眼睛、眼睑、下巴、脖子采用参数化方法,对眉毛、前额、 嘴部、脸颊采用肌肉模型。 1 2 2 纹理生成方法 网格只能表现人脸的几何形状特征,而人脸表面的颜色特征,比如肤色、 黑痣等则要通过纹理来表现,所以纹理在人脸动画中起着非常重要的作用,对 第一章绪论 人脸动画的逼真程度和生动性有决定性的影响。当前的纹理生成方法有三大 类: l 、无纹理 这种方法没有纹理,一般是通过光照给模型外表涂上颜色,优点是简单快 速,缺点是人物缺乏真实感。由于没有纹理的视觉干扰,通常在准确表现模型 三维几何形状的时候会采用这种方法。 2 ,单张纹理 在人脸动画中只使用一张中性表情的纹理,在动画显示过程中,纹理随着 网格的变形而做相应地拉伸。单张纹理的优点是纹理控制简单,只需要把纹理 映射到网格上,在动画中随着网格的变形而拉伸。缺点是不能表现纹理的细微 变化,人脸面部的纹理随着表情的改变会产生细微的变化,比如皮肤褶皱等, 只用一张纹理无法表现这些细微的变化,在真实度上会有所欠缺。根据纹理的 获取途径不同,单张纹理方法又可以分为以下三类: 1 ) 照片图象拼接1 3 j 【1 4 1 1 1 5 1 最常见的方法是用一张正面的照片和一张侧面的照片来拼接组成一张 纹理,也有用多张不同角度照片拼接的纹理。这种方法的关键是要做到不 同照片上同一特征点的标定要准确。照片拼接的方法简单易行,生成的纹 理在正面通常都会有很好的效果,主要缺点是不同照片上的相同特征点很 难准确对应,生成的纹理在偏离正面角度较大的情况下效果不很理想。 2 ) 视频图象拼接【1 6 1 通过跟踪视频中人脸的特征位置和姿态来获取不同角度的人脸纹理, 然后把各种角度的纹理融合起来合成一张完整的纹理。该方法主要适用于 只有视频的条件下生成纹理的情况,产生效果与照片图象拼接类似。 3 ) 三维扫描设备7 l , 用三维扫描仪自动扫描拼接生成纹理,纹理结果准确,但是常会有一 些空白区域,需要用插值算法进行修补。三维扫描的方法需要模特的配合, 难以推广。 3 、变化纹理 为了表现人脸面部细微特征的变化,变化纹理的方法在动画过程中并不局 6 第一章绪论 限于一张固定的纹理,而是随着表情的变化对纹理进行相应的修改。变化纹理 的方法真实感强,但是相对于单张纹理方法,实现起来比较复杂。目前已有的 变化纹理方法有: 1 ) 动态重构 g u e n t e r 等人在模特脸上标了6 种不同颜色共1 2 8 个点,用6 架照相机 同时采集人脸表情,然后用一个颜色分类器来识别不同颜色并获得它们的 位置,利用这些点在不同视角的坐标可以重构三维人脸网格【1 3 1 。为了获取 纹理,他们首先根据颜色分类器的信息把照片上的彩色点去掉,并用正确 的颜色来填充,然后拼接融合6 张照片生成不含标定点的纹理。由于纹理 总是用真实的表情照片生成,而不是靠拉伸得到,因此可以获得生动的动 画效果,但是他们的动画只适用于特定人模型,且制作过程复杂,难以实 时产生动画。 2 ) 纹理拼接 p i g h i n 等人采用5 架相机采集模特的各种基本表情,他们把人脸分成很 多区域,然后用各个区域的纹理进行拼接从而产生该模特更多丰富的表情 1 9 j 。由于建立了真实的表情纹理库,所以生成的纹理效果很逼真,具备各 种细微特征。但是他们的工作只适应于特定人模型,通用性不强。 1 2 3 人脸动画驱动技术 在人的各种行为模式中,入脸表情是最复杂的非刚体运动,因此人脸动画 研究也是虚拟人合成中最具有挑战性的和非常困难的任务。人脸合成系统都必 须模拟人脸表情中很多细节和复杂运动。对每一个运动,虽然可以进行手工标 注,但是一般需要很长的时间,而且只有熟练的动画师才能很好地完成该项工 作。为了解决这个问题,人们研究了一些可以自动生成人脸动画的方法,也就 是人脸动画的驱动技术,主要包括以下几种: l 、视频驱动t 2 0 i 2 1 l 基于视频的方法跟踪人脸的运动,并将人脸的运动信息转化为控制人脸模 型的运动参数。这种方法目前的难点在于提取并跟踪人脸特征点的运动,为此, 常在被跟踪人脸上加入特征标注点( 如反光点) 。如果每时每刻所有人脸特征 或反光点都可以被检测出来,那么提取出来的数据可直接与人脸模型参数建立 7 第一章绪论 一种映射。此时,这种方法可以得到很好的结果。基于视频驱动的合成适合重 现个人化的表情,当需要精确的唇动控制时,这项技术很难自适应完成和语音 同步的唇形计算。 2 、语音驱动 目前的语音驱动研究可分为两类:通过语音识别和不通过语音识别。第一 种方法是通过将语音分割成语言单元,如音素( p h o n e m e ) 、可视音素( v l - m e ) 以及更进一步音节( s y l l a b l e ) ,随后将这些语言单元直接映射到嘴唇姿势后用拼 接法合成。这种方法非常直接易于实现。第二种方法是绕过语音基元这种形式, 找到语音信号与控制参数之间的映射关系,然后直接驱动嘴唇运动。在这种方 式下,神经网络倒、相关控制f 2 3 1 以及线性预测函数1 2 4 被广泛用于生成居形和人 脸表情中。 3 、跟踪设备驱动脚l 运动跟踪设备通常需要模特穿上特制的衣帽,上面有一些标记,或者直接 在人体表面贴上特制的标记( 通常呈小球状) 。仪器的多个摄像机能够自动跟踪 这些标记,并自动计算出标记的运动轨迹。目前的运动跟踪设备很多,如v i c o n , m o t i o n , a n a l y s i s ,q u a l i s y s ,v z 3 0 0 0 等,它们都可以实现通过在脸上粘贴标记点 实现获取三维人脸运动数据的工作。 4 、文本驱动阅伫刀 文本驱动有两种方式。在第一种方式下,输入文本首先被分析转为音素表 示。音素的一些信息以及他们的时长可以从文本中自动生成出来。对共振峰以 及其他一些语音参数( 频率、基音、基音范围等) 也可以计算。文本驱动人脸 语音合成适合参数化的人脸模型。定义人脸模型的参数也可以被加入到用于语 音合成的参数中,如嘴唇形状、人脸表情、下额旋转等。作为一种新的方法, 语音合成系统可以扩展到将人脸参数包含在语音输出参数中。第二种方式是直 接在文本与动画参数之间建立映射关系。文本驱动人脸语音系统可以通过对文 本插入一些标记如语音韵律,语气,重音优化输出结果。这样合成语音会更自 然同时这些参数可以用于复杂的人脸动画。例如,重音可以与眉毛上挑以及点 头等动作同步合成。 8 第一章绪论 1 。3 本文的研究目标和组织结构 对特定人脸来说,已有一些产生人脸动画的模型,比较典型的有3 d 扫描 模型、从多视角拍照以构成三维模型等,这些方法运算量大且不便于用户操作。 基于此,本文提出仅用一张照片通过手动选取特征点建立二维人脸动画模型的 方法。在这种方法中,图象变形技术是关键,说话者的所有口型及表情均由图 象变形算法产生。 本文的研究目标是基于m p e g - 4 的人脸动画参数定义,通过语音识别工具 提取出语音中的可视音素和时间信息,设计并实现高效的图象变形算法以产生 具有真实感的语音驱动的人脸动画。 全文共分六章,章节安排如下; 第一章,介绍人脸动画的基本概念和应用背景,从网格控制方法、纹理生 成方法以及驱动方式三个方面介绍了人脸动画的研究现状,最后给出了本文的 研究目标和组织结构。 第二章,介绍了图象变形涉及到的基本问题,详细阐述了几种常见算法( 包 括基于三角剖分的图象变形算法、基于特征线的图象变形算法以及基于径向基 函数的图象变形算法) 的原理及实现,分析了各个算法的优缺点。 第三章,针对传统m e s hw a r p i n g 算法实时性不高和样条构造复杂等问题, 对该算法进行了改进,将该算法中的一维插值由样条插值简化为分段线性插 值,并将图象变形完全独立到x 和y 两个方向进行。利用该方法产生了说话 者的各种口型以及常用的表情。最后分析了该方法中可能出现的“样条自交叉 闯题”以及由此引起的变形结果。 第四章,研究了b i h a r m o n i c 样条曲面插值的原理及实现。在此基础上,提 出了基于b i h a n n o n i e 样条曲面插值的图象变形算法,并结合图象融合技术实现 了图象渐变。最后,针对变形图象真实感,变形图象的边界稳定性、变形实时 性以及操作灵活性等方面,与基于m e s hw a r p i r i g 的图象变形算法进行了比较。 第五章,实现了一个语音驱动的人脸动画系统,介绍了该系统的主要模块, 包括人脸参数建模、语音识别、动画参数计算、图象变形等模块,给出了程序 实现的流程图以及实验结果。 第六章,对本文所做工作进行了总结,并指出了以后的研究方向。 9 第二章常见的图象变形算法 第二章常见图象变形算法 数字图象变形是图象处理的一个分支,它主要研究数字图象的几何变换, 即图象中各像素点的空间映射关系,该技术源于对遥感图象进行几何校正的研 究,后来被引入医学成像及计算机视觉领域。近年来,随着多媒体技术的发展, 数字图象变形技术有了很大发展,人们在这一领域中已经提出了很多高效算 法,并开发出了相应的软硬件系统,利用图象变形产生的特技效果,在电影、 电视、媒体广告中有很多成功的应用。 本章介绍了图象变形的基本概念,概述了常用的图象变形算法,并详细阐 述了其中几种常见的算法,包括基于三角剖分的图象变形算法、基于特征线的 图象变形算法以及基于径向基函数的图象变形算法。 2 1 图象变形概述 数字图象变形主要包括空间映射( s p a t i a lt r a n s f o r m a t i o n ) 和重采样 ( r e s a m p l i n g ) 技术。其中,空间映射是图象变形的核心,它主要是通过建立 原图象和变形图象之间的特征对应关系来实现的,一般把变形以前的特征叫做 源特征,把变形以后的特征叫做目标特征,这些特征一般包括点特征、线特征 和面特征。 对两幅或者多幅图象进行图象变形,可以产生这些图象之间的平稳过渡, 这样的过程称为图象渐变( i m a g em o r p h i n g ) ,图象渐变是图象变形技术和图象 融合技术的结合,是图象交形技术的扩展。 2 1 1 空间映射 空间映射是指一种建立一幅图象和它变形后的图象之间各像素点映射关系 的函数。一般可用下式来表达: “。似,) ? ( 2 - 1 ) v = g ( x ,y ) 或 并2 似,力( 2 - 2 ) y = g 似,v ) 其中,( x ) 代表原图象中的像素点,( v ) 代表变形图象中的像素点。函数 和g 确定了从输入图象到输出图象所有点之间的对应关系,称为前向映射 l o 第二章常见的图象变形算法 ( f o r w a r d m a p p i n g ) ,函数厂和g 确定了从输出图象到输入图象所有点之间的 对应关系,称为后向映射( i n v e l - s em a p p i n g ) 。这两种映射方式如图2 - 1 所示。 原图像 变形图像原图像变形图像 圈日圈 ( a ) 前舟映射( ”后向映射 图2 - 1 两种映射方式 由于图象变形中的映射关系一般不是一一映射,故前向映射方式不可避免 会在变形图象中出现“空洞”和“混叠”现象( 多个点从源图象映射到了目标 图象的同一个位置) ,解决这一问题的办法一般有相交检测,非均匀采样等, 不过这些方法在时间和空间的开销上都比较大。而后向映射可以很好地解决这 个问题,它首先保证变形图象的完整性与唯一性( 没有“空洞”和“混叠”现 行) ,将变形图象中的每一个像素映射到原图象中的某一个位置,利用重采样 技术得到这些位置的灰度值。后向映射方式实现简单,在建立映射关系时,只 需要将变形图象中的特征作为源特征,将原图象中的特征作为目标特征即可。 因此本文在各种图象变形算法中均采用后向映射。故以下章节各种图象变形算 法中所提到的源图象和目标图象、源特征点和目标特征点、源样条和目标样条、 源网格和目标网格均与实际变形情况相反。即:“源”对应变形以后的图象,“目 标”对应变形以前的原始图象。 2 1 2 重采样技术 由于数字图象中各像素坐标为整数,而映射函数的输出一般为实数,这样, 映射函数输出的那些实数坐标的像素灰度值就要用它周围的整数坐标的像素 灰度值来计算,这一过程叫做数字图象的重采样。一般的重采样技术包括最近 邻插值,邻域平均插值、双线性插值等。 l 、最近邻插值 实数点k 力处的灰度值g r a y o ,y ) 由距离该点最近的像素点灰度值代替。 g r a y ( x ,y ) = g r a y ( r o u n d ( x ) ,r o u n d ( y ) ) ( 2 - 3 ) 第二章常见的图象变形算法 其中,r o u n d ( 1 为四舍五入函数。 2 、邻域平均插值 将实数点( 苫,力处的灰度值g r a y o ,力用它4 邻域像素点的平均值来代替。 设o ,力点的4 个最近邻像素为a , b , c , o 。它们的灰度值分别为g r a m a ) ,黝研, a , a o 。g r a y ( d ) 。则 g r a y ( x , y ) :g r a y ( a ) + g r a y ( b ) 了+ g r a y ( c ) + g r a y ( d ) ( 2 - 4 ) 3 、双线性插值 设o ,力点的4 个最近邻像素a , b , c , d 坐标分别为( l ) ,( f 扩1 ) ,( f + 1 刃, ( 抖l 一1 ) ,如图2 - 2 所示。 ( 韬) a e i 1 ) b c f d ( i + l d ) ( i + l 一1 ) 图2 - 2 双线性插值 双线性插值按以下步骤计算“力处的灰度值: 首先计算e 和f 这两点的灰度值舒别和舒秒( d : 粤,缈( 目= o f ) 【g 秒( 固- g r a y ( a ) + g r a y ( a ) ( 2 - 5 ) g r a y ( f ) 2x - i ) g r a y ( d ) 一g r a y ( c ) 1 + g r a y ( c ) ( 2 - 6 ) 则( x ,y ) 点的灰度值为 g r a y ( x , 力= ( j ,一j ) g r a y ( f ) 一g r a y ( e ) 】+ g 比吵( d ( 2 7 ) 相对于最近邻插值和邻域平均插值,双线性插值的计算量较大,但插值结 第二章常见的图象变形算法 果更为平滑。考虑到人脸图象需要高度的真实感,本文采用双线性插值法进行 重采样。 2 1 3 图象渐变 图象变形技术作用在一幅图象上的效果是图象的几何扭曲,而作用在两幅 或多幅图象上时,可以实现图象间特征的对准。因此,在实现图象变形的基础 上,分别对两幅图象进行两个方向的变形( 源图象到目标图象、目标图象到源 图象) ,再对两幅变形图象进行图象灰度融合,就可产生一系列的中间图象, 从而实现图象的平滑渐变。本文实现的图象渐变采用线性过渡过程( 可根据实 际需要改为指数或对数特性的过渡过程) ,而图象融合时两幅变形图象灰度值 所占的权重也与渐变的控制时间相关,总体上渐变的效果为慢快慢的过程。 图象渐变的实现过程如图2 3 所示。 源图像 i 目标图像 li 特征点选择 ll 源控制点目标控制点 ji 中阃拄制点 对源图像进行变形对目标图像进行变, jj 图像融合 j 中问蹿像 圈2 3 图象渐变 第一步,对源图象s ( s o u r c ei m a g e ) 和目标图象d i ( d c s t i n a t i o ni m a g e ) 进行 特征点选择,分别产生源控制点s c p ( s o u r c ec o n t r o lp o i n t s ) 和目标控制点 d c p ( d e s t i n a t i o nc o n t r o lp o i n t s ) 。 第二步,由s c p 和d c p 产生中间控制点i c p ( i n t c rc o n t r o lp o i n t ) ,将t 时刻的i c p 表示为j a 协。本文为线性过渡过程,令t - - o ,计算i c p ( t ) 。 i c p ( t ) = ( 1 - t ) * s c p + t * d c pt e o ,l 】 ( 2 - 8 ) 第二章常见的图象变形算法 第三步,将s c p 和j 觎力分别作为变形前后的特征点对源图象s ( s o u r c e h n a g e ) 进行图象变形,得到图象s w ( z ) ( s o u r c ew a r p e dh _ 】a a g o ;将d c p 和i c p ( t ) 分别作为变形前后的特征点对目标图象d l ( d e s t i n a t i o ni m a g e ) 进行图象变形, 得到图象d w ( t ) ( d e s t i n a t i o nw a r p e di m a g e ) 第四步,将s w l ( o 和d m ( t ) 按下式进行图象融合得到中间图象 i n t e r _ l ( t ) ( i n t e ri m a g e ) i n t e r _ i ( t ) = ( 1 - 0 s w l ( t ) + t * d w i ( t ) t e 【o ,1 1 ( 2 9 ) 1 第五步,将t 增加一个变形步长a t = 去,n 为中间图象的张数,返回第二 川 步。 综上,每经过一个出就得到一张介于源图象和目标图象之间的中间过渡图 象i n t e r _ i ( t ) ,经过个址就完成了图象渐变。 2 1 4 常见图象变形算法概述 数字图象的变形是通过图象上特征的改变来实现的,这些特征一般包括块 特征、线特征以及点特征。通过指定两幅图象上的特征的对应关系,就可以将 这一关系作用到图象上的所有像素点上,从而实现图象变形闭嗍【3 0 】。 按照变形所利用的图象特征可以将常见的图象变形算法分为三类:( 1 ) 基 于块的变形,典型的算法有二次网状变形算法( m e s h w a r p h a g ) 1 3 1 1 1 和基于三 角剖分的变形算法【3 3 l 刚。他们的共同思想是将整幅图象分成若干块( 四边形或 者三角形) ,从而将整幅图象的变形用每一小块的变形的结合来实现。这类算 法变形速度相对较快,但是将图象分成小块这一预处理工作比较繁琐,而分块 的合理有效性直接影响了最终的变形效果。( 2 ) 基于线的变形【3 卯,这种算法的 思想是在图象上构造一系列的特征线,图象上每个像素的偏移量由该像素与这 些特征线的距离的综合来决定。这种方法变形速度较慢,且特征线的指定较为 繁琐。基于块和线的变形算法所共有的缺点就是依赖于特征点的数目和分布, 一旦特征点数目或分布有所变化,在图象上的特征块或者特征线就会重新构 造,算法的实现就会有较大的改动,不利于变形效果的调整,操作不够灵活。 ( 3 ) 基于点的变形 3 6 1 1 3 7 p 引,典型的算法是基于径向基函数的变形算法【3 9 】【删 4 1 l ,以及一些改进算法 4 2 1 。这类算法的主要思想是将图象看成是众多散乱的点 构成,通过指定一些特殊点的空间映射关系和某种合适的径向基函数来完成图 1 4 第二章常见的图象变形算法 象上所有点的空间映射。这种算法比较直观,操作较灵活,但是由于径向基函 数一般为高斯函数等较为复杂的函数,故计算量较大,变形速度很慢,此外, 这种算法难以保证变形图象的稳定边界。 此外,还有一些其他的变形算法,如基于骨架的算法 4 3 1 ,基于轮廓的算法 m ,基于微分思想的算法1 4 5 1 ,自由变形算法【4 7 i 以及从它发展出的扩展自由 变形算法【档l ,有理自由变形算法 4 9 1 ,直接自由变形算法【5 川等。 2 2 基于三角剖分的图象变形算法 基于三角剖分的算法是一种基于块的变形方法,其基本思想是将整幅图象 分成若干三角形块,将整幅图象的变形用每一个三角形的变形的结合来实现, 而每一个三角形的变形通过仿射变换实现。这种算法的显著优点是变形思想简 单、速度较快。 该算法首先对源图象和目标图象进行三角形割分,利用对应三角形的顶点 坐标建立唯一的一个仿射变换关系,再把这个映射关系作用到每个三角形内部 的所有像素上,这样便完成了整幅图象的变形,在实现的时候,采用三角形填 充算法来进行图象上个像素点的三角形归属的判断,每个三角形填充内容为该 三角形的序号。 2 2 1d e l a u n a y 三角剂分 1 9 3 4 年,俄国数学家d e l a u n a y 曾经指出:对于平面域上的n 个散乱点集, 存在且仅存在一种三角剖分,使得所有三角形的最小内角之和达到最大,一般 称为d e l a u n a y 三角剖分( d e l a u n a yt r i a n g u l a t i o n ) 1 3 3 ,以下简称为d t 。d t 使 得剖分形成的每个三角形尽可能接近等边三角形,尽量避免病态三角形的出 现,在计算机图形学等领域得到了广泛的应用。根据d t 的定义,可以导出d t 满足下面两条准则: 1 共圆准则,即任意三角形的外接圆将不包含任何其他数据点,此准则 也常被称为“空圆盘性质”。 2 最大最小角准则,即对任意相邻的两个三角形所构成的四边形来说, d t 要求该四边形的一条对角线所分成的两个三角形中所有六个内角 中的最小值将大于另外一条对角线所构成的两个三角形中所有六个内 角中的最小值。此准则使d t 尽可能避免产生那种狭长、具有尖锐内角 第二章常见的图象变形算法 的病态三角形。 这两条准则是构造三角割分算法的基础,但d t 的定义并不是完备的,在 构造d t 的过程中,有可能某一个要加入当前d t 结构的数据点与其他三个( 或 三个以上) 数据点共圆。这时,常规d t 的构造可以任意进行。即无论连接哪 一条对角线都不违背d t 的定义,这种情况称为d t 的退化。由于产生了“二 义性”,当发生四个( 或四个以上) 的数据点共圆时,常规d t 的构造就不单由 算法本身决定,而取决于数据点的访问顺序。当数据的访问顺序发生变化时, 单一的算法可能会产生不同的d t 结果,从而发生错误。由于所有的数据点均 位于离散的图象栅格上,因此这种退化是有可能发生的。为了解决退化引起的 “二义性”问题,对常规d t 的构造准则作了三条补充,使d t 的构造与数据 点的访问次序无关,真正实现数据点集于d t 的一一对应。设要新加入的点d 4 与d t 中的d i 、d 2 、d 3 共圆,具体规则如下: 1 对共圆的四个数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电工岗位考试题及答案
- 《初中地理亚洲区域自然环境探索教案》
- (正式版)DB15∕T 3227-2023 《集中供热单位产品能耗限额》
- 郓城县人民医院护理题库及答案
- 大学气象考试题及答案
- 企业资产清查及估值辅助模板
- 行政日常运营标准流程规范操作型模板
- 农业大数据服务平台建设协议
- 医疗安全培训随感课件
- 小熊的奇遇记童话类作文5篇
- 2025年新城区行政中心建设项目社会稳定风险评估与治理策略报告
- 广东省公安厅机场公安局招聘警务辅助人员考试真题2024
- 2025年村级后备干部选拔考试题库及答案
- 《大数的认识》 单元测试(含答案)2025-2026学年四年级上册数学人教版
- 2025-2026学年北京版(2024)小学体育与健康三年级全一册《知情绪 善表达》教学设计
- 产前筛查考试题及答案
- 2025年事业编时政题目及答案
- 2025年发展对象培训班题库(附含答案)
- 第一讲-决胜十四五奋发向前行-2025秋形势与政策版本-第二讲-携手周边国家共创美好未来-2025秋形势与政策版本
- 2025年浙江省高考地理真题卷含答案解析
- 2025年上海市普通高中学业水平等级性考试物理试卷(原卷版)
评论
0/150
提交评论