（计算机应用技术专业论文）韵律文本驱动的三维口型动画研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：61 大小：4.42MB 积分：0 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

（计算机应用技术专业论文）韵律文本驱动的三维口型动画研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要合成真实准确的可视语音动画一直是虚拟人领域一个艰难而有趣的研究方向。它在增强嘈杂环境下的语言可懂度，教育培训，电影甚至医疗方面都有着广泛的应用。通过机器学习的方法，一段可视语音动画可以通过同步捕获的音频和唇动数据来进行驱动。这种方法的好处是动作的韵律信息已经隐含在驱动数据当中，因此使唇动模拟富于变化。在本文的合成系统中，三维口型动画是由一种带有韵律信息的文本来驱动的。由于文本具有灵活、易修改和高压缩比的性质，冈此在国际互联网上被广泛应用。但是却很难通过分析普通文本得到音调、音长和强调等轻易能从音频中取得的信息。由于缺乏韵律信息，以往的合成系统效果会显得很呆板。在本文中，设计了一种新的文本驱动的方法来生成三维口型动画。基本思想是：由用户借助一种韵律标记语言给普通文本添加携带韵律信息的标签，而合成系统则将标签转化为控制动画曲线的参数值，从而达到利用韵律信息来合成动画的目的。本文的技术借鉴行为驱动的方法，利用一种新的面向减小合成错误率的方法来生成三维动态视位。在参考已有对韵律研究的基础上，定义了一种汉语韵律标记语言来将普通文本转化为韵律文本。通过分析视频中发音的特征，建立了基于分段指数函数的参数模型，它将已得到的三维动态视位和韵律信息作为输入，输出则为生动的口型动厕。实验结果显示：( 1 ) 依赖不同的韵律信息，系统可以合成出不同的结果；( 2 ) 此技术相对于以往方法可以减少生成动画时所用的数据量。合成真实准确的可视语音动画一直是虚拟人领域一个艰难而有趣的研究方向。面向汉语的三维口型动画的研究具有重要的理论意义和应用价值。能够利用宝贵的网络资源，使其应用的环境不局限于p c 机，也包括p d a 等移动设备。该技术具有广泛的应用前景，可以用于多种场合，例如：聋哑人教学、网页手语导播等领域，为制作准确的口型动画大大减少手工劳动的负担。关键词可视语音合成；人脸动画；韵律模型；汉语韵律标记语言 a b s t r a c t a b s tr a c t s y n t h e s i so fr e a l i s t i c ，a c c u r a t ev i s i b l e i n t e r e s t i n gy e td i f f i c u l tr e s e a r c ha r e a st h a t s p e e c ha n i m a t i o ni s o n eo ft h em o s t h a v em a n ya p p l i c a t i o n sw i t h i nv i r t u a l c h a r a c t e r s ，i n c l u d i n gi m p r o v e di n t e l l i g i b i l i t yo fs p e e c hi nn o i s ye n v i r o n m e n t sa n d l e a r n i n g ，t r a i n i n ga n d e v e nc e r t a i nt y p e so ft h e r a p y w i t ham a c h i n el e a r n i n gm e t h o d ， as e g m e n to fs p e e c ha n i m a t i o nc a nb ed r i v e nb yac l i po fs o u n da n di t sl i pm o t i o n s w e r ec a p t u r e ds y n c h r o n o u s l y o n eo ft h ea d v a n t a g e si nt h a ta p p r o a c hi st h ep r o s o d i c i n f o r m a t i o ni si m p l i e d l yc o n t a i n e di nt h ed r i v e nd a t a s ot h el i p s y n c h s c a l lb e v a r i o u s i no u rs y n t h e s i z i n gs y s t e m ，3 ds p e e c ha n i m a t i o ni sd r i v e nb yak i n do fp r o s o d y t e x t d u et ot h en a t u r eo fl e g i b i l i t y ，e a s i l ym o d i f i e da n dh i g hc o m p r e s s i o nr a t i o ，t e x t s a r ew i d e l yu s e do nt h ei n t e r n e t b u tt h ec o m m o nt e x t sa l et o os i m p l et ot a k et h e i n f o r m a t i o no ft o n e ，d u r a t i o n ，a n de m p h a s i sw h i c hc o u l db ee a s i l ye x t r a c t e df r o m r e c o r d e dv o i c ea n dd i f f i c u l tt og e tb ya n a l y z i n gt h et e x t l a c k i n go fp r o s o d y i n f o r m a t i o n , s y n t h e s i ss y s t e m so f t e nu s e di nt h ep a s ta p p e a r i n f l e x i b l ea n ds t i f f i nt h i sp a p e r w ef o c u so nan o v e lt e x td r i v e nm e c h a n i s mf o rg e n e r a t i n gs m a r t t h r e e d i m e n s i o n a ls p e e c ha n i m a t i o n 1 1 1 eb a s i ci d e ai s t os y n t h e s i z et h ea n i m a t e d f a c e su s i n gp r o s o d i ci n f o r m a t i o ne d i t e db yu s e rw i t hak i n do fm a r k u pl a n g u a g e o u r s y s t e mt r a n s f e r st h e s et a g st op a r a m e t e r so fc o n t r o lt r a j e c t o r y ，s ol i pv a r i e t i e sc a nb e s h o 、ni nt h ec o n t i n u o u sa n i m a t i o n t h ep r o p o s e dt e c h n i q u e u t i l i z e st h e p e r f o r m a n c e d r i v e na p p r o a c ht og e n e r a t e3 dd y n a m i c v i s e m ew i t han e ws c a t t e rd a t a i n t e r p o l a t i o na l g o r i t h mw h i c hc a u s el o ws y n t h e s i se r r o r ac h i n e s ep r o s o d ym a r k u p l a n g u a g e ( c p m l ) i sd e f i n e dt os u p p o r tt h ee x i s t e n tp r o s o d ya c a d e m i cr e s u l t sw h i c h c h a n g ec o m m o nt e x tt op r o s o d i co n e s b ya n a l y z i n gt h eu t t e r i n g f e a t u r ee x t r a c t e d f r o mr a wv i d e o w eb u i l du pap a r a m e t r i cm o d e lb a s e do nt h ee x p o n e n t i a lf o r m u l a i t t a k e st h ep r e o b t a i n e d3 dd y n a m i cv i s e m e sa n dp r o s o d i ci n f o r m a t i o na si n p u td a t a , a n do u t p u t sas e g m e n to fv i v i ds p e e c ha n i m a t i o n e x p e r i m e n t a lr e s u l t ss h o wt h a t ( 1 ) t h ep r o p o s e dt e c h n i q u es y n t h e s i z e sa n i m a t i o no fd i f f e r e n te f f e c t sd e p e n d i n go nt h e a v a i l a b i l i t y w i t ht h ep r o s o d i ci n f o r m a t i o n ，a n d ( 2 ) t h ed e wt e c h n i q u ep r o d u c e s r e a l i s t i cr e s u l t su s i n gl e s sd a t at h a nt h ec o n v e n t i o n a lm e t h o d s t r u ea n da c c u r a t es y n t h e s i so fv i s u a ls p p e c hh a sb e e na d i f f i c u l ta n di n t e r e s t i n g j c i e l dr e s e a r c ho fv i r t u a lh u m a na n i m a t i o n a n i m a t i o no f3 dv i s i b l es p e e c ht a k e sa g r e a td e a lo ft h e o r e t i c a ls i g n i f i c a n c ea n dv a l u e a b l et ot a k ea d v a n t a g eo fv a l u a b l e n e t w o r kr e s o u r c e sa n da p p l i c a t i o n st ot h ee n v i r o n m e n ti s n o tc o n f i n e dt oap c ， i i i 北京工、j k 人学工学硕士学位论文 i n c l u d i n gp d a ，a n do t h e rm o b i l ed e v i c e s t h et e c h n o l o g yh a s b r o a da p p l i c a t i o n ，c a l l b eu s e df o rav a r i e t yo fo c c a s i o n s ，s u c ha s ：t e a c h i n gt h ed e a f , s i g nl a n g u a g ep a g e d i r e c t o r , a n do t h e rf i e l d s ，f o rt h ep r o d u c t i o no fa c c u r a t ep o p u l a t i o n b a s e da n i m a t i o n s i g n i f i c a n t l yr e d u c et h eb u r d e no f m a n u a ll a b o r k e y w o r d s v i s i b l es p e e c hs y n t h e s i s ；f a c i a la n i m a t i o n ；p r o s o d ym o d e l ；c h i n e s e p r o s o d ym a r k u pl a n g u a g e 独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文巾作了明确的说明并表示了谢意。关于论文使用授权的说明本人完全了解北京工业大学有关保帘、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名：绁导师签名： z 护扩少、! 、第1 章绪论 1 1 研究背景与意义第1 章绪论计算模式在2 0 世纪8 0 年代经历了从主机计算( m a i n f r a m ec o m p u t i n g ) 至l j 桌面计算( d e s k t o pc o m 2 p u t i n g ) 的革新，极大地推动了计算机技术和产业的发展。但是桌面计算的交互模式同时也给用户造成了诸多限制，使计算机仍然无法真正贴近人们的工作和生活。随着社会信息化水平的不断提高，这已成为当前计算机产业和应用领域进一步发展的主要障碍i lj 。所以近年来，人们对如何设计更富有人性化的智能人机接几进行了大量研究，使之成为计算机领域的一个研究热点。具有较高真实感的三维口型动丽的研究，为计算机与人进行无障碍的沟通提供了一个可行的出发点。无论考虑到其巨大的应用潜力，还是其在计算机图形学和相关领域内的科研价值，都有着深入研究的意义。首先，人类语言是由自然语言和肢体语言组成的。在人与人而对而的交流过程中，肢体语言和自然语言一样在同时传递信息，特别是在周围环境噪音较高，影响听者的语音理解时，人们常不南自主地利用观察说话者的口型变化来帮助理解。其中自然语言包括口语( 语言) 和书面语言( 文字) ，相应地，肢体语言包括手势、表情、体势等方面。人们在使用自然语言的同时，还经常使用表情或动作表达和传递许多无法用文字表达的情感，研究肢体语言的感知模型以及与自然语言的信息融合模型对于提高计算机的自然语言理解水平和加强人机接口的实用性将是有意义的。人脸口型合成作为人体语言研究的一部分，在这方面i 刊样发挥着重要作用。本课题是国家自然科学基金重点项目：普适计算研究“手语无障碍信息服务的普适计算”项目中的一部分。手语作为一种肢体语言，是聋哑人之问以及聋哑人同正常人之间交流的最重要工具。而手语中口型动作不仅是手语表达本身最重要的辅助手段。在计算机动画合成领域，人脸是最富有表现力的，是最主要的动画部件。而在人脸动画中，唇部是最复杂的一块，因为它的解剖结构最为复杂，而且人对唇部的运动非常敏感。因此，唇部动画已经从人脸动画的研究中脱离出来，成为一个独立的领域。在通常的对话和表达过程中，人的唇部能够做出与发音相关的很有节奏的动作，使人们即使在嘈杂的环境中也可以依据口型来判断出对方在说什么。如何用计算机动画来表达唇部这种韵律感极强的动作，则成为唇动合成的研究焦点之。本文从唇部运动与文本内容和韵律结构直接相关的假设出发，提出一种方法用于合成文本驱动的三维口型动画。文本较之图像数据和音频数据更加易于编北京i 业大学i 学硕十学位论文靴，儿体积小。但普通义率壬火r 人在蜕计时的韵科! 竹心。降i 此依据现行的汉i f 构律学研究成果定义r刊哟律文小杯1 0 语，将韵律代0 补充到迎文本一h 韵律箭乜、通过韵律计贸横fe ! 被体现到最终的动阿效粜一h 1 2 国内外研究发展现状近年来，为了合成贝订较高真实感的lj 型动面，人们在l1 唇的建饺、唇部运动数据的获取和动m 驱动方法等方而做卅了人量研究。 121口唇建模及驱动方法存埘il 唇建模方而一u 以分为物l 模型、几何模型、参数模型、特征模型和纹 _ 1 | ! 等类主要方法。物耻模型通过建立人腑形变与物理力学模型之1 的畎系米模拟人脸运动f 内真实规律。常用的物理力学模型柯线肚弹性力干奠型。】9 8 1 = 午p l a t t 捉山了- 3 4 舡 1 。物耻肌肉控制的人脸表情1 夔型”i ，该模型中的人腧皮肤裘n j 顶点= | i l 弹件连接，非通过且仃弹陛平收缩肚的3 8 块肌肉连接到基爪骨骼上。通过施加肌肉力埘弹肚皮肤叫抖进行控制和变形，从町得到人脆裘晴功面。其后，w a t e r s 等人提 m 了利，新的崩状肌肉梗型来模拟人脸而部表情”川该模型采川多边形网格表不人腚，南肌肉向晕控制刚杵变形，所谓肌肉就是个也含起点和插入到人脸叫格挣制顶点的向量，不同的肌肉运动被限制在局部的变形区域，如图1 1 所示。图i 1 w e 1 e l s 的人腑肌肉模型 f i g 卜lm u s c l e m o d e l f o rs p e e c h a n i m a t i o n f h a l m a n n 等人描述了一个抽象的肌肉运动模型，泼模型不涉及人脸内部复杂的生理结构，其控制参数是“扪蒙肌肉运动( a m a ) ”过程：k e l s o 6 1 等人在重复的语句巾定性分析了个真实的人脸，并用个弹性肌肉模型来进行建模 b i o w m a n 7 j 丌两个弹胜肌肉系统来控制嘴唇。w a t e r 1 等丌人发了一个二维的嘴唇肌肉模型和驱动机制。s e r a 9 1 等人建市r 一个具有特定弹陛系数的二层弹性刚格，通过比较当前视似在烈h 上和模型上的对应点得刽此视位的叭肉的收缩值。肌肉模型可以比较真实地模拟人脸的运动变化，缺点是模刑的运算复杂度很高。第1 章绪论类似还打种称为nl | 】变形( f f d ) 模，它通过控制点的操作对人腧进行变形，将一娈彤的物体嵌于个似想的山控制点纽成的三维网格的弹肚控制盒一h 刘控制盒的变形会棚应的传递到内嵌的物体上。b a s u 1 等人设计了个一维嘴唇的有限元模型，如图卜2 所示。 9999 ，- 酬12 订5 u 兀耍掣 f i gl 2ap e n t l a n d3 d m o d e l i n g o f h u m a n l i p m o t i o n s 举丁) l f i j 模型的方法通常忽略人脸复杂的牛坪机制，而九接认为表情灶r r 些表隋雄线形组合而成，口型足r l | t 2 口型基线形纽合而成，这样的好处是使得整j j 盘变化的运算量比较小。e r i k a 1 2 1 等人通过对维人脸图像进行学习，取得二维口型基，而通过选些二维u 型基来拟和任意个二维i 】型，这样每个二维| l 型对应纽在型基上的系数，通过将这纽系数应用到- _ 二维空n ，来融合f h 手建立的三维戈键形态，形成动面，如图卜3 所不。p u s h k a r i ”1 等人通过分析人脸再 r 域变化，束融合唇部变化与表晴变化。l e w i s 1 4 1 等人对丁关键形态融合时的冲突给“ 了种解决a 案。留锣曰镑留留曰留阿l - 3b l e n d s b a p e 插仇的关键帧动画 f i g l - 3k e y f r a i n ea n i m a t i o n w i l bb l e n ds h a p e s p a r k e 在1 9 7 2 年第次用计算机表不人脸幽像i l “。并于1 9 7 4 年引入了人脸参数模型”q ，血图l - 4 所示，指出有两利- 参数应被考虑：特定人标u i 参数和人聆表情柠制参数。特定人标识参数吲人而异，j _ 】于捕述特定人的u 艮晴的人小，鼻子的高低，额头、f 巴的彤状等特定人的独立特征。表情控制参数贝r lj i j 下捕述组包括叭晴的丌合，眉毛的位兄，脸颊的运动等情况。在此之后，p a r k e 等人又提出了小i 可的人脸参数模，娌和动惭系统”l ，对血矗早的模型进行了多方而的改进。p a r k e 的参数模型建立在m 格模型基础上，而 i | i 表情的完成是通过挤压代表而部表情网格的相应区域实现的使川这种纯几何模型由下忽略了人脸的现实层状结构和人脸皮肤的柔韧性，认为它只是简单的表面几何形变，降低了合成真实北京1 、l p 人4 ，i 学项十4 t 位论文人1 盒的能j 。1 9 7 8 年e k m a n 和f r i e s e n 捉山了* 名帕而 i | j 运动编码系统 ( i a c s ) ”，它揣述了4 4 个能够独立运动的而部动作巾元，这些单j i 与导致而馏表。占政变的肌肉结构紧密干连，才：这个系统r f l ，e k m a n = f _ 1f r i e s e n 还研究井鉴岍了六利- 拈本表瞒，分别表达为怒、厌、 n 、喜、哀、惊。参数模型n 勺力法还被川 1 世小化需型捕捉点的个数j ，叩借助r 】定义的参数模型基础上，通过已 i | i 捉点估算出难| 三【捕捉到构点。 h 卜4p k e 的人脸参数梗掣 f l4 c o n t r o lp 盯a m e t e r i z a t i o n f o r f a c i a la n i m a t i o n 基于特征模型的山浊般足从照片或视频- t 提取人脸特缸点，将小刚如度提驳的辅特征j 7 l 进行对心计算m 特征点的空问坐标，然肝用这些特征点毕轴、插仇变形张t f - 性人腧恻格，从而重构一维人脸模型。在h 雌09 0 年代初，t a k i m o t o 等人用曲张人脸j 姒柬建立人脸模型1 2 “。根槲正例而照片- - 相同特 i _ 点的列戍关系确定特征点的二维坐标，再用特征点的毕标来插n l 变形个巾性人脸嘲格，从而构造出特定人的二维人脸几何模型。这种方法的优j 7 1 是简单易行，但模型效果欠佳。p i g h i n 等人i ”开发了一垂系统，他口j 从5 个角度扪摄人脸删片，在每张_ l ! 片j ：手j 。标出】3 个特征点的位簧以戌些斗_ ! l = 征曲线，通过这些特征的对应对巾性人脸吲格进行变形从而得到特定人们- _ 维人脸儿何模型。在提取纹理上，他们提出两种方案，第种是视角无关纹理，即用5 张照片纽成一张俐定纹理i 第二种魁视们圳关纹理，即 m 据视角变化， 5 张照片用变化的自i 权系数来合成纹理。p i g h i n 的方法司以生成具有相当真实感的二维人腧校型，但是需韭犬景的手工作。微软研究院的l i u 等人】用人脸视频作为输入，丌户需要在其中曲帧中并标出5 个特征点，然后在视频巾计算井对应们点就可以自动生成与视频朴l 应的二维人脸模型。该方法操作简便，但是山于角的自动提取误差较大，导致模型几何表面的误差也比较大。基于纹耻的力法：纹理变化对于人脸动画巾细微特征有莉非常大的影响，差大龙 2 5 1 等人给出了种局部表情比率图的概念与方法。q i n g s h a n z h a n g 口6 1 等人通过纹理采，运用算法合成出变化的纹理形成人脸动l 唧。基于纹理晌方法，是通过纹理的形变，分解j 合成，米模拟人腧表情。这种方法效果的好坏与纹理的采样直接丰日芙受光照影响程度大，巾于其三维嗍格并不产生变化，所以当人脸表第1 罩绪论面的运动幅度较大时，例如“开怀大笑。这种方法会产生比较大的误差。另外，由于网格不动，其侧面误差也比较明显，例如“唇部”，所以这种方法多针对特定光照下、特定人正面的细微表情为合成对象。还有一些方法综合借鉴了基于特征和纹理的方法，做成了一些编辑系统【2 - 3 2 1 。 1 2 2 唇部运动数据的获取唇部运动数据的获取可以归结为人脸跟踪在局部的应用。目前，人脸跟踪已成为计算机视觉中的一个重要的研究课题，在智能人机交互、视觉检测、视频会议、安全盟控等多方而有着非常重要的研究价值和经济价值。人脸跟踪的难点在于：跟踪目标可能会发生平移、旋转、缩放甚至是表情、姿态等变化；人脸图像可能会受到光照、噪声和复杂背景的影响；各种类型的遮挡的存在。因此在唇部运动数据的获取时同样存在这些问题。人脸的跟踪的方法很多，适用于唇部数据获得的主要有：( 1 ) 基于颜色信息的方法，一些研究表明：唇色通常都可以很好的与背景分离开来。使用颜色信息跟踪的方法主要分为基于统计的和基于模型的两大类。其中，基于统计的又可以进一步分为利用直方图分析的【3 3 】、利用颜色概率分布分析的 3 4 ，3 5 】和利用高斯模型分析的p 6 1 。( 2 ) 基于光流的方法，光流可以从单个象素的角度进行图像的跟踪，因而被广泛地应用于头部的跟踪上p 7 , 3 8 。最早，通过在人脸上贴一些标记点的方法来进行跟踪，但是这在某些场合并不合适。如果不使用标记点，一些区域又难以精确地估计光流。后来，一些研究者将光流跟踪和一个事先建好的模板结合起来，以此来弥补光流本身的缺陷。( 3 ) 基于轮廓分析的方法，主动轮廓( 或s n a k e ) 是一种可变形的轮廓或曲线，它受内力和外力的共同作用而发生增长和收缩【3 9 , 4 0 】。其中，内力利用的是轮廓的平滑性约束，而外力牵引着轮廓使其与明显的图像特征相匹配。这类方法大都需要在脸上或嘴唇上做一些彩色的标识，用于辅助发生表情变化时的跟踪，然而在人脸上做标识不太切合实际，因而使其使用受到了限制。 1 3 应用前景集文字，语音，视频于一体的文本一可视语音合成系统t r s ，它使人们不仅能听到合成的声音，还能看到合成的说话者面部表情和可视发音器官的动作。因此t 1 s 比文语合成系统( t e x t - t o s p e e c h ，t t s ) 具有更友善的界面，更方便人们和计算机的交流，在许多方面有着广泛的应用前景。在游戏娱乐方面，通过向各种真实感强的三维游戏场景中加入逼真的语音与动画同步的虚拟人模型，将使得整个游戏成为真正的三维游戏同时增加用户的沉浸感。在各种娱乐项目中，如果和用户娱乐的是一个智能虚拟人，将让用户感到北京工j i p 大学工学硕士学位论文更加真实和亲切。在电影制作方面，目前与语音州步的人脸动i 雨i 系统被广泛地用于电影特殊效果的制作。从玩具总动员、真实的谎言到黑与白、( ( m a g i c ) ) 等制作中都无不体现了人脸造型和动画技术的魅力。在辅助教学方面，”s 的另一个应用是作为教学的工具，将教案以文本录入，输出为一个虚拟教师的教学动画。教人正常发音是一项艰辛而又单调的工作，而当学生在说话和听力方面有障碍时，更是如此。利用计算机，老师可以省去大量重复性的工作。更重要的是，学生可以随时随地地学习。通信领域中，在有限带宽下传送连续的人脸图像是远程通信过程的关键问题。“通过传递相应运动的参数数据而不是整个图像，可以减少大量的传输数据”。 1 4 文章的研究内容和组织结构本文的研究课题受到国家自然科学基金重点项目：普适计算研究一手语无障碍信息服务的普适计算的资助。研究的主要目标是要通过输入中文文本，合成出较为真实的针对特定人的三维唇动动画。作为手语平台的一部分，能够配合手语动作，提高虚拟人打手语的可懂度。研究内容包括：基于视频的唇部特征点跟踪；基于流形学习的三维唇部形态生成；三维动态视位生成方法的研究以及面向汉语的韵律标记语言的制定和实现。其中，如何生成动态视位及韵律标记的实现是本篇文章的重点。本文共由5 章组成，各个章节内容安排如下：第1 章介绍了文本驱动的三维口型动丽的研究背景与意义；分别从口唇建模及驱动方法、唇部运动数据的获取两个大方面介绍了其研究进展和研究现状；给出了本文的主要研究内容和组织结构。第2 章在分析课题需求的基础上主要介绍了两种可视语音动画合成的基本原理。并对其在本课题中不使用的原因进行了分析，由此提出了本文解决方案给出了系统框架图。第3 章首先给出了本文针对唇动视频采集所设计的语料库；然后介绍了唇部特征点的选取和采集过程；该章通过弹性匹配图的方法进行了特征点的跟踪，最后给出了实验结果。第4 章三维动态视位生成方法的研究。第5 章介绍了面向汉语可视语音合成的韵律标记语言及韵律的实现。最后，对论文主要工作和成果进行了总结。第2 章可视语音动画的基本原理 21 引言 l j _ j 纳绪论r r l 异研究人员对于口型动画的处理方法，可以分析得出j 种4 ：流方法。、基丁图像或者视频| 1 勺方法，以记录发卉动作的连续罔像或者视频作为输入数据，兀柬合成棚天山彝的二维或青二i 维口型动闻，这种方法们好处是如果所输入的视频序列和要输 i j 的动i 【! | _ 具有相同旧内弈，则真实感较强，1 ： _ 【如果两者内容小干h 芙，则需要其他策略的支持。二、语音驱动的方法，又被称为“t a l k i n g h e a d ”叩“ = | | 话的人头”一文本驱动的丌型动画，文奉驰动的方法相比前两种方法而言。由j 输入的数抓掳带的信息量少，而单纯的控sr l h 法很难达副个_ i i l 想的合成效果，其中心f ! j 究议题址建立个受文本控制的ii 邓变化参数模型，这样的模型般靠先验知识来完成，建立起柬有一定难度。术章布22 节和 2 3 节r | 1 分别介绍语音驱动平参数驸动的几型动i 呻。2 4 节在针对前两个小节所述力法存在的问题之后，捉出了解决文本驱动的三维口型动画的框架。 2 2 语音驱动的口型动画原理以往的文本驱动的可视语音合成系统般巾个文讯什成器和个动国生成系统构成，如罔2 一l 所示。文语合成器有两方面作用：方而，它用于把文本台成话音：另一方而，它可吐给出与文本对应的音素或音啦及相应的起止时n t 3 信息，这是基丁关键帧的动台成所必需的。动画牛成系统般聚用基于关键帧的变形方法，这里的关键帧主要灶指与音索或音节对心的小l0 几型。随精语青合成利基于关键帧的人脸动丽技术的进步发展，文本驱动的可视语青台成技术会只趋成熟。但h 前受语音合成技术的限制，合成出的语肯往往有机器声的效粜不是微门然，所以近几年来的可视语音台成研究更倾向于a 接用语音去预测川视的动画序列，即语音驱动的州视语青合成。 n 2 一l 文本驱动的可视语音合成系统框架 f i g u r e21t e x t d r i v e nv i s u a ls p e e c hs y n t h e s i ss y s t e m 北柬j 业人学i 学硕学竹论文 1 4 1 11 4 2 、讲卉驱动的_ 亓视l “膏舟戚股是先通过向量茸化。、神经网络1 、尚斯淝台模型或隐码尔川大模型等学刊的方法建立能够反映语肯7 枷盹可视参数之问对应哭系竹卉视频映射棋然后对于给定的待合成的新的语音，j k ：训练好f 1 0 模型预测与lc 对脚f 由州步视频序列。l 割2 - 2 展小了划f 给定语音段，基于圳练矗的模型合成1 型序列的过秤。蛔剥厂_ _ 一陋刊 “l一畦叠! 图22j , l 于语音合成肝序列币意嘲 f ih u r e2 - 2s e h e m a t icd i a k r a r no fs y n t h e s iz l n gl 1 p ss e q u e n c eb a s e do na u d i o 陶2l 和幽22 所示，可视语肯合成的最终il 标是得到“讲话的头”，h 此涉及到头或唇的建 _ f 题。较甫川n 勺建模方法可以分为犟丁吲像的建槿和基十二维模型的建 j ! 两种。丝于幽像册建模般真实感比较强，小过损火r _ 二维信息基于二维模型建横的方法受限于人脸建模和动l m j 技术的发展。在选定了输入端驰功方式和台成端动而建模力武以后，可视语杆合成研究的咒键便是直何矬立起驱动方式和动面模型之问的对应，即音视频映射04 题。归纳小同的音视频映刖方法，本义将其分为两类即堑于人样本采样的方法和牡于学习的方注。接f 柬将就这两种方法简述其基本躲王 f l 及解决方案。、基于人样小采丰羊的方法；类似于语音合成中晌波形拼接力法，通过录制人们讲话时的人胎图像，得到大量原始图像数圳，从而建起图像数据库。在俞成时从库i 选择合通的图像进行拼接，并进行些消除幽像边缘效腑和荆动的处理，生成动态的连续的语音动面。以 t t 的研究域柴为例，i ? c o s a t t o 等“录制了个人两个多小时的讲话，包含了英语语寿的所有双青索和计多三忤紊。在分析阶段：提取4 0 万帧( 6 0 1 帧秒) 的人脸各部分特征和头部姿态，并扯丁音索加标签，同时附加持续时司信息平人脸的基本儿何信息。合成时：对于绗定的新的序列，前先利月j 文升合成器产生音索f 1 1 剌并音索的持续时问情息，然后遍历数据库搜索具确相i 计音索和稍i 似持续时刚信息的录像段，这样，对于待什成语音的每时n i j 步长，甭少有5 0 个候选序列与其对应。为了增强台成序列的真实感和连贯件，ec o s a t t o 考虑了协同发音问题，缚次从数据库中挑选与双音素对应的一视序列。为了确保帧问转移足平滑的，v i t e r b ，算法被川于搜索最优的n ，融序列，最后将l j 型缝合到整个人睑，得到具有真丈感的整个人腧图像。基于大样本采样方法进行可视语音合成的优点是合成的人脸图像真实感强。、基丁学习的方法：_ 犬样本的方浊或者是通过文语合成器将文本转换成青素，或者是通过语音识别的方法将语音分割成音素，都是基于音素层面实现的语音到可视特征空间的映射。而基于学习的可视语音合成是从语音的另一个层面，即帧层进行的。基于帧层的语音到可视特征空问的映射，是基于大量的语音可视特征参数训练集建立起反映语音特征参数到可视特征参数对应的映射模型的过程。常用的方法包括矢量量化的方法、神经网络的方法和隐马尔可夫模型的方法。 2 3 基于参数模型的口型动画参数模型的方法在合成时只依赖于文本和先验模型，因此关键问题是建立动态语音视位的参数模型和对于模型参数的估计。代表之一是c o h e n t 4 4 1 等人在通过对大量发音录像的观察、跟踪处理，并总结在可视语音合成过程中的经验后，建立的参数化模型。其基本思想是认为每个动态语音视位的某一口型参数由一个基本控制函数与前后两个无声模型的控制函数来决定，整个动态视位的参数变化过程由静态视位参数值及自然无声状态下的参数按这三个控制函数加权形成。每个语音视位参数的基本控制函数随时间按指数衰减，可表示如下：设d 。表示第s 个视位的第p 个1 ：3 型参数的控制函数值，则有 = 口一艮妒| ，i f r 0 ， = 口一l i f t 巩数据点 i ! 兰! 些奎耋! 耋堡兰! ：堡耋圣 c y 南某个随i d l i n g 成，经，映射形成观测空问的数据 = ，) c r ”。般称y 为隐空问，卫为隐数据。流形学习的日标是耍从观测数据玉l 叶1 重构，和咒。t i l 于基于流形学习的降维方法很多，本章在这坐只简要介绍两种应用非常广泛的非线陛降维法，i s o m a p 算法；e i i l l e 算法，并对其两者的降维结果进行了比较和分析。 i s o m a p ( i s o m e t a - i cm a p p i n g ) 算法h ”是2 0 0 0 年，美国斯坦福大学的 t e n e n b a u m 等人提出了种测地线距离映射。i s o m a p 算法的基本思想就是通过保持数据问的测地线距离关系建立高维数据在低维空间的对应。研究者通过对 i s o m a p 算法的分析表明数据之问的欧式距离关系无法表现流形在高维空问中的儿f n 分布结构蚓而划于具有非线性结构的流形，数槲之间的距离小能采用欧式距离来计算，而应采用测地线距离士计算。如幽4 - l 所示为数捌问距离关系的示意图。由于测地线距离无法采用现响的距离训算方法来得到，因此i s o m a p 算法提出：分布在同一邻域内的两之刚的测地线距离可用欧式距离近似训算，分布在不】刊邻域内的两点的测地线距离可以采用图模型的方式，通过计算两点之间的最短路径，将路径上相芙的邻域内点集帕欧式距离依次相加，丌】这些邻域内点集的欧式距离之和束近似地表示两个点之间的测地线距离。陋兰：j 罔4 - l 流形“瑞十卷”上任意两点的欧代距离( 白色实线表示) i 测地线距离( 门色点线表示) 的比较示意图 f i g u r e 4 - 1c o m p a r i s o n o f e u c l i d d i s t a n c e ( s o l i d w h i t e l i n e ) a n d g e o d e s i c d i s t a n c e 门o t t e d w h i t e l i n e ) b e t w e e n t w o p o i n t s o n s w i s s r o l l ”m 加i f o i d 局部线性嵌套算法l l e ( l o t a l l yl i n e a re m b e d d i n g ) 是r o w e i s 在2 0 0 0 年提出的邯1 另外一种流形学习方法。该算法的摹本思想是当数据集在不满足全局线性结构时，高维观测空间与内在低维宅问之问在局部意义下的序可以利川线性窀间来进行近似，使得在低维空问的数据依然保持这种局部意义下的序。即对于高维观测空问巾的每个点可以用周围邻域内的点线性表示，该点在低维空间中的对应点依然可以用相应的点线性表示，这两种表示模式下对应的权值是相同1 1 勺。该方法优点是计算效率较高，缺点是要预先对低维流形空间的维数进行估训，这种估计的主观性对算法是否可以有效的保持数据集的内在属| 生有实质性的影响。模拟数据的实验结果证明，基于流形学习的两种算法降维后得到的低维空间第4 章二维动态视位生成方法的研究比传统的p c a 算法得到的低维卒闸能够更准确的刻画原数据空间的内在结构，进一步来说就是能够使原始数据在低维空间的映射点保持其在原高维空间的距离关系，本文将其称之为保序陛。如图4 2 所不为备种降维算法在模拟数据上的效果比较。第列是非线性的i i 而，第二列是在第一列的连续曲面e 的离敞采样点，第三列是i s o m a p 算法的降维结果，第四列为l l e 算法怕降维结果，筇五列为 p c a 算法的降维结果。图4 之降维方法比较 f i g u r e4 - 2 c o m p a r i s o nb e t w e e n d i m e n s i o n a l i t yr e d u c e da l g o r i t h m s 同时本文实验结果表明在相同误差率的条件下，i s o m a p 的方法和l l e 的方法都可以l 睨得比p c a 更低的数据维数。就1 s o b a p 方法和l l e 方法比较而言，当输入样本唇形的数目少于5 0 0 叫，即输入视频帧数少于5 0 0 帧时，【。比的方法几乎无法刻而原有数据的序关系，如图4 3 右图所示。这是因为l l e 方法在数据点密度较小的地方则失去了流形的性质。全局算法i s o m a p 最大的优点是算法更忠实于流形的整体分布结构，从理论的角度考虑，全局算法比局部算法具有更好的空间描述能力。测地线距离可以更真实的表达数据集的几何分布结构，揭示流形的内在属性，如图4 - 3 冉图所示为使j ui s o u a p 方法得到的低维数姑和原数据基于欧式距离的匹配曲线。渊 # f j 图4 - 3i s o k p 方法取i l l e 方法在保序性方面比较 f i g u r e 4 - 3 c o m p a r i s o nb e t w e e n i s o m a p a n d l 【e 4 32is o m a p 降维方法在充分考虑到了口型数据分布的不确定性以后，本文选用i s o m a p 算法对口北京t 业大学- 丁学硕十学位论文型数据进行降维，i s o m a p 算法通过设定局部邻域值获得局部单元数据点之间的连通性，这种局部的连通性能近似的等价于流形的局部坐标；而在全局意义下，通过寻找各点在图意义下的最短路径获得远点之间的距离，由此得到图模型意义下的距离矩阵。在得到距离矩阵后根据经典的m d s ( m d s ：m u l t i d i m e n s i o n a l s c a l i n g ) 方法来得到降维后的数据集。i s o m a p 算法的具体步骤如下： ( 1 ) 构

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）韵律文本驱动的三维口型动画研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）韵律文本驱动的三维口型动画研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档