(通信与信息系统专业论文)mpeg4兼容的人脸语音动画系统及其在网络通信中的应用.pdf_第1页
(通信与信息系统专业论文)mpeg4兼容的人脸语音动画系统及其在网络通信中的应用.pdf_第2页
(通信与信息系统专业论文)mpeg4兼容的人脸语音动画系统及其在网络通信中的应用.pdf_第3页
(通信与信息系统专业论文)mpeg4兼容的人脸语音动画系统及其在网络通信中的应用.pdf_第4页
(通信与信息系统专业论文)mpeg4兼容的人脸语音动画系统及其在网络通信中的应用.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(通信与信息系统专业论文)mpeg4兼容的人脸语音动画系统及其在网络通信中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

撼要 m p e g - 4 鼹个基于对馨的多媒体压辅标准,允许将场景中的音频、视频对象 ( 自然蕊或台袋蕊) 独立缡鳓。m p e g - 4 巾定义了“入脸对象”这鹱一个特豫戆戳 颥对蒙,通过黢帮定义参数( f d p ) 黎黢露动番参鼗( f a p ) 可强惑蠢a 验溪墅, 势使之产生动嬲慈果。m p e g - 4 麓蓼将a 验动画霸多擞体逶售祭菠在一起,劳虽可 以在低带宽的网络上控制盥拟人脸。 t t s ( t e x tt os p e e c h ,文本语音合成) 俘为m p e g 4 中g l 入的一种有吸g l 力的 禽戏语音缡璐技术,它与入黔动画翦结食憋昊寿广泛裁成擐蓑爱。潮嚣雩,m p e g - 4 为t t s 合成器定义了一个应溺程旁接口,翻霜这个羧弱,t t s 合撒嚣可叹翘人齄 耩鍪疆供音豢茅鞲襁关懿彗寸阉标记倍惑,而鬻索可以转换戚相应的日蘩,这将使褥入 脸动画和合成语音能够很好的结合在一起。 本文是蘩予羧黧实验室融有静骈究:f : 磐,在仔绥考察了人黢动溅龄研究现状之 蘑,确宠了“m p e g 4 兼誊麓太验落啻动疆系统及其在涮终逶薅中黪寝矮”俸为秘 己的研究方彝。在m p e g - 4 拣准魏菠爨下摆久黢凄溺与t 鹳合蕊谤音集成茬一 越,不仅是项崭新的研究 :作,而且它将在虚拟主持人、窄带的网络通信等中有着 搜妊的应用。因此在研究她基础上,本人还开发出了“g r i m a c ev t t s ”帮 “g r i m a c ec h a t ”这嚣令有寂惩潜力瓣联黧系统。 本文将懑绕上述磷究方淘洋细的开震翔下几个身磷筑讨论: 1 、轹灌瓣嚣,对m p e g - 4 标准及其定义秘“入羧对聚”遗 亍奔缁帮理熊: 2 、技术鼹索层面,对蜜舰真实感图像绘制的o p e n g l 技术、阱及采用到的 m i c r o s o f ts p e e c hs d k5 0 串静t t s 引擎避行研究籀实蔑 3 、蘩绞蘩稳屠嚣,对本人疆出麴久黢滔音动薅系统( g r i m a c ev 嚣s ) 鹣禧絮 爨橡、以及适躅予譬带网终下筑霹我遥信系统( c r r i m a c ec h a t ) 敬框絮结构 进行介酾和分析: 4 、舆体冀法层面,其中包含脸部腿肉的运动效果模拟方法、真人照片纹理嫩 辫弱钱化雾法、建立发音蜀型黪露验嚣袭羲孥鼹懿方法、过渡颧筋鬟薅舅 法、运动混合与晦阉发音的羹法、表谤与话啻韵藏叠船貔方法、以及系统 申实璃动强弱型号合成发音鞫步熬方法等; 5 、系统擞现及应用滕谳,将详细介绍原型系统一“g r i m a c ev t t s ”和 “g r i m a c ec h a t ”的开发技术、系统功篷、使瘸方法瑟应霹场滚; 6 、系绫蕊l 谭餐嚣嚣,褥套露入黢动瑟系凌瓣主鼷谔价甓鬃,势蓠次露螽绞 开展客观性畿鲍评测,其中氯撬动戚绘割帧率、露鼗懿运行接畿分折等; 7 、系统遂行要求鞠工千簧精望屠新,将介绍当前原糕系统运行时对较、硬件平 台的要求,同时对g r i m a c e 系统的敝展做出展鬻,劳梅提出参考性建议。 关键字 m p e g - 4 ,天黢筑搂,火验动穗,t r s ,纹漤浚聚,寝拟瀵萤 a b s t r a c t 田e g - 4i sa no b j e c t - h a s e dm u l t i m e d i ac o m p r e s s i o ns t a n d a r d w h i c ha l l o w s 廿1 e e n c o d i n g o fd i f f e r e n ta u d i ov i s u a l o b j e c t s ( n a t u r a l o r s y n t h e t i c ) i n t h es c e n e i n d e p e n d e n t l y f a c eo b j e c t i s a s p e c i a lv i s u a lo b j e c td e f i n e di n e g 4 f a c i a l d e f i n i t i o np a r a m e t e rr f o p ) a n df a c i a la n i m a t i o np a r a m e t e r ( f a p ) a r et h es e t so f p a r a m e t e r st oc a l i b r a t ea n da n i m a t et h ef a c eo b i e c t 呼e g 4e n a b l e si n t e g r a t i o no ff a c e a n i m a t i o nw i t hm u l t i m e d i ac o m m u n i c a t i o n sa n da l l o w st h ef a c ea n i m a t i o no v e rl o wb i t r a t ec o m m u n i c a t i o nc h a n n e l s t t s ( t e x tt os p e e c h ) i so n eo ft h eo r o m i s i n gs y n t h e t i ca u d i ot o o l sp r o v i d e db v m 畔e g _ 4 a n di t si n t e g r a t i o nw i t l lf a c i a la n i m a t i o nw i l l d e f t n i t e l y l c a dt o1 0 t so f a p p l i c a t i o n s m p e g 4d e f i n e sa na p p l i c a t i o np r o 鲤a mi n t e r f a c ef o rt t ss y n t h e s i z e r u s i n gt 1 1 i si n t e r f a c e t h es y n t h e s i z e rc a nb eu s e dt op r o v i d ep h o n e m e sa n dr e l a t e dt i m i n g i n f o r m a t i o nt ot h ef a c em o d e lt h ep h o n e m e sa r ec o n v e r t e di n t oc o r r e s p o n d i n gm o u t h s h a p e se n a b l i n gs i m p l et a l k i n gh e a da p p l i c a t i o n s t a k i n gi n t oa c c o u n to fp r e v i o u se f f o r to fo u r1 a b th a v em a d eas u r v e yo fc u r r e n t r e s e a r c hs t a t u sa b o u tf a c i a la n i m a t i o n a n dt h e nic h o o s eaa 口! e g 一4c o m p a t i b l ef a c i a l a n i m a # o ns y s t e mw f 折乃呵s u p p o r ta n di t sa p p l i c a 6 0 ni nn e n f o r kc o m m u n i c a t i o na sm y r e s e a r c hd i r e c t i o ni n t e g r a t i o no ff a c i a 】a n i m a t i o nw i t hs y n t h e t i cs p e e c hw i l ln o to n l yb ea n e wf i e l df o ro u rr e s e a r c hw o r k b u ta l s oi tw i l ls e r v ea ni m p o r t a n tr o l ei ns u c h a p p l i c a t i o n sa sv i r t u a ln e w s c a s t e ra n dv i n u a lc o m m u n i c a t i o no v e rl o wb a n d w i d t hs oi h a v ea l s od e v e l o p e dt w op r o m i s i n gp r o t o t v p es y s t e m s ,w h i c ha r ec a l l e d “g r i m a c e v t t s ”a n d “g r i m a c ec h a t c o r r e s p o n d i n g l y t h i sp a p e rw i l lf o c u so nt h ef o l l o w i n ga s p e c t s : 1 s t m l d a r d a no v e r v i e wo fn e g 4s t a n d a r da n db a s i ct e c h n o l o g ya b o u tf a c i a l o b j e c to f 巴e g 4a r ep r e s e n t e d 2 t e c h n o l o g ys u p p o r bo p e n g la n dt t se n g i n eo fm i c r o s o f ts p e e c hs d k 50 a r ei n t r o d u c e di nd e t a i l a n ds o m ep r a c t i c ea n de x a m p l e sw i l la l s ob ed i s c u s s e d 3 f r a m e w o r ko fg r i m a c es y s t e m ,t h ef r a m e w o r ko fg r i m a c ev t t s ( p r o t o t y p e a i m i n ga tv i r t u a ln e w s c a s t e r ) a n dt h ef r a m e w o r ko fg r i m a c ec h a t ( p r o t o t y p e a i m i n ga tv i r m a lc o m m u n i c a t i o n la r ep r o p o s e da n de a c hm o d u l ei sd e s c r i b e d 4 a l g o r i t h m si n g r i m a c e s y s t e m , m a n ys p e c i f i ca l g o r i t h m sa d o p t e da n d o p t i m i z e df o rg r i m a c es y s t e ma r ep r e s e n t e da n dd i s c u s s e d 5 i m p l e m e n t a t i o n sa n da p p l i c a t i o n s , t h et o o l su s e di nd e v e l o p i n gg r i m a c e s y s t e ma r ei n t r o d u c e d ,a n df u n c t i o n sa n du s i n gm e t h o d so fg r i m a c es y s t e ma r e d e s c r i b e di nd e t a i l 6 e v a l u a t i o no fg r i m a c es y s t e m ,b o t hs u b j e c t i v ee v a l u a t i o na n do b j e c t i v e e v a l u a t i o no fg r i m a c es y s t e ma r ep r e s e n t e d 7 p l a t f o r mr e q u i r e m e n t sa n df u t u r ew e t kr m l - t i m ep l a t f o f i nr e q u i r e m e n t so f g r i m a c es y r s t e ma r ei n t r o d u c e d t h e nf u t u r ed i r e c t i o n sa n dm ys u g g e s d o no ft h i s p r o t o t y p es y s t e ma r ep r e s e n t e d k e y w o r d s m p e g - 4 ,f a c i a lm o d e l i n g ,f a c i a la n i m a t i o n ,t t s ,t e x t u r em a p p i n g ,v i r t u a lc o m m u n i c a t i o n 浙江大学硕士学位论文m p e g 一4 兼容的人脸语音动厕系统及其在网络通信中的应用 第一章人脸动画的研究状况及本文的研究工作介绍 几十年前,人脸动画曾被一致认为仅是计算机图形学的一个领域,而现在人 脸动画已经吸引了越来越多的关注。 我们可以想见在越来越广泛的领域,动画着的人脸将扮演重要的角色,例如, 新的人机界面方式、互动式的游戏、多媒体的编辑、虚拟会议的体验、电子商务, 等等。 而支撑着人脸动画的图形学技术也开始涉及到更广泛的范围,从关键帧技术 到图像的变形、视频跟踪、几何学与生理学的建模、行为学的动画等。同时,语 音合成与人工智能也开始更好的支持人脸动画的发展。 不论目标是合成出真实的人脸还是幻想中夸张的人脸,可以肯定的是,尽n j 能的表现出动态的具有真实感的入脸、或者是表现出其它生物的追求,极大的促 进了跨学科研究的发展 2 3 。 本章将回顾人脸动画研究的历史、采用的技术和不同的特点,并简单介绍人 脸动画的现状和应用方向,最后在此基础上,确定自己的研究方向,然后讨论该 目标的价值所在和自己完成的工作。 1 人脸动画研究的回顾 人的脸部表情成为科学研究的主题已经一百多年了,计算机辅助的人脸表情 建模、动画也不是新的尝试,事实上,初始的努力可以追溯到大约3 0 年前 2 4 。 随着计算机计算能力的不断提高,人们期望更加富有表现力的、能够发音的人脸 动画能够诞生。有趣的是,现在的大多数技术,仍然借用了不少几年前、或者几 f 一年前研究成果的思想。 最早的基于计算机的人脸表示工作开始于2 0 世纪7 0 年代。1 9 7 1 年c h e m o f f 开始用二维人脸来表示k 维数据。1 9 7 2 年p a r k e 创造出了第一个三维的人脸动 画。1 9 7 3 年g i l l e n s o n 开发了一个交互式的系统,它可以完成装配、编辑由线画 的人脸图像。接着,1 9 7 4 年p a r k e 研制出了一个参数化的三维人脸模型,如图1 所示: 图1p a r k e 的三维线框模型 2 0 世纪8 0 年代日i 期,p l a t t 开发出了第一个基于生理的肌肉控制人脸模型, b r e n n a n 则是提出了人脸漫画的技术。而1 9 8 5 年,动画电影”t o n yd e p e l t r i e ”更是 成了人脸动画发展的个里程碑,因为这是第一次计算机设计的人脸表情语音动 画成为了故事叙述的基本部分。 浙江大学磋l 学位论文 m p e g 一4 兼容的人脸语音动画系统及其在网络通信中的应用 8 0 年代晚期,w a t e r s 提出了新的基于肌肉的人脸模型,m a g n e n a t - h h a l m a n n 和他的同事开发出了抽象的肌肉动作模型,l e w i s 和h i l l 在自动语音同步上则提 出了新的方法。 9 0 年代,我们可以发现人脸动画技术在不断的活跃发展,计算机人脸动画被 采用作为故事讲述的关键元素,就如在电影”t o ys t o r y ”中所看到的,如图2 所示, 而该部成功的并被广泛喜爱的动画影片也获得了”a c a d e m ya w a r d ”。 图2 电影”t o n ys t o r y ” 如果过去的发展趋势可以很好的指明将来的发展,那么,2 l 世纪的前十年将 会是计算机人脸动画发展的又一个令人激动的时期。可以预见,在计算能力不断 增强的驱动下,在更加有效的建模技术和动画技术发展的驱动下,在人类对更多 更好的计算机动画人物不断需求的驱动下,人脸动画的质量和数量必将有人幅度 的提高。 2 人脸动画的研究现状和应用方向 2 1 真实人脸的建模 实际上,人脸动画很大的一个挑战是综合出的人造脸部模型,能够看上去、 动起来,像自己的母亲,或是像某个名人,或是像任何真实的也许也是熟悉的人。 而这个问题的解决,不仅需要计算机图形学,同时还需要其它的许多学科,例如 心理学、人工智能等。 创建一个人脸模型,需要适合于动画的高逼真度的几何模型,而这个几何模 型来自于对某个人的脸部形状和外观特征的精确获取。传统上,这项工作需要大 晕的手工劳动。幸运的是,现在可以采用扫描传感器完成,例如c y b e r w a r e 公司 的产品。进而,脸部的网状结构可以利 j 计算机视觉里的图像分析算法,进行自 适应的调整 2 s ,图3 给出了f 2 5 的研究结果。 浙江大学硕士学位论文m p e g 4 兼容豹人脸语音动画系统及其在网络通信中的应用 图3左上的两幅图分别表示三维的范围图和纹理图 其它的几幅图是人脸模型的动画结果 与 2 5 中方法不同的是,v o l k e rb l a n z 和t h o m a sv e t t e r 采用了一种新的方法 来建立包含纹理信息的三维人脸模型 2 8 1 。此时,三维人脸模型既可以自动的由 一幅或多幅照片产生,也可以直接从一和新颖的用户界面获得。为了解决计算机 辅助建立人脸模型时的两个关键问题,用户将在两个方面获得帮助,第一,通过 结合内部人脸模型计算一对一的对应密度,新的人脸照片或者三维人脸模型可以 被注册;第二,该方法可以调节已经建立的人脸模型的自然度,从而避免脸部外 观的失真。 从许多三维人脸模型构成的样本集出发,通过将人脸样本的形状和纹理变换 到矢量空间的表示,我们可以获得一个可以形变的人脸模型。新的人脸和表情可 以由对原型的线性合成来建立。然后,从人脸样本集的统计分析中获得的针对形 状和纹理的约束,将用来指导手工建模或者是自动的匹配算法。 这样,从单独张照片来重构三维人脸模型,有如下两个主要步骤,如图4 所示: ( 1 ) 用这张照片得到一个三维人脸模型; ( 2 ) 通过对形状和纹理的调整,使该人脸模型自然。 2 d 照片输入 调节器3 d 模型输出 图4 可以形变的人脸模型 2 2 人脸模型基编码和虚拟可视通信 人脸模型基编码和传统的预测编码、变换编码等有着本质的不同,它不把图 像信号作为一个统计模型来考虑,而是作为一个结构模型,需要对图像的内容有 所了解。 可以把模型基图像编解码系统归结为以下几个部分:首先要在编解码双方有 浙江大学硕士学位论文m p e g 一4 兼容的人脸语音动画系统及其在网络通信中的应用 一个有关某些对象的通用的三维结构模型( 如头肩的三维线框模型) ;其次,在 编码方面,通过图像分析,分割对象,获得特定对象的包括色彩、形状和运动等 特征参数,并编码传输给解码端;解码端就可以根据模型和特征参数综合出原始 图像,如图5 。由于仅需对特征参数进行编码传输,对头肩图像序歹0 的编码,其 码率可以做到几k b i t s s 。而图像质量却非常自然,没有传统的基于块的编码方法, 在码率较低时会出现严重的块效应 2 9 ,7 1 1 。 燃编码器出。解码器褊 图5 人脸模型基编解码器框图 虽然 3 0 1 篚j 模型基编解码框图与上述的相类似,但不同点也很明显,此时异 地解码端的目标不是重构出与本地一样的原始视频,而是利用接收到的参数驱动 一个虚拟的三维人脸模型,用计算机图形学的方法产生类似与原始视频的虚拟人 脸动画,它们开发出的可视电话系统如图6 所示: 图6 模型基编码用于虚拟人脸可视通信 2 3 人脸模型辅助视频编码 近来p e t e r e i s e r 等的研究结果表明,当对可视电话等以人的头肩像为主的视 频进行编码传输时,不论是单独使用波形编码还是人脸模型基编码,都不及两者 结合起来进行压缩编码的效果好 3 1 。通过对五段视频序列的试验发现,在相同 的p s n r 情况下,人脸模型辅助视频编码比h 2 6 3 的t m n 1 0 节省了3 5 的码 率,而如果两者在相同的码率情况下编码,前者则会有2 3 d b 的p s n r 增益。 图7 给出了人脸模型辅助视频编码的框图。 浙江大学硕i 学位论文m p e o 4 兼容的人舱语音动画系统及其庄同络通信l j 的应埘 图7 人脸模型辅助视频编码框图 可以看m ,以上编码器就是在通常的混合视频编码的框图上增加厂人脸模型 基的编解码器。,模型基的编解码器与混合视频编解码器并行工作,产生合成出来 的模型帧。这个模型帧和开始重构出的参考帧一同提供给运动补偿模块,对于每 个块来说,视频编码器将决定采用哪种帧来进行运动估计和运动补偿。该编码策 略和通常的单帧预测相比,由于图像中的有些部分丌j 以由模型l 帧很好的近似,所 以能够获得较大的码哞j 节省。 另外,因为这里将模型基编解码器引入了h2 6 3 编解码器,所以要求浯法上 也要相应的扩展,具体可以参见 3 l ,3 3 1 。 2 4 人机交互和语音驱动的卡通人脸动画 尽管人脸建模和动画技术不断发展,但是它却面临着这样一个简单的问题, 那就是随着合成人脸看上去越来越像真人,人们对合成人脸的外观效果、动画效 果与真人效果间存存的偏差越来越敏感,这一切只是因为人们对真人效果是这样 的熟悉,所以这些偏荠一旦出现,即便很小,但电马上会被人们给“挑剔”的认 为是错误。 文献 3 4 1 认为住多数情况下,完全真实的人脸并不一定是晟重要的,而一个 浙江大学硕士学位论文 m p e g 4 兼容的人脸语音动画系统及其在网络通信中的应用 富有吸引力和表情丰富的人脸却相对更有优势。这样非真实的人脸可以表现出更 加夸张的表情,在人脸建模方面也会更加自由。同时,由于非真实的人脸并不是 努力把自己假扮成真实的人脸,所以人们的期望和评价会不同。另外,非真实的 人脸运算复杂度较低,容易实现实时和一些基于网页的应用。 所以,k 、a t e r s 认为人脸模型比较好的应用场景是桌面上的可说话佝人脸, 或者用于人机交互 2 6 1 ,如图8 所示。 图8s m a r t k i o s k 人机交互 文献3 5 介绍了一种新的多媒体人机交互应用。输入的语音将不光用来驱动 卡通人脸动画,并且还可以从对声音信号的分析中获取表情信息,图9 提供了这 个带有表情的语音驱动卡通动画系统的框图。与以往在语音识别领域进行表情分 析不同,该文中采用了训练支持向量机( s v m ) 的方法,针对发音进行几种基 本表情分类。这样,在每个输入发音词汇阶段,把表情看成是这几类基本表情的 叠加。语音驱动卡通动画采用的是实时的唇同步算法,不同于音素到可视音素映 射的方法,它则是把声学特征向量作为系统的输入。 图9 语音驱动卡通表情动画 2 5m p e g 一4 场景编辑工具( a u t h o r i n gt o o l s ) m p e g - 4 引入了对象基表达( o b j e c t b a s e dr e p r e s e n t a t i o n ) 的概念,用来表达 视听对象a v o ( a u d i o v i s u a lo b j e c t s ) ;m p e g 4 扩充了编码的数据类型,由自然 数据对象扩展到计算机生成的合成数据对象,采用合成对象自然对象混合编码 s n h c ( s y n t h e t i c n a t u r a lh y b r i dc o d i n g ) 算法:在实现交互功能和重用对象中引 入了组合、合成和编排等重要概念。 文献 中展示了一个包含了m p e 4 多种视听对象的场景编辑工具,如图 】0 所示。 浙江大学硕士学位论文 m p e g 4 兼容的人脸语音动画系统及其在网络通信中的应用 纹理控制 , 集合工具 - 柱 球 u p d a t es | v i c o t e g l t t e x t ue s 0 b i e c t 嚣i ,触!v i e wd e t a i l s i 国| l 囊z翻曩 ffff 盒子文本背景序列化 的面集 图1 0m p e g 一4 场景编辑器的应用工具箱 对象可以通过点击相应的按钮添加到场景中,并且对象的属性可以通过“对 象细节”进行调节。纹理、视频和声音可以同样的添加给每个对象。我们可以发 现,合成的三维人脸模型也可以添加到场景中,它可以通过在“对象细节”中设 置f a p 文件来驱动。如果我们想播放已经编辑好的场景,只需要按菜单上的 “p l a y ”按钮,该软件就会自动的创建m p e g 一4 和v r m l 支持的场景。图1 1 展 示了一个虚拟播音员的场景。 图1 1 虚拟播音员的场景 浙江大学磺士学位论文m p e g 4 兼容的人脸语音动画系统及其在网络通信中的应用 本文的研究目标和章节安排 3 1 本文的研究目标 人脸模型基的研究在我们实验室已经开展了好几年,从这些已有的研究工作 来看,更多的是集中在人脸模型基编码这个研究方向上,主要的研究内容包括头 部线框模型的建立、图像分析和图像综合这三个部分,其中图像分析中提取特征 参数和运动估计是关键部分。 就模型基编码的研究现状来看,虽然我们在国内处于先进地位,但是与国外 的领先研究相比,仍然存在着不小的差距。例如,人脸特征参数、运动参数提取 时的准确性和鲁棒性不够好,同时实时性上也存在着一定的问题;另外,综合出 的人脸模型自然度不够好,真实感不够强;这些问题的存在,造成从应用层而上 看,仍然显得研究向实际应用转化的潜力不足,没能有很好的原型演示系统出现。 事实上,上述问题一直是模型基编码中的难点问题,而这些难点却是由模型 基本身的编码思想造成的,怎样才能更好的利用模型基编码的思想,让用户获得 码率低、且图像质量好的视频服务,也许p e t e r e i s e r 等关于人脸模型辅助视频编 码的研究成果是一个好的解决方案 3 1 】0 从上节对人脸模型动画的研究现状来看,国际上的研究成果很多,同时不少 研究从结果上、方法上来看都有很强的先进性,而且一些研究成果已经开始运用 于多样的应用场景。 在这种情况下,如何提高我们研究的实用性、竞争性,如何能够切实可能的 完成研究向产品原型的转化,如何借鉴新的技术做出有特色的研究工作,都成为 我们需要考虑的关键问题。 综合考虑到多种因素,本文选择“m p e g - 4 兼容的人脸语音动画系统及其在 网络通信中的应用”作为研究目标。 具体来说,包括如下几个要点; ( 1 ) 整个系统的研发是在与m p e g - 4 标准兼容的要求下进行的; ( 2 ) m p e g 一4 中定义了人脸动画对象,而且m p e g 一4 还包含了t t s ( t e x t t o s p e e c h ) 合成语音,我们希望可以研发出一个t t s 驱动的人脸语音动画系统, 在保证语音与口型同步的同时,并且还能够拥有表情,而该系统将会在人机交互、 电子商务、虚拟主持人、故事讲述、智能服务等方向上有很大的应用。系统设想 如图1 2 所示,图中人物为世界上第一个虚拟主持人- - a n a n o v a 。 图1 2t t s 驱动的人脸语音动画系统 塑垩查兰堡圭兰垡丝苎竺竺! 茎窒塑垒堕至童垫堕墨篓墨苎垄旦堡望焦主堕! ! 旦 ( 3 1 我们希望在上述研究的基础上,结合人脸建模、纹理映射等方法,定制 出个性化的人脸,从而实现一个窄带的可视化网络聊天系统,同时还能拥有合成 语音的支持,这将是一个不错的网络通信体验,它将有潜力发展成为下一代的移 动多媒体短信业务。系统设想如图1 3 所示。 图1 3 窄带下的可视化无线网络聊天系统 r 4 ) 本人将瞄准以上两个应用目标,努力完成与之对应的p c 机版研究原型 系统的研发,从而为该系统向更广泛的应用平台拓展打下基础( 例如,基于w e b 的应用、手持移动设备上的应用等) 。 3 2 本文的章节安排 在以下的章节中,本人将详细的讨论为了实现以上研究目标,所涉及到的背 景知识、所采用到的新技术和本人所做的研究工作、开发工作,最后会对原型系 统的整体性能进行评测,并对其发展方向做出展望,提出参考性的建议。 第一章对人脸模型动画的研究历史进行了回顾,对其研究现状进行了介绍, 并在此基础上,确立了本文的研究目标。 第二章将对m p e g - 4 标准进行简单介绍,并详细讨论m p e g 一4 关于人脸动 画对象的定义。 第三章将介绍利用o p e n g l 实现真实感人脸绘制的方法,并将重点放在系 统中采用到的与o p e n g l 相关的技术,例如动画原理、纹理贴图等。 第四章将介绍t t s 技术,并详细讨论我们采用的m i c r o s o f ts p e e c hs d k 5 0 中包含的t t s ,以及其c o m 接口和调用方法,同时给出一个简单的程序示例。 第五章将介绍人脸语音动画系统的整体结构,并详细的讨论在系统实现过 浙江大学硕士学位论史m , u e g 4 兼容妁几脸语舞动画系统盟其在网络通信中的应用 程l 卜| ,建立发音口型库和脸部表情库的方法;过渡口型帧的产生算法,动作混合 与协同发音的算法;存语音动画上加入表情的方法;以及当人脸语音动画时,保 持口型与发音同步的算法。 第六章将详细介绍本人针对研究目标开发的原型系统,g r i m a c ev t t s 系统 和g r i m a c ec h a t 系统,重点放在框架结构、系统功能、使用方法和应用场景的讨 论上,并介绍本人提出的真人照片纹理贴图的优化算法。 第七章将首先介绍关于人脸语音动画系统的主观评价研究,随后划g r i m a c e 系统的整体性能进行客观的评测,接着介绍g r i m a c e 系统运行时的软、硬件平台 要求,最后将对未米的工作进行展望,并提出参考性的建议。 浙汀大学硕士学位论文m p e g 一4 兼容的人聆语音动画系统及其在网络通信中的应用 第二章m p e g 。4 简介及人脸动画对象的定义 该人脸语音动画系统是充分兼容于m p e g - 4 标准的,也剐是说,所有的研究 工:作是遵从于m p e g 一4 对人脸动画对象的定义,并且后续的许多研发是存 m p e g 一4 标准框架卜- ,借鉴m p e g 一4 定义的工具集( t o o ls ) 进行拓展的。, 所以,本章将先对m p e g 一4 标准的技术特点、心用方向进行简单的介绍,然 后提供详细的m p e g 一4 关j 人脸动画对象定义的背景知识。 1 m p e g 4 技术及其应用 1 1m p e g 4 是m p e g 家族中的一员 数字技术的蓬勃发展和广泛应用使人类社会迈入了“数字时代”。今天,数字 技术产品已止进普通百姓的日常牛活之中。 数字技术就是用数字编码来描述和表达图像、声音等各种媒体信息。其信息 处理的流程是:模拟信息一数字化一压缩编码一存储或传输一解码再现。其中, 压缩编码是一个关键环节。数字化的图像和声音信号数据是非常庞大的,例如一 幅6 4 0 x 4 8 0 像素中等分辨率的彩色图像( 2 4 b i t 像素) 的数据量约为73 7 m b i t 帧, 如果是运动图像,以每秒3 0 帧或者2 5 帧的速度播放时,则视频信号传输速率为 2 2 0 m b i t s ;如果把这种信号存放在6 5 0 m b 的光盘中,一张光盘只能播放2 0 多 秒钊,。,所以,必须对数字化信息进行j 玉缩,用尽可能少的数据来表达信息,节省 传输利存储的开销。 1 9 8 0 年以来,国际标准化组织( i s o ) 、国际电j :委员会( 1 e c ) 和国际电信 联盟( i t u ) 等陆续完成了各种数据压缩标准和建议,如面向静止图像压缩的j p e g 标准,在运动图像力。面用r 视频会议的h 2 6 1 标准、用于可视电话的h 2 6 3 标准、 心于v c d 的m p e g 1 标准、川于r 1 播电视和d v d 的m p e g 。2 标准等。m p e g 是运动图像专家组的的英文首字母缩写。陔专家组成立于1 9 8 8 年,致力于运动 图像及其伴音的压缩编码标准化工作,原先打算开发m p e g 1 、m p e g 一2 、m p e g 3 和m p e g 一4 四个版本,以适用于不同带宽和数字影像质量的要求。 m p e g 一1 于1 9 9 3 年成为国际标准,它是对15 m b i t s 以下数据传输率的数字 存储媒体运动图像及其伴音的压缩编码标准,适用1 ic d - - r o m 、v c d 、c d - - i ( 交互式c d ) 等。它可对s i t ( 标准交换格式) 分辨率( n t s c 制式为3 5 2 x 2 4 0 ; p a l 制式为3 5 2 2 8 8 ) 的图像进行压缩,传输速率为1 5 m b i t s ,每秒播放3 0 帧, 具有c d 音质,图像质量基本与v h s 家刷录像机相当。m p e g 一1 也被用于数字 通信网络上的视频传输,如基于a d s l ( 非对称数字用户线路) 的视频点播 ( v o d ) 、远程教育等。 m p e g - 2j :1 9 9 5 年成为国际标准,其目标是达到高级j 一业标准的图像质量 以及更高的传输率。m p e g 一2 所能提供的传输率在3 1 0 m b i t s 之间,在n t s c 制式下的分辨率可达7 2 0 4 8 6 ,可提供广播级的图像质量和c d 级的音质,适用 二数字电视广播( d v b ) 、t - i d t v 和d v d 的运动图像及其伴音的压缩编码。目 前,m p e g 一2 已得到广泛应用,如美国、欧洲、日本在d v d 和数字电视广播方 浙江大学硕士学位论文m p e g 4 兼容的人脸语音动面系统及其在网络通信巾的应用 面都采用m p e g 2 压缩技术。 m p e g 3 最初是为h d t v 开发的编码利压缩标准,但由于m p e g 2 的出色 性能表现,已能适用于h d t v ,使得m p e g - 3 还没出世就被抛弃了。 m p e g 4f1 9 9 9 年初正式成为困际标准。m p e g - 4 是一个适用j :低传输速 率应用的方案。与m p e g l 和m p e g 一2 相比,m p e g 一4 更加注重多媒体系统的交 互性和灵活性。 1 9 9 8 年1 0 月,m p e g 启动了一个新的工作项目,即多媒体内容描述界面, 简称为m p e g 7 。它的目标是扩展现有系统有限的查询能力,使其包括更多的信 息形式。m p e g 一7 将确立各种类型的多媒体信息标准的捕述方法。 与m p e g 一1 、m p e g 2 不同,m p e g - 4 并不仅仅是着眼于定义不同码流卜的 压缩编码标准,而是更多地强调多媒体通信的交互性利灵活性,以及多3 2 q 1 领域 的融合。m p e g 4 的目标定义大致来源于两方面:一个是极低比特率下的多媒体 通信,另一个是多工业多媒体通信的融合,主要有通信业、计算机业、消费电子 业和娱乐影视业。关f 多1 2 , 1 k 的融合,其先驱要数始j :1 9 9 4 年的d a v i c ( d i g i t a l a u d i o v i s u a lc o u n c i l ) ,它致力于广播、通信利计算机界的中立的多媒体解决方 案。然而,由于产业界利益的冲突,终于使d a v i c 晌计划以失败告终。m p e g 一4 就是试刚达到以上两个丰要目标而制定的多媒体通信标准。凶而,一方皿, m p e g 一4 要求有高效的压缩编码方法,另一方而,m p e g 一4 要求有独立于例络的 基于视频音频对象( a v 对象) 的交互性。 1 2m p e g 一4 的内容和特点 m p e g 4 将提供系列技术以满足视听内容的提供者、网络服务和最终用户 的要求。对于视听内容的提供者,m p e g 一4 将使得他们有更大的灵活性和更丰富 的内容,同时,这些视听内容易j 二重复利用,并且易于管理,便于保护知识产权。 对于i 叫络服务商,m p e g 一4 将使多媒体信息在不同网络中提供透明的传输。 m p e g 一4 的多媒体信息将独立于网络特性并能针对不同网络特性进行优化传输。 列于最终用户,m p e g 一4 将支持更多的功能,尤其是支持对a v 对象的交互作用。 为了达到这些目标,m p e g 一4 采用如下方法: ( 1 ) 采川“a v 对象”a v o s ( a u d i o v i s u a lo b j e c t s ) 来表示听觉、视觉或者 视听组合内容。“a v 对象”的基本单位是“原始a v 对象”,它们可以是二维背景、 一个说话的人像( 没有背景) 或者与这人相关的说话音等等。可见在m p e g 一4 巾,可交匾的“a v 对象”一改过去图像帧或音频帧的结构,加入了更大的灵活 性利交互性。这是m p e g 一4 的主要特征一基于内容的编码。 ( 2 ) 允许组合已有的a v 对象以牛成复合a v 对象,并由此生成视听场景( a v 场景) 。在m p e g - 4 中,一个场景已个冉是一帧帧的视频、音频序列组成的,而 是由许多“a v 对象”按照一定的坐标和层次组织起来的。m p e g 一4 采用一种叫 做合成一自然混合编码s n h c ( s y n t h e t i c n a t u r a lh y b r i dc o d i n g ) 的方法来组织这 些“a v 对象”,s n h c 的许多观念实际上来源于虚拟现实建模语言v r m l 。 ( 3 ) 允许剥“a v 对象”的数据灵活地多跆合成与同步,以便选择合适的网 络来传输这些“a v 刑象”数据。企m p e g - 4 中,一个a v 对象川一个或多个基 本流来表达。这些流还带有一些有关传输服务质吊q o s 的参数( 如最大码流率、 比特误码率等等) 和一些其它参数,如流类型信息和流同步信息。,- - f j 殳而言,我 们将这些多路合成和同步的a v 对象数据流分成四层:基本流层( e l e m e n t a r y 浙江大学硕士学位论文 m p e g 4 兼容的人脸语音动画系统及其在网络通信中的应用 s t r e a ml a y e r ) 、访问单元层( a c c e s su n i tl a y e r ) 、灵活多路合成层( f l e x i b l e m u l t i p l e x i n gl a y e r ) 和传输层( t r a n s p o r tm u l t i p l e x i n gl a y e r ) 。其中,前两层土 要是针对a v 对象的l 容而分的层,后两层主要是针对传输而分的层。层次的流 结构,不仅使a v 内容表达组织方便灵活,而且使a v 对象流独立于网络而传输 方便。 ( 4 1 允许用户在接收端牛成的a v 场景中与a v 对象进行交互操作。在接收 端,m p e g 一4 允许用户进行如下的操作,如改变场景的视角来欣赏a v 场景,将 a v 场景中的a v 对象拖到不同的地方,通过点击( c l i c k ) 一个具体的a v 对象 米触发系列事件,选择不同的语种等等。当然,这些场景的交互性取决于a v 场景设计者,而i v l p e g 4 为这种设计提供了可能。 f 5 1 支持a v 对象的知识产权的标识与保护。由于m p e g 4 的语法,支持广 泛的a v 对象和a v 对象的编辑组合,闭此,区分小同a v 对象、a v 场景的知识 产权应当在m p e g 一4 的语法中得到体现。 1 3m p e g 4 的主要技术 可见,m p e g 一4 是一个庞大的有关交互多媒体编码与通信的标准,目前已出 台的委员会草案c d ,多达上千页。存小节中,我们重点概述了a v 划象的编码 技术。 夺多媒体传送集成框架d m i f ( d e l i v e r ym u l t i m e d i ai n t e g r a t i o nf r a m e w o r k ) d m i f 卜要解决交互网络中、广播环境下以及磁糯中多媒体应川的操作问题, 通过传输多路合成比特信息,建立客户端和服务器端的握手和传输。与过去不同 的是,由于m p e g 一4 码流中,包括许多的a v 刘象,般而言,这些a v 对象都 有各自的缓冲器,而不仅仅是视频缓冲器和音频缓冲器。 夺语法描述 m p e g 一4 定义了一个句法描述语言来描述a v 对象比特流表示和场景捕述信 息。这个句法描述语言是对c + + 的扩展,不仪易j :表达其a v 对象特性,而且也 易于软件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论