(计算机软件与理论专业论文)文本驱动的可视语音合成技术研究.pdf_第1页
(计算机软件与理论专业论文)文本驱动的可视语音合成技术研究.pdf_第2页
(计算机软件与理论专业论文)文本驱动的可视语音合成技术研究.pdf_第3页
(计算机软件与理论专业论文)文本驱动的可视语音合成技术研究.pdf_第4页
(计算机软件与理论专业论文)文本驱动的可视语音合成技术研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(计算机软件与理论专业论文)文本驱动的可视语音合成技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

c l a s s i f i e di n d e x : u d c : ad i s s e r t a t i o nf o rt h ed e g r e eo fm e n g r e s e a r c ho nt e x t d r i v e nv i s u a ls p e e c h s y n t h e s i st e c h n o l o g y c a n d i d a t e :l i ub o s u p e r v i s o r :p r o f e s s o r z h a n gj i n g a c a d e m i cd e g r e ea p p l i e df o r :m a s t e ro fe n g i n e e r i n g s p e c i a l t y :c o m p u t e rs o f t w a r ea n dt h e o r y d a t eo fs u b m i s s i o n :j a n u a r y ,2 0 0 9 d a t eo fo r a le x a m i n a t i o n :m a r c h ,2 010 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均己在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) : 交) 弗 日期:y 矽年易月心日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学i 涉密学位论文待解密后适用本声明。 本论文( 0 在授予学位后即可口在授予学位1 2 个月后 口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :莎1 $导师( 签字) :影蒲 j 1 日期: ) d d 年易月旷日- , 矽a 年弓月堰 哈尔滨工程大学硕七学位论文 摘要 近年来随着计算机图形学及多媒体技术的飞速发展,具有高度真实感的 可视语音动画己成为计算机领域的研究热点,它在聋哑人教学、电子商务、 影视特效、人机接口、医学手术等方面都有着广泛的应用。 本文重点研究了文本驱动的可视语音合成技术,旨在对输入的文本信息 进行特征分析,从中提取出语音、表情以及时间等控制信息,通过改进的三 维人脸模型模拟出真实自然的语音人脸同步动画。 首先,在对人脸建模方法进行深入分析的基础上改进特定人脸模型,进 而减少网格点和可编辑面数量,以降低运算复杂度缓解系统压力。其次,提 出运用网格模型对人脸重点部位的肌肉进行抽象化的方法。该方法借鉴人脸 生理组织结构的相关知识,总结出说话过程中面部肌肉群的运动规律,用以 克服传统方法中网格模型形变僵硬、网格顶点不易控制的缺点。此外,针对 输入文本信息的多种特征进行研究,提出嵌入表情标签的方法为后续合成人 脸动面提供表情和时间等控制参数。并依据汉语普通话发音规律估算出连续 语流中每个字的发音时长,以此做为可视语音人脸动画的同步控制条件。最 后,分析汉语中元音与辅音发音口型之间的相互影响关系,对其进行等级划 分。改进汉语协同发音模型,再辅助以表情口型帧融合过渡处理、人脸动画 等技术,实现同步的语音人脸动画。 关键词:三维人脸建模;文本分析;协同发音;人脸动画 哈尔滨工程大学硕士学位论文 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o f c o m p u t e rg r a p h i c s a n dm u l t i m e d i a t e c h n o l o g yi nt h ep a s tf e wy e a r s ,v i s u a ls p e e c hc o m p u t e ra n i m a t i o no fh i g h l y r e a l i s t i ch a sb e c o m ear e s e a r c hh o t s p o ti nc o m p u t e rs c i e n c ef i e l d ,w h i c hi sw i d e l y u s e di nd e a fe d u c a t i o n ,e l e c t r o n i ca f f a i r s ,m o v i es t u n t ,h u m a n c o m p u t e ri n t e r f a c e , m e d i c a ls u r g e r ya n do t h e ra s p e c t s t h i st h e s i sf o c u so nt h e s t u d yo ft e x t d r i v e nv i s u a ls p e e c hs y n t h e s i s t e c h n o l o g y ,w i t ht h ep u r p o s eo fa n a l y z i n gt h ec h a r a c t e r i s t i co ft h ei n p u t t i n gt e x t i n f o r m a t i o n ,e x t r a c t i n go u to fv o i c e ,f a c i a le x p r e s s i o n sa n dt i m i n gc o n t r o l i n f o r m a t i o n ar e a ls e n s eo fn a t u r a l n e s ss p e e c hs y n c h r o n i z e df a c i a la n i m a t i o n w i l lb es i m u l a t e db ym a k i n gu s eo ft h ei m p r o v e d3 dh u m a nf a c em o d e l f i r s t l y , d e e pa n a l y s i so ft h ee x i s t i n gm e t h o d so f3 df a c em o d e l i n gh a si m p r o v e dt h e s p e c i a l i z e df a c i a lm o d e lt or e d u c eg r a d ep o i n t sa n dt h en u m b e ro fe d i t a b lem e s h , t h e r e b yd e c r e a s i n gt h ec o m p u t a t i o n a lc o m p l e x i t ya n dt h ea l l e v i a t i n gt h es y s t e m p r e s s u r e s e c o n d l y ,b ye m p h a t i c a l l ya n a l y z i n gp h y s i o l o g i c a lf e a t u r e so fh u m a n f a c e s ,s u m m a r i z et h es p e e c hp r o c e s sf a c i a lm u s c l e s ,a n dp r o p o s em u s c l e a b s t r a c t i o nm e t h o d s t h i sm e t h o di st os i m u l a t et h ek e yp a r t so ft h ef a c et h r o u g h g r i dm o d e l ,i no r d e rt oc o n q u e rt h ed e f e c t so f3 dh u m a nf a c em o d e ld e f o r m a t i o n a n dm e s hv e r t i c e sb e y o n do u rc o n t r o lw e a k n e s si nt h ee x i s t i n gm e t h o d s t h i r d l y , a c c o r d i n gt ot h ec h a r a c t e r i s t i c so ft h ei n p u t t i n gt e x ti n f o r m a t i o nr e s e a r c h ,p u t f o r w a r dam e t h o do fe m b e d d i n ge x p r e s s i o nt a g st op r o v i d ee x p r e s s i o n sa n dt i m e i n f o r m a t i o nf o rs u b s e q u e n ts y n t h e s i so ff a c i a la n i m a t i o n i na d d i t i o n ,a c c o r d i n gt o m a n d a r i np r o n u n c i a t i o nr u l e sf o re s t i m a t i o no f e a c hw o r di nt h ef l o wo fl a n g u a g e l o n gp r o n u n c i a t i o n ,a ss y n c h r o n o u sc o n t r o lc o n d i t i o no fv i s u a ls p e e c ha n i m a t i o n m o r e o v e r ,a n a l y z et h ed e g r e eo fm u t u a li n f l u e n c eo fv o w e la n dc o n s o n a n t c h a n g e si nm o u t hs h a p ei nac o n t i n u o u ss p e e c hf l o w ,t h e ng r a d et h e m a n dt o i m p r o v et h ec h i n e s ep r o n u n c i a t i o nm o d e l ,s u p p o r t e db yi n t e r f r a m ei n t e g r a t i o no f t r a n s i t i o nt r e a t m e n t ,s y n t h e s i z es p e e c hs y n c h r o n i z e df a c i a la n i m a t i o n r e a l i z et h e t e x t - d r i v e nv i s u a ls p e e c hs y n t h e s i ss y s t e m i nt h el a s tp l a c e ,t h r o u g ht h er e l a t e d e x p e r i m e n t so nt h ef a c e e m b o u c h u r ef r a m ef u s i o nt r a n s i t i o nh a n d l e ,r e a l i z eo ft h e v i s u a ls p e e c ht e x td r i v e r sf a c ea n i m a t i o n e x p e r i m e n t sh a v ep r o v e dt h a tt h i s , 、o 哈尔滨工程大学硕七学位论文 m o d e l ,w i t hh i g hp r a c t i c a lv a l u e ,c a ns i m u l a t et h ep r o c e s so ff a c ee x p r e s s i o n c h a n g i n gt r u l ya n dn a t u r a l l y k e yw o r d s :3 df a c i a lm o d e l i n g ;t e x ta n a l y s i s ;c o a r t i c u l a t i o n ;f a c i a la n i m a t i o n k , l k 哈尔滨工程大学硕+ 学位论文 目录 第1 章绪论1 1 1 论文背景及研究意义1 1 2 研究现状1 1 2 1 国内外研究现状1 1 2 2 存在问题3 1 3 可视语音的应用3 1 4 本文的主要工作和研究内容4 1 5 论文的结构安排5 第2 章可视语音合成技术6 2 1 可视语音合成方法一6 2 1 1 基于参数控制的方法矗7 2 1 2 基于数据驱动的方法8 2 2m p e g - 4 人脸动画规范8 2 2 1 人脸定义参数f d p 一1 0 2 2 2 人脸动画参数f a p 一lo 2 2 3 人脸动画参数单元f a p u 1 1 2 3 系统结构设计1 2 2 3 1 功能设计”1 2 2 3 2 开发平台”13 2 4 本章小结1 4 第3 章人脸模型的建立1 5 3 1 标准人脸建模方法o 1 5 3 1 1 基于参数的模型( p a r a m e t e r i z e dm o d e l ) 1 5 3 1 2 基于物理形变的模型( p h y s i c s b a s e dm o d e l ) 1 6 k 哈尔滨工程大学硕士学位论文 3 2 特定人脸建模方法18 3 2 1 基于三维散乱点数据的建模方法”1 9 3 2 2 基于图像的人脸建模方法“1 9 3 3 1 三维人脸模型的建立一2 0 3 3 2 特定人脸模型的改进”2 1 3 3 3 实验结果与分析“2 3 3 4 人脸特征点的选取2 6 3 5 脸部模型的肌肉抽象化方法2 9 3 5 1 脸部生理结构“2 9 3 5 2 嘴部网格模型肌肉化一3l 3 5 3 基于抽象肌肉的网格变形法”3 2 3 6 本章小结3 6 第4 章输入文本分析3 7 4 1 文本分析( t e x ta n a l y s i s ) _ 一3 7 4 2 基本拼音口型库3 8 4 3 汉字拼音映射4 0 4 4 汉字发音时长计算4 2 4 5 表情处理4 3 4 5 1 表情标签( e x p r e s s i o nt a g ) 4 3 4 5 2 可视帧间过渡处理”4 4 4 6 实验结果与分析4 6 4 7 本章小结4 8 第5 章协同发音的研究4 9 5 1 协同发音处理4 9 5 1 1 汉语协同发音背景4 9 5 1 2 改进的协同发音模型4 9 5 1 3 双音子及三音子一5 0 、 ,- 哈尔滨工程大学硕士学位论文 5 1 4 音子与其对应口型之间的相互影响关系“5 1 5 2 合成语音过渡口型5 4 5 3 可视语音动画合成5 5 5 3 1 人脸动画原理”5 5 5 3 2 可视语音与人脸动画同步的实现一5 6 5 4 实验结果与分析5 7 5 5 本章小结5 9 结论6 0 参考文献。6 1 攻读硕士学位期间发表的论文和取得的科研成果6 5 致谢6 6 哈尔滨丁稃大学硕士学位论文 第1 章绪论 1 1 论文背景及研究意义 生活中人与人的交流是多模式的,网络时代的到来,拉近了人与人之间 的距离,但这种交流还仅限于声音。进入二十世纪九十年代以来,随着计算 机图形学的高速发展,可视语音技术逐渐应用到生活中的各个领域,例如影 视制作、电子商务、聋哑人教学、电视电话会议等。在周围噪声较大或谈话 对方有听力障碍时,若能使用可视语音技术把语音信息声情并茂的传达给谈 话双方,则能在很大程度上加深人们对谈话内容的理解。研究表明,在较差 的交流环境中同时给出语音和表情信息,则信噪比大约可提高1 0 d b t “。因此, 可视语音技术应运而生。它通过三维虚拟人实时的将语音和表情信息传达给 双方,不但增加了交谈的趣味性,也改善了人机交互界面。人脸表情变化丰 富计算机很难精确模拟,而且语音与人脸动画的同步也较难控制,这也为可 视语音研究领域提出了更大的挑战。 随着计算机多媒体技术的迅速发展,语音与人脸动画的融合技术也受到 越来越多研究者的关注,对可视语音( v i s u a ls p e e c h ) 的研究正是这样一种综 合考虑语音和发音时各可视部分器官动作的多媒体技术。但现有的g u i 专业 性太强,跟现实中的人与入之间的交互方式大不相同。所以,更富有人性化 的可视语音技术逐渐成为研究热点,无论考虑到其巨大的应用潜力,还是其 在计算机图形学和相关领域内的科研价值垃,都有着深入研究的意义。 1 2 研究现状 k 1 2 1 国内外研究现状 白 近几年来,对可视语音的研究越来越受到人们的重视,己成为多媒体和 人机交互技术领域相当活跃的研究方向。由于在人们交流过程中,脸部丰富 的表情变化也是传递信息的另一个重要途径,因此,建立真实感强的人脸模 型一直是无数研究者追求的目标。世界上许多著名的研究机构都设有专门的 人脸模型研究组。如微软研究院、加拿大多伦多大学、瑞士联邦技术学院计 算机图形学实验室等。在国际学术界影响较大a c ms i g g r a p h 会议、p a m i 哈尔滨_ t 程大学硕士学位论文 期刊等机构,每年也都有相当数量的可视语音相关文章发表函。 从2 0 世纪7 0 年代,f p a r k e 合成了世界上第一个参数化人脸模型后,相 继又有很多研究机构加入到了逼真人脸三维模型的研究中。美国m i t 的生 物与计算学习中心、英国剑桥大学、瑞士日内瓦大学、日本a t r 等机构都做 了许多代表性的工作,。此外,也有一些公司开始将其应用于产业化。如 r e d t e d 公司开发的可用语音、文本甚至音乐控制的人脸模型;s y l v i e 公司实 现了v e r b o t ( v e r b a l l ye n h a n c e ds o f t w a r er o b o t ) ,这一模型能够实现三维智能 人物与人的交流;l i p s y n 公司甚至提供了一种能够进行语音文本驱动的卡通 动画开发的工具包:c r a z y t a l k e r 公司以及f a c e 2 f a c e 动画公司也开发了相应的 人脸动画制作工具,其研究结果将实现带有表情生成能力的说话人头像系统 【5 】o 随着计算机运算速度的加快以及图形图像处理质量的提高,人脸表情动 画技术的研究取得了丰富的成果。2 0 0 1 年,世界上诞生了第一个虚拟主持人 阿娜诺娃( a n a n o v a ) 。由英国报业联合通讯社推出。随后中国也相继推出 了虚拟歌手阿拉娜( a l a n a ) 。美国推出了薇薇安州( v i v i a n ) ,引起了观 众的极大兴趣。 在国内也有一些研究组开展了可视化语音方面的研究工作,起步较晚但 发展速度很快。如中国微软亚洲研究院的视觉计算组、中科院自动化所模式 识别实验室、浙江大学、中国科学技术大学、哈尔滨工业大学等。其中浙江 大学在建模、计算机动画方面取得了较大成功;中科院计算机研究所进行的 人脸表情分析与人脸识别取得了重大进展。 清华大学和i n t e l 公司系统公司联合建立了大规模汉语普通话双模语音 库,录制了自然场景下人讲话的音频视频数据,使面向残疾人的教学系统更 具有真实感和亲和力【7 】。 哈尔滨工业大学计算机系己经成功的解决了人的高级行为中特定人 脸图像的合成、表情的合成和唇动的合成等技术问题,并正在深入研究 人说话时头势和手势动作,话音和语调的向步等。 由我国科研人员自主研发的“语音和文本联合驱动的卡通人脸动画 生成”技术,融合了多种先进电子计算技术,弥补了以往单一输入方式的 不足,突破了以往技术的局限,生成了良好的人脸动画效果。 2 t 哈尔滨工程大学硕士学何论文 1 2 2 存在问题 纵观国内外的相关研究不难发现,目前在可视语音方面已经取得了 一定的成果,但仍存在很多问题。 首先,研究人员对人脸模型结构的设计过于复杂难以控制,一般的 三维人脸模型就有上千个控制点,对计算机的运算速度和存储能力都是 巨大的挑战;其次,人脸网格动画大都是通过控制有限数量的特征点, 进而带动整体模型产生形变,但形成的人脸动画运动单一、表情僵硬不 自然,很难表达出说话者的真实表情变化;最后,人们在连续说话中, 尤其是汉语普通话的口型变化常受到协同发音的影响,单个字的口型往 往受其之前、之后字发音的影响。因此,在可视语音合成技术中处理好 协同发音问题至关重要。 可见,自主研究与开发一个模型简单、易于操作、真实感强的可视 语音合成系统势在必行。 1 3 可视语音的应用 可视语音是集文字、语音、视频于一体的多媒体交流方法,使得远隔万 里的人们像面对面交流一样方便快捷,增进了人们之前的感情。另外可视语 音在许多其它领域中也有着广泛的应用价值。 ( 1 ) 聋哑人教学 聋哑人由于自身的交流障碍,在与人交流时常常需要通过口型和手势了 解对方的意图。例如在聋哑学校的教学过程中,可以借助合成的虚拟老师对 学生采用一对一教学模式,无论何时何地都可以自主学习、重复学习,不但 减轻了教师的工作量和教学压力,更增强了聋哑学生学习的积极性和主动性。 ( 2 ) 虚拟主持人 虚拟电视网络节目主持人在国外已经走上了荧幕。2 0 0 1 年,世界上诞生 了第一个虚拟主持人阿娜诺娃( a n a n o v a ) ,由英国报业联合通讯社推出。 随后中国也相继推出了虚拟歌手阿拉娜( a l a n a ) ,电影节目主持人小龙, 美国推出了薇薇安( v i v i a n ) ,都引起了广大观众的极大兴趣。 ( 3 ) 网络销售员 现今电子经济迅速发展,越来越多的人热衷于网上购物,淘宝、易趣也 成了许多年轻人经常光顾的地方。如果网店能配有网络销售员,对顾客感兴 3 哈尔滨工程大学硕士学位论文 趣的商品做功能、优势和性价比等物品信息介绍,不但使人有如身临真实商 场的感觉还可以大大减轻店主工作量,提高销售量和访问量。 ( 4 ) 通信领域 视觉语音在通信领域中主要应用于远程会议和电视电话两方面。它通过 传递运动参数数据而不是整个图像,减少大量的传输数据。为客户提供高质 量的信息服务。 1 4 本文的主要工作和研究内容 通过对国内外可视语音合成技术的深入研究,以及阅读相关文献,本文 欲实现一个便于控制、真实感和交互性强的可视语音合成系统。可通过 用户输入文本驱动三维人脸模型运动,实现同步的语音人脸动画。本文 的主要研究工作包括以下几方面: ( 1 ) 可视语音合成系统结构设计 对文本驱动的可视语音合成系统进行总体的规划设计,提出系统的开发 思想和设计原则。 ( 2 ) 特定人脸模型的建立 通过对三维特定人脸模型的改进,并辅以三维建模软件和图形图像处理 技术,建立本文需要的具有个性特征的三维人脸模型,为后续研究做准备。 ( 3 ) 抽象肌肉化人脸模型 提出对人脸重点部位肌肉的网格模型进行肌肉抽象化模拟的方法。其中 主要包括唇区、眼区和眉区周围肌肉的抽象化,重点研究分析唇区肌肉模型 的运动规律。 ( 4 ) 输入文本分析 对输入的文本信息进行分析,提出通过嵌入表情标签的方法携带说话者 的表情和时间信息。根据汉语拼音发音规律对拼音基本口型进行分类,建立 可视音子口型库,并通过程序设计的方法对输入文本进行口型帧序列映射。 此外,使用t t s 引擎对输入文本进行文语转换,为最后人脸动画合成提供 语音支持。 ( 5 ) 同步语音人脸动画 综合分析汉语普通话发音特点,根据连续语流中元音、辅音口型间相互 影响程度的不同对其按等级划分,在此基础上改进汉语协同发音模型。另外, 估算连续语流中每个字的发音时长做为语音人脸动画的同步控制条件,从而 4 哈尔滨t 程大学硕士学位论文 实现文本驱动的町视语音合成系统。 1 5 论文的结构安排 第1 章是绪论部分,从可视语音背景及应用领域出发,系统阐述可视语 音的使用价值、发展前景及国内外相关的研究现状,并给出本文的主要工作 内容及章节结构。 第2 章综合研究人脸语音动画方法,分析m p e g - 4 国际标准中关于人脸 动画规范的相关内容,为下一步实现人脸动画做准备。分析并阐述本文的组 织结构和开发平台。 第3 章改进三维特定人脸模型,提出对人脸重点部位的肌肉进行网格抽 象化模拟的方法,并根据实际需要通过程序设计的方法选择本文需要的脸部 特征点,为后续研究内容的展开作准备。 第4 章针对用户输入文本进行研究,提出在文本中嵌入表情标签的方法, 为后续合成人脸动画提供表情和时间信息。并给出连续说话过程中每个字发 音时长的估算方法,作为合成语音人脸动画的同步控制条件。 第5 章在对汉语普通话发音规律进行研究分析的基础上,改进汉语发音 模型用以解决连续说话过程中的协同发音问题。采用插值函数的方法对表情 口型帧进行融合过渡处理。综合前几章工作成果,合成同步的可视语音人脸 动画,并分析总结实验结果。 结论部分:对全篇论文进行总结,概括论文的研究成果和创新之处,指 出仍存在的问题及研究方向。 5 哈尔滨t 程大学硕十学位论文 第2 章可视语音合成技术 可视语音越来越多的应用到生活中的各个领域,如聋哑人教学、电子商 务、影视与远程会议等。为了后续内容的展开,本章在综合分析可视语音合 成方法的基础上,重点对m p e g 4 人脸动画的相关技术进行研究,包括对三 维人脸定义参数、动画参数和脸部动画的分析;并阐述了本文的系统结构设 计和开发平台。 2 1 可视语音合成方法 目前,国内外可视语音合成方法( t e x tt ov i s u a ls p e e c h ,t t v s ) 主要有两 类:一类是基于参数控制的方法,它通过定义少量的构造参数、表情参数来 控制特定的人脸模型,从而生成人脸动画。另一类是基于数据驱动的方法, 它使用采集的视频图像直接合成人脸模型,结合语音识别、图像处理等技术 合成人脸动画,如图2 1 所示。 图2 1 可视语音合成方法 6 l q 哈尔滨t 程大学硕+ 学位论文 2 1 1 基于参数控制的方法 基于参数控制的方法又可分为基于几何模型的方法和基于解剖结构模型 的方法【1 0 】。主要包括以下几个步骤: 1 ) 设计一个基于网格的人脸模型。为了更好的表现出人脸的几何细节, 良好的拓扑结构是必须的,但会增加模型计算的复杂度。 2 ) 模型匹配,即将特定人脸图象匹配到先前建立的通用模型上。最初是 在脸部放置一些标记物,通过从多个角度进行拍摄以得到这些点的三维坐标, 从而构建整个人脸模型。l e e 等人用激光扫描仪对图片进行扫描,对其中的 人脸特征数据进行分析提取,并以此为基础重建人脸模型。但扫描仪价格昂 贵成本过高,因此这种方法并没有得到广泛的应用【】。随后又有人提出了使 用两张普通的正交照片,再利用特征检测技术,重建人脸模型。但此方法的 鲁棒性和自动化程序较难控制,而且照片携带的三维信息有限。考虑到从多 方位、多角度体现脸部特征,基于视频图像的建模方法引发了另个研究热 点,它实现的基础是主动形状模型( a s m ) ,相对应于a c m t 2 1 。 3 ) 考虑到驱动方式的不同,也可以根据要表达的脸部表情,来确定需要 移动哪些特征点,以及这些点的位移:因此,p a r k e 又提出了参数化的模型, 他将眼睛的眨动、上下嘴唇的距离和说话口型等进行参数化设定用以控制人 脸动画1 1 3 。但这些参数大多为宏观参数,在连续说话过程中无法实现多种表 情行为的叠加。另一个著名的算法是w a t e r s 提出的肌肉向量模型,他将人体 生理学原理应用其中,使每束肌肉都有一个限定的有效控制范围,用两个特 定的参数对肌肉进行定义【1 4 】。尽管后来w a t e r s 又尝试对皮肤下的弹性组织进 行建模,并取得了巨大的成功,但建模过程中还存在许多不足。为此,l e e 等又提出了以四层组织模型为基础的动态皮肤和肌肉模型,用数学方程描述 层间各连接点的相互作用关系,而各连接点的运动轨迹通过解动态力学方程 组来获得,也可以使用简单的数值仿真方法来求解这组方程。m a g n e n a t 等人 建立的抽象肌肉模型行为( a m a ) 过程,是介于参数控制和肌肉控制之间的, a m a 过程类似于f a c s 系统里的a u ,但它们彼此间并不独立,需要人为指 令的干预【1 5 】。 总之,参数化的人脸动画方法,优点是能够方便的模拟出人脸动画,应 用较为广泛;缺点是合成的人脸动画真实感和自然度较差,而且控制参数有 限,不能完整精确的表达脸部复杂的表情变化。 7 哈尔滨t 程大学硕七学位论文 2 1 2 基于数据驱动的方法 基于数据驱动的方法又可分为基于图像序列拼接的方法、基于关键帧图 像的方法、基于人脸组件拼接的方法,它是通过获得的数据直接驱动模型运 动进而形成人脸动画p c 。基于图像序列拼接的方法是对小段图像序列进行重 新排列组合并生成新的图像序列的过程,它类似于对声音波形的剪辑拼接。 基于关键帧图像的方法是根据发音特点定义出基本的静态视位,而1 6 个静态 视位又合成一个关键音位图像,利用m o r p h i n g 技术和光流向量生成中音过渡 帧,最终生成人脸动画。基于人脸组件拼接的方法是将人脸五官划分为几个 基本部件,合成的动画序列帧即是从库中选择合适的五官图像投影到既有人 脸模型框架上,并对边缘进行相应处理,从而生成一个细腻、逼真的人脸。 基本思想是通过人脸识别和分析技术从大量视频资源中提取人们说话时 的各种真实表情变化图像,建立一个图像样本库,之后使用相应算法将这些 图像重新组合生成新的图像序列。基于数据驱动的方法在图像表示和声音视 频映射方面与基于参数控制的方法完全不同。首先,通过摄像机等设备对人 们的声音、图像进行采集,预处理这些得到的数据建立样本库;其次,根据 预置条件对库中样本进行训练,建立起声音和视觉关联关系;最后,在人脸 动画合成阶段根据上步建立的关联关系预测出可视语音特征,并辅助轨迹平 滑、搜索样本库等技术生成语音人脸同步动画。它实际上是对视频序列的一 种重组方法,因而合成的动画效果更真实、自然【1 7 】。 基于数据驱动的方法优点是能够合成自然度高、模型简单逼真的人脸图 像;缺点是对数据存储空间的要求较大,且特征点的精准度也很难把握。如 何充分利用人脸的一些细节纹理信息如皱纹、肤色等特征来合成可视语音动 画己成为当前方法的一个研究热点。 2 2m p e g 4 人脸动画规范 本文在后续章节中也借鉴了m p e g 4 人脸动画规范中的相关技术,下面 对该部分内容进行了分析。人脸动画是可视语音合成系统中的关键内容,它 将直接影响最后合成效果的真实感和自然度。而m p e g - 4 人脸动画系统具有 数据量小、通用性强、运算复杂度低、能在网络实时动画中传播等优点,近 年来发展迅速,已逐渐成为引领人脸动画技术的主流方法n 鼬。 m p e g - 4 编码系统可以对各种自然的或是人工的音频、可视化对象进行 独立编码,并把它们有机的集合在同一场景中。它高效率的编码标准可使最 8 磊一辜妄、) 爹交。 1 一隐,毯: 1 勰嚣 扯兽控l e 高。一裂 o 。气“4 斜”- t s ;。? s 。、五8。= 7 f :誊囊薯影、聚毫二要约 一j = 。、- - ;一- - o 2 1 1 l ”。蠹耋一磊。2 , ,坩 a r - 争o tk , r i g h te y e l 搴r9 y e ,、 。 正臣互,的五。一 , 趣孕 ”彦寺喜 弋每珍鼍鏊蓼夕3 、藿纪薹影 i ;一一。t d l l g j e m 。u t n 。玉 9 哈尔滨工程大学硕士学位论文 2 2 1 人脸定义参数f d p f d p ( f a c i a ld e f i n i t i o np a r a m e t e r ) 包括用于产生脸部形变的特征点坐标及 其纹理坐标、纹理映射方式以及人脸动画定义表等信息,还可以包括场景信 息等,根据这些数据就可以将一般人脸转化为特定人脸。在m p e g 4 中定义 了1 l 组共8 4 个特征点,并对各点按顺序进行了编号捌2 2 。对于特征点的选择, f d p 制定了良好的参考标准和范围,选定的特征点都是经过大量实验分析得 到的,能够完全真实的反应面部表情的变化情况。某些特征点之间存在一定 的约束关系,由一个点的位置信息可得到与其有约束关系的其它特征点的位 置信息。 一个f d p 域中通常包含5 方面内容,如表2 1 所示。 表2 1f d p 域中定义的参数 参数参数说明 f e a t u r e p o in t s c o o r d人脸模型所有8 4 个特征点的三维坐标 t e xt u r e c o o r ds 特征点纹理图像上的对应坐标 u s e o r t h o t e x t u r e纹理映射方式( 包括圆柱投影和正投影) f a c e d e f t a b le s脸部动画定义表( f a p 对脸部的具体控制参数) f a c e s c e n eg r a p h 经过渲染的脸部模型或是纹理图像 2 2 2 人脸动画参数f a p 人脸动画参数是在研究人脸细微表情变化的基础上设置的,与人脸肌肉 运动关系密切。f a p 中定义了一套完整的能够描述人脸动画的基本动作,包 括头的转动、舌头、眼睛和嘴唇的控制,它可以模拟出大多数自然的表情和 口型变化,多个动画参数的组合还可以得到一系列的脸部动画,甚至动画片 中夸张的表情,也能通过f a p 参数描述出来 2 3 1 。 m p e g - 4 中包括8 个f a p 参数,这些参数被分为两级:高层参数和低层 1 0 哈尔滨工程大学硕士学位论文 参数。其中2 个高层参数包括口型表情参数,6 个低层参数集合了人脸表情 最基本的运动单元。口型参数( v i s e m e s ) 表示说话过程中的口型状态,对应于 视频中的音素;表情参数( e x p r e s s i o n s ) 从说话者的情绪、感情等心理学层次 去刻画人的面部表情,标准中定义了六种基本表情,分别是高兴、愤怒、悲 伤、惊恐、害怕、厌恶。而较复杂的人脸表情可分解成基本表情和加权因子 混合而成2 4 。 2 2 3 人脸动画参数单元f a p u 对于f a p 的低层参数,标准中规定以f a p u ( f a pu n i t s ) 为单位,取整数 值表示f a p 参数,不同参数用不同的f a p u 单位表示瞠射,它将影响特征点所 在的位置。如表2 2 所示为m p e g 4 中定义的中性人脸f a p u 参数单元的说 明。 表2 2m p e g 4 参数单元 参数描述f a p u 值的大小 i r i s d o = 3 1 y 一3 3 y虹膜直径 i r i s d = 工r 工s d 0 1 0 : e s o = 3 5 x - 3 6 y两眼瞳孔之间的距离e s = e s o 10 2 4 e n s o = 3 5 y - 9 1 5 y眼睛和鼻子的垂直距离e n s = e n s o 10 2 4 涨s 0 = 9 1 5 y - 2 2 y 嘴巴、鼻尖垂直距离 k n s = 州s 0 10 2 4 m w 0 = 8 3 x 一8 4 x 嘴巴宽度m w = m w 0 10 2 4 _ a u 角度单位 1 0 勺 2 2 4 基于m p e g 4 标准的人脸动画方法 m p e g - 4 标准中只定义了人脸动画系统的基本框架( 如图2 3 示) ,对于 实现方法并没有刻意规范要求,这就为可视语音动画留有了足够的发展空间, 更快更好地推动了人脸动画技术的发展,也使该标准得到了广泛应用。 4 哈尔滨工程大学硕士学位论文 图2 3m p e g - 4 人脸动画系统基本框架图 2 3 系统结构设计 2 3 1 功能设计 可视语音合成系统中主要包括以下5 个方面工作:三维特定人脸建模、 脸部模型部分抽象肌肉化、输入文本分析、协同发音处理、语音人脸动画同 步处理等。 真实感人脸建模是计算机视觉和计算机图形学领域中的热点问题,它是 通过计算机多媒体技术建立符合大众审美标准的虚拟人脸的过程。随着第一 个参数化人脸模型的建立,各种人脸建模方法也相继出现。其中的主流方法 主要有基于参数的模型,基于物理形变的模型、肌肉模型等。三维人脸建模 是可视语音合成系统的前端,模型的好坏直接关系到后端虚拟人脸与语音配 合的协调性和真实感,特定个性人脸模型的建立是可视语音合成系统实现的 基础。 人脸模型重点部分抽象肌肉化是在入脸网格模型中,加入生理学知识对 其修改,对人脸重点部位的网格建立仿真的肌肉模型,解决网格动画过于僵 硬、难以控制的问题,使合成模型变化更接近真实的人脸运动。它需要研究 者对解剖学和肌肉群进行系统的学习,专业性较强。 用户输入文本是语音信息与人脸动画驱动信息的根源。在其中插入的自 定义表情标签不但提供了说话者的表情变化情况,也为下一步语音人脸动画 1 2 哈尔滨工程大学硕士学位论文 同步提供了时间控制条件。 汉语普通话中协同发音的影响是可视语音合成中另一个关键问题。连续 语流中字与字间的口型变化往往是相互影响的,一个字的口型可能受到其前 驱字、后继字的双重影响,这就是协同发音现象。而基于规则的三音子模型 能够很好的处理汉语中的协同发音问题,再辅以线性插值函数对表情及口型 变化进行融合过渡处理,就能使虚拟人的表情变化更加生动自然。 最后就是语音人脸动画合成阶段。依据输入文本分析中提取的时间信息 作为同步条件,综合前面大量准备工作的基础上,合成虚拟人可视语音系统。 如图2 4 所示,是可视语音合成系统涉及的主要功能: 2 3 2 开发平台 图2 4 可视语音合成系统结构框架 可视语音合成系统是在w i n d o w sx p 操作系统下,以v i s u a lc + + 软件为 开发平台,综合运用了d i r e c t x 和o p e n g l 应用程序接口,并结合了三维建 模软件3 dm a x 8 0 及图像处理工具p h o t o s h o p 。 ( 1 ) v i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论