（信号与信息处理专业论文）双模态汉语情感语音合成的研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：53 大小：8.71MB 积分：0 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

（信号与信息处理专业论文）双模态汉语情感语音合成的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

山东人学顾士学位论文摘要以清晰自然的合成语音，准确生动地传达语义信息是新一代语音合成系统所追求的目标。双模态情感语音合成的主要任务是，通过建立虚拟人脸模型，使计算机在合成语音的同时生成富有情感表现力的视觉信息。双模态语音合成和语音识别是人机语音交互所需的两项关键技术，在信息处理领域有着重要的应用价值。本文的主要研究内容有三维人脸建模和渲染、三维动丽驱动方法、汉语情感韵律特征建模和基于基音同步叠加算法的语音合成。人脸建模方面，完成了v r m l 模型解析和基于o p e n g l 的渲染。所用模型由7 个人脸部件组成，共包含6 4 3 5 个顶点和1 2 2 8 0 个面。该模型在同类相关研究中复杂度较高，对人脸细节的刻确更为逼真。对比研究了参数控制和数据驱动两种三维动画驱动方法。通过改进控制参数的采集方式，解决了齿、舌、喉等器官的运动问题。在基于m p e g 4 标准的 f a p 参数控制法中，采用径向基函数和升余弦函数控制唇动和表情变化。在基于关键帧插值的数据驱动法中，使用三次多项式插值法，对视素帧和表情帧进行空间矢量加权，生成融合后的动画帧。结果表明，f a p 参数法可以实现细微的表情和唇形变化；数据驱动法通过融合多个关键帧可以快速产生新的表情种类。为提高合成语音自然度，准确表达情感信息，对基于波形拼接的语音合成系统进行了改进。在系统自西端加入基于人工神经网络的韵律预测模型，后端加入基于p s o l a 算法的韵律修改模型。合成阶段使用基于决策树和代价函数相结合的基元选择法。仿真结果显示，合成的语音感情色彩明显，经过韵律修改的语音基元在拼接后自然度较高。本文实现的双模态情感语音合成系统，在三维模型数据量较大的情况下满足了实时性动画的要求。合成的语音在听觉和视觉上都能准确的表达情感信息。关键词：双模态语音；人脸动画；情感语音合成山东大学硕士学位论文 a b s t r a c t t h eg o a lo fn e x tg e n e r a t i o ns p e e c hs y n t h e s i ss y s t e mi st od e l i v e rs e m a n t i c i n f o r m a t i o ne x a c t l ya n dv i v i d l yw i t hc l e a ra n dn a t u r a ls y n t h e t i cs p e e c h m a i nt a s k o fb i m o d a le m o t i o n a ls p e e c hs y n t h e s i si st ol e tc o m p u t e rh a v et h ep o t e n t i a lo f s y n t h e s i z i n g n a t u r a le m o t i o n a l s p e e c h a n dr e a l i s t i cf a c i a l e x p r e s s i o n sb y e s t a b l i s h i n g av i r t u a l c o m p u t e ra v a t a r b i m o d a ls p e e c hs y n t h e s i s a n ds p e e c h r e c o g n i t i o na r ec o r et e c h n o l o g i e s t or e a l i z eh u m a n m a c h i n ei n t e r a c t i o n i th a s i m p o r t a n ta p p l i c a t i o nv a l u ei ni n f o r m a t i o np r o c e s s i n ga r e a t h et h e s i sc o n c e n t r a t e so n3dm o d e lc o n s t r u c t i o n ，r e n d e r i n g ，a n i m a t i o nd r i v e n a p p r o a c h ，e m o t i o n a lp r o s o d i cf e a t u r em o d e l i n ga n ds p e e c hs y n t h e s i sb a s e d o np i t c h s y n c h r o n o u so v e r l a p a d da l g o r i t h m i nt h ea s p e c to ff a c i a lm o d e l i n g ，v r m lm o d e lp a r s i n ga n dr e n d e r i n gb a s e do n o p e n g lh a v eb e e nd o n e t h ef a c em o d e lc o n s i s t so f7c o m p o n e n t sw h i c hc o n t a i n 6 4 35v e r t e x e sa n d12 28 0f a c e si nt o t a l t h em o d e lu s e di nt h i sp a p e ri sm o r e c o m p l e x t h a no t h e rr e l a t e dr e s e a r c h ，a n da c h i e v e sb e t t e rl i f e - l i k ef a c ed e t a i l s c o m p a r et w oa n i m a t i o nd r i v i n gm e t h o d s ，p a r a m e t e rc o n t r o lm e t h o da n dd a t a d r i v e nm e t h o d r e s o l v em o t i o np r o b l e m so ft o o t h ，t o n g u ea n dt h r o a tb yi m p r o v i n g d a t ac o l l e c t i o na p p r o a c h i nf a pp a r a m e t e rc o n t r o lm e t h o db a s e do nm p e g - 4 ， r a d i a lb a s i sf u n c t i o na n dr a i s e dc o s i n ef u n c t i o na r ec h o s e nt oc o n t r o lm o u t ha n d e x p r e s s i o nr e s p e c t i v e l y d a t ad r i v i n gm e t h o db a s e do nk e yf r a m ei n t e r p o l a t i o nu s ea c u b i cp o l y n o mi a lt oi n t e r p o l a t ek e yf r a m e s ，a n dt h e nc o m p o s ev i s e m ea n de x p r e s s i o n f r a m e sb yv e c t o rw e i g h t i n gs u p e r p o s i t i o nt og e n e r a t es u c c e s s i v ea n i m a t i o n r e s u l t s s h o wt h a tf a pp a r a m e t e rm e t h o dc a na c h i e v es l i g h tc h a n g eo fe x p r e s s i o n sa n dl i p s h a p e d a t ad r i v i n ga p p r o a c hc a np r o d u c en e we x p r e s s i o n st h r o u g hf u s i o nk e y f r a m e s t oi m p r o v et h en a t u r a l n e s so fs y n t h e t i cs p e e c h ，w em o d if i e dt h ew a v e c o n c a t e n a t i o na l g o r i t h m p r o s o d yp r e d i c t i o nu n i ta n dm o d i f i c a t i o nu n i tb a s e do n p s o l aa r ea d d e d i ns y n t h e s i ss t a g e ，u n i t sw e r es e l e c t e db a s e do nc o m b i n a t i o no f 山东大学硕上学位论文 d e c i s i o nt r e ea n dc o s tf u n c t i o n s i m u l a t i o nr e s u l t ss h o wt h a tt h es y n t h e t i cs p e e c h g i v e se x a c te m o t i o na n dn a t u r a lv o i c e t h i sp a p e rr e a l i z e sab i m o d a lm a n d a r i ne m o t i o n a lt t ss y s t e m ，m e e t st h e r e q u i r e m e n t so f r e a l t i m ea n i m a t i o nw i t hl a r g ed a t a s y n t h e s i z e ds p e e c hc a ne x p r e s s e m o t i o n a li n f o r m a t i o ni nv i s u a la n da u d i oa s p e c t sa c c u r a t e l ya n dv i v i d l y k e y w o r d s ： b i m o d a ls p e e c h ；f a c i a la n i m a t i o n ；t e x t t o - - e m o t i o n a ls p e e c h 1 v 山东大学硕上学位论文第1 章引言 1 1 双模态情感语音合成概述语音的双模态是指语音的声觉形态和视觉形态。双模态情感语音合成的研究涉及现代语音合成技术的两个研究热点：语音的可视化表达以及合成语音的表情达意。本文研究的目的是将视觉语音合成( v i s u a ls p e e c hs y n t h e s i s ) 与情感语音合成( e m o t i o n a ls p e e c hs y n t h e s i s ) 技术相结合，产生逼真的面部表情和具有情感表现力的语音，从听、视觉两方面帮助听者增强对所接收信息的理解。大量研究实验表明，声觉语音和视觉语音的交互作用对帮助听话人理解谈话内容和讲话意图非常重要。声觉语音主要表现为说话时声带震动和发音器官运动所产生的声波。视觉语音指与语音相伴的、可视发音器官，如牙齿、嘴唇、舌头和下颚等的运动。从语音产生的机理看，二者均与发音器官的运动有关，因此存在一定的内在联系。m a c l e o d 等人量化了在噪声环境下视觉信息对语音感知的贡献，得出的结论是，加入视觉信息相当于在单一模态下将信噪比提高约1 1 d b i 。m c g c u r k 和m a c d o n a l d 通过实验证明，只接受视觉或听觉的单一模态刺激时，对易混淆的语音误判概率较高，而当视觉信息和听觉信息同时存在但彼此冲突时，人们通常会做出与二者均不符的错误判断1 2 j 。这说明研究双模态的语音合成对言语理解和感知有着重要而积极的作用。情感语音合成是语音处理领域一个重要的研究方向。人类用于交流的语音通常携带两方面的信息：语言信息( l i n g u i s t i ci n f o r m a t i o n ) 和超语言信息 ( p a r a l i n g u i s t i ci n f o r m a t i o n ) 1 3 j 。语言信息是指书面语言表现出来的，或者可以从上下文推断出来的信息。这部分信息通常遵循特定语言规则，用于表述对应的文本内容，完成语义上的交流。超语言信息从书面文字上推断不出来，这些信息能够补充语言信息。超语言信息通常和语音无关，用以表达说话人的态度和情感。汉语中同样的文字内容可以表达截然不同的含义，例如一句“你真行”，以高兴和愤怒的情感来表达，含义完全不同。情感语音合成能够在一定程度上消除歧义，使语音合成更加智能化。山东大学硕士学位论文传统单模态的语音合成系统产生的语音枯燥、缺乏表现力，应用范围受限。双模态情感语音合成是当前语音处理技术的发展趋势。为语音合成在有声文字、计算机辅助教学、信息发布、语音邮件、游戏娱乐及智能机器人等领域应用开创了新局面，将带来巨大的经济和社会效益。 1 2 国内外研究现状早在二十世纪七十年就有关于声觉语音和视觉语音关系的讨论。1 9 8 9 年，心理学家m e h r a b i a n 提出，人类的交流是多模念的，其中非语言模式占有重要地位。其研究表明，人类的情感表达中7 为文本、3 9 是语音，剩余5 4 来自表情动作【4 1 。2 0 0 0 年召开的w o r k s h o po ns p e e c ha n de m o t i o n 会议，标志着国际上情感语音研究的起步。目前，许多著名研究单位都设立了专门进行人脸动画研究的课题组。双模态情感语音合成可分为可视化语音合成和情感语音合成两个研究方向。这两项研究在实验方法上相对独立，实验成果上相辅相成。可视化语音合成始终围绕着三个基本的问题：人脸建模、人脸动画和语音到人脸动画的映射。情感语音合成涉及语言学、心理学和计算机科学等多门学科的交叉领域，目前可选择的技术范阐较小，还面临多项技术挑战。情感语音合成的研究主要围绕情感语料库设计、情感参数的选择和情感韵律特征建模等方面进行。下面从可视化语音合成和情感语音合成两个方面，介绍双模态情感语音合成的背景和发展现状。 1 2 1可视化语音合成方法 1 人脸建模 2 0 世纪7 0 年代，p a r k e 首先提出了使用计算机合成的三维人脸几何模型1 5 j 。此后近4 0 年的计算机人脸动画研究过程中，出现了各种类型的计算机人脸模型。三维人脸建模方法可以分几何网格模型和物理模型两类。前者利用简单几何图元模拟真实人脸表面的拓扑结构，而后者注重模拟人脸内部组织结构。几何网格模型最初采用三角形或阴边形束描述人脸拓扑结构，利用参数描述人脸特征和表情变化。p a r k e 构造的第一个人脸参数模型还包括了简单的人脸器官，眼睛和牙齿【6 1 。由于人眼能敏锐地观察模型与真实头像的区别，因此山东大学硕士学位论文这种构造方法对精度要求高。l e e 等人提出借助3 d 扫描仪来构造高精度人脸模型1 7 ，8 1 。这种建模方法真实感强但价格昂贵，难以广泛应用。还有更为精细复杂的曲面建模技术，这里不再详述【9 l 。如何简单、快速地构造人脸模型一直是参数模型研究领域所广泛关注的问题。考虑到人脸表面特征受面部结构的影响，1 9 8 1 年p l a t t 提出了物理人脸模型，又称简单肌肉模型【m 1 。这类模型包含皮肤、肌肉、骨骼等人脸部件，皮肽顶点通过具有收缩性的肌肉连接到骨骼上。模拟面部表情时，伸缩力作用于皮肤网格，控制肌肉运动。w a t e r s 等人对p l a t t 模型进行了改进，使其独立于特定人脸拓扑结构1 1 1 。以上肌肉模型的运动都遵循e k m a n 等人提出的人脸表情编码系统( f a c s ，f a c i a la c t i o ns y s t e m ) 1 1 2 1 。f a c s 描述了4 4 个独立运动的面部动作单元和6 种基本表情，可用于面部表情的描述与编码，是近代普遍采用的人脸动画方案。此后，又出现了伪肌肉模型和样条肌肉模型等1 3 , 1 4 1 。在国内外近几年的研究中，物理模型得到了很好的发展和应用。 2 ，人脸动画人脸动画驱动方法是视觉语音合成研究的重点和难点。实现方法可以分参数控制法和数据驱动法两大类。参数控制法不依赖于人脸模型，需要解决的两个基本问题是控制参数的选择和计算。控制参数选择的标准是能够反映人脸运动规律。目前得到广泛应用的两种控制参数是前面介绍的f a c s 和m p e g 4 定义的人脸动画参数f a p ( f a c i a la n i m a t i o np a r a m e t e r ) 【i 引。f a p 比f a c s 更为精细地描述了人脸的微动作单元，例如f a p 3 1 描述的是抬起左侧眉毛内端。m p e g 一4 共设计了6 8 个独立于模型的f a p 参数，可以描述绝大多数表情和视素。基于f a p 参数控制的人脸动画系统，其性能依赖于人脸定义参数f d p ( f a c i a ld e f i n i t i o np a r a m e t e r ) 的选择和f a p 的计算方法。b a l c i 等人开发的丌源工具包x f a e e 中，采用升余弦函数( r a i s e dc o s i n ef u n c t i o n ) 合成了较为自然的面部表情。r c f 已经被普遍应用于控制参数的计算【l6 i 。香港中文大学的w uz h i y o n g 等人对控制函数进行改进，采用径向基函数( r a d i a lb a s i sf u n c t i o n ) 控制唇部区域运动，证实r b f 函数比r c f 更适合拟合唇动曲线l l7 。山东大学硕士学位论文数据驱动法开始于b r e g l e r 等人提出的v i d e or e w r i t e 1 8 】。发展至今，主要产生了三种比较成熟的实现方法：人脸部件组合、图像序列拼接和关键帧变形法。h u a n g 等人发展了b r e g l e r 的图像序列拼接算法，利用视觉三音子单元解决协同发音现象，提高了基元选取算法速度【1 9 。e z z a t 等人提取若干静态视素的关键帧，计算相邻视素的光矢流量，进行帧间插值2 们。这种方法数据量小且逼真性好于参数控制法。c o s a t t o 和g r a f 等人还提出了人脸部件组合法，减少合成所需的样本数，可以方便地得到不同表情同一发音内容的人脸【2 1 1 。近几年，人脸动画技术又取得了许多新进展。l o r e n z o ，k s h i r s a g a r 和e d g e 等人将两种方法结合，用数据驱动法获取控制参数，而用参数控制法进行合成 1 2 2 , 2 3 ，2 4 1 o 3 语音人脸动画的映射可视化语音合成系统的末端是将t t s 系统得到的合成语音和人脸动画进行时间轴上的映射，得到连续的人脸发音动画。目前电影、游戏中的三维动画驱动仍然需要依靠动画制作者手工完成。这不但费时费力，而且对制作者的专业水平要求很高。为提高动画制作效率，一些驱动算法相继出现。主要包括视频驱动、语音驱动和文本驱动等几类。视频驱动方法是将图像处理系统和人脸动画相结合。通过摄像机跟踪人脸运动，利用图像处理算法提取动画控制参数，在控制参数和人脸模型参数间建立映射关系2 5 1 。为方便数据采集，通常在测试者脸上粘贴特征点标注。视频驱动注重重现真实人脸表情，对于精细的唇动和口腔内发音器官不能达到很好的跟踪效果。语音驱动方法是将语音处理系统和人脸动画技术相结合，以解决语音单元与视觉单元的映射问题。目自订语音驱动的研究分为基于语音基元和基于声学特征两类。其难点都在于解决同步融合和语音平滑问题。t a m u r a 设计的基于h m m 的方法，因需要大量数据使得实时性不能保i i e t 2 6 i 。o h m a n 等人研究了基于a n n 的方法，虽对数据量要求不大，但动画流畅度不好。为解决这一矛盾，近年来出现了基于参数化动态转移网络法( p d t n ) 1 2 8 】。 4 山东大学硕士学位论文文本驱动方法是将音素信息存储为纯文本形式的标注文件，再进行音素到动画控制参数的映射【2 9 1 。这种做法的好处是对点头、摆头、眨眼等人脸动作的控制可以直接通过文本编辑来实现，操作简单。 1 2 2情感语音合成方法情感语音合成是将情感计算与传统语音合成系统相结合。研究重点是分析情感与语音声学特征的关系。二十世纪九十年代后期，美国、日本和英国等国家先后成立了研究语音情感特征的机构。如m i t 人工智能实验室、日本k e i o 大学电子系和m i t 媒体实验室等。情感语音合成取得了一系列的研究成果。 1 9 9 7 年m i t 的p i c a r d 教授提出，情感计算是与情感相关，来源于或者故意影响情感方面的计算。m u r r a r y 和a m o t t 总结了情感和语音参数的关系1 3 叭。 b u r k h a r d t 在分析了基频、语速和发音方式等特征后，制定一系列韵律规则，利用这些规则从自然语音合成出情感语音【3 。2 0 0 0 年，v i n e 等人提出r p p s o l a 情感语音合成方法，该方法为基元提供多个基频模版，通过最优算法选定目标基元进行拼接【3 2 1 。国内情感语音的研究主要偏重于从语音信号中提取表征情感的参数。陶建华等人总结了语音音质、清晰度与情感状态的关系1 3 3 1 。 1 3 本文内容安排第二章简单地介绍实验所用三维人脸几何模型建模方法和基于0 p e n g l 的渲染技术。第三章详细讨论参数控制和数据驱动两种三维动画驱动算法。第四章重点分析汉语情感韵律参数的选择、提取和建模方法。第血章深入研究基于波形拼接的语音合成技术，基音叠加算法原理以及韵律参数调整方案。并给出实验结果和系统性能评价。第六章对本文设计的系统实现方案进行简单总结，并由实验结果得出全文研究结论。山东大学硕上学位论文第2 章三维几何人脸模型建立和渲染三维人脸建模和渲染是双模态语音合成系统的基础工作。随着计算机图形学的发展和三维建模软件的开发，人脸建模方法同趋成熟，但模型的真实感、自动化和可控性还处于研究和讨论阶段。本章将简单介绍v r m l 几何人脸模型的解析和基于o p e n g l 的渲染。 2 1 人脸模型计算机构造三维人脸的最初是采用三角形和四边形来描述人脸拓扑结构，通过参数描述人脸特征和表情变化。随着计算机图形学的发展，更为复杂的肌肉模型趋向成熟。建立人脸模型的途径有很多，如利用3 d 扫描设备获取精确的人脸数据进行建模；直接使用三维人脸模型数据表；通过三维软件辅助建模等。三维人脸建模是一项精细复杂的工作，需要有专业制作师和美工技术的配合才能完成。为简化准备工作，本文使用f a c e g e n 头像生成器获取三维人脸模型，并用3 d sm a x 进行二次编辑。 f a e e g e n 是由s i n g u l a r i n v e r s i o n s 公司开发，用于制作参数化人头的工具，可以对头部6 0 多个区域进行实时交互调节。调节的内容包括人种、性别、年龄等，还可以调节几十种表情和口型。调整后的模型能够导出为3 d s 格式，可使用3 d sm a x 、m a y a 和x s i 等三维软件进行编辑。本文使用f a c e g e n 制作了一个亚洲男性的头像，包括头部、左眼、右眼、上牙齿、下牙齿、舌头和咽喉七个人脸部件，共6 4 3 5 个顶点，1 2 2 8 0 个三角形，如图2 1 所示。为了将模型转化为v r m l 格式，人脸建模的第二步使用3 d sm a x 软件对模型进行二次编辑。除对模型进行旋转、平移、缩放、纹理贴图和格式转换等操作外，还针对汉语调整出汉语视素关键帧模型。完成二次编辑的人脸模型如图2 2 所示。该模型的v r m l 文件描述了用于动画和渲染的顶点平移、旋转、缩放信息，光照、材质信息，纹理贴图信息，还有三维顶点坐标、二维纹理坐标和用于纹理映射的顶点坐标索引、纹理坐标索引等。光照和纹理可以增强模型的表现力，顶点坐标根据相应索引连接成空间三角形，众多的三角形组成人脸部件网格。 6 山东人学硕士学位论文图2 一1人脸网格模型 2 2v r m l 模型解析图2 - 2纹理贴图后模型 v r m l 是虚拟现实建模语言的缩写，它是描述虚拟环境场景的一种标准。利用v r m l 语言。可以在i n t e r n e t 上建立交互式的三维虚拟实现环境。v r m l 格式义件具有分稚式、交互式、半台无关、逼真自然及适合网络传输等基本特征。 2 2 1v r m l 文件结构 v r m l 文件是典型的文小文件，可以用文本文件编辑器进行编写。个标准的v r m l 文件以“w r l ”为扩展名，由文件头、节点和路由组成。节点是v r m l 文件最基本的单位。v r m l 世界以树彤结构存储数据，下面是本文所用人脸模型文件的片段：撑v r m lv 2 0u t f 8 d e ft o n g u et r a n s f o r m t r a n s l a t i o n001 s h a p e t e x t u r ei m a g e t e x t u r e g e o m e t r yd e ft o n g u e f a c e si n d e x e d f a c e s e t c o o r dd e f t o n g u e c o o r dc o o r d i n a t e p o i n t 【一2 4 5 33 7 3 14 7 5 4 ，一2 2 9 41 9 6 45 9 2 6 ，； t e x c o o r dd e ft o n g u e t e x c o o r dt e x t u r e c o o r d i n a t e p o i n tl 0 0 717 1o 8 6 2 ，0o 9 9 8 2 ，0o 7 9 5 7 ， ) c o o r d l n d e x 0 ，1 2 ，- 1 ，3 ，4 ，5 ，一1 ，6 ，7 ，8 ，一1 ， t e x c o o r d l n d e x 0 ，1 ，2 ，一1 ，3 ，4 ，5 ，一1 ，6 ，7 ，8 ，一1 ，- - - 7 山东人学硕二f = 学位论文这是一个节点语句段落。第一行是文件头，表示v r m l 文件的开始，不可省略或放在其他行。“2 0 表示遵守v r m l 规范的版本号；“u t f 8 表示支持多种语言的国际u t f 8 字符集。v r m l 文件实际上就是众多节点片段的组合。用户可定义节点名，如片段中“t o n g u e 是用户自定义节点名，表示这个节点描述的是舌的三维模型。每个节点拥有多个域，域名是v r m l 的保留字。同一个节点的域无次序区分，用户通过域值改变模型属性。每个v r m l 文件除了必要的头文件外，至少要包含一个节点。 2 2 2v r m l 节点解析法 v r m l 文件中通常包括坐标变换、造型、点面集和外观等几类节点。图2 3 说明了v r m l 各类节点之间的关系及部分常用域名。它们的作用如下： ( 1 ) t r a n s f o r m 表示坐标变换节点，节点内可以拥有一个或者多个子节点。 t r a n s f o r m 可以为节点外对象创建一个不同于原始坐标系的新坐标系，而节点内的所有子节点对象都基于统一坐标系。t r a n s f o r m 节点常用的域有：t r a n s l a t i o n 平移、r o t a t i o n 旋转、s c a l e 缩放。 ( 2 ) s h a p e 表示造型节点，定义了v r m l 模型的几何形状、颜色、尺寸、纹理、材质等外观特征。这是三维建模的基础工作。常用的域名有a p p e a r a n c e ，和g e o m e t r y ，分别用于定义外观特征和集合特征。 ( 3 ) a p p e a r a n c e 表示外观节点，设置三维模型的外观属性，是s h a p e 节点的a p p e a r a n c e 域的域值。其常用的域名有m a t e r i a l 和t e x t u r e ，分别指定材质和纹理图片名。 ( 4 ) i n d e x e d f a c e s e t 是定义三维点面集的节点，记录点坐标和坐标索引等信息。顶点根据索引顺序连接成面，封闭平面勾勒出三维造型的边界线。常用的域名有c o o r d 、c o o r d l n d e x 、t e x c o o r d 和t e x c o o r d i n d e x ，分别表示顶点坐标、顶点坐标索引、纹理贴图坐标和贴图坐标索引。山东大学硕上学位论文图2 3v r m l 节点及其常用域我们编写了v r m l 解析类，用于v r m l 文件读取和三维数据存储。针对 v r m l 2 0 版本的特点，设计了三维空间顶点、空间矢量、坐标变换、纹理、场景等m f c 类。由上述介绍可知，每个面集对应一个s h a p e 节点，因此人脸部件可以采用关键字循环处理的方法读取，数据量较大的顶点和纹理数据采用动态存储。 2 3 基于o p e n g l 的三维模型渲染经过解析的v r m l 模型并不能直接显示，需要借助o p e n g l 软件包进行渲染。我们使用的o p e n g l 操作主要包括绘图模式转换、图元绘制、坐标变换、投影变换、光照模拟、材质编辑、纹理映射和双缓存动画等。在使用o p e n g l 库函数前，需要加载o p e n g l 动态链接库o p e n g l 3 2 d l l 和o p e n g l 工具库 g l u 3 2 d l l 。图2 - 4 是o p e n g l 的操作流程，也是o p e n g l 数据处理的方法。几何数据经过求值和顶点操作直接进入光栅化阶段。像素数据经过像素操作后或者写入到纹理内存，或者发送到光栅化阶段。如果像素来自帧缓冲区，则执行缩放、偏移和映射等转换，并返回系统内存。光栅化阶段数据被转换为片断，经过处理的片断被送入缓冲区等待绘制。o p e n g l 动画基于双缓冲机制，当一个缓冲区显示时，另一个缓冲区正在进行绘图。一帧绘制完成后，两个缓 9 山东大学硕上学位论文冲区进行交换。这样，刚才用于显示的缓冲区现在用于绘图。在时钟的驱动下，如此不断在两个缓冲区间交换，就生成了连续的动画效果。 1 0 图2 4o p e n g l 的基本流程图山东大学颐j ：学位论文第3 章三维人脸动画驱动三维动画的实现可以分为基于模型的参数控制法和基于样本的数据驱动法两类。前者是对已有模型设置控制参数，通过一定的人脸动画标准计算每帧动画的控制参数；后者是根据模型建立关键帧数据库，根据需要从库中选出最佳样本，进行拼接融合得到连续动画。本章将详细比较和讨论这两种动画驱动方法。 3 1 参数控制法计算机视觉语音合成研究最早采用的是参数控制法。参数控制法需要解决的问题是参数的选择标准和计算方法。这里选用m p e g 4 人脸定义和动画参数并使用w u 等人提出的控制函数，对视素参数和面部表情参数分别运算【1 7 l 。参数控制法的优点是控制参数不依赖于人脸模型。因此，对于新模型动画数据可复用，减少了重复性运算工作。 3 1 1m p e g 一4 人脸描述 1 9 9 9 年公布的基于对象的多媒体压缩标准m p e g 一4 ，允许可视化对象脱离场景而独立编码。m p e g 4 中可视化对象的表示方法正是基于v r m l 语言。 m p e g 一4 定义了一套人脸定义参数f d p 、人脸动画单元f a p u ( f a e i a la n i m a t i o n p a r a m e t e ru n i t ) 平n 人脸动画参数f a p 。这套人脸动画实现方法通用性强、所需数据量少、运算复杂度较低，适合网络传输。但m p e g 4 作为一个框架结构，只提供了标准和接口，对于具体实现方法没有定义，依靠使用者扩展应用并实现。下面分别介绍一下几个m p e g 4 参数的定义和作用。 1 f d p f d p 定义人脸外观特征和纹理，具体包括8 4 个人脸特征点( f p ，f e a t u r e p o i n t ) 、纹理、人脸动画定义表等。利用这些数据能将标准人脸转化为特定人脸。在基于m p e g 4 的动画中，f d p 只需要线下定义一次，不需要实时更新。图3 1 显示了所有特征点表示的人脸区域。山东人学硕上学位论文。￥， r i g h te y e l e f te y e 熏9 1 0诊石25 3 蔗玉硬墨a二孟图3 1m p e g 一4 人脸定义参数本文使用x f a c e e d 工具为人舱模型中日艮睛、眉毛、嘴和脸颊等部位定义f d p 和影响i 又：域。图3 2 和图3 3 分别表示f d p 2 2 和f d p 4 2 及其影响区域。十字交叉点表示特征点f p ，粗【圆点表示影响区域内其它例格点。f d p 2 2 由f a p 4 ( 1 0 w e rt m i d l i p ) 控制，位于上唇中间；f d p 4 2 由f a p 3 2 ( r a i s erie y e b r o w ) 控制，位下右眉内侧。f d p 及其影响区域的定义卣接影响了动硒平滑度和逼真性，需要根据动画驱动结果进行反复修改。 2 f a p 秘l 嵫陵图3 - 2f d p 2 2 及影响区域图3 - 3f d p 4 2 及影响区域 m p e g 一4 定义了6 8 个f a p 描述面部肌肉微小运动。通过这6 8 个参数的线性组合i i j 以重现人多数人脸表情和发音运动。6 8 个f a p 参数。 j f 狐两个是高级 f a p ，描述视素和表情。其余6 6 个普通f a p 定义j ，人脸不同区域的运动。仅 1 2 山东大学硕士学位论文用两个高级f a p 进行插值和混合叠加即可驱动人脸动作，但描述复杂、细微、非规则的视素和表情还需要普通f a p 。仍然以f a p 4 和f a p 3 2 为例，如表3 1 中，f a p 4 ：l o w e rtm i d l i p ，上唇中间降低，f a p 3 2 ：r a i s erie y e b r o w ，抬起右眉内侧。可见m p e g 4 为每个f a p 进行定性的描述，并指定了参数单元和运动方向。表3 1f a p 定义、描述、单位和方向基于m p e g 4 标准的人脸动画最重要的工作是设计f a p 驱动下人脸运动的规则。人脸运动可以简单分为两种类型：第一类是人脸部件的旋转、平移变换，如摆头、转眼睛等；第二类是人脸细小区域的特殊变换，如眨眼、扬眉和张嘴等。根据这两种运动类型，f a p 也可以分为两类：第一类f a p 运动规则简单统一，作用对象是人脸部件的全部特征点；第二类f a p 没有统一的规则，作用范围有限，只针对人脸某些特定区域。动画参数f a p 直接控制特征点f p 运动的方向和距离。f p 的运动并不是孤立的，还会带动周围相关网格点的运动。一个f p 及其所影响的网格点所覆盖的范围称为影响区域。这就像肌肉运动会带动周围组织一起运动一样，影响区域内的网格点与f p 的距离不同，受f p 影响的程度也有差异。控制函数 d = d 。，d 2 ，仇反映了这种差异。设某f a p 所控制的f p 对应人脸模型网格点r 和影响区域内一组网格点p = 翻，最，只) ，在f a p 驱动下，e 和 p p ，( f = 1 , 2 ，后) 根据给定的f a p 值和控制函数d ，的约束，分别改变位移量蝇和啦，就得到了一个平滑的人脸形变结果。位移量异和够可以由式( 3 - 1 ) 和( 3 2 ) 计算得到。纰= f a p f a p u ； ( 3 - 1 ) z = ，尸彬d f ；0 k ) ( 3 - 2 ) 山东人学硕i j 学位论文以f a p 4 ：l o w e rtm i d l i p 为例，f a p 4 以m n s 为单位，控制f d p 2 2 向上动作。此时f d p 2 2 对应网格点r 的位移量为1 o = f a 只m n s ，该影响区域内其他特征点p 位移为p = f a 只彬d ，；( f k ) 。图3 - 4 和图3 5 是实验得到的 f a p 控制下，人脸局部运动的结果。其中f a p 4 = 一8 8 9 ，f a p 3 2 = 5 5 6 。可见当 f a p 值为负数时，沿着与定义相反的方向运动。我们在视素驱动和表情驱动中使用了不同的控制函数d ，这在下面两节将有详细介绍。一一图3 - 4f a p 4 控制上唇中部抬起图3 - 5f a p 3 2 控制右眉内侧抬起 f a p 为使用者提供了控制的标准，用户可以根据需要设计控制的具体方法。需要注意的是，f a p 与f d p 不是一对。的关系，一个f d p 可能被不同的f a p 控制。而有的f a p 是人脸部件的整体运动，如f a p 4 6 、4 7 描述舌头转动，f a p 4 8 、 4 9 、5 0 描述头部的转动等。这类运动只需要给定旋转因予即可。此时运动的度量单位是a u 。例如给定f a p 4 8 ( 点头) 的值为9 0 0 0 ，旋转网子0 = - 1 ，已知a u 值为1 0 一，则头向下摆动的角度0 t 为：仅= r a & 8 au 0 = 9 0 0 0 10 5 1 = o 0 9 r a d( 3 3 ) 3 f a p u f a p 足对人腧动作的定性描述，独立_ r j 人腧几何模型。为使不同的模型共用同一套控制参数，在应用f a p 之前需要根据模型校正。校i 卜之后的f a p 参数在摔制任意模型时，都能生成州样的视素和表情，具有通用性。 f a p u 足中性人脸l 某些特征距离在1 0 2 4 尺度_ j ：的量化值，凶此f a p u 是与模型桐关的。m p e g 一4 标准共定义了5 个人脸特征距离：e s 0 、i r i s d 0 、 e n s 0 、m n s 0 和m w 0 ，用f a p u 0 统一。表示。它们的物理意义和定义方法如图 3 - 6 所示。图3 7 足实验中所使用的f a p u 0 ，根据式( 3 - 4 ) 可计算f a p u 的值。为模型设置f a p u 的工作可以离线进j j ：，这个值在人脸动_ m i 中也只需要设置一次。 4 山东人学硕l ：学位论义 f a p u = 1 0 2 4 f a p uq l ；户。二= 。矬期气屯程厂 = 磊喜二二：、m w o 一7 ( 3 - 4 ) 图3 - 6m p e g 一4f a p u 0 定义图3 7 实验模型f a p u 0 3 1 2m p e g 一4 人脸动画原理 x 图3 - 8 表示了基于m p e g - 4 标准的人脸动画控制流程。建立新的人脸模型后，首先要编辑人脸动画单元f a p u 0 、f d p 及相关点，然后逐个计算f a p ，州时得剑运动的方向、f a p 控制范罔等信息，产生f a p 数据流。最后对一帧内6 6 个f a p 值做循环处理，得到当前帧人脸变形数据r 和只。在连续的f ? a p 数据流的激励卜，对变形后的人脸数据进行刷新显示，就可以产生连续的动画。 3 1 3汉语视素驱动 1 汉语视素定义图3 - 8f a p 参数控制动画流程国驱动人脸模型进行汉语发音动作i 订，需要为每个音素指定汉语视素。每个汉字对映一个音节，人多数汉语音节可以分为声母和韵母。汉语共包括2 2 个声母( 包括零声母s i l ) 和3 8 个韵母。声母的口型在发音准备阶段就已形成，并迅速过渡到韵母口型，持续时川非常短。凶此发音时口型主要由韵母决定。韵山东大学硕士学位论文母又可以分为单韵母和复合韵母。单韵母在发音时，唇形、舌位保持不变。每个单韵母可以定义为一个视素。复合韵母由两个或两个以上的单韵母组成，在发音过程中最后的韵母持续时间最长，口型趋于稳定。因此可以用最后一个韵母代替整个复合韵母的发音口型。发音口型相似的音节可以共享一个视素。通过仔细对比汉语音节发音特点，我们定义了1 8 个汉语发音视素。表3 - 2 列出了 6 0 个汉语音素和这18 个视素的对应关系。表3 - 2 汉语音素、视素分类定义声母韵母 b ，p ，m岛k ，ha ，a n g o ui f j ，q ，x a l ，a ne

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）双模态汉语情感语音合成的研究.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）双模态汉语情感语音合成的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档