（计算机应用技术专业论文）标记语言驱动的中国手语合成研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-18 格式：PDF 页数：70 大小：5.33MB 积分：0 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

（计算机应用技术专业论文）标记语言驱动的中国手语合成研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要手语是听力障碍者在日常生活、工作中与人交流、表达意图的主要手段，然而当今社会中信息传播的主要方式都是建立在自然语言之上，对听力障碍者接受信息、融入社会主体造成极大的困难。手语合成研究的主要目的就是提供一种准确、普适且高效的生成手语表达的方法，为听力障碍人群创建更广阔的信息平台，实现无障碍的交流。随着三维虚拟人技术的不断发展，手语动画因其友好的交互性和广泛的适用性逐渐成为手语合成的主要研究方向。受限于中国手语本身发展水平，手语合成研究在中国起步较晚，现有中国手语合成系统作为自然语言的翻译器，实现了自然文本中汉语词到手语词的动画翻译。然而，中国手语词的数量远少于标准汉语，其中大量信息都蕴含于丰富的视觉韵律中，自然文本驱动的手语合成丢失了对于韵律信息的传递，不仅影响了合成效果的真实感还会导致可懂度的下降甚至产生理解上的歧义。如何提供一种更为有效的针对中国手语表达的描述脚本，以及如何在现有中国手语合成研究的基础上实现韵律的控制和表达，目前还没有成熟的研究。本文首先研究并实现中国手语韵律的实现模型，确定合成韵律的内容和方法；然后在此基础上建立面向合成的中国手语标记语言，该语言涵盖了中国手语语法现阶段所包含的信息，且面向合成的需要引入了手语韵律信息，为韵律实现提供有效支持；最后，设计并实现基于中国手语标记语言驱动的中国手语合成方法，实现了对于手语韵律的控制和表达。基于中国手语标记语言的特性，本文提出的合成方法能够提供内容编辑与动画实现的分离，允许创建者以灵活的方式建立脚本，同时确保实现者能够准确的理解并产生所需的效果。关键词中国手语合成；中国手语标记语言；虚拟人行为动画；韵律建模 a b s t r a c t a b s t r a c t s i g nl a n g u a g ei sh e a r i n gd i s a b l e dp e o p l e sm a i nm e a n so fc o m m u n i c a t i n ga n d e x p r e s s i n g i d e a si n d a i l y w o r ka n dl i f e h o w e v e r , m o s to ft h ei n f o r m a t i o n t r a n s m i t t i e di no u rs o c i e t yi sb a s e do ns p o k e nl a n g u a g e ，i t sd i f f i c u l tf o rh e a r i n g d i s a b l e dp e o p l et ou n d e r s t a n da n de n g a g ei nt h ep r i n c i p a lp a r to fc o m m u n i t y h e n c e ， t h eu l t i m a t eg o a lo fs i g nl a n g u a g es y n t h e s i si st op r o v i d eac o r r e c t , u b q u i t i o u sa n d e f f e c t i v ew a yo fg e n e r a t i n gs i g nl a n g u a g er e p r e s e n t a t i o na n db u i l daw i d e ra n d a c c e s s i b l ei n f o r m a t i o np l a t f o r mf o rt h eh e a r i n gd i s a b l ep e o p l e a st h et e c h n o l o g yo f 3 dv i r t u r a la v a t a rd e v e l o p s ，s i g nl a n g u a g ea n i m a t i o nh a sb e c o m et h em a i nr e s e a r c h d i r e c t i o ni n s i g nl a n g u a g es y n t h e s i s d u et oi t s f r i e n d l yi n t e r a c t i v i t y a n d c o m p r e h e n s i v ea p p l i c a b i l i t y d u et ot h ed e v e l o p m e n ts i t u a t i o no fc h i n e s es i g n l a n g u a g e ，r e s e a r c ho fc h i n e s es i g nl a n g u a g es y n t h e s i ss t a r t s l a t ea n dm o s to ft h e e x i s t i n gs y n t h e t i cs y s t e m sw o r ka st r a n s l a t o ro fs p o k e nl a n g u a g e ，w h i c ht r a n s l a t e c h i n e s ew o r d si ns p o k e nl a n g u a g ei n t oc h i n e s es i g n sw i t ha n i m a t i o ni n t e r p r e t a t i o n h o w e v e rt h ea m o u n to fc h i n e s es i g n si sm u c hl e s st h a ns t a n d a r dc h i n e s ew o r d sa n d m o s to ft h ei n f o r m a t i o ni sc o n t a i n e di na b u n d a n tv i s u a lp r o s o d y , p l a i nt e x td r i v e n s y n t h e t i cs y s t e m s ，w h i c hm i s st h et r a n s m i s s i o no fs u c hk i n di n f o ，n o to n l yi n f l u e n c e e f f e c to fs y n t h e s i sb u ta l s or e s u l ti nl e s su n d e r s t a n d i n go re v e nm i s u n d e r s t a n d i n g t h e r ea r en om a t u r er e s e a r c h e so nh o wt op r o v i d eam o r ee f f e c t i v ed e s c r i p t i v e s c r i p tf o rc h i n e s es i g nl a n g u a g er e p r e s e n t a t i o na n dh o wt oi m p l e m e n tc o n t r o la n d v a r i a t i o no fp r o s o d yb a s e do nt h er e s e a r c ho fl a n g u a g e f i r s t l y , t h i st h e s i sr e s e a r c h e s a n di m p l e m e n t sar e a l i z a t i o nm o d e lo fc h i n e s es i g nl a n g u a g ep r o s o d ya n dd e f i n e s t h ec o n t e n ta n dm e t h o do fs y n t h e s i z i n gp r o s o d y ；t h e ni te s t a b l i s h e sac h i n e s es i g n l a n g u a g em a r k u pl a n g u a g e ( c s l m l ) f o rs y n t h e s i sb a s e do np r e v i o u sw o r k t h i s m a r k u pl a n g u a g ei n c l u d e sa l lt h ei n f o r m a t i o nd e f i n e db yc h i n e s es i g nl a n g u a g e g r a m m a ra tp r e s e n tp h a s ea n di n t r o d u c e st h ec o n c e p to fs i g nl a n g u a g ep r o s o d yf o r t h en e e d so fs y n t h e s i st op r o v i d ei m p l e m e n t a t i o no fp r o s o d yw i t he f f e c t i v es u p p o r t f i n a l l y ，t h i st h e s i sd e s i g n sa n di m p l e m e n t s ac s l m l d r i v e nm e t h o do fc s l s y n t h e s i s ，w h i c hr e a l i z e sc o n t r o la n dr e p r e s e n t a t i o no fs i g nl a n g u a g ep r o s o d y b a s e d o nt h ef e a t u r e so fc s l m l ，t h em e t h o do fs y n t h e s i sp r e s e n t e di nt h i sp a p e rc a n p r o v i d es e p a r a t i o nb e t w e e nc o n t e n te d i ta n da n i m a t i o nr e a l i z a t i o n ，s oi tp r o v i d e s c r e a t o r saf l e x i b l ew a yo fc r e a t i n gs c r i p t sw h i l em a k i n gs u r et h er e a l i z a t i o np h a s ec a n u n d e r s t a n dt h er e q u i r ec o r r e c t l ya n dp r o d u c et h er e s u l ta st h e yn e e d k e y w o r d sc h i n e s es i g nl a n g u a g es y n t h e s i s ；c h i n e s es i g nl a n g u a g em a r k u pl a n g u a g e ； v i r t u a lh u m a nb e h a v i o r a la n i m a t i o n ；p r o s o d ym o d e l i n g i i l 独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：关于论文使用授权的说明日期：兰旱。本人完全了解北京工业大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文 ( 保密的论文在解密后应遵守此规定) 签名：璋兰垒导师签名：日期：竺21 竺第1 章绪论第1 章绪论 1 1 课题研究背景及意义随着人机交互技术的不断发展，具有高度真实感的虚拟形象( e m b o d i e d a g e n t ) 因其更低的人力消耗、更灵活的产生、编辑方式被广泛应用于各种交互领域，推动人机交互接口向着更为友好、自然的方式发展，手语合成更是其中的一项重要应用。由于聋人对由口语文法创建的书面文本存在阅读障碍使其对信息的接收效率远低于健听人，所以目前手语合成研究主要集中在自然文本到手语动画的实时翻译、合成技术，其核心作用是辅助聋人无障碍地接受和理解健听人创建的信息，为其搭建无障碍的信息交流平台。手语作为一种独立的视觉语言，它的主要特点就是多模式( 手、头部、面部表情、身体) 协同发音，主要目的是表达语义和交流情感在语言学中，韵律的概念最为突出的体现了人类表达中最有别于机器合成语言的特征：节奏、音调和情感等。在手语表达中，这种韵律特征更是通过多种发音方式协同表达，而且和语义、语法密切相关。现有手语合成系统主要研究手势的可视化方法，缺乏对于韵律特征的有效表达，尤其是非手部行为的表达，不仅影响合成效果的真实感还会导致可懂度的下降甚至产生理解上的歧义。在智能虚拟人研究领域，越来越多的研究人员开始关注于人类交流过程中真实感姿态表达方式以及情绪变化对行为的影响等。其中，会话虚拟人 ( e m b o d i e dc o n v e r s a t i o n a la g e n t ，e c a ) 与手语合成有着最为相似的研究背景。e c a 关注口语交流环境中虚拟人整体行为的产生，其中非语音行为的多模式协同作为口语表达的辅助要素对于传递语义和情感、构建真实感的虚拟人起十分重要的作用。e c a 合成系统通过将人类学、心理学、语言学等多学科知识引入到虚拟人行为建模中，构建基于语义、情感、个性等特征量的多模式行为产生控制模型，提高合成行为的灵活性、多样性，使虚拟人能够更具智能化、情感化，更接近人类表达和交流时的真实状态。由于脱离了有声语言这种载体，手语中非语音行为所包含的信息远远超过了一般健听人交流中自然、随机、无特定表征的伴随动作中的信息量，在语言表达的可懂度和真实感上起决定性的作用，因此构建与手语表达特征相适应的多模式行为计算模型将对提高合成效果的可懂度和真实感起重要作用然而，目前中国手语合成系统主要采用自然语言到合成参数的直接转化，导致大量韵律信息的丢失并且不具备对于手语特征的有效描述，无法对构建计算模型提供有效的内容和结构支持，在很大程度上限制了合成系统的计算、表达能力。国外的会话虚拟人系统多采用基于描述语言的脚本驱动方式，在会话北京工业大学工学硕士学位论文文本的基础上引入会话意图、语言韵律特征等标记，不仅对实现高层行为控制模型提供了有效支持，并且提供了一种准确、形象编辑、定义合成效果的规范化手段。考虑到现有手语描述语言并不能精确地表达中国手语的某些特性( 如：书空和仿字等) ，因此设计并实现针对中国手语的描述语言并将其应用于中国手语合成系统是提高合成效果的关键问题之一。在语言学领域中国手语还没有形成统一的、完整的符号描述系统，因此本文针对现有手语描述语言应用于中国手语描述的不足，并基于现有手语描述语言的研究基础提出可扩展的改进方案。综上所述，本文的主要研究目标是设计并实现中国手语描述语言，并在此基础上构建面向中国手语韵律信息表达的多模式行为计算模型，改进系统的驱动方法，增强合成效果的可懂度和表现力。 1 2 国内外研究现状本文的主要研究内容是在手语合成( s i g nl a n g u a g es y n t h e s i s ) 中引入手语语言学( s i g nl a n g u a g el i n g u i s t i c s ) 关于韵律的相关理论基础，即在手语合成的多模式行为产生中体现语言学本身的韵律属性，在高层面挖掘改进手语动画表现力的可能性。其次，会话虚拟人( e m b o d i e dc o n v e r s a t i o n a la g e n t ，e c a ) 系统在虚拟人姿态控制方面的研究成果提供了大量可参考的思想和方法。因此，本节对上述三个方面目前的研究现状分别进行综述，并针对本文借鉴和改进的部分进行了分析。 1 2 1 手语合成的研究历史及现状最早的计算机手语合成起始于美国，s h a n t z 和p o i z n e r t l 】在1 9 8 3 年实现了一个用计算机合成美国手语的b a s i c 程序。此后，世界各地的研究组织纷纷开展了针对各自国家手语语言的合成研究，并做出了许多有益的尝试，使得手语合成成为利用计算机进行姿态( g e s t u r e ) 表达领域十分活跃的研究方向，并产生了许多令人欣喜的研究成果。早期的的手语合成研究【2 - 4 1 主要集中在如何实现语言之间的翻译转换以及如何正确、形象地表达丰富的手势姿态，因此手语合成技术主要用于自然语言到手语词汇的机器翻译，并主要局限于手部、上肢运动的表达。虚拟人由于缺乏面部表情等其他表达渠道而呆板、不自然，很难被用于情景和语言的表达中。随着手势表达技术的逐步成熟，人们开始更多的关注手势以外手语的其它组成部分，尤其是与语法、语义和情绪密切相关的表情研究。有学者专门研究了在手语表达中人脸表情以及其它模式的重要性，结果表明缺乏人脸动画的手语合成的可懂度只有6 0 7 0 1 引。n o r m a lb a d l e r 6 j 提出p a r ( p a r a m e t e r i z e da c t i o n r c p 瞄雠i o n ) 参数化运动表达模型，用于e m o t e 系统中，该模型根据知识为虚拟人自动生成一些控制参数用于美国手语以及表情台成1 9 9 4 年，爱尔兰 t n n 时大学的c o n w a y 等人基于a s l 语言学特征提出了l e x i c a l ，p h o n o l o g i c a l 及 p h o n c t i c 三级结构以提高手语表达的真实感，但并没有得到具体实现1 ”此外，数据手套、运动捕捉设备的使用大大简化了手势和身体运动数据的采集和编辑过程在后来的研究获得了普遍的应用美国的a d a m o - b i l l a n i 实验室的j o h n d o u b l es t e i n 等人研发了一个面向聋哑几童的高空互性美田手语合成袭遮教学系统口1 ( 如图l - 1 ) 。该系统的三维虚报人模型采用m a y a 7 0 进行建模，所有的手语动作数据由运动捕获设备采集得到通过使用该系统，聋哑儿童可以和盘拟人用手语进行直接的数学教学互动。但该方法受限于数据集的规模，只适合于某特定场景下的应用，不适于作为普遍的手语表达方式图l - 1 美国手语教学教学系统 f i 9 1 - 1 a s l k 啊h bs y s t e m 2 0 0 0 年2 0 0 4 年，德国h a m b u r g 大学为代表的研究组织开发了一套旨在推广德嗣手语信息服务的手语系统( 图l _ 2 ) 该项目分为两个阶段 v i s i c a s t ( 2 0 0 0 - 2 0 0 2 ) 9 o 和e s i g n ( 2 0 0 3 2 4 o 其在手语合成系统的表现力和灵活性上做出了广泛的尝试提出一种新的脚率驱动的手语合成方式w ，以手势姿态符号语言h a m n o s y s i ”】取代自然语言文本进行手语内容的编辑。 h a m n o s y s 中包含了手语表达的基本信息，如手势、表情等系统以白行设计开发的标记语言s i g m l “悱为h a m n d s y s 的机器表示并根据人体测量学和动力学等信息进行参数化直接生成手语动画由于h a m n o s y s 本身相比自然文本蕴涵更丰富的姿态信息在描述层面确保了生成动画的真实性与准确性。同时为动画脚本的编辑方式提供了灵活性和便捷性2 0 0 4 年雅典奥运会时，希腊也把同样的合成框架用于开发对于s 印w t i n 一嘲v s i g n v c o m 3 d 6 公司开发的s i g n i n g - a v a t a r 和s i g ns m i t hs m d l 0 系统采用了基于l i d d e l l j o h n s o n 手语描述系统的x m l 脚本进行驱动o 。g e s s y c a 系统利用q 啮l g e 醑语描述系统实现一种面向法国手语的驱动脚本i l t l 。t h e t o s 系统实现了波兰手语合成i z g ) 图l oe s i 印中虚拟人手语动画表达旧 f i g1 - 2s i g n l a n g u a g ea n i m a t i o n i n e s i g a 中国手语合成研究受限于中国手语语言学本身起步较晚，因而在近十年左右才开始逐渐受到研究人员的关注。中国手语合成研究方面起步较早的单位有浙江大学计算机系人工智能研究所凹啪哈尔滨工业大学计算机科学与工程系高文教授领导的科研小组l 。中国科学院计算技术研究所通过运动捕获技术建立了中国手语词词库并在此基础上开发了基于虚拟人动画技术的中国手语合成系统，取得了丰硕的成果陋2 “。但其主要功能表现为汉语到中国手语的机器翻译仍缺乏对于韵律特征、情感、意图等更高层次行为的表达和控制在可懂度和自然度上仍有待进一步提高。 2 2 会话虚拟人合成技术研究历史及现状在虚拟人姿态表达研究领域中还有一个分支近来正逐渐成为学术界关注的热点，即会话虚拟人。它主要研究虚拟人在会话环境下如何利用自然、流畅的身体语言来辅助声音语言，以更接近自然人的对话方式表达丰富的语义、情感信息从而提高合成行为的真实感。会话虚拟人系统提供了行为的描述及控制机制：行为描述机制提供了对于合成效果的规范化描述方法，确保了台成行为的可控性；行为控制机制根据交互输入、会话内容等信息实时计算虚拟人说话过程中应在何时、产生怎样身体行为在合成行为可控性的前提下增强了灵活性和自主性，为动画的自动生成提供了有力的支持。本课题所涉及的研究主要体现为在手语合成系统中实现类似于e c a 系统的行为描述及控制机制。绝大部分的e c a 控制机制都是由规则驱动的所以规则的提取和定义成为影响真实感的关键因素。k i p p 较早的开始了对真实感行为的分析，并设计和开发t a n v i l 视频分析工具( 图l - 3 ) 。该工具由于提供了多模式行为的分层标注和处理功能被广泛应用于手语研究和行为分析领域。其后，k i p p 创建了c o h i b i t 系统口”该系统允许虚拟人作为汽车导购员和用户进行交流，他设计的行为编辑器可以根据经验规则在文本基础上自动生成标注、驱动动画生成在虚拟人交互能力上取得较人提高。圈1 - 3 多模式行为标注工具a n “i 口1 f i g1 - 3 m u l t l - m o d a lb d a a v i o r a n o n t i o n t o o l a n v i l c a 幽c d n cl k l a c h a u d 等人利用a n v i l 分析工具着重研究人类行为的情感因素，并利用m 唱c a l d o g n e t t oa n dp o g g i 提出的“m 啦i 叫s c 0 矽统计分析方法建立了情感驱动下的行为动画库，供高层脚本调用图i _ 4 展示了其台成不同情感下的表情效果印l 。图1 4 虚拟人在“肯定”和“满意”条件下的行为变化侧 f k i - 4 v a r i a t i o n o f v i r t u a l h u m a n sb e h a v i o r m m h fa n d s “s f a c t i o n c o n d i t i o n e c a 研究中由于涉及多模式的行为产生为了便于人为的理解和机器的传输、解析，一般采用基于x m l 格式的标记语言来记录对文本进行标注后的商层行为。在这方面不同的系统闻的数据格式往往不完全通用，但基本都依据比较规范的几种模式去扩展或缩减。其中比较典型的几种标记语言为：定义身体姿态的b m l 【州以及定义会话意图和情感的a p m l 川。 1 2 3 手语韵律的研究历史及现状语言学中韵律的概念最初产生于对口语即有声语言的研究。经研究表明韵律特征是语义和情绪表达的重要形式之一期，心理学实验表明其在语言的传递和理解上起十分重要的作用【川。韵律是语言构成的一致性特征，但不同语言的韵律特征又各具特色。由于韵律特征在语言产生和理解中所处的重要地位，计算语言学中研究人员将其0 l 入语音合成领域，实验表明能否有效表达韵律特北京工业大学工学硕士学位论文征对合成语言的准确与自然度具有决定意义p 引。手语早己在世界范围内被认定为一种独立的语言，具有特定的语法和组织结构。在手语研究方面美国、荷兰、以色列、日本等国家发展的比较快，已建立了规范的语法体系。研究表明语言在一定程度上具有一致性p 引，无论是有声语言还是手语都具有韵律这一特征。美国语言学家e i l e e nf o r e s t a l 指出，韵律就是任何语言中用以产生节奏、重音和感觉信息的所有特征的集合。在手语中表现为多种行为的共同作用，像头部、肢体的运动，眼部的运动、嘴部的运动，以及打手势的速度、节奏和停顿等。在手语研究中尤其强调非手势韵律特征在语义的表达甚至语法结构的组成上所起的作用【3 7 】。w e n d ys a n d i e r 3 6 1 指出口语中韵律的重要特征音调和语气主要是通过面部的特征以及身体的运动来体现，是手语表达中不可缺少的组成部分。b o s t o n 大学的语言学研究所总结了美国手语的一系列韵律特征，并开发了专门用于辅助手语视频分析和标注的工具软件 s i g n s t r e a m 3 8 】，该软件可在一定程度上对预定义的韵律特征进行自动识别。 b r e n d an i c o d e m u s 研究了美国手语中非手势姿态对韵律边界划分所起的作用，通过视频分析和人工标定总结了一系列韵律特征并对其作了定性的分析 3 9 1 。中国手语研究起步较晚，在语法和韵律特征上都还没有形成一致性的标准。但在手语语言学界以及广大聋人中，韵律特征的存在性和非手势姿态的重要性都已被广泛承认，且已有了部分定性的分析【州2 1 。在健听人担任聋人翻译的场合，只单纯地关注手势形状信息而忽略了对手语表达和理解起重要作用的表情和身体信息，因缺乏韵律导致聋人的理解度较低。因此，中国手语韵律研究不仅在手语语言学中是一个重要的研究方向，在计算机手语合成中也不例外，类比于t t s 的语音韵律合成研究，如 4 3 】所述手语韵律的深入挖掘势必会对提高手语合成的可懂度和真实感产生重要的影响。 1 3 论文的主要研究目标及内容 1 3 1 项目来源本文的研究课题来源于国家自然科学基金重点项目“普适计算研究一手语无障碍信息服务的普适计算( n o ：6 0 5 3 3 0 3 0 ) ，国家自然科学基金一国家杰出青年科学基金“面向中国手语播报的数据压缩与视频编码方法研究”( n o ：6 0 8 2 5 2 0 3 ) 和北京市教委科技发展计划“语义e m a i l 研究”( n o ：k m 2 0 0 7 1 0 0 0 5 0 2 3 ) 。第1 章绪论 1 3 2 研究目标本文在收集和整理大量国内外相关资料的基础上，对手语合成系统的研究现状进行了深入的分析，针对其在因缺乏手语韵律表达而导致可懂度与真实感偏低的问题上，结合e c a 、t t s 及手语语言学等相关领域的研究成果，确定本文的主要研究目标如下： ( 1 ) 研究中国手语韵律变化的控制与实现机制手语作为一门独立的语言，其主要目的在于传递沟通的内容、意图以及情绪，使得参与对话的双方能够无障碍的进行交流。因此，手语合成最终目标为最大程度上仿真、还原聋人在手语表达过程中的方式和方法，在合成结果中准确的反映那些对沟通内容的接收及意图、情绪的感知密切相关的信息目前手语合成系统已经能够准确有效地传递绝大部分沟通内容，并以视频、虚拟人动画等多种方式实现，但对于沟通意图、情绪等与语义相关的信息却缺乏有效的表达。在语言学中，韵律是一种基本的语言现象。它是信息发送者在语义、沟通意图和情绪的综合驱使下形成的一种外在特征。因此也是接收者需要捕获的重要内容，它对理解和感知对话的内涵起到非常重要的作用。为了提高合成手语的真实感与可懂度，本文在现有手语合成系统中引入中国手语韵律变化的控制与实现机制，提供实时调整并生成所需手语韵律的能力 ( 2 ) 建立标记驱动的手语合成方式自然文本驱动的手语合成难以表达和记录手语合成中所需的所有信息，尤其是缺乏韵律等记录语言特征的信息。为了能够准确地描述所需的合成效果，分离编辑与实现的过程，需要通过定义完整、有效、规范的面向合成的手语描述语言。以该描述语言作为标记文本驱动的手语合成系统不仅本身可以定义明确、清晰、多样化的合成内容以及效果，并且可以将该标记文本作为对外的数据接口嵌入其它的合成系统中，通过多种方式获取描述脚本。该标记语言的主要目的为描述手语特征和现象，因此定位为以高层的、行为级别的形象化语言为主，低层的、机器化参数语言为辅。 1 3 3 研究内容根据本文的研究目标，确定本文的具体研究内容如下：研究语音合成( t t s ) 、会话虚拟人( e c a ) 系统中韵律的实现原理及方法，明确中国手语韵律的表现形式及影响因素，建立面向合成的中国手语韵律模型；研究现有合成系统中标记语言的设计原理及方法，依据中国手语的语言特征、语法规范以及韵律模型，设计面向合成的中国手语描述语言；北京工业大学工学硕士学位论文研究现有手语合成系统的架构及虚拟人行为实现方法，建立中国手语描述语言驱动的手语动画合成系统，并实现韵律变化的控制。 1 4 论文的结构本文共分5 章，论文的结构安排简述如下：第l 章介绍了课题研究的背景及意义，国内外研究历史及现状，定义本文的主要研究目标、研究内容及文章结构。第2 章介绍了本文研究内容中所涉及的手语合成相关概念及原理。第3 章分析中国手语语言特性，阐述本文对中国手语韵律模型的设计。第4 章分析中国手语标记语言的设计需求，阐述本文对中国手语描述语言的设计，并给出详细的规范说明。第5 章阐述原型系统的架构设计与实现过程，并对实验结果进行分析。最后，对本文工作进行总结，并对针对现阶段存在的不足进行规划和展望。第2 章标记驱动手语合成原理概述 21 标记驱动的手语合成方法 2 1 1 合成系统架构目前经蝇的手语合成架构( 如图2 - 1 所示) 通常分为三个处理阶段【1 ”。第一阶段，完成自然语言到手语语法结构的转换；第二阶段完成动画参数的生成：第三阶段完成绘制和渲染。在相邻的两个阶段间存在通用的、统一的数据接口，音韵层接口( p h o n e t i c l e v e li n t e r f a c e ) 和绘制层接口( r e n d e r i n g l e v e l i n t e r f a c e ) 完成从自然文本到绘制参数的数据转换。语音层接口( 即手语描述语言) 的引入，为分离合成内容的剖建阶段与产生阶段提供了有效的支持。手语描述语言既可以通过自然语言处理模块自动产生，又可以通过建立专属的编辑器提供便捷的内容编辑和共享。经规范化设计的手语描述语言填补了自然文本中所缺失的信息，增加了灵活性和可控性，为提升手语动画的表现力，提高真实感及可懂度奠定了基础。图2 - 1 手语台成系统的基本架构 f i g2 - 1b f r a m e w o r ko f s i g a i “g u a g es y n t h e t i cs y s t e m 2 12 手语描述语言设计方法现有的手语描述语言主要工作于音韵层接口所谓“音韵( p h o n e t i c ) ”在语言学中涉及音素( p h o n e m e so rp a r a m e t e r s ) 的构成及其相互之问的组织方式。手语中定义了五种音素，于形、手掌的朝向、位置、运动和非手部的行为，不同的音素组合构成了不同的手势。语言学家通过构建基于音素的符号系统来记录每个手势的构成【1 4 l 1 6 1 ，进而描述手语的表达内容。最初语言学上的手语符号系统只是作为手语的书面记录方式而被创建现在这些符号描述被用作合成系统的语音层接口提供准确的行为信息作为动画的驱动脚本。这些直觉化的符号描述虽然易于被人理解却不利于机器处理所以目前大多数合成系统都设计了基于x m l 格式的标记文本作为符号系统的等价应用，如： 1 5 1 7 。这种描述语吉作为手语符号系统的机器翻译，能够提供形象化的于势描述，对建立准北京工业大学工学硕士学位论文确、形象化的姿态表达具有重要的意义。图2 - 2 展示了英国手语中，单词房子如何通过h a m n o s y s 符号、s i g m l 以及手势分别进行表达。但依据语言学符号系统所建立的描述方法并不能完整体现手语表达中和语义相关的内在信息，在一定程度上限制了合成效果的表现力。此外，由于手语语言学的符号系统并不具备完全的通用性，因此现有x m l 手语描述语言也不能直接应用于中国手语的表述。 o 吣人x h o “：巍s t u ：a l _ a i g n ，g l o - - - ， i c u t h 土丑at 工r ， b a n d t o n i t e l l 乞i o nc o i t o t - 。t o u c h ， d i r e c t e d m o t i o nd i ：e c ：i o n - o d r o s i g nm n u l h a 哪o s t u r a l 一i g n i 1 图2 - 2 “房子”在英国手语中分别用h a m n o s y s 符号系统、手势姿态和s i g m l 进行表达【1 3 】 f i g2 - 2 “h o u s e ”i nb s li sp r e s e n t e db yh a m n o s y sn o t a t i o ns y s t e m ，h u m a ng e s t u r e sa n d s i g m l 2 2 会话虚拟人系统中韵律的实现方法会话虚拟人( e m b o d i e dc o n v e r s a t i o n a la g e n t ，e c a ) 主要研究如何在语音合成研究成果的基础上引入对非语言行为的控制和产生，模拟健听人在说话时多模式行为自然协同表达语义的能力。 2 2 1 语音韵律的实现方法中国手语韵律和汉语语音韵律虽然表现形态不同，但在语言的本质属性上具有共性，可以通过相似的方法进行研究。在汉语语音合成研究中，通常采用两种策略实现韵律【3 5 】：大规模数据驱动的拼接方法以及经典的三层转换计算方法。 2 2 1 1 大规模数据驱动算法类似于手语合成中基于视频拼接的方法，首先建立大规模的语音数据库，确保数据库中具有各种韵律现象的样本，并对其进行手工标记。其次，在合成时将给定的高层韵律描述通过搜索和匹配算法，找到数据库中最符合需要的样本基元进行拼接，实时生成连续的语流。这种方法对数据库的规模、标注的体系和搜索算法都具有较高的要求，对于手语合成这种第2 章标记驱动手语合成原理概述多模式、多样化表达的视觉韵律并不是一种高效的做法。 2 2 1 2 经典的三步转换策略将韵律的实现划分为三个步骤：( 1 ) 从文字到高层面的韵律符号描述( 如韵律的层次结构和边界位置、语句重音的位置及等级、语调和语气等) 的转换；( 2 ) 从韵律的符号描述到韵律的声学参数( 如音高、音长、音强、停顿等) 的转换，即通常所说的韵律模型的功能；( 3 ) 在合成语音中实现韵律的声学参数。手语动画合成在底层实现参数上具有很强的可控性和变化能力因此通过建立分层的结构的思想能够很容易的转移到手语动画合成中。实现这种策略的关键问题在于：明确高层符号、底层参数以及建立韵律模型。 2 2 2 非语音韵律的实现方法 2 2 2 1 非语音行为韵律特征在会话环境下虚拟人行为是一种非随机产生的、功能性行为。它与语言的表达密切结合，随着语音韵律的变化而变化，具有功能、状态上的一致性，因此也形成了视觉上的韵律信息。a r g y l e 删将非语音行为的产生机制归纳为图2 - 3 所示的过程。对话的发起者首先产生对话的意图，即要传递的信息( 情绪状态等) 。这种意图通过多模式行为编码后传递给对话的接收者，接收者通过解码这组行为最终感知到对话发起者的意图。a l l w o o d 4 5 j 将非语音行为和表达意图之间的这种关系定义为：多对多的关系；即一种行为可以表示多种语义，一种语义也可通过多种行为表达。因此，建立非语音行为的韵律实现过程，主要需要解决三方面的问题：定义表达意图；定义多模式行为：定义二者之间的选择方式。 f e e db a c k - 。一一一一一一。- - 一- 回intention ii k _ - _ 一 p e r s o n ： o re c a ( s o u r c e ) o t h e re c a ( d e s t i n a t i o n ) 图2 - 3 手语合成系统的基本架构【拍】 f i g2 - 3b a s i cf r a m e w o r k o fs i g nl a n g u a g es y n t h c t i cs y s t e m 2 2 2 2 基本框架为了能够实现对于这种虚拟人行为产生机制的模拟，达成在合成系统中实时控制虚拟人行为表达的目的，k o p p 等人提出如图2 - 4 所示s a i b a 框架。该框架已经成为目前虚拟人多模式行为产生的基本模式该框架被划分为三个部分：意图规划模块( i n t e n tp l a n n i n g ) 、行为规划模块( b e h a v i o r 北京工业大学工学硕士学位论文 p l a n n i n g ) 、行为实现模块( b e h a v i o rr e a l i z a t i o n ) 。其中，行为规划模块所完成的功能和本文要实现的视觉韵律控制具有相似性，用于计算虚拟人行为产生的具体时间和方式。它以对话意图描述作为输入，并以行为规划结果作为输出。功能模块间均采用标记脚本作为驱动，规范数据的描述并降低功能模块间的耦合性。书渊 i n i 矾p h 耐莲蓬 q 铡鼬。删 9 圃图2 - 4s a i b a 架构用于多模式行为产生p q f i g2 - 4s a i b af r a m e w o r k f o rm u l t i - m o d a lb e h a v i o rg e n e r a t i o n 2 2 2 3 行为驱动意图行为驱动意图的研究是心理学领域一个重要课题，本文主要研究并引用了p o g g i 建立的一种简化的、在e c a 领域取得广泛应用的会话意图模型【2 9 1 。该模型将影响虚拟人行为的对话意图分为三个部分：( i ) 对世界的认知；( 2 ) 精神状态；( 3 ) 身份特性。对世界的认知，主要用于构建复杂场景下参与场景交互的虚拟人，通过对交互场景的认知会对交互条件作出适时的反应行为。精神状态，主要包括三方面的内容：信仰、目标和情绪状态。信仰，指的是说话时对说话内容确定的程度；目标，表示说话时所采用的语气或方式，如：请求或命令。身份特性，记录了虚拟人的年龄、职业、性别等个性以及社会性信息。这些信息的综合作用下，产生了人最终的非语言行为。 2 2 2 3 行为规划方法真实情况下，由会话意图决定行为选择的过程是非常复杂的。目前还没有办法对其进行科学、严密的推理和计算。在e c a 中，行为规划通常采用三种方法进行简化计算。 ( 1 ) 基于规则：基于规则的计算方法，采用知识经验直接定义对话意图到行为的映射方法，简单、直观但合成效果往往受限于规则的单一化。虚拟人行为规划研究处于起步阶段，目前基于规则的算法仍然占据主要地位。m o n i c i t 4 6 l 提出了一种增强规则计算有效性的方法，即定义行为优先级、虚拟人习惯状态等辅助性因子 ( 2 ) 基于学习算法：【4 7 4 8 采用置信网( b e l i e f n e t w o r k s ) 建立了虚拟人情绪和表情之间的映射计算关系，合成具有较强真实感的虚

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）标记语言驱动的中国手语合成研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）标记语言驱动的中国手语合成研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档