(信号与信息处理专业论文)基于fujisaki模型的情感语音信号分析与合成.pdf_第1页
(信号与信息处理专业论文)基于fujisaki模型的情感语音信号分析与合成.pdf_第2页
(信号与信息处理专业论文)基于fujisaki模型的情感语音信号分析与合成.pdf_第3页
(信号与信息处理专业论文)基于fujisaki模型的情感语音信号分析与合成.pdf_第4页
(信号与信息处理专业论文)基于fujisaki模型的情感语音信号分析与合成.pdf_第5页
已阅读5页,还剩81页未读 继续免费阅读

(信号与信息处理专业论文)基于fujisaki模型的情感语音信号分析与合成.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 摘要:语音信号处理作为一个研究领域,已经有几十年的历史,其中的语音合成 技术在可懂度和自然度上已达到了相当的水平。随着语音合成技术的推广和应用, 对语音合成的质量提出了更高的要求。如果在语音合成过程中结合情感计算领域 的研究,赋予语音感情色彩,使得合成的语音能够表情达意,那么语音合成的质 量必将大大提高。 本文的研究目的是实现语音信号的情感表达,依据从信号提取情感特征专归 纳情感与特征参数之间的关联规律兮将特征参数作用于语音信号以进行情感转 换的思路进行研究。 论文首先概述了课题的研究背景及情感语音技术的发展历史,介绍了情感空 间的界定,提出了本文的情感分类方法,在情感分析用语音资料的标准和分析条 件还没有被提出的条件下,针对语音语调受众多因素影响的特点,为了突出语音 中的情感特征,设计、建立了实验用情感语音库;通过分析库中携带己知情感状 态的语音,提取了表达语音特征的韵律类和音质类参数,用仿真实验对比了这两 类参数在情感表达上的效果,选定基频曲线作为工作的切入点;之后利用一种改 进的适合于汉语的f u j i s a k i 模型给基频曲线以定量的描述,总结出在不同情感状态 下特征参数的表现规律,将f u j i s a k i 模型的应用推广到了情感表达的方向;在语音 合成阶段,采用了一种基音同步的声韵母拼接方法,用很少的无调的基元合成了 带有声调的语音;最后把体现语音情感的规则应用到合成的语音中去,用p s o l a 算法实现语音的情感转换。 工作的创新之处有以下三点: 1 、通过修改f u j i s a k i 模型中的声调表达分量,使模型更适合汉语的表达特点, 并将该模型与表达情感的特征参数结合,从而将该模型的应用于情感表达方向; 2 、利用归一化的声调调型模型,涵盖汉语普通话中的基本调型和常见变调现 象,并通过仿真实验证明了该方法的有效性; 3 、提出了一种从韵母中提取基音同步模板、基于基音同步的声韵母拼接合成 的方法,实现了由语音库中的无调的声韵母合成带有四种声调的语句,并实现其 情感转换的过程。 关键词:情感语音合成;基频曲线;f u j i s a k i 模型;基音同步叠加( p s o l a ) 算法 分类号: a b s t r a c t 一一 a bs t r a c t a b s t r a c t :s p e e c hs i g n a lp r o c e s s i n gh a sb e e ns t u d i e df o rd e c a d e sa n d t h es p e e c h s y n t h e s i st e c h n o l o g yh a sb e e ng r e a t l yi m p r o v e d b o t ho nt h ea c c u r a c ya n dn a t u r a l n e s s h o w e v e r , t h ei n t e l l i g e n to fs y n t h e s i z e ds p e e c hi sr e q u i r e ds i n c et h ed e v e l o p m e n to f t e c h n o l o g y i fs p e e c hs i g n a lp r o c e s s i n gi sc o m b i n i n g w i t he m o t i o n a lc o m p u t ea n dm a k e i tp o s s i b l ef o rt h ec o m p u t e rt oe x p r e s se m o t i o n a ls p e e c h ,t h eq u a l i t yo fs p e e c hs y n t h e s i s w i l li m p r o v e dg r e a t l y i no r d e rt os y n t h e s i se m o t i o n a ls p e e c h ,t h ea n a l y s i sa p p r o a c hi sa sf o l l o w s :e x t r a c t i n g t l l e锄o t i o n a lc h a r a c t e r i s t i c s f r o mt h e e x p r e s s i v es p e e c hs i g n a l 争m a p p i n g c h a r a c t e r i s t i cp a r a m e t e r st ot h ed i f f e r e n tc l a s s e so fe m o t i o n - - - - s y n t h e s i st h ee m o t i o n a l s p e e c hw i t ht h er e l e v a n tc h a r a c t e r i s t i cp a r a m e t e r s i nt h eb e g i n n i n go ft h i sp a p e r , t h er e s e a r c hb a c k g r o u n da n dh i s t o r yo fe m o t i o n a l s p e e c hp r o c e s s i n ga r er e v i e w e d a f t e rt h a t ,s o m em e t h o d s o fc l a s s i f y i n ge m o t i o ns p a c e s a i ei n t r o d u c e da n dt h ee m o t i o n a lc l a s s i f i c a t i o nu s e di nt h i sp a p e ri sp r e s e n t e db a s e do n w h i c hw eh a v eb u i l ta ne m o t i o n a ls p e e c hc o r p u sf o rt h ee x p e r i m e n t t h r o u g ha n a l y s i s t h ee m o t i o n a ls p e e c hi no b rc o r p u s ,w ee x t r a c t e dt h ep r o s o d yf e a t u r ea n d v o i c eq u a l i t y p a r a m e t e r sa n dc o m p a r e dt h ea f f e c t i v ee f f e c to ft h o s et w o k i n d so fp a r a m e t e r s t h e nw e u s e da ni m p r o v e df u j i s a k im o d e lt od e s c r i b et h ef u n d a m e n t a lf r e q u e n c ya n dd e s i g n e da r u l ef o rt h ep a r a m e t e r ss e t t i n g i nt h ep r o g r e s so fs p e e c hs y n t h e s i s ,ap i t c hs y n c h r o n o u s m e t h o do ft h ei n i t i a lp o r t i o na n df i n a lp o r t i o ni sa p p l i e d f i n a l l y , m o d i f yt h ea f f e c t i v e f e a t u r e su s i n gp s o l at os y n t h e s i st h ee m o t i o n a ls p e e c h t h em a i ni n n o v a t i v ep o i n t so ft h i sp a p e ra r ea sf o l l o w s : 1 ) m o d i f i e dt h et o n ec o m m a n do ff u j i s a k im o d e lt om a k e i ts u i t a b l ef o rm a n d a r i na n d o o m b i n e dt h em o d e lw i t he m o t i o n a lf e a t u r ep a r a m e t e r si no r d e r t oe n h a n c et h em o d e l s a f f e c t i v ee x p r e s s i v ea b i l i t y ; 2 1p r o p o s e dan o r m a l i z e dt o n em o d e lt or e p r e s e n tt h eb a s i ct y p eo ft o n e sa n dt o n e s a n d h ia n dp r o v e di t sv a l i d i t yb ys i m u l a t i o ne x p e r i m e n t ; 3 ) p r o p o s e dap i t c hs y n c h r o n o u sp a t t e r no f f i n a l lp o r t i o nb a s e dc o n c a t e n a t i v em e t h o dt o s y n t h e s i sm a n d a r i n k e y w o r d s :e m o t i o n a ls p e e c hs y n t h e s i s ;p i t c hc o n t o u r ;f u j i s a k im o d e l ;p s o l a c l a s s n 0 : v n 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: f 每南 导师签名: 扬凡k 1 , 1 签字日期:弦钌年易月7 pe l 签字日期:y 屹年月or 独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名: 飞已耄j 签字日期: 矽弋年名月f r 矿日 致谢 本论文的工作是在我的导师苗振江教授的悉心指导下完成的,苗振江教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年来 苗振江老师对我的关心和指导。 苗振江教授悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,在此向苗振江老师表示衷心的谢意。 在实验室工作及撰写论文期间,实验室的同学们对我论文中的研究工作给予 了热情帮助,在此向他们表达我的感激之情。 在此还要特别感谢我的爸爸妈妈,他们的理解和支持使我能够在学校专心完 成我的学业。 引言 1 引言 随着计算机技术突飞猛进的发展,对于计算机的利用已经渗透到人们同常生 活的各个方面。在现代社会,人们逐渐习惯借助计算机来完成各项事务,可以说, 随着信息技术的高速发展,人类对计算机的依赖性不断增强。因此,人机的交互 能力越来越受到研究者的重视。如何实现计算机的拟人化,使其能根据周围的环 境以及对象的状态等内容,自适应地为交流对象提供最友好的操作环境,消除操 作者和机器之间的障碍,己经成为下一代人机界面发展的目标。语音是人际交流 的最习惯、最自然的方式,也是众多信息载体中具有最大信息容量的信号,具有 最高的智能水平。人们在提高计算机系统智能化水平时,很重要的一步就是寻求 最好的语音信息交换手段。语音作为语言的声音表现形式其中不仅包含了语言学 信息,还包含了人们的感情和情绪等非言语信息。例如,同样一句话,往往由于 说话人的情感不同,其意思和给听者的感觉就会不同。传统的语音处理系统仅仅 着眼于语音词汇传达的准确性,而完全忽视了包含在语音信号中的情感因素,所 以它只是反映了信息的一个方面。直到近年来,由于情感和态度所引起的变化对 语音合成、语音识别、话者证实的影响较大,才逐步引起了人们的重视。 斯坦福大学的r e e v e s 和n a s s 的研究发现表明,在人机交互中所需要解决的问 题同人和人交流中的重要因素是一致的,最重要的都是“情感智能 的能力。让 计算机具有情感能力首先是由人工智能创始人之一、1 9 7 0 年计算机图灵奖获得者, 美国麻省理工学院m i n s k y 教授在1 9 8 5 年【1 】提出的,他指出问题的关键不在于智能 机器能否具有情感,而在于机器实现智能时怎么能够没有情感,情感是计算机智 能化的一个重要的标志。 1 1 选题背景及意义 我们人类的情感表达方式是多种多样的,可以通过言语、姿势或者文字等表 达,比如一个眼神、一声叹息都能传情达意,我们称之为多模态的表达方式。语 音的情感分析就是研究情感或者情绪是如何通过语音的声学特性传递、表达的。 目前有许多关于语音和情感之间相互联系的研究:如美国、日本、欧洲、韩国等 许多国家的一些研究单位都在进行情感语音处理的研究工作。国际口语处理大会 ( i n t e r n a t i o n a lc o n f e r e n c eo ns p o k e nl a n g u a g ep r o c e s s i n g i c s l p ) 的论文集中有关 这方面的研究论文在逐渐增多。国内的东南大学也较早开始了这方面的研究,中 科院、清华大学、微软亚洲研究院、中国台湾的一些大学和研究所也在进行研究。 北京交通大学硕十学位论文 现有的普通话语音合成系统,主要解决以某种朗读风格将书面语言转换成口 语输出,多着眼于语音词汇传达的准确性,而忽略了包含在语音信号中的情感因 素瞳1 。语音合成技术已经发展了几十年,合成语音的清晰度、可懂度都有了很大进 展,但是却缺乏丰富的语气、语速变化,不能模拟自然语音的丰富语气和情感, 所以听起来单调乏味,不能够根据所处环境和对象改变说话的气氛,不够友好, 很大程度上阻碍了语音产业的进一步扩大,成为当前语音合成技术应用的瓶颈之 一。如果在语音合成过程中结合情感计算领域的研究,赋予语音感情色彩,使得 合成的语音能够表情达意,那么语音合成的质量必将大大提高。情感语音合成的 研究,适应了语音技术的未来发展趋势,它能够很好地将语音的口语分析、情感 分析与计算机技术有机地融合,为实现以人为本、具有个性化特征的语音合成系 统奠定了基础。 现在,人们可以通过互联网获取大量的信息,在电子购物、网上医疗、网上 聊天、电子会议以及有声电子邮件等应用上,人们所希望听到的己不再是有很高 可懂度的枯燥的机器音,而是更具“人情味 的语音。人机之间的交互不仅仅是 依靠键盘和鼠标,简单、易学、更具“人性化 的语音操作界面应当更符合人们 的实际需求。这种人机之间的交互既需要情感语音识别技术,又需要情感语音合 成技术。比如,索尼公司的机器人产品宠物狗玩具,已经具有很多智能功能, 如作曲、读电子邮件、拍照,还可以像真的宠物狗一样跟孩子玩耍。有的研究机 构开始研究如何让这些机器玩具或者机器人理解孩子们的带有情感的语音,让它 们用富有表现力的语音与孩子们交流,从情感语音识别和情感语音合成的角度更 好地为人服务。 另外,情感语音还可以与其它多媒体技术相结合,比如将情感语音配之以相 应的面部特征的视频来传达情感,通过将一些视觉效果,包括人的头部建模、唇 形同步技术和表情因素等视频信息加入,使声音、表情同步,这就是当前比较热 门的“视觉语音( v i s u a ls p e e c h ) 技术。视觉语音可以使输出效果更具表现力和感 染力,虚拟主持人的实现就是利用了这一技术,英国报业联合通讯社推出的第一 个虚拟新闻播报员“阿娜诺娃( a n a n o v a ) 就是一个很好的应用实例。 1 2 情感语音处理的发展和现状 语言合成技术的研究已有二百多年历史,但真正有实用意义的近代语音合成 技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算 机能产生高清晰度、高自然度的连续语音。在语音合成技术的发展中,早期的研 究主要采用参数合成方法。多年的研究与实践表明,由于准确提取共振峰参数较 2 引言 困难,虽然利用共振峰合成器可得到许多逼真的合成语音,但整体合成语音的音 质难以达到文语转换系统的实用要求。自八十年代末期至今,语音合成技术又有 了新的进展,特别是基音同步叠加( p s o l a ) 方法的提出,使基于时域波形拼接方法 合成的语音的音色和自然度大大提高。九十年代初,基于p s o l a 技术的法语、德 语、英语、日语等语种的文语转换系统都已研制成功。迄今为止,许多国家的一 些科研机构和国际、国内的一些大公司都推出了相应的语音合成系统。大部分系 统都达到了相当高的可懂度,一些基于大语料库的编码合成系统甚至在自然度方 面也达到了相当高的程度。其中,中国科学技术大学讯飞信息科技有限公司最新 版本的i n t e r p h o n i c 5 0 语音合成系统。”能够合成普通话、广东话、英语等数十个 语种,包含普通话与英语同音混读、广东话与英语同音混读,测试结果表明该系 统具有接近播音员的朗读效果,被国内外专家公认为具有世界最高水平的汉语语 音合成技术,对语音的规模产业化应用起着积极主导的作用。 从心理学和生理学的角度对情感的研究已有较长的历史,然而从工程学的角 度把情感作为信息和信号处理的对象来进行研究还刚刚开始。从语音情感的研究 方面来看,在八十年代末九十年代初期,为了建立语音理解和语音会话系统的会 话模型,有人进行了根据说话人语音的韵律变化来判断说话人的态度、意图,从 而控制人机会话过程的研究。这也许就是最早从工学处理的角度来处理情感信息 的研究。进入二十世纪九十年代以后,随着计算机多媒体信息处理技术等研究领 域的出现,各国才开始重视情感信息处理技术的研究。美国、日本、英国以及其 它国家先后有大学或科研机构涉足到语音情感的研究,如m i t 媒体实验室、m i t 人 工智能实验室、英国电信公司、英国贝尔法斯特皇后学院、日本k e i o 大学电子系 及计算机系等h 1 。c a h n 在商用的t t s 合成器上合成了带有感情色彩的语音,并将 其命名为a f f e c te d i t o r 晒1 ;日本k e i o 大学的m o r i y a m a 提出语音和情感之间的线 性关联模型,并据此在电子商务系统中建造出具备语音界面的图像采集系统,实 现语音情感识别在电子商务中的应用州;英国b o u r n e m o u t h 大学语音研究小组提出 的多基音频率r p p s o l a 方法,以语音单元的详细波形目录为基础,使每个语音单 元包含多个基频版本,在情感语音的合成时选择接近给定目标基频等量线的语音 片段,通过语音单元的拼接来实现情感语音的合成盯1 ;英国d u n d e e 大学提出的基 于规则的语音串联的情感语音合成技术哺1 ,等等。此时,语音情感计算的研究己经 取得了阶段性的成果,一些有价值的研究论文相继发表,但是并没有形成一个被 广泛认可的、系统的理论和研究方法。1 9 9 6 年日本文部省作为重点研究领域曾下 达了“情感信息处理的信息学、心理学研究”的重点课题,参加该项目的有十几 个学校和研究单位( 研究代表者:大板大学的迁三郎) ,主要目的是把情感信息的 研究从心理学角度向生理学、信息学这一交叉学科领域过渡。2 0 0 0 年,在爱尔兰 北京交通人学硕士学位论文 召开i s c a 的w o r k s h o po ns p e e c ha n de m o t i o n 国际会议,第一次把致力于情感 与语音研究的学者聚集在一起。大会丰富的成果显示,对语音情感表达的认识和 研究将沿着两条线前进:第一条,语音表达与情感对应关系的描述( 如何在语音 中表达情感? ) ;第二条,情感状态本身的描述( 情感状态表达的属性是什么? 一 个情感状态和下一个状态的关系是什么? ) 。一些新的研究方法将围绕着这两条路 线展开。 在国际研究趋势的影响下,近年来国内也开始有人从事相关领域的研究,例 如南京航空航天大学电子工程系和东南大学无线电系研究从语音信号中提取情感 的特征;哈工大电子工程系开展研究情感机器人;另外,关于情感语音的声调变 化和韵律特征变化规则目前还很少有国外文献的研究报道,但国内的一些语音学 家和科技工作者曾经在这方面做过一些工作。如吴宗济先生在中国语文上发 表的普通话语句中的声调变化中论述了汉语普通话中一些功能语句如平叙句、 疑问句、加强句和加速句的声调变化和韵律特征变化的规则。贺阳、劲松在语 言教学与研究上发表的北京话语调的试验探索中通过对大量的口语语料进 行试验考察,分析了包括陈述句、质疑问句、求证问句、一般祈使句、命令句和 感叹句等六类功能语句的变调情况。陶建华等也总结了一系列情感语音韵律规则, 以及语音音质、清晰度对语音情感状态的反映规律。另外他还研究了情感语句中 重心的位置情感焦点和对文本负载的情感状态进行预测等问题,并加入其合成系 统,该系统根据环境,比如地点、话题等判断合成的目标情感口1 。 但是,目前不论从国外还是国内来看,情感信息处理的研究,还是处在一个 低级水平,存在着很多需要进一步深入研究的课题,如:合理的有效的语音情感 特征建模方法;开发更全面更有效的语音情感特征;对情感语句中主要反映情感 变化的关键词和短语的研究,等等。 1 3 情感语音合成的主要方法 情感语音合成的研究是一个全新的领域,涉及到情感语音库设计,情感韵律 特征分析及情感建模,语法、语义与情感发音相互之间的影响,面向口语的韵律 分析与建模,情感语音声学模型的建立,情景分布与个性化特征对情感发音的影 响等一系列的课题。 情感语音合成属于语音的规则合成( s y n t h e s i s b y - r u l e ) ,这里包含两个方面的 内容。其一是合成技术的选择,其二是合成规则的制定心1 。也就是说,我们可以将 情感语音合成首先看作是一个语音合成的问题,之后才是结合情感计算的语音合 成。 4 引言 目前情感语音合成研究从方法上说可以分为以下几类: 1 3 1 基于规则的情感合成法 这一方法首先分析真实情感语音的韵律参数分布,获得情感语音相对于中性 语音在韵律参数上的变化规律,然后通过在语音合成系统的韵律产生模块中应用 这些规律以使得合成语音带有真实情感语音的特征。共振峰合成作为一种规则合 成方法,完全是通过语音信号声学相关性的规则来产生声学语音数据的。这一方 法的缺点是直接导致合成的声音在听觉反映上相对于拼接合成产生的声音更加机 械化,但是使用这一方法也有很大的优点,这就是使声源和声道的各种参数能够 灵活有效的调整,因而也决定了共振峰合成器适合带有情感表达力的语音信号合 成。早在1 9 8 9 年,j a n e tc h a n 的a f f e c te d i t o r 晦1 和i a i nm u r r a y 等人的h a m l e t 【8 3 中都使用了d e c t a l k 作为共振峰合成系统,提供了能够根据几种基本的情感来调 整声学参数的处理模块。从1 9 9 4 到1 9 9 6 年m o n t e r o 等人研究的v a e s s 项目n 们中, 情感的表达因素被加入到共振峰合成器中,并运用常用的韵律参数集合成了西班 牙语的三种情感的语音。 1 3 2 基于情感语音库的拼接合成法 这是一种被认为是合成语音最自然的一种方法,也称为大数据库合成或者数 据驱动的合成方法。在这种大的语音数据库中,各种长度的、能够最大限度的接 近符合一定参数限制的目标值的语音单元被选择拼接合成语音。在选择语音单元 的过程中往往采用多种复杂的技术,包括多项统计学上的技术或者神经网络技术。 这些单元可以是双音节合成中使用的双音节单元,即音素串、时长和基音,也可 以是其他不同的单元。如果在数据库中能够找到合适的单元,根本不需要信号处 理技术就可以合成质量很好的语音。i i d a 等人使用这一方法合成语音时建立了包含 同一个说话人三种情感的单元选择数据库,在合成一定的情感语音时,只有相应 的数据会被选择【l 。使用这种方法合成的情感语音的情感识别率较高。九十年代 初出现的基于基音同步叠j j i ( p s o l a ) 算法的波形编辑技术就是单元拼接合成的一 种方法。 1 4 情感语音处理的技术挑战 从总体上看,情感语音处理这一研究领域还处于探索阶段,有很多问题尚待 5 北京交通人学硕+ 学位论文 解决,主要的技术挑战有以下几个方面: 1 ) 情感分类与建模 目前的研究大多将情感划分为3 9 类不同的基本情感,同时假定其它情感可 以由这几种基本情感派生。到底有多少种基本情感? 其它情感是否可以由基本情 感组合派生出来? 情感是如何通过语音表达出来的? 如何描述每种情感的属性? 这些属性对应于哪些声学特征? 如何准确地抽取情感特征? 不同的情感状态之间 有什么联系? 如何从一种情感状态过渡到另一种情感状态? 这些问题将涉及到语 音学、心理学、生理学、语言学、音韵学、声学、实验语音学、数字信号处理技 术等多门学科。这些问题解决的好坏与否将直接影响着情感语音的识别与合成, 需要下大力气加以研究。 2 ) 情感语音语料的获取 无论是情感分析、情感识别,还是情感合成都将需要在数量和质量上有保证 的情感语音语料库,而目前的情感语音语料的来源问题却一直没有得到很好的解 决。目前用的比较多的情感语音采集方法,大多是让演员模拟不同的情感来朗读 一些句子。但演员的表达方式与人们在日常生活中表达情感的方式存在很大的不 同,所以还是应当尽量获取真实情感语料:如可以录制医院里一些患者的害怕、 恐惧、绝望、伤心的语音;游乐场中激动、高兴的语音,以及一些电视或电台中 的访谈节目里的真实情感语音;甚至是吵架时生气、暴怒的语音等,但这样采集 来的数据往往存在很多噪声。除了直接录制情感语音外,h a n s e n 等人也尝试了利 用正常语音来合成情感语音的方法【1 2 】,利用这种方法合成语音后,再通过主观听 觉测试去除那些合成效果较差的语音。这种方法可以弥补情感语音语料匮乏的不 足,利用情感语音合成来丰富情感语音库,并支持情感语音的分析与识别,这是 一项非常有意义的工作。 3 ) 评价方法 对情感语音合成来说,除了要评价其自然度和可懂度,还需进一步评价合成 语音对情感的表达是否恰当、合理。目前人们所采用的较典型的方法是组织一批 测试者进行主观感知评价,参加昕评的人事先被告知几种基本情感,然后对所合 成出的情感语音进行类别划分,目的是判断所合成出的情感语音能否被听者正确 感知。但这种评价方法更倾向于分类而不是真正辨识。另外,这种主观评价除了 耗费时间、人力和费用外,还常受到人的反应等内在不可重复的影响,测试结果 与测试人当时的状态、环境等存在很大关系。而采用一些基于客观测度的语音评 价方法可克服这些不足。目前所用的客观测度可分为时域测度、频域测度和在此 基础上发展起来的其它测度,研究新的合理的评价方法是人们今后仍需探索的工 作。 6 引言 4 ) 开发语音分析工具和语料标注工具 情感语音的建模、预测、实现、评价等都将以原始语料的采集、整理和标注 为基础,语音的识别与合成必须以对语料的准确分析为前提。高效、准确的语音 分析工具和语料标注工具是实现情感语音分析的重要手段。目前还没有一个标准 的情感语音数据库。语音分析工具的功能也不是很完善,对情感语料进行标注的 标注工具更是缺乏,开展对语音分析工具和语料标注工具的研制将具有非常重要 的意义。 5 ) 语音合成方法的研究 语音合成自然度的改进将直接影响情感语音合成的质量。就情感语音合成而 言,如何提高用参数合成的情感语音的自然度? 如何使基于波形拼接的合成方法 有更大的情感韵律调节能力? 在基于大规模语料库的合成中采用何种更优的情感 基元选择算法,并处理好拼接单元之间的过渡平滑? 这些仍是人们长期研究的目 标。 1 5 本文主要研究内容和论文框架 语音是个复杂的多特征系统,如图1 1 所示,语音的基本属性是感知,而我们 的研究方式是分析和计算。言语计算的任务是建立一种计算模型,让计算机感知、 理解并生成自然语言。数字化序列是语音波形的基本表示,而对其分析计算的目 的就是为了使语音信号所携带的信息更方便、更有效的表示。总而言之,感知是 根本、声学是基础、计算是手段、信息抽取是目的。本文的研究就是按图卜1 的 思路,首先,由下而上从语音的特征出发,提取特征参数,利用字调与句调信息 建立模型,从而获取语音中的情感信息;之后,再按不同的情感模型分类,重构 其各自的声调信息,合成表达不同语气的语音。 重构 图1 1 情感语音研究的分析框架 f i g u r e i - lt h ea n a l y s i sf r a m e w o r ko f e m o t i o n a ls p e e c h 7 取 北京交通人学硕士学位论文 本课题的研究目的是实现语音信号的情感表达,主要工作内容为:建立了一 个指定发音人的情感语音库,包含2 0 句情感语句,分别按三种情感状态( 高兴、 悲伤、愤怒) 以及中性平静状态进行录制,且每种状态均重复采集三遍,最终获 得的语音库包含2 4 0 个句子,共1 4 4 0 个音节;提取和分析了表达语音情感的韵律 类参数( 基频) 和音质类参数( 共振峰) ,分别调整这两类参数进行了语音情感合 成仿真实验,经过效果对比,确定了本文的主要研究对象基频曲线;通过对 基频曲线的f u j i s a k i 模型的参数分析,利用归一化调型函数进行了声调模型的建 立,并完成了情感语音转换参数规则的设定;最终,利用声韵母拼接的方法合成 了语音,结合p s o l a 算法调整特征参数,完成了语音的情感转换。另外,我们还 搭建了一个情感语音分析与合成的演示系统,为今后进一步工作奠定了基础。 工作的创新之处有以下三点: 1 、改进了f u j i s a k i 模型,修改了原模型的声调表达分量,使模型更适合汉语 的表达特点,将该模型与表达情感的特征参数结合,从而将该模型的应用于情感 表达方向: 2 、建立了一种归一化的声调调型模型,可以涵盖汉语普通话中的基本调型和 常见变调现象,通过仿真实验证明了该方法的有效性; 3 、提出了一种从韵母中提取基音同步模板进行的基音同步声韵母拼接合成方 法,实现了由语音库中的无调的声韵母合成带有四种声调的单字,再由单字合成 语句的过程。 论文的结构如下: 第一章为引言,主要对情感语音分析与合成的背景意义和技术现状进行介绍, 同时对目前情感语音处理的技术挑战进行了总结。 第二章综合情感分类、情感模型的研究成果,结合本文研究目的,确定了典 型的情感类型,即选取高兴、悲伤、愤怒、中立四种情感状态作为本文的情感类 型,并设计了适当的实验语句;为避免不同说话人引起的情感理解的差异从而给 参数特征带来影响,本文采用指定话者的方式进行情感语音库的建立,并通过主 观测听实验,保证了情感语音库的有效性;最后,介绍了语音数据的标注,形成 了一个完整的实验用情感语音库。 第三章介绍特征参数的提取和分析。首先介绍了语音学领域有关情感特征的 研究成果;分析并通过仿真比较了几种主要的基频检测方法,并详细介绍了本文 采用的基于逆滤波的一种改进的自相关算法进行基频检测的步骤;给出了各类情 感状态下的基频、时长、能量以及共振峰信息统计结果;实验中分别针对中性情 感语句的基频曲线和共振峰频谱包络进行了修改,将中性语句转变为在三种情感 状态下的不同表达,将合成结果通过p r a a t 软件分析与主观测听,分析结果表明: 8 引言 在本实验的条件下,更适宜通过修改基频等韵律参数来进行情感转换。 第四章通过f u j i s a k i 模型进行了基频参数的研究。首先分析了汉语的特点,介 绍了f u j i s a k i 模型的基本原理;基于汉语的特性,提出了一种改进的f u j i s a k i 模型, 介绍了这种改进的模型的函数表达式;采用了一种归一化调型函数模型进行声调 的拟和,此函数模型可以涵盖汉语普通话中的基本调型和常见的变调现象;最后, 分析总结了表达不同情感、不同语气的基频曲线的特征规律,给出了情感转换韵 律参数的设定规则,从而将f u j i s a k i 模型的应用推广到了情感的表达方向。 第五章首先介绍了本文采用的p s o l a 的算法原理,之后按语音合成和情感转 换两部分介绍整个系统的完成步骤。在语音合成部分,详细介绍了一种利用无调 的声韵母为合成基元、以归一化调型函数为目标基频曲线,在保证基音同步的条 件下,完成的一个简单的语音合成系统;在情感转换部分,利用第四章得出的情 感语调参数设定规则,用p s o l a 对合成的语音进行了韵律参数修改,完成了情感 转换。最后,介绍了本文搭建的情感语音分析与合成演示系统的功能与界面。 第六章是全文的结束语,对整个研究工作进行了总结,提出了今后的工作方 向。 9 情感语音库的建立和有效性检验 2 情感语音库的建立和有效性检验 在本章,我们首先概述了情感语音的定义并确定了情感的分类,之后在情感 语音数据库相对匾乏的现状之下,针对语音产生的机理复杂、语音语调受包括语 法句式、重音、说话人情感以及说话人个性特征等在内的众多因素影响的特点, 为了突出语调如何受情感因素影响的研究初衷,设计、制作了相应的情感语音数 据库。该数据库在语句内容、长度、说话人等方面做了一定的限制,有效避免了 干扰因素的影响。 2 1 情感的定义与情感空间的界定 2 1 1 情感语音的概念 情感是人类一种重要的本能,它同理性思维和逻辑推理能力一样,在我们的 日常生活、工作、交流、处理事务和决策中扮演着重要的角色。情感是一种因所 处环境和心理状态不同而由主观冲动引起的强烈的感情状态,可以引起语音、表 情以及行为上的表现。情感语音就是说话人在一定的情感状态下产生的具有特定 语义的发音u 副。 那么人类一共有多少种情感呢? 这是一个很难回答的问题,主要原因是情感 属于人类经验的一个基本方面,而不同的人往往总结出不同的结果。情感是说话 人所处环境和心理状态的反映,k l a u s 4 1 认为情感不同于情绪( m o o d s ) ,立场 ( i n t e r p e r s o n a ls t a n c e s ) ,态度( a t t i t u d e ) 和性情( a f f e c td i s p o s i t i o n s ) ,虽 然他们之间不是绝对的独立。通常,情感和态度容易混淆,根据o h a l a n 印的理解, 两者有本质的差别,态度反应说话者在对话中的目的,而情感只是说话人所处环 境和心理状态的反映。态度更多是一种主动的感情色彩,而情感是被动的。 c o m e l i u s 【1 6 】从心理学角度将情感分为六种( b i gs i x ) :h a p p i n e s s ,s a d n e s s ,f e a r , d i s g u s t a n g e ra n ds u r p r i s e 。a n g e r 经常被扩展为h o ta n g e r 和c o l da n g e r ,h o ta n g e r 是指“怒发冲冠 的怒,而c o l da n g e r 是指恶狠狠的冷怒。 在表达情感状态的强烈程度方面,k l a u s 1 4 】引用了心理学中高低警醒的概念。 高警醒( 1 1 i g ha r o u s a l ) 指使得发音人投入大量感情的,在对感情的表现上更加丰富的 一种情感语音方式,而低警醒( 1 0 wa r o u s a l ) 是并没有涉及太多感情在发音中的,对 情感的表现不是非常激烈。每种情感都有一定的警醒度范围,比如h o ta n g e r 的警 醒度普遍较高,而a s h a m e d 和s a d 的警醒度就普遍较低。 北京交通人学硕十学位论文 情感语音方面的研究选择的多是比较典型的情感状态。f e l i xb u r k h a r d t 和 w a l t e rf s e n d l m e i e r t l 7 】以及y u a nj i a h o n g 1 8 】讨论的情感状态有害怕,高兴,难过和 生气;陶建华【l9 】讨论的情感状态有高兴,生气,难过,害怕和恶心;b e r l i n 科技大 学的通讯科学研究所的音库录制了中立,生气,高兴,害怕,难过,恶心和厌烦 七种情感状态的语音【2 0 1 。m a r cd p e l l 2 1 】在研究情感和焦点位置对韵律的影响中也 只使用了中立,难过,高兴和生气几种感情状态。其他一些音库设训2 0 】采用的情 感状态主要有生气,厌烦,高兴,难过,害怕等。 2 1 2 情感空间的界定 要研究语音的情感,首先需要根据某种特征对情感做一个有效合理的分类, 然后在不同类别的基础上研究特征参数的性质。情感语音的研究难点之一在于没 有一个统一的情绪理论。目前,情感类型的划分主要有离散的表示和连续维度的 表示两种瞳引,这两种表示在某种程度上是可以相互转化的。经过p l u t c h i k 等人的 多年研究瞳3 1 ,通过在激活一评价空间上对情感进行分析,认为情感分布在一个圆形 的结构上,结构的中心是自然原点。对于自然原点,认为它是一种具有各种情感 因素的状态,但是由于这些情感因素在该点的强度太弱而得不到体现。通过向周 围不同方向的扩展,表现为不同的情感。情感点同自然原点之间的距离体现了情 感的强度。由于各种情感在自然原点的周围排成了一个圆形,所以这种对情感进 行分类的方法叫做“情感轮( e m o t i o nw h e e l ) 。在情感轮所组成的二维平面中,对 于任何一个情感矢量e ( m a g ,a n g ) ,可以通过测量该矢量的长度m a g 来确定情感的 强度,通过该矢量的方向a n g 来确定情感的内容,如图2 - 1 所示: 期 生 图2 - 1 情感轮 f i g u r e 2 1e m o t i o nw h e e l 1 2 情感语音库的建立和有效性检验 不同于p l u t c h i k 的分类手段,f o x 提出的三级情感模型乜引,则是按照情感中 表现的主动和被动的程度不同将情感分成不同的等级( 见表2 - 1 ) 。等级越低,分类 越粗糙,等级越高,分类越精确。 表2 - 1f o x 的情感分类三级模型 疋山l e 2 1f o x st h r e el e v e l se m o t i o nm o d e l s 1s tl e v e l a p p r o a c h w it h d r a w a l 2 n dl e v e lj o yi n t e r e s ta n g e r d istress d is g u s tf e a r p r i d ec o n c e r n l i o s t i l i t ym i s e r y c o n t e m p t t o r r o r 3 n dl e v e l b l i s sr e s p o n s i b il it y j e a lo u s ya g o n y r e s e n t m e n ta n x i e t y 除上面提到的这两种分类方法外,还有其它一些基于不同原理的分类方法。 如基于不同情感表现行为的分类,基于生理特征的情感分类等。尽管这些方法在 原理上有所区别,但是都具有近似的表现形式,目前在语音情感研究中常用的情 感分类大多是八情感模型( 如图2 一l 中所示八种情感) 或者四情感模型( 喜、怒、惊、 悲) 。 2 1 3 本文采用的情感分类方式 综合考虑维度空间常见的激发度和评价度以及离散情感表示,本文选择了“高 兴 、“愤怒”和“悲伤”三种基本情感进行录制。这样处理的原因是,我们选择 的三种情感在p l u t c h i k 的情感轮中( 图2 - 1 ) 区分度是比较大的,其中“高兴 和“悲伤”在对角位置上,是相互对立的;而“愤怒 在“高兴”和“悲伤”之 间,但和两者都不相邻,区分度也比较大。“愤怒和“高兴”属高激发度,“悲 伤 属低激发度,同时“悲伤和“愤怒属负评价范畴而“高兴属正评价。 此外,借鉴赵元任先生m 1 提出的中性语调与表情语调的概念,中性语调是指“没 有色彩的连贯话语中的合成语调”。为了与情感语调作对比,我们录制了不带有任 何感情色彩的“中立 的中性语调状态。 2 2 情感语音库的建立 2 2 1 情感语料的选择 选择合适的情感分析用语音资料具有重要意义。然而,现在情感分析用语音 资料的标准和分析条件还没有被提出,为了能够建立尽可能完善的语音数据采样 北京交通大学硕十学位论文 库,我们采用了一些折中的办法。用于情感分析的语音信号是研究工作开展的基 础,但从国内外的研究现状来看,没有一个收集情感分析用语音资料的标准乜5 j , 所以本文选择了自己录制的方式并设计了一个用于情感特征语调分析的语音库, 对分析实验用语句的选择主要考虑了以下原则: 第一,所选择的语句必须不包含某一方面的情感倾向,只有这样才能保证构建 语音库时不会影响录制

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论