(电子科学与技术专业论文)基于情感基音模板的情感语音合成.pdf_第1页
(电子科学与技术专业论文)基于情感基音模板的情感语音合成.pdf_第2页
(电子科学与技术专业论文)基于情感基音模板的情感语音合成.pdf_第3页
(电子科学与技术专业论文)基于情感基音模板的情感语音合成.pdf_第4页
(电子科学与技术专业论文)基于情感基音模板的情感语音合成.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(电子科学与技术专业论文)基于情感基音模板的情感语音合成.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 作者签名:煎逢霞,师签名曼垒酉兰日期:兰:包一年上月单日 摘要 随着信息技术的高速发展,人类对计算机的依赖性不断增强,因 此,人机的交互能力越来越受到研究者的重视。语音是众多信息载体 中具有最大信息容量的信号,具有最高的智能水平。传统的语音处理 系统只着眼于语音词汇传达的准确性,而忽略了 包含在语音信号中的 情感因素,让计算机像人一样说出含情感色彩的语音是人们长期追求 的目标。因此,本文对情感语音合成技术进行了研究。 本文提出了基于情感基音模板叠加的情感语音合成方法。本文用 p r a a t 软件从中科院录制的情感语音库中提取了声母模板和高兴、愤 怒、悲伤及中立四种情感下的韵母基音模板,建立了声母库和韵母情 感基音模板库;建立了汉语中阴平、阳平、上声和去声四个声调的归 一化调型函数,并研究了如何通过调型函数得到合成韵母的基音周期 序列;研究了情感基音模板对合成语音音质的影响;提取情感语音的 韵律参数并研究韵律特征在各种情感下的表现规律;研究了基音同步 叠加算法( p s o l a ) ,并在该算法的基础上提出用情感基音模板叠加的 方法合成情感语音。该方法以情感基音模板为合成基元,根据合成音 节的声调及情感特征参数的统计规律合成情感语音。仿真实验表明, 用情感基音模板合成的情感语音有目标情感的音质色彩,再通过韵律 参数调节,增强了情感语气,可得到较理想的情感语音。 本文提出的基于情感基音模板叠加的情感语音合成方法与传统 的合成方法相比,合成的语音音质清晰,更富有情感色彩,而且方法 更简单。该方法增加了语音合成系统的智能化,提高了人机交互的能 力。 关键词情感语音合成,基音模板,基音叠加,声调函数 a bs t r a c t w i t ht h e r a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , h u m a n d e p e n d e n c e o n c o m p u t e r i s g r o w i n g t h e r e f o r e ,h u m a n c o m p u t e r i n t e r a c t i o nc a p a b i l i t i e sg e tm o r ea n dm o r ea t t e n t i o no fr e s e a r c h e r s v o i c e h a st h el a r g e s ti n f o r m a t i o nc a p a c i t yi nm a n yi n f o r m a t i o nc a r r i e r , w i t ht h e h i g h e s tl e v e lo fi n t e l l i g e n c e t r a d i t i o n a lv o i c ep r o c e s s i n gs y s t e m sf o c u s o nt h ea c c u r a c yo fv o i c eo n l y , i g n o r i n gt h ee m o t i o n a lf a c t o r sc o n t a i n e di n t h ev o i c es i g n a l l e tc o m p u t e rs p e a ke m o t i o n a lv o i c el i k ep e o p l ei s p e o p l e sl o n g - t e r mg o a l t h e r e f o r e ,t h i sa r t i c l e s t u d i e do ne m o t i o n a l s p e e c hs y n t h e s i st e c h n i q u e s t h ep a p e rp r e s e n t sam e t h o do fe m o t i o n a ls p e e c hs y n t h e s i sb a s e do n t h ee m o t i o n a l p i t c ht e m p l a t eo v e r l a p t h ep a p e r e x t r a c t e di n i t i a l t e m p l a t e sa n dh a p p y , a n g r y , s a da n dn e u t r a lv o w e l sp i t c ht e m p l a t e sf r o m e m o t i o n a ls p e e c hd a t a b a s er e c o r d e db yc h i n e s ea c a d e m yo fs c i e n c e s u s i n gp r a a ts o f t w a r e ,e s t a b l i s h e di n i t i a ll i b r a r ya n de m o t i o n a lv o w e lp i t c h t e m p l a t el i b r a r y ;e s t a b l i s h e d t h en o r m a l i z e dt o n em o d e lf u n c t i o n o f c h i n e s ef o u rt o n e s ,a n ds t u d i e dh o wt og e tt h ep i t c hp e r i o ds e q u e n c e t h r o u g ht h et o n em o d ef u n c t i o n ;s t u d i e dt h ee f f e c to fe m o t i o n a lp i t c h t e m p l a t et o t h eq u a l i t yo fs y n t h e t i cs p e e c h ;e x t r a c t e dt h ee m o t i o n a l s p e e c hp r o s o d yp a r a m e t e r sa n ds d u d i e dp e r f o r m a n c eo fp r o s o d i cf e a t u r e s u n d e ra v a r i e t y o fe m o t i o n s ;s t u d i e dp i t c h s y n c h r o n o u so v e r l a p a l g o r i t h m ,a n dp r o p o s e d a na l g o r i t h mb a s e do l lt h ee m o t i o n a lp i t c h t e m p l a t eo v e r l a pt os y n t h e s i se m o t i o n a ls p e e c h t h ea l g o r i t h mu s et h e e m o t i o n a lp i t c ht e m p l a t et ob et h es y n t h e s i se l e m e n t s ,s y n t h e s i st h e s p e e c hb a s e do nt h et o n ea n dt h es t a t i s t i c a ll a w so fe m o t i o n a lf e a t u r e s s i m u l a t i o nr e s u l t ss h o wt h a tt h ee m o t i o n a ls p e e c hs y n t h e s i z e db yt h e t a r g e t e de m o t i o n a lp i t c ht e m p l a t eh a st h et o n ec o l o ro ft h et a r g e t e d e m o t i o n a f t e rt h ea d j u s t m e n to fp r o s o d i cp a r a m e t e r s ,w ec a n g e tt h ei d e a l e m o t i o n a ls p e e c h c o m p a r e dw i t ht h et r a d i t i o n a le m o t i o n a ls p e e c hs y n t h e s i sm e t h o d , t h em e t h o db a s e do ne m o t i o n a lp i t c ho v e r l a pi sm o r ee a s y , t h es y n t h e t i c s p e e c hi sm o r ec l e a ra n dh a sm o r ee m o t i o n a lc o l o r s t h em e t h o dw i l l i n c r e a s et h ei n t e l l i g e n c eo fs p e e c hs y n t h e s i ss y s t e ma n di m p r o v et h e i i c a p a b i l i t i e so fh u m a n - c o m p u t e ri n t e r a c t i o n k e yw o r d se m o t i o n a l s p e e c hs y n t h e s i s ,p i t c ht e m p l a t e s ,p i t c h o v e r l a p ,t o n ef u n c t i o n i i i 目录 摘要i a b s t r a c t i i 第乙章绪论1 1 1 课题背景1 1 2 情感语音处理技术的发展:2 1 3 情感语音合成的方法o 3 1 4 课题主要研究内容5 第二章情感语音库的建立7 2 1 情感语音库7 2 1 1 情感的定义7 2 1 2 情感的分类7 2 1 3 情感语音库的分类9 2 1 4 情感语音库介绍l0 2 2 情感语料及情感基音模板1 0 2 3 情感基音模板库的建立1 1 2 4 本章小结1 3 第三章情感语音特征参数分析研究1 4 3 1 语音信号产生的数字模型1 4 3 2 情感语音的声学特征1 6 3 3 基音周期检测18 3 3 1 基频检测的方法1 9 3 3 2 基于自相关法的基音检测2 0 3 3 3 基音检测后处理2 1 3 4 韵律类参数的统计分析2 2 3 4 1 基音频率2 2 3 4 2 时长构造2 3 3 4 3 幅度构造2 4 3 5 本章小结2 4 第四章基于情感基音模板的语音合成算法研究。2 6 4 1 基音同步叠加算法原理_ 2 6 4 2 基于情感基音模板的语音合成系统的构架2 8 4 3 情感语音合成系统主要功能模块分析3 0 i v 4 3 1 声调函数的建立3 0 4 3 2 韵律参数赋值:3 3 4 3 3 基于情感基音模板的韵母合成方法3 6 4 3 4 合成情感语音3 9 4 4 本章小结4 2 第五章情感语音合成系统的实现及性能分析。4 3 5 1 情感语音合成系统的仿真实现4 3 5 1 1 仿真实验平台4 3 5 1 2 情感语音合成系统功能需求分析4 3 5 1 3 情感语音合成系统界面设计4 4 5 1 4 情感语音合成系统的工作流程4 6 5 1 5 仿真结果5 0 5 2 合成语音的质量评价与情感分析5 0 5 2 1 主观听觉感知实验分析5 2 5 2 2 合成语音音质参数分析5 2 5 2 3 合成语音基频参数分析5 4 5 3 本章小结。5 5 第六章结束语5 6 参考文献5 8 附录6 2 致谢7 2 攻读学位期间主要的研究成果7 3 v 硕士学位论文 第一章绪论 1 1 课题背景 第一章绪论 随着科技的高速发展,计算机在人们的生活中扮演着越来越重要的角色。所 以,人与机器间实现自然的、智能化的交流是人们追求的理想【l j 。人机交互发 展的目标就是计算机智能化的实现,即计算机可以根据交流对象的情感状态及周 围的环境等因素,自适应地调整自身的情感状态,从而为交流对象提供更为友好 的交流环境。在所有信息载体中,语音具有最大信息容量,是人们相互间交流的 最自然的方式,具有最高的智能水平。因此,要增强人机间的交互能力,就必须 研究出高自然度的语音合成技术及高准确率的语音识别技术。语音中除了自身包 含的文字信息外,同时还包含了情感和情绪等对于正确理解话语非常重要的信 息。内容相同的语音,可以由于说话者的情感不同,话语给听者传递的信息就不 同。 现有的语音合成系统没有考虑到语音信号中包含的情感信息,只注重于准确 的表达语音的文字信息。然而,语音的文字信息仅仅是语音信息中的一部分信息, 而除文字信息外的感性科学世界的信息是与知识科学世界相对应而且有一样重 要的地位。可见,在语音处理和人工智能等领域中,对情感信息的研究有着十分 重要的意义。而情感信息的研究中,情感语音合成的实现能够让计算机能像人一 样说出含富含情感色彩的语音,这将大大提高人机交流的智能水平【2 】。 现有的汉语语音合成系统只能用某种朗读风格将书面语言转换成语音朗读 出来。但是如今,高可懂度的枯燥的机器音已经不能满足人们在电子会议、电 子购物、有声电子邮件和网上医疗等应用中的需求,人们希望能够听到更有人 情味的富含丰富情感色彩的语音。只通过键盘、鼠标进行人机交互已经不能满 足人们的需求,而人性化、简单的语音人机交互界面才能符合人们的需要。而 人性化的人机交互方式必须有较高水平的情感语音合成技术和识别技术。典型 的这方面的研究如有研究者研究如何让机器人或机器玩具识别出儿童所说的话 语中所含的情感,然后用含有情感语气的话语同孩子友好的沟通交流,通过运 用情感语音合成与情感语音识别两方面的技术使机器更好地服务于人类【3 】。 目前,虽然语音合成技术己经达到了比较高的水平,合成语音具有较高的 清晰度和可懂度,但是合成的语音中没有蕴含丰富的情感,不能同人说出的话 语一样富有情感色彩,因此听起来机器味很浓,很单调,不够友好,这些缺点 严重阻碍了语音技术产业的广泛应用1 4 】。可见,合成富有情感色彩的语音是语音 合成技术的发展趋势。情感语音的合成,就是将情感计算领域的研究结果与语 硕士学位论文 第一章绪论 音合成技术相结合。这样,合成语音的自然度就会得到很大的提高,进而促进 了语音合成技术的应用。情感语音合成技术的研究将语音合成技术、情感分析 与计算机技术有机地结合,是语音技术未来的发展趋势和应用需求,是实现更 具人性化的语音合成系统的基础1 5 j 。 j 这些年来,语音合成技术在随机过程处理、信号处理技术的促进下,突破 了以往的只对语音计算算法进行研究,得到了较快的发展。情感语音学者们结 合情感计算的研究结果,对己知情感状态的语音的情感特征参数进行分析,提 取情感特征参数并研究情感特征参数在各种情感下的变化规律,总结出情感特 征参数的变化规则,通过在语音合成系统中应用这些规则,实现情感语音的合 成,使机器模拟人类的自然语音,说出富含情感色彩的语音。情感语音合成不 仅能大大提高合成语音的自然度,还能在很大程度上增加入机交互的友好度。 通过在语音合成系统中加入识别与检测的一些技术,可以使系统通过对外界环 境和说话对象的检测和识别自适应地调节输出语音的语气和情感,提供友好的 人机交流环境【6 j 。 此外,研究者们将情感语音处理技术与多媒体技术结合,当发出各种情感语 音时,就会产生相应的面部特征的视频,以更好的表达出情感信息。视觉语音 技术是一个比较典型的例子。它是目前比较热门的研究领域,研究内容是通过 将唇形同步技术、头部建模以及表情因素等视频信息加入到语音合成系统中, 达到声音、表情同步的效果。视觉语音技术更能够增加人机交互的友好度,提 高了人机交互的智能化。英国报业与通讯社联合研究出的首个虚拟新闻播报员 “阿娜诺娃 是该技术非常好的一个应用例子。 1 2 情感语音处理技术的发展 虽然对情感的研究在生理学与心理学领域已有很长一段时间,但是八十年代 末九十年代初期,工程学领域才开始对情感进行研究。工程学领域最早对情感信 息的研究,是为了语音会话系统模型的建立,研究人员通过语音的情感特征来判 定说话人的情感态度,达到对人机交互过程进行控制的目的。二十世纪九十年代 后,随着人们对人机交互的需求不断增长及多媒体信息处理技术的发展,美国、 日本、英国等国家才陆续开始重视对语音中情感的研究。这三个国家先后有一些 科研机构开始对语音的情感特征进行研究,比如m i t 人工智能实验室、m i t 媒 体实验室、日本k e i o 大学电子系及计算机系、英国贝尔法斯特皇后学院、英国 电信公司等。随着各国对情感语音研究的重视,情感语音的研究取得了一系列的 研究成果。c a h n 开发了名为a f f e c te d i t o r t 7 】t 8 】的情感语音合成器,该情感语音合 成器是在商用的语音合成器上实现的,能够合成含有各种情感色彩的语音: 2 硕士学位论文 第一章绪论 m o r i y a m a 根据语音与情感间的线性关联模型在电子商务系统中开发出含有语音 界面的图像采集系统,从而使语音情感识别技术在电子商务中得n - f 应用1 9 j ;英 国b o u m e m o u t h 大学提出了r p p s o l a 的情感语音合成方法【l o j ,该方法建立的 语音基元库中,各合成基元有多个基频版本,可以通过选择接近给定目标基频的 语音片段,将语音单元进行拼接,从而合成情感语音:英国的d u n d e e 大学提出 了基于规则的语音串联的情感语音合成技术。这个时候,虽然对情感语音的研究 取得了一定的成果,但还没有一个理论或研究方法得到广泛认可。 日本在1 9 9 6 年时将情感的信息处理技术作为国家的重点研究课题,共有十 几个研究单位与学校加入了这个课题的研究,其中的主要代表是大板大学的迁三 郎,研究的主要内容是将情感信息的研究从心理学角度向生理学、信息学领域过 渡【1 1 】。2 0 0 0 年,在爱尔兰召开i s c a 的情感语音工作组国际会议,首次将致力 于情感语音研究的学者们聚集在一起。大会的讨论结果表明,对情感语音的研究 会沿着两条路线前进:第一条是语音表达与情感对应关系的描述;第二条是情感 状态本身的描述。研究者们将会顺着这两条路线展开对情感语音深入的研究【1 2 】。 国内在情感语音研究趋势的影响下,陆续有研究机构对情感语音进行研究, 这些机构主要研究如何从语音信号中提取出能表征语音情感的特征参数,以及 情感特征参数在各种情感下的统计规律,有的研究机构已经开展了对情感机器 人的研究,以提高人机交互的智能化。有些语音学家还对语音中情感的变化对 声调变化和韵律特征变化的影响规律做了一些研究,这方面的研究在国外还比 较少见。吴宗济研究了汉语中的平叙句、加强句及疑问句等功能语句的声调变 化和韵律参数变化的规律。贺阳等研究者通过对大量的语音进行研究分析,总 结了陈述句、求证问句、质疑问旬、命令句、感叹句及一般祈使句等功能语句 的变调规律。陶建华等研究者也对情感语音的韵律规则进行了分析总结,此外, 这些研究者还总结了情感语音的音质、清晰度与情感状态的关系【1 3 1 。 从国内外对情感语音的研究状况来看,语音的情感分析研究还处于较低的发 展水平。情感语音处理中,怎样开发出更全面有效的更能体现语音情感特征的 情感参数、怎样对语音的情感特征进行合理有效的建模等许多课题都需要进一 步的研究。 1 3 情感语音合成的方法 情感语音合成方法主要有基于规则的情感语音合成技术和基于波形拼接的 情感语音合成技术【1 4 1 。基于规则的情感语音合成方法的优点是合成系统可以调 节的韵律参数的大小范围比较宽,而且语音库比较小,缺点是合成的情感语音 的音质效果不理想【15 1 。基于波形拼接的情感语音合成技术在包含有大量语音合 3 硕士学位论文第一章绪论 成单元样本的语音库中选择最合适的合成单元进行波形拼接,拼接过程中要用 一些平滑技术来提高合成语音的质量【1 6 1 。当前国际上代表性的情感语音合成系 统有日本a t r 与c r e s t 合作的情感语音系统【1 。7 1 ,中国科学院自动化所的合成 器【1 引,德国的规则驱动的参数合成器【1 9 1 和东京大学的合成器等【2 0 1 。下面具体介 绍两种情感语音合成方法。 1 基于规则的情感语音合成方法 基于规则的情感语音合成方法首先统计分析自然情感语音的情感特征参数 的分布规律,获得情感语音相对于中性语音在情感特征参数上的变化规律,然 后将情感参数的规律应用到语音合成系统中,以合成富有情感色彩的语音。共 振峰合成法是典型的基于规则的情感语音合成方法,这种方法通过语音信号的 共振峰的规则来产生语音数据。基于规则的情感语音合成方法最大的优点就是 可以对声源与声道中的各种情感参数进行灵活的调节,因此,基于规则的情感 语音合成方法比较适合合成各种情感状态的语音;但这种方法也有缺点,就是 合成的语音有较浓的机器味。 。 19 8 9 年,j a n e tc a l m 开发的情感语音合成系统a f f e c te d i t o r 以及i a i nm u r r a y 等人开发的情感语音合成系统h a m l e t 都是基于共振峰合成方法的,这些合成 系统提供了情感参数的调节模块,通过对情感参数的调节来合成各种若干个基 本情感的语音。1 9 9 4 到1 9 9 6 年,m o n t e r o 等人在共振峰合成器中加入了韵律参 数的调节模块,合成了西班牙语的三种基本情感的语音。 在国内,陶建华n 总结了情感语音的韵律参数随情感变化的规律,此外, 他还对情感语句中重心的位置问题进行了研究,并把这些研究结果应用到情感 语音合成系统中,该系统能够根据地点、话题等环境自适应的合成相应情感的 语音。 2 基于波形拼接的情感语音合成方法 基于波形拼接的情感语音合成法也称为大数据库合成或者数据驱动的合成 方法,该方法被认为是合成的语音具有自然度最高的方法。基于波形拼接的情 感语音合成方法原理是:在情感语音数据库中选择能最大限度的接近目标值的 语音单元来拼接合成语音。语音单元的选择过程会利用统计学方面的技术或者 神经网络技术等一些复杂的技术。语音合成单元可以是双音节单元,即音素串 和基音,也可以是其他不同的单元。基于波形拼接方法合成的情感语音具有较 高的情感识别率,但是需要建立较大的情感语音库。 i i d a 等研究者首先建立了包含愤怒、高兴和悲伤三种情感的合成单元数据 库,分别对情感语音数据库进行韵律训练,合成情感语音时在三个情感语音库 间切换,用c h a r t 进行单元挑选和波形拼接。c h a r t 合成器是基于波形拼接 4 硕士学位论文 第一章绪论 的合成工具。日本的k i r i y a m a 合成情感语音所使用的方法是【2 0 l :首先录制包含 有愤怒、高兴和悲伤的情感语音库,对情感语音库进行f u j i s a k i 基频模型训练。 通过f u j s i k a i 基频模型预测基音频率,通过分类回归树模型来对时长进行预测, 用c h 触玎合成器实现情感语音的合成。合成的语音中愤怒的语音效果比较理 想,而高兴和悲伤情感语音的效果不太理想。 九十年代初出现的基于基音同步叠加( p s o l a ) 算法的波形编辑技术也是单 元拼接合成的一种方法。该方法可以在基音拼接时对它的基频、时长和能量等 韵律参数进行灵活的调整,并且语音库不是很大,因此得到了较为广泛的应用。 传统的p s o l a 算法合成是对原始语音信号以基音为单位进行韵律修改来得 到情感语音,有很大的局限性,一方面是准确的标注很难获得,另一方面,p s o l a 调整之后,往往会带来比较大的负面作用,包括噪音和机器声,使得合成的质 量会有明显下降,而且合成的情感语音缺少情感的音质色彩。因此,本文提出 了基于情感基音模板的基音叠加算法来合成情感语音。 1 4 课题主要研究内容 本文在基音同步叠加算法( p s o l a ) 的基础上,提出情感基音模板叠加的 情感语音合成方法。该方法分别建立声母库及高兴、愤怒、悲伤及中立四种情 感下的韵母基音模板库,建立了汉语中阴平、阳平、上声和去声四个声调的归 一化调型函数,并研究了如何通过调型函数得到合成韵母的基音周期序列;统 计分析语音库中情感语音的韵律特征参数;算法以情感基音模板为合成基元, 根据合成音节的声调和目标情感的韵律规则来调整基音模板,将调整好的基音 模板进行拼接,从而合成含情感语音。仿真实验证明,用情感基音模板合成的 情感语音音质清晰,更富有情感色彩。 下面介绍论文的安排: 第一章绪论。主要介绍课题背景,情感语音合成技术的发展现状以及本文 主要研究内容和论文安排。 第二章情感语音库的建立。确定了本课题所采用的情感分类方法和情感语 音库一中科院录制的情感语音库。提出了基于韵母情感基音模板的情感语音合 成方法。并在中科院情感语音库的基础上建立了声母库和韵母情感基音模板库。 第三章情感语音特征参数分析研究。分析了情感基音模板对合成语音音质 的影响;提取韵律特征并研究韵律特征在情感语音中的表现规律。 第四章基于情感基音模板的语音合成算法的研究。研究了基音同步叠加算 法的原理,并在该算法的基础上提出了基于情感基音模板叠加的情感语音合成 方法,并给出系统的构架图,对系统构架中主要的功能模块进行了研究,给出 5 硕士学位论文 第一章绪论 了合成情感语音的仿真结果。 第五章情感语音合成系统的实现及性能分析。对情感语音合成系统的功能 需求进行了分析,设计了情感语音合成系统的界面并采用m a t l a b 软件对该系统 进行了软件仿真,对系统的工作流程做了详细介绍。对合成的情感语音进行了 主观听觉感知实验的测试,最后对合成语音音质和韵律参数进行了分析。 第六章结束语。对本文所做的工作进行了总结,说明了本文的创新点,对 下一步的工作进行了展望。 6 硕士学位论文 第二章情感语音库的建立 第二章情感语音库的建立 情感语音合成的基础是建立高质量的情感语音库,只有建立高真实感、大 规模的情感语音数据库才有可能从事情感语音合成的研究。情感语音数据库为 情感语音合成提供了大量的分析数据及合成语料。 2 1 情感语音库 2 1 1 情感的定义 情感是根据所处环境由主观冲动引起的较强的心理状态、生理状态,能够引 起的表现主要在语音、表情以及行为上。对于情感的产生机理,尽管研究者们做 了很多的研究工作,如今对于情感仍然没有被广泛认同的定义。不同的研究方法 和目的会有不同的情感机理的表现形式。目前有许多研究情感的学者对情感的正 确定义进行了研究,通常认为情感是由思想和外部事件引起的生理变化、行为及 主观体验组成,是人们相互之间交流盼信息。 k l a u ss r 【2 l 】指出情感同立场、态度和情绪是不相同的,尽管它们之间存在 着一定的联系。一般来说,态度与情感是不容易区分的,而o h a l a 2 2 】则指出情感 与态度间存在本质的区别,说话者在对话中的目的即是说话者的态度,说话人 对所处环境和心理状态的反映则是情感。两者中,态度的主动性更强,情感则 比较被动。 从心理学角度上,c o r n e l i u s 2 3 】把情感分成了六种:高兴,悲伤,生气,厌 恶,愤怒和惊讶。愤怒包括了恶狠狠的冷怒和“怒发冲冠”的怒。 k l a u ss r 用心理学中的高低唤醒度来表达感情状态的强烈程度。高唤醒度 ( 1 l i g ha r o u a s l ) 是指表现较丰富的感情,可以使说话者表现出强烈感情的语音, 而低唤醒度( 1 0 wa r o u s a l ) 的情感表现比较弱,在发音中没包含较多的感情。各种 情感有各自的唤醒度范围,如怒发冲冠的唤醒度较高,而羞愧和悲伤的唤醒度 较低。 情感语音处理中一般选用较为典型的情感,如高兴、恐惧、愤怒和悲伤,也 有高兴、愤怒、悲伤、恐惧和厌恶等阱】。b e r l i n 科技大学的通讯科学研究所录制 了包含中立、高兴、愤怒、悲伤、厌恶、恐惧和厌烦的情感语音库f 2 5 】。 2 1 2 情感的分类 在对情感语音信号进行研究之前,要采用某些标准对语音的情感进行合理 7 硕士学位论文第二章情感语音库的建立 高兴一,_ 、赞同 弋 、 期_ ( 雷点卜、 自磊原点 夕 愤3 么奇 恚一,磊厌恶 一 瑟伤 表2 - 1f o x 的情感三级分类模型 8 硕士学位论文第二章情感语音库的建立 2 1 3 情感语音库的分类 情感语音库的分类主要依据获得情感语音数据的不同途径,常见的三种情 感语音库类型有【3 2 】:( 1 ) 自然产生的情感语音;( 2 ) 表演所得的情感语音;( 3 ) 由情感引导产生的情感语音。各种类型的情感语音库各有优缺点。选择情感语 音库时,需要根据我们情感研究的方法、目的、应用需求以及一些客观条件等 选择适合的情感语音库。 1 自然产生的情感语音 自然产生的情感语音具有最高的可信度,但是收集起来非常困难。自然情 感语音通常在说话者不知情时录音,从而达到收集情感语音的目的。因为说话 者对收集情感语音是不知情的,所以说话者处在非常自然的情况下用语言来达 自己的情感。然而,因为说话者对采集情感语音的不知情,引出了版权等一系 列法律相关的问题。在使用自然产生的情感语音之前,需要对这类情感语音进 行分类。将自然产生的情感语音合理分类是比较困难的,因为目前情感的分类 还是不确定的,根据不同的研究者及研究目的分类也有差别。自然产生的情感 语音库有l e e d s r e a d i n ge m o t i o ni ns p e e c hc o r p u s ,b e l f a s td a t a b a s e ,s u s a s c o r p u s 及j s td a t a b a s e 等。 2 表演所得的情感语音 虽然自然产生的情感语音具有最高的自然度,但是收集起来太困难,因此, 情感语音的学者们请若干个演员或播音员模拟各种情感来朗读给定的语句,然 后对这些情感语音进行情感分析,从而得到了表演所得的情感语音。 虽然表演所得的情感语音的自然度不如自然产生的情感语音高,但比较容易 获得。表演所得的情感语音的质量同它的说话者有很大的联系。因此,为提高 表演所得的情感语音的质量,可以邀请专业演员或播音员来表演获取。表演所 得的情感语音与自然情感语音相比,前者的情感状态可能会被不同程度的夸大, 所以,真实的情感不能在有些表演所得的情感语音中得到合理的体现;虽然表 演所得的情感语音有较高的语音情感识别率,但是真实的情感语音的特点是不 能仅仅用这类情感语音来代表的。可见,语音的情感状态的自然度同情感语音 的获取方法是不可调和的矛盾。 3 由情感引导产生的情感语音 在对这类情感语音进行录音之前,情感语音学者会让说话者读一些能让说话 者产生某种感情的文学段落,或者看一段能让说话者产生某种情感的电影,来 引导说话者产生某种情感,从而获得由情感引导产生的情感语音。 9 硕士学位论文第二章情感语音库的建立 2 1 4 情感语音库介绍 下面对国外已有的情感语音库作简要介绍【3 3 】。 b e l f a s td a t a b a s e :该情感语音库是英语文本,情感种类有愤怒,悲伤,高兴, 中立和害怕,情感语音库的类型是由情感引导产生的情感语音库,是音频文件, 发音人共有5 0 位; b e l f a s tn a t u r a l :该情感语音库是在电视录音中采集的英语情感语音,属于 表演所得的情感语音库,每段语音长度在lo - - - 6 0 s 间,情感种类主要是愤怒,共 有1 2 5 个发音人,其中3 1 个男生,9 4 个女生; a l b e l i n 这个情感语音库是瑞典语文本,是表演所得的情感语音,情感种 类有愤怒,厌恶, 害怕,高兴,悲伤,惊讶和羞愧等,只有一个发音人; b a n s ea n ds c h e r e r :该情感语音库属于引导产生的情感语音库,是德语文本, 字面不包含情感,有情感引导文本引导说话人说出各种情感语音,情感种类有 恶狠狠的愤怒,冷怒,焦虑,烦躁,鄙视,厌恶,兴高采烈, 害怕,高兴, 感兴趣,骄傲,悲伤及羞愧1 3 种情感,共有1 2 个发音人,6 个男生6 个女生, 音频视频文件皆有; m o z z i c o n a c c i :该情感语音库属于引导产生的情感语音库,是荷兰语文本, 文本中不包含情绪,但有引导说话人产生某种情感的文本,情感种类包括愤怒, 烦恼,害怕,厌恶,内疚,高兴,骄傲,愤怒,高兴,中立,狂怒,悲伤和 担心1 3 种情感,有3 个发音人,音频文件; r e a d i n g l e e d sd a t a b a s e :该情感语音库是4 5 个小时的广播电视录音,英语 发音,情感种类主要是愤怒。 国内普通话的情感语音库主要有中科院录制的情感语音库。该语音库属于 a c t e ds p e e c h 类型。录音人是一普通话标准的男性,语音库以句子为单位,每个 句子由六个字组成,分别以高兴、愤怒、悲伤、惊奇、害怕和中立6 种情感方式 朗读,采样率为1 6 k h z ,以w a v 文件类型保存。 2 2 情感语料及情感基音模板 本课题采用中科院录制的情感语音库。过细的情感分类并非对人机交互和情 感识别有很大的意义。情感分的愈细,情感特征愈加模糊,将会大大的降低识 别率。所以现阶段的情感识别中,多采用和6 种情感分类。国内许多学者将情 感分为高兴、愤怒、惊奇、悲伤四种进行相关研究i 砌,或者分为欢快、愤怒、 恐惧、悲伤【3 。这种四情感模型的好处是情感粒度大,容易区分辨别。为有效 提高实验的准确程度,本文采用r u s s e l l 情感空间中的四种主要情感:愤怒、高 1 0 硕士学位论文第二章情感语音库的建立 兴、悲伤和中性。所以实验中只用到语音库中高兴、愤怒、悲伤和中立4 种情 感的句子。 合成基元是语音合成中首先要考虑的问题。从波形上看,韵母可以分解为一 个平稳段与若干非平稳段,图2 2 是“就”的韵母“i u ”的波形。在平稳段,波 形有明显的周期性,我们称平稳段波形中一个周期的波形为一个基音同步模板, 一个韵母不同于另一个韵母的主要原因就是因为它们各自拥有不同的基音同步 模板,也就是说基音同步模板包含了一个韵母平稳段的语音特征。对于情感语 音,发音入会适当地改变声道形状、肌肉张力等参数以达到表达某种情感的目 的。所以,韵母基音模板波形在不同情感下不相同。实验在提取基音模板的过 程中,发现韵母在不同情感下的基音模板波形确实有差异。如图2 3 所示。 于是,本文提出基于情感基音模板的情感语音合成方法。该方法的合成基 元是声母和韵母情感基音模板。所以,课题需分别建立高兴、愤怒、悲伤及中 立四种情感下的韵母基音模板库及声母库。 图2 - 2 韵母“i u ”在第四声调时的波形 2 3 情感基音模板库的建立 本文用p r a a t 软件将情感语音库细化为声母语音库和韵母情感基音模板库。 从听觉感知实验可知,声母对情感的贡献较小,只截取中立情感下的声母模板; 无论声母是那一个,同一韵母相同情感的波形差别不大,声调对基音模板的影 响也较小,所以韵母基音模板每种情感下截取一次,而且要截取韵母波形平稳 段幅度较大且较平坦的基音模板。图2 3 ,2 - 4 ,2 5 分别显示了韵母i 、e 、i a 在各种情感下的基音模板波形。 从图2 3 、2 - 4 、2 5 可以看出,同一韵母在不同情感下基音模板是有差异的。 汉语中共有2 3 个声母,3 9 个韵母。所以我们所建的声母库中有2 3 个声母波形 模板,韵母库中有高兴、愤怒、悲伤和中立四种情感的基音模板库,每个情感 基音模板库中有3 9 个韵母基音模板。至此,我们完成了情感语音库的建立。 硕士学位论文 第二章情感语音库的建立 一。1 - 。_ 。- _ _ _ i _ 。_ _ _ i _ _ _ _ - i _ _ - i - - _ l i - - _ - - _ - _ _ _ - _ - _ _ _ _ _ _ _ i 。_ _ - _ _ - _ - - _ _ _ _ - - _ _ - _ _ - _ _ _ - _ _ 一 ( a ) 。高兴。i 的基音模板 ( b ) 。愤怒。i 的基音模板 ( c ) “悲伤”i 的基音模板 ( d ) 。中立”i 的基音模板 图2 3 各情感下i 的基音模板 ( a ) 。高兴”e 的基音模板 ( c ) “悲伤”c 的基音模板 ( b ) “愤怒”e 的基音模板 ( d ) “中立”e 的基音模板 图2 _ 4 各情感下e 的基音模板 1 2 建立 2 4 本章小结 图2 - 5 各情感下i a 的基音模板 本章首先介绍了情感的分类方法,然后根据实验条件等客观因素确定了本 课题采用的情感分类方法;介绍了情感语音库的类型和已有的情感语音库,在 此基础上确定了本课题所采用的情感语音库一中科院录制的情感语音库;通过 对情感语音发音过程及各种情感语音基音波形的分析,提出基于韵母情感基音 模板的情感语音合成方法。在中科院的情感语音库的基础上,本文建立了声母 库和韵母情感基音模板库。 硕士学位论文第三章情感语音特征参数分析研究 第三章情感语音特征参数分析研究 在一定的情感状态下,说话人发出的含有一定语义的语音即为情感语音。语 音中所包含的情感信息是相当重要的信息,情感信息能帮助人们更好的通过语 音进行交流。语音情感状态的变化可以由情感参数的变化规律来体现。因此要 合成含有情感色彩的语音,必须先研究如何从语音信号中获取能较好的反映情 感特征的情感特征参数且分析这些情感参数在各情感下的统计规律。 本文提出基于情感基音模板叠加的情感语音合成方法,该方法分别建立高 兴、愤怒、悲伤及中立四种情感下的韵母基音模板库,建立四种声调模型,统 计分析语音库中情感语音的韵律特征参数,根据情感特征参数的统计分析结果 调节合成语音的韵律特征,运用情感基音模板叠加的算法合成含情感色彩的语 音。本章分析研究了情感语音的特征参数。通常语音的情感特征参数可以分为 韵律类和音质类瞰1 。一般来说,韵律类参数主要反映了不同情感下语气的变化, 与激励信号密切相关;音质类参数和声道的状态有关,反映了不同情感中元音 质量的变化,如鼻音和声道肌肉紧张程度等【3 5 1 。所以,学习语音的情感特征参 数,我们必须先学习语音的产生机理及模型。 3 1 语音信号产生的数字模型 语音

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论