(信号与信息处理专业论文)基于统计分析的有表现力语音合成研究.pdf_第1页
(信号与信息处理专业论文)基于统计分析的有表现力语音合成研究.pdf_第2页
(信号与信息处理专业论文)基于统计分析的有表现力语音合成研究.pdf_第3页
(信号与信息处理专业论文)基于统计分析的有表现力语音合成研究.pdf_第4页
(信号与信息处理专业论文)基于统计分析的有表现力语音合成研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(信号与信息处理专业论文)基于统计分析的有表现力语音合成研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 髓着计算机硬件水平的不断发展,现有的语音合成技术已经基本解决了朗 读风格语音合成的可懂度与自然度问题,语音合成相关的产品也越来越多的出 现在人们的r 常生活中。然而另一方面,人们对于语音合成系统的要求也豳益 提高,不褥局限于简单的文本信息攒报,丽是希望枫器能够具有与人类相似豹 通过语言表达情感的能力。因此,近些年来,具有表现力的语音合成受到人们 越来越多的关注,也成为语音合成领域的一个研究热点。 有表现力语音包括很多方瑟,其中不同情感、语气语调以及焦点的表现都 是有表现力语音研究的重要方面。本文采敬参数统计的方法,分析了情感语音 的韵律表现,并分别利用s f c 模型和1 h i n a b l et t s 对情感语音和焦点语音建模, 取得了较好的韵律表现效果。整篇文章的结构安排如下: 第l 章是绪论,其中篱单介绍语音合成研究的内容、原理以及现有的一些主 要合成方法; 第2 章中将介绍情感语音和焦点重音的概念,情感语音的声学特性以及常见 的情感语音合成方法; 第3 章中将介绍韵律建模的方法,重点介绍s f c 模型,并利用s f c 模型的分 层叠加的特点对情感语音做韵律分析。在此基础上添加改变s f c 的韵律层次,通 过单独情感建模和混合情感建模两种方法对情感语音建模,合成语音能够较好 的表现情感韵律。 第4 章中重点介绍可谢练语音合成系统( r a i 穗轰醚e 疆s ) ,在s f c 模型情感 韵律分析的结果基础上利用t r a i n a b l et t s 对情感语音以及语气语调语音建模,合 成语音有较好的表现力。接着针对焦点语音的韵律特点,结合s f c 模型和 飘蠢n a b l e 订s 的特点,在t r a i n a b l e 订s 建模中引入s f c 模型的分层建模的思想, 对焦点语音的建模分成陈述匀建模和焦点檩关参数建模,得到较麓普适的焦点 模型。 最后将对全文进行总结,并指出现有方法中存在的问题以及可能的改进方 法。 关键词:有表现力语音合成s f c 模型可训练语音合成模型 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rh a r d w a r ea n dm ee x t e n s i v ea d o p t i o no f e o 司阱sb 氇s 甜糖i t s e k c 专i 强鞠矗戳玲e 如鼢艇a 参懿a 耄i 髓腻di 效约s p e e c h s y n t l l e s i s ,啦ei n t e l l i g i b i l i 够a l l dn a l u r a k e s so fc u 烀e n t 毒e x t - t o - s p e e c hs y s t e m sh a v e b e e ni m p r o v e dg r e a t l y m o r ea n dm o r es p e e c hs y n t h e s i sp r o d u c t sh a v ee m e 唱e di n p e o p i e s 掘l yl i f e 壬 o w e v e r ,p e o p l e sr e q u i r e m e n tf o rt h ep e r f | o 勰a n c eo fs p e e c h s y n t & s i ss y 逝麟妇e l o p s 懿妇s 撼e 蛀m e + t 脚w 锺专糍硪i 翡sc 张e o 黜戚e 巍 谢t he x p r e s s i v es p e e c hl i k ch u m a l lb e i n g s t h e r e f o r e ,i nr e c 锄ty e a r s ,e m o t i o n a l s p e e c hs y n t h e s i sg e t sm o r ea n dm o r ea t t e n t i o n 锄dh a sb e c o m eaf o c u s i ns p e e c h s y 弱穗e s i s 最e l d s 强ee x p r e s s 堇v es 辨e c hh a s 搬a n y 鑫s 熊;,s 越h 鑫s 越融e 嫩e 爨蕊o 嫩。致敷i 潍 a n df o c u sw h i c ha r ci m p o m n ti n 龇r e s e a r c ho fe x p r e s s i v es p e e c h i nt h i sp a p e r ,w e a n a l y z e dt h ep r o s o d yo fe x p r e s s i v es p e e c h ,a n dm o d e l e dt h ee x p r e s s i v es p e e c hb y 潲i n gs f cm o la n dt 豫i n 如l e 盯s 弧es y n 骶s i 勰ds p e e c hh a sag de f f e c 毫瓶t h e e x p r c s s i v ep r o s o d y t h ew h o l e t h e s i si so 毽a n i z e d 勰f o l l 蝴f s : c h a p t e rl i n t r o d u c e st h ep r i n c i p l eo fs p e e c hs y n t h e s i sa n dm a i nm e t h o d si n s p e e c hs y n t h e s i s c b p l e r2g i v c s 雅i 鼗拍曲式i o no n 。辫o t i o 魏l 蹲e e c 董lf e s e a & h 强d 勤e 璐。髓e a c o 蜮i e a lc h a r a c t e r i s t i c so fe m o t i o n a ls p e e c ha n d 也ep o 妒l a rm e t h o d s 触e m o t i o n a l s p e e c ha r ed i s c u s s e d c h a p t e r3d i s c u s s e dt h ep r o s o d ym o d e l ,m a i n l yi ns f cm o d e l w ea n a l y z em e p 羚s 耐y 西e 蕊o t i o 珏鑫ls p e e e h 姆s f c 黜& l 。强e 嚣w ci 赡o 如妇:e 删i 。嘲l 鑫y e f s i n t os f cm o d e l ,a n dm o d e le m o t i o n a ls p e e c hi nt 心w a y s :e m o t i o 瓣d 印e n d e 继a n d e m o t i o n i n d e p e n d e n t 1 h es y n t h e s i z e ds p e e c hh a sg o o de f f e c ti ne m o t i o np r o s o d y c h a p 钯r4f o e u s e so nt h ea p p l i c a t i o no fp r o p o s e dm 鼬o do ne x p r e s s i v es p e e c h 跚t h e s i s 姆m o 越f y i 觳g 搬ed 豳羲瓣e 遮t 蕊洒l e 疆s 。c o 建羹d e 蛙曩g 妞 c h a r a c t e r i s t i c so ff o c u s ,、v ei n t r o d u c et h et h e o 搿o fs f c ( w h i c hi sas u p e 印o s i t i o no fa g r o u pf u n c t i o nc o n t o u r s ) i n t ot r a i n a b l et t s t om o d e lf o c u ss p e e c h i i a b s t r a c t t h en n a lc h a p t e rc o n c l u d e sm et h e s i s 1 1 l ep o t e n t i a lp r o b l e m sw i t l l i np r o p o s e d m e t h o da n dp o s s i b l es o l u t i o na r ea l s od i s c u s s e dh e r e k e yw o r d s :e x p r e s s i v es p e e c hs y n t h e s i s ,s f cm o d e l ,t r a i n a b l et t s i i 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名: 丞圣鱼 爻豸年月善日 第l 章绪论 第l 章绪论 随着计算机和信息技术的发展,语言交互已经成为人机交互的必要手段。 语富科学已经成笼交叉科学,并在鳞常生活孛得到广泛的应耀。它主要包括语 音编码、语音合成和语音识别等方覆。语音编码主要研究的是如何离效率逸采 用数字方式表达模拟信号、去除冗余、达到数据压缩豹胬的。语音合成则是研 究人工的方法生成语音,让机器“能说会道 。语音识别是使机器分析和理解入 的语音,最终“听懂p 人类语富。 语音合成作为语音技术中研究起步最早熬部分,在太枫交盔中充黧重要惫 色,对语音的产生和感知模型等基础理论的研究也有十分重要的意义。从1 7 8 0 年v 傩蚤m 辨l o n 制造的机械式手动合成器,到1 9 3 7 年h o m e rd u d l e y ,戳e s z 和 w a 撼瓞研究成功的电子式合成器v o d e r ( v o i c e 毡斑。廷始嫩o r ) ,再到如今可灵 活摭制的数字式合成器,语音合成的研究已有2 0 0 多年的历史,语音合成技术也 完成了从萌芽到成熟,从实验室技术到实际市场产品的成长过程。目前,语音 合成技术毫经在崮动应答呼瑟罐中心( 包括金融、电信鞠政府等) 、趣话信患查 询( 包括天气、交通稻旅游等) 、汽车导靛以及电子邮件阕读等方面褥到广泛 的应用,同时针对娱乐和教育方面的应用也正在开展。总而言之,语音合成技 术范在影响着现代社会的方方丽面。 1 薹概述 根摅入类语言功能的不同层次,语言合成可以分成三类层次,它稍是:( 1 ) 按溉则麸文字到语音的合成( n 婷弱一s p c h ) 。( 2 ) 按规则从概念到语音虢合成 ( c o n c e p b t o s p e e c h ) 。( 3 ) 按规则从意向到语音的合成( i n t e n t i o n t o * s p e e e h ) 从现有的语言合成的水平来说,可以解决的还是从文字到语音的合成这个阶段, 也就是文语转换( 豫s ) ,蘑面所说的语音合成都是指文语转换。 第1 章绪论 图1 1 文语转换系统框图 图1 1 显示了一个完整的语音合成系统框图。这里我们将语音的合成过程看 成是一个层次化的分析过程,从文本信息到语音信息的文语转换过程可以看成 在不同的层次信息在不同的层面上进行分析处理的过程。在文本的层面上,先 要在语言层、语法层和语义层上进行分析,得到文本的层次信息( 包括词组、 短语、句子等信息) 。然后在层次化信息的基础上在语音层的基础上进行韵律分 析,得出语音层面上的韵律信息( 针对汉语来说就是超音段特征的生成,包括 基频、时长、能量的综合韵律曲线) ,然后根据生成的韵律特征,利用合成器生 成或者从语音库中挑选单元来完成语音数据的最后生成。 在语言层、语法层、语义层的工作可以归结为前端的文本分析,而语音层 面上的韵律生成和声学层面上的按韵律合成语音单元或在音库中挑选单元可以 说后端的韵律合成。对于语音合成系统来说,前端的文本分析部分都是相同的, 只是由于要求的不同而有不同信息表达方式。而后端的韵律合成方面也可以层 次化的分为两个部分,一个就是按照前端给出的层次化文本信息生成合适的韵 律,而另一个就是按照生成的韵律来产生最后的合成语音,在产生韵律和合成 语音的方法上,各种方法不尽相同,甚至两个部分成为一个不可分割的整体, 但是从思想上来说,每个合成系统都包含这样两个方面。 1 2 语音合成方法 从整个语音合成研究的发展历史来看,早期的机械式语音合成器反应了人 们对语音产生机理了解的比较粗略,现代语音合成的方法基本上都是采用一种 语音模型来合成语音。总的说来,近期语音合成的方法可以归结为四种:1 ) 物 理机理语音合成:2 ) 源一滤波器语音合成;3 ) 基于波形拼接技术的语音合成; 2 第l 章绪论 4 ) 可训练的语音合成;其中基于波形拼接技术的合成包括基于小样本的波形拼 接调整合成以及基于大语料库的波形拼接合成方法。下面我们将简要介绍这几 种语音合成方法。 1 2 1 物理机理语音合成 物理机理语音合成是通过对人产生语音的物理结构进行建模,从两产生语 音,比如,对发音过程中嘴唇、牙齿、下巴等运动进行建模。t i t z e ( 1 9 7 4 ) 曾 经研究过一个数学模型,这个模型是对声带振动的过程进行建模。但是也有另 外一些研究是对通过声带的气流来建立模型。 近来,物理机理语音合成的研究受到了制约,因为难以将它在现除段推向 实用。其原因主要在于两个方面:一是对语音产生过程中发声器官的运动和变 化进行度量非常困难,比如说如何精确记录舌位运动和口腔的交化。第二个原 因是和源一滤波器的语音合成模型相比,对通过声道气流特征和运动轨迹的数 学建模也非常复杂,以及这种模型的计算量非常大。但是目前,随着高性能计 算机的出现和对发音机理的深入了解,很多学者在推动这方面的研究。 最早的言语仿造者是妁麟z e ns l 沱洫,他曾在1 7 7 9 年以发明声学共振器而获得 塾家学院的奖金。他发明了一套声学共振器,其形状大小有点跟人类的西腔相 似。它用一片模仿人类声带的振动簧片,切断气流,使共振器发出声音。据报 道,c l l r i s t i a n 的机器所模仿的五个元音a 、e 、i 、o 、u 还相当准确。 第一个试图耀电气方法合成连续语言的机器籍靖v o d e r ,它曾经在1 9 3 9 年 纽约世界博览会和次年旧会山世界博览会上展出。v o d e r 有两个声源,一个是 宽带的噪声源,个是周期波峰鸣振荡器。这两种声音通过“共振控制 箱( 即 “声道”) 的时候,音色发生改变。控制箱有1 0 个相邻带通滤波器,包括正常 语言的频率范圈。带遥滤波器的输凄通过1 9 个子键的单独操纵,进行增益调整。 还有三个附件操纵选择滤波器作瞬时激励,模仿产生三组塞音:o d ,b ,k g 。 操作人员用一条转柄来选择噪音和蜂鸣声,用一个脚踏板控制蜂鸣振荡器的音 高。经训练的操作人员,能够用合成器相当熟练地奏出易懂的语言。 3 第l 章绪论 1 2 2 源滤波器语音合成 1 2 2 1 源一滤波器合成基本原理 源一滤波器的语音合成基于这样一种声学理论,这种理论认为声音由激励 和相应的滤波器形成。其中激励主要分为两种:一种是类似噪声的激励,主要 形成非浊音语音信号;另外一种是周期性的激励,主要产生浊音信号。这两种 激励有时也会共同使用,如产生某些浊辅音信号。在该方式里,音库中预先存 放各种语音合成单元的声道参数,这些参数根据控制规则的要求进行修正,以 合成出各种语言环境下的语音。其结构框图如图1 2 所示。 图1 2 源一滤波器合成方式结构框图 在基于源一滤波器的参数合成中,合成器的工作流程主要可分为三步: 1 1 首先根据待合成音节的声调特性构造出相应的声门波激励源; 2 ) 然后再根据协同发音、速度变换( 时长参数) 等音变信息在原始声道的 基础上构造出新的声道参数模型; 3 ) 最后将声门波激励源送入新的声道模型中,其输出就是符合给定韵律特 性的合成语音。 共振峰合成和l p c ( 线性预测分析) 合成是上述源滤波器型结构的参数合 成器中最常用的两种方法。它们实现原理基本上类似,只是所用声道模型不同。 同时,针对声道模型的特性,在源的选取上略有差别。下面我们将分别对这两 种参数合成器进行简单介绍。 4 黎l 章绪论 嚯。2 :2 2l p e 合成器 岂p c ( i 粥嚣羚聪l c 耄e o d i 蝶,线挂颈溅合成方法是鐾翦泌较篱单鞫实用戆 一种语蠹合成方法,它瑷萁羝数攒宰、爨复杂度、羝藏奉,受甍特鬟熬鬟裰。 六十年代后期发展起来的则语音分析方法可以稍效地估计基本语音参数,如基 音、熬掇峰,谱、声道面积函数等,可以对语脊的基本模型鲶出精确的估计, 蠹量计算速度较抉。霾蓝,毛残:语誊合成器囊耀毛憋语音分析方法,逶过分辑 自然谱费样本,计算出l p c 系数,就可以建立信号产生模型,从而合成出语音。 线性预测合成模型魁一种“源滤波器模型,幽白噪声序列和周期脉冲序列构 成的激融信号,经过逸v 逶、放大并逶过对变数字滤渡器f 女语音参羲控铡熊声遵 模型) ,就霹孩孬获褥源语音信弩。这种参数编羁靛语音合成器豹框蘑鲡鼷1 3 所示。 图1 0 乙p c 语音合成器 线性颈溅合畿辩形式有两种:是壹接熏氮p 系数捣畿翡递舞垂含裁滤波 器,这种方法通过定期的改变激励参数和预测系数就能合成出语音,简单易于 实现,缺点要求实现糙度高,合成结果对系数的变化非常敏感,不稳定;努一 耱合或麴澎式是采蠲放射系数搀戒酶椿鍪合裁滤波器,稳定,黠有霞字长萼| 超 的量讫效应灵敏度拢较低。在实黼谶行语音合成时,除了构成合成滤波器外, 还必须进行清浊音判决和确定音源强度。 莲。2 。2 。3 共振蜂合成器 共振峰语音合成器模型是把声道视舞一个谐振腔,利用髅体的谐振特性, 懿共摄蜂频率及繁宽,竣毙舞参数辅戚一令共攘蝾滤波器。嚣梵音色各翼鹣语 第l 章绪论 音有不同的共振峰模式,以每个共振峰颇率及其宽带为参数,可以构成一个共 振峰滤波器。将多个这种滤波器组合起来模拟声道的传输特性对激励声源发 生的信号进行调制,经过辐射即可得到合成语音。这便是共振峰语音合成器的 构成原理。实际上,共振峰滤波器的个数和组合形式是固定的,只是共振峰滤 波器的参数,随着每一帧输入的语音参数而改变,以此表征音色各异的语音的 不同的共振峰模试。 图1 4 所示的是共振峰合成器的系统模型,从图中可以看出激励声源发生的 信号,经过模拟声道传输特性的共振峰滤波器的调制,再经过辐射传输效应后 即可得到合成的语音输出。由于发声时器官是运动的,所以上面模型的参数应 该是随时间变化的。一般要求共振峰合成器的参数逐帧修正。简单地将激励分 成浊音和清音两种类型是有缺陷的,因为对浊辅音,尤其是其中的浊擦音,声 带振动产生的脉冲波和湍流同时存在,这时噪声的幅度要被声带振动周期件地 调制。因此为了得到高质量的合成语音,馓励源应具备多种选择,以适应不同 的发音情况。图中激励源有三种类型:合成浊音语音时用周期冲激序列;合成 清音语音时用伪随机噪声:合成浊擦音时用周期冲激调制的噪声。激励源对合 成语音的自然度有明显的影响。发浊音时,最简单的是三角波脉冲,但这种模 型不够精确,对于高质量的语音合成,激励源的脉冲形状是十分重要的,可以 采用其他更为精确的形式,如多项式波、滤波成形波等。 幅度 图1 4 共振峰合成系统 相比于l p c 方法,共振峰合成在参数调整合适的情况下,可望产生较高质 量的合成语音。其最大的优点是基于已有的发音机理,容易确定语音合成所需 的参数变化轨迹以及在语音段边界处的参数内插,可以通过共振峰频率的变动 来模拟不同语气、不同发音人的特征等。最大缺点是合成器结构复杂,参数调 6 第l 章绪论 整复杂,狠难完全正确地实现这些参数调整,所以实际的合成系统音质往往也 难以达到实用要求。 董。2 3 基于波形拼接技术的语音合成 幽于在模型的精确度方面的原因,以前的合成器都难以有效的合成高自然 度的语音,藤基于原始语音库的波形拼接合成在实现高自然度的合成系统上, 取得了很大的进展。波形拼接合成方法的基本原理就是根据输入文本分析得到 的信息,从预先录制和标注好的语音库中挑选合适的单元,进行少量的调整( 也 可以不进行调整) ,然后捞接得到最终的合成语音,其中用来进行单元挑选的信 息可以是前端分析德到的韵律文本,也可以是生成的声学参数( 比如基频、时 长和谱参数) ,或者两者兼有。由于最终合成语音中的单元都是直接从音库中复 制过来的,其最大的优势就是在于保持了原始发音人的音质。 其实在单元拼接合成方法最初提出时( wn 。e 瓣p 碱l 嬲d a wb l a c k1 9 , n 1 w 曲a s h i ,n 。k a i l ( i ,a n dys a 西s a k a1 9 9 2 ) ,幽于受音库容量以及单元调整算法 的限制,其优势并不是很明显,主要是合成语音不连续,自然度不高,而且单 元调整过大时导致语音音质急剧下降。一般我们把这种原始啬库比较小( 即拼 接样本数比较少) 的合成系统,称之为基于小样本的波形拼接合成,而与此对 应的就是现在比较流行的基于大语料库的单元拼接合成( a j h u n t 锄da w b l a c k1 9 9 6 ) 。这种方法的演变主要得益于近年来计算机的运算和存储能力的飞 速增长,其音库由以前的l 鹾b 变为l o o 醚b ,甚至超过l ,相应鳃单元挑选 策略也越来越精细,使得挑选出来的单元基本不需要调整,不仅保持了原始语 音的音质,而且不连续现象也得到很大的改善,自然度得到极大的提高。因此, 基于大语料库的单元拼接合成系统得到越来越广泛的应用( m c h u ,h 。p e 鹅,h y 锄g 矗n de c 量l a n g2 0 0 l ,r h n 蚺撇ga n dz k 氛重a2 0 0 0 ) 。 为了方便,后面所称的大语料库合成系统指的就是基于大语料库的拼接合 成系统。在构建一个大语料库合成系统时,主要包括以下几个重要环节: 薹) 单元尺度的选择:可以是音素、双音素、音节、谣甚至短语等,对予孛 文语音合成系统,比较常用的基本单元是声韵母和音节; 2 ) 语料库构建:首先是在保证单元覆盖率的前提下,根据特定的搜索策略 从原始文本语料中挑选出合适大小的语料;然艨进行音库录制并对音痒进行标 7 第l 章绪论 注,包括音段切分和韵律标注等; 3 ) 单元挑选算法设计和优化:大语料库合成系统的单元挑选算法一般分为 两步:首先是基于决策树或者其他索引方式的快速预选算法,得到一定数目候 选单元序列;然后再考虑候选单元的自身代价和连接代价进行精细的单元打分, 从而得到最优的拼接单元序列; 4 ) 单元拼接算法:主要包括韵律调整和单元平滑; 虽然大语料库合成系统的合成语音的音质和自然度都相当不错,尤其针对 一些特定领域的应用,包括新闻播报和信息查询等。但是,它也存在一些内在 的缺陷和不足,下面我们将一一介绍。 一般而言,大语料库合成系统的合成效果都不是很稳定,对有些语句可以 合成的很好,而对有些语句则合成效果比较差,主要体现在虽然每个单元的音 质都很好,但是有些拼接单元之间有比较大的不连续,如果一个句子中出现多 个不连续的拼接点,整个句子听起来效果比较差。因此,大语料库合成系统更 适合在受限领域的应用,比如数字串合成、新闻合成、旅游信息合成等。而对 于任意文本合成,其合成效果还有待提高。 在大语料库合成系统中,一个非常重要的环节就是语料库的构建,具体包 括语料设计、音库录制以及音库制作,其中音库制作包括韵律和音段标注。由 于现在的音库越来越来( 超过1 g b ) ,使得音库制作的工作量非常大,而且周期 也很长,虽然可以采用一些自动标注的技术来替代人工的方法,但是效果并不 是很稳定,所以现有的系统一般只构建少数几个发音人( 比如只有一个男声和 一个女声) 的音库,导致合成系统的合成语音比较单一。 此外,现在很多大语料库合成系统的单元挑选算法都是通过经验总结,并 在具体环境( 包括语种、发音人、语料等) 下针对合成效果进行调试和优化得 到的,其鲁棒性不高。如果环境有一定的变动,比如换一个发音人甚至换一个 语种,则需要对单元挑选算法重新设计和优化。 1 2 4 可训练的语音合成 由上面的分析可以看出,虽然现在大语料库合成系统的效果不错,但是也 存在不少缺陷,比如:合成语音的效果不稳定,音库构建周期太长以及合成系 统的可扩展性太差等。这些缺陷明显限制了大语料库合成系统在多样化语音合 8 第l 章绪论 成方面的应用,因此,近年来可调练的语音合成( 1 蕊n a b l e 鞭s ) 的概念被提出 来并逐渐得到越来越广泛的应用( m a s u k ot ,k t o k u d a1 9 9 6 ) 。 1 豫i n 曲l e 了s 的基本愚想就是基于一套盘动讫鳃流程,校据输入的语音数 握进行训练,并形成一令攘应熬合成系统。般面言,诫练是针对模型载者参 数进行的。在语音信号处理中,最普遍有效的建模方法就是隐马尔可夫模型 ( 差m m ) ,它在语脊识别串已经有菲常成熟的应用,掰前的碱n 曲i e 弭s 技术 也都是基予珏m m 进行参数建摸。 在最初提出t r a i n 曲l e 订s 方法时,由于受模型调练算法的不匹配以及参数 合成器合成音质的限制,其合成效果与大语料库合成系统有比较大的箍距,因 此并没有褥到研究人员麴重视。不过,经过对模型训练算法豹改进以及 s 硒乏a l g h ? 分耩合成器豹提高,奠合成效莱有骧显戆提赢。总体嚣言,t 喊激b l e h s 相对于现在大语料库系统的优势就在于,可以在短时间内,基本不需要人 工干预的情况下自动构建一个新的系统,因此对于不同发音入、不同发音风格、 甚至不藁语释的裱赖性菲嚣小。丽它雏不足之处在予,出予采雳模型寒生成是 标参数并基于参数合成器来合成最终的语音,其合成效果与原始语音相比还是 有不小的差距。 9 第2 章有表现力语音研究概述 第2 章有表现力语音研究概述 通常意义上来说,人类的语音携带了两方面的信息,一方面是语言信息 ( l i n g u i s t i ci n f o r n l a t i o n ) ,它遵循特定语言的规则,用来表述语音对应的文本内 容和完成语义上的交流蜀的;另一方谣是超语言信息( p 皴a l 波鲥氐 l 涵糯鑫t i o n ) ,它与语言与语音无关,雳来指示说话入当前的态度与情感状态等。 因此,为了更好的分析语音中包含的这些超语言信息,进行有表现力语音方面 的研究有着非常重要的意义。 单独获语音合成的角度考虑,随着语料麾技术的发展耜单元挑选与波形拼 接技术的广泛采用,现有的语音合成已经基本解决了朗读风格语音合成的可懂 度和自然度问题;但是与此同时人们对于语音合成系统的要求也不断提高,人 们期望的是人机之阕更加自然的交互方式,邸机器不仅能够模仿人类说话,更 戆表达出喜怒哀乐的情绪,不仅能够进行简单的信息播报,更能够鲁然生动的 讲笑话,读小说。因此具有情感表现力的语音合成也日益成为语音合成研究领 域的一个研究重点和热点。 2 1 情感语音的声学特征 情感是一种因所处环境和心理状态丽电主观冲动弓l 起的强烈的感情状态, 可以弓 起语音,表情以及行为上的表现。情感语音就是在说话人在一定的情感 状态下产生的具有特定语义的发音。 情感在语音上的表现主要体现在韵律上,所以通过调整句子的基频和时长 等韵律信息,基本上可以达到某种情感表达的效果。v 髓喊q 黼帮m 蔽e ( 觚琴薛 v a i l dm c a t h i a r d2 0 0 3 ) 通过对a m u s e m e n t 的听辨实验证明了韵律是情感感知的 一个重要信息。 音质在情感的表达方面也起着重要的作雳。啦i a 和m i e 魏e l ( 鹾i 蕊g 零。,m 。 m o 艄l ,a n dk r s c h e r2 0 0 3 ) 用调整实验证明了只对中立语音调整基频曲线不能 很好地表达情感,如果加入音质的调整效果会更好。y u a nj i a l l o n g ( y u a nj ,l s h e 瓠a n df 。c h e n 2 2 ) 指出不同感情色彩的语音在声学上的表现偏重于不同的 l o 第2 章有表现力语音研究概述 方面,其中愤怒和害幸自主要在发音上,喜悦在基频上,伤心在发音程基频上。 2 1 1 情感语音的韵律特征 酋先介绍一下几种常见的韵律参数的计算方法: 纂频域( f 0 r a n g e ) :旬中基频最高点与最低点的基频值之差,简单的用最高最 低点相减虽然不能够雩寻到足够的基频信息但是仍然可以提供基本的用于区分情 感种类的信息; 高线斜率( s l o p eo f t i 叩- l i n e ) :高线是f 0 峰值之间的连线,其斜率为高线斜率; 低线斜率( s l o p eo f b o n o m - l i n e ) :低线是f o 谷值之间的连线,其斜率为低线斜 率: 句子基频斜率( d e c l i n a t i o n ) :计算方法多有不同,有入采用高线斜率,有入 用低线斜率,也有两者平均的,也有用一次曲线拟和的; 针对情感语音基频所做的实验比较多,这肇篱单分绍( 飘鼬j 。,l 。s h e 戢鞠d f 。c h 铋2 0 0 2 ) 的结论。将一段文本以不同的情感方式( 生气,害怕,高兴,难过) , 不同发音人( 9 个) ,不同上下文( 2 种) ,按照不同的方式各重复两遍,这样一藏录 制了2 8 8 句话。对其的韵律研究最基本的结论是: 语速方露,音节时长欲短到长的顺序依次是:愤怒 害怕高兴 筋心;停顿 时长从短到长的顺序依次是:高兴 愤怒 害怕 伤心: 基频值方面,愤怒,害怕和喜悦的基频均值大于伤心:而愤怒和喜悦的基 频变化最多;也就是说:愤怒和喜悦基频高焉且波动大,害怕基频高但是波动 小,而伤心基频低波动也小: 对于摩擦音和塞擦音两种声母的时长,发现塞擦音时长普遍较长,而擦音 时长普遍较短。 表2 1 给出了遥种情感语音韵律特点的定性攒述。 表2 1y u a n 对四种情感语音韵律特点的定性描述 生气 害怕 高兴伤心 发音方式挤喉嗓音喘息嗓音正常嗓音 稍息礤膏 基频值 高高高低 基频波动人小大小 第2 章有表现力语音研究概述 塞擦音长k长长 擦音短短短 句子长度生气 害怕 高兴 伤心 停顿高兴 生气 害怕 n e 层,双 音节调t o n e l 、t ( ) n e 2 两层,还有w o r d 、p h r a s e 、c l a u s e 共6 层。t 饼崛 层表征音节自身的调形贡献,而t ( ) n e l 、t c n e 2 分别表示调形连接环境下前调 后调对当前调的影响。w o 要国、p 联r a s e 、c l a u s 嚣层分别表示韵律词、韵律短 语和句子对音节的影响。训练魏,可以按先验知识按各层的重要性,设定各层反 第3 零摹手麴 聿模型豹维感语鸯台绒 馈误差的权重。硎e 层有汉语调形标注c l 、c 2 、c 3 、c 4 、c o 分别表示阴平、 阳平、上声、去声、轻声;k 粼e l 、善o n e 2 层骞调形连接标注c l l 、c 1 2 、c 1 3 、 c 1 4 、c 1 0 、c 2 l 、c 2 2 、c 2 3 、c 2 4 、c 2 0 、c 3 l 、c 3 2 、c 3 4 、c 3 0 、c 4 l 、c 4 2 、 c 4 3 、c 4 4 、c 4 0 、表示调形连接组合,c l b 、c 2 b 、c 3 b 、c 4 b 、c o b 、c b l 、 c b 2 、c b 3 、c 1 3 1 4 、c b o 表示短语边界前调和边界后调。 3 。4 2s f c 模型对情感语音的韵律分析 为了便于对比中立语音的韵律,我们使用了之前中立音库的女发音入燕萍的 高兴和难过情感音摩。在自然语流中,人们一般通过节奏和重读等变化来表达情 感。因此我们对两个情感音库在韵律词层次上进行了情感的强弱变化和焦点词的 标注来帮助我们对其情感进行韵律分析。 根据音库的标泣情况,我们设计添加了f o c u s 层和v q 层分别来表现焦点和t 情感的强弱变化。同时为了和中立语音的韵德做对比,我们也添加了 e m o t i o nt y p e 层来区分表现不同情感。添加上述三种层次后,我们将离兴、难过 和中立的音库分别进行单独和混合的建模训练。同时我们在模型训练时分别把新 增标注的层次权重设为o 帮l ,然后比较模型参数,能够得到该层对韵律表达的 作用。 1 ) f o c u s 层 不管在单一情感的模型训练和混合情感的模型中,焦点标注的基频都明显高 予非焦点标注。对该层权重设为o 时,扶各层预测参数的对比来看,其他层并没 有因为f o c u s 层的不存在而对模型有基频形状补偿,而整旬的基频曲线则在焦点 处有明显的降低。f o c u s 层相对调型层,韵律短语层以及句子层等层次较为独立, 且只对表现焦点有贡献。 2 ) e m o t i o 娃t y p e 层 在单一情感的模型训练中e m o t i o nt y p e 层都是同一标注,并无多大意义。 而在混合情感模型中,该层的表现为高兴的基频较高,难过的偏低,而中立的与 高兴的比较接近。我们把该层权值设为o 时,基频表现比较混乱,说明不同情感 对基频有很大的影响。 3 ) v q 层 在单一情感和混合情感模型中,该层的基频表现明显随着标注的不同有高低 的变化,丽且在不同情感中变化稍有不同,说明情感的强弱变纯对基频有一定的 影响,且不同情感会有不同的变化。而将该层权重设为o 时,该层的贡献则主要 分布到韵律短语层和韵律词层,而调型层和句子层没有什么变化,这与我们标注 第3 絮基予鹣| 聿模型的情感语酱衾成 的单位也基本一致。 因此对于情感语音,其情感的贡献主要来鸯韵律词层和韵律短语层,我们可 以将e m o t i o 蚶y p e 层和v q 层合并,来表现情感在韵律词和韵律短语层的变化。 3 4 3s f c 模型对情感语音建模 3 4 3 1e m o t i o n d e p e n d e n t 和e m o t i o n - i n d e p e n d e n t 建模 通过上节的韵律分析,我们知道对予情感语音,韵律特征同时受到情感强弱 变化、重音等因素的影响,因此在标注方面除了调形、韵律层次等基本的韵律标 注外,我们添栩了情感种类、强弱程度和焦点等标注并设计添嬲相应的层次。为 了便于分析不同情感间的差异,建模时我们采用e m o t i o n - d e p e n d e l i t 和 e m o t i o n i n d e p e n d e n t 两种方法建模。 重) e m o t i o n 一氐p e n d e n t 每种情感语音单独用s f c 建模,加入了数鞋。毒i 瓣襄孙s 嚣层。e 爨o i o 珏层 表,怔情感对当前音节的影响,我们将高兴和难过的情感按表达程度的强弱分3 个 等级,分别标注为h 1 ,h 2 ,h 3 ( 高兴情感) 和s 1 ,s 2 ,s 3 ( 难过情感) 。f o c u s 层 表征前盾糖近的焦点音节对当前音节的影桷,标注有f 、p 2 n 1 、p l n 2 、p l n l 、 p 2 n 2 分别表示当前音节为焦点或前后焦点音节和当前音节的距离。 2 ) e m o t i o n i n d e p e n d e n t 几种不同的情感语音( 高兴、难过、中立) 混合建模,同样加入e m o t i o n 和 f o c 黼两层。由于情感的种类和表达程度的强弱有很大的相关性,因此不再添加 相应的层次一起放入e m o t i o n 层,其中添加标注n 表示中立的情感。 实验采用燕萍( 女声) 的1 0 0 0 句中立音库、1 2 0 0 旬高兴音库和8 9 0 旬难过 音庠。其中中立语句平均每旬3 5 个音节,情感语句平均每旬2 5 个音节。由于 s f c 模型的训练不需要很多的数据,因此每种情感我们分别取l 旬作为集内训 练数据。 3 4 3 2 情感层次对基频表达的作用 在不同情感混合建模时( e m o t i o n i n d e p e n d e n t ) 我们可以清楚的观察到新增 层次对基频的贡献。下图为e m o t i o n 层和f o c u s 层情感标注对基频的贡献。 其中e m o t i o n 层的高兴的基频较高,难过豹偏低,而中立的与高兴的比较接 近,相同情感下情感强弱不同对应的基频表现也会有明显的差异。f 潞层中焦 豢3 牵苯手豹律揍燮黪情感谮尝合成 点标注( f ) 的基频高于非焦点标注( p 2 n 2 ) 。而焦点对前后音节( p 1 n 2 、p 2 n l 、 p l n l ) 的基频也有臻显的影响,大致是在焦点前后有个基频豹渐变,当音节处 于两个焦点之间( p l n l ) 时可以看到其基频会有一个凹形的曲线变化。 o o5 毫 嚣0 焉 h h 3n 5 图3 3e m o t i o n 层中高兴( h l 、h 2 、h 3 ) 、难过( s l 、s 2 、s 3 ) 和中立( n ) 不同模式 静基频交毒艺 fp 1 n 2p 2 1 1p n 1p 2 图3 4f o c u s 层中不周模式的基频变化 3 4 3 3 基频误差的客观评测 每种情感集内集外各取5 0 句计算r m s e 和相关度,并与中立语音的误差结 果作比较。从表3 。l 、3 。2 中可以看出两种方法( e m o t i o n d e p e n d e m 和 嚣m o i o 娃i n d e p e n ( 1 镭 ) 对情感语音训练的结栗在r m s e 和相关度方面都有一定程 度的下降,但还是在可以接受的范围内。 图3 5 和3 6 分别为两种建模方法对高兴语句的基频预测曲线,从中可看出 两种方法都能大致表现出相应的韵律变化。而其合成效果从主观听感上也基本能 表现出相应的情感。 第3 颦甚于韵律摸挺的情感语聋仑成 表3 。差 e 瓣o l i o 静d e p e 辩翻n l 建模时基频的均方误筹建m s e ( 取5 8 l _ l z 麓对数煎眈) 和整 句基频曲线的相关度 表3 2e m o t i o n i n d e p e n d e n t 建模时基频的均方误差r m s e ( 取5 0 h z 的对数值比) 和 整旬蓥频馥线的福芙度 t 憎t - - b i u p r d i c t _ 小r d t : l 鼍7! ! , t : 螺t 3 14 -s 16 1r 芦 尊 口2 2 了 i : ? : 6 j 7 lb 捌3 娥v l 一 f 乎 j 乳 淤 材 、a i ; - |l | 蜓 p 。 r | |o ; 1 5 0 图3 5e m o t i o n d e p e n d e n t 方法对高兴语句的建模。 实线表示目标基频膝线,虚线为预测鞠线 图3 6e m o t i o n i n d e p e n d e n t 方法对高兴语句的建模。 实线表示目标基频曲线,虚线为预测曲线 2 6 第3 牵蕞于辫簿搂墅藜肇感添蠢台成 邋过实验我们可以看出,不管憝中立语音糊情感语音,其韵律都有一定的屡 凌表理。姨表3 ,l 、3 + 釜润霞3 + 5 、薹。存霹戳著惠,在擦入了摇或鳃情感屡凌蠡注簇, 糕溺s f e 摸鍪对髓惑语音建摸栽够较好翁表现掇情感语音匏瀚律。丽我识程混 合建模时的误差较单独建模的误差太,可能与我们添加的情感棚关层次标注还是 显得有缝不够有关,嚣瑟添麓其镪麓更精确表现帻感瓣差异豁栋注寒获得更好熬 鏊霪表邈。 第4 章螭于t r a i n 8 b l e 丁t s 的有表现力游爵合成 第4 章基于t r a i n a b l et t s 的有表现力语音合成 4 1 概述 虽然目前的大语料库合成系统的效果已经不错,但是它的一些缺陷,比如 合成效果不稳定、音库构建周期太长以及合成系统的可扩展性太差等,明显限 制了大语料库合成系统在多样化语音合成方面的瘟用。因此,近年来可训练语 音合成( 髓a i 疑曲l e t t s ) 的概念被提出来并逐渐得到越来越广泛的应用。 t r a i n a b l et t s ,顾名思义,就是可( 自动) 训练的语音合成,其基本原理就 是基于一套自动化的流程,根据输入的语音数据进行训练,最后形成一个相应 的合成系统。它相对于现在大语料库系统的优势就在于,可以在短时闻内,基 本不需要人工干预的情况下自动构建一个新的系统,因此对于不同发音人、不 同发音风格、甚至不同谮种的依赖性非常小。 4 2 ,l 陌a i n a b l et t s 框架 图3 1 为基于h m m 的t r a i n a b l et t s 系统的基本框架,它主要包括训练和 合成两大部分。在训练过程中,利用h m m 训练对基频、时长以及谱参数进行 建模。在合成过程中,对输入文本进行属性分析,并利髑训练后的模型进行参 数预测,最后通过参数合成器合成出语音。下蕊分别对这两部分进行详细介绍。 第4 章基于t m i n a b i et t s 的有表现力语音合成 输入 文本 4 2 1 模型训练 图4 1t m i n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论