




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕j :学位论文 摘要 随着人机交互的发展以及合成语音应用的推广,人们对语音合成 提出了更高的要求。如果在合成语音的同时有相应的人脸动画作为辅 助,可进一步提高人机交互的友好性和方便性。而合成的语音如果能 模拟表达说话人的情感状态,则会提高合成语音的自然度。 本文的重点主要放在情感语音的合成和语音可视化两个方面。在 语音合成之前,首先构建了一个小型的情感语料库,通过引入情感语 料库来增加合成语音的感情色彩,其中的语料句子分为喜、怒、惊、 悲四种情感。然后应用人工神经网络的方法进行韵律建模,用来提高 合成语音的自然度。在情感语料库和韵律建模的基础上,构建了一个 文语转换系统,合成出具有不同感情色彩的语音。通过比较,采用基 于波形拼接的语音合成方法。 在语音的可视化方面,本文采用基于图像拼接的方法。通过将音 素分类,映射为不同的情感图像。每种情感包括十二幅图像,不同的 情感对应不同组的图像。图像间的过渡采用基于双调和样条插值算法 处理,在选择特征点后进行扭曲映射,再通过交叉融合生成关键帧。 为了验证合成质量与效果,本文构建了一个文本可视语音转换系 统( t e x t t o v i s u a l s p e e c h ,t t v s ) ,并进行了计算机仿真。通过听音 测试以及合成语音基频曲线对比证明,该系统合成语音的自然度较高, 能够部分反映语句中的情感特征。在视觉效果上,图像问的过渡比较 自然,而且通过增加选取特征点的个数,可以进一步改善图像过渡点 平滑程度。 关键词:语音合成;可视语音;情感语音;人工神经网络 山东人学硕f :学位论文 a b s t r a c t w i t ht h e d e v e l o p m e n t o fh u m a n c o m p u t e ri n t e r a c t i o na n dt h e a p p l i c a t i o n o fs p e e c h s y n t h e s i s ,a h i g h e rd e m a n d i s p r o p o s e d t h e f r i e n d l i n e s sa n dc o n v e n i e n c eo fh u m a n c o m p u t e ri n t e r a c t i o nw i l lb e i m p r o v e di fw ec a ns e ev i d e ow h e nh e a r i n gv o i c e i fs y n t h e s i z e ds p e e c h c a ni m i t a t es p e a k e r se m o t i o n ,t h en a t u r a l n e s so fs y n t h e s i ss p e e c hw i l lb e i m p r o v e dal o t i nt h i sp a p e r ,a t t e n t i o n sa r cp a i dm u c ht oe m o t i o n a ls p e e c hs y n t h e s i s a n dv i s u a ls p e e c h a ne m o t i o n a lc o r p u si sc o n s t r u c t e dw h i c hh a so n l y e m o t i o n a ls e n t e n c e i tc o n t a i n sh a p p y ,a n g e r ,s a da n ds u r p r i s e p r o s o d y m o d e lb a s e do na n ni s a p p l i e d t o i m p r o v e t h en a t u r a l n e s so f s y n t h e s i z i n g at t si sa l s oc o n s t r u c t e dt os y n t h e s i se m o t i o n a ls p e e c hb y w a v e f o r mc o n c a t e n a t i o n i m a g e s m o s a i ci su s e df o rv i s u a l s p e e c hs y n t h e s i s d i f f e r e n t p h o n e m e sc o r r e s p o n d e dt od i f f e r e n ti m a g e sa n de a c he m o t i o nh a st w e l v e i m a g e s m o r p h i n gb e t w e e ni m a g e s i sb a s e do nb i h a r m o n i c e q u a t i o n a f t e rs e l e c t i n gk e yp o i n t sa n dd i s t o r t i n gt h em a p p i n g ,c r o s s i n t e g r a t i o ni s u s e dt og e n e r a t ek e yf r a m e s t ov 嘶矽t h ep e r f o r m a n c e ,as i m p l i f i e d 订v ss y s t e mi sc o n s t r u c t e di nt h i s p a p e r t h el i s t e n i n g v i s u a lt e s ti n d i c a t e st h a to u t p u ts p e e c hi sn a t u r a la n dm o 州n g b e t w e e ni m a g e si ss m o o t h w ec a l lm a k et h em o r p h i n gm o r es m o o t h l yb ya d d i n gt h e k e y w o r d s :s p e e c hs y n t h e s i s ,v i s u a ls p e e c h ,e m o t i o n a ls p e e c h ,a n n 玎 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体己经发表或撰写过的科研成果。 对本文的研究作出重要贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律责任由本人承担。 论文作者签名:玺坚垫堡 日期:型 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:垤望垦坠导师签名:诬堡日期:兰笪:至亨 山东火学硕f :学位论文 1 1 引言 第一章绪论 随着计算机技术和多媒体技术的发展,特别是近年来基音同步叠 加、基于大规模自然语料库的拼接和神经网络等智能算法的应用,高 质量的合成语音产品开始产业化,并逐渐进入了人们的只常工作和生 活中。同时,如何实现计算机的拟人化,消除人类和机器之间的障碍, 已经成为下一代人机界面发展的目标。 通过对语音产生机理的研究,我们知道语音特性与发音器官的形 状和运动有着本质的联系。人类对语音的理解是多模态的,面部表情 不仅可以传达丰富的感情,而且可以增强人们对语言的理解。语音的 可视化将语音和图像两种模态结合到一起,改变了人机交互的方式, 在网络环境、嵌入式系统中等都有着广泛的应用前景。 现有汉语语音合成系统多着眼于语音词汇传达的准确性,而忽略 了包含在语音信号中的情感因素。如果能结合情感计算领域的研究, 在语音合成过程中赋予语音感情色彩,使得合成的语音能够富有感情, 那么合成语音的质量将会大大提高。情感语音合成的研究,能够很好 的将语音的口语分析、情感分析与计算机技术有机结合,为个性化人 机交互系统提供了可能。 1 2 语音合成技术 1 2 1 语音合成概述 按照人类语言功能的不同层次,可以将语音合成由浅到深分成三 个层次:按规则从文本到语音的合成( t e x t t o s p e e c h ) 、按规则从概 念到语音的合成( c o n c e p t t o s p e e c h ) 、按规则从意向到语音的合成 ( i n t e n t i o n - t o s p e e c h ) 。目前,语音合成技术的研究还局限在从文本到 语音的合成上,也就是通常所说的文语转换( t e x t - t o - s p e e c h ) 系统。 山东大学硕t 学位论文 t t s 系统是将文字序列经过适当的韵律处理后,产生出丰富表现 力和高自然度的语音输出,从而使计算机或相关系统发出类似于“人” 样自然流利声音的技术。一般认为,语音合成系统主要包括三个主 要的组成部分:文本分析模块、韵律生成模块、语料库模块和合成模 块。系统结构图如图1 1 所示。 文本语音 图1 1t t s 系统结构图 文本分析的主要功能是给出尽可能详细的语言学和语音学信息, 包括分析哪些是字、词,哪些是短语,哪里应该停顿以及停顿时间等, 从而知道要发什么音。然后将发音方式告诉计算机,使最终的合成语 音更加自然流畅。 韵律研究涉及到语言学、语音学、心理学、语用学等学科的综合 知识。韵律生成模块决定最终系统能够用来进行合成的具体韵律参数。 目前对韵律研究的重点是音高、音长、音强三个参数在连续语流中的 分布与相互作用。 语料库模块为语音合成提供所需的基元,声学模块具体实现合成 语音的输出。 1 2 2 合成技术分类 语音合成方法主要包括波形合成法、参数合成法和规则合成法。 波形合成法:把语音波形直接存储或者进行波形编码后存储,合 成时根据需要编辑组合输出。系统中的语音合成器只是一个存储和重 放的语音器件。 2 山东人学硕j j 学位论文 参数合成法:先对语音信号进行分析,提取出语音参数,如 p a r c o r 系数和l p c 、l s p 系数等。合成时,根据需要由人工控制参数 产生合成语音。 规则合成法:系统中存储的是最小的语音单位( 如音素或音节) 的声学参数,以及由音素组成音节、由音节组成词、由词组成句子以 及控制音调、轻重等韵律的各种规则。给出待合成的字母或文字后, 合成系统利用规则自动转换成语音声波。 1 3 情感语音 1 3 1 情感语音简介 人类的话语中不仅包含了文字符号信息,而且包含了人们的感情 和情绪的变化。同一句话,由于说话人的情感不同,其意思和给昕者 的印象就不同。所谓的“听话听音就是这个道理【2 1 。 现有汉语语音合成系统,主要是着眼于语音词汇传达的准确性, 而忽略了包含在语音信号中的情感因素。使得合成的语音缺乏丰富的 语气、语速变化,听起来单调乏味,不够友好,如果在合成语音过程 中加入语音的感情色彩,那么合成语音的质量将会大大提高。情感语 音的合成,能够很好的将语音的情感分析与计算机多媒体技术融合, 为个性化的语音合成系统奠定了基础。 目前国内对汉语情感语音的研究并不是很多,东南大学的赵力对 具有情感的汉语语音的声学特征进行了分析和情感识别1 3 儿4 1 ;中国科学 院语言研究所的李爱军等人采用了共振峰合成法研究情感语音合成 】;中国科学院自动化研究所的陶建华对情感类型进行了韵律类和音 质类声学特征分析,并采用基于情感预测网络的方法对情感状态进行 了预测【6 】;清华大学媒体所的蔡莲红使用波形拼接方法,提出了对中 性韵律成分和情感韵律成分分别建模,然后叠加得到完整的情感韵律 模型【。 3 山东人学硕一l j 学位论文 1 3 2 情感语料库 在语音合成时,一般都需要相应的语料库支持。所以语料库的构 建是一个基本并且重要的阶段。语料库是语音处理技术研究的基础。 如果没有高质量的语料库,语音合成、识别等技术的研究都将受到很 大的局限。而情感语音是目前研究的一个热点,要使研究结果更加准 确,就必须有情感语料库作为支撑。 传统的语料库只是着眼于语音的内容或说话人信息,而完全忽略 了包含在声音中的情感因素。因此传统语料库只是反应了声音的一部 分特征而不是全部,随着语音情感信息研究的发展,情感语料库发挥 着越来越重要的作用。因此情感语料库的建设成为语音处理技术一个 新的课题。 1 4 可视语音合成 1 4 1 技术背景 人机和谐交流是人们长期追求的目标。早在上世纪七十年代,一 些研究人员就对声视觉对人类理解语言的相互影响做了一些研究。q s u m m e r f i e l d 最早提出了唇读方法,方便了有说话能力但失去听力的人 与正常人交流【8 】。实验表明,相比仅有音频信息,利用声视频信息, 实验对象对语言的理解正确率提高31 ,在噪声环境下对语言的理解 正确率提高4 3 。b r e e u w e r 等人得出了类似的实验结果,他们将短句 语音信号通过带通滤波器处理后提供给测试对象,结果表明当测试者 同时被允许看说话人时,识别正确率从2 3 提高到了7 9 【9 】。m a s s a r o & c o h e n 等人也用不同的实验方法得到了类似的结论,他们将4 2 0 个 单音节英文单词分别以声音语音、视觉语音( 唇动) 以及双模式( 声 视频语音) 的形式呈现给测试者,语音以自然语速读三遍并通过普通 电视播放,结果识别正确率分别为单声音语音:5 5 ,单视觉语音: 4 ,利用双模式则正确率为7 2 f l o 】。同时,一种称为“m c g u r ke f f e c t ” 实验【l ,从另一个角度验证了双模式对语言的理解影响。该实验是将 4 山东人学硕一j :学位论文 测试者呈现在相互矛盾的语音和口形下,如让测试者听b a 的音,而同 时看说话人发i g a l 的音,结果测试者会识别为不同于上两者的音,如类 似于音d a ,这表明人类在理解语言时不单利用语音信息,同时也利用 诸如说话者口形,乃至人脸的表情、手势等信息。基于人类的这一特 点,研究者考虑将双模态语音用在人机交互领域、通信领域以提高交 互的友好性和方便性。 可视语音的合成是一个交叉性很强同时具有挑战性的研究方向, 目前虽有一些较成功的案例,但是总体上还处于研究阶段。随着语音 识别和合成技术以及人脸建模和动画技术的发展,国内外许多研究机 构、院校的研究人员对此进行了一系列的研究,如美国加州大学感知 科学研究室,美国m i t 的b i o l o g i c a la n dc o m p u t a t i o n a ll e a r n i n g 中心 t e z z a t 等,日本东京技术研究所m t a m u r a 等,加拿大多伦多大学的 y u e n c h e n gl e e 等。在国内主要有清华大学媒体所的蔡莲红等,中科院 计算所的高文、陈益强,中国微软研究院的徐迎庆、h e u n g y e u n gs h u m 等。 1 4 2 可视语音合成方法 1 基于参数控制的方法 在基于参数控制的处理方法中,首先构建一个三维的人脸参数模 型,通过学习说话过程中人脸参数点的运动规律,建立语音信号和动 画参数模型之间的映射关系。 根据模型参数建立机制不同,基于模型的方法可以分为两种。一 是从生理解剖学的角度,以组织学、生物力学、运动学和面部骨骼结 构为基础,利用计算机图像学的方法构建皮肤、肌肉和骨骼模型【1 2 】, 并将某一特定语音信息映射为特定的参数状态。其中,多采用建立人 脸特别是唇部周围肌肉等的弹性模型,利用动力学原理,通过移动肌 肉、拉伸皮肤来实现语音动画的仿真。这种方法又分为质点弹簧系统, 向量表示模型,弹性网格模型,抽象肌肉模型。美国加州大学感知科 学研究室的d m a s s a r o 等人提出直接建立语音音素与发音器官几何位 山东人学硕l :学位论文 置参数之间的映射关系,并采用传感设备来捕获人发音中参数点运动 轨迹值,通过人机交互方式实现语音音素与模型参数对应关系的设置 【1 3 】 o 另一种方法是建立在二维或三维网格几何人脸参数模型基础上。 j p l e w i s 等人提出了一种自动语音同步的唇动合成系统解决方案【l4 1 , 该方法采用基于f p a r k e 提出的三维网络几何模型实现对人脸静态模 型的建模【1 5 】,在用线性预测算法实现语音音素识别的基础上,通过建 立音素与相应参数点之间的映射关系,在合成过程中找到语音同步的 关键帧人脸参数点的位置,最后通过轨迹平滑技术获得连续口形动画。 中科院的陈益强等人提出利用三层前馈神经网络建模语音特征和f a p 模式直接的统计关系,在合成阶段对输入语音预测出f a p 模式,并驱 动基于m p e g 一4 定义的网格模型,合成出语音同步的语音动画【l6 1 。 利用基于模型方法最大的优点是灵活性强,但是说话人的面部特 别是唇部运动是一种自发的运动,用物理或网格模型来实现复杂的肌 肉解剖结构、运动规律以及相应皮肤拉伸、骨骼运动等确实是难度很 大的工作,需要丰富的先验知识和复杂的设计模型,目前尚不足以完 整而精确地表达人脸所具有的复杂行为,因而基于模型的方法在合成 效果上让人感觉机械、不自然,合成真实感较差。 2 基于图像处理的方法 基于图像处理的方法,通过样本采集、学习和预测合成语音同步 的口形、人脸动画。该方法首先利用数据采集设备获得说话对象的声 视频序列,分别对序列进行预处理,提取相应的特征,从大量视频图 像里抽取、捕获真人说话或作各种面部表情时的真实面部图像,以此 建立一个样本图像数据库。然后通过算法把这些样本图像连接起来, 生成新的人脸图像序列。基于图像处理的可视语音合成系统实质上是 对采集图像的重组,因而合成效果更加逼真。 视觉语音,即说话过程中不同的口形,主要来自说话器官的几何 形状和纹理的变化。实际系统中多采用基于特征表示的方法,目前比 较典型的有基于全局特征方法、基于局部特征方法以及基于全局和局 部特征结合的方法。 6 山东火学硕i :学位论文 基于图像处理的方法主要有基于关键帧图像的方法、基于人脸组 件拼接的方法和基于图像序列拼接的方法; ( 1 ) 基于关键帧图像的方法 美国麻省理工学院m i t 媒体实验室t e z z a t 等人提出的称为 m i k e t a l k1 1 7 1 的系统,其设计核心是建立语音音素和关键帧图像对应数 据库,基本模型选择了l6 个具有较大口形差异的视素作为关键帧,利 用中间帧通过光流技术对相邻关键帧进行变形合成。 ( 2 ) 基于人脸组件拼接的方法 a t & t 的c o s a t t o 等人将人脸结构划分为几个基本组成部件( 如鼻 子、耳朵等) ,将视频定义为几个基本部件的组合18 1 。在合成时,根据 上下文对每个音位选择出合适的组件图像,投影到当前的人脸框架上, 并进行一些消除边缘效应的处理,形成一个逼真、自然的合成人脸。 ( 3 ) 基于图像序列拼接的方法 这种方法用小段原始图像序列组成新的图像序列,类似于语音合 成中的波形拼接合成法。b r e g l e r t 等人利用隐马尔可夫模型从原始语音 切分出三音素,经过图像分析从原始图像提取出嘴唇区域的三音素图 像序列 1 9 】。合成时从库中选择合适的三音素图像序列,进行时间上的 对接和图像的处理,再缝合到人脸框架上,形成新的图像序列。 与基于参数的可视语音合成方法相比,基于图像处理的方法是一 种样本学习和预测重构的过程,合成效果真实感更强,模型复杂性也 相对较低,不需要过多的口形运动先验知识。其缺点在于需要较大的 数据存储空间。如何更充分的利用说话过程中口形运动的形状信息及 纹理信息等局部特征来解决视觉语音表示问题是目前方法的一个研究 点。 1 4 3 应用背景 可视语音合成系统( r r v s ) 比单纯的文语转换系统( t t s ) 具有 更友善的界面,方便人们的和计算机的交流,在许多领域都有着广阔 的应用前景。 游戏娱乐:在各种娱乐项目中,如果用户所面对的是一个智能的 7 山东人学硕- j j 学位论文 虚拟人,将使用户感到非常真实与亲切,在三维游戏场景中加入逼真 的语音与动画同步的虚拟人模型就可以实现这种效果。 电影制作:人脸语音动画最显著的应用是电影和录像的制作。19 8 2 年以来,e k m a n 和f r i e s e n 的脸部运动编码系统f a c s ( f a c i a la c t i o n c o d es y s t e m ) 在指导构造人脸模型时起了非常大的作用f 2 们。目前语音 同步的人脸动画系统被广泛应用与电影特效的制作。 辅助教学:传统网络教学方式多是播放录音的形式,如果在录音 和文本同步的同时,加入一个虚拟老师的教学动画,尤其在学生说话 和听力方面有障碍时,将起到非常好的效果,学习过程将充满乐趣, 学生学习的积极性也将大大改变。 通信领域:通过有限的带宽传送连续的人脸图像是远程通信的关 键问题。如果在传递的时候传输相应的运动参数数据而不是整个图像, 带宽需求会大大降低,传输效果也会相应提高。 1 5 研究目标和内容安排 传统语音合成研究方法是将语音的可视化和情感语音分别研究, 本文的工作目标是将二者相结合,一方面研究情感语音,使得合成的 语音更加自然,通过对人工神经网络的研究来进行韵律建模,采用基 于波形拼接的方法进行语音合成;一方面研究语音的可视化,用基于 图像拼接的方法生成和语音同步的动画帧序列,使合成效果更加真实, 提高合成语音的自然度和友好度,更加方便人机的交流;最后将二者 结合起来,为综合检验合成的有效性,构建了一个可视语音合成系统, 并对合成语音及可视效果进行了测试。 本文的内容安排如下:第二章将详细介绍情感语料库的构建、情 感语音的合成;第三章介绍语音的可视化合成方法和声视频映射模型 的建立;第四章介绍所构建的t t v s 系统以及合成质量的评价;第五 章是对本文工作所做的总结。 8 山东人学硕i j 学位论文 第二章情感语音合成 人们在用语言进行交互时,用声音来表达自己的意向、情感。相 同的文字由于语音的表现不同,表达的意向和情感也不同。语音合成 追求的目标是可懂、清晰、自然、具有表现力。目前的语音合成系统 多以陈述句作为语料库,合成的语音表现不出应有的情感因素。本章 首先讨论情感语料库的构建,然后是语音合成中的韵律建模,最终构 建一个语音合成系统。 2 1 情感语料库 传统的语料库只是着眼于语音的内容或说话人信息,而完全忽略 了包含在声音中的情感因素,也就是没有考虑语音中韵律的作用。因 此传统语料库只是反应了声音的一部分特征而不是全部。随着语音情 感信息研究的发展,情感语料库发挥着越来越重要的作用。情感语料 库的建立成为语音处理技术一个新的课题。 语音语料库应包括文本、语音数据和标注等,其主体是语音数据。 它可能直接来自讲话或广播电视,也可能来自文本朗读。目前供计算 机语音处理的语音数据多来自文本朗读。语料库的构建步骤如图2 1 所示。 2 1 1 明确目的 图2 1 语料库的构建步骤 构建一个语料库首先要考虑它的使用目的,针对不同的语音处理 需求,设计专门的语料库。如语音识别用语料库和语音合成用语料库; 采集的数据又分高信噪比语音数据、电话语音或高背景噪声语音;还 有包括视频通道的音频数据,可用于口形辅助语音识别的研究,或用 于可视语音转换的研究。 9 山东大学硕:学位论文 以语音识别为目的的语料库和以语音合成为目的的语料库是不同 的【2 1 1 。以语音识别为目的的语料库,目的在于为声学层提供训练数据, 既要利用一些语言学的知识,同时更多的是要从语音学、声学的角度 出发,能够充分反映出语音的各种声学特性,为语音模型的建立提供 良好、完备的数据。而以语音合成为使用方向的语料库,则是以文语 转换为目的,对该语料库文本进行设计时,须从语言学、语音学的角 度,着重于全面体现语音数据中语音单元的长度、话音的停顿、能量 等韵律信息,以建立更好的语音韵律模型。这里,我们设计的语料库 主要面向汉语情感的语音合成系统。 2 1 2 语料获取 在明确语料库的用途后,要进一步明确语料库的内容。语料库的 内容要具有代表性。如应包括的基本声学单元,这些声学单元在连续 语流中的音变变体和音段间的过渡,以及适当的语境。对于汉语来说, 其基本单元可能是音节( s y l l a b l e ) 、声母( i n i t i a l ) 、和韵母( f i n a l ) 或音子。 汉语是声调语音,因此语料库中应涵盖声调不同的语音基本单元,以 及它们的组合。 为了满足语料库的要求,需要准备大量的原始资料。基于应用目 标选择具有明显针对性的材料,还要考虑是口语书面语、新闻服务等 材料的不同点。就通用目的来说,目前较多的选自电子词典、人民日 报等报刊和广播等材料。当然,如果构建面向旅游、宾馆预定的语 音系统,就要收集与之相关的语料。我们的原始语料来自现代汉语 词典和2 0 0 0 年的人民日报,挑选其中可以表示喜、怒、惊、悲情感 的句子,经过筛选,最终选定2 0 个句子作为基本的语料,见下页表2 - 1 所示。 2 1 3 语料录制 完成语料库内容选择后,接下来就是录音了。不同的语料库对录 音环节有不同的要求。 l o 山东人学硕卜学位论文 录音的环境,尽量选择安静、隔音消音效果较好的环境。设备方 面,可以考虑使用耳卖,整个录音过程中发音人和麦克风距离应尽量 保持不变。另外阅读文本时的语气也非常重要,而且很难把握。读的 时候不可过于急促,也不能过于拖沓。我们的录音是在安静的实验室, 选择用c o o le d i t 软件来进行语音录制,录制完成后将背景噪声消除, 然后存储为16 比特量化、1 6 k h z 采样率、p c m 编码格式的w a y 文件。 表2 1 情感语料句子 编号情感句子 l 李朴教练每天为我们上下杠铃片几十万公斤 2 猜中世界杯冠军的有四万多份 3 博物馆周围只有三个消防栓 4 中泰之间没有何利害冲突 5 一个充满死亡威胁的世界 6 我县李子坪村遭受特大暴风雨和冰雹袭击 7 和平解放前城区面积只有三平方公里 8 立即查封有问题的工厂 9 这家商店的老板真是精明 1o 人民群众都夸当地政办了一件大好事 l 1 对于偷税行为要严厉打击 l2 他女儿念到初一就辍学了 13 容不得任何人的践踏和蔑视 1 4 你想找谁 15 他绷着脸不说话 16 啊原来是你啊 l7 好的就这么办 18 她的成绩是一分十二秒 l9这话可不对呀 2 0就是下雨也去 山东人学硕上学位论文 2 1 4 韵律标注 录制语音数据后,还要对数据进行整理加工,以供使用者方便获 取有用信息。首先进行数据预处理,整理拼音材料,然后进行音段标 注。标注是对语音数据作必要的说明和描述,以提高语料库的可用性。 标注前的准备工作包括以下几个方面。 数据预处理:去掉多余的非语音数据,如过长的静音、重复的数 据、指出在速度、音量、信噪比等方面不合格的数据,以备重新录音。 整理拼音材料:拼音是对语音数据的文字方式的描述,是一种人 们非常熟悉、计算机方便处理的方法。校对语音数据与设计的文本是 否一致,修改文本的拼音或标示重新录音。将语音数据切分成语音基 元,如音节或音素。 音段标注:语音数据的录制后,还要对采集到的原始数据作分级 标注,以满足各种使用的需求。从理论上说,语音数据样本提供了与 语音有关的所有信息,数据库的后处理就是要将各种常用的公共信息 提取出来以方便共享。数据文件存贮方式是否合理、标注信息是否全 面准确,将直接影响到语料库的质量和使用。 标注信息应该包括: 1 ) 录音特性:录音时间,录音地点,录音通道特性等。 2 ) 说话人信息:姓名,性别,籍贯,文化程度,年龄,口音的 方言区。 3 ) 发音特性:包括孤立词语音、连续语音、口语语音等。 4 ) 数据相关信息:采样频率,数据量化位数等。 5 ) 语音文本信息:文本内容校对,音节,半音节,声调信息。 6 ) 语音细标注:语音起点终点位置,语音段和非语音段的划分, 基本音节和半音节位置标识。 , 我们参考国际上标音系统s a m p a t 2 2 1 和t o b i t 2 3 】,设计了适合于汉 语的音段和韵律的标注系统。目前,x m l 2 4 ( e x t e n s i b l em a r k u p l a n g u a g e ,可扩充置标语言) 被广泛地用做语料库标注的元语言。通过 d t d ( d o c u m e n tt y p ed e f i n i t i o n ,文件类型定义) 和s c h e m a 来规范x m l 1 2 山东人学硕i :学位论文 文件,从而使表现与内容分离,规范与实现分离,具有良好的扩缩性。 因此,我们采用基于x m l 可扩展标记语言为载体,对韵律信息分层级 进行标注。标注数据文件记录句子中每个音节的汉字、拼音、声调和 t 始末位置等信息,同时表明韵律词和韵律短语的层级结构。如图2 2 所示: ( ? x m lv e r s i o n = 。1 0 。e n c o d i n g = 。g b 2 3 1 2 ”s t a n d a l o n e = 。n o 。? 一 一 一 一 + + + ( s e n t e n c e 图2 - 2 标注示意图 标注的根结构为“u t t e r a n c e 单元,其属性为该u t t e r a n c e 单元的 采样点数( 长度) ,这里为317 2 8 。c h u n k 块开始到第一个句子开始其 间可能有静音部分,以“ 结构说明静音段的长 度。在目前的标注语料中,每个c h u n k 单元包含一个句子。句子结构 以 记号加以标注,根据需要,该记号后还可以进行扩充,以 加入对句子属性的更多描述。 一个s e n t e n c e 单元可能被划分为若干个韵律短语( p r o s o d i cp h r a s e ) 单元,以 记号加以修饰。 同样,每个韵律短语单元还可以进一步细分为韵律词单元,以 k 己号加以修饰。 最基本的单元为音节( s y l l a b l e ) ,以 记号修饰,其后跟 音节的属性,包括汉字( c h a r ) ,拼音( p i n y i n ) ,m c i p a 音标( m c i p a ) , 1 3 山东人学硕上学位论文 音节结束位置( e n ds a m p l e ) 。音节边界与韵律词边界之间,以及语音 文件的始末部分可能还存在静音部分,同样用与音节同层的静音( s i l ) 单元“ 刀加以说明。 我们初步建立一个小型的情感语料库,选取了有代表性的2 0 个句 子,这些语料基本包含了汉语中韵母和声母及相应的组合,原始语料 来自现代汉语词典和2 0 0 0 年的人民日报。在语料选取的过程中, 由一组人对随机选取的声音分辨对应的情感,错误率较高的重新进行 录制。我们设计了2 0 个句子作为录音语料,说话人表演四种不同的情 感( 喜悦、愤怒、惊慌和悲伤) 来朗读这些语料。 2 2 基于人工神经网络的韵律建模 韵律建模可提高合成语音的自然度,在语音合成系统中起着举足 轻重的作用。研究情感语音合成就要根据对情感有影响的一些特征来 建立模型【2 5 】。由于高层的韵律特征是定性的,不能直接用于语音合成 模块,因此它们必须被转化为定量的声学参数,如具体的基频值、时 长值等。韵律模型的作用就是实现这种转化。 不同的人说同一句话时其韵律特征不同,同一个人在不同的情绪 状态下说出的同一句话其韵律特征也会发生变化。因此,合成系统基 元库中存储的语音基元不可能反映所有的韵律特征变化,这就需要在 语音合成阶段从基元库中挑选出一个最符合当前韵律特征要求的候选 基元的同时,对基元库中的候选基元进行韵律修正。而基元选择和韵 律修正的数学依据就是通过韵律模型得到的声学参数。 随着计算机处理技术的发展,从大量语料中提取连续语句的韵律 特征已逐渐成为可能。神经网络具有良好的自动学习和参数映射的特 点,可以使系统具有不断自我学习和优化输出的功能。鉴于人工神经网 络的学习能力、大规模并行协同处理、较强的容错及联想能力等特点 在韵律预测中起到积极的作用,因此我们构建基于人工神经网络的韵 律模型,并采用音节作为合成基元,针对音节建立韵律模型。 1 4 山东人学硕一卜学位论文 2 2 1 人工神经网络的结构 神经元是神经网络的基本处理单元,是人工神经网络的设计基础。 其基本结构模型如图2 3 所示【26 1 。 输 入 信 号 突触权值 输出 胁 图2 3 人工神经元结构模型 人工神经网络由人工神经元模型构成,每个神经元具有单一输出, 并且每一个连接由一个连接系数度量,称为连接权值。神经元的连接 方法有多种不同的形式,不同的连接方法加上不同类型的神经元,就 构成了不同的神经网络类型,如h o p f i e l d 网络,b p 网络,感知器等。 人工神经网络的基本结构如图2 4 所示。 输入层隐层输出层 图2 _ 4 人工神经网络的基本结构 神经网络的结构特点可以归纳为: ( 1 ) 神经网络由搭理的神经元互相联接而成。 ( 2 ) 大量神经元按不同方式联接,构成不同类型的神经元网络。 1 5 山东大学硕i :学位论文 ( 3 ) 各神经元联接强度由神经网络内部权值决定。当个神经网 络的结构确定后,将根据学习规则调整神经元间联接强度,从而获得 有关问题领域的知识。 ( 4 ) 各神经元的操作可以是同步的,也可以是非同步的。 2 2 2 训练数据的提取 在本文中,神经网络需要学习的是汉语普通话语句中音节的发音 变化规律,其训练数据来自清华大学的语音合成语料库中的疑问句和 感叹句 2 7 1 以及所录制的情感语料库中的2 0 个句子。清华语料库包含了 4 8 5 句汉语普通话疑问句和5 9 8 句汉语普通话感叹句,每句话中一般有 5 2 5 个音节。在这些语料中包含了全部的有调音节,并让这些音节在 句子中不同的位置出现,使之覆盖尽可能多的韵律变化情况。 语料库中的每一句语料都是由对应的音频文件和韵律标注文件组 成的。音频文件为w a y 格式,标注文件对每一句话都进行了韵律层级 信息的标注,从低到高依次为音节( s y l l a b l e ) 、韵律词( p r o s o d i cw o r d ) 、 韵律短语( p r o s o d i cp h r a s e ) 和句子( u t t e r a n c e ) 。除此之外,标注文件 中还对每个音节的时长和后面的停顿( s i l ) 进行了标注。 2 2 3 输入参数 韵律模型的作用是将高层的韵律信息转换为声学参数,这些高层 的韵律信息也被称之为语境参数,语境参数设定的好坏将会直接影响 到神经网络的预测性能和收敛程度。本文主要针对汉语中的音节进行 韵律建模,同时考虑到连续语流中相邻音节之间的相互影响,则可选 的语境参数有:本音节的声母类型,韵母类型,声调类型:前一音节 的韵母类型,声调类型;后一音节的声母类型,声调类型。除了音节 层级的语境参数外,从韵律标注文件中还可以提取更加丰富的语境信 息,如音节在句子中的位置、音节在韵律词中的位置、音节后的韵律 边界等级( 即音节处在韵律词之中,还是韵律词结尾,还是韵律短语 的结尾) 。这样神经网络共有10 个可选的输入参数。 1 6 山东人学硕士学位论文 以上的语境参数现在还只是定性的描述,用于人工神经网络的输 入输出参数必须都是定量的数据,因此需要对它们进行转换。 声调分为5 种类型:l 为阴平、2 为阳平、3 为上声、4 为去声、5 为轻声。 按照发音方式的不同,可将汉语中的2 1 个声母分为6 种类型: 塞音:b ,p ,d ,t ,g ,k 擦音:f ,h ,x ,s h ,s ,r 塞擦音:j ,q ,z ,c ,z h ,c h 鼻音:n ,m 边音:l 零声母:指音节中不包含声母的音节,如w e n ,y i n g 等 同类型的声母发音机理类似,在考虑前后音节协同发音的影响时, 具有同类型声母的音节对前音节的影响类似。实验中分别将它们编号 为1 6 。 按照发音方式的不同,可将汉语中的3 8 个韵母分为4 种类型: 开口呼:a ,a i ,a o ,a n ,a n g ,0 ,o u ,e ,c i ,e n ,e n g ,e r ,一i 合口呼:u ,u a ,1 1 0 ,u a i ,u e i ,u a n ,u e n ,u a n g ,u e n g ,o n g 撮口呼:v ,v e ,v a n ,v n 齐齿呼:i ,i a ,i e ,i a o ,i o u ,i a n ,i n ,i a n g ,i n g ,i o n g ,i u 同类型的韵母发音机理类似,在考虑前后音节协同发音的影响时, 具有同类型韵母的音节对后音节的影响类似。实验中将它们分别编号 为:1 4 。 音节在句子中的位置可分为在句子的前中后部分,分别用0 3 3 , 0 6 7 和l 表示。 音节在韵律词中的位置也可划分为在韵律词的前中后,同样设定 为0 3 3 ,0 6 7 和1 。 音节后的韵律边界等级划分为无韵律边界( 即本音节处在韵律词 中) ,在韵律词结尾处,在韵律短语结尾处,分别用1 3 表示。 1 7 山东人学硕l 学位论文 2 2 4 输出参数 神经网络的输出参数为音节的基频、时长和音节后的停顿。在这 三个参数中音节时长和停顿是以毫秒为单位的,基频是以赫兹为单位 的,在对神经网络进行训练的时候,前两个参数可以从韵律标注文件 中直接提取,而基频则需要从音频文件中通过一定的信号处理算法计 算得到,在本文中采用的是y i n 算法1 2 8 1 。这里需要注意的是关于基频 曲线的表示方法。由于每个音节的时长是不一样的,这样就会导致基 频抽样点个数的不同,同时由于一个音节的基频抽样点个数往往较多, 如果将所有抽样点都作为神经网络的输出,这将导致一个极其复杂的 神经网络。 基频曲线的表示方法有多种,如正交多项式表示法、数值符号化 表示法和基频曲线向量表示法等【2 9 】【30 1 。在研究了上面的几种方法后, 本文选择基频曲线向量来描述音节的基频,这样做主要有两个原因: ( 1 ) 基频曲线向量表示法相对于其他两种方法比较直接,不需要 进行复杂的数学运算。 ( 2 ) 基频曲线向量表示法可以减少误差的引入。 基频曲线向量法的核心思想是对语音信号的基频曲线进行重新抽 样以得到一个n 维的矢量,利用这一矢量来表示原来的基频曲线。这 一思想类似与模拟信号到数字信号转换过程中的采样,只不过这里是 对基频曲线进行采样。经过实验,本文采用8 维的矢量表示一个音节 的基频,这样既可以较为准确的反映基频曲线的变化,又能够尽量降 低输出参数的个数。 2 3 实验结果 最终我们选择用于预测基频的神经网络的语境参数为9 个,包括: 本音节的声母类型( b s 乃,本音节韵母类型( b y t ) ,声调类型( b d 乃;前 音节的韵母类型( p 】,d ,声调类( p d 乃,后音节的声母类型( 孵d ,声 调类型( n d 乃;本音节在句子中的位置( b s p ) ;本音节在韵律词中的位 置( 曰p p ) 。这样神经网络的输入就是一个9 维的特征向量:彳= 山东人学硕j :学位论文 ( b s 兀by t , b d t ,p y t , p d t , n s t , n d t , b s p ,b p p ) 。 本文选择的人工神经网络的类型为应用广泛的b p 型神经网络。由 于人工神经网络隐层单元个数的确定没有个明确的数学方法,通常 都是通过改变隐层中单元的个数来不断尝试,最终选择一个有较好输 出结果的值,因此本文也是通过进行多次实验,根据测试结果来选择 隐层中单元的个数。最终确定基频预测网络中隐层所含的单元个数为 l3 。 我们的语音合成系统采用波形拼接合成法,核心思想是直接把语 音波形数据库即基元库中的波形拼接在一起,之后经过适当的韵律调 整后输出为连续语流。这种方法使得合成语音的质量有了很大的提高。 图2 5 实际基频曲线和预测基频曲线的对比 图2 5 展示了“这个礼堂能坐下五千多人”这句话的实际基频曲线 和预测基频曲线,其中横坐标表示样本点数,纵坐标表示频率,( a ) 图 表示实际基频曲线,( b ) 图表示预测的基频曲线。从图中可以看出,预 测出来的音节基频曲线虽然在数值上与实际值有一定的误差,但基频 曲线走势的预测是比较准确的,两条曲线基本吻合,表明预测结果良 好。 1 9 山东人学硕一i :学位论文 第三章语音的可视化 语音不仅能听得见,还可以通过各种形式使我们看得见。语言本 身的双模态性使得多媒体信息之间交互作用的研究越来越受到重视。 本章首先介绍可视语音合成方法,重点介绍基于图像处理的可视化方 法、图像平滑变形算法。 3 1 合成基本方法 目前国内外主要是可视语音合成系统采用的方法主要有两类:一 类是借鉴人脸三维建模和动画处理技术的研究成果,采用基于模型的 方法,通过建立语音和人脸模型间的对应关系实现可视语音动画的生 成;一类是直接利用采集的说话人脸图像来表示人脸,通过分析语音 的动态信息预测出对应的口形运动,并通过变形技术( m o r p h i n g ) 等图 像处理技术来合成语音同步的语音动画。合成方法如图3 一l 所示。 图3 1t t v s 人脸合成方法分类 3 2 基于图像处理的方法 基于图像处理的方法,首先利用数据采集设备获得说话对象的声 视频序列,分别对声视频序列
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025关于融资租赁委托合同
- 2025财产抵押担保借款合同范本
- 2025客运合同范本参考
- 2025装饰工程合同附加协议
- 视频监控产品合同范本
- 2025租赁合同担保的规定范文
- 旧料加工改造合同范本
- 软件股权转让合同范本
- 保安超龄返聘合同范本
- 解除挂靠经营合同范本
- 卵巢癌类器官规范化建立及临床转化初步应用专家共识(2025年版)解读
- 2024-2025学年三年级英语下册期末试卷(PEP版)(含答案含听力原文无音频)
- 解剖学基础课程全册教案
- 2024-2025学年江苏省南京市联合体九年级上学期期中化学试题及答案
- 2025年特种设备电站锅炉司炉G2考前必练题库500题(含真题、重点题)
- 秋季驾驶员安全培训
- 三员培训考试试题及答案
- 2025哪吒开学第一课-主题班会 课件
- 热原张媛媛讲解
- 应急预案的实施与验证
- 餐饮业中的顾客满意度管理
评论
0/150
提交评论