(计算机软件与理论专业论文)基于可训练文语转换系统的韵律模型优化.pdf_第1页
(计算机软件与理论专业论文)基于可训练文语转换系统的韵律模型优化.pdf_第2页
(计算机软件与理论专业论文)基于可训练文语转换系统的韵律模型优化.pdf_第3页
(计算机软件与理论专业论文)基于可训练文语转换系统的韵律模型优化.pdf_第4页
(计算机软件与理论专业论文)基于可训练文语转换系统的韵律模型优化.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机软件与理论专业论文)基于可训练文语转换系统的韵律模型优化.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 文语转换是人机交互技术的核心技术之一。尽管当前的文语转换系统可以合 成出良好可懂度和自然度的声音。但是合成声音的自然度并不是让人满意,听起 来平淡且节奏感不强。本文主要研究在基于h m m 的文语转换系统中韵律模型的 优化。 本文采用基于隐马尔可夫模型的文语转换技术搭建了中、英文语音合成系 统。在此系统的基础上,本文针对韵律平淡和节奏感不强的问题进行了一下两方 面的改进:一是改进时长模型,在产生时长的时候同时优化状态、音子和音节三 层模型似然值,以弥补只考虑状态时长模型生成时长的不足;二是改进基频生成 算法,传统的方法只考虑了状态级的基频模型,本文通过分析韵律的层次结构, 提出了生成基频时同时优化状态、音节和音节段三层韵律模型的似然值,来提高 生成基频的自然度。 本文通过实验对这两方面的改进进行了验证,实验结果表明:通过时长模型 的改进,中英文时长的均方根误差分别提高了1 1 和5 6 ;在中英文语料库上基 频算法前后基频相关系数从0 7 0 和o 9 l 提高到了0 7 5 至u 0 9 2 ;主观评测显示经过两 方面的改进自然度也有较大的提高。 关键词语音合成,隐马尔可夫模型模型,时长模型,基频模型,离散余弦变 换 a b s t r a c t a b s t r a c t t e x t - t o s p e e c h ( t r s li so n eo f t h ei m p o r t a n tt e c h n o l o g i e so fh u m a n c o m p u t e ri n t e r a c t i o n t h ec u r r e n ts t a t e - o f - a r th m mb a s e dt i sc a np r o d u c eh i g h l yi n t e u i g i b l ea n d n a t u r a lo u t p u ts p e e c ha n dd e r i v e rad e c e n ts e g m e n t a lq u a l i t y h o we v e r , i t sp r o s o d y e s p e c i a l l ya tt h ep h r a s eo rs e n t e n c el e v e l ,t e n d st ob eb l a n d t h eb l a n d n e s so fs y n t h e - s i z e dp r o s o d yi sp a r t i a l l yd u et ot h ef a c tt h a tas t a t e b a s e dh m m i sr a t h e ri n a d e q u a t e i nm o d e l i n ga g l o b a l ,h i e r a r c h i c a lp r o s o d i cs t r u c t u r ea ta s e n t e n c eo rp h r a s el e v e l i nt h i ss t u d y , t h ep r o s o d yo fl o n g e ru n i t sa r ef i r s tm o d e l e d e x p l i c i t l yb ya p p r o p r i a t e p a r a m e t r i cd i s t r i b u t i o n s t w oh m m b a s e dt t ss y s t e m so fe n g l i s ha n dm a n d a r i na r e b u i l ta sb a s e l i n es y s t e m s b a s e do nt h es y s t e m , f i r s t , i no r d e rt oi m p r o v et h er h y t h mo f s y n t h e t i cs p e e c h ,p h o n ea n ds y l l a b l ed u r a t i o nm o d e l s a r ea d d e da n dt h e ya r ew e i g h t e d w i t ht h es t a t ed u r a t i o nm o d e lt op r e d i c tt h ed u r a t i o n ;t h e n ,i no r d e rt oi m p r o v et h e n a t u r a l n e s so fp r o s o d y , s y l l a b l ea n dp h r a s el e v e lf u n d a m e n t a lf r e q u e n c y ( f o ) m o d e l s a r ea d d e d ,a n dan e ws p e e c hp a r a m e t e rg e n e r a t i o na l g o r i t h mi sp r o p o s e dt og e n e r a t e d f 0w i t hs t a t ea n d w e i g h t e ds y l l a b l ea n dp h r a s el e v e lf 0m o d e l s e x p e r i m e n t so nm a n d a r i na n de n g l i s hd a t a b a s e ss h o wt h a tt h er e f i n e dm o d e l y i e l d sm o r ea c c u r a t ed u r a t i o np r e d i c t i o n sa n dc a ng e n e r a t ea c c u r a t ef 0 c o m p a r e d w i t ht h eb a s e l i n es t a t ed u r a t i o nm o d e l ,t h ei m p r o v e m e n to fp h o n er m s e sa r e11 a n d 5 6 i ne n g l i s ha n dm a n d a r i ns y n t h e s i s r e s p e c t i v e l y w h i l et h ec o r r e l a t i o no ff 0a r e i m p r o v e df r o m0 7 0a n d0 91t o0 7 5a n d 0 9 2i ne n g l i s ha n dm a n d a r i n t h ep e r c e p - t u a lt e s to ns y n t h e s i z e de n g l i s ha n dm a n d a r i ns p e e c hf u r t h e rc o n f i r m st h a tt h er e f i n e d m o d e lo u t p e r f o r m st h eb a s e l i n es y s t e m k e yw o r d sh m m b a s e dt t s ,d u r a t i o nm o d e l i n g ,p i t c hm o d e l i n g ,d c t 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:氏拭莎久 2 一妒1年6 月1 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:氏挑砂 沙1 71 年月f f e l 第一章引言 第一章引言 随着计算机逐渐成为人类生活不可缺少的一部分,人与计算机的交互需要更 加高效。在计算机中,通常人机交互界面以键盘为主。为了使计算机的界面与人 更加“友好,科学家一直致力于开发易学易懂、操作简单的界面。其中最方便最 自然的界面首推语音交互。基于语音识别、语音合成及自然语言理解的人机语音 对话技术对应着人类的听、说、想,是世界公认的一个难度很大,极富挑战性的 高技术领域。近年来超大规模集成电路、电子计算机、人工智能的突飞猛进的发 展和国际互联网的迅速成长推动了人机语音对话的研究,促进了语音学、语音理 解和语音感知的较大发展。 语音合成是人机交互的关键技术之一,近年来在技术和应用方面都取得了较 大发展。语音合成与语音识别和语言理解比较起来,技术上相对成熟,已经能够 实时的将任意文本转换成连续可懂的自然语句输出,合成语音的自然度和音质得 到了明显的改善,能基本满足用户的要求,从而促进了其在实际中的广泛应用。 语音合成技术已经成功应用在自动应答呼叫系统、电话信息查询、电子邮件阅读 等场合,针对娱乐和教育方面的应用也正在开展。总而言之,语音合成正在和将 要影响我们的生活,给我们提供便利。 1 1 语音合成概述 语音合成( s p e e c hs y n t h e s i s ) 是让计算机能够像人类一样通过语音来表达信息 的技术。通俗的说就是让计算机“开口说话 。它是一门典型的交叉学科,涉及到 了语言学、语音学、信息论、数字信号处理、人工智能、心理学以及人类的大脑 神经活动等众多学科的理论和技术 1 】。通常,语音合成可以分成三类层次,分别 是:( 1 ) 从文字到语音的合成( t e x t - t o s p e e c h ,- l r s ) ;( 2 ) 从概念到语音的合成 ( c o n c e p t t o s p e e c h ) ;( 3 ) 从意向到语音的合成( i n t e n t i o n t o s p e e c h ) 【1 。以目 前语音合成的技术水平,只能做到从文字到语音的合成这个最低的层次,因此我 们一般所说的语音合成即指文语转换( t t s ) 。本文所说的语音合成都是指文语转 换。 第一章引言 1 1 1t t s 系统架构 一个文语转换( t t s ) 系统通常至少包括两个部分:前段( f r o n t e n d ) 和后端 ( b a c k e n d ) 【l 】。如图1 1 1 给出了t r s 系统的基本架构。 文率 一语音 图1 1t t s 系统的基本架构 前段部分主要有如下几个作用:一是文本规整化处理( t e x tn o r m a l i z a t i o n ) ,就 是将原始输入的文本诸如字母缩写、数字等转化为相应的完整可读的形式。比如 把“2 0 0 8 5 1 2 转化为“二零零八年五月十二日 ,把“e t c 转化为“e tc e t e r a 。 二是字到音素的转换,通过查字典,标记出每个字或词的发音。最后是句法分析, 根据一定的规则把句子分割成若干个短语或子句,以便标记韵律信息。不同文语 转换系统的前端部分几乎是相同的。区别仅在于根据合成的语言,以及其他具体 应用的要求,不同的系统会采用不同的标记输出对原始文本的语音及韵律分析结 2 第一章引言 果。 后端部分通常指的是音频合成器( s y n t h e s i z e r ) ,将标记过发音和韵律的句子 转换为人耳可听的声音。后端的韵律合成方面也可以层次化的分为两个部分,一 个就是按照前端给出的层次化文本信息生成合适的韵律,而另一个就是按照生成 的韵律来产生最后的合成语音,在产生韵律和合成语音的方法上,各种方法不尽 相同,甚至两个部分成为一个不可分割的整体,但是从思想上来说,每个合成系 统都包含这样两个方面。 1 2 语音合成历史 语音合成的研究历史以回溯到1 8 世纪,k r a t z e n s t e i n 在1 7 7 9 年研制出一种机 械式语音合成器,这种会说话的机械,是用风箱模拟人的肺、簧片模拟声带、以 皮革制成的共振腔模拟声道,通过改变共振腔的形状,它可以合成出一些不同的元 音。自1 9 世纪出现电子器件以来,语音合成达到飞速发展。 1 9 3 9 年,贝尔实验室h d u d l e y 制作出一个电子合成器 2 】。这是一个利用共 振峰原理制作得语音合成器,它以一些白噪音似的激励产生非浊音信号,以周期 性的激励产生浊音信号。模拟声道的共振器是通过一个l o 阶的带通滤波器建模, 模型的增益通过人来控制。 1 9 6 0 年,g f a n t 在中系统地阐述了语音产生的理论【3 】,极大地推动了语音 合成技术的进步。同时线性预测分析( l p c ) 成为最有效的语音分析技术之一,利 用它可以对语音产生模型的参数进行准确估计。1 9 8 0 年,d k l a t t 设计出串并 联混合型共振峰合成器 4 】。它用串联通道产生元音合浊辅音;并联通道产生清辅 音。还可以对声源做各种选择和调整,以模拟不同的嗓音。 到2 0 世纪8 0 年代末,基于时域波形修改的语音合成算法p s o l a ( p i t c hs y n c h r o n o u so v e r l a pa d d ) 被提出,该方法较好地解决了语音拼接中的问题,从而 推动了波形拼接语音合成的发展和应用。随着9 0 年代电子计算机的运算和存储能 力的迅猛发展,该方法逐渐发展为基于大语料库的单元挑选和拼接合成方法,它 的基本思想是根据输入的文本分析信息,从预先录制和标注好的语音库中挑选合 适的单元,进行少量的调整( 或者不进行调整) ,然后拼接得到最终的合成语音。 由于最终的合成单元都是直接从音库中复制过来的,其最大的优势就是在于保持 了原始发音人的音质。 而到2 0 世纪末,伴随着语音合成技术的应用,用户对语音合成效果也提出了 3 第一章引言 更高的要求,尤其是多样化语音合成方面的需求。对此,可训练的语音合成方法 ( t r a i n a b l et r s ) 被提出【5 】【6 【7 】【8 】【9 儿l o 【1 1 】,该方法的基本思想是基于统计建 模和机器学习的方法,根据一定的语音数据进行训练并快速构建合成系统。由于 这种方法可以在不需要人工干预的情况下,自动快速的构建合成系统,而且对于 不同发音人、不同发音风格、甚至不同语种的依赖性非常小,非常符合多样化语 音合成方面的需求,因此逐渐得到研究人员的认可和重视,并在实际应用中发挥 作用。 1 3 语音合成技术 一个语音合成系统最主要解决的两个问题是合成语音的自然度和可懂度。自 然度是描述合成的语音跟自然发音的接近程度;可懂度是来描述合成的语音能够 在多大程度上让听者明白理解。理想的语音合成技术能合成出既自然又比较可懂 的语音。因此,语音合成系统也尽力解决在这两个方面的问题。主要的语音合成系 统包括拼接合成和共振峰合成以及当前流行的可训练的语音合成。进十几年来, 语音合成的研究主要沿着两个途径深入进行:一是采用合成语音音质很高的系统 ( 如拼接合成) ,在此基础上努力提高系统的灵活性;二是采用灵活性很高的系统 ( 如基于隐马尔可夫模型的可训练的合成) ,在此基础上努力改善系统合成语音的 音质【1 】。下面我们分别介绍现代比较有代表性的几种语音合成方法。 1 3 1 发音参数合成 发音参数合成( a r t i c u l a t o r ys y n t h e s i s ) 【1 2 1 3 是直接对人的发音过程进行模 拟,针对真人发音时发音器官的运动和发音器官内部的气流变化进行建模,来合 成语音的方法。人类的发音器官包括肺、气管、咽、喉、声带、鼻腔和口腔等, 这些器官共同组成了一条形状复杂的管道,其中声带以上的部分称为声道,发音 时,人通过肌肉的牵引使声道形状发生变化,从而产生不同的声音。这些声音串 起来就是人来的语音。发音参数合成方法定义了唇、舌、声带的一些相关参数,如 嘴唇的张开度、舌头的高度、舌位、声带张力和肺气压等。由这些发音参数可以 估计出声道不同位置的截面积,然后按照声波在变截面管中的传播理论,可以由 设定的声门波计算出它通过声道由嘴唇辐射的声波。 由于真人发音的生理过程极为复杂,测量真人发音时的各种数据非常困难, 参数模型的计算量也非常大,而且目前用发音参数合成法得到的语音与用其他方 4 第一章引言 法得到的比起来音质还显得比较差,导致发音参数合成方法一直处在实验室研究 阶段,没能走向实用。但是,发音参数合成是对真人发音过程直接模拟,有可能 产生非常逼真的语音。随着分析方法的发展和计算机性能的迅速提高,发音参数 合成在未来可能成为一种很有研究空间的语音合成方法。 1 3 2 波形拼接合成 由于在模型的精确度方面的原因,以前的合成器都难以有效的合成高自然度 的语音,而基于原始语音库的波形拼接合成在实现高自然度的合成系统上,取得 了很大的进展。波形拼接合成方法的基本原理 1 【1 4 】【1 5 】【1 6 】就是根据输入文本分 析得到的信息,从预先录制和标注好的语音库中挑选合适的单元,进行少量的调 整( 也可以不进行调整) ,然后拼接得到最终的合成语音,其中用来进行单元挑选 的信息可以是前端分析得到的韵律文本,也可以是生成的声学参数( 比如基频、 时长和谱参数) ,或者两者兼有。由于最终合成语音中的单元都是直接从音库中 复制过来的,其最大的优势就是在于保持了原始发音人的音质。 其实在单元拼接合成方法最初提出时,由于受音库容量以及单元调整算法的 限制,其优势并不是很明显,主要是合成语音不连续,自然度不高,而且单元调 整过大时导致语音音质急剧下降。一般我们把这种原始音库比较小( 即拼接样本 数比较少) 的合成系统,称之为基于小样本的波形拼接合成,而与此对应的就是 现在比较流行的基于大语料库的单元拼接合成。这种方法的演变主要得益于近年 来计算机的运算和存储能力的飞速增长,其音库由以前的i m b 变为i o o m b ,甚至 超过i g b ,相应的单元挑选策略也越来越精细,使得挑选出来的单元基本不需要 调整,不仅保持了原始语音的音质,而且不连续现象也得到很大的改善,自然度 得到极大的提高。因此,基于大语料库的单元拼接合成系统得到越来越广泛的应 用。 在构建一个大语料库合成系统时,主要包括以下几个重要环节: 1 ) 单元尺度的选择:可以是音素、双音素、音节、词甚至短语等,对于中文 语音合成系统,比较常用的基本单元是声韵母和音节; 2 ) 语料库构建:首先是在保证单元覆盖率的前提下,根据特定的搜索策略从 原始文本语料中挑选出合适大小的语料;然后进行音库录制并对音库进行标注, 包括音段切分和韵律标注等; 3 ) 单元挑选算法设计和优化:大语料库合成系统的单元挑选算法一般分为两 5 第一章引言 步:首先是基于决策树或者其他索引方式的快速预选算法,得到一定数目候选单 元序列;然后再考虑候选单元的自身代价和连接代价进行精细的单元打分,从而 得到最优的拼接单元序列: 4 ) 单元拼接算法:主要包括韵律调整和单元平滑。 虽然大语料库合成系统的合成语音的音质和自然度都相当不错,尤其针对一 些特定领域的应用,包括新闻播报和信息查询等。但是,它也存在一些内在的缺 陷和不足 1 1 1 1 7 1 ,下面我们将一一介绍。 一般而言,大语料库合成系统的合成效果都不是很稳定,对有些语句可以合 成的很好,而对有些语句则合成效果比较差,主要体现在虽然每个单元的音质都 很好,但是有些拼接单元之间有比较大的不连续,如果一个句子中出现多个不连 续的拼接点,整个句子听起来效果比较差。因此,大语料库合成系统更适合在受 限领域的应用,比如数字串合成、新闻合成、旅游信息合成等。而对于任意文本 合成,其合成效果还有待提高。 在大语料库合成系统中,一个非常重要的环节就是语料库的构建,具体包括 语料设计、音库录制以及音库制作,其中音库制作包括韵律和音段标注。由于现 在的音库越来越来( 超过1 g b ) ,使得音库制作的工作量非常大,而且周期也很长, 虽然可以采用一些自动标注的技术来替代人工的方法,但是效果并不是很稳定, 所以现有的系统一般只构建少数几个发音人( 比如只有一个男声和一个女声) 的 音库,导致合成系统的合成语音比较单一。 此外,现在很多大语料库合成系统的单元挑选算法都是通过经验总结,并在 具体环境( 包括语种、发音人、语料等) 下针对合成效果进行调试和优化得到的, 其鲁棒性不高。如果环境有一定的变动,比如换一个发音人甚至换一个语种,则 需要对单元挑选算法重新设计和优化。 1 3 3 共振峰合成 把人的声道模型看成一个谐振腔,语音信号的共振峰特性由这个腔体的谐振 频率来表证,这种合成方法叫做共振峰合成 1 1 1 1 7 】。由于人耳听觉的柯缔氏器官 的纤毛细胞就是按频率感受而排列其位置的,所以这种模拟共振峰特性的声道模 型方法非常有效。听辩实验表明,用前三个共振峰就能代表元音,对于较复杂的 辅音或鼻音,大概要用到5 个以上的共振峰才行。 由语音产生的模型可知,语音信号谱中的谐振特征( 对应声道传输函数的极 6 第一章引言 点) ,完全由声道的形状决定,与激励源位置无关;语音谱中的反谐振特征( 对应 声道传输函数的零点) 出现在下面两种情况:一是当激励源位置不在喉部( 如发 摩擦音时) ,二是发鼻音时。所以对于一般元音,传输函数可以采用全极点模型, 对于鼻音和大多数辅音,声道模型应采用极零模型。 音色各异的语音有各自独特的共振峰模式,因此用每个共振峰频率及其带宽 作为参数,可以构成共振峰滤波器。然后用若干个这种滤波器的组合来模拟声道 的传输特性( 频率响应) ,对激励源产生的激励信号进行调制,再经过辐射模型就 可以得到合成的语音。这就是共振峰合成技术的原理。 1 3 4 可训练的语音合成 由上面的分析可以看出,虽然现在大语料库合成系统的效果不错,但是也存在 不少缺陷,比如:合成语音的效果不稳定,音库构建周期太长以及合成系统的可扩 展性太差等。这些缺陷明显限制了大语料库合成系统在多样化语音合成方面的应 用,因此,近年来可训练的语音合成( t r a i n a b l et t s ) 【5 【6 7 】【7 】 9 儿l o 】 1 1 】【1 8 】的 概念被提出来并逐渐得到越来越广泛的应用。 t r a i n a b l et r s 的基本思想就是基于一套自动化的流程,根据输入的语音数据 进行训练,并形成一个相应的合成系统。一般而言,训练是针对模型或者参数进行 的。在语音信号处理中,最普遍的建模方法就是隐马尔可夫模型( h m m ) 【1 9 2 0 】 ,它在语音识别中已经有非常成熟的应用 2 0 】 1 】,目前的t r a i n a b l et t s 技术也 都是基于h m m 进行参数建模。不同的研究机构,包括n i t ,m i c r o s o f t 和m m , 对t r a i n a b l et t s 提出了几种不同的实现技术和方法,对于它们的相同点和各自 的技术特点,我们将会在后面作详细介绍。由于本论文的一系列关键技术研究 都是围绕着n i t 的t r a i n a b l et t s 技术【1 7 】 1 8 】【2 l 】 2 2 】【1 l 】【2 3 】【2 4 儿2 5 】【2 6 】展开的, 所以后面所称的t r a i n a b l et t s 一般都是指在n i t 的技术基础上构建的t r a i n a b l e 1 t s 。 在最初提出t r a i n a b l et t s 方法时,由于受模型训练算法的不匹配以及参数 合成器合成音质的限制,其合成效果与大语料库合成系统有比较大的差距,因此 并没有得到研究人员的重视。不过,经过对模型训练算法的改进以及s t r a i g h t 分析合成器【2 7 】【1 7 】的提出,其合成效果有明显的提高。总体而言,t r a i n a b l et t s 相对于现在大语料库系统的优势就在于,可以在短时间内,基本不需要人工干预 的情况下自动构建一个新的系统,因此对于不同发音人、不同发音风格、甚至不 7 第一章引言 同语种的依赖性非常小。而它的不足之处在于,由于采用模型来生成目标参数并 基于参数合成器来合成最终的语音,其合成效果与原始语音相比还是有不小的差 距。考虑至u t r a i n a b l et t s 在合成时所需的存储和运算资源非常有限,因此特别适 合在嵌入式环境下的应用。 1 4 语音合成评估方法 衡量一个语音合成系统的好坏,主要看它合成语音的质量。合成语音的质量 通常可以从可懂度和自然度两方面进行评价。可懂度指的是听完后人堆合成语音 表意的理解程度,即人要听明白合成语音的难度有多大。可懂度是对语音合成系 统的基本要求。自然度指的是合成语音听上去的真实程度,即合成语音在多大程 度上符合真人发音的韵律规律。对于一个理想的语音合成系统,它合成的语音应 该做到与真人发音同样自然易懂,让听者无法区分究竟是计算机合成的真人发音 的原始录音。 本文也通过实验的方法对提出的新方法进行评估,使用了客观和主观评测的 方法进行评测。 客观评测的方法采用均方根误差( r o o tm e a ns q u a r e de r r o r ,r m s e ) 和相关系 数( c o r r e l a t i o nc o e f f i c i e n t ,c o r r ) 1 】。用r m s e 来评估生成的时长基频跟原有时 长基频的差异程度;相关系数来评估生成的时长基频跟原有时长基频的相似程 度。 均方根误差是一种很常用的误差度量方法,用来计算模型预测值和实际观测 值之间的误差。假设观测向量为口= ( z 。,z 2 ,x n ) t ,预测值是9 7 = ( x a ,z :,z 乞) ? , 维数为n ,均方根误差的定义为: r m s e ( o ,p 7 ) = 相关系数是用来表示模型预测值和实际观测值之间相关程度的指标。利用上 面的符号,相关系数的定义为: 1 :娶兰丝丝 ( p p ) 2 ( p 7 一目,) 2 主观评估【1 】:把基线系统和改进模型合成的语音分成两个一组,然后分给若 干个测试人员进行对比测听,并对两句话的自然度进行m o s 评分。 8 第一章引言 可以认为客观评测是对合成语音自然度的评测;主观评测是对合成语音的可 懂度进行评测。 1 5 语音合成存在的挑战 1 5 1 文本规整化 文本规整化并不是一个简单的过程。如何把一个包含很多数字、缩写字符等 特殊表示方法的文本对应到语言的表示形式呢? 比如在英语中,同一个单词在不 同的上下文环境中有不同的意思,发音也就不一样。“m yl a t e s tp r o j e c ti st ol e a r n h o wt ob e t t e rp r o j e c tm yv o i c e 就是很好的例子,这句话中包含了两个“p r o j e c t , 但是意义是完全不一样。 再比如规整化数字的问题,假设一个数字“1 2 3 4 出现在文本中,我们把它 转化为“一二三四”还是转化成“一千两百三十四呢? 有的t t s 系统能够根据上 下文信息分析出数字的意义,但是对于一个任意的文本应该如何分析呢? 再比如单词缩写,如果能在字典里穷举出这些缩写对应的单词,那么我们很 简单的就能解决问题,但是随着人们日常交流的频繁,会出现越来越多的缩写, 不同的缩写在不同的场合也会有不同的意思。 1 5 2 文本到音素的转换 语音合成系统决定一个单词发音有两个基本方法,一个是使用一个本文到音 素对应的字典,这需要一个很大的字典来包含所有的单词;另外一种方法是使用 一定得规则来判断一个单词的读音。这两种方法各有利弊:使用字典的方法能做 到简单快捷,但是对于一个字典的单词怎么办呢? 使用规则的方法不需要存储字 典,只需要按照一定得规则来对单词转换到相应的音素。但是对于一个在不同的 上下文环境发音不一样的来说,这并不是一个很好的选择。 1 5 3 语音评估问题 评价合成语音质量好坏的两个标准是自然度和可懂度。但是使用什么样的评 测方法才能正确的评估语音合成系统的优劣呢? 使用主观评测的方法固然是一 个好方法,但是主观评测需要有对语音比较了解的语言专家来做比较有可信度。 这对于普通的研究来说很难做到这一点。至今也没有什么好的客观评估的方法, 9 第一章引言 不过一些研究人员开始使用同样的语料库来评估语音合成系统,就是每年一度 的b l i z z a r dc h a u e n g e 2 8 。 1 6 本文的研究目标和内容 近年来,语音合成技术的应用也促进了1 t r s 技术的研究和开发上了一个新的 台阶。但是伴随着现在语音技术的不断发展,人们对合成语音的质量要求越来越 高,不再仅仅停留在可懂度上了。对此,如果提高合成语音的自然度,使得合成 语音听起来更加抑扬顿挫成了目前一个重要的研究课题。 面对这样的问题,本文在基于可训练的文语合成系统中提高合成语音的自然 度来开展研究工作,希望在现有可训练的文语合成系统中,改进系统的韵律模型, 包括时长模型和基频模型。希望通过这些改进系统合成的语音的自然度有较大的 提高。 在现有的语音合成技术中,基于隐马尔可夫模型的合成技术( h t s ) 能够生 成平滑的参数,需要较少的语料库,对系统资源的占用相对较少,因此本文的研 究工作在此基础上开展。 构建h t s 系统框架:为了开展本文的研究工作,利用现有的模型训练和参数 生成技术,本文建立了一个完整的h t s 系统框架,包括一个自动化的训练流程和 相应的参数合成后端,它可以根据输入的语音数据进行自动训练,形成相应的合 成系统。同时,本文也对h t s 框架下的跟本文有关的关键技术进行了介绍和分析。 改进时长模型:语音的抑扬顿挫跟时长有很大的关系,为了改善合成语音的 抑扬顿挫,本文在h t s 框架下,提出了三层结构的时长模型来改进已有的模型。 并通过实验的方式验证本文提出的模型。 改进基频生成算法:本文首先从语音学的角度分析本文提出的新的基频模型 的理论依据,然后指出旧的基频模型存在的问题,最后提出了在产生基频时同时 优化状态、音节和音节段三层模型似然值的基频生成算法。并通过实验验证新算 法的正确性。 1 7 论文内容安排 本文以下章节的主要内容和组织结构如下: 第二章主要介绍隐马尔可夫模型模型( h m m ) 的基本概念,然后介绍h m m 在 1 0 第一章引言 语音信号处理中的应用,最后介绍了基于h m m 的语音合成系统的框架。 第三章介绍了主要介绍h t s 的两项与本文主要研究密切相关的两项技术:如 果使用m s d h m m 对半连续的基频信号进行建模和如果使用动态特性来生产语音 参数。 第四章主要叙述了在h t s 框架下改进时长模型,并在中英文语料库上进行评 测。 第五章在第四章改进时长模型的基础上,针对合成语音比较平淡即过平滑问 题,提出来新的基频产生算法;并在中英文语料库上进行评测,分别进行了主客 观评测。 第六章对本文进行了全面的总结,讨论了本系统存在的问题,并对以后的改 进方向进行了展望。 第二章基于隐马尔可夫模型的语音合成 第二章基于隐马尔可夫模型的语音合成 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 在语音信号处理领域里的应用 已有二十多年的历史,是语音信号处理技术的一项重大进展。尤其是在语音识别 领域,隐马尔可夫模型有非常成熟的应用。近十年来,研究人员也在尝试将隐马尔 可夫模型用在语音合成领域。其中比较成功的是由日本名古屋工业大学的k e i i c h i t o k u d a 教授提出的一套基于h m m 的语音合成技术。该技术在统一的框架下用 隐马尔可夫模型对语音的频谱、基频和时长参数进行建模,并生成各自的决策树; 合成时,先利用建好的决策树选取模型,然后结合动态特性参数生成最终的比较 平滑的频谱和基频参数射线,再送入参数合成器合成音频。 2 1 隐马尔可夫模型简介 马尔科夫模型是由俄罗斯数学家a n d r e ia m a r k o v 于二十世纪初提出的一个 统计模型。在此基础上,二十世纪六十年代末l e o n a r de b a u m 提出了隐马尔可夫 模型。但是,由于l e o n a r de b a u m 的论文从纯数学角度展开的讨论,并且发表在 了数学杂志上,因此一直没有得到语音信号处理研究人员的注意和重视。直到八 十年代,它才被引入语音处理领域,用来描述语音信号的产生过程,由此推动语 音信号处理技术向前迈了一大步。尽管在使用过程中有些地方有局限性,隐马尔 可夫模型模型在语音识别领域仍然被公认为最成功的模型之一。 2 1 1 马尔科夫链 假设有一个总共n 个不同状态( s = 两,s 2 ,岛,鼬) 的系统,且不论何时系 统一定处于这n 个状态种的一个。随着时间的转移,该系统所处的状态会根据与 各个状态相关的一些转移概率发生变化。我们把状态发生变化的时刻依次表示 为t = 1 ,2 ,3 ,在时刻系统所处的状态表示为q t 。在最一般的情况下,推断上述 系统所在下一时n t + 1 所处的状态,需要知道当前时刻t 系统所处的状态以及之 前系统经历过的所有状态。有一个简化的特殊情况,即要推断系统在下一时刻所 1 2 第二章基于隐马尔可夫模型的语音合成 处的状态只需要知道系统所处的当前状态。用数学形式表达即: 尸( 吼+ 1 = 岛i q = & ,q t 一1 = 鼠,) = p ( q t + l = 岛l 吼= & ) ( 2 1 ) 进一步,如果只考虑公式2 1 右边的p 表示式的值跟时间t 的变化无关,那么可 以定义如下形式的状态转移概率: a i j = p ( q t + 1 = 岛恢= & ) ,1 = ,j = 0 a i j = 1 i = 1 上面简化的情况便是一阶离散马尔科夫链( m a r k o vc h a i n ) 。图实例了一个n = 5 的马尔科夫链。 对于一阶离散马尔科夫链,产生状态序列q = q l ,q 2 ,卵的概率p ( q ) 为: p ( q ) = p ( q l ,q 2 ,q t ) = p ( q 1 ) p ( q 2 1 q a ) p ( q t l q t 一1 ) ? 一1 = h 口1 0 9 1 9 2 口9 2 9 3 n 虬。 = i i 口1 n 帅+ , ( 2 3 ) t - - - - 1 其中:表示系统在初始时刻所处各个状态的概率。满足如下定义: t = p ( q l = s ) ,1 = i - - j ( 1 e a r n i n g ) i h - j 题:给定一个观测值序列o = ( 0 1 ,0 2 ,o r ) ,如果调整隐 马尔可夫模型a 的参数a ,b ,使得p ( o i a ) f l 勺值最大。学习问题是隐马尔可夫模 型大多数应用中最重要的问题,因为它是不断地优化模型以更好地贴近应用问 题的实际情况。在实际的隐马尔可夫模型训练中,基于最大似然准则的期望最大 化o s m ) 算法和b a u m - w e l c h 算法最常用用来解决学校问题。 下面通过介绍一个例子来理解h m m 及其三个基本问题。a l i c e 和b o b 是好朋 友,但是他们离得比较。他们每天都是通过电话来了解对方那天做了什么。b o b 仅 对三种活动感兴趣:公园散步( w a l k ) ,购物( s h o p ) 以及清理房间( c l e a n ) 。他选择做 什么事情只凭当天的天气。a l i c e 对b o b 所住的地方的天气情况并不了解,但是知 道总的趋势。在b o b 告诉a l i c e 每天所做的事情的基础上,a l i c e 想要猜钡y b o b 所在 地的天气情况。 a l i c e 认为天气的运行就像一个马尔科夫链。其中有两个状态”雨”和”晴”,但 是无法直接观察它们,也就是说,它们对于a l i c e 来说是隐藏的。每天,b o b 有一 定得概率进行下列活动:”散步”,”购物”,或”清理房间”。因为b o b 会告诉a l i c e 他 的活动,所以这些活动就是a l i c e 的观察数据。这整个系统就是一个隐马尔可夫模 型h m m 。 a l i c e 知道这个地区的总的天气趋势,并且平时知道b o b 会做的事情。也就是 说这个隐马尔可夫模型的参数是已知的。下面分别列出这个系统的五个基本要 素: ( 一) 状态数目,两个状态:雨或晴。q = 7 r a i n y i ,7s u n n y ( 二) 每个状态可能的观察值。0 = 7 w a l k 7 ,7s h o p ,7c l e a n 7 ( 三) 状态转移矩阵: r a i n y :r a i n y :o 7 ;s u n n y :0 3 ; s u n n y :r a i n y :o 4 ;s u n n y :0 6 ; ( 四) 观察值的概率分布: r a i n y :w a l k :o 1 ;s h o p :o 4 ;c l e a n :0 5 ; s u n n y :w a l k :o 6 ;s h o p :o 3 ;c l e a n :o 1 ; ( 五) 初始状态的概率分布:1 7 = r a i n y :0 6 ;s u n n y :o 4 1 5 第二章基于隐马尔可夫模型的语音合成 a l i c e 和b o b 通了三天电话后发现第一天b o b 去散步了,第二天他去购物了,第 三天他清理房间了。a l i c e 现在有两个问题:这个观察序列“散步、购物、清理”的 总的概率是多少? ( 注:这个问题对应于h m m 的基本问题之一:己知h m m 模型入 及观察序列o ,如何计算p ( o 一入) ? ) 最能解释这个观察序列的状态序列( 晴雨) 又是什么? ( 注:这个问题对 应h m m 基本问题之二:给定观察序列o = 0 1 ,0 2 , - - o t 以及模型入,如何选择一个 对应的状态序列s = q l ,q 2 e e q t ,使得s 能够最为合理的解释观察序列o ? ) 至于h m m 的基本问题之三:如何调整模型参数,使得p ( o 一入) 最大? 这个问 题事实上就是给出很多个观察序列值,来训练以上几个参数的问题。 2 2h m m 在语音信号处理中的应用 2 2 1 i - i m m 用于语音信号建模 人的语言过程可以看作是一个双重随机过程,语音信号本身是一个可观测的 时变序列,是由大脑根据语法知识和语言需要( 不可观测的状态) 发出的音素的 参数流。可见,h m m 较合理地模仿了这一过程,很好地描述了语音信号的整体 非平稳性和局部平稳性,是一种较为理想的语音信号模型。 h m m 用于语音信号建模已经有二十多年乐,对于各种应用的建模参数也比 较成熟,这里我们列举一些重要的建模参数,并给出其比较通用的定义方式或者 取值: 谱参数选择:在语音识别( a s r ) 中最常用的参数是m f c c 参数;在可训练的 语音合成系统中,常采用倒谱系数。 参数分布:一般采用多维高斯分布,针对语音参数的特性,可以有多流( s t r e a m ) 和 多高斯的情况。 h m m 拓扑结构:对一般的单元建模采用的是从左到右各态历经的拓扑结构, 对于某些特殊的单元( 比如s p 或者塞音) ,也有时采用可以空跳的结构。 状态数目:在语音识别中,英文音素一般都采用3 个状态,对于中文,则声母 为3 个状态,韵母为5 个状态;在自动切分中和识别中类似;在可训练的t r s 中,为 了达到一定的恢复精度,需要更多的状态,对于所有的音素都采用5 个状态模型。 参数分布:一般采用多维高斯分布,针对语音参数的特性,可以有多流( s t r e a m ) 和 多高斯的情况。 1 6 第二章基于隐马尔可夫模型的语音合成 2 3 基于h m m 的语音合成 基于h m m 的可训练语音合成系统( h m m b a s e ds p e e c hs y n t h e s i ss y s t e m ,h t s ) i 扫 日本的名古屋工业大学( n i t ) 提出,对谱、基频和时长参数在h m m 这个统一的框 架下进行建模,并生成各自的状态决策树;采用决策树进行模型预测,然后根据动 态特性进行参数生成:采用参数合成器的方法合成语音。虽然n i t 的基于h m m 的 语音合成系统合成的语音较自然语音而言较差,但是整体感觉比较平滑,而且可 扩展性强。本文所说的基于h m m 的语音合成技术即为该技术。 图2 1 h t s 的基本框架,它主要包括训练和合成两大部分。在训练过程中,利 用h m m 训练对基频、时长以及谱参数进行建模。在合成过程中,对输入文本进 行属性分析,并利用训练后的模型进行参数预测,最后通过参数合成器合成出语 音。下面分别对这两部分进行详细介绍。 图2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论