(信号与信息处理专业论文)汉语语音合成中自动切分技术的研究.pdf_第1页
(信号与信息处理专业论文)汉语语音合成中自动切分技术的研究.pdf_第2页
(信号与信息处理专业论文)汉语语音合成中自动切分技术的研究.pdf_第3页
(信号与信息处理专业论文)汉语语音合成中自动切分技术的研究.pdf_第4页
(信号与信息处理专业论文)汉语语音合成中自动切分技术的研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(信号与信息处理专业论文)汉语语音合成中自动切分技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士学位论文汉语语音合成中自动切分技术的研究 汉语语音合成中自动切分技术的研究 摘要 基于大语料库的拼接合成由于其合成的语音清晰自然 而得到了 广泛的应用 由于汉语语音合成中自动切分的精度将直接影响到语料 库中基元的质量 进而直接影响到合成出的语音的质量 因此自动切 分技术已经成为了汉语语音合成中的一个重要课题 在自动切分技术的研究中 作者详细地调查了自动切分的研究现 状 根据研究现状 采取了目前较主流的基于隐马尔科夫模型的强制 对齐的方法用于自动切分基线系统的构建中 在自动切分基线系统的 构建中 作者提出了一种新的模型参数自适应方法 结果证明可以较 大程度地提高自动切分的精度 作者还做了大量的实验来验证相关的 语音参数在自动切分中的效果 大多数参数的挑选都被同类论文忽 视 但在实际系统中却有着重要的影响 在现有的自动切分技术中 大多数研究都是基于单一模型 上下 文相关或上下文无关的模型 采用单一模型内在的问题是每个边界单 元只有一个模型预测的时间值 而没有考虑不同的模型对于相同声学 环境下的边界的不同的作用 作者在论文中提出了以下两种方法来找 到处于类似声学环境下的边界与不同模型之间的映射规则 进一步用 映射规则来为每个边界找到最合适的模型 第一 利用混合模型进行汉语语音合成库的自动切分技术 所有 的边界单元按照其所处的声学环境被分为十一组 在这些边界组中 将利用混合模型训练得到边界组与声韵母单音子模型 m m 半 音节单音子模型 s s m m 声韵母三音子模型 i f t m 之间的映射 规则 第二 使用c a 5 决策树分类的算法 来训练处于相似声学环境 下的边界与i f m m s s m m 和i f r m 之间的映射规则 通过映射规则 为每个边界单元选取最合适的模型预测时间值 在决策树的构建过程 中 问题集的选取和属性的挑选至关重要 在论文中 作者给出了自 动切分中 选取问题集的方法 并给出了遗传算法和c 4 5 决策树默 认的算法来进行属性挑选 实验结果显示 在切分精度和边界的偏移上 利用混合模型和决 策树分类两种方法都取得了比单一模型进行汉语语音合成库的自动 北京邮电大学硕士学位论文 汉语语音合成中自动切分技术的研究 切分技术更好的结果 关键字语音合成h m m 自动切分混合模型决策树 北京邮电大学硕士学位论文汉语语音合成中自动切分技术的研究 r e s e a r c ho na i 兀 o m a t i cs e g l 虹 n 1 1 a t i o n f o rm a 卜d a r i nt t ss y s l e m a b s t r a c t n o w a d a y s c o r p u s b a s e dc o n c a t e n a t i v es p e e c hs y n t h e s i si st h em o s t w i d e l yu s e da p p r o a c hf o rs y n t h e s i z i n gs p e e c hw i t hh i g ha r t i c u l a t i o na n d i n t e l l i g i b i l i t y t h ea c c u r a c yo fa u t o m a t i cs e g m e n t a t i o ni nm a n d a r i nt t s h i g h l yi m p a c t st h eq u a l i t yo ft h es p e e c hs y n t h e s i s b a s e do nt h er e a s o n s m e n t i o n e da b o v e a u t o m a t i cs e g m e n t a t i o ni nt h em a n d a r i nt t ss y s t e m h a sa t t r a c t e dg r e a ta t t e n t i o ni nt h er e c e n ty e a r s t h ea u t h o rd i de l a b o r a t er e s e a r c ho nt h ec u r r e n ts i t u a t i o no f a u t o m a t i cs e g m e n t a t i o n b a s e do nt h es t a t u sq u o t h ea u t h o re m p l o y e d m a i ns t r e a mm e t h o do ff o r c e da l i g n m e n to nt h eb a s i so fh m mt o e s t a b l i s ha u t o m a t i cs e g m e n t a t i o nb a s e l i n es y s t e m t h ea u t h o re n h a n c e d t h eb a s e l i n es y s t e mb yb r i n g i n gf o r w a r dan o v e lm e t h o do fm o d e l a d a p t a t i o n t h er e s u l t sp r o v e dt h a tt h en e wm e t h o dc a ni m p r o v et h e p r e c i s i o no fa u t o m a t i cs e g m e n t a t i o n p l e n t yo fe x p e r i m e n t sw e r ed o n et o v e r i f yc o r r e s p o n d i n gp a r a m e t e r s p e r f o r m a n c ei na u t o m a t i cs e g m e n t a t i o n t h ep r o c e s so fs e l e c t i n gp a r a m e t e r si si g n o r e db ym o s ts i m i l a rp a p e r s h o w e v e rt h e s ep a r a m e t e r sh a v eb e e np r o v e dt oh a v eg r e a ti m p a c to nr e a l s y s t e m a m o n g t h e e x i s t i n g m e t h o d s m o s ts t u d i e so na u t o m a t i c s e g m e n t a t i o n a l eb a s e d u p o ns i n g l em o d e l w h i c h i se i t h e r c o n t e x t d e p e n d e n to rc o n t e x t i n d e p e n d e n t a ni n h e r e n tp r o b l e mo ft h e s i n g l em o d e lm e t h o di st h a te a c hb o u n d a r yw i l la c h i e v eo n l yo n ee s t i m a t e r e g a r d l e s so ft h ef a c tt h a td i s t i n g u i s hm o d e l sp e r f o r md i v e r s e l yi nt h e v e r yb o u n d a r ye n v i r o n m e n t i nh i sp a p e r w ep r o p o s e dt w om e t h o d st o t r a i nt h em a p p i n gr u l e sb e t w e e nt h ea c o u s t i cm o d e l sa n dt h eb o u n d a r i e s i nt h es i m i l a ra c o u s t i ce n v i r o n m e n t t h e nu s i n gt h em a p p i n gr u l e st o i i i 北京邮电大学硕士学位论文 汉语语音合成中自动切分技术的研究 s e l e c tt h eb e s tm o d e lf o re a c hb o u n d a r y f i r s t l y w ep r o p o s e d ah y b r i dm o d e lm e t h o df o ra u t o m a t i c s e g m e n t a t i o no fm a n d a r i nt e x t t o s p e e c hc o r p u s t h eb o u n d a r i e so f a c o u s t i cu n i t sa r ec a t e g o r i z e di n t oe l e v e np h o n e t i cg r o u p s f o rag i v e n p h o n e t i cg r o u po fb o u n d a r i e s t h ep r o p o s e dm e t h o dw i l lt r a i nt h e m a p p i n gr u l e s b e t w e e nt h eb o u n d a r y g r o u p sa n da c o u s t i cm o d e l s i n c l u d i n gi n i t i a l f i n a lm o n o p h o n e b a s e dh m m i f m m s e m i s y l l a b l e m o n o p h o n e b a s e dh m m s s m m a n di n i t i a l f i n a l t r i p h o n e b a s e d h m m i f t m s e c o n d l y m a k i n g u s eo fd e c i s i o nt r e e a l g o r i t h mc 4 5 a c l a s s i f i c a t i o na p p r o a c hi sp r o p o s e dt ot r a i nm a p p i n gr u l e sb e t w e e nt h e b o u n d a r i e sw h i c hl o c a t ei nt h es i m i l a ra c o u s t i ce n v i r o n m e n t sa n di f 姗 s s m ma n di f t m b yw h i c hm e a n st h eb e s te s t i m a t i o nr e s u l tf o re a c h b o u n d a r yc a nb ep i c k e do u t t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tb o t ht h eh y b r i dm o d e lm e t h o d a n dt h ed e c i s i o nt r e ec l a s s i f i c a t i o nm e t h o dc a na c h i e v eb e t t e r p e r f o r m a n c et h a nt h es i n g l em o d e lm e t h o d i nt e r m so fa c c u r a c ya n dt i m e s h i f to f b o u n d a r i e s k e yw o r d st t sh m ma u t o m a t i cs e g m e n t a t i o nh y b r i dm o d e l d e c i s i o nt r e e 声明 独创性 或创新性 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果 尽我所知 除了文中特别加以标注和致谢中所罗列的内容以外 论文中不 包含其他人已经发表或撰写过的研究成果 也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料 与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意 申请学位论文与资料若有不实之处 本人承担一切相关责任 本人签名 差丝之日期 丝 兰 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定 即 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学 学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘 允许学位论文被查阅和借 阅 学校可以公布学位论文的全部或部分内容 可以允许采用影印 缩印或其它 复制手段保存 汇编学位论文 保密的学位论文在解密后遵守此规定 保密论文注释 本学位论文属于保密在一年解密后适用本授权书 非保密论 文注释 本学位论文不属于保密范围 适用本授 本人签名 苤些日期 导师签名 权书 一 厶 乎 z 北京邮电大学硕士学位论文汉语语音合成中自动切分技术的研究 第一章语音合成概述 1 1 研究意义 语音是人们之间相互交流的重要手段 也是人机交互中最为方便直接的方 式 能够实现人机之间自然的语言交流是许多计算机科学家和语言学家的梦想 语音识别技术的发展使得计算机能够 听懂 人类的语言 而语音合成技术则使计 算机能够 说出 人类的语言 当人讲话或由计算机合成语音时 如何做到让听话人能理解你的意思并感知 你的情感呢 对 语音 的要求是 可懂 清晰 自然 具有表现力 这就是语音 合成追求的目标 但这可不是一件容易的事 语音合成是一门跨学科的前沿技术 涉及到下列相关研究领域 自然语言理 解 语言学 语音学 信号处理 心理学 声学等 如果将上述领域的研究成果 结合在一起 语音合成才能实现追求的目标 目前 计算机屏幕显示这种单调的信息输出方式给用户带来许多不便 特别 是在有大量信息输出的情况下 长时间地注视显示屏容易使人疲劳 并会降低人 获取信息和理解信息的效率 这种枯燥单一的交互方式影响了计算机的应用 如 果计算机具备说话的能力 具有对信息进行讲解的能力 就能提供声文并茂的信 息表示方式 可以改变人机交互 默默无闻 的状况 为计算机的普及应用创造更 好的条件 语音技术已是世界强国竞相研究的热点之一 国内一些科研单位对汉语t t s 进行了大量的研究 其中清华大学 中国科技大学 中科院声学所等单位都取得 了很好的成绩 目前该项技术已引起了世界上许多著名的计算机厂商或公司的关 注 如 l u c e n t a t r f r a n c et e l e c o m s i e m e n s l h m m m i c r o s o f t d i a l o g i c 和m o t o r o l a 等 现己研究出多种语言的t t s 系统 如汉 英 法 日 德等 其应用领域也在不断的扩大 如法国c n e t 公司己将其多语种t t s 系统运用于 电话网中的公共话音服务 1 2 语音合成基本原理 当前 语音合成的代表技术是文语转换即t t s t e x t t o s p e e c h t t s 系统 是基于语音合成技术实现的文字到语音的转换 是通用计算机语音输出系统 它 并不只是文字到语音的简单映射 还包括了对文字的理解 以及对语音的韵律处 7 北京邮电大学硕士学位论文汉语语音合成中自动切分技术的研究 理 1 r s 系统能适应各种应用的需求 应用领域极为广泛 在语音技术发展过程中 形成了许多比较成熟的技术和方法 从合成采用的 技术讲可分为参数合成和波形合成 从合成的策略上可分为频谱逼近和波形逼 近 参数合成多以音素为合成单元 按照一定的语音产生模型提取特征参数 作 为合成语音的数据库 优点是占有存储空间小 可灵活控制声音的音色 缺点是 自然度较低 波形合成以语句 短语 词或音节为单元 通过对这些基元的 拼接产生合成语音 具有较高的自然度 缺点是占用存储空间较大 合成语音的 音色相对固定 与语音库中的发音基元的音色一致 1 2 1 基于参数的合成技术 这种语音合成技术是建立在对语音的模型的分析基础之上的 存在有两种主 要的思路 一种是基于生理模型 对人的发音过程进行直接模拟 定义了唇 舌 声带的相关参数 由这些参数估计声道截面积函数 进而计算声波 由于人发音 生理过程的复杂性 理论计算和物理模拟之间不可避免的出现差异 合成语音的 质量不理想 因此较多的是基于声道谐振特性等参数根据声道模型的理论来合成 语音 又分为两种主要的技术 n 共振峰合成 共振峰模型是基于对声道的一种比较准确的模拟 该模型中语音生成过程是 在激励信号的激励下 声波经谐振腔 声道 由嘴或鼻辐射声波 声道传输频率 响应上的极点称之为共振峰 而语音的共振峰频率 极点频率 的分布决定着该语 音的音色 音色各异的语音具有不同的共振峰模式 因此 以每个共振峰频率及 其带宽作为参数 可以构成共振峰滤波器 再用若干个这种滤波器的组合来模拟 声道的传输特性 频率响应 对激励源发出的信号进行调制 再经过辐射模型就 可以得到合成语音 基于共振峰的理论有以下三种实用模型 级联型共振峰模型 在该模型中 声道被认为是一组串联的二阶谐振器 共 振峰滤波器首尾相接 该模型主要用于绝大部分元音的合成 并联型共振峰模型 对于鼻化元音等非一般元音以及大部分辅音 上述级联 型模型不能很好地加以描述和模拟 因此 有研究者构筑了并联型共振峰模型 输入信号先分别通过幅度调节再加到每一个共振峰滤波器上 然后将各路的输 出叠加起来 混合型共振峰模型 上述两种相比而言 对于合成声源位于声道末端的语音 大多数的元音 级联型合乎语音产生的声学理论 并且无需为每一个滤波器 分设幅度调节 而对于合成声源位于声道中间的语音 大多数清擦音和塞音 并联 型则比较合适 但是其幅度调节很复杂 基于此种考虑 人们将两者结合在一起 提出了混和型共振峰模型 北京邮电大学硕士学位论文 汉语语音合成中自动切分技术的研究 共振峰模型可以合成出自然度较高的语音 由于共振峰参数直接对应于声道 参数 因此 可以利用共振峰描述自然语流中的各种现象 并且总结声学规则 最终用于共振峰合成系统 但是 该技术也有明显的弱点 首先由于它是建立在 对声道的模拟上 因此 声道模型的不精确势必会影响其合成质量 另外 实际 工作表明 它不能表征影响语音自然度的细微语音成分 从而影响了合成语音的 自然度 而且共振峰合成器控制十分复杂 为了合成逼真的语音 其控制参数往 往达到几十个 实现起来十分困难 l p c 参数合成 随着语音的编 解码技术的发展 出现了l p c 技术 线性预测编码技术 并 对波形拼接技术产生了巨大的影响 l p c 合成技术本质上是一种时间波形的编码 技术 目的是为了降低时n 域信号的传输速率 l p c 合成技术的优点是简单直观 其合成过程实质上只是一种简单的解码和 拼接过程 另外 由于波形拼接技术的合成基元是语音的波形数据 保存了语音 的全部信息 因而对于单个合成基元来说能够获得很高的自然度 但是 由于自 然语流中的语音和孤立状况下的语音有着极大的区别 如果只是简单地把各个孤 立的语音生硬地拼接在一起 其整个语流的质量势必是不太理想的 而l p c 技 术从本质上来说只是一种录音 重放 对于合成整个连续语流l p c 合成技术的效 果是不理想的 因此 l p c 合成技术必须和其他技术相结合 能明显改善l p c 合成的质量 1 2 2 基于波形拼接的合成技术 波形拼接语音合成又称为基于大语料库的拼接合成 基于大语料库的拼接合 成采用原始语音基元作为合成单元 需要重点处理的是原始语音基元的获取 挑 选方法以及拼接算法 在合成时 需要根据文本及韵律分析的结果 从语音库中 选取合适的基元 进行适当的修改后 由波形拼接的方式产生合成语音 这种语 音合成技术用原始语音波形替代参数 而且这些语音取自自然语音的词或句子 它隐含了声调 重音 发音速度的影响 合成的语音清晰自然 其质量普遍高于 参数合成 在声学方面 波形拼接合成需要解决的主要问题是 修改基元的韵律特征 修改基元的谱特性 将不同的基元拼接以产生合成语音 波形拼接的常用算法是基音同步叠加算法 p i t c h s y n c h r o n o u so v e r l a p a d d p s o l a 该算法首先将原始语音分解为若干短时信号 如下式所示 9 北京邮电大学硕士学位论文 汉语语音合成中自动切分技术的研究 矗 吒 卅一n x n 1 i 其中 一 为短时信号 一 为原始语音信号 o 为分析窗 通常采用哈明 窗或汉宁窗 分析窗的中心位置0 与基频标注一致 f 的长度大于一个基音周 期 因此在相邻的分析窗之间存在重合区域 如图1 1 所示 图1 1 基音同步分析的示意图 在将原始语音信号分解为短时信号之后 根据需要适当地修改短时信号的数 量 中心位置 以及短时信号本身等 再将短时信号通过基音同步叠加的方式恢 复为合成语音 若使得短时信号与合成之后的信号之间的平方误差最小 则叠加 的公式为 a xg n h f f h x n j 一 1 2 f 一n 口 其中 t x q n 如 岛一 分别为合成时的分析窗的中心位置 短时信号 及分析窗 为合成的语音信号 为叠加时保持能量不变的补偿因子 另一 种较为简化的叠加公式为 却 缸n j 1 3 吒 n 口 一般地 的值可视为常数 当分析帧的长度为基音周期的2 倍时 一 此时 叠加公式可进一步简化为 m 抽 h 1 川 q p s o l a 合成方法根据分析域的不同可分为时域上的t d p s o l a 算法及频域 上的f d p s o l a 算法 t d p s o l a 算法可用于修改基频 时长等韵律特征 优 点是复杂度小 速度快 但会引入一定频谱上的误差 另外 t d p s o l a 不能修 改共振峰等频谱特性 f d p s o l a 算法恰好相反 它可通过修改短时语音的离散 傅立叶谱达到修改韵律特征及其他谱特性的目的 但算法复杂 计算量较大 i o 北京邮电大学硕士学位论文汉语语音合成中自动切分技术的研究 1 3 语音合成应用现状 目前 语音合成系统大都采用了p s o l a 拼接的方法 图1 2 展示了一个完 整的语音合成系统 文语转换系统 r r s 系统 的主要功能是将计算机中任意出现的文字转换成 自然流畅的语音输出 一般主要由四个功能模块组成 大语料库的切分模块 文 本分析模块 韵律生成模块和语音合成模块 1 大语料库的切分模块 波形拼接合成一般包含一个大规模的语音库 其中包 含的基元来白自然语音 因此基元切分的精确度直接影响到最后合成语音的 质量 人工切分大语料库由于其耗时 耗钱及不可定制性在实际运用中大大 被限制 因此 大语料库的自动切分系统开始被越来越多的单位及个人研究 并成为一项重要的课题 2 文本分析 语音合成系统首先处理的是文字 也就是它要说的内容 文本分 析的主要功能是使计算机能从这些文本中认识文字 进而知道要发什么音 怎么发音 并将发音的方式告诉计算机 另外 还要让计算机知道 在文本 中 哪些是词 哪些是短语或句子 发音时应该到哪里停顿及停顿多长时间 等 其工作过程可以分为三个主要步骤 1 1 将输入的文本规范化 在这个过程中 要查找拼写错误 并将文本中出 现的一些不规范或无法发音的字符过滤掉 中文 盛 图1 2 语音合成系统框架 2 分析文本中词或短语的边界 确定文字的读音 同时分析文本中出现的 数字 姓氏 特殊字符 专有词语以及各种多音字的读音方式 北京邮电大学硕士学位论文汉语语音合成中自动切分技术的研究 3 根据文本的结构 组成和不同位置上出现的标点符号 确定发音时语气 的变换以及不同音的轻重方式 4 最终 文本分析模块将输入的文字转换成计算机能够处理的内部参数 便于后续模块进一步处理并生成相应的信息 3 韵律生成 韵律生成利用文本的韵律信息和读音信息 建立从这些信息到韵 律参数 基频 时长等 的变换模型 进行自然语音韵律的模拟 输出波形 合成模块所需要的韵律参数序列 任何人说话都有韵律特征 比如在汉语 中 音节有不同的声调 语气和停顿方式 发音长短也各不相同 这些都属 于韵律特征 韵律参数则包括了能影响这些特征的声学参数 如基频 时长 音强等 文本分析的结果只是告诉了计算机发什么音 以及以什么方式发音 这种发音方式还只是抽象的 而要发音的声调是二声还是三声 是重读还是 轻读 到哪里停顿 等等 这些最终系统用来进行声信号合成的具体韵律参 数还要依靠韵律生成模块 4 语音生成 近1 0 年来 采用波形拼接 p s o l a 合成语音的方法越来越被广泛 应用 这种方法的核心思想是直接对存储于音库的语音运用p s o l a 算法进 行拼接 从而整合成完整的语音 有别于传统概念中只是将不同的语音单元 进行简单拼接 该系统首先要在大量语音库中 选择最合适的语音单元用于 拼接 并且在选音过程中往往采用多种复杂的技术 包括多项统计学上的技 术或神经网络技术 最后在拼接时 使用p s o l a 算法 对其合成语音的韵 律特征进行修改 而使合成的语音达到了很高的音质 但基于波形拼接方法 的系统仍存在一些问题 即它的音库往往非常庞大 需要占据较大的存储空 间 另外 在拼接时 两个相邻的声音单元之间谱的不连续 也容易造成合 成音质的下降 目前 解决这些问题较好的途径是将其与参数合成方法相结 合 在此基础上又诞生了一些新的模型 如基音同步的s i n u s o i d a l 模型等 这些对进一步改善系统的性能提供了帮助 但目前这些工作还基本处于研究 或实验室阶段 1 2 北京邮电大学硕士学位论文汉语语音合成中自动切分技术的研究 第二章自动切分系统概述及基线系统的建立 2 1 自动切分系统概述 2 1 1 什么是自动切分 自动切分就是在汉语文语转换系统中利用一系列的程序自动分割语音库中 的基本基元 通过自动切分系统 我们可以得到每个基元的边界时间信息 进而 得到每个基元 2 t 2 汉语文语转换系统中研究自动切分系统的必要性 语料库 s p e e c hc o r p u s 是t t s 系统的基础 特别是对于基于大语料库的 汉语文语转化系统 在自然语音语料库中 包含了大量的音段变异 s e g m e n t a l v a r i a n t s 为了更有效的使用语料库 我们需要尽可能的对这些变异标注语音细 节 对于t t s 语料库的标注包括语音单元切分以及韵律标注 在大多数t t s 系 统中 切分标注是基于音节或小于音节的单元片断 如声母和韵母 韵律标注包 括停顿索引和重音标记 通常由感知测试完成 音节切分和合适的韵律标注为大 多数普通话t t s 系统提供了重要信息 通过内嵌在每一个语音单元中的韵律信 息 仅在语音符合层次上进行语音单元选择 就可以获得较自然的合成语音 一般而言 有理由将音节 s y l t a b l e 作为普通话t t s 系统的基本语音单元 因为在文本和语音波形上音节都存在比较明显的边界 另外 由于普通话是带调 语言 t o n a ll a n g u a g e 所以一般我们也不采用声母和韵母作为基本合成单元 然而 由于语音受上下文的影响 具有相同引用形式的音节可能具有不同的 声学变异 在韵律短语中 相邻音节彼此紧密联系 甚至发生重叠 在这种情况 下 即发生了协同发音变异 c o a r t i c u l a t i o n 因此 对于基于大语料库的波形 拼接的t t s 系统使用音节作为语音合成单元 会受到上下文的限制 由此可知 在基于大语料库的汉语文语转化系统中 音节边界的精度将在很 大程度上影响最终合成的质量 目前对语料库中音节的切分及标注主要有两种手 工和自动 手工方法虽然能够保证一定的准确率 但由于其要求有熟练的标注人 员花费大量的时间来标注 目前 人工标注的方法非常耗时 耗钱 并受限于标 注人的注意力和其它一些生理因素 而且人与人之间的一致性也并不十分理想 因此 人工标注的方法存在着很大的弊端 另外 在汉语文语转化系统中 随着 北京邮电大学硕士学位论文汉语语音合成中自动切分技术的研究 合成意图的改变或者为了得到不同发音人的合成系统 常常需要重新构建语音 库 如果采用人工校对 那么整个系统的研究和开发工程将变得十分漫长 相反 自动切分及标注方法有助于高效的建立各类语料库 尤其对于大语料库有其明 显的优势 因此在汉语语音合成系统中 我们十分需要一个能够快速 廉价而且 准确的自动切分及标注的方法 传统上 拼接语音合成系统使用一套具有相同形势的合成单元 在英语和其 它欧洲语言中 通常选用d i p h o n e 作为基本单元 d i p h o n e 一般指开始于一个音 素的中部 结束于下一个音素中部的音段 因此d i p h o n e 的结束点位于谱特性相 对稳定的部位 对于一个给点的跨语音上下文的音素 这些部位通常是谱相似的 因而能获得相对平滑的拼接 这些d i p h o n e 通常是人工从处于中性的上下文环境 的包含所需单元的词中提取出来的 因此 新的数据的准备是非常缓慢和耗时的 由于数字存储技术的发展 新的拼接合成系统使用了扩展的d i p h o n e 这些 系统引入了更长的多音字单元以改善拼接的平滑度 虽然这些系统取得了较前述 系统更好的性能 但是 这些更长的单元选择仍很大程度上依赖于人的干预 因 此可能达不到优化 近年来 自动切分和切分拼接合成单元的方法成为了研究热点 但由于英文和 中文的差异 应用在英语中的一些自动切分及标注的方法在中文中并不合适 因 此 提出一种高效的 适合中文的自动切分及标注技术十分有必要 2 2 自动切分系统的研究现状 在课题开始前 本文作者对自动切分目前的研究做了详细 认真地研究 在 这段时间里 作者搜集了已出版的所有和自动切分相关的论文 大约2 6 0 篇左右 从搜集的论文中可以看出 自从9 0 年代以来 伴随着基于大语料库的拼接合成 技术成为文语转化系统的主流技术的同时 自动切分随之成为了语音合成界的热 点 2 2 1 研究语言的分布 目前 许多国家都对自动切分技术进行广泛而认真的研究 特别是在英语 汉语 德语和西班牙语等文语转化系统中 在作者的调查中 关于自动切分技术 各种语种的研究大致分布如图2 1 1 4 北京邮电大学硕士学位论文汉语语音合成中自动切分技术的研究 图2 1 语种分布 2 2 2 研究时间的分布 自动切分技术的研究可以追溯到1 9 7 5 年 至9 0 年代后 伴随着h m m 的广 泛使用和基于大语料库的拼接合成技术成为语音合成的主流技术的同时 自动切 分随之成为了语音合成界研究的热点 从图2 2 我们可以得出研究自动切分技术 的时间分布 图2 2 研究年代分布 1 5 北京邮电大学硕士学位论文 汉语语音合成中自动切分技术的研究 2 2 3 研究机构的分布 对于自动切分技术的研究 很多公司及研究机构都开展了深入的研究 包括 清华大学 中国科学院 中国科技大学 北京邮电大学 国立清华大学 国立交 通大学 微软亚洲研究院 i b m 法国电信北京研发中心等 这些公司及研究机 构在汉语语音合成中自动切分技术的研究都取得了很不错的成绩 2 3 自动切分基本原理 本文中提出的自动切分系统主要包括两部分 第一部分主要是基于h m m 的 强制对齐 如图2 3 左半部分 第二部分主要是训练映射规则指导自动切分 流 程如图2 3 右半部分 主要包括以下几个步骤 1 正则化汉语语音合成中的大语料库 以消除对于语料库的一些标注与实际声 学模型之间的不一致 语料库中的一些生僻字 例如 娘俩 n i a l i a n g 一般很 难找到对应的声学模型 2 从一个大的多个说话人的语音库中 本文采用的是中国北方语调语音库 利 用h t k 为汉语中每个音节训练声韵母单音予模型 i n i t i a l f i n a lm o n o p h o n e m o d e l 简称i f m m 半音节单音子模型 s e m i s y l l a b l e m o n o p h o n e m o d e l 简 称为s s m m 声韵母三音子模型 i n i t i a l f i n a lt r i p h o n em o d e l 简称为i f t m 这些模型都是说话人无关的声学模型 3 把目标语音合成语料库中的所有语句 无人工标注时间信息 用来自适应每 个音节的i f m m s s m m 和i f t m 4 从语音合成语科库中挑选1 0 0 0 句带有人工标注时间信息的语句 用来自适应 每个音节的1 f m m s s m m 和i f t m 通过这种方式 我们可以增加人工标注的 信息到以上声学模型 从而使我们的模型能够学习人工标注的规律 然后 我们 可以利用h t k 工具在语音和文本之间做强制对齐 f o r c e da l i g n m e n t 5 使用统计模式识别的方法来建立语音模型和每条边界之间一系列的映射规则 6 通过构建好的映射规则 可以预测出每条边界最适合的声学模型 这样 我 们可以得到自动标注好的语音库 基于h m m 的强制对齐过程包括1 4 步 训练映射规则指导自动切分的过 程包括5 6 步 1 6 北京邮电大学硕士学位论文 汉语语音合成中自动切分技术的研究 图2 3 自动切分通用流程 2 4 自动切分的评价方式 有很多种方式可以用来评价自动切分的效果 一些非直接的评价方法 例如 利用语音合成系统获取自动切分出的基元 通过从主观上评价合成出来的语音的 自然度和流畅度 来评价自动切分的效果 当然 最普遍使用的 也是最直接的 评价方式还是把自动切分后的边界时间值和人工标注的边界时间值进行比较 其 中可以获得的比较重要的几个评价参数是自动和人工标注时间偏移的均值 方差 以及小于某个可容忍时间的错误百分比 其中 小于某个可容忍时间的错误百分 比用得最为广泛 一般在语音合成系统中 可容忍的时间不能超过3 0 m s 否则 将严重影响语音合成出语句的自然度和流畅度 因此 我们常以l o m s 2 0 m s 和 3 0 m s 作为评价自动切分效果的时间标尺 1 7 北京邮电大学硕士学位论文汉语语音合成中自动切分技术的研究 第三章基于h m m 的强制对齐 在上章中提到 自动切分系统主要包括两部分 第一部分主要是基于h m m 的强制对齐 如图2 3 左半部分 第二部分主要是训练映射规则指导自动切分 流程如图2 3 右半部分 目前主流的自动切分系统中 在获取每个边界的初始时 间值 均采用基于h m m 的强制对齐 在本章中 将主要介绍h m m 模型的训练 模型参数自适应 以及强制对齐的概念 这些都是基于h m m 的强制对齐的有机 组成部分 对理解整个自动切分系统的构建极为重要 3 1h m m 模型的训练 隐马尔可夫过程是一个双重随机过程 一重用于描述非平稳信号的短时平稳 段的统计特性 信号的瞬态特征 可直接观测到 另一重随机过程描述了每个短 时平稳段如何转变到下一个短时平稳段 即短时统计特征的动态特性 隐含在观 察序列中 基于这双重随机过程 h m m 即可有效解决怎样识别具有不同参数的 短时平稳信号段 怎样跟踪它们之间的转化等问题 人的语言过程也是这样一种双重随机过程 因为语音信号本身是一个可观察 的序列 而它又是由大脑里的 不可观察的 根据言语需要和语法知识 状态选择 所发出的因素 词 旬 的参数流 同时大量实验证明 h m m 的确可以非常精确 地描述语音信号的产生过程 隐马尔可夫模型 h i d d e nm a r k o vm o d e l h m m 被公 认为是在语音领域中最成功的统计模型之一 图3 1 是一个简单h m m 模型 目 前 其各种变形广为使用 3 1 1h m m 的模型定义 h t k 的基本功能是处理一系列的h m m 模型 h m m 的模型定义用于指定该 模型的拓扑结构 转移矩阵参数和输出分布参数 在h t k 中 h m m 的定义需 要遵循一定的语法规则 换句话说 h t k 提供了一套用于h m m 的模型定义语 言 r t m md e f i n i t i o nl a n g u a g e h m m 模型定义中必须给出描述的主要参数列出如下 观察矢量的类型 t y p eo f o b s e r v a t i o nv e c t o r h m m 状态数 n u m b e ro f s t a t e s h m m 混合向量的加权系数 m i x t u r ec o m p o n e n tw e i g h t s 均值和协方差 m e a n sa n dc o v a r i a n c e s 转移概率矩阵 t r a n s i t i o nm a t r i x a 2 2a 3 a 4 4 b 2 b 3 l b 4 图3 1 简单的自左向右m 仰l 模型 h h m m z b e g i n h m m v e c s i z e 4 m f c c n u m s 怕t e 4 s t a t e 2 n u m m i x e s 2 m i x t u r e 1o 4 m e a n 4 o 3 o 2 o 2i o v a r i a n t e 4 i o1 o 1 o i o 2o 8 m e a n 4 o 土o oo o o 8 v j a n c e 4 1 o 土 o 土 01 o s t a r e 3 n u m m i x e s 2 m i x t u r e j lo 7 m e a n 4 o 重o 2o 61 4 2o 3 m e a n 4 2 to o1 oi 8 v a a n c e 4 1 oi o 曩 oi o t 临n s p 4 o oi oo oo o o o o 5 o 5 o o o o o oo 6o 4 o oo oo oo o 图3 2 简单的混合高斯密度 m o 的模型定义 北京邮电大学硕士学位论文汉语语音台成中自动切分技术的研究 图3 2 描述了一个简单的自左向右h m m 的模型定义 这个连续分布的h m m 模型共有4 个状态 其中 2 个状态是可发散 可转移 该h m m 模型的名称被 指定为 h m m 2 h m m 模型定义的主体部分 由 开始 以 结束 模型定义主体部分的第一行描述了该h m m 模型的全局属性 在上图给出的 模型定义中 这个全局属性指定了观察矢量的维数为4 4 类型为 m f c c 系数f 1 模型定义主体部分的第二行指定了h m m 的状态数 接下来就是对每个可转 移状态的描述 分别给出了均值 由 引导 和方差 f l j l 导 每 个可转移状态分别具有二维混合高斯密度 每个关键字 后的数字 反映了这个事实 关键字 后的两个数字 分别指定了混合密度的序号 和该密度的加权系数 主体部分的最后是转移矩阵 由q r a n s p 引导 上述h m m 模型定义的主要作用在于规定h m m 的拓扑结构和参数的类型 具体的数值是多少并不重要 接下来的训练过程将始终会围绕着h m m 模型定 义一这个目标进行下去 3 1 2 删模型训练算法 对于给定的观测序列0 d l d 2 d 和模型 五 4 b 万 求模型五对应于观测序列0 的最佳状态序列q g g 即寻找使p oi 旯 达到最大时 0 所对应的状态序列 一般采用v i t e r b i 算法求解 为了在计算机上实现方便 一般用对数概率形式表示 算法示意图如图3 3 所示 v i t e r b i 算法 定义函数4 f 4 0 2 置m m a x 4 p 墨 五 互m z d l 0 2 ql 旯 它表 示在时刻f 状态i 下 部分观测序列 o l 0 2 d f 的局部最佳得分 初始化 f0 1 舢卜t l o g 6 d i l o 1 奶 f 0 递归 s t j r s 1 f l o g a u l o g b j o t 3 2 2 0 北京邮电大学硕士学位论文 汉语语音合成中自动切分技术的研究 u 2 哩婴 l 啦i i l o g a p j 1 f l1 l 结束 p d l a 西 忉 毋紧防 f l g a l n 群 忉 a r g m a x 8 r i l o g a w 回溯 z l 以1 1 s f t s t a t e 3 3 3 4 3 5 图3 3 v i t e r b i 算法示意图 对于给定的观测序列0 o l 0 2 唧 如何修正模型参数五 使得模型a 产 生观测序列0 的概率p o i a 最大 一般采用b a u m w e l c h 算法 b a u m w e l c h 算 法是依据最大似然 m l 准则调整h m m 的模型参数 使得最后得到的模型参数 对于训练数据的产生概率最大 解决了h m m 的训练问题 b a u m w e l c h 算法 定义每 f j 和以 f 即 j 卑 f j p 瞄 f 瓦 j l0 l d 2 d r 2 a i a f b j o i f 1 t i j p o i 五 胁瓤加宰苗篱 2 i 6 5 4 3 2 l 北京邮电大学硕士学位论文 汉语语音合成中自动切分技术的研究 则转移矩阵a 的重估公式如下 其中 a u p p 0 7i 旯 1 i n 1 j n 钆 去喜 黜h 3 7 3 8 3 9 嘭 f 屏 f 缸 专与 一 1 f 3 1 0 彰 悄 f 定义耳 表示第 个观测序列中 在时刻f 状态 占有榜 p r o b a b i l i t y o f s t a t eo c c u p a t i o n l r t j 埘 表示第 个观测序列中 在时刻f 8 j 的第m 个高 斯混合分量的占有概率 耳 巧 聊 满足如下式 鬈 p 置 l 7 旯 兰5 篙 堡丛 丛 1 3 耳 工册 p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论