已阅读5页,还剩75页未读, 继续免费阅读
(计算机应用技术专业论文)psola与正弦模型相结合的汉语语音合成研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着信息技术的飞速发展和计算机技术的不断进步,人机交互方式发生了革命 性的变化,人们在不断寻求灵活、方便、快捷的信息交换方式时,语音合成技术应 运而生。语音合成( s p e e c hs y n t h e s i s ) 又称文语转换( t t s ,t e x t - t o s p e e c h ) ,是 将计算机中存储的文本转换成对应的语音,是计算机和人类交互的一种手段。目 前,汉语语音合成技术在合成单音节上已经相对成熟,但是合成连续语音流时 总是不够清晰和自然,因此汉语语音合成需要在提高语音合成的自然度和可懂 度方面进一步提高。 本文分析各种语音合成算法的优缺点后,将t d p s o l a 算法和正弦模型分 析算法相结合用于汉语语音合成,通过平滑处理后,合成连续的语音流。用小 容量的声母加韵母过渡以及四个声调的韵母制作成语音库,使得该语音合成系 统的语音库很小,易于移植到其他应用平台,以便扩大其应用范围。t d p s o l a 算法具有方便灵活的韵律调整能力,但是当基音频率修改范围过大时,会出现 失真和回声效应;而正弦模型分析算法能够对语音信号进行宽范围的基频调整, 保证了相邻两帧语音之间幅度和相位的连续性。结合这两种算法的优点,使得 语音合成具有灵活调整韵律的能力,为以后研究带情感的语音合成提供了基础。 针对目前一直存在的字与字之间的拼接问题,研究了相邻音节的拼接规律,实 现了字与字之间拼接的平滑过渡,在提高合成连续语流的自然度方面得到很大 的提高,使机器的发声更加接近人的发声。针对很多语音合成系统中没有实现 多音字处理的功能,本系统增加了多音字词库,实现了简单的多音字处理功能。 虽然在提高语音合成的自然度方面得到了很大的提高,但是仍然有许多问 题存在,本文在最后针对这些问题作了总结,以便后来的研究者对本系统的不 足之处进一步地完善。 关键词:语音合成t d p s o l a 正弦模型拼接平滑 a b s t r a c t ab s t r a c t w i t l lr a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ya n dr a p i dp r o g r e s so f c o m p u t e rs c i e n c ea n dt e c h n o l o g y ,h u m a n - c o m p u t e r i n t e r a c t i o ns t y l eh a p p e n s r e v o l u t i o n a r yc h a n g e s ,a n ds p e e c ha n a l y s i st e c h n o l o g yb e g i n t oc o m eo u tw h e nm o r e a n dm o r ec o n v e n i e n t ,i m m e d i a t ea n df l e x i b l ei n f o r m a t i o nc o m m u n i c a t i o ni sr e q u i r e d e a g e r l y s p e e c hs y n t h e s i s ,t h a ti s ,t t s ,t e x t - t o - s p e e c h , a saw a yo fi n t e r a c t i o n b e t w e e nh u m a na n dm a c h i n e ,i st oc o n v e r tc h i n e s et e x ti nt h es t o r a g eo fc o m p u t e rt o r e l a t e dh u m a ns p e e c h r e c e n t l y ,a l t h o u g h , t e c h n o l o g yo fs y n t h e s i s m o r em a t u r ea t s i n g l ew o r d i t sn o td i s t i n c ta n dn a t u r a lw h e ni tc o m et o s e n t e n c e st h u s ,f u r t h e r i m p r o v e m e n ti sn e c e s s a r ya tt h ef l u e n c ya n du n d e r s t a n d a b i l i t yo f c o n t i n u o u ss p e e c h t h ea r t i c l e ,c o n s i d e r i n gt h ea d v a n t a g e sa n dd i s a d v a n t a g e so fp r e v i o u sm e t h o d s , a d o p t st d p s o l aa l g o r i t h mt o g e t h e rw i t hs i n u s o i d a lm o d u l ea l g o r i t h m ,a n df i n a l l y , a c h i e v e ss y n t h e s i so fc o n t i n u o u ss p e e c hw i t hs m o o t hm e t h o d b e c a u s eo ft h es m a l l l i t e ro fs p e e c hd a t a b a s e ,w h i c hw a sb a s e do nt h ec o n s o n a n t sw i t ht r a n s i t i o nt ot h e v o w e l ,a n dv o w e l sw i t hf o u rt o n e s ,t h es y s t e mi sc a r r i e do u tw i t has m a l ll i t e r ,e a s yt o b et r a n s p l a n tt oo t h e ra p p l i c a t i o np l a t f o r m s ,a n da p p l i e dm o r ew i d e s p r e a d i t s c o n v e n i e n ta n df l e x i b l et oa d j u s tp r o s o d y 丽mt d - p s o l aa l g o r i t h m ,h o w e v e r , d i s t o r t i o na n de c h ow i l lo c c u rw h e nt h ep i t c hf r e q u e n c yi sm o d i f i e do u to fal a r g e r a n g e ;t h es i n u s o i d a lm o d e la n a l y s i sa l g o r i t h m sc a l la d j u s tt h ep i t c hf r e q u e n c yo f s p e e c hs i g r l a li naw i d e rr a n g e ,t oe n s u r et h ec o n t i n u i t yo fa m p l i t u d ea n dp h a s e b e t w e e nt h et w oa d j a c e n tf r a m e s a d o p t i n ga l g o r i t h mc o m b i n e dt h ea d v a n t a g e so f b o t h ,i tm a k e st h es p e e c hs y n t h e s i sf l e x i b l et oa d j u s tt h ep i t c h , a n dp r o v i d e ab a s i sf o r t h ef u t u r er e s e a r c ho ne m o t i o n a ls p e e c hs y n t h e s i s s i n c et h e r ea r ea l w a y sp r o b l e m s o ns p l i c i n gw o r d s ,t h ea r t i c l em a k eab r i e fr e s e a r c ho nt h er e g u l a t i o nb e t w e e n a d j a c e n tw o r d s ,c a r r i e so u ts m o o t ht r a n s i t i o nw h e ns p l i c i n gb e t w e e nw o r d s ,m a k i n g a no b v i o u sp r o g r e s so nf l u e n c yo fc o n s t a n ts p e e c h ,s ot h a tt h ev o i c em a c h i n ei sc l o s e r t on a t u r a lv o i c eo fh u m a n i nt h ea r t i c l e ,ad a t a b a s ei sd e s i g n e dt od e a lw i t h p o l y p h o n i cc h a r a c t e r s ,c o m p a r i n gw i t hm a n yp r e v i o u ss y s t e m sw i t h o u tt h i sf u n c t i o n a l t h o u g ht h en a t u r a l i t yo fs p e e c hs y n t h e s i sh a sb e e ng r e a t l yi m p r o v e d ,t h e r ea r e i i a b s t r a c t s t i l lm a n yp r o b l e m s ,t h u st h ea r t i c l em a k eas u m m a r yf o rt h e s ei s s u e s ,f o rt h es a k e o fl a t e rp r o g r e s so ff u r t h e ri m p r o v e m e n t k e y w o r d s :s p e e c hs y n t h e s i s ,t d p s o l a ,s i n u s o i d a la n a l y s i sa l g o r i t h m , s p l i c i n g a n ds m o o t h i n g i i i 图目录 图目录 图2 1 语音合成系统总体结构图7 图2 2 多音字处理流程图1 0 图2 3 汉字注音流程图1 2 图2 4 余弦函数表示陈述句句调曲线示意图1 6 图2 5 疑问句句调曲线示意图1 6 图3 1 波形a 加窗示意图2 3 图3 2 基音同步叠加过程示意图2 7 图3 3 时长修改因子为1 5 的示意图2 8 图3 4 正弦分析与合成示意图。3 0 图3 5a n g 的某一帧峰值提取图3 1 图3 6 频率匹配轨迹图3 2 图3 7 合成音频文件的流程图。3 5 图3 8 “南开基频为2 2 0 时长为3 2 0 的波形图3 5 图3 9 “南开”基频为2 8 0 时长为4 5 0 的波形图一3 6 图4 1 “美观 的波形图。4 0 图4 2 “真实”的波形图4 1 图4 3 “雨幕”的波形图4 l 图4 4 边界点滑动窗寻找最佳拼接点4 6 图4 5 函数f u n l 波形图。4 7 图4 6 函数f u n 2 波形图4 7 图4 7 平滑前“劈脸”的波形图4 8 图4 8 平滑后“劈脸”的波形图。4 8 图5 1 “是的语音波形图5 2 图5 2 元音 部分波形图5 3 图5 3 语音合成系统的逻辑流程图5 4 图5 4 音频处理软件c o o l e d i t 界面图一5 5 图5 5 自动基音标注软件界面图5 6 v i i 图目录 图5 6 音频软件p r a a t 查看基频曲线时界面图5 6 图5 7 系统界面图5 7 图5 8 不同时长的波形对比图一5 8 图5 9 不同基频的波形和基频对比图5 8 图5 10 平滑前后的波形、基频和频谱图5 9 v i i i 表目录 表目录 表2 1 汉语拼音方案声母表1 1 表2 2 汉语拼音方案韵母表1 l 表2 3 双音节词变调调型表1 4 表4 1 分析所用的词表。4 3 表4 2 部分元音和半元音选词表4 3 表5 1 提取声母的选字表5 0 表5 2 提取韵母的选字表5 0 表a 1 分析所用的词表l 6 6 表a 2 分析所用的词表2 6 8 表a 3 分析所用的词表3 7 0 i x 南开大学学位论文使用授权书 根据南开大学关于研究生学位论文收藏和利用管理办法,我校的博士、硕士学位获 得者均须向南开大学提交本人的学位论文纸质本及相应电子版。 本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学拥有在 著作权法规定范围内的学位论文使用权,即:( 1 ) 学位获得者必须按规定提交学位论文( 包 括纸质印刷本及电子版) ,学校可以采用影印、缩印或其他复制手段保存研究生学位论文, 并编入南开大学博硕士学位论文全文数据库;( 2 ) 为教学和科研目的,学校可以将公开 的学位论文作为资料在图书馆等场所提供校内师生阅读,在校园网上提供论文目录检索、文 摘以及论文全文浏览、下载等免费信息服务;( 3 ) 根据教育部有关规定,南开大学向教育部 指定单位提交公开的学位论文;( 4 ) 学位论文作者授权学校向中国科技信息研究所和中国学 术期刊( 光盘) 电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文数据库, 通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。 非公开学位论文,保密期限内不向外提交和提供服务,解密后提交和服务同公开论文。 论文电子版提交至校图书馆网站:h t t p :2 0 2 1 1 3 2 0 1 6 1 :8 0 0 1 i n d 懿h t m 。 本人承诺:本人的学位论文是在南开大学学习期间创作完成的作品,并已通过论文答辩; 提交的学位论文电子版与纸质本论文的内容一致,如因不同造成不良后果由本人自负。 本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。 作者暨授权人签字: 2 0 年月日 南开大学研究生学位论文作者信息 论文题目 姓名学号 答辩日期年月日 论文类别博士口 学历硕士口硕士专业学位口高校教师口同等学力硕士口 院系所 专 业 联系电话 e m a r l 通信地址( 邮编) : 备注: 是否批准为非公开论文 注:本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写( 一式两份) 签字后交校图书 馆,非公开学位论文须附南开大学研究生申请非公开学位论文审批表。 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名: 年月日 第一章绪论 第一章绪论 第一节语音合成技术研究的现状 1 1 1 语音合成概述 随着社会的发展和科学技术的进步,人类已经跨入信息时代,人们在不断 寻求灵活、方便、快捷的信息交换方式,语音是众多信息载体中具有最大信息 容量、最高智能水平的信号之一。作为信息交换的一种方式,语音具有其独特 的优越性。 语音合成( s p e e c hs y n t h e s i s ) 又称文语转换( t t s ,t e x t t o s p e e c h ) ,是将 计算机自己产生或从外部输入的文字、符号、数字等信息转换成自然流畅的语 音信号输出,它是新一代智能计算机的一项重要标志,是计算机智能接口的重 要组成部分。它能为人类提供基于自然语言的人机通讯方式,与语音识别相结 合,就能达到人机对话的目的n 1 。经世界上无数科学工作者的研究,已经实现了 多种国家语言的文语转换系统。目前我国的很多公司和科研机构也在致力于汉 语文语转换技术的研究,并以多种方法实现了不同性能的汉语文语转换系统。 汉语文语转换技术中最重要的部分是语音合成,评判一个汉语文语转换系统优 劣的标准是测评合成语音的自然度与可懂度。因此当今研究汉语t t s 技术的主 要任务是如何提高系统合成汉语语音的自然度和可懂度,创造更加和谐的人机 交互环境。 语音合成包含着二个方面的可能性:一是机器能再生一个预先存入的语音 信号,就象普通的录音机一样,不同之处只是采用了数字存储技术。简单地将 预先存入的单音或词组拼接起来也能作到“机器开口 ,但是“一字一顿 , 听起来不自然。然而如果预先存入足够的语音单元,在合成时采用恰当的技术 手段挑选出所需的语音单元拼接起来,也有可能提高合成语音的自然度。这就 是波形拼接的语音合成方法。为了节省存储容量,在存入机器之前还可以对语 音信号先进行数据压缩。另一种可能是采用数字信号处理的方法。将人类发声 过程看作是一个模拟声门状态的源去激励一个表征声道谐振特性的时变数字滤 波器。这个源可能是周期脉冲序列,它代表浊音情况下的声带振动,或者是随 第一章绪论 机噪声序列,代表清音,调整滤波器的参数等效于改变口腔及声道形状,达到 控制发不同音的目的,而调整激励源脉冲序列的周期或强度,将改变合成语音 的音调、重音等。因此,只要正确控制激励源和滤波器参数( 一般每隔l o - - - 3 0 m s 送一组) ,这个模型就能灵活地合成出各种语句来。因此又称作为参数合成的 方法。根据时变滤波器的结构形式不同,又有l p c 合成和共振峰合成器等之分 【2 】 o 按照人类语言功能的不同层次,语音合成也可分成三个层次:从文字到语 音的合成( t e x t - t o s p e e c h ) 、从概念到语音的合成( c o n c e p t t o s p e e c h ) 、从 意向到语音的合成( i n t e n t i o n - t o s p e e c h ) 。这三个层次反映了人类大脑中形成 说话内容的不同过程。为了合成出高质量的语音,除了依赖于各种规则,包括 语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解, 这将涉及自然语言理解的问题。从这一点讲,文语转换系统实际上也可看作一 个人工智能系统。文语转换过程是先将文字序列转换成音韵序列,再由语音合 成器生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以 及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实 时合成出高质量的语音流。因此一般说来,文语合成系统都需要一套复杂的文 字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号 处理技术,而且必须有大量的语言学知识的支持埘。 随着多媒体技术的发展,语音合成技术应用的前景更加广阔,目前,语音 合成技术在许多领域都有着重要的应用口1 ,例如:人机对话,电话咨询,语音留 言,自动播音,电脑语音报警器,助讲助读,语音教学,电话翻译等等。因此, 语音合成技术研究是一项重要的研究领域。 1 1 2 语音合成的历史和现状 语音合成最早可追溯到1 7 世纪,法国人研制了一个机械式的会说话装置。 自1 9 世纪出现了电子合成器后,语音合成研究得到飞速发展d 1 。 1 9 3 9 年,贝尔实验室h d u d l e y 制作的第1 个电子合成器v o d e r 在美国纽 约的博览会上展出。它是利用共振峰原理制作的语音合成器,能产生连续的语 音。语音学研究结果表明,决定语音感知的声学特征主要是语音的共振峰。音 色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为 参数,可以构成共振峰滤波器,然后用若干个这种滤波器的组合来模拟声道的 2 第一章绪论 传输特性( 频率响应) ,对激励源发出的信号进行调制,再经过辐射模型就可以得 到合成语音。 1 9 6 0 年,瑞典语言学家和言语工程学家g f a n t 在( ( a c o u s t i ct h e o r yo f s p e e c h p r o d u c t i o n ) ) 中系统阐述了语音产生的理论,推动了语音合成技术的发展。线性 预测编码( l p c ) 是最有效的语音分析技术之一,利用该技术可对语音产生模型的 参数进行准确估计。l p c 合成技术本质上是一种时间波形的编码技术,其目的 是为了降低时间域信号的传输速率。2 0 世纪7 0 年代以后,线性预测技术开始用 于语音编码和识别。同时,可根据线性预测参数用多种方法来综合语音。 1 9 8 0 年,m i t 教授d a t t 设计了串并联混合共振峰合成器h 1 。它用串联通 道产生元音和浊辅音、并联通道产生轻辅音,还可对声源作出各种选择和调整, 模拟不同的嗓音。 2 0 世纪8 0 年代末,m o u l i n e se 和c h a r p e n t i e rf 提出基于时域波形修改的语 音合成算法p s o l a 。p s o l a 技术着眼于对语音信号超时段特征的控制,如基频、 时长、音强等,而这些参数对于语音的韵律控制及修改至关重要。因此,p s o l a 技术与l p c 技术相比具有可修改性更强的优点,可以合成出高自然度的语音, 从而推动了波形拼接语音合成与文语转换技术的发展和应用晦8 l 。 2 0 世纪8 0 年代,我国开始介入汉语t t s 领域的研究。清华大学、中国科 学院声学所、中国科技大学等单位都开展了相关研究工作并取得较好成绩,有 些研究成果已转化为产品得到了实际应用,如清华大学的s o n i c 系统、中国科技 大学的d k 8 6 3 汉语文语转换系统等订1 。 1 1 3 语音合成面临的问题和发展方向 计算机要真正能够象人一样的说话,和人类自由地进行交谈,这仍然需要 假以时日,还有大量的研究工作去做;今天的文语转换系统只能机械地朗读文 章,与生动活泼、感情丰富多彩的人类语言相比差距相当大,这是语音合成面 临的问题。为了解决这些问题,语音合成以后的发展方向大致如下乜1 : 1 提高合成语音的自然度 提高合成语音的自然度仍然是高性能语音合成的当务之急。目前在单字和 词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一 级时其自然度问题就比较大。 基于语音数据库的语音合成方法有望进一步提高语音合成的自然度。 因为 3 第一章绪论 这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预 先录下的自然语音数据库中挑选出来的,因此有可能最大限度地保留语音的自 然度。但由此产生了一系列新的需要研究的问题,包括:如何确定语音合成的 基元,根据什么准则去挑选合适的基元;韵律参数定量化问题,对数据库进行 定标问题;以及如何将统计方法和规则方法相结合使机器能自动发现和找出所 需的语音单元,保证最高的合成语句自然度等等。 2 丰富合成语音的表现力 目前国内外大多数语音合成研究是针对文语转换系统的,且只能解决以某 种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语 速的表现,更不用说赋予个人的感情色彩。随着信息社会的需求发展,对人机 交互提出了更高的要求,人机口语对话系统的研究也提到了日程上。就语音合 成来说,仍是一个要丰富合成语音的表现力问题。相对来说采用波形拼接方法 来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来 达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限。更为有效的 办法是采用参数合成法,分析参数特征,通过对相关参数的调整来实现对年龄、 性别特征的改变,进一步实现语气、语调的变化,由于这种改变是连续的,对 象特征可以千千万万,显得更有生命力。近年来提出的基于l m a ( 对数振幅近 似) 技术的语音合成器,h y b r i dh a r m o n i c s t o c h a s t i c 模型,s i n u s o i d a l 模型等已 被证实是一些新颖的能合成出高质量语音的参数合成方法,为此应继续深入这 方面的研究,以期在参数合成技术上取得突破。 3 降低语音合成技术的复杂度 为了适应社会的需求,扩大语音合成的应用场合,除了解决好上面两个问 题外,在其他实用化方面也有要加以改进的地方。就目前汉语文语转换系统而 言,减小音库容量就是一个重要课题。目前高质量的汉语文语转换系统一般需 要几兆字节到几十兆,甚至几百兆字节的存储容量,这在以p c 机或工作站为硬 件平台的应用中是没有问题的,而对于象h p c ,p d a 及无线通信手机,商务通 等资源有限的设备上就没法承受。解决的方法可以是通过语音压缩编码的方法 来压缩音库所需的容量,或者采用更小的合成基元,例如用声母、韵母或双音 素、半音节,以及减少合成语音所需的音节基元数等等。然而又不能增加算法 的复杂度,因为运算量及系统开销同样会直接影响汉语语音合成的应用。既要 提高语音合成的质量,又要降低语音合成的复杂度,这始终是一个矛盾的两个 4 第一章绪论 方面。 根据语音合成的发展方向,目前的研究热点主要体现在扩展合成语音的自 然应用领域的不同言语风格的语音合成;为人机交互发展而提出的情感语音合 成:以及为了进一步提高语音真实度和可感知的发音器官合成与可视语音等方 面。 第二节本文的主要工作 本文研究汉语语音合成技术主要是为了提高语音合成的自然度和可懂度, 为了得到更好的合成语音,本文主要做了以下工作。 1 语音数据库质量的好坏直接影响语音合成的效果,本系统采用了小容量 的声母和韵母语音数据库;在基元选取时,声母尾部增加韵母过渡作为辅助声 音基元,韵母选取四个声调的韵母;本系统基于这种选取挑选了质量好的单字 发音,并分别提取声母和韵母,进行基音标注,制作了语音数据库。 2 汉语中存在一千多个多音字,本系统增加了多音字处理部分,添加多音 字词库,使计算机遇到多音字时也能得到正确读音。 3 分析语音合成算法的优缺点,采用t d p s o l a 算法和正弦模型分析算法 相结合,用t d p s o l a 算法对语音时长迸行调节,采用正弦模型分析算法对语 音信号在频域上进行基频调节,避免了t d p s o l a 算法对基频调节范围过大产 生的失真和回声效应。 4 针对相邻单音节之间拼接的问题,本文基于统计的方法研究了相邻音节 的拼接规律,并在该规律的基础上实现了相邻音节之间的平滑过渡,使合成的 语音具有连贯性,而不再是一个字一个字的单嘣,提高了语音合成的自然度, 使合成的语音在一定程度上接近人的发声。 第三节本文的整体结构 本论文共由五章组成。 第一章为绪论,介绍了语音合成技术研究的历史和现状,介绍了语音合成 面临的问题和未来的发展方向,简单介绍了本文的研究工作和创新点。 第二章介绍语音合成系统的概况,总体概括了语音合成系统的三个部分。 5 第一章绪论 文本分析部分的文本规范化、中文分词、汉字注音。另外,不同之处是解决了 语音合成多音字问题。韵律生成简单介绍了韵律特征、韵律生成方法。语音合 成部分,概括了不同的语音合成方法。 第三章为语音合成算法的实现,建立了语音数据库,研究了两种语音合成 算法。基元选取时增加声母与韵母拼接时的过渡作为辅助声音基元,采用 t d p s o l a 算法拼接声母和韵母实现单字拼接。分析两种算法的优缺点,采用 t d p s o l a 算法对时长进行调节,正弦分析合成算法对基频进行调节。 第四章为相邻音节之间的过渡平滑,总体介绍了影响相邻音节拼接的因素, 采用统计的方法研究了相邻音节的拼接规律,最后实现了相邻音节之间过渡平 滑。 第五章为语音合成系统实现,首先介绍了语音数据库的建立,其次是系统 开发的平台以及所用到的语音分析工具,最后是系统界面图和合成语音的效果 对比图。 第六章为总结与展望,总结了本文的工作和待解决的问题,以及未来的研 究方向。 6 第二章语音合成系统概况 第二章语音合成系统概况 一个t t s 系统主要由三个部分构成:文本分析、韵律生成和语音合成。文 本分析主要研究汉语文本的规范化、中文分词处理、多音字识别和汉字的注音; 韵律生成主要研究中文字、词和句子韵律模型的描述和生成,对字与字之间拼 接规律的研究;语音合成主要研究语音音库的选择和处理、语音合成算法的研 究和实现。 第一节语音合成系统的框架结构 语音合成系统的核心应包括:文本分析、韵律生成和语音合成。其总体结 构如图2 1 所示。 图2 1 语音合成系统总体结构图 该系统首先从文本分析模块开始,主要功能是对输入的文本信息进行文本 规范化、中文分词、多音字处理和汉字注音。韵律生成模块,主要是将文本分 析的结果进行韵律生成,生成出基频、时长、调型、停顿等韵律信息。语音合 成模块使用声母和韵母作为基本合成单元,合成算法采用了t d p s o l a 和正弦 模型相结合的算法,由于采用了声韵母作为基本合成单元,因此合成模块的语 音库很小,合成过程中可灵活调节参数,对韵律模块的要求较高。下面将具体 介绍每个模块。 7 第二章语音合成系统概况 第二节文本分析 2 2 1 文本规范化 文本规范化的主要功能是处理各种类型的输入文本,使其转化为规范的格 式。其中包括对不同类型和格式的输入文本的识别和统一,过滤掉文本中出现 的一些不规范或无法发音的字符以及对一些特殊符号的转换等。 例如:将电话号码“2 3 5 0 3 7 0 6 ”规范化为汉字“二三五零三七零六”;将 日期“2 0 0 9 0 4 1 0 ”转化为中文“二零零九年四月十目;将时间“1 6 :3 5 p m 转化为“下午十六点三十五分;将符号“$ ”转化为中文“美元”,将“r m b 转化为“人民币 等。另外,在不同情况下的数字的读法会有所差异,最明显 的是数字“l 在有的情况下会读“一的音,有的情况下会读“幺”的音。按 照日常习惯应将电话号码或手机号码的“1 读成“幺 音,如1 5 9 0 0 2 2 7 5 6 0 读 成“幺五九零零二二七五六零。 2 2 2中文分词 分词就是将连续的字序列按照一定的规范组合成词序列的过程。众所周知, 英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子 中所有的字连起来才能描述一个意思。例如,英文句子ia mas t u d e n t ,用中文则 为:“我是一个学生 。计算机可以很简单通过空格知道s t u d e n t 是一个单词, 但是不能很容易明白“学”、“生 两个字合起来才表示一个词。把中文的汉 字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生, 分词的结果是:我是一个学生。 中文分词技术属于自然语言处理技术范畴,目前的分词算法有很多,大体 上分为三大类:基于字符串匹配的分词算法、基于词的频度统计的分词方法、 基于知识理解的分词方法鹏1 。 本文采用了两种常用的分词方法,最大匹配法阻1 ( m a x i m u mm a t c hb a s e d a p p r o a c h ) 矛i 概率方法们( p r o b a b i l i t ya p p r o a c ht ow o r ds e g m e n t a t i o n ) 。将这两种算 法应用到汉语文语转换系统中,相结合为以最大匹配法为基础的概率方法。该 方法参考了北京大学詹卫东教授的中文信息处理基础课程中的内容n 1 1 。 8 第二章语音合成系统概况 2 2 3 多音字处理 在对文本进行中文分词之后将会进行汉字注音处理,但是,汉语中有的字 常常对应多种拼音,这就使汉字注音中产生了读音歧义。这就是汉语中存在的 一个非常普遍的多音字现象。例如:“重”在“重量”中读“z h o n 9 4 ”( 其中2 表示发四声) ,而在“重复”中则读“c h o n 9 2 ”。多音字的特点是:个数多、出 现频率高、存在多个读音。在最新版的现代汉语词典中,共收录1 0 3 6 个多 音字n 副,然而,如此众多的多音字中,真正常用的却不多。在文献n 鲫中提到, 最常用的前1 8 0 个多音字的累计概率超过9 5 ,而前1 0 0 个多音字累计频率超 过9 0 ,我们提取其中最常用的多音字来进行处理。 多音字在语料中的出现主要分成两种情况,一种是在多字词中出现,比如 “行”出现在“行人”、“人行道”、“行家、“银行”这样固定的多字词 中。另一种情况是多音字单独出现,比如“为人民服务”中的“为,在分词 结果中就是单独作为一个词出现的。在计算机处理过程中,因为作为多字词出 现的多音字基本上读音比较固定,第一种情况通过查找多音字词库就可以很好 解决。在现代汉语词典中查到的1 0 0 0 多个多音字常用的词条,我们可以收 录在多音字词库中供t t s 系统使用。大部分情况下,以多字词形式出现的多音 字的读音可以认为不会出错。对于第二种情况的单独作为一个词出现的多音字 处理是一个难题。某些研究者在对2 5 0 万字人民日报语料库的正确拼音标 注的统计中,有6 8 8 个多音字以单字词的形式出现了一次。而这些以单字词形 式出现的多音字的出现总频度占总字数的8 9 5 n 副。因此处理好单字词多音字的 读音非常重要。经研究发现,这些多音字的读音分布是有规律的,大多数多音 字都有一个占优势的读音,也就是该读音出现的情况多,我们称该频度最高的 读音为高频度音。 针对以上对多音字的研究,本文提出了对汉字注音进行消歧的解决方案, 即多音字处理方法。首先建立一个多音字词库,从最新版的现代汉语词典 收录的1 0 3 6 个多音字中提取常用的多音字词条编入多音字词库。其次为每一个 多音字设定一个高频度音为默认读音。再次,针对进行中文分词处理后的词从 多音字词库中查找多音字词,如果存在该词,那么就找出该多音字在该多字词 中的读音,否则为该多音字设定默认读音。最后,将对应的读音转换为相应的 非多音字汉字,以便在汉字注音中使用。多音字处理过程如图2 2 所示。 9 第二章语音合成系统概况 分词结果 0 多音字处理模块 , 8j 声母表中的索引号 声母 竺! ! 韵母表中的索引号 韵母 ii 声调 图2 3 汉字注音流程图 第三节韵律生成 韵律规则是合成规则中的一个重要组成部分。在许多以西方语言为母语的 人听起来,讲汉语的人说出来的话,抑扬顿挫、轻重相随、缓急相间、节奏分 1 2 第二章语音合成系统概况 明,像在唱歌一样。语流中这种由音高、音长和强度等方面的变化所表现出来 的特征,称为“韵律特征( p r o s o d i cf e a t u r e ) ”,也叫“超音段特征”。 同一个基元,由于语境不同和重音的表现不同,其声学特征有很大差别。 通过对语音数据的声学参数,如基频、音长、音强等的调整,可以进行重音、 语调的模拟,实现语速、调高的变化。从听觉的角度出发,常常利用音长、音 强、音高和音色四个语音听觉特征来描述韵律n4 | 。此外,语音中适当的停顿 ( p a u s e ) 也是韵律的一个重要成分。从声学出发,它们对应的语音特征有时长 ( d u r a t i o n ) 、幅度、基频( p i t c h ) 和频谱等。 韵律不仅表现在单音节层面,还表现在短语和句子层面。韵律对合成语音 的自然度以及连贯性影响极大,对提高语音合成的自然度起到了至关重要的作 用。下面分别介绍单音节韵律、多音节韵律和句子的韵律特征。 2 3 1 单音节韵律特征 汉语中单个汉字是单音节,单音节的韵律主要包括时长和基音两个特征n 鄹, 在单音节韵律的生成过程中主要是给出描述这两个特征的模型并定量化。时长 和基音在声学上的表现就是音长与音高引,在物理上的表现就是时间长度和频 率。时长和基音是紧密联系的,可以说基音是建立在一段时间长度上的基音。 基音在汉语拼音中的表现形式就是声调。因此汉语单音节的韵律主要体现在声 调和时长上。 汉语单音节的声调主要包括一声、二声、三声、四声和轻声,它们的专有 名称为阴平、阳平、上声、去声和轻声n 刚。经过语音学分析,一个音节声调的 感受主要取自其浊音段的基频及其变化,声调的高低、升降或曲折变化来源于 浊音源的基频变化,浊音是指气流经过声门时由声带振动而产生的发音。因此 汉语音节的基本调型可由四个完全形式化的基频变化曲线描述。但在语流中有 变调的效应,因此还存在着半上和半下两种变体,同时还有轻声。对声调的描 述一般采用赵元任先生提出的五度标注法n 们。 声调的时长就是指声调持续的时间。一般来讲,声调附着在韵母上,因此 讨论时长时,更多的是关注韵母的时长。声调的有效时长是指声调的中间部分, 它称为调型段。调型段的时长最长,对人们的声调感知起的作用最大。声调曲 线在起始和末尾处,出现某些弯头和弯尾的音段,它们对于人们音高感知所起 的作用较小,但对语音的自然度感知有较大影响。单音节的调型时长一般来说 1 3 第二章语音合成系统概况 是不同的,结论是上声最长,阴平、阳平次之,去声最短。声调的调频振动需 要定的时间,因此,为保持声调的自然度,调型段的时长不能太短。研究表 明一般在2 5 0 m s - 4 0 0 m s 之间1 6 3 。 2 3 2 多音节韵律特征 之所以研究多音节韵律特征,是因为在连续的语流中,由于相邻音节之间 的相互影响,或者由于语调和语感的需要,各音节的基音频率时变曲线与孤立 发音时的音节相比会发生较大的变异。在多音节词中,音节的相互影响可能使 某些音节发生调值的变化,这种现象称为“音变。这一变化的基本趋势是使 基音时变曲线在音节之间过渡时比较平滑。 声调的变调现象,是指对普通话双音节连续变调和三音节的连续变调。汉 语普通话语句中的变调以双音节的连续变调最为重要,因为双音节在整个汉语 词汇中占了约7 4 3 ,是最常用的基本语言单位,也是构成三字词和四字词的一 部分,因此我们以二字词的动态声调为基础,在其上建立三字词和多字词的动 态声调。 双音节声调变化规律大致有下列几点: ( 1 ) 上上相连,前上变为阳平; ( 2 ) 上声与其他声调相连,上声变为半上声,调型表示为31 l ; ( 3 ) 去去相连,前面的去声变为半去声,调型表示为5 4 3 。 关于双音节的变调规律n 3 ,可参考双音节词变调调型表,即表2 3 。 表2 3 双音节词变调调型表 1 4 第二章语音合成系统概况 对于三字词以及多字词的变调,是从前往后依次将三字词或多字词中的每 两个字看作一个两字词,然后词前音的调型与词后音的调型按二字词的组合规 律递归确定。例如词语“自行车 ,拼音为“z i 4 x i n 9 2 c h l ”,它的原始调值组合 为“4 2 1 。这里前两字的调值组合为“4 2 ”,根据二字词的变调规则它们的 调型组合为“5 3 1 - 2 3 4 ”。第二个字与第三个字的调值组合为“2 1 ,则它们的 调型组合为“2 3 4 4 4 4 ”。因此该三字词的调型组合是“5 3 1 2 3 4 4 4 4 ”。多音节 词的调型变化类似三音节词,都是以而双音节词为基础的。 在连续语流中时长的变化和声调一样,也要受到连读时上下文的牵连。例 如,轻声音节的时长往往比重读时缩短近一半;在双音节中,后一音节的调长 要比前一个音节的调长稍短等。在按规则进行汉语合成时,可将时长和调型一 致起来,即:凡是平调、升调的时长适中,凡是降升调的时长较长,凡是降调 的时长较短,轻声时长最短。 2 3 3 句子的韵律特征 句子本身的韵律称为句调,是与句子的类型有关的,句子的类型大致分为 1 5 第二章语音合成系统概况 陈述旬,疑问句和感叹句。句子同时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《GB-T 22554-2010基于标准样品的线性校准》专题研究报告
- 《GB-T 30872-2014建筑用丙烯酸喷漆铝合金型材》专题研究报告
- 《GB-T 23327-2009机织热熔粘合衬》专题研究报告
- 《宠物鉴赏》课件-猫的起源与历史
- 2026年甘肃省兰州市单招职业倾向性测试题库含答案详解
- 孕期健康监测管理协议
- 肿瘤浸润淋巴细胞培养技术员岗位考试试卷及答案
- 2026年护理服务工作实施方案与计划(3篇)
- 青少年痤疮的饮食调护
- 辽宁省2025秋九年级英语全册Unit10You'resupposedtoshakehands课时2SectionA(3a-3c)课件新版人教新目标版
- 钢筋棚拆除合同范本
- 断绝亲子协议书
- 【MOOC答案】《光纤光学》(华中科技大学)章节作业期末慕课答案
- 小学生班级管理交流课件
- DB21T 3722.7-2025高标准农田建设指南 第7部分:高标准农田工程施工质量评定规范
- 近八年宁夏中考数学试卷真题及答案2024
- 超星尔雅学习通《带您走进西藏(西藏民族大学)》2025章节测试附答案
- 超星尔雅学习通《科学计算与MATLAB语言(中南大学)》2025章节测试附答案
- 绿色简约风王阳明传知行合一
- 【MOOC】宇宙简史-南京大学 中国大学慕课MOOC答案
- 重精管理培训
评论
0/150
提交评论