毕业设计(论文)-基于共振峰合成法的语音信号合成.doc_第1页
毕业设计(论文)-基于共振峰合成法的语音信号合成.doc_第2页
毕业设计(论文)-基于共振峰合成法的语音信号合成.doc_第3页
毕业设计(论文)-基于共振峰合成法的语音信号合成.doc_第4页
毕业设计(论文)-基于共振峰合成法的语音信号合成.doc_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i 江西师范大学 2006 届本科毕业生论文 题题目目:基于共振峰合成法的基于共振峰合成法的语语音信号合成音信号合成 title: synthesis of speech signal based on formant synthesis 学校名称:学校名称:江西江西师师范大学范大学 院系名称:院系名称:物理与通信物理与通信电电子学院子学院 学生姓名:学生姓名: 学生学号:学生学号:0 专专 业业: :通信工程通信工程 指指导导老老师师) ii 声 明 本人郑重声明: 所呈交的毕业设计(论文)是本人在指导教师指导下进行的研究 工作及取得的研究成果。其中除加以标注和致谢的地方外,不包含其 他人已经发表或撰写并以某种方式公开过的研究成果,也不包含为获 得其他教育机构的学位或证书而作的材料。其他同志对本研究所做的 任何贡献均已在文中作了明确的说明并表示谢意。 本毕业设计(论文)成果是本人在江西师范大学读书期间在指导 教师指导下取得的,成果归江西师范大学所有。 特此声明。 声明人(毕业设计(论文)作者)学号: 声明人(毕业设计(论文)作者)签名: 签名日期: 年 月 日 iii 目 录 摘摘 要要 -1 abstract -2 引引 言言 -3 1 语音合成进展语音合成进展-3 2 共振峰合成共振峰合成-4 2.1 共振峰产生原理-4 2.2 激励模型-5 2.3 共振峰合成三种声道模型-6 2.3.1级联型共振峰模型-6 2.3.2并联型共振峰模型-7 2.3.4混联型共振峰模型-9 2.4 辐射模型-9 2.5 语音信号综合数字模型-10 3 matlab 软件合成软件合成 -10 3.1 软件概述-10 3.2 提取语音信号的共振峰参数-11 3.2.1用频域分析提取参数-11 3.3 基于参数的共振峰合成-14 3.3.1固定共振峰不同发音状态的语音信号的合成-15 3.3.2变化共振峰的不同状态语音信号的合成-18 3.4 基于参数修改的语音转换-23 总结总结 -26 参考文献参考文献 -27 致谢致谢 -28 1 摘 要 语音合成是(定义),目前语音处理中研究最成熟(删除)、应用最广泛的技术。 它可以用多种方法实现,其中共振峰合成法是一种基于规则的声源-声道模型合 成法。它侧重于对声道谐振特性的模拟以及准确地提取共振峰参数。共振峰合成 法的特点在于以共振峰为控制参数,要求在输出终端上模拟出实际语音的谱特 征。本文主要内容大概(删除)分为三个部分:一,在理论分析的基础上,提取语音 库里的两个不同性别的人发相同语音的共振峰参数;二,基于激励的 lp 模型,以 第一阶段提取出来的共振峰参数构成声道模型,合成五种不同发音状态的语音; 三是完成男子向女子发音的转换,合成之后再对合成信号和原来信号的语谱图进 行分析比较,不断地修正合成的各项参数,最后得到质量较高的合成语音。 【关键词】 共振峰合成、特征参数、matlab 语音工具箱 2 abstract speech synthesis is now one kind of advanced method which has been widely used in speech processing. it can be realized by various means, in which formant synthesis is one mature approach featuring source-filter model synthesis based on principles. this synthesis focuses on the simulation of the characteristics of vocal formant and getting formant parameters precisely. the dissertation(paper)l comprises three main parts: the first one is the gain of formant parameters for speeches, which are from the speech-ware spoken by a man and a woman differently; the second part is to synthesize five different speech pronunciations, and then to use the formant parameters derived in the first phase as the formant excitation, while also these five different speech pronunciations as source excitation; the third part is to finish the conversion of a males voice to its corresponding females voice. so this paper will also try to analyze and compare the spectrum figure between the synthesized speech and the initial speech signal. and then it will modify every parameter that is needed for the application of a high quality synthesis speech signal, compared with the initial input speech signal. key words formant synthesis, characteristic parameters, matlab toolbox for speech synthesis 3 引 言 语音是人类交流时使用最多、最自然、最基本同时也是最重要的信息载体。 它的产生包括一系列的心理和生理反应。目前对语音信号的研究主要基于它的 数字表示,其基础是抽样定理。语音处理在现代社会中应用极为广泛,它的广 泛应用表现在: 语 1、语音编码:最重要的一种应用,用低比特率获得尽可能高的合成质量 音 2、语音识别:将语音转换成等价的书面信息,让计算机听懂人说话 处 3、说话人识别:根据话音辨别说话人,提取说话人的特征 理 4、语音理解:利用知识表达和应用人工智能技术进行语句识别和理解 应 5、语音合成:让计算机说话,实现人机通信 用 6、语音增强:对带噪语音进行处理,达到降低噪声影响的效果 在高度信息化的今天,这些语音处理的一系列技术及其应用已经成为信息 社会不可缺少的组成部分。而其中语音合成技术的研究相对要成熟一些,也是 语音信号处理领域最有可能产生突破并进而实现产业化的一项技术。目前国际 国内对其研究主要着重在提高合成语音的自然度,丰富合成语音的表现力,降 低语音合成技术的复杂度以及多语种文语合成等四方面。选择这个项目作为研 究对象,具有一定的现实意义,这表现在:首先,能够加强对共振峰合成法的基本 的理论分析的认识;其次,能够学习掌握 matlab 语音工具箱软件的应用以及进行 再处理工作;最后,能够使自己在加强学习的同时,了解到当前国内外语音合成 技术研究的最新成果并及时吸收 1 语音合成进展语音合成进展 上个世纪,在人们的努力下,语音合成已经可以比较成熟的实现有限词汇的 合成,但是大量词汇的语音合成,以及合成音质的改善还比较难。现阶段语音 合成的最大进展是已经能够实时地将任意文本转换成连续可懂的自然语句输出, 相应技术通常称为文语合成或文语转换(tts)。tts 使得数据通信和语音通信在 终端一级实现交融,人们将有望在获取 internet 信息时,使短消息服务、电子 邮件等多数以文本方式提供的信息也用语音的方式输出。 综观语言合成技术的研究已有二百多年的历史,但是真正有实用意义的近 代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的, 主要是让计算机能够产生高清晰度、高自然度的连续语音。80 年代以前,国际 上语音合成的研究主要集中在按规则文语转换,早期的研究主要是采用参数合 4 成方法。如 holmes 并联共振峰合成器(1973)和 klatt 串/并联共振峰合成器 (1980) 。自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同 步叠加(psola)方法的提出(1990) ,使基于时域波形拼接方法合成的语音的 音色和自然度大大提高。九十年代初,基于 psola 技术的法语、德语、英语、 日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于 lpc 方法或共振峰合成器的文语合成系统的自然度要高,并且基于 psola 方法 的合成器结构简单易于实时实现,有很大的商用前景。 国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上 研究同步发展。大致也经历了共振峰合成、lpc 合成至应用 psola 技术的过程。 70 年代末和 80 年代初,我们语言所和中科院声学所都初步研制出了各自的普 通话语音合成系统。90 年代初,基于数据驱动的语音合成技术出现,使得语音 合成系统走向了实用。如目前国内有以语音合成为主的语音技术公司科大讯飞 公司。这些系统基本上都是采用基于 psola 方法的时域波形拼接技术,但是毕 竟已经在信息咨询如 168 声讯台、短讯播报等平台使用了。在国家 863 计划, 国家自然科学基金委,国家攻关计划,中国科学院有关项目等支持下,汉语文 语转换系统研究近年来取得了令人举目的进展,其中不乏成功的例子:如中国 科学院声学所的 kx-psola(1993),联想佳音(1995) ;清华大学的 th_speech(1993);中国科技大学的 kdtalk(1995)等系统。这些系统基本上 都是采用基于 psola 方法的时域波形拼接技术,其合成汉语普通话的可懂度、 清晰度达到了很高的水平。 2 共振峰合成共振峰合成 2.1 共振峰产生原理 共振就是当空腔作受迫振动,使激励频率等于腔的固有频率,那么空腔便 以最大振幅作振荡。共振体的作用通常不是在一个固有频率上作用,可能有多 个强度不同的共振频率。声道管的共振频率(谐振频率)称为共振峰频率,简 称为共振峰。人在说话时,声道是一个分布的参数系统,是一个谐振腔。舌和 唇的连续运动常常会改变声道的外形和尺寸,从而改变谐振频率。 声道和鼻道均可看作是非均匀截面的声道管。共振峰的值与发生器官的确 切位置有很大的关系,即与声道的大小和形状有关系,每种形状的声道都有一 套共振峰频率作为其特征。当声音沿着声道传播时,频谱形状会随声道改变。 因为声门脉冲序列具有丰富的谐波成分,这些频率成分声道的共振频率之间相 5 互作用的结果对语音质量影响很大。由于声道的大小随不同的讲话人不同,所 以共振峰频率对判别不同的说话人来说非常重要。共振峰频率由低到高的排列 依次为第一、二、三共振峰,一般来说,在浊音中可以辨认的共振峰有 5 个, 前 3 个对区别不同说话者的语音来说至关重要。虽然就语音的基音频率而言是 女声和童声高于男声,但是实验表明:区分语音是男声还是女声、是成人声音还 是儿童声音,更重要的因素还是共振峰频率的高低.共振峰特性与发音机制有关. 例如第一共振峰 f1 与舌位高低(即舌在嘴的上下)有关,这表现为舌位越高, f1 越低;舌位越低,f1 越高。第二共振峰 f2 与舌位前后的位置有密切关系;这 表现为舌位越靠前,f2 就越高;舌位越靠后,f2 就越低。第三共振峰 f3 受舌 尖活动影响较大,这表现在舌尖抬高卷起时,f3 就明显下降。 研究显示,不同人群的共振峰频率分布范围变化很大,如下表 1 所示: 表 1 不同人群的共振峰频率分布范围 共振峰合成数字模型的建立对于语音处理具有极重要的意义。一般处理过 程都是采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的 源,去激励一个表征声道谐振特性的时变数字滤波器,这个源可能是周期脉冲 序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清 音、调整滤波器的参数等效于改变口腔及声道形状,达到控制发不同音的目的, 而调整激励源脉冲序列的周期或强度,将改变合成语音的音调、重音等。因此, 只要正确控制激励源和滤波器参数(一般每隔 1030ms 送一组) ,这个模型就 能灵活地合成出各种语句来。 对发音器官和语音产生机理的分析,可以将语音生成系统分成三个部分:在 声带以下负责产生激励振动,称为激励模型;从声门到嘴唇的呼气通道是声道系 统,即声道模型;从语音到嘴唇辐射出去的子系统是辐射系统。下面分别就这三 个系统简单介绍共振峰合成的数学模型 2.2 激励模型 对于声源模型,它的激励源采用清音与浊音相结合的方式。浊音源为一组 6 周期性的脉冲波形,清音激励源采用高斯白噪声。浊擦音采用周期性冲激调制 的白噪声 激励源分为浊音和清音两种。其中浊音由于在产生过程中声带的不断张开 和关闭,将会产生间歇的脉冲波。它类似于一个斜三角波脉冲。表示如下: 在上式中,为斜三角波上升部分的时间,为其下降部分的时间。单 1 n 2 n 个斜三角波是一个低通滤波器,它的变换的全极模型形式是:z 是一个常数。上式表示斜三角形可描述为一个二极点的模型c 清音的激励信号由随机噪声发生器产生,因为发清音时,无论是发阻塞音 还是摩擦音,声道都被阻碍成湍流。设其平均值为 0,其自相关函数是一个单 位冲激函数。 2.3 共振峰合成三种声道模型 关于声道部分的数学部分,目前最流行的有两种建模方法:声管模型和共 振峰模型。前者把声管视为由多个等长的不同截面积的管子串联而成的系统; 后者把声道视为一个谐振腔。发音时候因为声道形状很少是均匀断面的,所以 还须研究如何从语音信号求出共振峰的方法。共振峰参数除了共振峰频率外, 还包括共振峰带宽和幅度。 基于物理声学的共振峰理论,可以建立起三种使用的共振峰模型:级联型、 并联型和混联型10。 2.3.1 级联型共振峰模型 级联型模型下认为声道是一组串联的二阶谐振器。对于一般元音,用全极 点模型模拟就可以了,因为此时的零点可以由多个极点模拟。由此可以导出, 7 多数情况下声道模型的传输函数 v(z)是一个全极点函数10: 在上式中,n 是极点的个数,g 是幅值因子,是常系数。那么此时上式 k a 可以分解为多个二阶极点的网络串联。即表示成: 或者表示成 其中 式中 m 是小于(n+1)/2 的整数。假如 n 取 10,则 m=5 ,该模型可以表示 成如下图 1 的图片: 图 1 级联型共振峰模型 2.3.2 并联型共振峰模型 一般来说,级联型比较简单,可以用于描述一般的元音。级联的级数取决 于声道的长度,一般成年人的声道长度约为 17cm,取 35 级就可以。当鼻 化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时候,级联型就不能胜任 了。这时的腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。 那么这个时候就需要采用并联型结构了,它比级联型复杂些,每个谐振器的幅 度都要独立地给以控制。 8 此时声道模型的传输函数可以表示为:t , 通常,式中,由于系数是实数,所以其它系数都nm 12 2nnn, kk a b 是实数。它的简单并联结构可以表示为以下图 2: 图 2 并联型基本结构 所以,结合了激励模型和辐射模型的并联型共振模型图如下图 3 所示: 图 3 并联型共振峰模型 并联型可以通过调整传输系数的办法来单独调整一对极点的位置,但是不 9 能像串联型那样单独调整零点的位置。因此一般在要求准确传输零点的场合下, 适宜采用并联型结构5。 2.3.4 混联型共振峰模型 将级联模型和并联模型结合起来的混合模型是比较完备的一种共振峰模型。 它根据要描述的语音,自动地进行切换。图中的并联部分,从第一到第三个共 振峰的幅度都可以独立地进行控制和调节,用于模拟辅音频谱特性中的能量集 中区。此外,并联部分还有一条直通路径,它的幅度控制因子为 ab,这是专门 为一些频谱特性比较平坦的音素考虑设计的10。混合型结构可以得到更加完善 的模型共振峰合成法的关键是准确提取共振峰参数。从自然语音中提取共振峰 参数最简便的方法是使用语谱图,采用频域处理、同态处理、lpc 技术也能很 好地估计共振峰参数。 这种结构如下图 4 混联型共振峰模型所示 图 4 混联型共振峰模型 2.4 辐射模型 辐射模型与嘴型有关,一般可以表示为( )r z 10 1 ( )1r zrz 在这里式子的系数 r 接近于 1。 2.5 语音信号综合数字模型 综上所述,完整的语言信号产生的数学模型应该包含三个子模型:激励模型、 声道模型和辐射模型。如下图 2 所示 图 4 语言信号产生数学模型 3 matlab 软件合成软件合成 3.1 软件概述 matlab 语音工具箱 speechgui-matlabrt(speech graphic user interface for matlab runtime server) ,即为 matlab 实时服务器应用的语音 信号图形用户界面。它是在 matlab7.0 版本的基础上应用的一种专门的语音合 成软件。这套软件提供了功能强大的语音信号处理应用。它可以对语音信号进 行语音分析(包括时域分析、频域分析、波谱分析、线性预测分析、移动平均 分析、声门转换滤波器、倒谱分析等) ,数据和测量,线性预测法语音合成,共 11 振峰语音合成等等相当多的应用。 更为重要的是,它还为软件实现共振峰合成提供了友好可懂的 gui(图形 用户界面) ,它使得用户在友好的使用界面的提示下一步步进行语音合成操作, 允许用户把文件里包含的语音库声音文件进行合成,进而对合成信号与原来信 号进行语音分析,比较合成之后的语音信号与原来的语音信号两者的效果,然 后修改共振峰合成所需的参数,再与原信号对比,改善合成音质效果,最终合 成较高质量的语音信号 在得到高质量的语音合成过程中的关键因素之一就是对语音信号经过精确 的分析过程,提取合成参数。在早期,这个过程大部分都是利用声门语音信号来 决定共振峰参数的。其中另外一个重要的因素就是激励源波谱的设计。matlab 语音合成专用工具箱就是为了解决这个问题设计出来的。 总的来说,在目前,主要有两种:一种是级联/并联型(1980 年由 klatt 提出并设计) ,一种是并联型(1982 年由 rye 和 holmes 设计) 。 虽然在目前对于哪种结构是更好的合成结构尚有争议,但是一般认为, klatt 模型对于文本语音合成比较适用,而 holmes 模型更多的应用于分析 合成系统。这种区分的原因更多的是来自于这两种合成方法的不同的控制系统 和合成部分的不同来源。共振峰参数(频率、幅度、带宽、可以以数字滤波器 件的形式实现) ,而组成共振峰合成器的激励源和波谱形成网络则是随着声音信 号产生过程时的声源特性和声道形状而动态改变的。也就是说,这是一种无法 预料的动态的随机变化。但是因为这种变化相对来说发生得很慢,所以这就为 我们使用一组固定的合成器参数来区分一小段特定的语音信号(帧) 。这种可能 有助于减少所需用于代替语音信号的数据量。 3.2 提取语音信号的共振峰参数 本文以两段男、女声信号/iy/为例进行共振峰参数的提取具体过程如下: 3.2.1 用频域分析提取参数 1、进入语音信号“分析”主菜单,点击“文件”命令,在“导入”命令中 将语音文件“m0203s.dat” ,即元音信号男声/iy/导入,并且显示。如图 5 显示 12 图 5 语音信号/iy/时域波形 2、再在分析主菜单里选择“声门转换滤波器”命令,在“参数”设置里面, 选中“标志之间” ,然后立刻在“声门转换滤波器”主菜单中选择“基音同步” , 截取一段语音信号后进行分析。如下图 6 和图 7 所示 图 6 共振峰频率和带宽 13 图 7 声道模型的滤波器特性 3、在图 6 修改共振峰和频率的各项参数,使得图 7 中的最上面一条曲线, 即声道模型频率响应的残余度显示,它趋于平滑,表示提取的共振峰参数越与 实际的共振峰参数误差越小 4、重 复上面的 第三步的 动作,直 到有提示 信息“人 工声门转 换滤波器 已经完成” 出现,此 时将展现 包含有共 振峰频率 和带 图 8 男子发音基音和共振峰频率等高线 宽参数的图 8。 14 4、从上图图 8 中读取共振峰频率和带宽,基音周期等参数。即遵循共振峰 频率等于某一个等高线的最大值与最小值之间的均值,共振峰带宽等于两者之 间的差值的原则,基音频率则等于 图 8 中最下面一条等高线对应的纵坐标的频 率值。依照同样的方法,我们可以从一个由女声发出的/iy/音提取各个共振峰 参数。如图 9,由此可以读得该男子和女子发/iy/音的各个共振峰参数是如下 表 2 所示: 图 9 女子发音基音和共振峰频率等高线 表 2 该男子和女子发/iy/音的各个共振峰参数 3.3 基于参数的共振峰合成 合成一个语音文件要用到语音处理菜单中的“合成”命令。在进入了主菜 单之后,选择“共振峰”命令,则进入共振峰合成的主菜单。在这里要合成一 个语音信号,我们需要两个参数:信号源和共振峰参数。信号源可以在系统给 15 出的参数基础上进行修改得到,也可以调入一个语音库里原有的语音信号。下 面说明具体的操作过程。这个部分分两个阶段进行,一个是合成六种不同发音 状态的语音信号:抒情音、尖锐音、呼吸音、低语音、假音、刺耳音。另一个 是利用上一步共振峰参数提取获得的参数去分别调整这六种声音,观察效果。 3.3.1 固定共振峰不同发音状态的语音信号的合成 这个阶段主要是利用修改源信号的各项参数,不变共振峰参数,观察合成 的效果有何不同,具体过程如下: 图 10 源规范参数设置窗口 1、进入合成主菜单里,选择“源规范” ,然后在“源规范”里点击 “修改新的源激励” 。设置五种音调的帧截取长度均为 21,确定之 后点击“修改特定源激励” ,进入参数修改界面,如上图图 10 所 示,它对应的时域波形和零极图如下图 11 所示 16 图 11 时域波形和零极图 2、然后点击“应用于所有”和“完成”命令,再回到源设置界面中将该源 激励信号保存在共振峰合成的目录下面。这里设置的参数包括, p t ,各个参数的介绍如下: c t a t e t1amp2ampoffsetdur :最大的声门流量瞬时比例值。 p t :结束声门闭合要达到的比例值。 c t :声门第二段的时间常量的比例值 a t :最大负微分声门流量的瞬时比例值。 e t 按照流体力学可以相关理论知识可以得出结论,必须使0,且 c t e t p t a t 0,才能使这些参数在算法中有效。 :加噪中的第一调制参数比例值1amp :加噪中的第二调制参数比例值2amp :加噪的持续时间长度比例offset1amp 17 :加噪的持续时间长度比例dur2amp 这六种不同状态的语音信号合成所需要的参数包含在表 2 当中: 表 2 合成六种不同状态的语音信号合成所需要的参数 2、完成上述两步骤后,在主合成菜单里调入一个系统默认值的共振 峰设置,保存其为共振峰激励,然后点击“合成” ,就合成了如图 12 的抒情语音的信号: 18 图 12 抒情语音信号 3、合成后,重复以上步骤,按照表二里面的参数进行逐一合成,然 后将所有合成的信号全部表现出来(步骤大概一致,且不能全部 显示,故只选抒情、尖音、呼吸、假音四个) ,如图 13 图 13 抒情、尖音、呼吸、假音合成显示波形 3.3.2 变化共振峰的不同状态语音信号的合成 上面演示的例是用系统提供的参数设置为基础,利用几种不同数值设置的 方法来合成几种语音信号。现在探讨在改变共振峰参数,即利用 3.2 中分析得 19 到的共振峰参数来设置共振峰激励源,合成语音信号的具体步骤: 1、同样是进入上一个例子的合成主菜单里面。不同的是在设置源规范 时,使用的是导入的语音 文件,先将男声发的/iy/导入合成。如图 14 所示, 图 14 导入要分析的语音文件 将文件导入后,点击“修改指定源激励”可看到如图 15 看到的系统自动生 成的语音源文件信息和波形 20 图 15 系统自动生成的语音源文件信息和波形 2、再重复上面相类似的步骤,把该 data 格式的文件保存在合成专用 文件路径下面,即将原来进行共振峰合成产生的“source.dat”文 件覆盖掉 3、设置好了源激励后,再设置共振峰激励。同样类似上面的共振峰激 励生成方法。不过在“修改指定共振峰”里,必须设置共振峰参数 如图 16 和图 17。这些参数就是第一节操作里提取的男声共振峰频 21 率和带宽,但是因为系统的这些参数只有五对,第六对频率和带宽 是估计的值。即按照前几个数值的分布变化,进行线性推导。得出 数值。 4、 图 16 参数设置 22 图 17 合成信号 5、设置好参数后,点击合成主菜单里面的“合成命令” 。得出如图 17 的合成信号,在这里,我们可以很清楚地看到,语音信号与合成之 后的信号波形比较接近(这可以通过二者的语谱图看出来,如图 18 显示) ,如图 18 显示,上面的是激励波的语谱图,下面是合成 信号的语谱图说明合成的音质不错。 23 图 18 男子合成信号与原始信号的语谱图 6、做完男子的语音合成之后,我们再做女子发的语音的合成。操作步骤类 似男子的语音合成。合成之后的效果如图 19 所示 图 19 女子合成信号与原始信号的语谱图 7、我们再试试用上面合成的六个不同状态的语音信号做源激励信号,而用 男子和女子的发音信号提取的共振峰参数作为共振峰激励信号。先按照上面的 类似步骤合成男子语音的共振峰参数加上抒情类语音。合成效果如下图 20: 24 图 20 男子共振峰参数和抒情语音的合成效果 8、从上面可以看出,合成效果不如图 18 和图 19 的语音信号。因为这里所 用的共振峰参数不是从源激励语音信号中提取的。 9、重复上面的第七步类似步骤,将源激励信号换成其它五个不同状态的信 号,观察效果 3.4 基于参数修改的语音转换 在这部分要实现的是语音库里的两段语音(一个是男的,一个是女的)发 同一段声音的转换。也就是把女的声音用男的声音来代替,看看男的声音代替 得像不像女的发出的声音,具体操作过程如下: 1、进入语音转换菜单里面,先对语音信号进行分析。在“分析”菜单 里的“规范”里面,对语音的分析规范进行设置,如图 21: 25 图 21 语音的分析规范 在这里,必须将语音的声道模型(图中的下拉菜单)选择为“共振峰” 。然 后源模型设置为“简化 lf 模型” ,完了之后返回。 2、载入一段语音信号,在这里我们载入的是女子发音的“we were away a year ago.” ,如图 22 所示 图 22 “we were away a year ago.”的女子时域波形 3、载入后在分析菜单栏里,我们先后对语音信号做“执行” , “语音类 别修正” , “gcis 核查” , “共振峰轨迹核查” ,完成后保存 4、在“改正”菜单里,我们先后做“语音类别修正” , “gcis 核查” , 26 “共振峰轨迹核查” ,完成后保存 5、然后进入“修正”里的“语音转换”命令里面,在对其它所有值保 留缺省设置的情况下,将目标语音位为女子的已经处理过了的.mat 格式文件,源语音设为男子的语音,点“应用” 。然后保存为一个 “conversion”的文件 6、再在主菜单栏里点击“合成” ,就会显示如图 23 显示的男子转换女 子语音“we were away a year ago.”的效果图出来。 图 23 语音转换效果图 27 总结总结 (一) 由上面可以看出,在选用频域分析得出的参数进行共振峰合成时,合成效 果并不是很明显。很显然这主要的问题在于不能高效地得到共振峰参数,原因 分析有: 1、在对图 6 共振峰频率和带宽的数值进行修改以得到图 7 比较平滑的 滤波器特性过程中,无法精确地将曲线变成很平滑。而且由于在图 中每一帧的取样点数是 256 个,在有 10000 个抽样点的情况下,我 们必须做三十多次类似的操作。这是在无法实现的。 2、在对图 8 男子发音基音和共振峰频率等高线的共振峰参数的读取 上,因为纵坐标没有精确的对应尺度,无法准确读取共振峰参数, 这直接导致了我们在合成过程中共振峰参数的不精确。 3、这是一个元音信号的合成,理论上我们应该用全极点模型进行模型 声道特性,但是软件在算法实现中只能是用一些零点极点模型去逼 近,不可能做到完全的极点模型,所以也存在着误差。 (二) 我们可以看到,在第三部分男子转换女子的声音效果上,合成音质并不是 十分地好,分析原因有以下几个方面: 1、系统是将女子的参数进行修正,包括语音类型修正、声门闭合常量 修正和共振峰轨迹修正等,这些修正都是在不是很精确的情况下进 行的。语音类型修正中,要把周期性的时域波形由清音信号修正为 浊音信号;声门闭合常量修正中,要增加或者删除声门闭合常量, 来达到使其图象平滑的效果;共振峰轨迹的修正则要求我们按照在 “分析”里面得到的共振峰等高线波形的轮廓进行修正。这些修正 的精度无法有效保障,直接导致了语音转换效果的不理想。 2、系统本身的算法是基于一个模型的逼近上的,即是用一个全极点模 型去逼近一个零极点模型,这会带来一定的误差。语音转换的不理 想也正反过来说明了系统误差的存在。 28 参考文献参考文献 1 d.g.childers. matlab 之语音处理与合成工具箱m.北京:清华大学出 版社,2004.45. 2 张雄伟,陈亮,杨吉斌.现代语音信号处理技术及应用m.北京:机械 工业出版社,2003. 3 凡桑塔, j.p.h.语音合成 m.北京:机械工业出版社, 2005 5 程佩青.数字信号处理m. 北京:清华大学出版社,2005. 6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论