




已阅读5页,还剩64页未读, 继续免费阅读
(信号与信息处理专业论文)高质量语音转换系统中关键技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电大学学位论文原创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 本人学位论文及涉及相关资料若有不实,愿意承担一切相关的法律责任。 南京邮电大学学位论文使用授权声明 本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印 件和电子文档;允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入 有关数据库进行检索;可以采用影印、缩印或扫描等复制手段保存、汇编本学位 论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登) 授权南京邮电大学研究生院(筹)办理。 涉密学位论文在解密后适用本授权书。 研究生签名:_ 日期:_ 研究生签名:_ 导师签名:_ 日期:_ 南南 京京 邮邮 电电 大大 学学 硕士硕士学位论文摘要学位论文摘要 学科、专业: 工学 信号与信息处理 研 究 方 向:现代语音处理与通信技术 作 者:周莹 指 导 教 师:张玲华 教授 题 目:高质量语音转换系统中关键技术的研究 英 文 题 目:key algorithm in high quality voice conversion system 主 题 词:语音转换;音长;高斯混合模型;美尔倒谱参数 keywords:voice conversion; time-scale; gaussian mixture model; mel-frequency cepstrum coefficient 南京邮电大学硕士研究生学位论文 摘要 i 摘摘 要要 语声转换是指对一个说话人(源说话人)的语声信号进行变换,使其话音中含有另外一 个说话人(目标说话人)的语声个性特征。人通过语音信号主要来传达其中的语义信息,除 此之外语声中还包含说话者的个性化信息。vc 系统设计的宗旨就是要改变语声的个性化信息 但要保证原有语义信息不变,使一个人的语音经系统变换后如同另一个人发出的语音。论文 主要研究高质量语音转换系统中的关键技术,主要工作包括: 1、高质量的语音转换系统在达到基本的语音转换要求外,还要解决系统合成语音的机械 不自然等问题;从语音的发声机理出发研究适合 vc 系统的语音分析模型,对应的语声参数以 及用于 vc 系统中的转换算法。着重研究基于高斯混合模型 gmm 的语音转换系统的主要算法, 并对其进行了仿真实现,给出了主客观测试结果。 2、针对传统 vc 系统普遍存在的语音自然度低的问题,提出并实现了一种基于音长变化 的语音转换系统的改进算法,通过对转换后的参数插值变换来改变语音的音长。听音测评结 果表明经过改进后的转换语音自然度和可懂度都有相应的提高。 3、在采取上述改进算法的 gmm 语音转换系统中,选取更利于人耳声音感知的美尔倒谱参 数 mfcc 进行变换操作;给出了转换前后语音的 mfcc 三维图以及语音波形图,实验结果表明 采用改进算法后的转换语音和目标语音较为接近,vc 系统的质量得到了提高。 主题词:主题词:语音转换;音长;高斯混合模型;美尔倒谱参数 南京邮电大学硕士研究生学位论文 abstract ii abstract voice conversion (vc) is a technique used in order to turn the personality characteristics of a speakers (the source speaker) voice into another persons (the target speaker). speech contains a lot of information, in which the most important is the semantic information, and another is the individuality information. the target of a vc system is to change or modify speakers individuality while preserve the original semantic information, so that speech uttered by one speaker is transformed to sound as if it had been articulated by another speaker. this paper studies the key technology of the high quality vc system. the main work and contributions are described as follows: 1. the vc system aims to transform voices. moreover, the synthetic speech in the high quality vc system should be more natural and understandable. studies of the model and parameters for speech signal analysis is done proceed from the model of pronunciation. this paper mainly researches the conversion methods especially the algorithm based on gmm models. the system is simulated, and evaluated by means of both objective and subjective tests. 2. the traditional vc system often has unnatural conversion voice. hence, in this dissertation, this paper improves it through change the time-scale of speech, which is operated with insert the converted parameters before and after each word. the results of the listening tests in which the naturalness and understandability of the converted voice are reported better than ever. 3. in the vc system based on the improved algorithm proposed before, mfcc is adopted to be extracted as it is more beneficial for sound perception. the 3-d mfcc diagrams as well as waveforms of the voices before and after the conversion are given. the test results confirm that the transformed speech not only approximates the characteristics of the target speaker, but also more nature and understandable. key words:voice conversion; time-scale; gaussian mixture model; mel-frequency cepstrum coefficient 南京邮电大学硕士研究生学位论文 缩略语注释表 iii 缩略缩略语注释表语注释表 vc voice conversion 语音转换 vt voice transformation 语音转换 tts text-to-speech 文语转换 psola pitch synchronous overlap add 基音同步叠加 lpcc linear predictive cepstrum coefficient 线性预测倒谱系数 lpa linear predictive analysis 线性预测分析 lsf line spectrum frequency 线谱频率 lsp line spectrum pair 线谱对 lmr linear multivariate regression 线性多变量回归 dfw dynmaic frequency warping 动态频率弯折 gmm gaussian mixture model 高斯混合模型 plar pesudo log aera ratio 伪对数面积比 vq vector quantization 矢量量化 rbf radical basis function 径向基函数 bp back propagation 反向传播算法 ann artificial neural network 人工神经网络 parcor partial correlation 部分相关系数 sd spectral distortion 频谱失真测度 mos mean opinion score 平均意见分 stasc speaker transformation algorithm using segmental codebooks 基于音素码本思想的语音转换 ml maximum likelihood 最大似然估计法 南京邮电大学硕士研究生学位论文 缩略语注释表 iv em expectation maximization 期望最大化 mfcc mel-frequency cepstrum coefficient 美尔频率倒谱系数 straight speech transformation and representation using adaptive interpolation of weighted 基于自适应加权谱内插的语音转换 spectrum 和重构 hmm hidden markov model 隐马尔科夫模型 南京邮电大学硕士研究生学位论文 目录 v 目目 录录 摘 要 . i abstract . ii 缩略语注释表 . iii 目 录 . v 第一章 综述 . 1 1.1 课题背景 . 1 1.2 课题研究的主要工作及实际意义 . 2 1.2.1 语音转换描述 . 2 1.2.2 语音转换技术在实际中的应用 . 2 1.3 论文的研究目标 . 4 1.4 本文的结构及具体内容安排 . 5 第二章 语音信号基本理论 . 7 2.1 引言 . 7 2.2 语音产生机理 . 7 2.2.1 语音产生过程 . 7 2.2.2 语音的声学特性 . 8 2.2.3 语声信号产生的数学模型 . 9 2.3 听觉感官以及语音感知 . 10 2.3.1 听觉器官 . 10 2.3.2 语音感知 . 10 2.4 说话人特征描述 . 11 2.4.1 语音个性特征参数的区别及分类 . 11 2.4.2 声学参数对说话人个性的贡献大小 . 12 2.5 特征参数及提取方法 . 12 2.5.1 lpc 参数及其谱包络 . 13 2.5.2 lsf 参数与谱包络 . 15 南京邮电大学硕士研究生学位论文 目录 vi 2.6 本章小结 . 17 第三章 语音转换系统 . 18 3.1 语音转换技术研究的历史和现况 . 18 3.2 语音转换系统概述 . 19 3.2.1 语音库设计 . 20 3.2.2 语音分析模型及参数表示 . 21 3.2.3 语音转换系统中的转换函数 . 22 3.2.4 语音转换系统性能评测方法 . 23 3.3 韵律的转换 . 24 3.3.1 基音周期的转换 . 25 3.3.2 时长的转换 . 26 3.3.3 能量的转换 . 27 3.4 语音频谱变换 . 27 3.4.1 码本映射 . 27 3.4.2 多变量线性回归法和动态频率规整 . 30 3.4.3 人工神经网络 ann 模型 . 31 3.4.4 隐马尔科夫模型 . 32 3.4.5 高斯混合模型 . 32 3.5 本章小结 . 33 第四章 基于音长变化的 gmm 语音转换系统 . 35 4.1 gmm 中模型参数估计 . 35 4.1.1 期望最大化 em 算法 . 36 4.1.2 k均值算法 . 36 4.2 高斯混合模型用于语音频谱包络的转换 . 37 4.3 基本 gmm 语音转换系统的仿真结果与分析 . 39 4.3.1 实验平台 . 39 4.3.2 系统实现结果的评价 . 39 4.4 基于音长变化的 gmm 语音转换系统 . 42 4.4.1 提出转换系统的框架结构 . 43 4.4.2 系统语音分析合成采用的模型 . 44 南京邮电大学硕士研究生学位论文 目录 vii 4.4.3 系统中用于转换的语音特征参数 mfcc 求取 . 45 4.4.4 音长的改变 . 46 4.4.5 实验仿真 . 47 4.5 本章小结 . 51 第五章 结论 . 53 5.1 总结 . 53 5.2 语音转换系统后继的主要研究方向 . 54 致 谢 . 55 攻读硕士学位期间发表的论文 . 56 参考文献 . 57 南京邮电大学硕士研究生学位论文 第一章 综述 1 第一章第一章 综述综述 从古老的阿里巴巴的传说中使用芝麻开门至今,人类就一直想通过语言来征服和改造 世界。而今随着科技的不断进步,技术日新月异,这一梦想也正变为现实。当今的世界是一 个信息爆炸的时代,而智能计算机已逐渐成为日常生活中不能或缺的伙伴。英国数学家和计 算机先驱、人工智能之父阿兰麦席森图灵 alan mathison turing 在 1947 年第一次从科学 的角度指出:“以人脑的思维方式进行计算的智能机器是可以被创造出来的”,当一个普通 人类与一台机器进行对话,对话的人类一方对于对方提出的问题以及回答的答案,不能分清 对方的身份是机器还是人类的时候,这台机器就被认为具有人的智能。计算机要具有人的智 能的必备条件是能发出个性化的声音,这就使得语音转换技术越来越引起相关学者专家的关 注,并且成为目前语音技术研究范畴内的一个热门方向。 1.1 课题背景课题背景 21 世纪是属于通信的时代,应该为人与人以及人与机器之间沟通提供高质量无缝的信息 通道。在这其中,不管人们在任何时间 anytime、任何地方 anywhere,用何种方式 anyway 通 信,基于语音的通信技术都是应用最广泛、且最重要的通信技术之一。然而真正高质量的无 缝通信离不开很多高新技术的发展,例如信息高速公路技术、微电子和材料以及网络等信息 技术,其中对语音信号的研究依然是最基本且不可缺少的技术。语音技术在通信领域如此重 要是由于在通信系统中,不管是发送端产生信息、还是接收端获取信息,它们的操作对象都 是人,而人类最基本的通信方式是通过语音来完成的。 人与人之间沟通以及人们获取信息的众多途径中,最便捷且最首要的方式当属基于语音 的技术,所以语音技术在人机交互中有着非常广阔的应用前景。现在移动互联网正逐渐发展 成熟,其系统的终端主要由智能手机以及现在正流行的平板式电脑组成。随着移动终端的普 及,电容式触摸屏的作用逐渐取代了常规式的键盘,从而引发了计算机的革命。与触摸屏相 比较,基于语音方向的计算机改革有着更为深远的意义。而现在正火的苹果新一代平板以及 手机,使得人们只要通过语音控制技术,就可以发送短信、编辑备忘录而且进行互联网搜索 浏览等操作,这为语音控制技术的研究发展带来一个良好的开端。正如苹果手机的出现给移 动电话的研发带来革命性变化一样,基于语音控制技术的研究同样被认为能带来一场革命性 的变化,它将带领人们提前进入“人机交互”的时代。 南京邮电大学硕士研究生学位论文 第一章 综述 2 根据 google 目前最新的统计数据表明:android 移动终端大概有 25%的用户是通过语音 技术进行互联网搜索的;而国际知名的为世界上 5,000 多家一流公司提供市场分析数据和商 业报告的 datamonitor 信息服务公司,则预言到 2014 年语音控制系统在全球移动终端市场的 份额将是 2009 年的 3 倍;与此同时,基于语音技术的产业也在日前被 cnn(cable news network,美国有线电视新闻网)预测为 2012 年十大科技产业之一。所有这些都说明了语音 技术在人们生活中正急速发展普及,带领我们步入“人机交互”时代,在与传统的以及现在 的触摸式输入方式相比,极大的显现出基于语音控制的技术所带来的便利性。 语音转换技术在未来的人机交互中,将实现以人为中心的前提下,使得人机沟通配合更 加畅通、和谐,并能使计算机发出与人类相同的具有其个性化的声音。 1.2 课题课题研究的主要工作研究的主要工作及及实际意义实际意义 1.2.1 语音转换描述 语音转换(vc,voice conversion 或 vt,voice transformation)是指通过改变一个人(源 说话人,source voice)的声音个性特征使他的语音具有另一个人(目标说话人,target voice) 的个性特征,从而使得源说话人的声音听起来像目标说话人发出的一种基于语音信号的处理 技术。随着当今现代生活中信息交换逐渐发展到无所不在,人们不再仅仅追求说话人声音的 辩识度,而且更加重视语音系统具有的个性化特征。 最早的基于语音转换系统的研究属于语音识别(voice recognition 或者说话人识别)的研 究领域,系统中对说话人语音特征的转变,主要是通过对说话人语音的音段特征如频谱包络 等的转换以及对语音的韵律特征如基频、音长、能量等的改变。 1.2.2 语音转换技术在实际中的应用 vc 语音转换技术不但是人机交互系统中的基础技术,还广泛应用于人们生活各个角落。 现在研究的语音转换技术 vc 的主要应用于人们生活中以下一些方面: (1) 在文语(tts,text-to-speech)转换系统中的应用。 现在用于文语转换 tts 系统中的主要有,共振峰合成技术(formant synthesis)、基于基 频叠加(pitch synchronous overlap add,psola)的波形相加合成技术以及基于数据库的合 成技术等。但是不管 tts 文语转换系统选用基于何种技术,最终通过文字转换的语音在个性 南京邮电大学硕士研究生学位论文 第一章 综述 3 特征方面都很单调,缺乏个性化特征。所以如果在原系统后再加上一个 vc 语音转换系统, 或者可以将 tts 系统中待合成的数据先进行语音转变再进行最终的文语转换合成,将其具备 特定说话人的声音个性特征,也就使得 tts 系统的应用范围更广泛、效果更好。例如,现在 很流行的有声短信系统,如果再叠加上 vc 语音转换技术,使得采用了文语转换 tts 技术短 信的声音具有短信发送者的语音个性特征,进而使得文语转换 tts 的应用在人们的日常生活 更普及且更具有吸引力。这也正是文语转换 tts 系统的研究发展的一个方向,并推进了现在 的移动通信技术的更广泛应用。 (2) 在多媒体影音领域中的应用。 例如在流行网络游戏中的应用,如果玩家在申请游戏账号时被要求录制其一段语音,然 后在他选定一名角色进入到游戏中时,其角色发出的声音通过 vc 语音转换系统具有操作者 的语音特征;那么拥有多样化声音个性特征的网络游戏将更具有吸引力,有助于拓展网络游 戏产业。还有在电影以及广告配音中的应用,因为在制作过程中进行配音的人员不一定跟演 戏的演员是同一个人,就会使得他的配音不能完全反映出演戏者的个性特征,效果有所差距; 但是如果将配音演员的声音先输入到 vc 系统进行调整,使之具有演戏者语音的个性特征, 那么经过这样处理后的配音效果就会比不经语音转换好很多。 (3) 在医学领域的应用。 如果说话者的声带或者其他发音系统受到了损伤或是先天发育不良,使得听者不容易听 懂理解,这严重影响了病人的日常的社会交际活动;像助听器一样,病人也可以在发声处佩 戴基于语音转换的仪器,通过这个仪器可以将病人发出的模糊难懂的受损语音转变为清晰易 懂的话语,帮助这些声道受损的病人提高他们发出语音的可懂度,使得他们与正常人之间的 沟通变得轻松容易。 (4) 可用于有声翻译系统。 为了消除不同种族之间沟通的障碍,拉近彼此的距离,语言翻译机器的研制成为了当今 各专家学者研究的热点。而机器合成的语音使得翻译出来的语音个性单调,发音机械;如果 将 vc 语音转换技术加入到语音翻译系统中,翻译后的语音就会具有原语种说话人的个性特 征,这样就使得不同语种的说话人之间的交流沟通顺畅无阻,极大的推动了信息的传播速率。 (5) 可用于保密通信中说话人的伪装。 在一些需要保密的通信过程中,可以首先在信号的发送端通过 vc 语音转换技术,按照 确定的语音转换规则改变发信者的一些语音特征参数,同时在接收端通过反向转换得到原来 的语音;通过这样的方法,即使在信号的传输过程中遭到窃听,窃听者听到的只是完全不同 南京邮电大学硕士研究生学位论文 第一章 综述 4 的另外一个说话人的声音,使得通话者的身份得到保护,达到说话人伪装的效果。 1.3 论文的研究目标论文的研究目标 本论文的研究目标是:基于语音信号的分析模型技术,实现表征语音个性特征的参数提 取,同时建立源语音和目标语音之间的转换规则;从而实现在不改变源说话人语义内容的前 提下,使说话人语音具有目标说话人的个性特征,提高转换性能,提升转换语音的自然度以 及可懂度。 所解决的主要问题有:提取适合语音转换系统的语音特征参数,并且可以很好地描述说 话人的个性特征;建立源语音与目标语音之间的转换规则,从而不但完好地保存说话人的语 义内容且使语音具有目标说话人的个性特征。 到目前为止, 所有经过转换系统转换得到的语音还不能被听者认为是目标说话人的语音, 而声音感知为另外说话人发出的语音;与此同时,在语音转换系统中语音信号经过一系列分 析、变换以及合成操作后,语音信号的质量会在不同程度上有所下降,有些甚至下降得很严 重使得不能在实际生活中应用。所以为了达到高质量的语音转换效果,我们需要解决的主要 有: (1) 现在关于语音转换的的研究报告主要是对语音的音段特征进行变换操作,而对于语音的 时长、能量以及谱包络的变化等超音段特征,由于目前为止对其建模的方法还没研究成 熟,使得在语音转换系统中基本不对它们进行操作。但是这些超音段特征却是表征说话 人个性的不可缺少重要的语音特征,所以要加强动态特征的研究; (2) 现在应用于语音转换系统中语音的特征参数一般都需要是通过对很大的语音库进行训练 得到的;而且在系统的训练阶段,一般都需要先将训练语音进行严格对齐;这些都限制 了语音转换技术成为产品在实际得到应用。所以研究通过何种技术对少量的语音训练来 精确提取说话人语音的个性特征,同时如何有效地将目标说话人的个性特征参数结合到 源说话人的语音中,最终达到语音转换系统的目的,对很多实际生活中应用语音转换技 术有极大的重要性; (3) 现在语音转换系统中一般采用的语音分析合成模型,在对语音的韵律特征进行调整操作 时常常可能引起语音信号的失真,从而使得系统的语音质量有所下降;所以应该研究寻 找能有利于转换语音的韵律特征的分析合成模型,使得既可以对韵律特征有效的进行转 换,又不会改变其他的语音特征参数,与此同时达到系统高质量转换语音的效果; (4) 现在对于声道谱参数的转换方法和建模的研究还都不是很充分,一些已有的方法如矢量 南京邮电大学硕士研究生学位论文 第一章 综述 5 量化法会引起合成语音的不连续,高斯混合模型(gaussian mixture model,gmm)的应 用虽然能较好的克服这种缺点却会引起语音共振峰的过平滑现象,这些都会引起合成语 音的下降,所以要加强对声道谱参数转换方法的研究,以期找到更适合语音转换的转换 模型。 1.4 本文的结构本文的结构及具体及具体内容内容安排安排 本文主要研究高质量语音转换技术中用于训练和转换阶段的关键技术。一般声音转换系 统的实现由两个主要阶段构成:首先选取适当的语音信号分析模型,分析提取说话人的语音 个性特征参数;然后建立目标语音与源语音之间的转换规则,实现对说话人语音个性特征的 转换。 论文各个章节内容安排如下: 第一章:综述,简单表述了在移动通信系统蓬勃发展的背景下,语音技术在其中发挥的 巨大作用;介绍了本文的主要研究内容语音转换系统,及其在实际生活中的应用,分析了现 在语音转换系统中存在的,以及通过何种方法解决这些问题;最后,对本文所做的一系列研 究工作和论文的内容进行了主要安排。 第二章: 根据语音的发声机理知道人类的话音主要是在声道(vocal tract)中产生的, 通过对 声道形状进行控制改变可以发出不同的声音, 从而来表达人们不同的语义内容以及感情色彩; 一般每个人发出的语音具有与别人明显不同的特点, 即每个人的语音都具有明显的个性特征。 介绍语音产生的基本原理,从生理学角度介绍了语音的发声器官,从声学角度介绍了语 音的声学特性。介绍了语音信号处理中常用的语音信号分析数学模型,列举语音个性特征参 数的分类以及之间的区别,讨论了语音的各个声学参数对语音信号的个性特征的影响大小。 介绍语音感知的基本理论,耳朵作为人类听觉器官的结构,以及一系列表征语音感知性能的 特征参数。 第三章:分析语音转换系统的结构,语音转换系统的构成有三个主要部分,分别是语音 库、语音分析合成模型和参数以及转换函数;在具体的语音转换实现中,一般把转换函数分 为语音谱包络转换以及韵律特征转换两方面,分别对应于声道的滤波特征和声源特征。 研究语音转换系统中的对韵律特征的转换,韵律特征对合成语音的自然度有很大影响, 同时也会作用语音的可懂度。语音转换系统中对于说话人韵律特征的转换主要包括:对语音 基频(或周期)的变换、音长的控制以及语音能量的转换。 语音的频谱包络表征了说话人声道的滤波特性,介绍用于对语音频谱包络转换的方法: 南京邮电大学硕士研究生学位论文 第一章 综述 6 码本映射方法、线性多变量回归法和动态频率规整方法,以及基于人工神经网络模型 ann、 隐马尔科夫模型 hmm(hidden markov model)和高斯混合模型 gmm 的方法。 第四章:基于 gmm 语音转换系统提出对转换后韵律特征时长的改进算法,可以弥补以 往通过 gmm 模型转换后语音自然度差的缺点,提高转换后语音的可懂度。 介绍用于 gmm 模型参数(均值、方差以及概率权重)估计的 em 算法以及确定估计初 始值的k均值算法;将高斯混合模型应用于语音转换系统中谱包络的转换过程,并利用实验 平台建立实现传统的 gmm 语音转换系统并进行语音转换,在转换后对转换语音进行分析。 语音转换系统中,说话人的韵律特征对系统合成得到的语音的自然度有很大作用,并且 会影响转换语音的可懂度。基于 gmm 语音转换系统,提出对语音韵律特征时长转换的改进 算法,对转换系统的框架设计,系统中语音分析模型和用以转换的语音个性特征参数的选取, 以及最后对时长进行具体操作的过程,并通过实验对改进后系统进行分析评测。 第五章:总结全文的内容,并对语音转换系统以后的研究方向和内容提出自己的见解。 南京邮电大学硕士研究生学位论文 第二章 语音信号基本理论 7 第二章第二章 语音语音信号基本理论信号基本理论 2.1 引言引言 根据语音的发声机理知道, 人类的话音主要是在声道(vocal tract)中产生的, 通过对声道形 状进行控制改变可以发出不同的声音,从而来表达人们不同的语义内容以及感情色彩;生活 中不难发现,每个人在同样感情色彩下发出相同语义内容的语音时也会有差别,这种差别在 男性和女性之间尤为明显;每个人的语音中一般都具有别人没有的与众不同的音色,即每个 人的语音个性特征。不同的说话人在发出包含相同语义内容的语音时具有不同的个性特征, 其原因可以从两点进行解释说明:从生理医学角度,是因为人与人之间不可能具有完全相同 的声道结构,结果导致他们的发音系统具有不同的生理参数;从语声学角度,是因为他们发 出的语音信号之间具有不同的声学个性特征,如共振峰的频率带宽幅度以及频谱倾斜 基频音长说话的节奏和语音的能量等。 语音转换 vc 系统主要就是要借助语音信号处理技术对语音进行变换操作,改变源说话 人音色的同时使其语音中的语义内容保持不变, 从而达到使他发出的语音信号 (源语音, source speech) 经过语音转换系统操作处理后, 听起来如同目标说话人发出的声音 (目标语音, target speech)的效果。语音转换系统要达到这一目标,就要从语音中提取上述影响说话人音色的 那些语音特征参数,并建立不同说话人的个性特征之间的映射关系,即转换规则(或转换函 数,conversion rule);然后再从待转换源说话人的语音中提取声学参数,通过上面得到的转 换关系进行转换,并合成得到转换语音。 经过多年来语音处理技术的发展,学者们对研究语音信号的产生机理以及语音的声学特 征做了很多工作,并且为后来的研究分析贡献出了很多研究成果。所有这些通过专家学者们 共同努力得来的智慧结晶,对我们研究语音转换系统提供了宝贵的理论依据和研究经验。 2.2 语音产生机理语音产生机理 2.2.1 语音产生过程 人类的发声器官主要由肺部、喉部(包括声带)和声道三部分构成。肺在人类的发声过 程中的作用,类似于一个动力源,肺泡中的气体形成气流送入到喉;通过对喉咙的控制调节 南京邮电大学硕士研究生学位论文 第二章 语音信号基本理论 8 1,被送入的气流变成周期脉冲激励或者如同随机噪声一样的激励,送至声道;声道由口腔、 鼻腔和咽部三部分组成,通过它们对声源激励的频谱控制调整来产生具有不同音色的声音。 另一方面,通过声道的收缩和内壁也有可能产生声源,所以,除了随机噪声和周期脉冲声源 以外还会有一个冲击激励声源。最后,经过声道将声源激励修饰润色后,通过嘴唇附近的气 流振动就形成了语音声波传送出去,被人耳接收感知。 人的发音器官具体包括:肺部气管喉部(包括声带)咽部以及口腔和鼻腔。一般 把从喉部一直到嘴唇这一管道归为口腔;而把鼻腔定义为从小舌一直到鼻的管道。把口腔和 鼻腔统称为声道,声道在发生系统中的主要作用就是对声带送来的声源频谱进行润色,从而 将声带出喷发的气流变为听觉上可区分的语音。 肺部的主要作用是吸入和呼出空气。当吸入空气时,胸腔的体积增大,肺内气压降低, 从而空气通过声道和气管进入到肺内;当呼出空气时,胸腔体积缩小肺部气压变大,压迫肺 内的气体通过气管送到喉部。在发出语音时,呼吸节奏不再是自然状态下保持稳定,而是将 呼气的时间调节为约为一句话的长短。在这个过程中,基本保持肺内的气压在一个稍大于外 界气压的水平。通过增大肺部的气压产生气流,经过气管以及喉,最后从口腔和鼻腔呼出, 主要构成了四类原始的声源2: (1) 送气噪音(aspiratives):声带部分合拢使得气流受阻,但声带并不产生振动,气流流经 整个声道从口腔发出,如同仅仅用嘴来呼吸。比如单词“he”中“h”的发音。 (2) 摩擦噪音(fricatives):声道部分变窄,使得压缩的气流受到阻碍挤出,气流与声道产生 摩擦。比较普遍的如单词“thank”中的“th”就属于摩擦噪音。 (3) 爆破音(plosives):产生于口腔里的冲击性声源,当声道受阻使得其完全闭塞,导致气 流停留无法通过,直到声道中的阻碍解除,声道突然畅通,停留的气流一涌而出,瞬间 发出时间极短的声音。比如单词“top”中“t” 的发音就是。 (4) 浊音(voiced):当气流经过声带或声门时,使得声带发生周期性振动,此时发出的语音 就是浊音。 上述四类原始声波中把除浊音以外的三种语音对应的称为清音(unvoiced)。通过控制声 道的形状将这四类原始声波进一步进行改变,根据声道形状的不同声道的共振频率(即共振 峰)也会不同,从而发出的声音也会有不同的音色,即音素(phonemes)。 2.2.2 语音的声学特性 语音是大自然中许许多多声音中的一员,因此同样具有声音的一系列如音色、音调、音 南京邮电大学硕士研究生学位论文 第二章 语音信号基本理论 9 长和音强等的物理属性。一种声音与其他声音是通过音色(也叫音质)这一基本特征来区别 的。语音的音色受很多因素共同作用影响,如声带振动频率的高低、声道的宽窄、横截面的 大小以及发音器官不同的送气方式。衡量声音高低的标准是音调,即汉语中的音高。语音的 音调受发声的声带振动频率(即基频)的影响,会随着基频的升高而变高。音强主要衡量声 音信号的强弱,等于声波振动的幅值。通过音长来衡量声音的时间长短,即一个声音持续的 时间。 语音信号的最基本组成单位是音素3,语音中的最小单位(也是发音的最小单位)音节是 由各种音素组合而成的。一个音节通常由元音(vowel)+辅音(consonant)的形式组成。其 中主要构成元音,是由于声带振动产生的语音,元音持续的时间长度以及发音的能量都比辅 音在一个音节中所占的比例要大得多,所有的元音都属于浊音。当气流为克服声道的阻塞产 生的声音即是辅音,发清辅音时不会引起声带振动,发浊辅音则引起振动。辅音有可能出现 在音节的前段或者后端,在汉语中,每个音节都是由“辅音元音”组合而成的,辅音也称 为声母,元音也称作韵母。 一般采用音、韵、调的系统方法对汉语普通话进行分析,即声母和韵母两部分共同组成 一个字音,同时又具有四种不同的声调分别为阴平、阳平、上声和去声。即使一个音节的组 成声母和韵母相同,因为具有不同的音调,会对应不同的汉字且有完全不同的含义。所以声 调在普通话中的主要作用是分辩识别不同的字,相比较其他的语种,声调在汉语中有着不可 取代的重要作用。 2.2.3 语声信号产生的数学模型 描述语音产生的一个非常有效的模型是基于声源-滤波的语音信号分析模型。它将声音的 产生过程看作由激励声源通过具有声道特性的数字时变滤波器,这种模型非常符合语音产生 的机理,能够对大多数的语音现象解释并对此建立数学模型。 可以通过不同的激励形式来表示上文介绍的清音/浊音的声音源。例如,可以用随机噪声 建模替代送气噪音和摩擦噪音;步进函数替代爆破音,而用脉冲序列表示浊音。可以简化为, 用随机信号替代激励产生清音的声音源,用不同基音频率的脉冲串表示激励产生浊音。声道 的作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- f封窗合同范本
- 福特金融租赁合同范本
- 红酒劳动合同范本
- 企业简易聘用合同范本
- 借款合同的法律风险分析
- 环境评价公众参与机制改革与2025年政策解读报告
- 河北省衡水市安平县安平中学2025-2026学年高一上学期开学测试英语试卷
- 2025年小学数学泡茶题目及答案
- 初级美容题库及答案
- 英语特岗真题及答案
- 铁路专项病害课件
- 开学安全教育课件
- 桥梁养护应急知识培训课件
- 2025年学历类自考专业(学前教育)学前儿童发展-学前教育原理参考题库含答案解析(5套)
- 2025-2026学年人教版(2024)初中化学九年级上册教学计划及进度表
- 日本设备销售合同范本
- (2024)大学生宪法知识竞赛题库及答案
- 2025山西阳泉平定县从社区专职网格员中选聘社区专职工作人员考试备考试题及答案解析
- 2025云南昭通昭阳区住房和城乡建设局招聘编外工作人员5人笔试备考题库及答案解析
- 新高一数学暑假检测卷(学生版)-2025年新高一数学暑假衔接讲练 (人教A版)
- 电工与电子技术的发展
评论
0/150
提交评论