(信号与信息处理专业论文)语音转换中音段特征的建模与转换的研究.pdf_第1页
(信号与信息处理专业论文)语音转换中音段特征的建模与转换的研究.pdf_第2页
(信号与信息处理专业论文)语音转换中音段特征的建模与转换的研究.pdf_第3页
(信号与信息处理专业论文)语音转换中音段特征的建模与转换的研究.pdf_第4页
(信号与信息处理专业论文)语音转换中音段特征的建模与转换的研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(信号与信息处理专业论文)语音转换中音段特征的建模与转换的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学硕士研究生学位论文 摘 要 i 摘摘 要要 语音转换就是将一个说话人(源说话人)语音中的个性特征信息进行转换,使之具有 另一个说话人(目标说话人)的个性特征,从而使得转换后的语音听起来就像是目标说话 人的声音的一种语音信号处理技术。该技术不仅具有重要的理论研究意义,而且具有良好 的应用价值,它的研究及发展研究愈来愈受到国内外学者的关注。 本文的主要工作和创新如下: (1)简要介绍了语音转换的一些应用价值和当前的主要经典算法,讨论了常用的语音 个性特征参数,以及语音转换系统的基本原理。 (2)研究了经典的基音频率转换方法,针对经典算法在不同程度上存在转换精度和合 成语音质量不高的情况。本文提出基于 straight 模型和 bp 神经网络的基音频率转换算 法。客观测试和主观测试上都取得了较好的效果。 (3)研究了基于神经网络的频谱包络转换方法,考虑到神经网络训练算法有很多,但 大都有一定自身的缺陷,针对梯度下降法训练速度慢和易导致陷入局部最优的问题,引出 了基于量子粒子群优化 bp 神经网络的算法,并将其算法应用到的语音谱包络转换中,由粒 子群优化算法训练的 bp 神经网络捕获说话人的语音频谱包络映射关系, 以实现不同说话人 之间声音特性的转换,该方法在一定程度上提高了转换语音性能。 本文在matlab平台上仿真,从主观和客观两个方面评价系统的性能。仿真结果表明, 本文所采用的转换方法能够取得较好的效果。 关键词:关键词:语音转换,人工神经网络模型,量子粒子群优化算法,频谱包络转换,基音频率转 换 南京邮电大学硕士研究生学位论文 abstract ii abstract voice conversion is a voice signal processing technology that aims to transform the voice of a speaker (source speaker), for it to be perceived by listeners as if it had been uttered by another speaker (target speaker), while keeping the semantics and emotional information unchanged. so that the source speakers voice sounds like the target speakers voice. the technology not only has the important theory research value, but also has excellent commercial application value, and the scholars pay more and more attention to the current and trend research at home and abroad. the main work and contributions are described as follows: firstly, the paper briefly introduces the application valuation and classical algorithms, and discusses the familiar identity parameters of voice and some basic principles of voice conversion. secondly, this paper researches some classical pitch frequency transformation algorithm. the classical algorithms exist lowness of transformation precision and ropiness of synthesized speech. for this reason, the pitch frequency transformation algorithm, based on the straight+bp neural network, is proposed. the new method is evaluated by means of both objective and subjective tests, the experimentaion result has proved the validity of the method. finally, this paper proposes a new morphing algorithm based on bp neural network, optimized by quantum particle swarm optimization(qpso), and addresses a study on voice conversion using qpso to train the factors of bp neural network, which can help better capture the nonlinear mapping between different speakers. besides, compared with standard bp neural network method about the performance of conversion. this method availably accomplishes spectrum conversion of voice, and carries out the speakers conversion. the perceptual tests prove that this method advances the performance of voice conversion in some degree. keyword: voice conversion, artificial neural network, quantum particle swarm optimization, spectral envelope transformation, pitch frequency transformation 南京邮电大学学位论文原创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送 交学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保存论 文。本文电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。 论文的公布(包括刊登)授权南京邮电大学研究生院(筹)办理。 研究生签名:_ 日期:_ 研究生签名:_ 导师签名:_ 日期:_ 南京邮电大学硕士研究生学位论文 第一章 绪论 1 第一章第一章 绪论绪论 1.1 语音转换语音转换技术的概念技术的概念 语音转换技术是语音信号处理领域近年来新兴的研究分支,语音包含很多信息,其中 最主要的就是语义信息和语音的个性化信息。语音转换就是在保持语义内容和情感信息不 变的情况下,改变一个特定说话人(源说话人)的语音个性特征,使其具有另一个特定说 话人(目标说话人)的语音个性特征。简言之,语音转换的主要任务:首先提取源与目标 说话人的个性特征参数,并训练它们之间的映射关系,然后将确定的映射关系应用到新的 源语音上,使其变的听起来像目标说话人的声音。 最初的语音转换技术属于语音识别的技术范畴,对说话人语音特征的转换主要体现在两 大方面:音段特征的转换和超音段特征的转换。音段特征主要由频谱包络、基因频率等表 示;超音段特征则由基音周期、音素的时长、能量等韵律特征表示。 1.2 语音转换语音转换技术技术的研究的研究意义和意义和现状现状 1.2.1 语音转换技术的研究意义 语音转换技术自被提出以来,就体现出强大生命力,具有重要的理论价值和广泛地应 用前景。其研究意义主要有如下几个方面: (1)在文语转换系统(text-to-speech,tts)和语音合成中的应用1-3。高质量的文语 转换或语音合成系统都是采用基于语音拼接的方法,然而无论采用哪种方法,最终合成的 语音在说话人的个性特征上是比较单一的,缺乏个性化。但是如果在合成语音的过程中通 过一个 vc 系统,或者将合成单元的语音预先进行相关的语音转换处理,那么合成出来的 语音就具有多样化的特征,满足不同人的应用需求。 (2)在电脑游戏中的应用。电脑游戏已经在百姓生活中得到普及,现在的游戏都增加 了声音的元素,在游戏中,玩家扮演着不同的角色,若能将游戏中角色的声音转换成玩家 自己的声音,使玩家在游戏中找到身临其境的感觉,那么就会吸引更多的游戏用户,给游 戏提供商带来更大的市场4。 (3)在语音增强系统中的应用5-6。如果声带等发音器官存在病变或者损伤,其话音质 南京邮电大学硕士研究生学位论文 第一章 绪论 2 量将严重受损,严重影响正常的沟通与交流,但是若将语音转换用于恢复受损的声音,一 些声道受损的人的语音质量得到提高,增加受损声音的可懂度,极大地方便了这类患者的 正常生活。 (4)用于极低速率的语音编码方案7。当语音编码速率在 2.4kbps 及以下时,解码出的 语音将难保有说话人的个性特征信息,这样的通信使得双方有不舒服的感觉,若再将解码 出来的语音经过一个 vc 系统,恢复出说话者的个性身份信息,则会明显改善通信效果。 (5)用于说话人伪装身份通信8。比如,法庭上经常需要对控、辩双方提供的一些录音 证据进行司法认证,如果对那些故意伪装了身份的录音通过 vc 系统恢复出原来的真实身 份,这位司法裁决提供了很重要的判决依据。 (6)用于语言翻译系统9-10。机器语言翻译系统是国际上一个比较热点的研究课题,许 多高校、科研机构都在国际权威期刊上报道了各自的开发系统,但这些系统最后翻译合成 出来的语音都不具有了源说话人的个性特征信息,非常地单一单调,在一些记者招待会或 新闻发布会这样的场合下使用,会让听众缺乏现场感,但如果对合成语音进行转换,重新 恢复出说话人的身份特征信息,则会有良好的实际效果。 1.2.2 语音转换技术的研究现状 二十多年来,语音转换引起了人们的重视,按照不同功能模块对 vc 系统进行划分, 可分为三大部分: “信号的分析与合成” 、 “参数的选择和提取”和“转换函数的设计” 。现 以这三个功能模块为线索,回顾国内外研究学者们所做的一些工作。 (1)语音信号分析/合成模型作为语音转换系统的“输入端”和“输出端” ,它们的作 用是:将语音信号分解成由特征参数表征的数据,以供后续阶段利用,最后将修改后的参 数重新合称为完整的语音信号。线性预测编码模型(linear prediction coding,lpc)11-12是 最早、最经典的模型。lpc 模型将语音信号看成是声道参数和激励源残差两种分量共同作 用的结果,它以人类语音的发音过程和语音信号的声学特性为基础,成功表达了语音的本 质特性,在语音信号处理领域得到了广泛应用。正弦模型(sinusoidal model, sm)和由此 衍生的谐波模型(harmonic model, hm)13-14,由于其简单且能够较准确的表征语音信号信 息(声道信息和激励信息) ,而被成功应用于 vc 系统。但是,sm 和 hm 要求基音同步, 否则算法性能会下降。因为实际环境中无法完全保证基音周期估计的准确性,所以此算法 的一个显著缺点是鲁棒性不强。straight 模型也是一种常用的语音分析/合成模型15-16, 它将平滑谱重构技术和基音频率自适应技术结合在一起,在时域和频域同时对语音信号进 南京邮电大学硕士研究生学位论文 第一章 绪论 3 行分析。straight 支持对基音周期和时长等激励信息的调整和修改,在一定程度上对 straight 谱参数进行修改,提高合成语音的质量。 (2)当前的语音转换系统,绝大部分都是基于“语音帧”的,即从一帧一帧的语音信 号中提取特征参数,故特征参数的选择对 vc 系统的性能至关重要。mizuno 和 z.w. shuang 等人提取共振峰及其有关参数用于语音转换17,18。如共振峰频率、带宽、能量、频谱倾斜 等,stylianou 和 lee 等人提出各种倒谱参数作为特征参数19-21,如离散倒谱、mel 频率倒 谱、线性预测倒谱等。由于这些倒谱参数被证明能有效地表征个性特征,并被广泛地应用 于语音识别领域,因此它们也同样适用于语音转换系统。通过语音学者 arslan、kain 等人 的不懈研究,将线谱频率参数作为 vc 中的特征参数22-24,它具有很多优点,比如能很好 的表征共振峰的峰值和带宽;然后是具有很好的插值特性;再就是特征参数中某一维系数 的失真只会影响重构谱参数的部分区域,而不会导致整个谱参数估计失真。声道谱参数的 样点值有时会被直接用于语音转换。这种情况常出现在基于频率弯折的转换算法25,26中。 (3)语音转换系统的核心所在,即是语音转换规则的建立。1988 年,abe 等人首先提 出用 vq 算法实现基于码书映射的语音转换系统27,该算法简单高效,取得了较好的效果, 但此方法转换时对语音帧进行了“硬”划分,存在频谱不连续的缺点,造成转换后的语音 的音质不佳。1991 年,shikano 等人提出一种称为模糊矢量量化的算法来克服经典 vq 算法 的缺点28。该算法在转换时考虑到了所有源和目标码字之间的关系,然后将其加权叠加, 以达到对参数进行平滑的效果。最近,由 salor 和 demirekler 等人提出了一种新的基于码 书映射的转换算法29,也取得了非常好的效果。valbret 等人首先提出动态频率规整算法 (dynamic frequency warping, dfw)和线性多变量回归(linear multivariate regression, lmr)的概念,实现两个空间之间的线性映射25。sundermann 等人提出将说话人识别领域 的声道长度归一化(vocal tract length normalization, vtln)技术引入语音转换领域26, 实现源和目标的声道谱参数的转换,该算法能保持较高的转换语音音质,但个性特征却没有 很好地转换。sagisaka 等人在 1994 年首先提出基于说话人插值的声道谱参数转换算法 30,31,说话人插值法是事先存储的多个说话人语音谱数据,然后对其进行插值生成新的语 音谱,而求得的插值系数使得新生成的语音谱与目标说话人的语音谱之间距离最小。人工 神经网络(artificial neural network, ann)由于具有非线性映射的能力,被引入 vc 领域,它 通过捕获源和目标说话人特征参数之间的非线性关系,从而实现语音转换的功能。 narendranath 等人首先提出用前向神经网络来对共振峰频率进行映射32,watanabe 等人提 出用径向基函数网络来对 lpc 谱包络进行转换33。rodrigo 等人提出了一种小波变换和 ann 结合的转换算法34。2009 年,sreenivasa 等人提出将基音同步分析和 ann 相结合, 南京邮电大学硕士研究生学位论文 第一章 绪论 4 以得到较为准确的特征参数的估计,形成了更为精细的基于 ann 的转换模型35。总之, ann 在语音转换领域取得了一定成果,但是实际应用中,ann 有其存在的缺点:非线性映 射计算量太大,泛化性能欠佳36。为了解决由硬判决导致的帧间参数不连续性问题,基于 gmm 的转换算法被提了出来37-39, stylianou 提出的 gmm 法虽然能够克服矢量量化法引起 的不连续问题,得到较高的音质,但是会出现共振峰过平滑的问题,对此 toda 提出采用 dfw 法和 gmm 法相结合的方法37,来获得较高的转换音质。2007 年,南京邮电大学的简 志华在分析了基于 mmse 准则的设计的转换函数缺点的基础上,提出了用典型相关分析法 (canonical correlation analysis, cca)来替代上述准则38,39,取得了较好的效果。masuko 等人首先提出将基于hmm的语音合成系统的类似观点应用到语音转换领域来40,41。 duxans 对 gmm 频谱包络转换法进行扩展,采用与音素相关的 hmm 技术和决策树来实现语音动 态特征的转换42, tamura 在基于 hmm 的语音合成系统中采用 mllr (maximum likelihood linear regression)技术合成出多样语音43。2007 年,cheng 等人提出了一种基于 bi-hmm 模型的语声转换算法44,该算法不仅降低了转换后的语音与目标语音的频谱距离,而且极 大地改善了韵律特性的转换,有利于语音情感特性的控制和转换。 1.3 目前语音转换系统有待解决的问题目前语音转换系统有待解决的问题 总体来说,语音转换系统从性能评估上取得了一定的效果,转换语音都较源语音更加 接近目标语音。同时我们也要应该看到,语音转换在现阶段还是一项不成熟且有待发展的 技术,还有一系列的难题需要进一步的研究克服,语音转换效果还不是非常令人满意。现 在 vc 后的效果还有很多不足之处,主要表现在以下几个方面: (1)现有的语音转换的研 究主要是集中在基于音段特征的转换,而对激励源等韵律特征,如基音周期的轮廓变化、 时长变化、能量变化等,对其建模方法的研究相对较少。有关研究表明:超音段信息对语 音个性特征的表征也起着举足轻重的作用。因此,深入的研究韵律信息在表征说话人个性 特征方面的本质,同时对其进行建模和转换,对提高现有的 vc 系统性能有着很重要的作 用; (2)现有 vc 系统中,语音转换训练时一般要求训练语料是严格对称的,语音转换参 数并且一般也是很多维的,而在实际环境中,用来训练 vc 系统地语料库往往是不对称的, 即源说话人和目标说话人两者的录音内容基本不相同,并且目标说话人的数据相比源说话 人要少的多。在这种情况下,经典转换技术的应用受到了限制。因此,如何实现稀少训练 数据或者非对称语音库条件下的语音转换是一大难题。 (3)现有的语音转换技术在转换后 语音音质和个性化相似程度上往往只能够做到折中:一方面,为了获得较高的音质,就不 南京邮电大学硕士研究生学位论文 第一章 绪论 5 得不减少对特征参数的随意修改,尽可能地将语音信号随时间缓慢变化的结构特点保留。 如此必然导致转换后的语音与目标说话人的个性特征不符;另一方面,如果要使转换后的 语音个性特征与目标说话人尽量接近,那么必须对源语音大幅度地修改和变换。这样就可 能破坏特征参数序列的时序特征,使得转换后的语音音质大幅度下降。究其根源,主要是 现如今人们对说话人个性特征在语音中以何种形式表现出来不甚了解,因此在转换时不知 道该“改什么”和“怎么改” ,只是一味地追求在数学层面上对其进行建模,忽视了对语音 本身物理特性层面的挖掘和理解。因此,对上述本质问题进行研究,势必将推动语音转换 和语音信号处理领域其他方面的发展。 (4)现有的语音转换系统中所采用的特征参数仍然 是语音信号处理领域经典的参数(如 lpc,lsf,lpcc,mfcc 等) 。如果能够设计一种参数, 能够将语音信号中代表语义内容的信息和代表个性特征的信息进行隔离,这样可以更专注 地对说话人个性特征进行转换,而不改变说话内容,所得到的转换效果应该能得到质的提 高。 1.4 论文的论文的组织结构组织结构安排安排 语音转换是语音处理领域一个比较新的研究课题,本文首先给出语音信号的基本原理, 研究了语音转换中的各个关键部分,以及阐述了语音转换涉及的经典算法;接着研究了基 于 bp 神经网络的基音频率转换算法,提出用 striaght+bp 神经网络进行基频转换的算 法,并将其与均值法和高斯混合模型法进行了主客观实验测评比较;然后研究了基于人工 神经网络模型的说话人语音声道谱参数的转换。针对神经网络训练算法易陷入局部最优的 问题,引出了用量子粒子群算法优化神经网络。提出采用 qpso 算法训练 ann 用于构建频 谱映射函数来实现语音转换,然后做了说话人语音转换的实验性研究,并从客观测试和主 观测试与采用标准 bp 网络训练进行了比较。 本文的内容安排如下: 第一章:绪论,首先简单介绍了语音转换的研究意义与研究现状。 第二章:语音转换技术研究,首先给出语音信号的基本原理,研究了语音转换中的各 个关键部分;其次简要描述转换系统的数学模型;然后对语音转换经典算法进行了阐述; 最后对转换性能评价进行介绍。 第三章:研究基于 bp 神经网络的基音频率转换算法,提出用 striaght+bp 神经网 络进行基频转换的算法,并将其与均值法和高斯混合模型法进行了主客观实验测评,实验 结果表明,客观测试和主观测试上都取得了较好的效果。 南京邮电大学硕士研究生学位论文 第一章 绪论 6 第四章:本章主要讨论的基于人工神经网络模型的说话人语音声道谱参数的转换。考 虑到神经网络训练算法有很多,但大都有一定缺陷,针对易陷入局部最优的问题,鉴于此, 引出了用量子粒子群算法优化神经网络, 提出引用 qpso 算法训练 ann 用于构建频谱映射 函数来实现语音转换,然后做了说话人语音转换的实验性研究,并以客观测试和主观测试 评价标准为采用标准与 bp 网络训练进行了比较,表现出了较好的性能。 第五章:总结与展望。 南京邮电大学硕士研究生学位论文 第二章 语音转换系统相关问题介绍 7 第二章第二章 语音转换语音转换系统相关问题系统相关问题介绍介绍 语音转换系统首先是通过一定的分析模型对语音数据进行分析,然后提取语音信号的 特征参数,将对齐后的参数训练转换函数,随后运用训练阶段得到的转换规则对新提取的 源特征参数进行映射转换,最后对转换后的语音特征参数进行合成。本章主要介绍的是经 典语音转换系统中所用到的基本概念和方法。 2.1 语音信号基本原理语音信号基本原理 本节主要介绍与语音转换课题紧密相关的语音信号的基础知识,为下一步阐述和理解 语音转换的各项技术做铺垫。 2.1.1 语音的生成机理 语音是人的发音器官发出的一种声波,是语言信息的表现形式。人的发音器官主要包 括:肺、气管、喉(包括声带) 、咽、鼻、口(如图 2-1 所示) 。这些器官共同形成一条形状 复杂的管道, 喉的部分称为声门 (glottal) , 从声门到嘴唇的呼气通道叫做声道 (vocal tract) , 声道形状主要由嘴唇、颚和舌头的位置来决定,由声道形状的不断改变发出不同的声音45。 鼻腔 口腔 气管 嘴巴 鼻子 声带 软腭 图 2-1 人体发声器官示意图 语音的产生过程大致可以描述如下:先由肺器官收缩挤压送出一股直气流,经过气管 到达喉部;喉部有一个重要的器官对发音起着最大的作用声带,声带主要由两片薄膜 状的生理物质组成,声带之间的部位称之为声门。语音从激励形式的角度可分为三类。当 从肺部出来的气流通过声门时,声带处于闭合状态,则空气的流通会受到阻碍。于是空气 南京邮电大学硕士研究生学位论文 第二章 语音转换系统相关问题介绍 8 就会在声带处积聚,直到形成一定的气压时,积聚的大量空气会冲破声带,从声门中通过。 随着空气的流失,声门处的气压又会减小,于是声带再次闭合,声带下方的空气会再次开 始积聚。周而复始,就导致了声带随着时间产生周期性的振动,这种状态发出的音称为浊 音(voice speech) 。反之,如果声带处于开启状态而不振动,那么气流会毫无阻碍地通过声 门,这种状态发出的音被人们称为清音(unvoice speech) 。声带开启和闭合一次的时间称之 为基音周期(pitch) ,它的倒数称为基音频率(frequency) 。基音频率的大小取决于声带的 尺寸、松紧程度和特性等。同时,基频决定了音调的高低,频率大则音调高,反之,则音 调低。通常情况下,随着年龄的增加,平均基频随着降低,男音的平均基频相对比女音的 高。男音的基频范围大约为 60200hz,女音和儿童的基频范围大约为 200450hz。当外 来气流通过声门之后就进入声道,通过控制一些发声辅助器官的位置,使得声道不停地改 变自身的形状适应产生不同声音的需要。最后,经过声道的空气从嘴唇或者鼻孔处辐射出 来,产生了语音。 当一个物体做受迫振动,所加的激励频率等于振动体的固有频率,那么这时就以最大 的振幅来震动,在此频率上传递函数具有极大值,我们将这种现象称之为共振,它的共振 频率可能有多个不同的响应强度。声道是一个谐振腔,即是一个分布参数系统, ,所以它有 许多个谐振频率,被称之为共振峰频率(formant) ,简称共振峰。当声音沿着声道传播的 时候,频谱形状就会随着声道而发生相应的改变。因为声道的大小因不同说话人而不同, 故共振峰频率与说话人有着密切的联系。语音的频率特性主要由共振峰来决定。共振峰用 依次增加的多个频率表示,称之为第一共振峰、第二共振峰.等。在实际应用中,最重要 的只有前三个共振峰。 图 2-2 是一个单音节语音的时域波形和与之相对应的语谱图(spectrogram) 。把和时序 相关的傅立叶分析的显示图形称为语谱图,它是一种三维频谱,用来表示频谱随时间变化而 变化的图形,纵轴是频率,横轴是时间,用相应点的灰度和色调来表示给定任一频率成分 在给定时刻的强弱。从图中可以看到,语谱图中的花纹有横杠、竖直条和乱纹等。与时间 轴平行的深黑色条纹横杠相应于共振峰,相应的共振峰频率和带宽可以从横杠对应的频率 和宽度来确定。判断是否是浊音的重要标志是看横杠的存在与否。图中的竖直条是与时间 轴垂直的窄黑条,一个竖直条相当于一个基音,语谱图中条纹间之的距离表示基音周期, 如果条纹越密,则表示基音频率越高。另外,从语谱图上看,清音和摩擦音表现为乱纹。 综上所述,语谱图一种显示出语音频谱随时间变化的动态频谱,它综合了时域波形和频谱 图的特点。 南京邮电大学硕士研究生学位论文 第二章 语音转换系统相关问题介绍 9 02000400060008000100001200014000 -0.4 -0.2 0 0.2 0.4 yao 5101520253035404550 20 40 60 80 100 120 图 2-2 一个单音节的时域波形图和语谱图 2.2.2 语音的数学模型 基于上一小节讨论的人的发音器官的特点和语音产生机理,为了用计算机定量的对语 音信号进行模拟和处理,需要建立一个既要实用又便于分析的语音信号数字模型。建立模 型就是要找到一种可以表达一定物理状态下量与量之间的数学关系,还要使得这种数学关 系具有最大的精确性,而且还要最简单。我们所希望的理想模型既是线性的又是时不变的。 但语音信号是随时间变化的,另外,语音信号的非线性特性是通过声门和声道的相互耦合 形成的。从而我们得出:语音信号是非平稳随机过程。不过我们应该注意到语音信号“短 时性”的特点,也就是说语音信号的特性随时间非常缓慢的变化。只有在一段短时间间隔 内(一般可取 10-30ms) ,语音信号才能够保持相当稳定一致。所以我们作出一些合理的假 设,在这些短段时间内,语音的数字模型是一个缓变的线性系统,也就是说可以采用线性 时不变模型。 语音信号的数学模型可以用激励模型、声道模型和辐射模型三个子模型的串联表示。 南京邮电大学硕士研究生学位论文 第二章 语音转换系统相关问题介绍 10 如图 2-3 所示。 激励模型一般分为浊音激励和清音激励来讨论。 浊音由准周期脉冲序列串激 励产生,其周期称为基因周期,清音(包括摩擦音)可以模拟成随机白噪声,由随机噪声 激励产生。声道模型既可用声管模型描述,也可以用共振峰模型来建模,在实际应用中, 我们常常将其看作全极点模型。由于辐射引起的能量损耗与辐射阻抗的实部成正比,故辐 射模型用一阶高通形式来表示。 综上所有因素, 可以得到如图 2-3 所示的语音信号产生的数 学模型。 语音信号语音信号 周期脉冲序列 发生器 声门脉冲模型 g(z) 随机噪声序列发生器 基频f0 幅度gv 声道模型 h(z) 幅度gu 激励模型激励模型激励模型激励模型声道模型声道模型 清浊音开关 声道参数 辐射模型 r(z) 图 2-3 语音信号产生的数学模型 2.2 语音语音信号的预处理信号的预处理 从整体上来看,语音信号具有时变特性,而在一个短段时间范围内,时变特性基本上 相对稳定,所以就可以把语音信号看作是一个短时平稳性过程。那么,在“短时”的基础 上,语音信号进行相应的分析和处理。将语音信号分成等长的段(每一段称为“一帧” )来 分析其特征参数。通过整体语音信号的分析,得出来的是由各帧特征参数组成的时间序列。 但是应该注意到的是,在按帧进行语音信号分析和提取特征参数之前,需要对其进行必要 的短时分析,包括语音信号的数字化和预处理过程等,这些关键技术都是不可忽视的。 语音信号预滤波、采样 预加重 a/d变换 加窗、分帧端点检测特征参数提取 图 2-4 语音信号的数字化和预处理过程 如上图所示是语音信号的数字化和预处理过程。语音信号的数字化主要包括预滤波、 采样和 a/d 变换等过程。预滤波(反混叠滤波)主要有两个目的:其一,抑制输入信号的 南京邮电大学硕士研究生学位论文 第二章 语音转换系统相关问题介绍 11 各个频率分量中频率超出2/ s f的所有分量,防止混叠干扰;其二,抑制 50hz 的电源工频 干扰。语音信号首先经过预滤波和采样,然后由 a/d 变换器变换成二进制数字序列码。 已数字化的语音信号序列依次存入一个数据区,接下来重点介绍下对其数字序列码的 预处理过程,预处理一般包括:预加重、分帧、加窗和端点检测等。 (1)预加重:因为在求语音信号频谱时,频率越高相应的成分越少,为此,高频部分 的频谱相比低频部分的难求,所以要进行预加重处理。运用预加重技术可以提升高频部分 分量,以使信号的频谱变得平坦,保持在整个频带中能用同样的信噪比求取频谱,便于频谱分 析或者声道参数分析。预加重一般是一阶的数字滤波器,数学表达式为: 1 ( )1h zz (2-1) 式中值接近于 1,在本文中我们取0.95。 (2)加窗和分帧:进行预加重数字滤波处理之后,就要进行加窗分帧。一般每秒的帧 数约为 33100 帧,为了使帧与帧之间平滑过渡,保持连续性,分帧不采用连续分段的方 法,而是一般采用交叠分段的方法。本文所用的语音信号均采用 16khz 采样、16bit 量化, 选取语音帧长为 320 个采样点(20ms) ,采用 160 个采样点作为帧移。分帧是用对可移动的 有限长度窗口( )w n进行加权的方法来实现的,一个好的窗函数的标准是:窗口边缘两端不 应急剧变化,而是平滑过渡到零,频域要有较宽的带宽及较小的边带最大值。在进行语音 信号分析时,比较常用的窗函数是矩形窗和汉明(hamming)窗。其它窗口可以参考 fir 数字滤波器的相关书籍。现将典型的矩形窗和汉明窗(n为窗长)分别介绍如下: 矩形窗: 101 ( ) 0 nn w n 其他 (2-2) 汉明窗: 0.540.46cos(2/(1)01 ( ) 0 nlnn w n 其他 (2-3) 也可以写为: 0.540.46cos(2/(1)01 ( ) 0 nlnn w n 其他 (2-4) 矩形窗与汉明窗的一些参照数据如下表所示。 南京邮电大学硕士研究生学位论文 第二章 语音转换系统相关问题介绍 12 表 2-1 几种窗函数的性能比较 窗函数 主瓣宽度 旁瓣峰值衰减(db) 阻带最小衰减(db) 矩形窗 4/n 13 21 汉明窗 8/n 41 53 从上表中可以看出,汉明窗的带宽约是矩形窗的一倍,带外衰减比矩形窗大一倍多。 汉明窗相对矩形窗来说,汉明窗保留了高频成分,使得波形细节不至于丢失,从此方面看, 汉明窗比矩形窗更合适。本文的实验均是基于移动的汉明窗(hamming)来实现语音分帧 加窗的。 (3)端点检测:语音端点检测(endpoint detection)又称为语音激活检测(voice activity detection) 。端点检测就是要对输入语音信号进行判断,准确找出输入语音信号中的有效的语 音段信息并加以提取,去除或忽略对后续处理几乎无用的无声段信息,并且将噪声、突发脉 冲、语音间断等情况的影响降到最低,这样,可以使采集的数据是真正语音信号,是真正包 含语音信息的数据,从而减少后续处理过程中的数据量和运算量,减少处理时间,并提高处 理的精度和效率。 对输入语音进行分帧后,然后就利用语音的一些特性或特征参数来进行端点检测,常用 的特征参数有短时平均能量、短时平均幅度、短时平均过零率、浊音基音周期等。这些参数 都是基于时域的,还有些方法基于变换域,如频域的短时频带方差端点检测,基于短时信息 熵的端点检测等。 端点检测精度会受门限的设定而波动,而不同端点检测方法的门限之间也缺少可比性, 因此对检测精度的客观准确评判是很困难的,只能在经验值门限的条件下人为做粗略的主 观判断,即随机选取若干个语音,然后比对端点检测结果间的优劣。图 2-5 是端点检测结果 的对比图,1 表示语音帧,0 表示无声真。 南京邮电大学硕士研究生学位论文 第二章 语音转换系统相关问题介绍 13 00.511.522.53 x 10 4 -0.5 0 0.5 1 原 始 语 音 波 形 00.511.522.53 x 10 4 0 0.5 1 双 门 限 端 点 检 测 00.511.522.53 x 10 4 0 0.5 1 信 息 熵 端 点 检 测 00.511.522.53 x 10 4 0 0.5 1 频 带 方 差 端 点 检 测 图 2-5 对语句“分子结构”进行端点检测的结果 从图 2-5 可以看到, 双门限端点检测的效果会稍好于另外两者。 由于平均幅度端点检测 仅仅是在双门限端点检测的基础上去掉了过零率检测,因此结果与双门限端点检测基本相 同,也会略好于信息熵和频带方差端点检测,双门限端点检测在高信噪比条件下的性能要 优于频带方差和信息熵端点检测。又因为清音对于语音转换系统并不重要,所以,语音转 换系统中的端点检测方法选择平均幅度端点检测即可。 2.3 语音特征参数语音特征参数 上一节详细介绍了语音信号的数字化和预处理过程,经过这一系列的分析处理以后, 就要对表征说话人个性身份的声学特征参数进行提取。在实现 vc 系统的过程中,提取语 音信号的特征参数是非常重要的。实际上现在都是从语音信号分析/合成模型(下一节具体 介绍)中得到所需要的特征参数,它们包含了说话人的语音内容和其个性特征,并且以复 杂的形式相互交织在一起存在于语音参数中,到目前研究状况为止,还没有建立起精确的 南京邮电大学硕士研究生学位论文 第二章 语音转换系统相关问题介绍 14 模型进行分离和提取这两种特征参数。语音转换中究竟该用语音信号的哪些特征来描述, 才能够既有效又可靠,且能够使得此特征对同一说话人的变化保持相对稳定,这是非常关 键的一个问题。因此,语音转换与说话人识别及其它有关领域的进展密切相关。 一般情况下,说话人个性特征参数可以分为三类22: (1)音段特征信息(segmental cues) :反映的是语音的音色特征。特征信息主要包含 共振峰带宽、共振峰频率、频谱斜率(spectral tilt) 、基音周期等。音段特征主要与发音器 官的生理和物理特征有关,具有一定的稳态性,不易在短时间内发生改变。 (2)超音段特征信息(suprasegmental cues) :反映的是语音的韵律特征。特征信息主 要包含音素的时长(即发音速率) 、基频的轮廓(音调)和能量等。这些特征主要受到社会 的和心理的环境影响,具有不稳定性,在现有的语音技术水平下,不易进行准确的数学建 模。 (3)语言信息(linguistic cues) :主要包括用词造句、方言、口音等。这受人的生活 环境、教育程度和社会背景等多方面的影响。目前的语音转换系统还不能够对高层次的语 言模型进行建模,在语音转换中几乎没有对其研究的报道。 前面讲到,说话人的语音内容特征和说话人的个性特征总是相互交织在一起,目前为 止,还没有找到非常好的将这两者完全分离的方法。尽管如此,语音信号的特征参数仍然 是说话人个性特征的重要源泉。人们可以利用一些高层特征来判断说话人,比如说话人的 情感、习惯、遣词造句的特点等等,尽管如此,到目前还没有好的方法将其有效建模,因 此不能很好的应用在语音转换研究中。现在所报道的语音转换系统主要是对低层次的声学 特征进行建模。用于转换的语音特征大致可以分为两大类:包含共振峰带宽、共振峰频率、 频谱斜率的频谱包络特征,以及包含基音周期、时长、能量的韵律特征。 对与语音的个性特征与声学参数的依赖程度大小的关系,有关研究学者们进行了研究, 但得出的结论却不尽相同。matsumoto 通过研究男声元音的谱包络、基频、共振峰频率,以 及其它的一些声学参数对说话人个性特征贡献的大小,得出基频均值对个性信息贡献最大 的结论;而 takagi 的研究报告说明:对语音的个性特征的贡献最大的是共振峰频率,基音 和共振峰带宽居次;furui 研究报告指出:平均频谱包络的贡献最大,特别是在 2.5khz 和 3.5khz 之间频段范围的频谱,平均基频为其次;sch tz 通过研究特征参数对人的不同年龄 感知程度,得出的结论是语音频谱包络的贡献要大于基音周期和时长。从上述学者们的研 究成果中,对语音参数对说话人的个性特征贡献大小的次序,我们不能简单地确定,因为 不同学者的研究目的和所采用的语料不尽相同,但我们可以肯定的是,语音的个性特征是 多种声学特征参数共同作用的结果, 而不是由单个特征参数就可以简单确定的。 图 2-6 是在 南京邮电大学硕士研究生学位论文 第二章 语音转换系统相关问题介绍 15 同一个语句的实验条件下,男声和女声的语谱图和基频轨迹的对比情况。从图中不难看出, 即使是相同内容的语音, 其特征参数也有着较大的差异, 其中实验语句为 “共产主义道德” 。 00.511.52 x 10 4 -1 -0.5 0 0.5 1 波形 (a)男声 00.51.01.52.02.5 -0.4 -0.2 0 0.2 0.4 (b)女声 频率 (khz) 0.511.52 0 2 4 6 8 0.511.522.5 0 2 4 6 8 0 0.511.52 50 100 150 200 250 时间(s) 频率(hz) 00.511.522.5 150 200 250 300 350 时间(s) 图 2-6 不同说话人语音的特征参数对比 说话人的个性特征主要是体现在体现在共振峰结构上。如果在特征参数中突出共振峰 结构,那么相对会得到比较好的转换效果。在说话人识别领域中,对于高质量的语音来说, 线谱对(line spetrum pair, lsp)参数对说话人的个性特征起着相对倒谱参数更好的区分作 用,另外,lsp 具有非常好的插值性23,这一点在语音转换研究中起着至关重要的作用, 这是因为在转换特征参数时,转换函数通常都是以加权求平均的形式表示出来,这就要求 特征参数需要具有很好的插值性。 在目前的语音转换研究中, 反映声道特性的特征参数 lsp 是得到最广泛的使用。 2.4 语音语音转换的系统模型转换的系统模型 2.4.1 语音转换系统的构成 在语音转换中,首先要分析源语音数据,从中提取出其特征参数,然后依据训练得到 的转换规则,把这些特征参数转换为目标语音对应的特征参数,最后再将转换后的特征参 南京邮电大学硕士研究生学位论文 第二章 语音转换系统相关问题介绍 16 数合成出语音。一般来讲,一个语音转换系统的实现过程总体上要经历两个阶段,即训练 阶段(training stage)和转换阶段(transforming stage) 。常见的语音转

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论