（计算机应用技术专业论文）个性化语音合成的研究与实现.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：70 大小：1.86MB 积分：0 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

（计算机应用技术专业论文）个性化语音合成的研究与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文摘要随着计算机通信技术和多媒体技术的飞速发展，新型的人机交互方式已经成为当前计算机科学研究的一个热点。语音合成和语音识别技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的两项关键技术。目前语音合成技术已日趋成熟，各种语音合成产品已问世。如何使合成的语音更加自然，具有更多的表现力一直是语音研究的热点。国内外已经开始对不同说话风格的语音合成和情感语音合成进行了相关的研究，但能按不同说话人的个性特征进行语音合成的研究还很少。个性化语音合成的研究是建立在对语音分析、合成和识别技术的基础上进行的。本文首先根据语音产生的机理分析不同人有不同语音个性特征的原因，并根据语音的形成过程提出了语音信号建模的方法，重点研究了语音中影响个性特征的参数及参数提取和调整方法。最后尝试通过微软公司的t t s 合成语音后，再对语音增加个性特征参数的控制，从而使语音合成具有更多的表现力，并对合成的语音进行测评。实验表明通过这种方法可以在不事先录制个人语音库的情况下来使合成的语音有说话人的个性特征。关键词：语音合成；语音分析；个性特征；声学参数哈尔滨工程大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rc o m m u n i c a t i o na n dm u l t i m e d i a t e c h n o l o g y ，t h et e c h n o l o g yo fn e wh u m a n m a c h i n ei n t e r a c t i o nh a sb e c o m eah o t s p o t i nt h ec o m p u t e rs c i e n c ef i e l da t p r e s e n t s p e e c hs y n t h e s i sa n ds p e e c h r e c o g n i t i o nt e c h n o l o g y a r et h et w o k e yt e c h n o l o g i e s t o i m p l e m e n t h u m a n m a c h i n ec o m m u n i c a t i o nb ys p e e c h ，t oe s t a b l i s hao r a ls y s t e mw h i c hh a s t h ea b i l i t yo fl i s t e n i n ga n dt a l k i n g n o ws p e e c hs y n t h e s i st e c h n o l o g yi sm o r ea n dm o l em a t u r e ，a n dt h ev a r i o u s s p e e c hs y n t h e s i sp r o d u c t sh a v ea l r e a d yc o m eo u t i ti sah o t s p o tt h a th o wt o m a k et h es p e e c hs y n t h e s i ss y s t e mm o r en a t u r a la n dm o r ee x p r e s s i v ef o r c e s t h e r e a x es o m e s p e e c hs y n t h e s i sr e s e a r c h o nd i f f e r e n ts p e e c hs t y l ea n dd i f f e r e n t e m o t i o n b u ti ti sr a r et h a tt h e s p e e c hs y n t h e s i s r e s e a r c ho ni n d i v i d u a l c h a r a c t e r i s t i c s i n d i v i d u a ls p e e c hs y n t h e s i si sb a s e do nt h e s t u d y i n go fs p e e c ha n a l y s i s ， s p e e c hs y n t h e s i sa n ds p e e c hr e c o g n i t i o nt e c h n o l o g y a tf i r s t ，t h i sp a p e ra n a l y z e s t h er e a s o no fs p e e c hi n d i v i d u a lc h a r a c t e r i s t i c sa n d b r i n gf o r w a r dt h em e t h o d s o fe s t a b l i s h i n g s p e e c hs i g n a lm o d e l sa c c o r d i n gt ot h ep r o c e s so fs p e e c hf o r m i tw e j i g h t i l ys t u d yo nt h ep a r a m e t e r se f f e c t i n gs p e e c hc h a r a c t e r i s t i c sa n dt h e i r e x t r a c t i n gm e t h o d sa n da d j u s t i n gm e t h o d s i nt h ee n d ，t h ea u t h o ra t t e m p t st o s y n t h e s i z es p e e c ht h r o u g hm s ，r r s t h e n t oa d dc o n t r o l l i n ga c o u s t i cp a r a m e t e r s o nt h es y n t h e s i z e ds p e e c h ，t ol e ts p e e c hs y n t h e s i sh a v em o r ee x p r e s s i v ef o r c e s ， m e a n w h i l et h ea u t h o rt e s ta n d a p p r a i s e t h e s y n t h e s i z e ds p e e c h t h e e x p e r i m e n t s i n d i c a t et h a tw ec a nl e t s y n t h e s i z e ds p e e c h h a st h e s p e a k e r s i n d i v i d u a lc h a r a c t e r i s t i c si n t h i sw a y ，i tn e e d n tr e c o r dt h es p e a k e r ss p e e c h d a t a b a s eb e f o r ew es y n t h e s i z es p e e c h 哈尔滨工程大学硕士学位论文 k e y w o r d s ：印e e c hs y n t h e s i s ；s p e e c ha n a l y s i s ；i n d i v i d u a lc h a r a c t e r i s t i c ；a c o u s t i c p a r a m e t e r 哈尔滨工程大学学位论文原创性声明本人郑重声明：本论文的所有工作，是在导师的指导下，由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出，并与参考文献相对应。除文中已注明引用的内容外，本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者( 签字) ：日期：o 唧年r 月乡口日哈尔滨工程大学硕士学位论文第1 章绪论 1 1 研究的目的和意义 1 1 1 概述语言是人类交往和传递信息的最自然和最方便快捷的方式，语音是语言的声音。随着计算机技术和信息技术的飞速发展，对人机交互提出了更高要求，人们渴望像人际交往一样，能用语音和计算机交流。语音技术主要包括语音识别( s p e e c hr e c o g n i t i o n ) 和语音合成( s p e e c hs y n t h e s i s ) 技术。语音识别是研究不同说话人的共性特征使计算机能听懂人的语言，而语音合成是研究如何使计算机能讲人的语言。语音合成研究的目的是制造一种会说话的机器，使一些以其他方式表示或存储的信息能转换为语音，让人们能通过听觉而方便地获得这些信息。目前让机器说话或计算机说话有两种可能：一种是回放预录语音，就象普通录音机一样，不同之处是采用了数字存储和压缩技术。它是产生语音的最直接、也是最简单的方法，事先录制好要播放的句子，再根据需要选择合适的句子进行播放。这种方法简单易行，而且能产生高质量的语音，如公交车上的自动报站系统；另一种方式是采用数字信号处理的方法，模拟人类发声过程，通过建立模型来合成语音或语音的某些特性，再将模型的输出与自然语音中测量的结果进行比较，改变合成语音的音调、重音等，使得合成的语音更加清晰和自然。只有使输出的语音更具活力，才会使语音有更加广泛的应用。个性化语音合成是建立在对语音合成和说话人识别研究的基础上，对它们的丰富和延拓。它通过对不同说话人语音特征的分析，建立表征说话人的语音参数，通过参数控制现有的t t s 语音合成系统，从而实现个性化语音的合成。个性化语音合成研究涉及到通讯、计算机、人工智能、语音学、语言学、哈尔滨工程大学硕士学位论文心理学等多个学科的内容，需要研究并借鉴这些领域的一些知识，而对个性化语音合成研究又将对这些领域的研究提供一些依据，促进这些领域的发展。 1 1 2 个性化语音合成研究的意义个性化语音合成能充分体现个性特征，它有着良好的技术发展前景。其研究意义主要有如下几方面： 1 在文语转换系统中的应用现有的文语转换系统( t t s ) 系统主要有共振峰合成( f o r m a n t s y n t h e s i s ) 。、波形叠接相加合成( p s o l a ) 0 1 和基于数据库的合成等方法。不论是哪种方法，它们合成的语音都是单一的，缺乏个性化。对于t t s 系统要想增加一个新的发音人，必须录制一个新的发音人的音库。而音库的录制是一项十分繁重的工作，涉及到对所录语音切分、韵律标注，韵律调整等方面。另外一个新的语音库必将增大音库所需的存储空间，这也限制了在一些存储空间有限的情况下多个说话人个性特征在t t s 中的应用。个性化语音合成系统可以从现有的t t s 语音库中提取每一句话输入到声音转换系统，分别采用不同目标说话人的模型，使新产生的语音具有所期望的多个目标说话人声音特性，从而建设成为一个由单人语音库生成的多说话人语音库。 2 在语音编码、语音合成和识别中的应用个性化语音合成中主要分析影响语音个性特征的因素，研究模型中各参数的变化规律和语音的韵律特征之问的规律，研究共振峰的位置、带宽和幅度对语音的影响等，这些技术不仅可以提高文语转换系统的自然度，也有可能促进语音编码技术的进步。说话人识别是要从语音中找出说话人的差异，也就是说个性化语音合成与说话人识别要研究的共同问题是语音的个性特征，本课题中的个性化语音分析成果可以为说话人识别提供很重要的依据。 3 在戏剧和电影配音中的应用在电影配音中，尤其是用另外一种语言进行配音时，往往配音演员不是演员本人，这样常常使配音与原演员的个性特征相差很大，使配音效果不理哈尔滨_ e 程大学硕士学位论文想，但如果将配音中加入演员本人的个性特征，那么配音效果就会理想的多。 4 在医学领域的应用通过个性化语音合成，可通过语音合成器帮助聋哑人说话，也可以用于恢复受损语音，帮助声道受损的说话人的语音提高可懂度。如喉切除手术后的病人，主要利用气管食管进行发音，所发出的语音噪音成分大，清晰度低。采用声源取代等技术可以大幅度地提高语音的清晰度，并恢复说话人的个性特征。 5 在语音保密通信中的应用在语音发送方将表征个性特征的语音参数去除，在接收端进行根据个性特征模型合成出原来的语音。如果在传输过程中被侦听，则听到的是另外一个说话人的声音，达到说话入伪装作用。 1 2 语音合成的发展和国内外研究现状语音合成技术涉及到声学、语言学、数字信号处理技术、多媒体技术等多个领域的内容，是当今世界强国竞相研究的热门技术之一。语音合成研究的历史已有二百多年的历史“1 ，最早的语音合成是用机械模拟，随着电子技术的发展，通过电子技术方法合成语音成为可能。1 9 3 0 年， b e l l 实验室h o m e rd u d l e y 发明了声码器；d u d l e y 、r i e s z 和w a t k i n s 利用共振峰原理研制作早期的语音合成器v o d e r 。v o d e r 用构造像琴键一样的键盘，控制十个带通滤波器，近似共振峰的效果，产生各种语音。1 9 4 0 年以后，由于有了较好的录音设备和灵敏的声波记录仪。除描写语音学外，音位学、实验心理学也都发展起来。此时实验语音学的发展方向有三个：声学分析、言语产生研究和言语知觉研究。在声学分析方面，出现了一些对语音分析研究有决定性贡献的设备，如语图仪、d u d l e y 的声码器、f a n t 的参量合成器等。这一时期是言语声学分析和合成的繁荣时期，揭开了不少语音特性的奥秘，如辅音的过渡音征和音轨，元音的嗓音起始时间，声调与音色、音强之间的关系等。n - 十世纪五十年代，数字计算机开始运用到语音合成领域。在用哈尔滨工程大学硕士学位论文硬件实现前可以先用软件模拟，使得研究开发周期和成本降低。从1 9 6 0 年开始，语音合成方法分成两条技术路线：发音模型合成和声学模型合成。发音模型是从系统的角度，也就是从发音机制出发，用发音参数建立模型。声学模型是从信号的角度，用信号处理的方法处理声学波形，主要有共振峰和l p c 合成。其中做出重要贡献的有f l a n a g a n 、h o l m e s 、i t a k u r a 、r a b i n e r 和s t e v e n s 等。在这个阶段人们开始认识到语音合成要能表达个性，而语音识别则要能适应共性。大约在1 9 6 5 年，人们就对利用计算机作为语音合成系统产生浓厚的兴趣。当时在这方面做研究的有a l l e n 、h o l m e s 、k l a t t 、m a t t i n g l y 、s h e a r m e 和u m e d a 等，他们勾勒了语音合成系统的基本框架，并对许多基本问题做了很多的研究。进入上世纪7 0 年代以后，随着大规模集成电路( l s i ) 和超大规模集成电路( v l s i ) 的迅速发展，特别是数字信号处理与实验语音学、现代音韵学的交叉发展、互相促进，语音技术取得了许多实质性的进展，语音技术产品也首次进入商品市场。1 9 7 6 年v o t r a x 推出c o m p u t a l k e r 语音合成器进入计算机业余爱好者市场。它采用8 0 8 0 微处理器，并用s - 1 0 0 总线与其他许多微计算机系统连接。虽然，c o m p u t a l k e r 产生的合成语音质量很差，但是合成语音己被广大个人计算机用户所接受。1 9 7 6 年，v o t r a x 公司推出另外一个产品札一l 语音合成器，它的早期产品为v s 一6 型，它们都是规则合成语音的最早产品。1 9 7 8 年，t i 公司首次推出单片语音合成器，型号为t m c 0 2 8 0 ，它采用超大规模集成电路技术。这一产品使t i 公司遥遥领先于它的同行，并使语音领域的许多专家惊奇不己。t i 公司用此芯片推出了一种叫s p o k e n s p e l lt o y 的产品，使语音技术走出研究室进入消费者市场。 2 0 世纪8 0 年代后，国外对语音技术的研究和开发更加活跃。大学和研究所一般致力于学科前沿的研究，而大公司则着眼于市场需要，致力于开发实用的商品。一些语音合成技术相继出现，如由f c h a r p e n t i e r 和e m o u l i n e s 等人提出的基音同步叠加( p o s l a ) 技术，使基于时域的波形拼接方法合成的自然度大大提高。九十年代比较流行的合成方法有：正弦模型( s i n u s o i d a l m e o d e l ) 0 3 ，它是用j f 弦波分别对声源和声道建模，在此基础上作时长和基频 4 哈尔滨工程大学硕士学位论文变换：谐波加噪声( h n m ) 合成法。3 ，它是把语音信号分成两个频带，低频部分是周期部分，高频部分是噪声部分，分别对周期部分和噪声部分建模，然后作韵律调整。随着计算机芯片运算速度加快，以及存储容量的大大增加，基于大语料库的时域波形拼接语音合成技术成为最新的潮流。它避开了对语音作韵律调节，基本上不对信号作时域或频域的变换处理，而根据使某种代价函数值最小的原则，直接从庞大的语料库中选择最佳合成单元。日本a t r 的语音合成系统c h a r t 就是一个很典型的例子”1 。国内的汉语语音合成研究起步较晚，但从8 0 年代开始就基本上与国际上研究同步发展，一些科研单位对汉语t t s 的应用进行了大量的研究，首先开展这项工作的是中科院声学所，之后，社科院语言所、清华大学、中国科技大学、北方交通大学等单位陆续开展了对汉语t t $ 的研究。同时，台湾交通大学、台湾大学和国际上的b e l l 实验室也研制汉语t t s 系统。近年来，在国家“8 6 3 智能计算机”主题的支持下，汉语t t s 技术有了长足的进步。清华大学、中国科大、中科院声学所等单位都在这一领域取得了一定的进展，有些研究成果己经转化为产品得到了实际的应用。如清华大学的s o n i c 系统，中国科技大学的k d - 8 6 3 汉语文语转换系统，杭州三汇公司的中文t t s 系统，捷通公司的嵌入式t t s 汉语语音系统，讯飞公司的k d 2 0 0 0 汉语文语转换系统等。这些系统基本上都用基于p s o l a 方法的时域波形拼接技术，其中有些系统合成的语音已比较接近人的自然语音，但还是可以听出“机器的味道”。语音合成质量的优劣，主要取决于语言的清晰度和自然度”1 ，某些情况下，还要表现出情感的变化和不同人的个性特征，语音合成技术广阔的发展前景必将对此提出更高的要求。 1 3 个性化语音合成的现状及其难点对语音中个性特征的研究最初用于语音识别，首次利用声音中的个性特征作为推断犯人作案的线索，据说是从1 6 6 0 年英国查尔斯一世之死的判决歼哈尔滨工程大学硕士学位论文始。其后随着时代的进展，电话克服了距离的障碍，录音手段克服了时间的障碍，从而对声音的说话人个性特征的分析得到了关注，特别是1 9 4 0 年以后，实验语音学开始用一些仪器对语音声学的各种现象进行分析，揭开了一些语音个性特性的奥秘。从1 9 7 3 年开始，以c a l i n d b e r g h 先生的儿子被拐骗事件为开端，对说话入声音的个性特征开展了科学的测量和研究。个性特征的研究开始用于在说话人识别中，除了研究用视觉判断声音频谱图的线索外，在由听觉判断是谁的声音时，研究了利用声音的各种特征问题。而要准确地提取说话入特征一直是个难点，主要有如下几个方面的问题： 1 尚未找到简单可靠的说话人语音特征参数。因为在语音信号中既包括了讲话内容的语义信息，又包括了说话人发音特征的个性信息，语音是语音特征和说话人特征的混合体，到目前为止，还没有好的方法将说话入的个性特征从说话人所发语音的语音特征中分离出来，也没有找到简单的声学参数能够可靠的识别说话人，从而给说话人识别、语音模拟和准确转换带来一定的难度。 2 语音信号的变异性。即使用是对同一说话人说相同的内容，语音信号也有很大的变异性。说话人的发音常常与环境、情绪、健康状态有密切关系，说话人的特征与“指纹”不同，指纹是静态的、固定不变的物理特性，而说话人特征具有长时变动特性，会随着时间和年龄的变化而变化，这种具有变动性质的说话人个性特征与“声纹”这个词是不一致。另外传输语音的通信信道的时变效应问题也是语音信号产生变异的重要方面。语音信号的变异性从本质上使说话人特征空间发生移动，说话人模式产生变异，从而也增加个性特征提取的不确定性。 l ，4 论文的安排个性化语音合成的研究涉及到语音学、数字信号处理技术、计算机和多媒体等多个学科的内容，需要研究并借鉴这些领域的一些知识。本论文的主要研究工作主要包括三方面，一是对能表现语音个性化信息哈尔滨工程大学硕七学位论文的因素进行分析，二是建立能表征语音个性特征的参数，三是在m st t s 合成语音的基础上根据个性特征进行语音的合成。论文在第一章介绍了研究的背景，国内年的研究现状和研究的意义。在第二章中研究了形成语音个性特征的原因，建立语音信号产生的物理模型，用l p c 技术对这个物理模型加以抽象，得到语音信号产生的数学模型，由一组周期信号或者高斯自噪声激励一个全极点滤波器而得到语音信号的数学模型。第三章介绍语音分析和语音合成的方法，对各种语音合成方法进行了研究和对比，分析各自的优势。第四章对影响语音的个性特征进行了研究，包括个性特征的分类及对语音的影响，重点对语音参数分析和调整进行了大量的实验研究。综合现有的语音分析和合成技术对语音中的嗓音源、基频、时长、强度等语音声学参数进行提取、分析和调整，并对调整后的语音进行测评。第五章中给出了个性化语音合成的实现方法，介绍了m i c r o s o f ts p e e c h s d k5 1 技术，具体的实验方案设计，通过高级语言编程实现对s a p i 的二次开发，进行个性化语音合成，并对语音合成进行听辨实验，结果表明通过此方法可以在较小的工作量的情况完成个性化的语音合成。最后对全文的工作进行了总结，探讨了今后进一步研究的方向。哈尔滨工程大学硕七学位论文第2 章语音的个性特征有关的基础理论语音就是人类说话的声音，它是语言信息的声学表现。不同的人说相同的话有不同的声音，这就是语音的个性特征。本章从语音学角度谈为什么语音会有不同个性特征，并介绍一些语音学的基本概念和对语音合成建模的方法。 2 1 生理机理对语音个性特征的影响不同人在发出相同语义内容和相同情感的语音时也常有明显的差别，尤其是男声与女声之间，小孩、成年人和老年人之间具有明显的不同音色，即具有明显的个性特征( i n d i v i d u a lc h a r a c t e r s ) 。不同说话人产生相同语音具有不同个性特征的原因，从生理角度看是由于不同人的声道具有不同形状结构。从而具有不同的生理参数。语音产生的机理如图2 1 所示。发声音器官生理方面包括三个系统：声门下系统、喉系统和声门上系统。声门下系统又称呼吸器官，主要包括肺、横隔膜和气管等它是发音的动力器官；喉系统包括声门、声带和喉头，它是发音的的声源区；声门上系统包括口腔、鼻腔和咽腔，统称为声道或称调音器官，喉部产生的气流，通过它生成的不同的音素。声门上系统喉系统声门下系统图2 1 语音产生的三个系统示意图语音产生的过程：在发音时，由肺部产生气流，通过胸部和横隔膜的动 8 哈尔滨工程大学硕士学位论文作压出气流，再通过气管到喉部，喉部将气流调制为周期脉冲或类似噪声的激励声源，并送入声道，它们对声源的频谱进行整形而产生不同音色的声音。从语音产生机理的解剖学和生理学意义上说，不会产生出完美的周期性、冲击性或噪声般的声源。声源经声道润色频谱后，在嘴唇处的气压变化就形成了可传播的声波，被人感知为语音。各声学器官对语音个性特征的形成都有不同程度的影响，其中影响最大的是喉部的声带和声道。 2 1 1 声带对语音个性特征的影响声带的声学功能是为语音提供主要的激励源，由声带振动产生声音，是形成声音的基本声源。声带开启和闭合使气流形成一系列脉冲。声带每开启和闭合一次的时间即振动周期称为音调周期或基音周期( p i t c hp e r i o d ) ，其倒数称为基音频率，也简称基频( f u n d a m e n t a lf r e q u e n c y ) 。声带和语音的高低关系最为密切。乐器的琴弦越细，越短，绷得越紧，音调也就越高。声带也是这样。当连接构状软骨的肌肉牵引构状软骨侧向转动时，声带就绷紧，颤动就快，声音就高；构状软骨反向转动，声带就放松，颤动就慢，声音也就变低。人类这种控制语音高低的能力在语言中起极其重要的作用。汉语音是有调语言，声调的高低升降就是由声带的绷紧或放松所决定的。每个人声带的宽窄、厚薄和长短都不一样，说起话来声音的高低都不相同。成年男子的声带约有十三四毫米长，女子比男子的声带约短三分之一，小孩的更短一些，由于小孩予的声带短而薄，因此声音又高又尖。成年以后，男子的喉腔比小时候增大一倍半左右，声带也随之变厚变长，声音比原来降低约八度；女子的喉腔只比小时一增大三分之一左右，声带比男子略薄一些，声音只比原来降低三度。到了老年，声带和喉头的肌肉都变得相当松弛，无论男女，声音都要比成年时期更粗更低一些”0 1 。男女喉部生理特征的差异导致了嗓音源参数的差异，嗓音源参数的差异哈尔滨】= 程大学硕士学位论文主要表现在两个方面：是基频的差异，一是声门波的差异。这两个方面的差异实际上都可以归结到声门波的差异上。在语音合成技术中，嗓音源是影响合成语音质量的一个十分重要的因素，它既影响合成语音的清晰度，同时又和合成语音韵律特征有紧密的联系。研究表明，声门波脉冲的形状，如脉冲宽度、脉冲倾斜度、脉冲突然关闭的程度以及噪声成分的分量对合成语音的影响是很大的，对合成语音的自然度和清晰度起着十分重要的作用。不同的语音类型，其嗓音源的参数是有区别的；不同性别、不同年龄的人，其语音的嗓音源参数也各不相同：对同一个人来说，其发音类型不同，如正常音( n o r m a l ) 和气音( b r e a t h y ) 时，嗓音源参数也会有很大的区别” 从生理上讲，声带是造成语音的个人特征的一个重要因素。每个人的声带各不相同，因而声门波的基波和谐波组成方式也各不相同，所以即使两个人发相同的音，我们也能分别出是谁在讲话。当然，经过专业训练的表演者，可以惟妙惟肖地模仿他人说话。更重要的是，任何一个入在正常说话时，音调也总是在变化的，就好像人在唱歌时，同一个音也能够唱出高低不同的音阶来。这说明，控制声带，可以调节发音的音高。这种控制语音音调高低的能力，在语言中起极其重要的作用，尤其是对汉语这种声调语言。实际上，正是音高的变化范围一音域和音高的变化模式，才构成了识别说话人身份的一个重要因素。语音由声带振动或不振动来产生。语音按声带振动形式的不同可以分为三类：浊音( v o i c e ds p e e c h ) 、磨擦音或清音( u n v o i c e ds p e e c h ) 和爆破音 ( p l o s i v es p e e c h ) 。浊音是以声带振动为声源，当气流通过声门时，如果声带的张力刚好使声带发生张驰振荡式的振动，那么就能产生准周期的空气脉冲，这一空气脉冲激励声道就得到浊音；磨擦音或清音在发音时声门松开而声带不颤动，声道在某处( 一般在接近嘴的那端) 发生收缩，同时使空气以高速冲过这一收缩部分产生摩擦作用而发出的声音，就称为清音；如果声道完全闭合( 一般它也是在声道的前部) ，在闭合后建立起气压，然后突然释放， 1 0 哈尔滨1 = 程大学硕士学位论文这样就得到爆破音。 2 1 2 声道对语音个性特征的影响声带振动产生的音波往上通过声道的共鸣作用，从而声音的能量得到加强，并且这个声道对声门波的基频波和各次谐波有着不同的共鸣加强作用。声道是一根从声门延伸至口唇的非均匀截面的声管，其外形变化是时间的函数，发不同声音时其形状变化是非常复杂的。人们控制发音器官的运动，从丽改变声道的共鸣特性，就能发出音色各不相同的各种声音来。解剖学的研究表明，男女声道的长短也不相同，成年男子的声道长度大约为1 7 c m 左右，女子的声道长度比男子的声道长度要短，成年女子的声道长度大约是成年男子的0 8 7 倍1 。声道的生理差异导致了描述声道的声学参数的差异，这些差异主要表现在声道单位冲激响应的频谱形状方面，具体地说，就是共振峰的物理参数不同。共振峰是决定元音音色的主要因素，共振峰的位置、共振峰的带宽和共振峰的幅度等对元音的音色起了决定作用。一切元音都是以较前的两个到三个共振峰来代表其主要特性。对于某一个或者某一类特定的发音人来说，决定元音音色的是共振峰的绝对频率而不是共振峰的相对频率。但是，不同性别、不同年龄的人在发同一元音时，有相同或者相近的共振峰分布模式，这些共振峰之间有一定的相对关系。 2 2 语音的物理特征参数语音包括四种物理特征：音色、音高、音强和音长。我们之所以能听出不同的声音，是由于它们音色不同，如汉语拼音中的“a ”与“i ”，而对于“声” 与“胜”，虽然辅音、元音都相同，但是听起来还是不同，这里的区别是声调，也就是音高上的区剐；再如英语中的“o b j e c t ”，当重音在前时是“物体”，在后时是“反对”，由于重音上的区别，虽然拼法相同，但意义不同：还有，英语中的“s h e e p ”和“s h i p ”的发音，辨别其不同要靠其中元音 i 的音长区别。哈尔滨工程大学硕七学位论文因此，音色是语音的主要参量，其它三个参量音高、音长、音强称作次要参量，这三个参量又统称为“韵律特征”。在汉语中韵律特征犹为重要“”，所谓“听话听音”就是这个道理。如汉语“我没说他偷了我的钱”，同样的句子不同韵律特征可表达不同的意思。当主语的“我”音加强时，可表达不是我说的，隐含可能是别人说的；当“他”音加强时，可表达钱不是他偷的，可能是别人偷的。这句话可表达多种意思，这里不一一举例。各种语音，无论是一个音节、若干个音节或若干句子，人们耳朵所听到的都是这四种要素的组合，入们辨音也就是对语音的这四个区别特征进行辨别。 2 2 1 音色音色指声音的特色，是由声波的不同形状决定的。它是每个声音的本质，所以也叫音质。两个音听起来不同，其中有许多因素，而其中最主要的是音色上的差别。元音“o ”、0 、“i ”的区别就是由于它们的音色不同。具体地来说，浊音( 在语音中，就是声带振动产生的声波) 具有周期性，可以把它看作一系列频率为n f 。的正弦波的叠加。其中频率等于f 。的子波称为基波，其频率f 0 称作基频，其他各个子波称为谐波，它们的频率是f 0 的整数倍。实际上我们听见的语音却完全不是这种声门波，而是经声道调制过的声音，如果比较声门波和实际语音波的频谱，可以发现不同频率的谐波得到了不同比率的加强，这种不同的比率就表达了语音的音色。实际语音波的各次谐波构成了一群一群的峰，称为“共振峰”。人们实际感知语音的音色，只是由少数几个共振峰的频率来决定的，一般是两三个共振峰就能代表音色特征。一个元音并不是只有三个共振峰，除了f 1 、f 2 和 f 3 之外，还有f 4 、f 5 和f 6 等等。但是，语音合成的试验证实，元音的头两三个共振频率确定后，音色基本上就决定了，高次的共振蜂对音色的影响十哈尔滨工程大学硕士学位论文分有限。如图2 2 ( a ) 是汉语l a l 的共振峰，( b ) 是汉语i l l 的共振峰。 ( a ) 汉语l a l 的共振峰( b ) 汉语l i l 音的共振峰图2 2 不同元音的共振峰元音共振峰的绝对频率值由于发音人的声道大小、长短的差异，不会完全一样。不同的人发的元音的共振峰的绝对值也不尽相同，只是处在一定的频率范围内。但是不管共振峰的绝对频率值有多人变化，每个元音的共振峰的模式，也就是头二个共振峰在频率轴上的相对距离是不会有大的改变。因此，更确切地说，元音音色是由头两三个共振峰的频率值及其相对关系决定的。辅音的共振峰的特征主要体现在所谓“强频区”上，强频区就是辅音能量相对集中的频率区域。语音实验研究发现，从听辨角度来说，辅音的音色光靠辅音本身的声学特征是难以辨别的。绝大部分辅音都要带上一个元音才能形成清晰的听觉上的区别。所以不同频率的谐波的不同的比率就表达了语音的音色，它们的数量和振幅的不同构成音色的频谱特性曲线，这条曲线就体现了音色的表现力。实验表明，如果低频共振峰的幅度较强，音色就表现得混厚；中频共振峰的幅度比较强，音色就表现得圆润、自然、和谐；高频共振峰的幅度比较强，音色就表现得明亮、清透、解析力强。哈尔滨工程大学硕士学位论文 2 2 2 音高音高是指声音的高低，也称音调，是由发音体振动频率决定的。一般来说，振动频率越高，感受到的音高也越高；振动频率越低，感受到的音高也越低。对复合波音高的感知，主要决定于基频。一般来说，女同志的音调比男的高，童声的音调比成人高。韵律特征是在完成辅音、元音的发音动作的同时，还要加上声调的高低、用力的大小以及时间的延长等因素。这些因素都不能单独存在，而是附着在辅音、元音之上与它们同时出现，并为听话人所听辨的，这些因素配合在一起，才能形成一系列的语音。俗话说某某人的“腔”调如何，这个所谓“腔” ( a c c e n t ) 就是由一些不同的音调、重音、声音的长短等特征综合而形成的。例如在汉语里，同说普通话，却能听出来“上海腔”、“广东腔”、“东北腔” 等等。韵律特征在辨义方面的作用，现代汉语和现代英语是有着很大的不同的。在英语中，声调的升降起伏只影响整句的语气，而对单词的辨识没有什么作用；与之相对的，音长、音强的变化却构成了单词辨识的一个重要因素。在汉语中，字是音、形、义的三位一体，音长和音强的变化不影响字的辨识；而众所周知，汉语是声调语言。汉语的字音有所谓的“西声”的变化，“四声” 正是音高的四种不同的变化模式，所以识别音高的变化对汉字的辨识是不可或缺的。英语属于“语调语言”，它的旋律音调模式是句子结构的一部分，也就是语气部分，其一般规律是：如果陈述句，句尾的音调就下降；如果是疑问旬，句尾的音调就上升。汉语属于“声调语言”“，它的声调类型主要是词的结构( 包括单字和词) 的一部分。汉语普通话中具有四静声调：阴平、职平、上声、去声，也可称为一声、二声、二声、四声。决定声调类型的不是基频的绝对值，而是基频的变化方式，每个人调域的高低和宽窄都不相同，但是发特定的音时，基频的变化方式都是相似的。 1 4 哈尔滨工程大学硕士学位论文 2 2 3 音强音强就是声音的强弱，音强可以表征为一段语音的能量或平均振幅，它和发声时肺部气压与大气压的差值有着一定的比例关系。一般讲振幅大，声音就强；振幅小，声音就弱。 2 2 4 音长音长就是声音的长短，它是由发音体振动的持续时问决定的。音长是语音的时间长度。英语中有长元音和短元音的区别如 i ：和 i ，这里就是音长在起着辨义作用。汉语中不存在这个问题，但是汉语中有所谓“轻声字”，读起来都比非轻声字短一些，约为1 2 到1 3 ，同时音强也弱一些“。此外，语音的节奏就是通过控制音长来实现的。汉语中最多的是双字词，它们有前长后短和前短后长两种格式：三字词常常是最后一个字一般比前两个字长，而前两个字中的第二个字又特别短。一句话中，每一个意群之间有短暂的停顿，使得整句话听起来节奏分明，具有音乐般的美感。 2 3 人耳对语音的感知语音感知是研究耳朵是怎样收听语音的，大脑是怎样理解这些语音的，以及语言信息在大脑中存储的部位和形式。昕觉是人在受到声音刺激时的心理感受，它是由客观的物理实体一声波引起的，作为一种心理现象，它和外来的刺激之间的关系并不是直接的和简单的。听觉系统是外界语音信息进入大脑的唯一通路。耳朵是一架精密的频谱分析仪，其作用是接受声音并将声音转换成神经刺激。人耳听到声音后，还要经过脑的处理才能变成确定的含义，这就是对语音的感知。下面介绍些基于人耳的感觉来描述声音特性的参数。 2 3 1 响度响度是人耳对声音强弱的主观评价尺度，它主要决定于声压，而且与频哈尔滨工程大学硕士学位论文率和频谱有一定的关系。声压愈大，引起人耳主观感觉到的响度也愈大。如敲锣打鼓时，用力大，锣面或鼓皮振幅就大，声音就响；轻轻敲打振幅就小，声音就轻。响度和声强是不同的概念，声强是声波强弱的客观反映，可用声压级或声强级来计量，声压值的单位为帕( p a ) ，其对数值声压级的单位为分贝( d b ) 。而响度是人们对声音强弱的主观感觉，不能用任何仪器来直接测定。响度用单位宋( s o n e ) 来度量，将1 k h z 、4 0 d b 的纯音所具有的响度定义为l 宋。如果另一个声音听起来比1 宋的声音响n 倍，即该声音的响度为n 宋。晌度还常用对数值来表示响度级，单位为方( p h o n ) ，响度级的定义是：将一个声音与1 k h z 纯音作比较，当听起来两者一样响时，这时1 k h z 纯音的声压级的数值就是这个声音的响度级。如果某声音听起来与声压级为o d b 的1 k h z 纯音一样响，则该声音的响度级为0 方。如果某声音听起来与声压级为8 0 d b 的1 k h z 纯音一样响，则该声音的响度级为8 0 方。除1 k h z 纯音外，声压级的值一般不等于响度级的值。强度是听觉的基础。声音必须达到一定强度才能引起听觉。正常人听觉的强度范围为o d b 1 4 0 d b ( 也有人认为是一5 d b 1 3 0 d b ) 。引起听觉的最小强度称为听阈。也可以说，每个人对各种频率的纯音信号都有一个能感受到的最小强度，这个刚刚能听到的声音强度就是某个人对某种频率声音的听阈。人耳的听阈随着声音的频率不同而有变化。听闽的单位用分贝来表示。音强超过1 4 0d b 时，便在耳膜引起疼痛感觉。人耳对不同频率的声音听阈和痛阈不一样，灵敏度也不一样。人耳的痛阈受频率的影响不大，而听阈随频率变化相当剧烈。当低于2 0h z 或高于2 0 k h z 赫兹时，不管其强度有多大，人耳几乎都昕不见了。人耳对3 k h z 5 k h z 声音最敏感，幅度很低的声音信号都能被人耳听到，而在低频区( 如小于8 0 0 h z ) 和高频区( 如大于5 k h z ) 人耳对声音的灵敏度要低得多。实验表明，听闽和痛阈是随声压、频率变化的。听阙和痛阈随频率变化的等响度曲线之问的区域就是人耳的听觉范围，通常认为，对于1 k h z 纯音，哈尔滨工程大学硕+ 学位论文 o d b 至2 0 d b 为宁静声，3 0 d b 至4 0 d b 为微弱声，5 0 d b 至7 0 d b 为正常声，8 0 d b 至l o o d b 为响音声，l l o d b 至1 3 0 d b 为极响声。小于o d b 听阈和大于1 4 0 痛阈时为不可听声，即使是人耳最敏感频率范围的声音，人耳也觉察不到。 2 3 2 音调音调也称音高，也是一种主观心理量，是入耳对声音频率高低的感受。音调与声音的频率有关。频率低的声音，听起来音调“低”：频率高的声音，听起来音调“高”。但音调与声音的频率并不成正比关系，而是近似为对数关系。客观上用频率f 来表示声音的音高，单位为赫( h z ) 。而主观感觉的音高单位则是美( m e l ) 。它们也是两个不同又有联系的概念，主观音高与客观音高的关系可用下式表示 m e l 望3 3 2 2 2 3 1 0 9 ( i + 0 0 0 1 f ) ( 2 1 ) 音调与频率的关系如图2 3 j s f i 示。 3 o 2 0 1 0 0 0 0 1 0 1 0 0 1 0 0 01 0 1 1 0 0 图2 3 音调与频率的关系近年来，学术界开始重视这种人的听觉感知和声波刺激间的非线性关系。做了大量试验检验这种关系，并且在语音识别和语音合成中，用人的主观感知参数代替声波的物理参数来设计系统，取得了相当好的效果。 2 4 语音信号合成的建模在研究语音合成中，抽样语音信号的离散模型是特别重要的。虽然己经假定了许多不同的模型，但是目前还没有发现一种可以详细描述人类语音中哈尔滨f ：程大学硕七学位论文己观察到的全部特征的模型。建立模型的基本准则是寻求一种可以表达一定物理状态下的数学关系，要使这种关系不仅具有最大的精确度，而且还要最简单。我们希望的最理想模型是线性时不变的，但实际上语音信号是一连串的时变过程，根据语音的产生机理，不可能精确地满足这两种性质。此外，声门和声道相互耦合，还形成语音信号的非线性特性。在研究语音模型时做出一些合理的假设是必要的，如在较短的时间间隔内表示语音信号时，可以采用线性时不变模型，将激励音源近似为随机噪声或准周期脉冲序列，以及用数字滤波器来实现声道调音作用，用微分来近似唇部的声波发射。这些是讨论语音合成技术的基础。 2 4 1 语音信号产生的物理模型要对语音的形成过程建立模型，最方便的方法就是通过线性近似引入能使输入输出特性尽量与实际相符的传递函数。长期研究证实，发不同性质的音时，激励的情况是不同的，大致分为两大类：发浊音时，气流在通过绷紧的声带时，冲激声带产生振动，使声门处形成准周期性的脉冲串，并用它去激励声道：发清音时，此时声带松弛而不振动，气流通过声门直接进入声道。图2 4 表明“1 ，语音

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）个性化语音合成的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）个性化语音合成的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档