（计算机应用技术专业论文）智能机器人的语音技术研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：60 大小：1.62MB 积分：0 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

（计算机应用技术专业论文）智能机器人的语音技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

贵州大学2 0 0 6 届硕士毕业论文摘要摘要智能机器人是国家”8 6 3 ”计划重点支持的方向，语音识别和合成技术是智能机器人技术的主要体现之一，可让机器人与人进行自然的人机对话，使机器人能听从人的指挥。可应用于信息服务、企业广告宣传、机器导游等方面。语音识别和语音合成技术是实现人机语音通信，建立一个有听和讲能力的1 ：3 语系统所必需的两项关键技术。使机器人具有类似于人一样的说话和听懂人说话的能力，是新世纪信息产业的重要竞争市场。本文首先回顾了一下智能机器人的发展，结合语音技术在智能语音机器人的应用，讨论了语音识别及语音合成技术的发展及存在的问题。指出了将来语音合成的发展方向以及汉语语音合成的意义等，介绍了语音信号处理的基础知识包括现代语音学和语音信号产生的数学模型，并且介绍了现在出现的各种语音合成技术和汉语语音的一些特点，着重讨论了语音合成的理论探索和利用线性预测合成 ( l p c ) 技术具体实现汉语语音合成。在本文中，对语音信号处理的过程和方法进行了一些研究，利用语音信号产生的物理模型，用l p c 技术对这个物理模型加以抽象，得到语音信号产生的数学模型：由一组准周期信号或者高斯白噪声激励一个全极点滤波器而得到语音信号的数学模型。同时作者利用l p c 技术建立了一个线性预测模型，对浊音检测其基音周期，最后实现了基于线性预测( l p c ) 的汉语语音合成。最后简要论述了一下语音识别技术在以及嵌入式t t s 汉语语音系统在智能机器人方面的应用，并提出了自己的观点。并且利用微软的t t s 引擎通过v c + + 6 0 语言编制了一个t t s 演示程序。在本文的最后，对所做的工作进行总结，并对智能机器人语音技术今后的发展方向进行探讨。关键词：智能机器人，汉语语音合成，语音信号处理，线性预测合成( l p c ) 清音合成，浊音合成，t t s 汉语语音系统 a b s t r a c t i n t e l l i g e n c er o b o ti so nt h ed i r e c t i o ns u p p o r tb yn a u o n a l ”8 6 3 ” p r o g r a m s p e e c hr e c o g n i t i o na n ds y n t h e t i ct e c h n o l o g yi so n e o ft h e m a i ne m b o d i m e n to fs m a r tr o b o tt e c h n i q u e s ，w h i c hm a d e n a t u r a l m a n - m a c h i n ec o n v e r s a t i o n s ot h a tr o b o t sc a nf o i i o w m e n 。s c o m m a n d a p p l i e di ni n f o r m a t i o ns e r v i c e ，e n t e r p r i s ea d v e r t i s e m e n t p u b l i c i t y ，m a c h i n eg u i d ee t c s p e e c h r e c o g n i t i o na n ds y n t h e s i s t e c h n o l o g i e s a r et w ok e yt e c h n o l o g i e st oa c h i e v eb o t hv o i c e c o m m u n i c a t i n g ，a n de s t a b l i s h i n g o ft o n g u es y s t e mw i t h a b i l i t yt o i i s t e na n ds p e a k b ea ni m p o r t a n tc o m p e t i t i o nm a r k e to ft h e i n f o r m a t i o ni n d u s t r yi nt h en e wc e n t u r y t h i st e x ti o o k e db a c kt h ed e v e l o p m e n to ft h ei n t e l l i g e n c er o b o ta t f i r s t ，c o m b i n e dw i t ha p p l i c a t i o n o f s p e e c ht e c h n i q u e i nt h e i n t e l l i g e n c es p e e c hr o b o t ，d i s c u s s e dt h ed e v e l o p m e n ta n de x i s t e n t p r o b l e mo fs p e e c hr e c o g n i t i o n a n ds y n t h e s i st e c h n o l o g y p o i n t e d o u tt h ed e v e l o p m e n td i r e c t i o no ft h es p e e c hs y n t h e s i si nt h ef u t u r e a n dt h em e a n i n go ft h ec h i n e s el a n g u a g es p e e c hs y n t h e s i s ， i n t r o d u c e df o u n d a t i o nk n o w l e d g eo ft h es p e e c hs i g n a lp r o c e s s i n g i n c l u d e dm a t h e m a t i c sm o d e lo ft h em o d e r np h o n e t i c sa n dt h es p e e c h s i g n a l ，a n ds o m ec h a r a c t e r i s t i co fv a r i o u ss p e e c hs y n t h e s i st e c h n i q u e a n dt h ec h i n e s el a n g u a g es p e e c h ，d i s c u s s e di n v e s t i g a t i o no fs p e e c h s y n t h e s i sa n dw i t hi i n e a rp r e d i c t i v es y n t h e s i z e ( l p c ) r e a l i z e dc a r r yo u t c h i n e s el a n g u a g es p e e c hs y n t h e s i s i nt h i st e x t ，s o m er e s e a r c h e st ot h ep r o c e s sa n dm e t h o do f t h e s p e e c hs i g n a lp r o c e s s i n g i sc a r r i e do n ；m a k i n gu s eo ft h ep h y s i c a l m o d e ic r e a t e db yt h es p e e c hs i g n a l ，u s e dt h el p ct e c h n i q u et ot a k e t h i sp h y s i c a lm o d e i i n t oa b s t r a c t g a i n e dm a t h e m a t i c sm o d e io ft h e s p e e c hs i g n a l m a k i n gu s eo ft h el p ct e c h n i q u e ，b u i l tu pai i n e a rp r o g n o s t i c a t e m o d e i nt h em e a n t i m e ，e x a m i n ek e y n o t ep e r i o do fs o n a n t ，r e a l i z e d ac h i n e s el a n g u a g es p e e c hs y n t h e s i so nt h eb a s eo fl p ct e c h n o l o g y f i n a l l y i nt h ee n d ，d i s c u s s e da p p l i c a t i o no fs p e e c hs y n o p s i sa n d e m b e d d e d3 - 1 - sc h i n e s el a n g u a g es p e e c hs y n t h e s i su s i n gi nt h e i n t e l l i g e n c er o b o t ，a n dp u tf o r w a r do w ns t a n d p o i n t w i t h u s i n g t h e m i c r o s o f tt t se n g i n e ，d r e wu pat t sd e m o w i t hv c + + 6 0l a n g u a g e a tt h ee n d i n go ft h i st e x t ，m a d es u m m a r yt ot h ew o r kb e i n g d o n e a n dd i s c u s s e dd e v e l o p m e n td i r e c t i o no ft h ei n t e i l i g e n c er o b o t s p e e c ht e c h n i q u ea f t e r t i m e 2 贵州大学2 0 0 6 届硕士毕业论文英文摘要 k e y w o r d ：i n t e l l i g e n c er o b o t ，s p e e c hs y n t h e s i s ， s p e e c hs i g n a lh a n d l i n g ，l i n e a rp r e d i c t i v es y n t h e s j z e ( l p c ) s u r ds y n t h e s i s ，s o n a n ts y n t h e s i s ，t t sc h i n e s el a n g u a g es p e e c h s y s t e m 3 贵州大学2 0 0 6 届硕士毕业论文第一章绪论第一章绪论 1 1 智能机器人语音技术概述及现状 1 1 1 1 智能机器人语音技术简介语音合成与识别技术是智能机器人领域的一个重要研究方向，也是智能机器人的一项关键技术。多年来国际国内都有大量的科技工作者致力于这方面的研究开发工作，因而对许多问题的认识与求解都取得了长足的发展。 ”机器人”一词起源于捷克语，意为强迫劳动力或奴隶【l j 。1 9 2 1 年，捷克剧作家k a r lc a p e c k 在剧本r o s s u m ，su n i v e r s a lr o b o t s ) ) 中，描述了一个具有人的外表，特征和功能的机器，并命名为”r o b o t a ”。英语的”r o b o t ”一词就是由此演变而来的。基本上，一个机器人包括：机械设备，如可以与周围环境进行交互的车轮平台、手臂或其它构造。设备上或周围的传感器，可以感知周围环境并向设备提供有用的反馈。根据设备当前的情况处理传感输入，并按照情况指示系统执行相应动作的系统。语音识别和语音合成技术是一种人机语言通信技术，属于计算机智能接口技术。多媒体技术也主要是利用计算机语音处理和图象处理的能力为人们提供一种更加方便，直观的人机界面。机器人技术和语音技术的结合就成为了一项新的技术课题：智能语音机器人。人们一直以来对自由交流方式的本能渴望正是语音识别技术坚定不移的发展动力。自从工业革命以来，各种机械化设备虽然提高了劳动生产率，创造了巨大的物质财富，但是我们在面对它们时却不得不放弃最习惯、最自然的沟通方式一一自然语言。因此，我们从来就没有放弃过这样一个梦想：让机器与人之间也能像人与人之间一样进行交流。而成就人类这种梦想的最关键技术之一就是语音识别与合成技术。 1 1 2 国内外智能机器人语音技术发展现状今天，随着语音识别技术已经取得了巨大的进展。一些智能语音机器人技术已经开始得到广泛的应用，具有语音识别功能的产品也不断出现，这些都标志着智能语音机器人技术距离人类的日常生活已经越来越近了。我国的语音识别技术研究起步并不晚，但由于各种客观条件的限制，早期的研究工作进展缓慢。上个世纪8 0 年代中期以后，在国家”8 6 3 计划”的积极推动和国内各科研机构的艰苦努力下发展迅速，它经历了从特定人到非特定人、从小诃表到大词汇量、从孤立字到连续语音的发展历程。在汉语语音识别市场，目前居于领先地位的仍是i b m 。i b m 依赖于o e m 和二次开发商很快占领了大部分的市场份额，已经将汉语语音识别技术应用在电信和呼叫中心之中。我国台湾声硕公司的汉语连续语音输入系统“说亦通”在台湾市场占据了6 0 的份额，并从1 9 9 9 年开始已逐步进入大陆市场。新技术的迅速发展也造就了一批专业化的核心技术厂商，如l & & h 、 d r a g o n 、s p e e c h w o r k s 、n o n a u c e 、i n f o w o r k 等等。他们凭借着手中掌握 4 贵州大学2 0 0 6 届硕士毕业论文第一章绪论的语音识别技术也在语音市场中占据了一席之地。国外一些知名公司都推出了相应的语音识别产品。国内的语音识别研究的机构并不少，比较著名的有清华大学电子工程系语音识别实验室、中科院自动化所模式识别实验室、清华大学计算机系人工智能实验室、中科院声学所等等。除了这些研究机构在国家各种科技发展计划和基金的支持，致力于语音识别技术研究的同时，也有一些公司企业在开始从事技术应用化的一些工作。但从目前来看，能够真正进入核心技术全面产品化阶段的单位并不多。 1 i2 智能语音机器人语音技术发展方向从研究现状来看，作为语音识别的标志性技术，无限词汇量、非特定人、连续语音识别系统( 即听写机) 在比较安静环境下，对于比较正式的书面语言已经达到了相当高的实用程度，在限定环境下还能达到更好的效果，我们仍要进一步提高识别系统对不同环境、不同说话人和不同说话内容的稳健性。 1 2 1 语音识别技术语音识别技术主要包含几个方面：语音控制、电子发声、连续语音识别、非连续语音识别和语音学习【2 j 。目前主要是在支持中英文，实现中英文混合识别问题上，存在一些障碍。同时在识别大量词汇和个别发音方面还很难做到准确。作为语音识别技术新方向的语音学习，它则要求人模仿标准发音，其面l 临的困难是如何衡量人模仿的好坏。 1 2 2 语音合成技术和语音识别相比，语音合成技术相对说来要成熟一些，是该领域中近期最有希望产生突破并形成产业化的一项技术。语音合成技术是计算机”开口说话“的关键，现阶段语音合成的最大进展是已经能够实时地将任意文本转换成连续可懂的自然语句输出，相应技术通常称为文语合成或文语转换( t t s ) 。t t s 使得数据通信和语音通信在终端一级实现交融，人们将有望在获取i n t e r n e t 信息时，使短消息服务、电子邮件等多数以文本方式提供的信息也用语音的方式输出。语音合成的主要功能是：根据韵律建模的结果，从原始语音库中取出相应的语音基元，利用特定的语音合成技术对语音基元进行韵律特性的调整和修改，最终合成出符合要求的语音。现在语音识别技术存在的一些瓶颈主要在于：方言或口音会降低语音识别率、背景噪音、”口语”的问题：它既涉及到自然语言理解，又与声学有关，口语的语法不规范和语序不正常的特点会给语义的分析和理解带来困难，有些很不自然的合成效果往往是因为没有能正确的使用合成与识别系统而导致的，并不是说是合成技术的不成熟，而是语音库的完善度存在一定的差距。我们国家目前的语音库建设相较国际水平还是有些差距，合成出来音质达不到高要求，对语音识别还没有特别突出的成果，主要还是资源的缺乏。在现有的语音库里大部分是女声，男声只占有很少的一部分，其他年龄阶段的数据就更加的少，这对我们进行情景对话，进行语音控制，进行模拟现实，进行时实语音评估等都存在一定的困难。诚然有许多的科研机构都在涉及语音识别技术这方面的研究，贵州大学2 0 0 6 届硕士毕业论文第一章绪论但对于语音库的建设就有一定的困难性，这是一项需要大投入时间、人才、资金的项目，国内目前只有少数几家走在前端的企业在做这一市场，正致力于解决困扰语音识别领域的某些技术缺陷，突破大量词汇、连续语音、非特定人的三大障碍。 1 3 论文研究的背景及主要研究内容 1 3 1 课题研究的背景从研究现状来看，作为语音识别的标志性技术，无限词汇量、非特定人、连续语音识别系统( 即听写机) 在比较安静环境下，对于比较正式的书面语言已经达到了相当高的实用程度，在限定环境下还能达到更好的效果，我们仍要进一步提高识别系统对不同环境、不同说话人和不同说话内容的稳健性。语音识别技术主要包含几个方面：语音控制、电子发声、连续语音识别、非连续语音识别和语音学习 3 1 。目前主要是在支持中英文，实现中英文混合识别问题上，存在一些障碍。同时在识别大量词汇和个别发音方面还很难做到准确。作为语音识别技术新方向的语音学习，它则要求人模仿标准发音，其面临的困难是如何衡量人模仿的好坏。和语音识别相比，语音合成技术相对说来要成熟一些，是该领域中近期最有希望产生突破并形成产业化的一项技术。语音合成技术是计算机”开口说话”的关键，现阶段语音合成的最大进展是已经能够实时地将任意文本转换成连续可懂的自然语句输出，相应技术通常称为文语合成或文语转换( t t s ) 4 1 ot t s 使得数据通信和语音通信在终端一级实现交融，人们将有望在获取i n t e r n e t 信息时，使短消息服务、电子邮件等多数以文本方式提供的信息也用语音的方式输出。语音合成的主要功能是：根据韵律建模的结果，从原始语音库中取出相应的语音基元，利用特定的语音合成技术对语音基元进行韵律特性的调整和修改，最终合成出符合要求的语音。现在语音识别技术存在的一些瓶颈主要在于：方言或口音会降低语音识别率、背景噪音、“口语”的问题：它既涉及到自然语言理解，又与声学有关，口语的语法不规范和语序不正常的特点会给语义的分析和理解带来困难，有些很不自然的合成效果往往是因为没有能正确的使用合成与识别系统而导致的，并不是说是合成技术的不成熟，而是语音库的完善度存在一定的差距。我们国家目前的语音库建设相较国际水平还是有些差距，合成出来音质达不到高要求，对语音识别还没有特别突出的成果，主要还是资源的缺乏。在现有的语音库里大部分是女声，男声只占有很少的一部分，其他年龄阶段的数据就更加的少，这对我们进行情景对话，进行语音控制，进行模拟现实，进行时实语音评估等都存在一定的困难。诚然有许多的科研机构都在涉及语音识别技术这方面的研究，但对于语音库的建设就有一定的困难性，这是一项需要大投入时间、人才、资金的项目，国内目前只有少数几家走在前端的企业在做这一市场，正致力于解决困扰语音识别领域的某些技术缺陷，突破大量词汇、连续语音、非特定人的三大障碍。 6 贵州大学2 0 0 6 届硕士毕业论文第一章绪论 1 3 2 本文的主要研究内容智能机器人语音技术越来越受到人们的重视，语音合成是一项复杂的系统工程，本文首先回顾了一下智能机器人的发展，结合语音技术在智能语音机器人的应用；讨论了语音识别及语音合成技术的发展及存在的问题。指出了将来语音合成的发展方向以及汉语语音合成的意义等，介绍了语音信号处理的基础知识包括现代语音学和语音信号产生的数学模型，并且介绍了现在出现的各种语音合成技术和汉语语音的一些特点，着重讨论了语音合成的理论探索和利用线性预测合成( l p c ) 技术具体实现汉语语音合成。汉字在语音技术方面有着它自身的特点：常用汉字是有几千个：以字为认知单位、以词语为表意单位：表音化是自然发展需要，而在表音上，汉字是笨拙和超低效率的；中国方言的庞杂和混乱，这个实际应用中不得不考虑的一个问题。本文中主要做了以下方面的研究 ( 1 ) 对语音信号处理的过程和方法进行了一些研究，利用语音信号产生的物理模型，用l p c 技术对这个物理模型加以抽象，得到语音信号产生的数学模型：由一组准周期信号或者高斯白噪声激励一个全极点滤波器而得到语音信号的数学模型。 ( 2 ) 同时利用l p c 技术建立了一个线性预测模型，对清浊音检测其基音周期，并实现清音与浊音的合成。最后实现了基于线性预测( l p c ) 的汉语语音合成。 ( 3 ) 最后论述了一下语音识别技术在以及嵌入式t t s 汉语语音系统在智能机器人方面的应用，并提出了自己的观点。我们可以把丌s 系统嵌入到智能机器人的整个系统中，机器人可以唱歌，朗诵诗歌，发出音乐诸如此类的更加丰富的语音了，这也将一改人机对话的那种”冷冰冰”的毫无情感的机器音的感觉。尤其可以用在特定的服务领域，例如信息服务机器人，机器导游等等：只需通过读取存储器中预先录入的语音库即可实现如此丰富的功能，并且可以根据实际要求修改语音库，添加更丰富的内容。 ( 4 ) 利用微软的t 1 - s 引擎通过v c + + 6 0 编制了一个t 1 - s 演示程序。文语转换t t s ( t e x tt os p e e c h ) 是自动将输入文字转换成语音输出，并尽量使输出的语音效率流畅、自然的一类技术。此项技术结合在智能机器人中可以实现多方面的实际应用，将实现更加自然的人机对话。贵州大学2 0 0 6 届硕士毕业论文第二章语音合成的基础理论知识第二章语音合成的基础理论知识 2 1 引言在研究分析语音合成技术之前，应该了解与语音合成关系密切的语音学的一些基本理论。语音学是研究言语过程的- - f 科学。语音就是人类说话的声音，它是语言信息的声学表现。语言交际是通过连结说话人大脑和听话人大脑的一连串心里、生理和物理的转换过程实现的，这个过程分为”发音一传递- 感知”三个阶段。因此现代语音学发展为与此相应的三个主要分支：发音语音学、声学语音学、听觉语音学【1 4 】【1 5 】。要弄清楚语音的本质特性，应从这三方面入手。 2 2 发音语音学发音语音学主要研究语音产生机理，观察发音器官，以确定发音部位和发音方法。人的发音器官由下而上按照气流运送的三个阶段分为三个区域：( 1 ) 动力区，包括肺、横隔膜和气管；( 2 ) 声源区，包括声门、声带和喉头；( 3 ) 成音区，包括口腔、鼻腔和咽喉，统称为声道。如图2 - 1 所示。在发音器官中，动力区是整个系统的能源，声源区是主要的声音生成机构，而成音区则对生成的声音进行调制。图2 1 发音器官的三个区域在发音时，正常呼吸时肺部呼出稳定气流，通过胸部和横隔膜的动作压出气流，再通过气管到喉头，迫使关闭着的声带颤动而出声。喉部的声带是对发音影响很大的器官。声带的声学功能是为语音提供主要的激励源，由声带振动产生声音，是形成声音的基本声源。声带开启和闭合使气流形成一系列脉冲。声带每开启和闭合一次的时间即振动周期称为音调周期或基音周期，其倒数称为基音频率，也简称基频。声带的复杂振动在物理上产生的结果之一，就是产生声门波。声门波是一种准周期波，由基波和它的能量递减的各次谐波组成。声带的振动的频率即基频直接决定了语音的音高。语音的音调高低，受声带的松紧、厚薄、长短等因素制约。声带绷得越紧，张力越大，音调也就越高；而声带越薄，音调越高：声带短则振动快，音调就高，长则振动慢，音调就低。声带是造成语音的个人特征的一个重要因素。每个人的声带各不相同，因而声门波的基波和谐波组成方式也各不相同，所以即使两个人发相同的音，我们也能分别出是谁在讲话。贵州大学2 0 0 6 届硕士毕业论文第二章语音合成的基础理论知识当然，经过专业训练的表演者，可以惟妙惟肖地模仿他人说话：更重要的是，任何一个人在正常说话时，音调也总是在变化的，就好像人在唱歌时，同一个音也能够唱出高低不同的音阶来。这说明，控制声带，可以调节发音的音高。这种控制语音音调高低的能力，在语言中起极其重要的作用，尤其是对汉语这种声调语言。实际上，正是音高的变化范围一音域和音高的变化模式，才构成了识别说话人身份的一个重要因素。语音由声带振动或不振动来产生。语音按声带振动形式的不同可以分为三类：第一类是浊音( v o i c e ds p e e c h ) ：以声带振动为声源，当气流通过声门时，如果声带的张力刚好使声带发生张驰振荡式的振动，那么就能产生准周期的空气脉冲，这一空气脉冲激励声道就得到浊音；第二类是磨擦音或清音( u n v o i c e d s p e e c h ) ：发音时声门松开而声带不颤动，声道在某处( 一般在接近嘴的那端) 发生收缩，同时使空气以高速冲过这一收缩部分产生摩擦作用而发出的声音，就称为清音。第三类是爆破音( p l o s i v es p e e c h ) ：如果声道完全闭合( 一般它也是在声道的前部) ，在闭合后建立起气压，然后突然释放，这样就得到爆破音。声带振动产生的音波往上通过声道的共鸣作用，从而声音的能量得到加强，并且这个声道对声门波的基频波和各次谐波有着不同的共鸣加强作用。声道是一根从声门延伸至口唇的非均匀截面的声管，其外形变化是时间的函数，发不同声音时其形状变化是非常复杂的。人们控制发音器官的运动，从而改变声道的共鸣特性，就能发出音色各不相同的各种声音来。 2 3 声学语音学上面简述了人类发音的生理原理这里将简要分析语音现象的声学特性。声学语音学研究传递阶段的声学特性，它与传统语音学和现代语音分析手段相结合，用声学和非平稳信号理论来解释各种语音现象，是近几十年发展非常迅速的- - f 新学科。语音包括四种物理特征：音色、音高、音强和音长。例如，语音中的a 与i ， u 或t 与d ，b ，我们能听出它们是不同的声音，是由于它们音色不同；又如汉语中的”辞”与”赐”、”码”与”骂”、”推”与“退”，虽然每组的辅音、元音都各自相同，但是听起来还是不同，这里的区别是声调，也就是音高上的区别j 英语中的 o b j e c t ”和”o b j e c t ”( “物体”和”反对”) 虽然拼法相同，但意义不同，这是重音上的区别，也就是音强的区别在起作用；还有，英语中的”s h e e p ”和”s h i p ”的发音，辨别其不同要靠其中元音”的音长区别。各种语音，无论是一个音节、若干个音节或若干句子，人们耳朵所听到的都是这四种要素的组合，人们辨音也就是对语音的这四个区别特征进行辨别。下面分别介绍： 2 3 1 音色两个音听起来不同，其中有许多因素，而其中最主要的是音色上的差别。具体地来说，浊音( 在语音中，就是声带振动产生的声门波) ，具有周期性，可以把它看作一系列频率为n f o 的正弦波的叠加。其中周期等于整个乐音的周期，也就是频率等于f 。的子波称为基波，其频率f o 称作基频，其他各个子波称为 9 贵州大学2 0 0 6 届硕士毕业论文第二章语音台成的基础理论知识谐波，它们的频率是f o 的整数倍。我们听见的语音却完全不是这种声门波，而是经声道调制过的声音，如果比较声门波和实际语音波的频谱，可以发现不同频率的谐波得到了不同比率的加强，这种不同的比率就表达了语音的音色。实际语音波的各次谐波构成了一群群的峰，称为”共振峰”。人们实际感知语音的音色，只是由少数几个共振峰的频率来决定的，一般是两三个共振峰就能代表音色特征。一个元音并不是只有三个共振峰，除了f i ，f 2 、和f 3 之外，还有f 4 ，f s ，f 6 等等。但是，语音合成的试验证实，元音的头两个共振频率确定后，音色基本上就决定了，高次的共振峰对音色的影响十分有限。元音共振峰的绝对频率值由于发音人的声道大小、长短的差异，不会完全一样。不同的人发的元音的共振峰的绝对值也不尽相同，只是处在一定的频率范围内。但是不管共振峰的绝对频率值有多人变化，每个元音的共振峰的模式，也就是头两个共振峰在频率轴上的相对距离是不会有人的改变。因此，更确切地说，元音音色是由头两三个共振峰的频率值及其相对关系决定的。辅音的共振峰的特征主要体现在所谓“强频区”上，强频区就是辅音能量相对集中的频率区域。语音实验研究发现，从听辨角度来说，辅音的音色光靠辅音本身的声学特征是难以辨别的。绝大部分辅音都要带上一个元音才能形成清晰的听觉上的区别。 2 3 2 音高从上面对音色的讨论来看，一个音之所以成为它本身，是因为它的音色。因此，音色可以称作语音的主要参量。其它三个参量音高、音长、音强称作次要参量，这三个参量又统称为”韵律特征”( p r o s o d i cf e a t u r e s ) 。韵律特征是在完成辅音、元音的发音动作的同时，还要加上声调的高低、用力的大小以及时间的延长等因素。这些因素都不能单独存在，而是附着在辅音、元音之上与它们同时出现，并为听话人所听辨的，这些因素配合在一起，才能形成一系列的语音。俗话说某某人的”腔”调如何，这个所谓”腔”( a c c e n t ) 就是由一些不同的音调、重音、声音的长短等特征综合而形成的。例如在汉语里，同说普通话，却能听出来“上海腔”、”广东腔”、”东北腔”等等。 2 3 3 音强音强可以表征为一段语音的能量或平均振幅，它和发声时肺部气压与大气压的差值有着一定的比例关系。传统的语音学曾经把音强和重音等同起来，这是错误的。重音不仅和音强有关，还和音长、音高有关，音值越长、音高越高、跨越的地域越广，重音越明显。但是，无论如何，重音是和音强有着密切的关系的。在英语中，如果单词的重音位置不对，那么昕起来是很别扭的，有时，仅仅因为重音位置的不同就是两种不同的含义。在汉语这种声调语言中，重音不起辩义的作用。但是，在整句发音中，恰当的重音会使句子听起来更加有节奏感：此外，要强调某一短语，也是通过用重音读出来表达的；发轻声时，也要减小音强。贵州大学2 0 0 6 届硕士毕业论文第二章语音合成的基础理论知识 2 3 4 音长音长就是语音的时间长度。英语中有长元音和短元音的区别如 i ：和】，这里就是音长在起着辨义作用。汉语中不存在这个问题，但是汉语中有所谓“轻声字”，读起来都比非轻声字短一些，约为i 2 到1 3 ，同时音强也弱一些。此外，语音的节奏就是通过控制音长来实现的。汉语中最多的是双字词，它们有前长后短和前短后长两种格式；三字词常常是最后一个字一般比前两个字长，而前两个字中的第二个字又特别短，这种三字组的节奏构成，略如音乐中的3 1 4 拍1 4 拍的节奏。一句话中，每一个意群之间有短暂的停顿，使得整句话听起来节奏分明，具有音乐般的美感。 2 4 听觉语音学听觉语音学研究语音感知阶段的生理和心理特征，也就是研究耳朵是怎样收听语音的，大脑是怎样理解这些语音的，以及语言信息在大脑中存储的部位和形式。听觉是人在受到声音刺激时的心理感受，它是由客观的物理实体一声波引起的，作为一种心理现象，它和外来的刺激之间的关系并不是直接的和简单的。听觉系统是外界语音信息进入大脑的唯一通路。1 0 0 多年来，人们对耳这种听觉器官的认识有了长足的进步，但是对听觉通路与听觉皮层的许多处理过程至今还不甚了了。耳朵是一架精密的频谱分析仪其作用是接受声音并将声音转换成神经刺激。人耳听到声音后，还要经过脑的处理才能变成确定的含义，这就是对语音的感知。下面介绍些对于人耳的感觉，描述声音的特性： 2 4 1 响度响度( l o u d n e s s ) 是人耳对声音强弱程度，即声音轻、响的主观反应，响度取决于声音的幅度，主要是声压的函数，但和频率、波形也有关系。人对不同频率的声音的感受是不同的，对于3 0 0 0 - - 4 0 0 0 h z 声音的音强的感觉是最灵敏的。为了描写人而对于频率不同的纯音的听辨灵敏度，定义了一个客观的物理量即声音的响度级p ，它以方( p h o n ) 为单位。确定一个声音的响度级时，应将它与1 k h z 的纯音相比较，调节1 k h z 纯音的声强，使它昕起来与被确定声同样地响，这时1 k h ：纯音相对于2 0u p a 的声压级就规定为该声音的响度级。常用的响度单位还有一个，叫做”宋”( s o n e ) 。响度s 和响度级p 之间的关系为： s ：2 ( p 一4 0 ) l o( 2 一1 ) 贵州大学2 0 0 6 届硕士毕业论文第二章语音合成的基础理论知识 2 4 2 音调音调也称音高，也是一种主观心理量，是人耳对声音频率高低的感受。音调与声音的频率有关。频率低的声音，听起来音调”低”；频率高的声音，听起来音调”高”。但音调与声音的频率并不成正比关系，而是近似为对数关系。它还与声音的强度及波形有关。它的单位采用是美( m e l ) 。一个高于听阀( 最低能感受到的声场声压) 4 0 d b ，频率为1 i o h z 的纯音所产生的音调定为i 0 0 0m e l 。如果一个纯音听起来比1 0 0 0m e l 的调子高一倍，则其音调为2 0 0 0 m e l 。下图2 - 2 给出了音调与频率的关系。 3 瑚：啪口 o 1 n1 1 咖图2 - 2 音调与频率的关系图近年来，学术界开始重视这种人的听觉感知和声波刺激间的非线性关系。做了大量试验检验这种关系，并且在语音识别和语音合成中，用人的主观感知参数代替声波的物理参数来设计系统，取得了相当好的效果。 2 5 汉语语音学基础汉语是世界上最大的语种，使用人e l 达到十几亿。汉语标准语音指的是北京语音。对汉语语音合成的研究，必须建立在对汉语的语音和声学特点的充分了解的基础上。下面将简单介绍一下汉语语音学基础【1 6 】。 2 5 1 音素和音节从音色角度对语音进行分析，可以得到最小的语音单位一音素( p h o n e m e ) 。不同音素之间的差异，是发音器官本身的活动变化带来的。划分音素时，不考虑不同的人的声音的差别。一个或多个音素结合起来，就形成了最自然的语音单位一音节。音节是人们听觉上能够很自然地感受到并且很容易区分的语音片段。划分音节应该以发音器官肌肉紧张程度的增减为依据，发音时每紧张一次就是一个音节。例如：”x i a n ( 西安) ”和”x i a n ( 先) ”。前者是两个音节，而后者是一个音节。汉语普通话有六十多个音素，可以组成四百多个无调音节，每个汉字就代表了一个音节。贵州大学2 0 0 6 届硕士毕业论文第二章语音合成的基础理论知识 2 5 2 元音和辅音音素可以按照发音器官状态和气流通过方式分成元音和辅音两类。二者的区别在于：发元音时声带一定会发生振动，气流比较弱，通过口腔时不受阻碍，发音器官的各个部分的紧张程度基本保持一致；而发辅音时声带不振动，气流比较强，在口腔里会受到阻碍，发音器官除了形成阻碍的部位特别紧张外，其他器官不紧张。此外，元音一般听上去比较响亮、清晰，而辅音没有这个特点。汉语中有1 0 个元音和2 2 个辅音。 2 5 3 声母和韵母汉语的音节一般可以划分为声母和韵母两部分：每个声母只包含一个辅音：而韵母可以由一个或多个元音构成，也可以由元音和辅音组合构成。考虑到汉语的某些音节里没有声母，为了结构的一致，这种情况下称这种音节的声母为零声母。声母和韵母是按照音节中的位置划分的，而上节提到的元音和辅音则是按照发音性质划分的，这两对概念既有联系又有区别：声母一定是辅音，而辅音不一定都做声母，例如：d a n ( 单) 中的辅音n 就是韵母a n 的韵尾；所有的元音都用做韵母，但韵母并非全由元音构成，如上面的d a n ( 单) 中的韵母a n 就是由元音a 和辅音n 联合构成。汉语中有2 1 个声母和3 8 个韵母。 2 5 4 汉语语音的主要特点通过上面的介绍可以看到，汉语语音主要有以下特点：音系简单。即音素、音节少每一个汉字代表一个音节汉语是有调语言，声调对区分汉字的意思有很大作用，音节中必须包括声调有鲜明的轻重音和儿化韵每个音节由声母和韵母组成。音节和音节之间的连音现象不很明显存在大量的同音字现象 2 6 语音信号产生模型在研究语音合成中，抽样语音信号的离散模型是特别重要的。虽然己经假定了许多不同的模型但是目前还没有发现一种可以详细描述人类语音中己观察到的全部特征的模型( 由于它的复杂性，也许不可能找到一个理想的模型) 。建立模型的基本准则是寻求- 7 十可以表达一定物理状态下的数学关系，要使这种关系不仅具有最大的精确度，而且还要最简单。我们希望模型既是线性的又是时不变的，这是最理想的模型。但是语音信号是一连串的时变过程，根据语音的产生机理，不能精确地满足这两种性质。此外，声门和声道相互结合，还形成语音信号的非线性特性。然而，做出一些合理的假贵州大学2 0 0 6 届硕士毕业论文第二章语音合成的基础理论知识设，在较短的时间间隔内表示语音信号时，可以采用线性时不变模型。下面将给出经典的语音信号数字模型，这里，语音信号被看成是线性时不变系统( 声道) 在随机噪声或准周期脉冲序列激励下的输出。这一模型用数字滤波器原理加以公式化后，就成为本论文的其余部分讨论语音合成技术的基础。 2 6 1 语音信号产生的物理模型长期研究证实，发不同性质的音时，激励的情况是不同的，大致分为两大类：发浊音时：此时气流在通过绷紧的声带时，冲激声带产生振动，使声门处形成准周期性的脉冲串，并用它去激励声道：发清音时：此时声带松弛而不振动，气流通过声门直接进入声道。人类的发音过程有三类不同的激励方式，因而能产生三类不同的声音，即浊音、清音和爆破音。当气流通过声门时声带的张力刚好使声带发生较低频率的张弛震荡，形成准周期性的空气脉冲，这些空气脉冲激励声道边产生浊音。如果声道中某处面积很小，气流高速冲过此处时产生湍流，当气流速度与横截面积之比大于某个门限时( 临界速度) 便产生摩擦音，即清音。如果声道某处完全闭合建立起气压，然后突然释放而产生的声音就是爆破音。我们遇到最多的就是浊音和清音。简言之，发浊音时声带发生振动，因此浊音有周期性( 准确的说是准周期性) ，而发清音时声带不振动，因此清音没有周期性。语音信号产生的物理模型框图如图2 - 3 。图2 - 3 语音信号产生的物理模型 2 6 2 激励模型 ( 1 ) 发浊声时，此时的激励信号是一个以基音周期为周期的斜三角冲激序列。对声门波形的频谱分析表明，其幅度频谱按1 2 d b 倍频程的衰减率递减。令声门脉冲滤波器全极点模型为 g ( 力2 f 驴而( 2 - 2 ) 如果g1 和9 2 都很接近于1 ，那么由之形成的浊音激励信号频谱很接近于声门气流脉冲的频谱。周期性的斜三角波脉冲可看作加权的单位脉冲串激励上述单个斜三角脉冲的结果。而单位脉冲串及幅值因子可表示成下面的z 变换形式 e ( z ) = 岛( 2 - 3 ) 1 4 贵州大学2 0 0 6 届硕士毕业论文第二章语音合成的基础理论知识所以整个激励模型可表示为 u ( z ) = g ( z ) e ( z ) = ( 1 - g t z 。1 ) ( 1 - 9 2 z 。1 ) 1 一z 一 2 6 3 声道模型 ( 2 - 4 ) 声道模型有声管模型和共振峰模型两种。由于声管模型描述声道的方法比较复杂，我t f j 共振峰模型来进行讨论。共振峰模型将声道视为一个谐振腔，共振峰是这个腔体的谐振频率。把实际声道作为一个变截面声管进行研究，采用流体力学的方法可以导出，在大多数情况下它是一个全极点函数。这样，共振峰 ( a u t o r e g r e s s i v e ，即自回归) 模型来近似，传输函数h ( z ) 表示为：日( z ) ：l ( 2 - 5 ) 1 一a k z 4 k m l 上式中，p 是极点个数即模型阶数，g 是幅值因子，a 、为模型系数。此时把截面积连续变化的声管近似为p 段圆柱声管的级联。显然，p 越人，模型的传输函数与声道实际传输函数的吻合程度越高，但是，对大多数实际应用而言，p 取8 到1 2 就已经足够了。 2 6 4 完整的语音信号数字模型完整的语音信号数字模型可以用三个子模型：激励模型、声道模型和辐射模型的级联表示。其转移函数为矿( z ) = u ( z ) h ( z ) r ( z ) ( 2 6 ) 根据上图所示的语音产生模型以及上面的分析。可以得出语音信号的数字模型如下图2 4 所示。在该图，中，清浊音开关模拟了加在声道上的激励的改变情况：当开关接在浊音位置时，激励源是准周期脉冲序列发生器，其重复频率由基音频率来确定；当开关接在清音位置时，激励源是随机噪声发生器。图中线性时变系统主要用来模拟声道的特性该系统的时变参数反映了语音的时变特性，在这个模型中，以下参数都是随时间而变化的：基音频率、清浊音开关的位置、增益以及线性系统的滤波器参数。贵州大学2 0 0 6 届硕士毕业论文第二章语音合成的基础理论知识基音周期t 2 7 小结时蹙参敷图2 - 4 语音产生的数字模型啻信号 s f n ) 本章介绍了与语音处理关系密

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）智能机器人的语音技术研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）智能机器人的语音技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档