(水声工程专业论文)一种低码率水下语音通信方法的合成算法研究.pdf_第1页
(水声工程专业论文)一种低码率水下语音通信方法的合成算法研究.pdf_第2页
(水声工程专业论文)一种低码率水下语音通信方法的合成算法研究.pdf_第3页
(水声工程专业论文)一种低码率水下语音通信方法的合成算法研究.pdf_第4页
(水声工程专业论文)一种低码率水下语音通信方法的合成算法研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 a bs t r a c t w i t ht h ed e v e l o p m e n to ft h es p e e c hc o m p r e s s i o na n dw i r e l e s sb r o a d b a n d n e t w o r kt e c h n o l o g y , t h et r a n s m i s s i o nr a t eo fu n d e r w a t e rs p e e c hc o m m u n i c a t i o n h a sr e a c h e dac e r t a i ns t a n d a r d f o rt h er e a s o no fu n d e r w a t e ra c o u s t i cc h a n n e l s o w nc h a r a c t e r i s t i c s ,i ti sd i f f i c u l tt ot r a n s m i ti nh i g hs p e e da n dl o n gd i s t a n c e t h e u s eo fs p e e c hr e c o g n i t i o na n ds p e e c hs y n t h e s i st e c h n o l o g yf o rs o u r c ec o d i n ga n d d e c o d i n gm e t h o d s ,w h i c hm a k ei te a s yt ot r a n s m i ti nl o wb i t r a t e ,c a ns o l v et h e p r o b l e mo fl i m i t e da c o u s t i cc h a n n e lc a p a c i t y h o w e v e r , i nt h er e c e i v e r , t h eq u a l i t y o fs p e e c hs y n t h e s i si sn o ti d e a l i nt h i sp a p e r , as p e e c hs y n t h e s i s sm e t h o di sg i v e n t h em e t h o dr e a l i z e ss p e e c hs y n t h e s i st h r o u g hs p e e c hc o d i n g ,o p t i m i z e ss y n t h e t i c e f f e c t st h r o u g hp r o s o d i ca d j u s t m e n t ,w i t ht h ec h a r a c t e r i s t i c so fh i 曲s y n t h e s i s q u a l i t ya n ds m a l ls p e e c hd a t a b a s e ,e s p e c i a l l ys u i t e df o rl o wr a t eo fe m b e d d e d u n d e r w a t e rs p e e c hc o m m u n i c a t i o ns y s t e m ,a n dh a v eh i 曲e n g i n e e r i n gp r a c t i c a l v a l u e p a p e rf i r s ts t u d i e dt h er e c o m m e n d a t i o ng 7 2 9 aa n dt h er e g u l a t i o nl a w so f p r o s o d yp a r a m e t e r sb e t w e e nv o c a b u l a r i e s ,a n dt h e ns i m u l a t e dt h ea l g o r i t h mo f r e c o m m e n d a t i o ng 7 2 9 a ,m a d ev o i c ed a t a b a s ea n dc o m p l e t e dt e x tt os p e e c h o n t h i sb a s i s ,p a p e rs i m u l a t e dt h ea l g o r i t h mo ft i m e - p e r i o dt o n ep i t c h ,a m p l i t u d et o n e t a i l ,a n da n a l y z e dp r o s o d i cp a r a m e t e ra d j u s t m e n tl a w s ,f i n a l l y , r e a l i z e d a t e x t - t o - s p e e c hc o n v e r s i o ns y s t e mo fs m a l lv o c a b u l a r y t h r o u g ht h et e x t - t o s p e e c hc o n v e r s i o ns y s t e m ss u b je c t i v ep e r c e p t i o nt e s t , t h er e s u l t ss h o w e dt h a tt h er e c o n s t r u c t e ds p e e c hw a sc l e a ra n df n a t u r a l ,b e s i d e s , t h ea l g o r i t h mh a dm o d e r a t ec o m p l e x i t ya n ds m a l ld e l a y , w h i c hw a ss u i t a b l ef o r u n d e r w a t e rm i c r ov e c t o ra n de m b e d d e ds y s t e mo fw i r e l e s ss p e e c hc o m m u n i c a t i o n b e t w e e nd i v e r sa n ds u b m a r i n e k e yw o r d s :u n d e r w a t e rs p e e c hc o m m u n i c a t i o n ;s p e e c hs y n t h e s i s ;p r o s o d i c a d j u s t m e n t ;r e c o m m e n d a t i o ng 7 2 9 a 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下, 由作者本人独立完成的。有关观点、方法、数据和文献的引 用己在文中指出,并与参考文献相对应。除文中已注明引用 的内容外,本论文不包含任何其他个人或集体已经公开发表 的作品成果。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律结 果由本人承担。 作者( 签字) :洲删够 日期:撕尹年令月,夕日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可口在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :毋扣够导师 ( 签字) :芦荔器 日期:o 州年旁月,夕日汐1 年矿汨7 日 f 7 f 哈尔滨丁程大学硕十学位论文 第1 章绪论 1 1 论文研究的背景及意义 二十一世纪被称为是海洋的世纪。伴随着科技的不断创新,海洋开发扮 演着越来越重要的角色。其中,水下语音通信是一个重要的发展方向,无论 是在军用还是民用方面,都有着广阔的发展前景。军用方面,建立水下语音 通信系统在于解决潜艇之间、舰艇与潜艇之间或者舰艇与蛙人之间信息的传 递,命令的传达等问题,其重要性不言而喻;民用方面,无缆水下机器人、 工业用海岸遥测和水下人工智能等,无不使水下语音通信的需求大大增加, 更使得水下语音通信的商用价值突显。 众所周知,陆上语音通信的发展,是有线、无线通信二者并举的,而且 都取得了巨大的成功。然而由于海洋环境的特殊性,水声信道环境恶劣,水 下语音通信的发展却远远滞后。因此,水下语音通信大多利用有线的方法。 利用水下电缆实现语音通信,与陆上有线信息传输非常相似,可以对陆上现 成的有线传输技术搞“拿来主义 ,直接使用。但是,有缆通信在应用中存在 着诸多弊端。比如两艘潜艇之间,不可能靠电缆这种介质实现二者的通信。 海洋中生物的多样性,海洋海底地质活动,也使定点水下设备间通信受影响。 这种“脐带”的影响,无形间给水下语音通信带上了枷锁。 无线水下通信技术的运用摆脱了有线传输的这种束缚。无线水下语音通 信,与陆上无线语音通信的主要区别在于信息的传输载体。声波在水下通信 中是唯一行之有效的信息载体。经典的语音通信系统是语音信息在发送端通 过信源和信道编码、信号调制,经水声信道传输,在接收端解调、信道和信 源解码实现的。但由于水声信道复杂、多变,具有多途效应、高噪声、带宽 有限等特性,使得语音通信受到距离限制,不能远距离传输,而且误码率较 高,保证不了通信的实时性。实际上在水下语音通信应用的场合中,语音所 涉及的内容往往是指令和情况的报告等。因此,传输这类语音时并不要求所 传送的声音能真实地再现说话人的音色,而是要求语音有较高的清晰度和可 懂度,能真实地反映说话人的语意【l 】。语音识别与语音合成技术在水下语音 哈尔滨工程大学硕十学位论文 通信系统的运用,大大降低了水下语音通信对速率的要求,使得水下语音通 信能够远距离、低误码率传输,从而达到了改进水下语音通信系统的目的。 目前,改进的水下语音通信系统还处在实验室阶段,其技术还远未成熟。 在水下语音通信中,所用到语音合成技术,具体适合用哪种合成算法,能满 足系统实时性的要求,而且合成语音的话音饱满,自然度和可懂度高,易于 嵌入式系统的实现等关键技术,还有待仔细研究。因此,语音合成技术是搭 建改进型水下语音通信系统的关键技术之一,对研究水下语音通信有着重要 的意义。本课题正是在这个背景下立题,具有一定的工程实用价值。 1 2 水下语音通信系统综述 1 2 1 水声信道的特点 水声通信的目的是通过水下声信道,将数据源发出的信息以最大可能的 数据传输速率和尽可能高的可靠性发送到接收端。水声信道是水声通信的前 提条件,通信质量的好坏取决于信道的物理特性。从通信的观点出发,水声 信道对数据传输性能的影响主要体现在以下这几个方面 2 - 4 1 : 1 、通信带宽有限 由于声波在传播过程中的几何扩展和物理吸收( 介质的粘滞、散射、反 射、热传导等) ,引起声波能量的损失。这种能量的损失随着通信系统作用距 离和工作频率的增加而增加,其中声吸收损失系数与声波频率的平方成正比。 这就限制了水声通信系统的最大作用距离和最高频率,进而限制了系统信道 的通信带宽。 2 、多途效应影响 水声信道是缓慢时变的相干多途信道,在相干时间长度内,可简化为相 干多途信道,仅存在多途效应。多途传播引起信号时间扩展。在浅海,多途 扩展时间可达几百毫秒,而在深海扩展时间可至几秒。在所传送的码元间隔 小于多途时间扩展的情况下,水声信道的多途效应将导致水声通信系统接收 端信号中出现码间干扰,从而引起误码,降低系统的可靠性。多途效应是水 声通信系统设计中最难克服的障碍,也是限制水声通信系统性能的主要因素。 3 、噪声干扰 哈尔滨工程大学硕士学位论文 水声通信的主要背景干扰是噪声干扰,主要是海洋环境噪声和本地噪声, 它影响系统的接收信噪比,从而影响通信距离和可靠性。噪声和多途效应在 远程和近程通信中对可靠性的影响不同:远程通信中,噪声和多途效应共同 影响通信可靠性,而在近程通信中,多途效应的影响是主要的。 4 、多普勒效应的影响 信道的时变、空变性,以及接收机与发射机之间的相对运动均可导致多 普勒频移效应,它与收发点相对运动的速度及工作的频率成正比关系。由于 信号的多普勒频移,导致解码时系统检测能力降低,在某些情况下,为考虑 多普勒容限,甚至还要降低系统的通信速率。 从以上影响因素可以看出,这给水声通信的研究带来很大的难度,如何 适应水声信道,或者更好的利用水声信道,是当前水声通信的一个瓶颈。 1 2 2 水下语音通信系统的系统构架 l 、经典水下语音通信系统概述 正如陆上无线通信系统,水下语音通信系统也包括发送端、传输信道和 接收端三部分【5 ,其系统构架如图1 1 所示。 语语 音信信 调接 信信 立 日 信 源 一 道 制 水声信道 收 道 源信 号编编 1 , 及及 + 解解 _ - 号 采码 码 发解 码码输 射调 出 集 图1 1 水下语音通信系统 发送端信号处理的过程是:用适当的传感器( 如话筒) ,实现语音信号的 采集,将原始语音信息转变成电信号送入a d 进行模数变换,产生的数字信 号送入语音编码模块并完成信源编码和信道编码功能,形成低码率的数字信 号,调制部分是根据水声信道的特点和要求把编码后的符号以适当的方式调 制到一定频率的载波上,最后送往发射机,经由发射机转化为声信号。 接收端信号的处理过程与发送端是一个相反的过程:经信道传输的接收 信号经预处理( 放大、滤波、增益控制、a d 采样) 过程,实现信号的解调, 再进行信道与信源解码,最后通过d a 重建语音信号。 哈尔滨工程大学硕士学位论文 2 、改进的水下语音通信系统概述 正是由于水声信道复杂、多变,具有多途效应、高噪声、带宽有限等特 性,使得语音通信受到距离限制,不能远距离传输,而且误码率较高,保证 不了通信的实时性。为了能够在有限容量的信道中,利用少量编码实现有效 的信息传输,就需要对现有的水下语音通信系统做出必要的改进。水下语音 通信,顾名思义,是对语音信号的压缩编码和传输。如果,将语音信号转变 为文本信息,再对文本信息进行编码传输,这样传输的数据量就会下降很多。 不妨举一个例子:对二字语音以8 k h z 进行采样,采样精度为1 6 b i t ,那么得 到的语音信息的大小为4 2 8 k b i t ,而这个二字语音的文本所占用的空间大小为 8 b i t ,如果是按照拼音编码,那么它的大小也只是几十b i t ,可以非常明显的 看出来,对不同形式的相同信息进行传输,其数据量是远远不同的。后者比 前者少的,仅仅是说话人的语气,音色等信息,但却能达到长距离、实时性 好的通信目的。实际上在水下语音传输应用的场合中,语音所涉及的内容往 往是命令、指令和情况的报告等,因此,传输这类语音时并不要求所传送的 声音能真实地再现说话人的口音与音色,而是要求语音有较高的清晰度和可 懂度,能真实地反映说话人的语意。因此,如果能将语音信息先转换为文本, 然后将文本信息编码传输,而在接收端将文本信息转换为语音输出,就实现 了水下语音通信系统的改进。将语音信息转换为文本信息,利用的是语音识 别技术,而将接收到的文本信息转化为语音信息,利用的语音合成技术。改 进的水下语音系统的系统构架如图1 2 所示。 语语 音语信 调 接 信语音 信音道 制收 道音信 号 - - - 编 h - 及 水声信道 及 1 解 厶 + 识 发解 口号 采 别码 射调 码成 输 集 出 图1 2 改进水下语音通信系统 1 2 3 水下语音通信系统语音合成模块的作用 在改进的水下语音通信系统中,与经典水下语音通信系统的不同之处在 于在原有系统中加入了语音识别模块和语音合成模块。其中,语音识别模块 4 哈尔滨工程大学硕士学何论文 是将语音信号转换为文本信息,而语音合成模块是将文本信息还原为语音信 号输出。当然,这里得到的语音信号,不是发送端说话人的语音,而只是实 现语意通信的目的。如果是潜艇间通信,那么,在语音合成模块中,语音数 据库中存储的经常下达指令者的信息数据。这样,对通信双方就不会有什么 影响。 语音合成模块的基本构成是一个文语转换系统。所谓文语转换系统,就 是将文本信息,通过文本分析,得到韵律信息,将预先存储的语音数据库中 的语音信息按照指定的语音合成算法加以处理,得到理想的语音信号。 在水下语音通信系统中,不同类型的水下潜器,利用的语音合成方法不 同。例如:潜艇间的语音通信,语音合成模块一般是靠现有的计算机实现; 而潜艇和蛙人之间的通信,由于设备要求便于携带,要靠微小型嵌入式语音 通信系统实现。无论哪种实现方式,系统实时性技术指标的限定对语音合成 算法的复杂度有一定要求,即在合成效果良好与合成用时短二者之间平衡。 1 3 语音合成技术的国内外研究现况 综观语音合成技术的研究己有二百多年的历史,真正有实用意义的近代 语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的, 主要是让计算机能够产生高清晰度、自然度的连续语音【6 】。近几十年来国际 和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言。 国外早期的研究主要是采用参数合成方法,其最具代表性的文语转换系 统是美国d e c 公司的d e ct a l k ,该系统采用k l a t t 的串并联共振峰合成器, 合成的语音发音清晰,并可产生七种不同音色的声音,供用户选择。八十年 代末至今,基音同步叠加( p s o l a ) 方法的提出,使基于时域波形拼接方法 合成的语音音色和自然度大大提高【7 】。九十年代初,基于p s o l a 技术的法语、 德语、英语、日语等语种的文语转换系统都已经研制成功。 国内的汉语语音合成研究也经历了共振峰合成、l p c 合成到应用p s o l a 技术的过程。中国科学院声学所的k x p s o l a ,联想佳音,清华大学的 t h s p e e c h ,中国科技大学的k d t a l k 等系统。这些系统基本上都是采用 基于p s o l a 方法的时域波形拼接技术,其合成汉语普通话的可懂度、清晰 哈尔滨工程大学硕士学位论文 度达到了很高的水平。然而这些系统合成的句子及篇章语音“机器味”较浓, 其自然度还不能达到用户可广泛接受的程度,制约了该技术大规模进入市场。 将语音合成技术应用于水下语音通信系统的情况还比较少。国内的汉语 语音合成应用于水下语音通信系统,在有限词汇语音合成方面,哈尔滨工程 大学研制的“某语音合成指令系统”等几项成果获国家部级科技成果奖,并 多次在国内以至北京某博物馆中展出。厦门大学将语音合成应用于水下语音 通信系统,其合成算法是利用现成的m 的p c 机语音合成工具,总体来说 也是利用计算机实现的语音合成,并不能在嵌入式系统中应用。因此,要实 现改进型水下语音通信系统还需要投入更大更多的精力。 1 4 论文的主要研究内容 论文的主要任务是研究适合嵌入式微小型水下语音通信的语音合成算 法,以达到算法复杂度适中,合成语音自然,清晰度高,系统实时性好的要 求。在对主要算法做仿真研究、测试的基础上,论文还对文语转换系统的其 他部分进行建模,包括:研究语音压缩算法,建立压缩语音数据库;分析词 汇间的语音衔接特点,并且得到词汇间语音参数的主要衔接规律。最后,对 小词汇量文语转换系统进行仿真研究,测试合成语音的话音质量,得出系统 可行性结论。 论文在确定了整个语音合成算法以词汇为合成基元的设计方案以后,以 下三个部分为重点研究内容: l 、仿真g 7 2 9 a 协议标准基于共轭结构的代数码激励线性预测语音编码 的语音压缩和参数译码算法; 2 、分析词汇间语音韵律参数的特点,研究韵律参数的调节规律: 3 、构建小词汇量语音合成仿真系统,对合成语音的质量进行主观听辨测 试,得到语音合成算法是否适用于水下语音通信系统的可行性结论。 其中,g 7 2 9 a 协议语音压缩算法是论文的难点,具体涉及基音周期的提 取算法,线性预测矢量量化、码本增益矢量量化算法,固定码本搜索算法等 等,论文中都做了仔细研究。 6 哈尔滨工程大学硕士学位论文 第2 章语音合成技术基础 2 1 语音信号处理基础 贯穿于语音分析全过程的是短时分析技术。语音信号从整体来看其特性 及表征其本质特征的参数均随时间变化,是一个非平稳过程,不能用处理平 稳信号的数字信号处理技术对其进行分析和处理。但由于不同的语音是由人 的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对 于语音频率来说是一个准稳态过程,即语音信号具有短时平稳性。将语音信 号分段来分析其特征参数,其中每一段称为一帧,按帧来处理是语音信号处 理的前提。 2 1 1 语音信号的数学模型 总体来说,语音信号的产生是:用准周期脉冲或白噪声激励一个线性时 不变系统( 声道) 所产生的输出作为语音的模型【8 】。 根据发音器官和语音产生的机理,可以将语音生成系统分成三个部分, 在声门以下,称为声门子系统,它负责产生激励的振动,构成激励模型;从 声门到嘴唇的呼气通道是声道,构成声道系统;语音从嘴唇辐射出去,嘴唇 以外构成辐射模型。 1 、激励模型 激励模型 声道参数 开关 : 声道模型辐射模型 图2 1 语音信号产生的数学模型 哈尔滨丁程大学硕士学位论文 激励模型分为浊音和清音激励来讨论。浊音激励是一个以相对固定的时 间段为周期的斜三角脉冲串,这个相对固定的时间段能够表征语音信号的一 些特征,称之为基音周期。而清音激励模拟成随机白噪声,一般使用均值为 0 、方差为1 ,并在时间和幅值上为白色分布的序列。 2 、声道模型 声道模型中最常用的是“共振峰模型”。共振峰模型,是把声道视为一个 谐振腔。共振峰就是这个谐振腔的谐振频率。共振峰是在特定的频率区域聚 集大量声能的语音表现。一般来说,一个元音用前三个共振峰表示就足够了。 3 、辐射模型 辐射模型实质上是一个一阶的类高通滤波器。由于除了冲激脉冲串模型 之外,斜三角波模型是一个二阶低通滤波器,而辐射模型是一个一阶高通滤 波器,所以,在实际信号分析时,常用所谓的“预加重 技术。即在取样之 后,插入一个一阶高通滤波器。这样,就只剩下声道参数的分析了,在语音 合成时,再进行“去加重”处理,就可以恢复出原来的语音。 2 1 2 语音信号的时域分析 2 1 2 1 语音信号的数字化与预处理 语音信号的数字化一般包括放大及增益控制、预滤波、a d 变换及编码, 而预处理一般包括预加重、加窗和分帧等【8 - 9 】。 1 、预滤波 预滤波也叫抗混叠滤波,其主要作用有- - 一是抑制输入信号的各频率 分量中频率超出z 2 的部分( z 为采样频率) ,以防止混叠干扰:二是抑制 电源干扰( 5 0 h z ) 。因此,抗混叠滤波器必须是带通滤波器,其上下截止频 率分别是厶和无。对于目前绝大多数语音编码器,厶= 3 4 0 0 h z ,无= 6 0 一 8 0 h z ,z = 8 k h z 。 2 、a d 变换 a d 变换应该注意的是量化过程产生的量化噪声。量化噪声具有以下统 计学特征:是平稳的白噪声过程,与输入信号不相关,在量化间隔内均匀分 布,即等概率密度分布。 哈尔滨工程大学硕士学位论文 如果用吒2 表示输入语音序列的方差,2 墨。表示输入信号的峰- 峰值,b 表示量化字长,吒2 表示噪声序列的方差,可以证明量化信噪比s n r 为: s n r :1 0 1 9 譬:6 0 2 b + 4 7 7 2 0 1 9 x m a x ( 2 1 ) o eo x 设语音信号的幅度服从拉普拉斯分布,此时信号幅度超过4 仃,的概率很 小,可以取4 吒= 墨。,则上式可以表示为: s n r = 6 0 2 b 一7 2( 2 2 ) 式( 2 2 ) 表明量化器中每比特字长对信噪比的贡献是6 d b ,语音信号的 动态范围一般为5 5 d b ,故b 应取1 0 b i t 以上。为了在语音信号内保持3 5 d b 的信噪比,常用1 2 b i t 量化。 3 、预加重 由于语音信号的平均功率谱受到声门激励和口鼻辐射的影响,大约在 8 k h z 以上的高频端以6 d b 倍频程跌落。所以,语音信号的频率越高,相应 的能量越小。预加重处理的主要是为了提升高频部分,使整个信号的频谱变 得平坦。预加重处理一般是在语音信号的数字化以后,参数分析之前实现, 是一阶数字滤波器,其传递函数为: h ( z ) = 1 一z 一1 ( 2 3 ) 式中,为常系数,常取0 9 2 0 9 4 之间。 4 、窗函数 语音信号经预加重数字滤波以后,需要进行加窗分帧处理。一般每秒的 帧数为3 3 到1 0 0 帧,虽然分帧可采用连续分段的方法,但一般采用交叠分段 的方式,以使帧与帧之间的信号平滑过度,保持其连续性。分帧用可移动的 有限窗函数加权的方法实现,即用窗函数0 ) 与语音信号x ( n ) 相乘,产生窗 选语音信号( ,1 ) 。 x a , ( n ) = x ( 以) ( ,z ) ( 2 4 ) 不同的短时分析方法,求取不同的语音特征参数对窗函数的要求不尽相 同。一般来讲,好窗函数的标准是,在时域要减小时间窗两端的坡度,使窗 哈尔滨工程大学硕士学位论文 口平滑过度到零,以使截取出的语音信号波形缓慢降至零,减小语音帧的截 断效应:在频域要有较宽的3 d b 带宽和较小的边带最大值。 窗口长度n 的选择,往往是根据取样周期z ( z = l f , ) ,窗口长度和 频率分辨率厂的关系式: 鲈= 1 ( n t , ) ( 2 - 5 ) 当取样周期一定时,频率分辨率随窗v i 宽度的增加而减小,即频率分 辨率提高,时间分辨率下降。因而,取样周期和频率分辨率是矛盾的,要折 中考虑。有时窗口长度的选择,要考虑语音信号的基音周期,一般一个语音 帧内应含有2 7 个基音周期。 2 1 2 2 短时能量及短时平均幅度分析 设语音信号加窗、分帧处理后的第n 帧语音信号为: ( 优) = w ( m ) x ( n + m ) ,0 m n - 1 ( 2 6 ) 其中w ( m ) 在0 至1 之间为1 ,n = o ,1 t ,2 t ,为帧长,丁为帧移。 设第, 帧语音信号吒( 珑) 的短时能量用e 表示,则其计算公式为: n - i e = x n 2 ( 聊) ( 2 7 ) m = o 短时能量e 序列反映了语音振幅或能量随着时间缓慢变化的规律 1 0 】。但 它有一个缺陷,由于计算时用的是信号的平方,对高电平非常敏感。为此, 可以采用另一个度量语音幅度值变化的函数,即短时平均幅度函数m 。,它 定义为: v i m 。= i x ( m ) l ( 2 8 ) r a = o 短时平均幅度函数m 。也是语音信号能量大小的表征【l o 】,它与e 的区别 在于计算时小取样和大取样值不会因取平方而造成较大差异,在某些应用中 会带来一些好处。 1 0 哈尔滨工程大学硕十学位论文 短时能量和短时平均幅度的主要用途有:区分清音段和浊音段,因为语 音为浊音时的短时能量值比清音时大得多;在高信噪比的语音信号中,可以 用来区分有无语音,声韵母和连字的分界。 2 1 2 3 短时过零率 过零分析是语音时域分析中最简单的一种,顾名思义,“过零”是指信号 通过零值。对于连续语音信号,可以考察其时域波形通过时间轴的情况。而 对于离散时间信号,如果相邻的取样值改变符号则称为过零。由此可以计算 过零数,短时过零率就是样本改变符号的次数。定义语音信号吒( m ) 的短时 过零率z 。为: 乙= 妻ls 弘【邑沏) 卜s 印k ( 朋一1 ) 】l ( 2 - 9 ) 式中,s g n 为符号函数,即: s 印c x ,= ! :。,气;兰) 0 , c 2 - 。, 求过零率时,应该注意如果输入信号中包含有5 0 h z 的工频干扰或者a d 变换器的工作点有偏移( 等效于有直流输入) ,往往会使计算的过零率参数很 不准确。解决的方法是抗混叠滤波器和去除直流干扰。 过零率可以用来粗略区分清音和浊音【l o 】。根据声学原理,发浊音时能量 主要集中在3 k h z 以下,发清音时,多数能量出现在较高频率上。高频意味 着高的过零数,低频率意味着低的过零数,因而发浊音时具有较低的过零数, 发清音时具有较高的过零数。 2 1 2 4 短时相关分析 i 、短时自相关函数 短时语音信号矗( ,z ) 的自相关函数r ( 七) 的计算公式定义如下: - 1 - k r ( 尼) = h ( ,z ) ( ,z + 七) ( o 七k ) ( 2 1 1 ) m = 0 哈尔滨丁程大学硕七学位论文 式中k 是最大的延迟点数,它所具有的性质为:如果以( m ) 是周期的,则自 相关函数是同周期的周期函数;兄( 尼) 是偶函数,即r ( 七) = r 。( - k ) ;当k - = o 时,自相关函数具有最大值,并且r 。( o ) 等于确定性信号序列的能量或随机性 序列的平均功率。 短时自相关函数的特点是:是等长序列的乘积和,而且随着延迟k 的增 加,乘积和的项数减少。在利用传统自相关函数计算波形周期时,如果窗长 不够长,包含的周期数不够多,会给计算周期带来困难。避免这一情况的主 要方法是使得窗长最好大于信号的2 个基音周期的长度【l o 】。 2 、修正的短时自相关函数 修正的短时自相关函数是利用两个长度不同的窗口,截取两个不等长的 序列进行乘积和,两个窗口的长度差最大的延迟点数k 。这样就能始终保持 乘积和的项数不变,即始终为短窗的长度。修正的自相关函数定义为: 幽 耳k ) = ( m ) 。( 朋+ 七) ( 0 k k ) ( 2 - 1 2 ) ( 聊) = w ( m ) x ( n + 研)( 0 m n 一1 ) ( 2 - 1 3 ) 咖):11肌。2二!i:1)(2-14,i 坝朋) 2 o ,肌:其他值 毛( 肌) = w ( 小) 工( 刀+ m ) ( 0 m n - i + k ) ( 2 1 5 ) w ( m ) :n m = 0 廿- ! 笔1 + 目 ( 2 1 6 ,1 w ( m ) 2 o扰:其他值 2 。1 6 ) 严格地说,扁尼) 具有互相关函数的特性,而不是自相关函数。因为愈七) 是两个不同长度语音段的相关函数。扁j j ) 在周期信号的周期倍数上有峰值, 所以氯o ) 与最接近的第一个最大值点仍然代表基音周期的位置。 2 1 2 5 短时平均幅度差函数 短时平均幅度差函数能够代替自相关函数进行语音分析,是基于理论: 如果信号是完整的周期信号,则相距为周期的整数倍的样点上的幅值是相等 的,差值为0 。为此,定义短时平均幅度差函数e ( 后) 为: 哈尔滨工程大学硕士学位论文 n - 1 - k e ( 后) = i 无( 埘) 一( 肌+ 尼) m = 0 ( 2 1 7 ) 由上式可知,信号在周期的整数倍上具有谷值而不是峰值,并且f ( k ) 只 需要加、减和取绝对值的运算,与自相关函数的加法与乘法相比,其运算量 大大减少,尤其在硬件实现语音信号分析时很有好处【l o 】。 2 1 3 语音信号的线性预测分析 语音分析的各种技术中,线性预测技术是第一个真正得到实际应用的技 术。在估计基本的语音参数( 如基音周期、共振峰频率、谱特征等) 方面, 线性预测分析( u a ) 是一种主要的分析技术 9 - 1 l 】。其重要性在于它能够精 确的估计语音学参数,可以用少量的参数准确有效的表示语音波形及其频谱 的性质,并且计算l p a 参数方法固定、简便。 1 、线性预测分析的基本思想 利用语音信号之间的相关性,用过去的取样值来预测现在或未来的取样 值,即用过去若干个语音信号的取样值的线性组合逼近一个语音信号的取样 值。在某个测度准则下,通过使实际的取样值与预测值之间的差别达到最小, 确定唯一的一组预测系数。 2 、线性预测分析的基本原理 既然利用过去样本的值来预测当前样本的取样值( l p c 的基本原理) , 那么不妨设毒( 刀) 是n 时刻未知语音样值s ( 以) 的预测值,s ( n 一1 ) , s ( n 一2 ) ,e o oo to i t s ( n p + 1 ) ,s ( n p ) 是信号的过去p 个样本值。那么g ( n ) 可 以表示为: p ;( ,1 ) = 一口芦( 珂一f ) ( 2 - 1 8 ) i = 1 式中各系数a ,皆为实数,称为预测系数。用s ( n ) 表示预测值i 0 ) 和真值s ( n ) 之 间的预测误差,则有: p 占( 栉) = j ( 刀) 一j ( ,z ) = j ( 挖) + a i s ( n - i ) ( 2 1 9 ) f - i 哈尔滨1 = 程大学硕士学位论文 其传递函数: 调整后为: p e ( z ) = s ( z ) + 口f z s ( z ) ( 2 - 2 0 ) i = 1 迎:;! ( 2 2 1 ) ( z ) 1 + 童叩一, 一 前文中提到的声道模型中,声道模型表示出了离散时域的声道传递函数, 把实际声道作为一个变截面的声管加以研究,采用流体力学的方法可以导出, 在大多数情况下它是一个全极点函数。一个已知的序列s ( n ) 是一个未知序列 p ( 甩) 激励一个未知系统所产生的,并且假设此未知系统是一个线性移不变因 果稳定系统,其系统框图如图2 2 所示。 其传递函数为: e ( z ) g 图2 2 声道模型的系统全极点模型 m ) - 去2 刍确- 1 ( 2 - 2 2 ) 比较式( 2 2 1 ) 和式( 2 2 2 ) ,因果稳定的线性移不变全极点系统的传递 函数和线性预测信号误差比是一致的,占( 咒) = g e ( n ) ,只是相差了一个增益常 数。如果按照均方误差最小准则设计预测误差滤波器时,所得的预测其系数 和上述模型中给出的模型参数有相同的值。因此,可以通过求解线性误差滤 波器,也就是求解l p a 系数来确定语音产生的声道模型参数。利用l p a 系 数可以进行谱估计和基音检测等方面的应用,是语音信号处理中常用的技术 方法之一。 3 、线性预测的几种推演参数【1 2 】 哈尔滨工程大学硕士学位论文 线性预测分析方法所求得的是一个全极点的系统函数,形式上也是一个 递归滤波器。在全极点语音产生模型假定下,也存在不同的参数表达方法。 这些参数是由l p a 系数推演出来的。 ( 1 ) 线谱对参数( l i n es p e c t r u mp a i r ) 线谱对又称为线谱频率,是线性预测系数的一种推演参数。线谱频率表 示声门完全闭合或者完全开启状态下声管的谐振频率。线谱对分析是用p 个 离散频率弛和谚的分布密度来表示语音信号频率特性的一种方法,是具有良 好的量化特性和插值特性的参数,已在语音编码、合成与识别中广泛适用。 ( 2 ) 反射系数 反射系数也称为部分相关系数,由于它是与多节级联无损声管模型中的 反射波相联系的,因而通常称之为反射系数。反射系数最大的好处是其值的 取值范围是在一1 缸1 之间,是保证系统函数稳定的充分必要条件。 另外,还有几个推演的线性预测推演参数,如全极点系统的冲激响应, 预测器多项式的根,对数面积比等等,这在基于共轭结构的码激励线性预测 语音编码算法中都有使用,也是常用的推演参数。 2 2 语音信号的矢量量化技术 矢量量化是非常高效并且极其重要的编码技术,广泛应用于语音编码、 语音识别与合成、图像压缩等领域。矢量量化是由标量量化推广和发展而来 的。标量量化是用若干个离散的数字值来表示每一个幅度具有连续取值的离 散时域信号( 采样信号) ,矢量量化则是将若干个幅度连续取值的时域采样信 号分成一组,即构成矢量,然后用若干离散的数字值( 或称为标号) 来表示 各种矢量。矢量量化的研究目的在于针对特定的信息源和矢量维数,找到一 种优化的矢量量化器,使它能够在量化速率一定时给出最低的畸变 1 3 - 1 5 】。 2 2 1 矢量量化的基本原理 把k 维输入矢量x xcr k 映射为另一个k 维量矢量】,即 一 y y = x ,e ,kz r k ) ( 2 2 3 ) 其数学表达式为:y = q ( x ) ( 2 2 4 ) 哈尔滨工程大学硕士学位论文 式中,y 为量化矢量,k 为输出空间,尺k 为足维欧式空间。 2 2 2 矢量量化的失真测度 失真是将输入信号矢量用码本中的重构矢量来表征时的误差所付出的代 价。这种代价的统计平均值( 平均失真) 描述了矢量量化器的工作特性。在 矢量量化器的设计中,失真测度的选择是很重要的。失真测度选用的是否合 适,将直接影响整个矢量量化系统的性能。 要使所选择的失真测度具有实际意义,失真测度应该具有以下特性:第 一,必须在主观评价上有意义,小的失真对应好的主观语音质量或良好的识 别率;第二,数学上易于实现,从而可以用于实际的矢量最化器设计;第三, 统计平均值( 平均失真) 存在并且可以计算。常用的失真测度有如下几种: 平方失真测度:d ( x ,y ) = lx e l i 2 = ( 而一y i ) 2 ( 2 2 5 ) t 绝对误差失真测度:d ( x ,y ) - - - - i x - y = l t mi ( 2 - 2 6 ) f 加权平方失真测度:d ( x ,”= ( x 一】,) w ( x 一】,) ( 2 - 2 7 ) 2 2 3 最佳矢量量化器 设计最佳的矢量量化器就是使畸变统计平均失真测度最小。由于码本是 在这一个过程中产生的,所以这也就是码本的设计、建立过程。在矢量量化 器的最佳设计中,重要的问题是如何划分量化区间和确定量化矢量。这涉及 设计最佳量化器的必要条件:一是在给定码本y 的条件下,寻找信源空间的 最佳划分,使平均失真最小;二是在给定划分的条件下,寻找最佳码本,使 平均失真最小。 对于最佳划分的情况,由于码本k 已知,信源空间x 中的任意一矢量 x ,如果它和码字的失真小于它和其他任何码字的失真,则此划分为最佳划 分。由于给定码本中共有个码字,因此,可以把信源空间划分成个胞腔。 最佳码本的情况,在给定了划分后,为了使码本的平均失真最小,码字 必须为相应划分的形心,这就为划分码本提供了基础。 1 6 哈尔滨工程大学硕士学位论文 最具代表性的矢量量化器的算法是l b g 算法,是已知训练序列的前提下 设计码本算法。其具体设计过程如下: 第一步:定初始码本冗) ,即给定码本大小和码字 x 0 ,艺,瓦) , 并置刀= 0 ,设起始平均失真d ( - ”_ o o ,给定计算停止门限e ( o s 1 ) ; 第二步:将码本瓦o 作为已知形心,根据最佳划分原则把训练序列 t s = ( 五,置,以 划分为人r 个胞腔; 第三步:计算平均失真和相对失真d ( ”,如果d “占,则停止计算,当 前码本为设计好的码本,否则进行第四步; 第四步:利用上式计算这时划分的各胞腔的形心,由这个新形心 k 似“,匕伽+ 1 ,k 和“ 构成的新码本瓦o + 1 ) ,并置,z = 甩+ 1 ,返回第2 步再进 行计算,直到d ( ”1 s ,得到所要求的码本y = 瓦n “为止。 2 2 4 多级矢量量化和分裂式矢量量化 在语音编码和语音合成中,常用的矢量量化是多级矢量量化和分裂式矢 量量化 1 5 】。多级矢量量化的作用是降低计算的复杂度和存储量,分裂式矢量 量化是将一个矢量分列为若干个子矢量,然后对每个矢量分别矢量量化。这 样做的好处是在没有降低量化精度的前提下,降低了搜索算法的复杂度。大 多数时候,是二级矢量量化和分裂式矢量量化共同作用的结果。其中,两级 矢量量化器是多级矢量量化器中相对简单的一种,性能上最接近于全搜索矢 量量化器,使用得较多,其原理图如图2 3 所示。 编码器译码器 图2 3 两级矢量量化的编码器和译码器 两级矢量量化器的工作原理是:输入矢量首先在第一级量化器中进行量 化,得到相应的量化矢量e ,并将下标f 送入信道,然后由x 减去l 形成误 哈尔滨工程大学硕士学位论文 差矢量e = x z ,e 是第二级量化器的输入矢量,它在第二量化器中量化 得到量化矢量s ,并将其下标,的编码送入信道。译码时,把收到的f 和的 编码译成f 和,再找出z 和s ,将他们相加就得到重构输入矢量。 使用分裂式矢量量化时,如对线谱频率采用分裂式矢量量化,可能出现 系统不稳定的现象。虽然每个矢量内保持有序性,但每个矢量的衔接处的有 序性可能遭到破坏,应设法改进。 2 3 文语转换系统 所谓文语转换( t e x t t o s p e e c h ,简称t t s ) 系统,就是将文本通过文本 分析,得到韵律信息,将预先存储的语音数据库中的语音信息按照指定的语 音合成算法加以处理,得到理想的语音信号 1 6 】。 2 3 1t t s 系统组成 t t s 系统输出的语音应当音质清晰,自然流畅。语音的自然度取决于其 发音声调的变化,而在连续语流中,字的发音不仅与这个字本身的发音有关, 而且还受到它前后相邻字的发音及语气表达的影响。在t t s 系统中,必须事 先对文本进行分析,根据上下文的关系确定每个字发音的韵律变化,然后用 这些韵律变化参数控制语音的合成。因此,t t s 系统的核心应包含文本分析、 韵律控制、语音合成和语音语料库四个模块【9 】。其结构如图2 4 所示。 韵律控制 j i 文本信息h 文本分析h 合成模块h 输出语音 f 语音数据库 图2 4t t s 系统 2 3 2 文本分析模块 文本分析的主要功能是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论