已阅读5页,还剩68页未读, 继续免费阅读
(电子科学与技术专业论文)基于非线性理论的汉语语音的分析及预测.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 目前语音信号的分析与预测都是采用线性理论和线性预测技术, 而语音信号的产生系统是一个复杂的非线性时变系统,而且具有混沌 性和分形特征,所以采用线性方法是不够的。因此,论文在深入研究 了汉语语音信号非线性特性的基础上,结合径向基神经网络( 简称 r b f 神经网络,r a d i c a lb a s i sf u n c t i o nn e t w o r k ) 设计了一个非线性 预测模型。 论文首先对语音信号非线性预测的理论依据以及预测工具进行 了分析,并研究相空间重构参数延迟时间和嵌入维数的确定方 法,针对c c 算法求解出汉语语音音素的延迟时间和嵌入维数的结 果存在局限性,结合自相关算法、虚假近邻法分别求解出音素的延迟 时间和嵌入维数。针对实验中采样率的选择问题,论文运用统计分析 的方法进行了研究,所得结果表明不同的采样率对延迟时间和嵌入维 数的影响很小。 其次,在非线性理论的基础上,论文对汉语语音音素非线性特征 参数的求解算法进行了研究,采用w o l f 算法计算出音素的最大 l y a p u n o v 指数及g p 算法求解出音素的关联维数,结果表明汉语语音 信号具有混沌特性。 最后论文基于汉语语音信号的非线性特征,结合r b f 神经网络 的分析方法设计了一个非线性预测模型。在该模型中神经网络输入层 和输出层神经元个数由汉语语音音素的延迟时间的均值确定,隐含层 神经元的个数由音素的嵌入维数的均值确定。仿真结果表明:论文基 于r b f 神经网络理论设计的非线性预测模型与线性预测模型相比, 预测误差明显减小,预测性能及精度上有了提高。 关键词汉语语音信号;混沌;分形;r b f 神经网络;非线性预测 a b s t r a c t a tp r e s e n t ,t h ea n a l y s i sa n dp r e d i c t i o no fs p e e c hs i g n a la r ea l lu s i n g l i n e a rt h e o r ya n dl i n e a rp r e d i c t i o nt e c h n i q u e ,b u tt h es p e e c hp r o d u c t i o n s y s t e mi sc o m p l i c a t e dn o n l i n e a ra n dh a sc h a o t i cp r o p e r t ya sw e l la s f r a c t a lf e a t u r e ,s ol i n e a rm e t h o d sa r ei n a d e q u a t e t h e r e f o r e ,t h en o n l i n e a r c h a r a c t e r i s t i co fc h i n e s es p e e c ha r ef u r t h e rs t u d i e d ,c o m b i n e dw i t h r a d i c a lb a s i sf u n c t i o nn e t w o r k ( r b fn e t w o r kf o rs h o r t ) ,an o n l i n e a r p r e d i c t o ri sd e s i g n e d f i r s t l y , t h e o r e t i c a lb a s i so fs p e e c hs i g n a ln o n l i n e a rp r e d i c t i o na n d p r e d i c t i o n t o o l s a r e a n a l y z e d ,a n dm e t h o d so fs o l v i n gp h a s es p a c e r e c o n s t r u c t i o np a r a m e t e r sc o n t a i n i n gd e l a yt i m e 、e m b e dd i m e n s i o na r e f u r t h e rs t u d i e d ,w h i c ha r ef i r s t l ys o l v e db yc ca l g o r i t h m ,a c c o r d i n gt o t h el i m i t a t i o no fr e s u l t s ,t h e nc o m b i n e dw i t ha u t o c o r r e l a t i o na l g o r i t h m a n df n n ( f a l s en e a t e s tn e i g h b o r s ) a l g o r i t h ma r es o l v i n gr e s p e c t i v e l y a c c o r d i n gt os e l e c ts a m p l er a t ea te x p e r i m e n t a t i o n s ,s t a t i s t i c a lm e t h o di s u s e dt os t u d y t h er e s u l t ss h o wt h a ts a m p l er a t eh a sl i t t l ei n f l u e n c eo n d e l a yt i m ea n de m b e d d i m e n s i o n s e c o n d l y , b a s e d o nn o n l i n e a rt h e o r y , n o n l i n e a rc h a r a c t e r i s t i c p a r a m e t e r so fc h i n e s es p e e c hp h o n e m e sa r es t u d i e d t h em a x i m u m l y a p u n o vc o m p o n e n t sa r es o l v e db yw o l f - a l g o r i t h m a n dc o r r e l a t i o n d i m e n s i o na r es o l v e db yg p a l g o r i t h m ,w h i c hi n d i c a t ec h i n e s es p e e c h h a sc h a o t i cc h a r a c t e r i s t i c s a tl a s t ,b a s e do nn o n l i n e a rc h a r a c t e r i s t i c so fc h i n e s es p e e c hs i g n a l , r a d i c a lb a s i sf u n c t i o n ( r b f ) n e t w o r ka n a l y s i sm e t h o d sa r ea p p l i e dt o d e s i g nn o n l i n e a rp r e d i c t o r 1 1 1 ea v e r a g e so f t h ed e l a yt i m ef o rc h i n e s e s p e e c hp h o n e m e sd e t e r m i n et h en e u r o n sn u m b e ro ft h ei n p u tl a y e ra n d o u t p u tl a y e r f o rr b fn e u r a ln e t w o r km o d e l ,a n d1 1 1 ea v e r a g e so f e m b e d d i n gd i m e n s i o nd e t e r m i n et h en e u r o n sn u m b e ro f t h eh i d d e nl a y e r , t h es i m u l a t i o nr e s u l t s i n d i c a t e :c o m p a r e dw i mt h el i n e a rp r e d i c t o r , p r e d i c t i o n e r r o ro f n o n l i n e a rp r e d i c t o rb a s e do nr b fn e t w o r ki s s i g n i f i c a n t l yd e c r e a s e da n dh a sh i g h e rp e r f o r m a n c ea sw e l la sp r e d i c t i o n a c c u r a c y k e yw o r d sc h i n e s es p e e c hs i g n a l ;c h a o s ;f r a c t a l ;r a d i c a lb a s i s f u n c t i o nn e t w o r k ;n o n l i n e a rp r e d i c t i o n 目录 摘要1 a b s t r a c t i ii 第一章绪论1 1 i 论文研究的背景和意义1 1 2 语音信号非线性特性的研究现状2 1 2 1 基于混沌理论的语音非线性特性的研究现状2 1 2 2 基于神经网络的语音非线性特性的研究现状3 1 2 3 汉语语音信号处理的发展现状4 1 3 论文的研究内容和章节安排5 第二章语音信号非线性预测7 2 1 语音的发生机理及非线性特性7 2 1 1 语音的发生机理7 2 1 2 语音的非线性特性9 2 2 语音信号的非线性预测理论1 0 2 2 1 线性预测基本理论1 0 2 2 2 语音信号非线性预测分析1 l 2 2 3 语音信号非线性预测工具1 2 2 3 本章小结1 3 第三章汉语语音信号的相空间重构理论1 4 3 1 语音信号的相空间重构1 4 3 2 基于c c 算法的延迟时间和嵌入维数的计算1 5 3 2 1c c 算法的理论1 5 3 2 2 汉语语音音素的延迟时间和嵌入维数的计算1 7 3 2 3c c 算法求解延迟时间和嵌入维数的结果分析1 8 3 3 自相关法求解延迟时间f 1 9 3 3 1 自相关算法求解延迟时间r 2 0 3 3 2 音素的时延重构图分析2 1 3 4 虚假近邻法求解嵌入维数m 2 4 3 5 采样率对延迟时间和嵌入维数影响的研究2 6 3 6 本章小结2 8 第四章汉语语音信号混沌性检测及分形特征2 9 4 1l y a p u n o v 指数和汉语语音信号的混沌性检测2 9 4 1 1 最大l y a p u n o v 指数计算3 0 4 1 2 汉语语音信号的混沌性检测3 l 4 2 混沌与分形3 2 4 2 1 分形的基本理论3 3 4 2 2 分形现象的特征。3 5 4 3 关联维数3 5 4 3 1 汉语语音信号关联维数的计算3 6 4 3 2 汉语语音信号关联维数的结果分析3 8 4 4 本章小结3 9 第五章基于r b f 神经网络的汉语语音非线性预测模型4 l 5 1 神经网络的基本理论4 1 5 1 1 神经元4 1 5 1 2 神经网络的拓扑结构4 2 5 1 3 神经网络的学习方式及学习规则4 3 5 2r b f 神经网络基本原理4 5 5 3 基于r b f 神经网络的汉语语音预测模型参数设计4 6 5 4 基于r b f 汉语语音信号非线性预测模型设计4 8 5 4 1 汉语语音信号非线性预测模型的设计过程4 8 5 4 2 仿真及结果分析5 0 5 5 本章小结5 2 第六章总结与展望5 4 参考文献5 6 附录1 自相关法求延迟时间6 0 附录2c - c 算法6 1 附录3r b f 神经网络预测程序6 4 致谢6 6 攻读硕士学位期间主要的研究成果6 7 硕士学位论文 第一章绪述 第一章绪论 语言是人类具有的功能,也是人类进行沟通交流的各种表达符号,它自然 方便、准确高效。语音是语言的声学表现形式,是人类交流思想和情感最重要 和最有效的工具和手段。目前语音信号处理在信息科学研究领域中非常活跃和 热门,近3 0 年来不论在基础研究领域还是在语音增强、合成、编码、识别以及 情感语音处理等诸多应用领域中都取得了重要成果。尤其近十年来,出现了许 多高性能的用于语音处理的芯片( 比如d s p ) 和新的算法,使语音信号处理得 到飞速发展。 1 1 论文研究的背景和意义 一直以来,传统的语音信号分析处理方法都是基于确定性的线性系统理论, 汉语语音信号也不例外,仍停留在线性处理阶段。线性系统理论产生了一些诸 如语音信号短时时域分析、短时谱分析、线性预测等线性分析方法,这些方法 理论简单、易于实现,因而得到广泛应用并取得了一系列的研究成果。但是随 着人们对语音信号研究的不断深入,发现传统的线性分析方法存在诸多不足, 理想模型较为粗糙,使得基于该方法的语音处理技术,如语音合成、编码以及 识别系统的性能很难再提甜1 1 。因此,为了语音信号处理能进一步发展,针对 语音信号进行非线性分析和研究十分重要。 近年来,非线性理论取得了飞速发展,产生了学科之间的交叉融合,不仅 在本学科领域应用广泛,而且在天文、地理、医学、化工、通信、电子、材料 学、情报学以及地震学等诸多学科领域都有交叉渗透,就连音乐、美术等学科 学者们都进行了深入的研究。同时也产生了诸如混沌、分形、人工神经网络等 理论分支,这不仅为研究语音信号的非线性特性提供了坚实的理论基础,而且 在语音合成、编码以及识别等应用领域也取得了许多成果。 目前对于非线性的理论的研究主要从两个方面进行:一方面,研究信号中是 否存在混沌机制,以混沌理论及分形理论为代表;另一方面,如果信号中发生混 沌现象,采用人工神经网络、小波变换等非线性处理方法对信号进行分析、预测 等处理。通常情况下先采用非线性理论对信号进行分析,求解出延迟时间、嵌入 维数及关联维数等相关特征参数,再使用神经网络等处理工具对信号进行预测、 重构、降噪等处理。 研究者对语音信号进行了大量研究表明语音信号产生中存在混沌机制,通过 硕士学位论文 第一章绪述 实验研究,结果表明语音信号是有界的,局部也是可预测的,它的分形维数为有 限值并且不是整数,而且语音信号的最大l y a p u n o v 指数是正值,这些都证明了语 音信号具有混沌性f 2 】。从声学、空气动力学以及实验的角度出发,语音信号的非 线性分析、处理以及应用会得到广泛地研究和发展。 1 2 语音信号非线性特性的研究现状 目前,在语音信号的产生模型上,将辅音假设为随机模型产生,元音假设为 周期信号模型产生,即用线性系统模型来近似。这种分析方法理论简单,易于实 现,因而被广泛应用于语音信号合成、增强、编码及识别等应用领域中。 随着研究和应用的发展,人们发现传统的线性方法存在诸多不足,语音信 号产生模型的假设较为粗糙,并且这种线性模型仅仅只是对真实语音的一阶近 似,这种处理方法使得语音信号的应用性能难以进一步得到提高。因而人们将 注意力转向非线性信号分析方法的研究,其中一个方向就是用混沌、分形及神 经网络理论来分析和研究语音信号。 1 2 1 基于混沌理论的语音非线性特性的研究现状 著名物理学家f o r d 认为混沌理论是2 0 世纪物理学的三个最重要的研究成 果之一。混沌现象是自然界乃至宇宙间事物变化的本质,对混沌理论及其分析 方法的研究会极大地加深对自然界和宇宙间万事万物变化的认识。自从1 9 7 5 年 混沌一词出现以来,混沌理论得到了飞速的发展,并取得了一定的研究成果, 目前已经渗透到气象学、数学、物理等众多学科领域中,促进和推动了这些领 域的共同进步。 到目前为止有关混沌一词还没有准确的定义,一般情况下可以将混沌简单 地理解为在一定条件下由确定的宏观或是微观下的非线性系统表现出的无规则 或不可预测的随机现象。混沌现象并不是一种在偶然、极个别甚至是在非常特 殊的情况下才会发生的事件,它是普遍存在于宇宙之间发生的多种多样宏观和 微观的现象,可以说混沌现象无处不在:高速路上堵车的现象;风中摇摆的旗 子;股市市场的变化走势图;人生的平坦曲折;山泉中水滴的花样;春夏秋冬 一年四季气候的变化等。 2 0 世纪8 0 年代以来,学者们主要研究系统是如何由有序状态变化到无序 状态,即发生了混沌现象,以及混沌现象具有哪些特性和特征,并且通过实验 数据的时间序列来求解混沌系统的特征参数,比如l y a p u n o v 指数、分形维数、 k 熵、广义维数等,混沌的研究已经由单纯的理论上升到了实际应用阶段。 2 硕士学位论文 第一章绪述 目前学者们已经采用声学知识以及空气动力学的相关理论对语音信号的产 生过程进行了大量研究并取得了一系列的成果,例如在对人的声音以及新生儿 的哭声所做的研究中,发现了倍周期分岔和混沌现象1 3 1 1 4 1 :在文献 5 中作者求 解了语音信号的l y a p u n o v 指数和矩阵熵;n a r a y a n a n 等人f 6 】针对摩擦音的发音 机理以及它的非线性动力学做了大量的分析和研究,发现部分摩擦音不是随机 信号,而是由确定性系统产生的混沌信号;s e n g u p t a 等人【7 】对元音和部分辅音 的准随机和准周期的分形特征进行了研究并对结果做了比较,发现分形维数与 信号自身特性有关,而且可以通过分形维数的值反映出伪随机和准周期信号的 不同:胡水清等人 8 对摩擦音及单元音的相空间重构图及关联维曲线进行了分 析,发现根据关联维数可以区分摩擦音和单元音;文献 9 中作者基于混沌信号 的相空间重构,利用与分形维数相关联的嵌入维数的特征来判断发音段和非发 音段以及发音段中含有噪声的强弱;文献 1 0 中作者提出基于短时分形维数的 汉语语音自动分段的方法,这些研究结果表明语音信号的产生过程是复杂的非 线性过程【l l 】,其中存在产生混沌的机制【1 2 】,基于语音信号的产生机制将非线性 处理方法也运用于语音合成、预测编码、识别等领域中【1 3 l 【1 4 】【1 5 】【1 6 】。 1 2 2 基于神经网络的语音非线性特性的研究现状 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 的发展最初起源于1 8 9 0 年,由美国生物学家w a l d e g e r 阐明了人类大脑的神经元结构及其模型。但对于 神经网络的真正研究是从2 0 世纪4 0 年代开始,距今已有7 0 多年了,有关神经 网络的研究及其应用迅速发展并渗透到众多领域,推动相关领域向前发展。 近2 0 年来,人工神经网络的理论研究取得了迅速发展i l 引,在社会生产实践 应用中发挥着越来越重要的作用,神经网络模型及训练方法也层出不穷。总体 来说,目前神经网络的发展沿着两大方向前进:一个是理论研究向着更复杂的 神经网络结构发展;第二个是人工神经网络的应用范围越来越广,可以说神经 网络的理论和实践应用已经渗透到了很多领域,并且积极推动人工智能、语音 信号处理、心理学、模式识别、智能检测、决策优化等诸多学科进一步发展。 国外已有很多学者采用神经网络的方法对语音非线性预测处理进行了大量 的研究,比如文献 1 9 】作者认为语音信号的长时线性相关就是短时非线性相关, 设计出神经网络预测器并对信号进行预测,在预测阶数较低且对语音信号不进行 长时预测的情况下,比线性预测相比,非线性预测表现出更高的编码性能;文献 f 2 0 1 与b p 神经网络( b a c kp r o p a g a t i o nn e u r a ln e t w o r k ,b p n n ) 相比,作者使用前 向非线性预测的结果表明递归神经网络( r e c u r r e n tn e u r a ln e t w o r k ,r n n ) 不 仅有更好的对长时相关性的预测能力而且对嵌入维数有更好的鲁棒性;h a y k i n 硕士学位论文 第一章绪述 等人【2 1 】提出了一种新的a n n 结构,称为p r n n ( p i p e l i n e dr e c u r r e n tn e u r a l n e t w o r k ) ,并采用r t r l ( r e a l t i m er e c u r r e n tl e a r n i n g ) 算法 2 2 1 ,能在线地 训练神经网络,并在p r n n 的基础上联了一个常规的抽头延迟线( t d l ) 滤波器 从而组成了一个新型的、预测性能优于常规t d l 的自适应非线性预测器;在文献 2 3 作者提出i m f 网络较m l p 网络结构简单,并具有较高的训练速度等等 近年来,国内也有不少学者采用神经网络方法对语音信号的非线性特性及 预测也进行了研究,比如欧阳缮等人【2 4 1 应用神经网络和l e v e n s o n - d u r b i n 算法 设计了一种改进的语音信号非线性自适应预测编码算法;王跃科等人【2 5 】对多种 神经网络进行比较,提出符合语音信号非线性处理要求的比较好的工具一r b f 神经网络;文献【2 6 】作者分析研究了语音建模的r b f 神经网络及其训练方法, 包括k - m e a n s 法、o l s 算法和梯度下降法,并且比较了各算法之间的性能差别, 最后对语音信号非线性及线性建模的性能进行比较;胡水清等人【2 7 】在对汉语语 音信号采用短时非线性预测方法进行分析的过程中,发现元音和清音在发音机 制上根本不同,并且这两种类型的信号它们的短时非线性预测效果也大相径庭, 根据这一特性采用短时非线性预测的方法可以对信号进行切分;在文献 2 8 作 者提出一种带有反馈单元的动态小波神经网络( d y n a m i cw a v e l e tn e u r a l n e t w o r k ,d w n n ) ,并基于它造出了一种非线性预测器,对语音信号进行预测 实验分析,所得结果表明该预测器的预测性能良好而且计算复杂度相对较低等。 1 2 3 汉语语音信号处理的发展现状 国内汉语语音信号处理技术一般是借鉴国外的语音处理技术,与英语相比, 汉语的一个字就是一个音节,音节作为汉语语音基本的自然单位,一个音节由 声母和韵母以及声调构成,在处理过程中可以把音节拆分成音素,音素是语音 的最小构成单位。常用的汉语发声标记是声母和带声调的韵母组成,一般声母 仅包含一个辅音音素,而韵母可以由一个元音或多个元音组成或者是元音和辅 音共同组合而成。汉语语音另一个特点是声调和韵律,韵律特征主要是指语音 在音高、音强和音长等方面随上下文不同而变化。由于汉语自身的特点以及汉 语繁多的地方方言等问题,一般针对这些问题对现有国际上的技术进行修正。 目前有关汉语语音处理技术,主要体现在语音合成以及识别中。 在语音合成处理中,国家8 6 3 计划、国家自然科学基金委、国家攻关计划 以及中国科学院有关项目的支持下,近年来汉语语音合成系统研究取得了令人 瞩目的进展,比如中科院声学研究所的张家录、吕士楠研制的基于并联共振峰 合成器的k x - l 和k x p s o l a 和基于k l a t t 的串并联混合共振峰合成器的第二代 共振峰k x f s s 、联想佳音( 1 9 9 5 ) 、中国科技大学的) t a l k ( 1 9 9 5 ) 等系统。 4 硕士学位论文 第一章绪述 这些系统合成汉语的可懂度和清晰度达到了很高的水平。中国科技大学推出了 k d 2 0 0 0 汉语文语转换系统,该系统在文本预处理中围绕层次化结构思想,2 0 0 2 年华意语音研究中心,研制出了第二代汉语语音合成产品一一炎黄之声 ( s i n o s o n i c ) 。 在汉语语音识别方面,目前i b m 的v i a v n i c e 已占领了中文语音识别9 0 以上的市场,微软将语音识别技术捆绑到了办公软件o f f i c ex p 当中,i n t e l 完 成了电话语音识别演示系统,微软研究院所长、微软总裁李开复博士演示的大 词汇量、自纠错中文语音识别系统更是让人看到了语音识别美好的前景。 在汉语语音信号预测处理方面,实际应用中还是采用线性处理方法,非线 性处理方法尚在研究阶段,国内研究者主要是基于神经网络对汉语语音信号预 测进行研究。目前基于神经网络设计预测器时,很多研究者着重考虑选择神经 网络的类型或者是网络中参数的计算方法( 所做出的研究成果在1 2 2 节中已 经列出) ,而没有考虑到神经网络结构中各层神经元的个数的选取问题,论文 在对汉语语音设计非线性预测器的研究中,查阅了很多资料,发现只有文献 5 5 中提到了神经网络中各层神经元个数的选取,文中选取为6 :3 :1 的结构,但是 为什么要这样选择作者并没有具体说明,只是说这样选择得到的神经网络中参 数共有2 5 个,与2 5 阶线性预测有相同的参数,但是理论上认为线性预测阶数 达到8 。1 2 阶时,预测精度就已经达到饱和,所以对预测器的研究需进一步深入。 1 3 论文的研究内容和章节安排 语音信号的产生过程中存在混沌机制,但是汉语语音信号是否也具有混沌 性,如果存在混沌性,怎样结合汉语语音信号的混沌性并应用神经网络构造出 预测性能良好的非线性预测模型,而且基于该预测模型设计出的语音编解码系 统能够更好的合成出原始语音,这一直是一个重要的研究方向。 综上所述,论文将详细地讨论汉语语音信号产生混沌的机制及其在预测中 的应用,深入研究汉语语音信号的非线性特性,包括相空间重构理论、延迟时 间及嵌入维数等相空间重构参数的确定方法,多角度全方位地证明汉语语音信 号即不是确定性的信号,又不是随机信号,而是具有混沌特性的信号。论文基 于对语音信号时间序列的非线性研究,并将神经网络分析方法应用在语音信号 的预测,对神经网络中各层神经元的个数做了深入的研究,最后构造出一种基 于r b f 神经网络并且预测性能良好的非线性预测模型,最后对汉语语音信号进 行预测。另外,音素是从音质及自然属性划分出来的最基本的、最小的并且是 不可分解的组成单位,也是分析语音信号的基础,因此论文是基于音素对汉语 硕士学位论文第一章绪述 语音信号进行分析。 因此,论文章节内容安排如下: 第二章首先对语音的发生机理进行分析,并指出语音信号存在混沌机制是 客观事实,然后分析了线性预测的基本理论并指出了存在的缺陷和问题,最后 针对语音信号的非线性预测依据以及预测工具进行了讨论,混沌性是语音信号 的固有属性,因此指出非线性预测是语音信号预测重点甚至关系着语音信号处 理未来的研究发展重要趋势。 第三章基于当前非线性动力学分析方法一相空间重构,研究和分析3 3 个汉语 语音音素时间序列的延迟时间、嵌入维数,先采用c c 算法同时求解出3 3 个汉语 语音音素的延迟时间和嵌入维数,再分别采用自相关法和虚假近邻法求解出音素 的延迟时间和嵌入维数,并与c c 算法求解出的结果进行比较,找到适合它们的 最佳方法。另外论文针对采样率对延迟时间和嵌入维数有何影响进行了研究,是 否采样率越高,延迟时间和嵌入维数的值就越精确,从而求解出l y a p u n o v 指数等 相关参数的值也就越精确。 第四章主要采用w o l f 算法求解f l 3 3 个汉语语音音素的最大l y a p u n o v 指数( 简 写m l e ) ,观察结果寻找不同类型音素的m l e 值有什么样的规律和区别,再采用 g p 算法求解出3 3 个汉语语音音素吸引子的关联维数吸引子分形维数,并观察结 果寻找出不同类型语音音素的分形维数有怎样的规律及特点。 第五章将这些汉语语音音素的非线性特征参数与神经网络分析方法相结合, 应用到汉语语音信号的预测中,也就是根据汉语语音音素的延迟时间及嵌入维数 的均值确定r b f 神经网络模型中三层网络的神经元个数,由此构造出一个基于 r b f 神经网络的汉语语音信号预测模型,并将该预测模型与现有的a d p c m 线性 预测模型进行性能比较,结果发现非线性预测模型预测误差较小,说明论文中构 造的预测模型预测性能比较好。 第六章对论文的总结与展望,针对论文主要的研究内容以及得到的结果进行 总结和归纳,指出了论文的主要研究成果以及存在的一些问题并对今后的研究方 向进行了展望。 6 硕士学位论文第二章语音信号的线性预测与非线性预测 第二章语音信号非线性预测 目前语音信号处理中的线性预测技术是一种最实用和最有效的语音分析技 术,也是语音处理中的核心技术之一,但是语音信号的产生过程是非常复杂的, 对信号的预测分析就不能简单地用理想线性预测模型来进行,研究者已经证明 语音信号中存在混沌机制,因此采用非线性处理方法来对信号进行预测势在必 行。 2 1 语音的发生机理及非线性特性 人类语音信号产生过程的复杂性以及语音信息的丰富性和多样性说明无法 用数学方程对信号进行描述,也导致到目前为止还没有找到一种能够精确描述 语音信号产生过程的模型。 2 1 1 语音的发生机理 语音即语言的声音,是由人类的发音器官在大脑的支配下发出的,具有一 定的意义和目的性。人类发音器官的机理模型如图2 - 1 所示。 软晨 咽腔 杓状软骨 食管 图2 1 人类发音器官的机理模型 硕士学位论文第二章语音信号的线性预测与非线性预测 由声源、声门及声道三部分组成人类主要的发音器官,具体来讲,由肺和 气管组成声源,为整个发音系统提供能源;由声带和喉部组成了声门,是声音 的生成机构;由咽部、口腔和鼻腔三部分组成声道,主要对声音进行调制。肺 的主要功能是产生压缩气体,通过气管将压缩气体传到声音生成机构一声门, 气管连接着肺部和喉部,是肺和声道重要的连接通道。 喉是由控制声带运动的软骨和肌肉组成的复杂系统,主要影响发音效果, 它主要包括:环状软骨、甲状软骨、杓状软骨和声带,其中声带是主要的发音 器官,通过声带振动产生语音,它为语音的产生提供主要的激励源和声源。如 图2 2 喉部平面解剖示意图所示,声带的前端和后端分别由甲状软骨和杓状软 骨支撑,呼吸时,这些软骨在环状软骨上肌肉的控制下,将两片声带打开;讲 话时,它们又将两片声带合拢起来。我们将声带之间的间隙称为声门,位于喉 部前端呈圆形状的甲状软骨称为喉结。 甲获软叠 声带 杓状软骨二k = 乏罗 l 一环状软臂 声门到嘴唇之间所有的发音器官组成声道,声道亦可称为呼气的通道。这 些器官包括咽部、口腔和鼻腔,声道是对发音起决定性作用的器官,通常情况 下,可以将声道看作是一根从声门至嘴唇的具有非均匀截面的声管,由唇、舌、 腭以及小舌的形状和位置决定声管截面积的大小,最大的截面积可以达到 2 0 c m 2 ,最小的截面积可以为零。发音过程中,非均匀截面的形状和大小会随 着发音不同不断地发生变化。 语音产生的基本过程是肺部呼出的气流通过声带进入声道,再经口鼻等器 官相互作用辐射出声波形成语音。声门以下的部分是语音产生的激励源,通过 激励振动产生语音;声门以上的部分称为“声道系统 和“辐射系统”,发出 不同的语音时,激励和声道是不同的。如果声带是紧绷的,当气流经过声带时 会产生周期性的张开和闭合运动;如果声带是张开的,气流从声门会喷射出来 形成周期性的脉冲气流,再经过声道后最终经口鼻辐射出声波,这就形成了浊 音。如果气流经过声带时,声带是完全舒展开来的,气流不会受到任何影响直 接通过声门,当它通过声门后会遇到两种情况,一种是当声道的某一个部位受 8 硕士学位论文第二章语音信号的线性预测与非线性预测 到影响发生了收缩从而形成一个非常窄的通道,气流经过这个收缩区域时会被 迫高速冲过这个地方,同时会产生空气湍流,这种湍流具有随机噪声的特点, 它最后通过声道后经口鼻辐射出声波,发出的这种语音称为摩擦音或者是清音; 另外一种情况是声道中的某一个部位完全闭合在一起,当气流通过此处时会建 立起空气压力,如果闭合点突然打开,气流冲破阻碍会导致气压迅速释放,通 过声道后经口鼻辐射形成语音称为爆破音,这两种类型的语音都可以称为清音。 2 1 2 语音的非线性特性 从声学及空气动力学的角度已经证明语音信号的产生过程是一个非线性过 程,对语音信号产生的线性描述无法反映出语音产生的复杂动力学特性,进一 步的研究发现语音信号,特别是摩擦音及爆破音的产生会在声道的边界产生涡 流,最终形成湍流。比如摩擦音,声门前部狭窄区域发生了收缩,气流再通过 这个收缩区域时会产生湍流,由湍流一起共同产生了摩擦音,湍流一般在声道 壁附近产生或者是在阻碍空气流动的牙齿附近产生。摩擦音的频谱具有高频宽 带能力,频率通常在3 k h z 以上,而且从时域上来看,摩擦清音还具有高度的 不规则性,而摩擦浊音具有近似周期性,而且元音和摩擦音之间的过渡也会影 响湍流发生的程度,通过对湍流的研究发现其本身就是一种混沌信号。 语音产生系统是一个包含许多器官和系统的复杂机制,语音产生的这种复 杂结构不仅是由于信号的产生特性,而且主要是因为信号产生依赖于声道结构 的声道特征响应。声道中相应器官的运动使得声道的结构不断地发生变化,这 些器官决定声道的长度、面积以及响应特性。通过简单的声管以及里面的气流 对声道进行建模,此模型称为无损声管模型,也可以看作是一个线性振荡器。 那么一个声道的详细模型应当考虑声道形状的时变、共振、热传导以及声道壁 粘滞摩擦引起的损坏、口鼻辐射等多种情况,尽管其中一部分因素的产生可以 用线性时变滤波器来表示,但是诸多因素都具有非线性,声道褶皱的摆动以及 声门波的产生也具有非线性,另外有关声道褶皱摆动的著名“两部式”模型也 可以说明语音产生过程存在混沌和分岔,那么语音产生过程极为复杂,一系列 不同长度、不同横截面积的重叠管道构成的简单的、粗糙的声道模型对语音产 生过程的线性描述无法反映出这种复杂动力学特性,在这种情况下就产生了非 线性的方法。 语音是众多不同科学领域的研究热点之一,近3 0 年来,来自不同领域的研 究者一直致力于语音的研究工作,现已通过声道模型的计算及语音非线性动力 学模型的研究实验等手段确定语音信号产生过程中存在混沌。自然界本质上就 是非线性的,非线性动力学及时间序列分析看作是为混沌理论和现实世界搭起 9 硕士学位论文 第二章语音信号的线性预测与非线性预测 的一座桥梁。语音存在幅值和周期性的扰动,这内在的扰动导致语音产生混沌 特性,这就需要对语音时间序列进行分析。 2 2 语音信号的非线性预测理论 附_ 器= 玄g ( 1 - e b j z - j ) , 一器2 面g 2 , 用式( 2 3 ) 表示刀时刻输出语音信号s ( n ) 和激励信号u ( n ) 的关系,即 s ( 拴) = a i s ( n - i ) + g u ( n ) ( 2 3 ) j ( 刀) = a i s ( n - i ) ( 2 4 ) l o 硕士学位论文 第二章语音信号的线性预测与非线性预测 ( 2 - 5 ) 那么线性预测误差定义为 上 e ( 刀) = s ( 姐) 一;( 刀) = s ( n ) - 乏:t l i s ( n f ) ( 2 - 6 ) i = 1 它表示语音信号真实值与预测值之间的差值,称为线性预测误差。线性预 测的基本问题是由语音信号直接求解出一组线性预测系数 口f ,使得预测出的 语音信号在某一准则下与真实信号之间的误差达到最小。 近几十年来,随着研究和应用的不断发展进步,人们发现这种传统的、理 想的基于线性模型( 源滤波器) 建模方法存在诸多不足,正是由于这种不足, 研究者们开始采用非线性时间序列模型对语音信号进行处理,从而产生了能够 更准确地表示出语音信号特征的非线性预测技术。 2 2 2 语音信号非线性预测分析 语音信号产生的真正非线性机理是通过线性声学理想假设及声道中传播声 音的一维平面波来逼近。线性模型算法简单、易于实现,广泛应用在语音编码、 合成及识别中,取得了一定的成功,但是线性模型会因二阶效应及截断误差产 生偏差,而语音信号产生过程中存在非线性动力学特性,我们认为线性模型仅 是对于包含二阶及非线性结构的真实声学的一阶逼近,因此人们逐渐采用混沌、 分形及神经网络理论这些非线性分析方法来研究语音信号。2 0 世纪8 0 年代开 始经过研究者们的不断努力研究终于形成了一套非线性动力学分析方法,主要 包括时间序列相空间重构理论、延迟时间、嵌入维数、l y a p u n o v 指数、k 熵、 分形维数及广义维数等相空间重构参数的确定方法,有关语音信号非线性处理 研究开始在很多方面展开。 我们认为语音信号产生系统是非线性动力学系统【2 9 lz ( 刀) = h ( z ( n 一1 ) ) ,力 为离散时间,其中z ( 玎) 是高维的。采样的语音信号s ( 刀) ( r l = l ,2 ,l ) 是函数 y 对系统状态函数z ( n ) 在一维空间上的投影,即 s ( 刀) = y ( z ( 疗) ) = v ( h ( z ( n 1 ) ) ) ( 2 7 ) 在投影的过程中,由于缺少信息会表现出明显的复杂性和随机性。 l p c 模型通常用于信号预测和编码中,是一种非常有效实用的模型。其预 p 测方程s ( 终) = 罗a , s ( n f ) 可以看作是对非线性动力系统( 2 7 ) 的近似,当延迟 百 时间f = l 时,等价于将语音序列嵌入到p 维相空间中,提高l p c 预测模型的复 一 z口 p商 l i 、, z ,- p 硕士学位论文 第二章语音信号的线性预测与非线性预测 杂度即增加预测阶数,阶数越高则预测精确也就越高,但是当阶数达到一定值 时,预测精度就不会随着阶数的增加而增加了,它会趋于稳定值,再增加预测 阶数意义不大,线性预测只能通过提高预测阶数来提高预测精度,而对重构相 空间建立的非线性动力学系统的近似模型,如果该模型的复杂度越高,那么可 调节的预测参数也就越多,我们可以通过调节预测参数来提高预测精度,这种 方法显得更加灵活有效。 2 2 3 语音信号非线性预测工具 非线性预测的方法有很多,大体上分为两类:一类是定性预测,即是指这些 经验丰富并且综合分析判断能力很强的专家或学者,他们对事物的未来发展进行 一定程度上的综合分析、归纳和判断,再综合专家提出的各方面的意见用来作为 预测事物发展的主要依据,所以将定性预测又称为直观性预测,这类方法简单、 灵活,但是容易受到主观因素的影响,常用的方法有专家个人意见、组织专家会 议等:另一种是定量预测,也可以称为统计预测,它是运用统计资料和数学方法 推理和预测事物未来发展变化,这类方法注重事物在数量方面的发展规律,受主 观因素影响比较小,但是过于机械,处理数据变化比较大的对象效果并不好,常 用的方法有时间序列法、灰色预测、回归分析法及神经网络分析方法等。下面简 单介绍一下语音信号常用的非线性处理方法一神经网络分析方法。 人工神经网络是仿照存在于人类大脑中的生物神经网络而构造的,简称神经 网络,它以类比于生物神经系统处理信息的方式,通过对大量的处理单元进行并 行连接形成的一种具有特定功能的处理系统。神经网络的优点是具有并行处理能 力以及很强的自适应性,能以任意精度逼近函数关系,高速运算能力以及高度灵 活可变的拓扑结构,并且分布结构易于硬件实现以及具有较强的容错性等特点, 我们运用它来对语音信号进行非线性预测。通过神经网络对时间序列进行预测的 基本过程是:时间序列中过去的若干个采样值作为神经网络输入层的输入数据, 将其后的若干个采样值作为神经网络输出层的输出数据,通过这种方式来训练整 个网络。神经网络模型不同,训练的方式也不同。当神经网络训练成功以后就可 作为非线性预测模型,新加入时间序列的采样值,神经网络的输出即为预测值。 基于神经网络来设计非线性预测模型有很多优势: ( 1 ) 对于线性预测模型而言,只能通过调节预测阶数来提高预测精度,而对 于非线性线性预测模型,可以通过灵活调节神经网络类型、结构等多个参数来提 高预测精度1 3 0 j ; ( 2 ) 可以消除浊音的残差信号中的基音周期,因此不需要进行长时预测和基 音检测等; 1 2 硕士学位论文第二章语音信号的线性预测与非线性预测 ( 3 ) 线性预测的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 煤矿井下防爆电工岗前操作评估考核试卷含答案
- 木材检验员岗前交接考核试卷含答案
- 公司偏钨酸铵制备工岗位应急处置技术规程
- 两车发生碰撞协议书
- 泡泡玛特消费者调查报告:其核心消费者是长期收藏者还是短期潮流追随者
- 河北省保定市满城县2023-2024学年五年级上学期语文期末调研试卷(含答案)
- 频域性能评价的量化指标体系
- 教育学博士研究解析
- 四则运算精讲解析
- 教学卓越:激活学习力
- (7)-第七章性与生殖健康
- 江苏省重大建设项目档案验收办法
- “戏”说故宫智慧树知到答案章节测试2023年中央戏剧学院
- 建筑施工安全员学习资料
- 励盈港式茶餐厅员工手册
- LY/T 3292-2021自然保护地生态旅游规范
- GB/T 30834-2022钢中非金属夹杂物的评定和统计扫描电镜法
- GB/T 14608-1993小麦粉湿面筋测定法
- DB32/T 4400-2022《饮用水次氯酸钠消毒技术规程》-(高清正版)
- DG-TJ 08-2335-2020 郊野公园设计标准 高质量清晰版
- GB∕T 30026-2021 起重用钢制短环链 手动链式葫芦用高精度链 TH级
评论
0/150
提交评论