




已阅读5页,还剩80页未读, 继续免费阅读
(信号与信息处理专业论文)基于神经网络的自适应增益预测语音编码系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于神经网络的自适应增益预测 语音编码系统 摘要 人工神经网络是采用大量的处理单元连接起来构成的一种复杂的信息处 理网络。这种网络具有与人脑相类似的学习记忆能力和输入信息特征抽取能 力。人工神经网络是聪明的,因为它是通过实例学习。神经网络因其非线性、 自适应及学习特性而受到极大关注,神经网络在诸多领域都取得成功的应用, 如模式识别与图像处理、控制与优化、预测、通信等。 语音信号的产生本质上是一个非平稳和非线性的过程,但一直以来,传 统的语音处理方法都采用一种线性预测方法来处理。本文针对传统方法的不 足,在语音编码系统的自适应增益预测中引入神经网络模型,研究了基于神 经网络的语音编码系统的增益非线性预测结构和学习算法,并将之应用于 g 7 2 8 语音编码算法。 本文研究了b p 网络,实现了“梯度下降法”的网络训练方法,获得了较 传统方法好的效果。另外又研究了r b f 网络,实现一种叫“正交最b - 乘法” 的网络训练方法,获得较b p 网络快2 0 倍的训练速度,同时语音质量略有提 高。为具体实现神经网络程序,本文采用了基于v c + + 和m a t l a b 的实现方 法。实验结果表明:采用b p 网络的语音编码系统的语句平均分段s n r 比i t u g 7 2 8 标准算法提高2 d b 左右,增益平均分段s n r 提高3 d b ;同样地,采用 r b f 网络的语音编码系统的语句和增益平均分段s n r 比ug 7 2 8 标准算法 分别提高2 d b 和3 1d b 。 最后我们以提高的信噪比为代价分别进行了综合滤波器的降阶实验,结 果表明:使用神经网络的算法当阶数降为1 0 阶后仍然比原算法2 0 阶的s n r 要高;同时,降阶后算法的计算量大大降低,分析表明,改进后的算法能使 g 7 2 8 算法的总计算量降低4 0 ,同时保持音质不变。 关键词语音编码,非线性预测,增益自适应量化,b p 网络,r b f 网络 a d a p t i v eg a i n p r e d i c t i o n s p e e c h c o d i n gs y s t e m b a s e do n n e u r a ln e t w o r k a b s t r a c t a r t i f i c i a ln e u r a ln e t w o r ki sac o m p l i c a t e di n f o r m a t i o np r o c e s s i n go n em a d e o fm a n y p r o c e s s i n gu n i t s t h i sn e t w o r kh a st h ea b i l i t yo fl e a r n i n gm e m o r y a n d i n p u t i n f o r m a t i o nt r a i te x t r a c t i n g i ti si n t e l l i g e n tb e c a u s ei t c a nl e a r nf r o m e x a m p l e s n o w i tr e c e i v e sg r e a ta t t e n t i o na n dg e t ss u c c e s s f u la p p l i c a t i o ns u c ha s m o d er e c o g n i z ea n di m a g ep r o c e s s i n g 、c o n t r o l a n d o p t i m i z e 、p r e d i c t 、 c o m m u n i c a t i o ne t c s p e e c hs i g n a li sg o ti n e s s e n c en o n s t a t i o n a r ya n dn o n l i n e a r b u ta l la l o n g , t r a d i t i o n a ls p e e c hp r o c e s s i n gm e t h o du s e sl i n e a rp r e d i c t i o n a i m e da tt h i ss h o r t a g e , t h i sp a p e ri n t r o d u c e sn e u r a ln e t w o r ki na d a p t i v eg a i np r e d i c t i o no fs p e e c hc o d i n g s y s t e m ,a n d s t u d i e st h es t r u c t u r ea n dl e a r n i n g a l g o r i t h m o f g a i n n o n l i n e a r p r e d i c t i o n o f s p e e c hc o d i n gs y s t e m ,w h i c h i su s e di ng 7 2 8a l g o r i t h m t h i sp a p e rs t u d i e sb pn e t w o r k ,r e a l i z e st h em e t h o do fg r a d i e n td e s c e n t ,g e t s b e t t e rr e s u l tt h a nt r a d i t i o n a lo n e i na d d i t i o n ,t h i sp a p e rs t u d i e sr b fn e t w o r k , r e a l i z e st h em e t h o do fo r t h o d o x yl e a s ts q u a r e ,g e t sr a p i ds p e e dt h a nb pn e t w o r k b y2 0 ,a n dt h eq u a l i t yo fs p e e c hh a s al i t t l e i m p r o v e m e n tt h a nb ei no r d e rt o r e a l i z en e u r a ln e t w o r k t h i sp a p e ru s e sv c + 十a n dm a t l a bt o o l s t h ee x p e r i m e n t r e s u l t ss h o w :t h es e n t e n c e sa v e r a g es e g m e n ts n r o f s p e e c hc o d i n gs y s t e mb a s e d o nb pn e t w o r kh a si m p r o v e m e n tb y2 d bt h a nn u tg 7 2 8s t a n d a r da l g o r i t h m i i t h e g a i n sa v e r a g es e g m e n t h a s i m p r o v e m e n tb y 3 d b i nt h es a m ew a y , t h e s e n t e n c e sa n dg a i n s a v e r a g es e g m e n ts n r o fs p e e c hc o d i n gs y s t e mb a s e do n r b fn e t w o r kh a s2 d b 3 1d bt h a nt h a to f u tg 7 2 8s t a n d a r da l g o r i t h m s e p a r a t e l y a tl a s t ,a tt h ec o s to fi m p r o v e ds n r ,t h eo r d e ro f s y n t h e s i z e df i l t e rc a nb e r e d u c e d t h er e s u l ts h o w :w h e nt h eo r d e ri s1 0 ,s n ro fn e u r a ln e t w o r ki sh i g h e r t h a n2 0o r d e ro ff o r m e ra l g o r i t b a r t ,a n dt h ec a l c u l a t i o ni sm u c hr e d u c e d t h e a n a l y s i ss h o w :t h ei m p r o v e da l g o d t h r al e t st h eo v e r a l lc a l c u l a t i o no fg 7 2 8b e r e d u c e d b y4 0 ,a n da tt h es a m et i m et h eq u a l i t yo fs p e e c hh a sn o c h a n g e k e yw o r d s s p e e c hc o d i n g ,n o n l i n e a rp r e d i c t i o n ,g a i na d a p t i v e q u a n t i z a t i o n ,b pn e t w o r k ,r b fn e t w o r k 第一章绪论 语音压缩编码是降低数字语音比特率的过程,同时保证降低速率后的语 音质量能达到语音通信或存储等特定应用的要求。随着宽带综合业务数字网、 同步光纤网络、同步数字序列、异步转移模式、移动卫星通信、个人通信、 智能网等技术的迅速发展,通信越来越趋向于宽带化、个人化和多媒体化, 越来越要求语音通信能在保证质量的同时可以有更低的编码速率,从而为多 媒体通信节约频率资源,在这种形式下,近十年来语音压缩编码技术在全世 界范围内取得了飞速的发展。在理论研究领域出现了许多崭新的算法和高性 能的系统,取得了大量突破性的进展。同时由于微机、工作站和d s p 芯片的 迅速更新换代,处理能力的迅速提高,为各种日益复杂的语音压缩算法的实 时实现提供了可能性,因此,从8 0 年代以来,相继出现了各种国际和区域语 音压缩编码标准,其中i 阿( 包括前身c c r r r ) 就于1 9 9 2 年制定了g 7 2 8 1 6 k b s l d c e l p 标准,1 9 9 5 1 9 9 6 年制定了g 7 2 9 、g 7 2 9 a8 k b sc s a c e l p 标准和g 7 2 3 ,15 3 & 6 3 k b sm p c - m l p 标准,等等。这些标准的制定和建立极 大地推进了数据压缩技术的实用化、产业化,而全球性的技术竞争、标准开 放和经济一体化潮流,反过来又强烈地刺激着信源编码理论研究的进一步拓 展。 1 1 语音编码综述 1 1 1 语音压缩编码的实质 语音编码算法之所以能达到压缩的目的,其本质是利用语音的短时相关 性和长时相关性,去掉语音的冗余度,仅仅传输变化的部分,从而达到降低 一垄魁三缒堡圭鎏奎一一 碍率约器兹。换旬嚣说,邋过餍黢算法,将绽瓣器獠解玛器驭方的冗余镲息 遵行诗箨瑟苓必僚赣,甏娶赞穗酶只爨透信驳方无浚逶遥诗簿褥瑙懿夺毒分 奖疆德愆。 添巍信弩灼冗衾度主装源予鬻个_ 方瓣;郧潺考傣萼揠度分布的非均匀性 叛及榉赢之阕觞禚美缝。漭音僚每静长辩纛短嚣尊褥度统诤特往表赘,语裔信 弩小谣发出躐的概率大,大幅发出现的概率小。 长坶姆舔整蹩讫戴是铡麓这 一特点避行簌端编璐的。 语密信号褥子菲平稳游辊避稷,毽又具蠢鲢对警稳豹特点。戮魏,语音 鹄一璺特征参数( 鲐短爵黥掇、稳关系数) 在缀时瘫( 足m s 咒千魏l s ) 熬本 缀持本变,稳邻矩薅段豹参数瞧不会鸯强太交纯,鄂它靛之耀电存在着臻关 校,逸怒盘予久的绽鬻器富运动逡度有戳所决定的。迭正怒语音傣号分彀处 建的鏊戳1 捌。聪用邈一特点也霹以压穗壤码搴。剜如暴露斌对躯璧硬测、线 港对参数预溅等方法洙基终蹲搴,嗣酵,黠滤游瑟参数凌城校正黻蠛,l 、诗箨 鳖。 1 1 2 落音缩礴系统豹基本原理 逶繁系统秘任务楚传递髂患。暹信双方鑫黧懿漓惑是不必传递豹。发送 端所簸穗静信謦孛,霹以分成三个部分,凝中一郄分怒通信双方邑辩的漓怠, 称为组织信息;第二部分燕接收方采知黪消息,髂势点詹惑。分予嚣者之阏 懿是逮僚息,它表承熬然整接浚方泰翔豹满惑,毽罴爵戳逶遵双方攀先褥定 ( 翔裁定褥书) 或者孝q 丽巴翔消息遥过袋种算法捷之燮态已糍( 如铡用先翦 鼬榉点健计滤波器参数等) 。 诿誊缡磅系统懿谨务麓蹩尽薅能多魏将消怠中豹邈蓿怠转换成组织僚 惫,嗣瑟簿麓步的磁使传递消息的点信息猢。 话窘编码象辘掩港的傣惑可以分成三粒: 。点镄惑( s a m p l ei n f o r m a t i o n ) 查塑三查堂堡主堡奎 语音信号或激励信号样点值。 2 边信息( s i d ei n f o r m a t i o n ) 信源的参数信息,如一帧语音的基音周期、能量、滤波器参数和共振峰等。 3 组织信息( o r g a n i z a t i o ni n f o r m a t i o n ) 编码器与解码器预先约定的同步信息。如码书结构及其变化、采样帧长、 传输位率等。 1 1 3 语音编码技术分类 语音编码技术可以分为以下三类: 1 波形编码 最基本的波形编码器在编码时,并未企图使用什么语音发生过程的技术 和知识。正如名称所暗示的一样,他们的目标就是尽可能精确地重现原始波 形。由于这些编码器并不限于语音,所以能很容易地给许多非语音信号,背 景噪音和多个讲话者提供必要的条件。然而必须为这种“声音鲁棒性”付出 代价非常高的位率。波形编码只传递点信息。 2 参数编码 相反地,声码器并不想重新产生原始波形,而是在编码端得到一系列参 数用于控制解码器的语音合成模块。语音合成模块的参数集相对的小,能够 有效地量化传输,所以声码器的位率很低。参数编码只传送边信息。 3 混合编码 混合编码器结合了波形编码和参数编码的特点。形成复杂的编码方案, 提供音质良好,高效的语音编码。和参数编码一样,混合编码也使用语音产 生模型。然而,和参数编码器非常简单的激励信号表示不同的是,混合编码 使用了精选的激励代表。混合编码器应用于中等位率,介于参数编码器和波 形编码器之间。混合编码不仅传送点信息而且传送边信息,在可变速率方案 中,还要传送组织信息。 查堕墨三拦塑主堡奎一 1 1 4 语音编码技术的发展 从3 0 年代末提出脉冲编码调制( p c m ) 原理以及声码器m c o d e r ) 概念后, 已过去5 0 多年,这期间语音编码技术的研究一直没有中断闱。尤其是近三十 年来,计算机技术的发展为语音编码技术提供了强有力的工具,促进了语音 编码技术的发展。为促进国际间通讯网向标准化方向发展,各国相继成立了 一些国际通信标准化组织,依据通信网发展的水平,不失时机地制定专门的 通信编码标准。为在应用中获得最大效益,这些标准的制定是根据应用背景, 综合考虑了编码质量、速率、延迟以及算法复杂性这几个因素后进行制定的, 每一个算法都经过了多次实验、反复修改和长至几年的研究,最后被确定为 标准。因此语音编码技术的发展体现在这些不断制定的标准中,而这些标准 的制定则集中反映了语音编码技术的发展方向和水平。 国际电报电话咨询委员会t e n r ( 现已并入国际电信联盟u ) 于1 9 7 2 年 制定了g 7 1 16 4 k b i t s 的p c m 语音编码标准。目前,它已得到广泛应用。对 于长途传输系统,6 4 k b i t s 的速率所占的频带太宽,通信费用昂贵。人们一直 在寻求在更低速率上获得高质语音的方法。i t u 从1 9 8 1 年开始,经过三年的 研究与讨论,于1 9 8 4 年公布了g 7 2 13 2 k b i t s 自适应差分脉冲编码调制 ( a d p c m ) 编码器标准,并在1 9 8 6 年根据运行中出现的问题,对算法做了部分 修改。g 7 2 1a d p c m 进一步利用了语音信号样点间的相关性,并针对语音信 号的非平稳特点,使用了自适应预测和自适应量化,在3 2 k b i t s 速率上能够给 出6 4 k b i t sp c m 等级的话音质量。 p c m 和a d p c m 都属于波形编码,音质好,但码率高。由于它们只利用 了语音信号的一维统计特性,当速率进一步降低时,语音质量将达不到网络 等级。与波形编码相对应的是以各种线性预测声码器为代表,基于参数模型 方法的参数编码。根据语音信号的生成模型,对表示声源和声道的有关特征 参数进行分析和提取,再运用这些特征参数重新合成语音信号的过程,称为 4 查堡型王盔兰堡主垒塞一 语音信号的分析合成。利用分析合成的方法进行语音编码的系统称为声码器 ( v o c o d e r ) 。在这种声码器中,语音信号逐帧地用其生成模型的特征参数来表 示。 人们在长期研究用参数模型压缩语音的过程中,逐步认识到音质难以提 高的原因不在于声道模型,而在于对该模型的激励信号的描述不够精确。长 期以来,人们一直使用准周期脉冲( 对浊音) 和白噪声( 对清音) 作为激励 源,正是这种过于简单的“二元激励”限制了合成高质语音。基于这种认识, 近年来出现了混合编码的热潮,在保留参数模型法技术精华的基础上,利用 波形编码准则去优化激励信号,从而在低于1 6 k b i t s 码率上获得较高质合成语 音。其中的主要技术称之为“合成分析法( a n a l y s i sb ys y s t h s i s ) ”。合成分析 法是将综合器引入编码器,使之与分析器相结合,在编码器中产生与解码端 完全一致的合成语音,将此合成语音与原始语音相比较,根据一定的误差准 则,寻找最优参数,使得二者之间的误差最小,这种方法即称为合成分析法。 编解码延迟是衡量语音编码性能的一个主要因素。因为语音编解码延迟 对系统的通话质量有很大影响。因此,1 9 8 8 年,r r u 决定建立低延迟1 6 k b i t s 语音编码标准。 i t u 规定1 6 k b i t s 算法的m o s 分在4 0 以上,同时要求延迟小于5 m s 是 十分苛刻的,这在当时看来似乎是不可能达到的,无疑是个具有挑战性的 课题。随着先进的可编程数字信号处理器和专用集成电路的高速发展,计算 复杂性已不是很主要的问题。而另一方面,随着信息化时代的到来和人们对 通信系统越来越高的要求,编码器的延迟逐渐变成了主要的问题。 在通常的c e l p 型编码器中,短时综合滤波器的参数是采用前向自适应 预测来校正的,这就需要输入语音样点有一段缓冲延迟,这个延迟时间再加 上处理时间,总的一路编解码延迟约为5 0 6 0 m s ,这对于延迟要求很小的 1 6 k b i t s 语音编码器来说,显然是不能满足要求的。 1 9 8 8 年7 月,美国a t & t 贝尔实验室的研究人员开始研究符合r r u 要求 豹语囊缓玛舞法。经过四年豹努力纛鸯斗,终于提蹦j 全潮达芏! l i lu 鹫举列 1 6 k b i 佻i 眦e ”语音编码算法。1 9 9 2 年9 月r r u 正式公布了g 7 2 8 建议 1 6 k b i t s 低延迟码激励线能预溅( l o w d e l a yc o d e e x c i t e dl i n e a rp r e d i c t i o n ,简 写为l d 。c e l p ) 黼。这个编码嚣是翦述一般c e 堙编码爨始共圈点是: 利用念成分析法的搜索过程、感觉加权矢量量化和线性预测技术,从码本中 搜索鼢最佳璐矢萱,乘以簸佳增益,代替余爨信号作为激励信号;主要不同 之处农于一般c e l p 绩鹦器孛使媛魏囊鑫逶应羧测o r w o r d - a d a p t i v e p r e d i c t o r ) - 去除语音倍号的冗余度,而l d 。c e l p 编码器则使用后向自适应预测 器( b a c k w o r d - a d a p t i v ep r e d i c t o r ) 对短时谱包络和增益进行预测,因而 l d - c e l p 编粥器寅发送端传送熬哭是激聚码矢量兹建垃掭弩。瑗泼宅浆箨法 能达到低延迟0 6 2 5 m s ,一路编译码延迟小于2 m s a 夜眈,对几种有代表悛的标准进行比较。由表i - 1 我们可以看到目前国 羝土几秘主要熬语豢缠玛据准约裁定筝我、续玛逮率以及戆迟等塞要毪戆参 数。表1 - 2 按照1 t u 标准,给出了算法复杂度的定量数学表示州骚,s ) 。 从中可以了解到目前语音编码技术发展的趋势怒更低的速率、较好的重 建谖誊壤量、蜀激羧受魏楚迟褒笈杂度。对诿啻缡秘静这足令蛙煞摇标豹要 求往往是互糊矛盾的,一般来说,应从实际系统的要求出发,将逡几个方面 的性能指标按照实际要求的轻重程度进行综合考虑。 疆u 语音编码标准 m i p s r a m ( 字)r o m ( 字) g 7 2 6 ,g 7 2 7 a d p c m21 0 0 l o o o g 7 2 8l d c 馘l p3 0 l o ( ) o 一1 5 0 01 0 k 左右 0 7 2 9c s a c e l p2 0 3 0 ( ) o1 0 k 友舂 a 7 2 9 ac s - a c e l pn 2 0 ( ) o8 0 0 0 f g 7 2 3 1m p c m l q1 62 2 0 01 0 k 农右 6 奎堕墨三壁堡圭垒奎一 标准比特率( k b s ) 帧长度廊视公布年代 u t 建议 g 7 1 lp c m 6 40 1 2 5m s s1 9 7 2 g 7 2 6 g 7 2 14 ,g 7 2 3 + 】, 1 6 ,2 4 ,3 2 ,4 0o 1 2 5m s s1 9 9 0 1 1 9 8 8 , g 7 2 7a d p c m1 9 8 8 1 ,1 9 9 0 g 7 2 8l d c e l p 1 60 6 2 5m s s 1 9 9 2 ,1 9 9 4 g 7 2 9c s - a c e l p81 0 m s 5i l l s1 9 9 5 g 7 2 3 1m p c - m l q5 3 & 6 33 0 i l l s ,7 5 ms1 9 9 5 g 7 2 9c s 。a c e l p 81 0 m s 5m s 】9 9 6 a n n e x a 数字蜂窝标准 r e p - l t p ( g s m ) 1 32 0 m s 1 31 9 8 7 i s 一5 4v s e l p ( t i a 、7 9 52 0 m s 5 m s1 9 9 0 j d cv s e l p6 72 0 i l l s 5 m s1 9 9 0 ( r c rj a p a n ) i s 一9 6q c e l p ( t i a 、8 5 ,4 ,2 ,0 8 2 0 i l l s 5m s1 9 9 3 j d cp s i - c e 凹3 4 54 0 m s 1 0 m s 1 9 9 3 ( r c rj a p a n ) 美国保密电话 f s 一1 0 1 5l p c 。1 0 e2 4 2 2 5m s 9 0 m1 9 8 4 f s - 1 0 1 5c e i p4 8 3 0 s 7 5 m1 9 9 1 m e l p2 4 2 2 5m s1 9 9 7 ,2 3 m s 一实际前视为2 0m s 再加上3m s 的其它算法延迟 自从5 0 年前,美国贝尔实验室的d u d l y 开创性地提出了采用分析合成 技术的声码器概念后,语音信号编码技术就一直沿着以声码器为代表的参数 编码和以脉冲编码调制( p c m ) 为代表的波形编码这两个方向发展。随着通 信领域、通信手段的不断扩大和迅速发展,对于语音编码技术提出了更高的 要求,同时计算机的发展,大规模、超大规模集成电路的出现,为语音信号 编码技术的研究和实现提供了强有力的工具,如何在低速率上获得高质量的 重建语音,一直是语音编码研究的主要目标。7 0 年代中期,特别是8 0 年代以 来,语音编码技术有了突破性的进展,提出了许多非常有效的处理方法,产 7 查堕盔堂塑主垒奎一 生了新一代的参数编码算法,即混合编码,撇4 1 6 k b s 速率上得到高 质量的合成语音。至此,语音编码方法,按传统的概念可分为三类:即波形 编码,参数编码( 声码器) 和混合编码。波形编码技术以尽可能重构语音波 形为原则进行数据压缩,即在解码端以波形逼近为原则对语音信号进行压缩 编码,解码端根据这些编码数据恢复出语音信号的波形。它具有语音质量好, 抗噪性能强等优点,但需用的编码速率高,一般在6 4 1 6 k b s 之间。而声码器 技术则从声觉的角度注重语音本身的重现。它通常都是基于某种模型假定, 在编码端分析出该模型参数并选择适当的方式对其进行高效率的编码,解码 端则利用这些参数和语音产生模型重新合成语音。它具有编码速率低的优点, 可以达到2 4 k b s 以下,但语音质量差,而且对噪声较敏感,顽健性不够好。 混合编码是上述两类方法的有机结合,它也基于语音产生模型的假定并采用 了分析与合成技术,但同时它叉利用了语音时间波形信息,增强了重建语音 的自然度,使得语音质量有明显的提高,其代价是编码速率有相应上升,一 般在1 6 2 4k b s 之间。但是,近年来在语音编码技术研究中,随着各种新技 术新概念的不断涌现,采用上述概念进行分类的界限已显得越来越模糊。 数据通信业务阱算机阿络通信) 的增长速度在世界范围内超过了传统的 话音通信业务。把话音通信内容容纳在新的通信网中会给产业界带来巨大的 利润。目前,电话网已广泛采用数字程控交换机,表明话音通信进入数字时 代。所有这些应用表明语音编码技术在现代通信中有着举足轻重的作用。语 音压缩编码与话音存储、语音识别与合成等技术都直接相关,语音编码技术 的进展对通信新业务的发展都有极为明显的影响。因此语音压缩编码技术的 研究也就日益显示出其重要意义。 1 9 9 2 年提出的删一t g 7 2 8 标准语音压缩算法在1 6 k b i t s 速率上实现了单 路延迟不超过2 m s ,音质与p c m 相当,是数字电路倍增设备、i n t e r n e t i p 电话网关采用的首选算法。 奎堡望三盔兰堡圭丝一 1 2 人工神经网络的发展及现状 人工神经网络( 简称a n n ,或简称神经网络) 的发展可追溯到1 8 9 0 年,美 国生物学家阐明有关人脑结构及其模型;到了二十世纪四十年代,m c c u l l o c h 和p i t t s 首次提出的简单人工神经元m ,p 模型,揭开了神经网络研究的序幕; 而d o n a l dh e b b 的论著“组织行为学”提出的h e b b 学习算法,至今仍是神经 网络学习的基本方法怔j 。 1 9 5 7 年,f r a n kr o s e n b l a a 开始了神经网络中的第一个主要的研究项目: 他开发了一个称为感知机的神经网络。该网络用于模式分类、能够识别抽象 模式和集合模式。第一个感知机就有一定程度的学习能力,并且有一定的强 壮性。当组织部件损坏以后,操作功能只是有些降低而已;感知机还具有很 大的可塑性,当某些单元已经被损坏之后,通过重新训练可以实现无错误。 除此而外,感知机能够做有限的泛化工作,无论输入有无噪声,它能对模式 作适当的分类。感知机主要实现光学模式识别。一组4 0 0 个光电器件对应着 视网膜上的光敏感神经元,他们接受主要的光学刺激。有一组连接器单元用 于收集由光电器件而来的电脉冲,这些连接器单元与光电器件随机连接。当 光电器件的输入超过某个阈值时,相应的连接器单元便会产生输出。 1 9 5 9 年,斯坦福大学的教授b e r n a r d w i d r o w 开发了一个自适应线性单元, 称为a d a l i n e a d a l i n e 基于简单的类神经元单元。a d a l i n e 和一个两层a d a l i n e 的变种m a d a l i n e 被应用于各种领域,包括语音识别、字符识别、天气预报、 自适应控制。之后不久,a d a l i n e 被修改为能产生连续输出,而不仅仅是离散 输出信号。w i d r o w 使用自适应线性单元算法开发了个自适应过滤器,可以 消除电话线上的回升。第一次把神经网络用于实际问题。 m i t 电子研究实验室的m a r v i n m i n s k y 和s e y m o u r p a p e r t 从六十年代中期 就开始对感知机作深入的评判。1 9 6 9 年,他们出版了“感知机”( p e r c e p t r o n s ) 一书,对r o s e n b l a t t 的感知机的抽象版本作了详细的数学分析,其结论是:感 9 塑里三缝堡主堡茎一 知机和神经网络基本上不是一个值得研究的领域。 b r o w n 大学的j a m e sa n d e r s o n 博士潜心研究一种被称为线性联想器的神 经网络,这种网络基于记忆存储,记忆检索和记忆识别。线性联想器是一种 并行、分布式模型,神经网络中的处理单元之间连接强度的计算,根据h e b b 学习法则进行。a n d e r s o n 发明了一种线性联想器的扩展,成为盒中脑模型。 这个盒子位于神经网络的状态空间中( 状态空间中的每一根轴对应了一个神 经元) ,盒子本身代表了每一个状态的饱和界限。 芬兰的h e l s i n k i 技术大学教授t e u v ok o h o n e n 在自适应学习和联想式存储 器方面做了非常基础性的研究工作。他描述和分析了一种大规模局部自适应 规则,在这种规则中,权值以某种方式修改,或者取决于先前的权值和突触 前电位和突触后电位的数值。由这些自适应规则定义的存储器包括自相关矩 阵存储器,线性联想器和盒中脑网络都是自相关矩阵存储器的特例。这些存 储器是h e b b 学习规则的形式化表现,h e b b 学习规则是指在每次使用神经元 网络通路时,它们都得到增强。k o h o n e n 指出了竞争学习的原理。在这种原 理指导下,神经网络单元竞争者对输入刺激进行反应,并且竞争获胜者修改 自身权值以便对输入刺激给以更强烈的响应。这种学习是在神经网络的内部 组织中无教师的学习,它只通过输入刺激来控制。竞争学习是对自组织映射 进行研究产生的结果。自组织映射最初是为了研究人类的感觉器官中,接受 到的信息怎样映射到大脑的维和两维的区域中的生理过程的。竞争学习本 身是大脑神经元的相邻区域之间的一种横向相互作用的表现形式。 1 9 8 0 年日本大阪大学教授k u n i h i k of u k u s b i m a 提出一个称为 “n e o c o g n i t r o n ”的用于视觉识别的神经网络,它与生物视觉理论相符合,能 与人一样进行模式识别,并且是不需要指导的自组织结构。 1 9 8 2 年,由斯坦福大学教授d a v i dr u m e l h a r t 以及卡尼基梅隆大学教授 j a m e s m c c l e l l a n d ,多伦多大学教授g e o f f r e yh i n t o n 领导的p d p 小组( p a r a l l e l d i s t r i b u t e dp r o c e s s i n gg r o u p ) 开发了一种反向传播( b p ) 神经网络,是目前最流 1 0 查堕望三! 堂堕主堡l 一 行,应用最广泛的神经网络。 1 9 8 2 年j o h n h o p f i e l d 博士在美国国家科学院会议上发表了一篇有关神经 网络的论文。这是自1 9 6 0 年以后,第一次在这样显赫的会议上发表神经网络 方面的论文。h o p f i e l d 教授的精彩发言,引起了与会者对人工神经网络的广泛 兴趣。他描述的网络称为h o p f i e l d 网,或者纵横联想网络( c r o s s b a r a s s o c i a t i v e n e t w o r k ) 。h o p f i e l d 用神经学系统的工具,阐述了一个把神经处理单元全部 连在一起寻找能量最小状态的神经网络。事实上,他发明的网络的反应机构 和能量函数是g r o s s b e r g 研究的一般化神经网络的特例。 h o p f i e l d 网络模型把神经元操作描述为阈值操作,而把存储描述为信息存 储在相互连接的神经单元之间。他描写并构造了一个模型,使网络具有类似 于大脑的能力,对于一个刺激信号能从许多不同位置给以反应,以形成回想。 因此,他构造了一种模型,可以对一个给定的输入,从许多存储位置由神经 元系统给出联想信息。h o p f i e l d 做出的贡献,再一次激起人们对神经网络的极 大兴趣。 1 3 神经网络在语音处理中的应用现状 人工神经网络是采用大量的简单处理单元广泛地连接起来构成的一种复 杂的信息处理网络,其中处理单元及其相互连接模式是借鉴人脑神经元的结 构及连接机制设计的。这种网络具有与人脑相类似的学习记忆能力、知识概 括和输入信息特征抽取能力。神经网络是基于大脑的神经系统,由许多高度 连接的神经元组成。人工神经网络是在研究生物神经网络的基础上建立的神 经网络模型。人工神经网络是聪明的,进行直觉推理的机构。因为它是通过 实例学习,而不是按照早已编好的程序进行,因此从根本上区别于传统的人 工智能程序。人工神经网络的研究始于2 0 世纪4 0 年代,8 0 年代以来,神经 网络的研究出现了一个新高潮,因其非线性、自适应、鲁棒性及学习特性并 塑墼缝堡主鲨蔓一 且易于硬件实现等特性而受到人们的极大关注,有许多神经网络在诸多领域 都取得较为成功的应用,如模式识别与图像处理、控制与优化、预测与管理、 通信等6 1 。 语音信号处理也可以称为语音处理,它是以语音学和数字信号处理为基 础而形成的一个综合性学科,包括语音识别、语音合成、语音编码和说话人 识别等四大分支。语音处理的研究目标多种多样、处理方法丰富多彩,一直 是数字信号处理技术发展的推动力量:即数字信号处理领域中很多新方法的 推出,首先是在语音处理中获得成功,然后再推广到其它领域的,如高速信 号处理器的诞生和发展。语音处理之所以能够长期地、深深地吸引广大学者, 除了实用性之外,另一个重要原因是它始终与当时信息科学最活跃的前沿学 科密切地联系,并且一起发展,比如说,模糊集合理论、神经网络理论、小 波理论和时频分布理论是当前非常热门的研究领域,这些研究领域的研究常 常不可避免地把语音处理任务作为一个应用实例,而语音处理研究者也常常 从这些领域的进展中找到突破口,使语音处理技术研究取得突破陡进展。 目前,神经网络在语音处理中的应用主要集中在语音识别方面,神经网 络的独特优点及其强的分类能力和输入输出映射能力,对语音识别有很大的 吸引能力,这对传统的、现仍在语音识别中占主导地位的统计模型法提出一 定程度的挑战。虽然目前神经网络还很不成熟,但已在语音识别的某些方面 显示出威力,研究神经网络以探索人的听觉神经机理,改进现有语音识别系 统的性能,是当前语音识别系统的一个重要方向。目前在语音处理中有潜力 的神经网络有:单层感知器模型、多层感知器模型、k o n o n c n 自组织特征映 射模型、径向基神经网络、时延神经网络等。各种神经网络模型在应用于语 音识别时有其相似处,而只是应用于不同的任务时各有其优越性,如单层感 知器和多层感知器在语音处理中可以用做矢量量化器、类因素分类器、声调 识别、清浊判断、音素分割,还能和其它方法相结合构成性能顽健的语音识 别系统,当然也可用于说话人识别和语音编码等方面。从研究方向上看,神 奎壁三奎兰堡圭鎏奎 二 一 经网络与传统方法相结合、多种网络模型相结合是解决目前语音识别中的问 题的有效途径和思路。 随着神经网络理论发展,目前也出现了一些将神经网络理论用于语音编 码算法的文章,这些文献研究的思路大都集中在对语音信号进行非线性预测 方面,即用基于神经网络非线性预测的模型取代传统的线性预测模型,从而 获得优于原编码系统的恢复语音质量。然而如何选取最佳结构的神经网络, 目前并没有理论上的指导,大都靠实验和经验做出选择。对用于语音非线性 处理的神经网络应具备的条件做出一定的概括:第一,神经网络应是通用逼 近器这样才能对非线性动力学系统进行重构;第二,神经网络的训练速度较 快,以符合语音信号的非平稳的特性。 另外,为满足语音信号处理的需要,为找到更好的实时处理语音信号的 神经网络,对常规的神经网络的结构、神经网络的实现算法等方面的研究也 是目前研究的一个热点方向。这从一方面也说明,虽然神经网络等新理论的 出现会为语音信号处理注入新的“血液”,使语音信号处理焕发新的活力,但 另方面,随着神经网络应用到语音信号,语音信号会为神经网络理论提出 更高的要求,从而更进一步促进神经网络的发展。 进一步,我们也能看到:或以神经网络替代传统方法、或以与传统方法 相结合的方式,神经网络正以不可阻挡之势深入语音处理的各个领域,然而, 比较基于神经网络的语音处理方法和基于传统的语音处理方法的性能现在乃 至较长的一段时间内都还为时过早。包括已经被人们认为比较成熟的传统技 术,仍然有广阔的改进余地,对语音信号处理,仍然需要进行大量的、多角 度的实验和探索,需要研究者们为之付出不懈的努力。 1 4 本课题的研究背景及主要工作 语音信号编码是语音处理领域的重要的分支,如何在尽量减少失真的情 1 3 查壁三奎堂! 壁丝奎一 况下,降低语音编码的比特数已成为语音编码技术的主要内容,换句话说, 在相同的编码比特率下,如何取得更高质量的恢复语音是较高质量语音编码 系统的要求。 线性预测( l p ) 分析法是目前语音处理中的核心技术,它在语音识别、 合成、编码、说话人识别等方面都得到了成功的应用。有的专家认为,近2 0 年中语音处理技术的飞速发展与以线性预测为中心的信号处理技术是分不开 的。 线性预测的基本概念是:一个语音取样的现在值可以用若干个采样过去 值的加权线性组合来逼近,在线性组合中的加权系数称为预测器系数。可用 式子表示为:给定p 个观测点s = 冬一p ) ,s ( n p + 1 ) ,s ( n 1 ) ) ,寻找某个函数 ,( s ) 使下式误差序列之均方值最小化:f 铆) = s ( n ) - ,( s ) 其中,( s ) 为线性函 数。 目前的众多语音压缩编码标准中,都采用线性预测技术,如g 7 2 1 建议 a d p c m ,g 7 2 8 建议中的l d c e l p ,g 7 2 9 算法中的c s a c e l p 等。然而, 许多研究从物理背景和实验两方面表明:语音信号的产生是一个非线性过程, 语音信号是非线性的,因此,对具有非线性特性的语音信号采用线性预测技 术,并不能从根本上解决非线性系统的固有矛盾,其处理结果往往不是太理 想的。对上式中的,( s ) 取为非线性函数,则为非线性预测,而神经网络的良 好的非线性逼近能力对实现非线性函数f ( s ) 提供了可靠的保障,我们可望借 助神经网络实现非线性的f ( s ) 函数来得到优于线性预测的语音编码,从而降 低传输码率,同时并不降低语音质量。这就是本课题立题的最初动机,所以 本课题欲将神经网络良好的非线性预测能力用于语音编码,以神经网络非线 性预测模型来代替传统的、在语音编码中广泛应用的线性预测模型,为神经 网络应用于语音编码做一些探索工作。 1 4 奎婴三盔堂堡主塑 一一 本课题的主题源自国家自然科学基金项目“低码率低延迟话音编码算法 研究”,前期工作已有了一定基础,但并未进行非线性预测的研究工作。本人 在这方面进行了探索,主要的工作如下: ( 1 ) 研究时间序列的预测问题、研究神经网络非线性预测器的特性,找到 ( 2 ) ( 3 ) ( 4 ) ( 5 ) 基于神经网络非线性预测的语音编码系统的较为通用的总体框图; 研究目前较为广泛应用的b p 和r b f 神经网络及其特性; 研究与神经网络相对应的实现算法; 以g 7 2 8 算法为应用对象,将上述b p 、r b f 神经网络用于其中的增益 自适应部分,分析其特性; 用计算机语言模拟实现具有非线性增益预测的语音编码系统,分析其 性能改善。 1 5 本论文的组织 第一章是绪论;第二章是基于神经网络非线性预测的语音编码系统;第 三章是g 7 2 8 标准算法;第四奄是改进g 7 2 8 算法的前期工作;第五章、第 六章分别是基于b p 网络和基于径向基函数网络的自适应增益预测算法的研 究。 第二章基于神经网络非线性预测的语音编码系统 2 1自适应预测语音编码系统和线性预测 2 1 1自适应预测语音编码系统 我们在讨论语音信号的预测分析原理时,假定一个语音样本s ( 一) 可以近似 地被它过去的p 个样本的线性组合所预测,预测样本值: ( 2 1 ) 式中a i ( 1 f p ) 称为预测系数,p 是预测阶数,令f 表示实际值与预测值之 间的误差: f ( n ) :s ( n ) 一f ( n ) :j ( n ) 一圭4 f j ( n f ) ( 2 2 ) e ( n ) 即线性预测误差,也称作线性预测残差。对式( 2 - 2 ) 两边取变换后有 式中 百( z ) :【
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 共享经济模式下的物流服务合作协议
- 专业翻译服务协议指南
- 行政公文的政策导向试题及答案
- 2025房产中介销售合同
- 2025合法的多人劳动合同模板
- 行政管理与演变过程解析试题及答案
- 行政管理在社会福利中的角色试题及答案
- 行政管理学考试准备方案试题及答案
- 2025乡村住宅设计与装修合同书
- 2025年项目服务合同范本
- 激光应用技术发展路径试题及答案
- 期权开户考试题及答案
- 国家职业技能标准-(粮油)仓储管理员
- 2025年奉化农商集团考题
- 无人驾驶技术在旅游景区的自动驾驶巴士的创新实践
- 人教版八下道德与法治教学设计:2.2加强宪法监督
- 血透患者的血压管理
- 《自动化生产线集成与应用- Integration》课件-项目一 自动化生产线概述
- 湿地生态修复与保护设计方案
- 4.2依法履行义务 教案 2024-2025学年统编版道德与法治八年级下册
- 二元一次方程组讲义
评论
0/150
提交评论