




已阅读5页,还剩58页未读, 继续免费阅读
(模式识别与智能系统专业论文)语音编码lpc参数提取的fpga实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着语音技术应用的发展,语音信号数字处理的实时性要求越来越突出。这 就要求在系统设计中,对系统的硬件环境要求更高。随着语音处理算法的日益复 杂,用普通处理器对语音信号进行实时处理,已经不能满足需要。专用语音信号 处理芯片能解决实时性的要求,同时对器件的资源要求也是最低的。 论文利用a l t e r a 公司的新一代可编程逻辑器件在数字信号处理领域的优 势,对语音信号的常用参数l p c ( 线性预测编码,l i n e a rp r e d i c t i v ec o d i n g ) 参数提取的f p g a ( 现场可编程门阵列,f i e l dp r o g r 锄a b l eg a t ea r r a y ) 实现 进行了深入研究。论文首先对语音的离散数学模型和短时平稳特性进行了分析, 深入讨论了语音线性预测技术。第二,对a 1 t e r a 公司的c y c l o n 系列可编程器件 的内部结构进行了研究,分析了在q u a r t u si i 开发平台上进行f p g a 设计的流程。 第三,对解l p c 正则方程的格形算法、德宾递推算法和舒尔递推算法的硬件实现 进行了比较,给出了一种基于德宾递推算法的l p c 参数提取系统的总体设计方 案。第四,对系统的自相关函数和德宾递推两个功能模块进行了设计,所有算法 通过v e r i l o g 硬件描述语言实现,并对其工作过程进行了详细的分析。最后,在 a l t e r af p g a 目标芯片e p l c 6 q 2 4 0 c 8 上,对l p c 参数提取系统进行了仿真验证。 系统具有灵活的输入输出接口,能方便地同其它语音处理模块相连,构成一 个完整的语音处理专用芯片,可以应用于语音编解码、语音识别等系统。 关键词:语音编解码;l p c ;f p g a ;并行处理 摘要 a b s t r a c t w i t ht h ed e v e l o p m e n to fs p e e c ht e c h n 0 1 0 9 ya p p li c a t i o n ,m o r ea n dm o r e s p e e c h s i g n a ld i g i t a lp r o c e s s i n gs y s t e mh a st ob er e a l 一t i m em o d eo rt o b eo n 一1in em o d e t h er e q u i r e m e n to fh a r d w a r ee n v i r o n m e n tish i g h e ra n d h i g h e r ,e s p e c i a l1 y i nt h e d e s i g n o fe m b e d d e d s y s t e m t h e s p e e c h p r o c e s s i n ga r i t h m e t i ci sm o r ea n dm o r ec o m p l i c a t e d , a n da b i l i t y n o te q u a lt oo u ra m b i t i o nt h a tt od e a lw i t hs p e e c h s i g n a lr e a lt i m ew it h c o m m o np r o c e s s o r s p e c i a ls p e e c h c h i pc a nr e s 0 1 v et h ep r o b l e mo fp a r a l l e l a n ds p e e do f s p e e c h s i g n a lp r o c e s s i n g , s ot h ea p p l i c a t i o no nt h e s p e e c h s i g n a lp r o c e s s i n gs y s t e mi se s p e c i a l l yi m p o r t a n t u s i n gt h ep r e d o m i n a n c eo fn e wa 1 t e r ap r o g r a 玎皿a b l el o g i cc h i po n d i g i t a ls i g n a lp r o c e s s i n gd o m a i n , 1 u c u b r a t eo nt h e i m p l e m e n tw i t h f p g a ( f i e l dp r o g r a m m a b l eg a t ea r r y ) o ft h ee x t r a c t i o no fs p e e c h s i g n a l s c o m m o np a r a m e t e r l p cp a r a m e t e r f ir s tl y , a n a l y z et h es p e e c hd is p e r s e d i g i t a lm o d e la n ds h o r t t i m es m o o t hc h a r a c t e r i s t i c ,d i s c u s ss p e e c hl i n e a r p r e d i c t i o nc o d i n g ( l p c ) i n d e p t h s e c o n d l y , s t u d yt h ei n s i d es t r u c t u r e o fa 1t e r ac y c l o ns e r i e sp r o g r a m m a b l ec h i p ,a n ds t u d yt h ef l o wo ff p g a d e s i g no nt h eq u a r t u si ie x p l o i t a t i o nf l a tr o o f t h i r d l y ,c o m p a r et h e h a r d w a r ei m p l e m e n to fl a t t i c ea r i t h m e t i c ,d u r b i na r i t h m e t i ca n ds c h u r a r i t h m e t i c , a n db r i n gf o r w a r dac 0 1 l e c t i v i t ys c h e m eo fl p cc h a r a c t e r p a r a m e t e re x t r a c t i o ns y s t e mb a s e do nd u r b i na r i t h m e t i c f o u r t h l y ,d e s i g n a n di m p l e m e n tt w of u n c t i o nm o d u l e ,s e l f c o r r e l a t i o na n dd u r b i na r i t h m e t i c , a n a l y s e s a n d e x p l a i n t h e w o r k p r o c e s s i nd e t a il f if t h l y ,t h e c h a r a c t e r i s t i co fd i v i s i o no p e r a t i o ni nt h i ss y s t e mi st h a tq u o t i e n ti s l e s st h a n1 ,s od e s i g na n di m p l e m e n tas p e c i a ld i v i s i o nm o d u l e f i n a l l y , o nt h ea i mc h i pa 1t e r af p g ae p l c 6 q 2 4 0 c 8 ,e m u l a t ea n dv a li d a t et h el p c c h a r a c t e rp a r a m e t e re x t r a c t i o ns y s t e m s y s t e mh a st h ec h a r a c t e r i s t i co f f a s tp r o c e s s i n g ,b e s i d e s , h a s 4 摘要 f l e x i b l ei n p u ta n do u t p u ti n t e r f a c e t h i ss y s t e mc a nb ej o i n e dw i t ho t h e r s p e e d p r o c e s s i n g m o d u l e e x p e d i e n t l y ,c o m p o s i n g a ne n t i r e s p e e c h p r o c e s s i n gs y s t e mo nac h i p , a n dc a nb eu s e di ns p e e c hc o d i n ga n d d e c o d i n gs y s t e m ,s p e e c hs y n t h e s i z es y s t e m ,s p e e c hr e c o g n i z i n gs y s t e ma n d s oo n k e y 眦d :s p e e c hc o d i r 培a n dd e c o d i n g ;l p c :f p g a :p a r a l l e lp r o c e s s i n g t e c h n 0 1 0 9 y 5 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位 论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除 文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对 所写的内容负责,并完全意识到本声明的法律结果由本人承担。 学位论文作者签名:彳撒 日期:m 年1 月f 亨日 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允 许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复 制手段保存和汇编本学位论文。 保密口,在年解密后适用本版权书。 本学位论文属于 不保 学位论文作者签名:嘭日拟 日期:伽 年f 月f 阳 指导教师签名: 弑 日期:口7 年,月,钼 第一章绪论 第一章绪论 1 1语音信号处理技术简述 语言既是人类创造的,亦是人类区别于其他地球生命的本质特征之一。语音 是语言最本质、最自然、最直接的表现形式或载体,其表现形式为声波一种 由空气分子振动而形成的机械波。人类用语言交流的过程可以看成是一个复杂的 通信过程,为了获取便于分析和处理的语音信源,必须将在空气中传播的声波转 变为包含语音信息并且记载着声波物理性质的模拟( 或数字) 电信号,即语音信 号,因而语音信号就成为语音的表现形式或载体n 1 。 语音信号处理是建立在语音学和数字信号处理的基础之上的,对语音信号模 型进行分析、存储( 编码) 、传输、识别和合成等方面研究的一门综合性学科。 它包括语音编码、语音合成和语音识别三大学科分支,并由此形成了语音存储( 编 码) 技术、语音合成技术和语音识别技术三大实用技术险1 。 语音信号的数字化传输一直是通信发展的主要方向之一,语音的数字通信与 模拟通信相比,无疑具有更好的效率和性能,这主要体现在:具有更好的话音质 量;具有更强的抗干扰性,并易于进行加密;可节省带宽,能够更有效地利用网 络资源;更加易于存储和处理。最简单的数字化的方法是直接对语音信号进行模 数转换,只要满足一定的采样率和量化要求,就能够得到高质量的师姊语音。 但这时语音的数据量仍旧非常大,因此在进行传输和存储之前,往往要对其进行 压缩处理,以减少其传输码率或存储量,即进行压缩编码口1 。传输码率也称为数 码率或编码率,表示传输每秒钟语音信号所需要的比特数。语音编码的目的就是 要在保证语音音质和可懂度的条件下,采用尽可能少的比特数来表示语音。 就语音编码技术而言,它的研究始于1 9 3 9 年d u d l e y 发明的声码器,但是知 道7 0 年代中期,除了p c m 和a d p c m 取得较好的进展之外,中、低比特率语音编 码一直没有大的突破。自7 0 年代起,国外就开始研究计算机网络上的语音通信, 当时主要是基于a r p a n e t 网络平台进行的研究和实验。1 9 7 4 年首次分组语音实 验是在美国西海岸南加州大学的信息科学研究所和东海岸的林肯实验室之间进 行,语音编码为9 6 k b p s 的连续可变斜率增量调制。1 9 7 4 年1 2 月l p c 声码器首 次用于分组语音通信实验,数码率为3 5 k b p s h l 。1 9 7 5 年1 月又首次在美国实现 使用l p c 声码器的分组话音电话会议。2 0 世纪8 0 年代的研究主要集中在局域网 6 第一章绪论 上的语音通信,1 9 8 0 年美国政府公布了一种2 4 k b p s 的l p c 编码标准算法 l p c 一1 0 ,这使得在普通电话带宽信道中传输数字电话成为可能哺1 。1 9 8 8 年美国又 公布了一个4 8 k b p s 的c e l p 语音编码标准算法,欧洲推出了一个1 6 k b p s 的r e l p 编码算法,这些算法的音质都能达到很高的质量,而不像单脉冲l p c 声码器的输 出语音那样不为人们所接受。进入2 0 世纪9 0 年代,随着i n t e r e n t 在全球范围 内的兴起和语音编码技术的发展,i p 分组语音通信技术获得了突破性的进展和 实际应用。最初的应用只是在网络游戏等软件包中传送和存储语音信息,对语音 质量要求低,相当于机器人的声音效果。其后计算机厂商纷纷推出对等方式或客 服服务器方式语音通信免费软件,这些软件利用计算机中的声卡对语音进行打包 传送,对语音一般不进行压缩,至2 0 世纪9 0 年代中期,有关厂商开始开发用于 局域网语音通信的网关产品,实现局域网内p c 间的语音通信以及经p b x 和外界 电话的通信,但这些产品都采用内部协议规范。期间还出现了很多被广泛使用的 语音编码国际标准,如数码率5 3 6 4 k b p s 的g 7 2 3 1 ,数码率为8 k b p s 的g 7 2 9 等。此外,也存在着各种未形成国际标准,但数码率更低的成熟的编码算法,有 些算法编码率甚至可以达到1 2 k b p s 以下,但仍能提供可懂的语言阳1 。 语音编码根据编码方式的不同可分为三种:波形编码,参数编码和混合编码。 波形编码是根据语音信号的波形导出相应的数字编码形式,其目的是尽量保持波 形不变,使接收端能够忠实地再现原始语音;波形编码具有抗噪性能强,语音质 量好等优点,但需要有较高的数码率,一般为1 6 6 4 k b p s 。参数编码又称为声码 器技术,它通过对语音信号进行分析,提取参数来对参数进行编码。在接受端能 够用解码后的参数重构语音信号,参数编码主要是从听觉感知的角度注重语音的 重现,即让解码语音听起来与输入语音是相同的,而不是保证其波形相同。参数 编码一般对数码率的要求要比波形编码低的多。混合编码是上述两种编码方法的 有机结合,同时从两个方面构造语音编码:一方面增加语音的自然度;提高语音 质量;另一方面相对于波形编码实现较低的数码率指标h 1 。 之所以对语音信号压缩后仍可以得到可懂的语音,是因为语音信号中存在大 量的冗余信息,而语音编码就是利用各种编码技术减少语音信号的冗余度。此外 语音编码中也充分地利用了人耳的听觉隐蔽效应,一方面去除将会被隐蔽的语音 信号,实现数据的压缩;另方面控制量化噪声,使其低于隐蔽阙值,即使在较 7 第一章绪论 低数码率的情况下,也能获得高质量的语音鹏1 。 语音合成,顾名思义,是对语音信号的合成,其主要目的是让机器说话,一 边使一些其他存储方式的信息能够转化成语音信号,让人能够简单地通过听觉就 可以获得大量地信息。 当前,语音合成的研究已经进入文字一语音转换( t t s ) 阶段,其功能模块 可分为文本分析、韵律建模和语音合成三大模块。其中,语音合成是t t s 系统中 最基本、最重要的模块。概括起来说,语音合成的主要功能是:根据韵律建模的 结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基 元进行韵律特性的调整和修改,最终合成出符合要求的语音。 语音合成技术经历了一个逐步发展的过程,从参数合成到拼接合成,再到两 者的逐步结合,其不断发展的动力是人们认知水平和需求的提高。目前,常用的 语音合成技术主要有:共振峰合成、l p c 合成阳1 、p s o l a 拼接合成和l m a 声道模 型技术。它们各有优缺点,人们在应用过程中往往将多种技术有机地结合在一起, 或将一种技术的优点运用到另一种技术上,以克服另一种技术的不足。 语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模 式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理 等诸多领域,甚至还涉及到人的体态语言( 如人在说话时的表情、手势等行为动 作可帮助对方理解) ,其最终目标是实现人与机器进行自然语言通信。 语音识别的研究工作大约开始于5 0 年代,b e l l 实验室的d a v i d 等人研制成 功了第一个可识别十个英文数字的语音识别系统a u d r y 系统。这是语音识别 研究工作的真正开端。 6 0 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出 了动态规划( d p ) 和线性预测分析技术( l p ) ,对整个语音识别、语音合成、语音分 析、语音编码的研究发展产生了深远影响引。 7 0 年代,语音识别领域取得了突破。在理论上,l p 技术得到进一步发展, 动态时间归正技术( d t w ) 基本成熟,特别是提出了矢量量化( v q ) 和隐马尔可夫模 型( h 删) 理论。在实践上,实现了基于线性预测倒谱和d t w 技术的特定人孤立语 音识别系统。 8 0 年代,语音识别研究进一步走向深入,其显著特征是h m m 模型和人工神 8 第一章绪论 经元网络( a n n ) 在语音识别中的成功应用。1 9 8 8 年美国卡内基一梅隆大学运用v q 和h 删技术研制出了非特定人、大词汇量、连续语音识别系统一s p h i n x 系统,它 可以理解由1 0 0 0 个单词构成的4 2 0 0 个句子,被认为是语音识别历史的一个里程 碑m 1 。 进入9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走 向实用。许多发达国家如美国、日本、韩国以及i b m 、a p p l e 、a t t 、n t t 等著 名公司都为语音识别系统的实用化开发研究投以巨资。我国从7 0 年代后开展研 究,从引进国外理论技术入手,移植到汉语和结合汉语特点进行研究,取得了不 少成果并逐步形成了”汉语语音识别”学科。 从总体上看,语音编码、语音识别、语音合成这三者在语音信号处理的过程 当中都用到语音的特征参数,用反映语音信号特点的若干参数来代表语音,所以 语音参数的提取是语音信号处理技术的基础和重要组成部分。本论文所研究的 l p c 参数是语音信号最常用的参数之一。l p c 的重要性在于它并不完全应用在语 音处理上,而有更广泛的应用领域如控制和雷达等。但是,在语音处理中,l p c 分析也许是最成功的,因为它允许使用很小的参量组,精确的表示语音信号。 1 2 论文选题的意义 随着语音技术的发展,语音处理的要求越来越高,算法越来越复杂。特别是 在实时性要求强的工作环境中,更是对系统的硬件环境要求提高。 随着超大规模集成电路( v l s i ) 技术的发展,系统芯片和芯片集成系统的新 时代已经来到。超高速d s p 芯片和百万门可编程逻辑器件( p l d ) 的问世,为复杂 信号处理系统的实现奠定了基础4 1 。 目前很多语音处理系统主要以d s p ( 数字信号处理,d i g i t a ls i g n a l p r o c e s s i n g ) 处理器为核心器件。但开发以d s p 处理器为核心的d s p 应用系统所 采用的开发方法是自底向上的设计流程,严重影响开发的效率和成功率。面对现 代通信技术的发展,d s p 处理器已暴露出硬件结构的不可变性、处理速度比较慢 等不足吲。 好在随着微电子工艺技术的不断进步现代大容量、高速度的f p g a 及其相关 的开发技术,在可重配置的d s p 应用领域、d s p 数据大吞吐量和数据的纯硬件处 理方面,有独特的优势。新的基于f p g a 的d s p 系统级开发工具以及完整的软件开 9 第一章绪论 发平台,使得设计者能采用自顶向下的开发方法进行f p g a 的d s p 设计,设计效率 大为提高n 7 1 。 论文研究了如何利用f p g a 作为一种快速、高效的硬件平台,以及新型可编 程逻辑器件在支持数字信号处理方面的独特优势,将l p c 分析与f p g a 技术结合, 实现语音信号l p c 参数的提取n 8 1 9 3 。l p c 参数是语音信号处理的一个常用参数, 所以l p c 参数的成功提取为语音信号的进一步处理打下了基础。系统能方便地同 其它语音处理模块组合,构成一个完整的语音处理片上系统,应用于语音编解码、 语音识别等系统。同时数字信号处理的f p g a 实现对于二维的图像、视频处理也 有一定的借鉴意义啪1 。 1 3 论文主要研究内容与安排 语音信号数字模型的建立是参数编码理论的前提和基础。论文首先分析了语 音信号数字模型和语音信号的短时平稳特性,然后深入讨论了线性预测编码 ( l p c ) 技术。通过对解l p c 特征方程的格形算法、舒尔递推算法和德宾递推算 法在硬件实现上的比较,提出了一种基于德宾递推算法的l p c 参数提取系统总体 方案,并对系统各功能模块进行了仿真验证。 论文结构安排如下: 第一章介绍了语音信号处理技术及其发展、论文选题的意义和各章的结构安 排。 第二章对语音信号的数字模型和短时平稳特性进行分析,并深入讨论了线性 预测编码( l p c ) 理论。 第三章分析了在q u a r t u si i 开发平台下进行f p g a 设计的流程。对a l e t r a 公司f p g a 器件c y c l o n 系列芯片的内部结构进行了研究。 第四章对解l p c 特征方程的算法从硬件实现角度上进行了比较分析和选型, 提出了一种基于德宾递推算法的l p c 参数提取系统设计方案。 第五章完成了系统和相关函数、德宾递推函数两个功能模块的具体实现。并 对系统进行了性能分析和仿真验证。 第六章对论文进行了工作总结,并对以后的工作进行了展望。 l o 第二章语音信号处理 第二章语音信号处理 语音信号分析大体上有时域、频域、倒谱域等分析方法。但是按语音学观点, 可将它分为模型分析法和非模型分析法两种。模型分析法是依据语音信号的数学 模型的理论来求得这些模型参数,而将其它分析方法笼统地归于非模型分析法 中。模型分析法中的各种模型只适合于信号是平稳或局部平稳的情形。由于不同 的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种肌肉运动 相对于语音频率来说是极缓慢的,因此一般认为在2 0 4 0 m s 的短时间内语音信 号是平稳的,所以完全可以用短时平稳的分析方法。 2 1 语音信号分析 2 1 1语音信号的产生模型 语音信号产生模型是对发声器官的模拟和仿真。数字模型就是用数字处理方 法实现这种物理系统的模拟,由此可估计出语音波形的参数。因此,这种数字模 型也是语音参数模型乜。我们知道发声器官能发出一系列的声波是由于声道受到 气流的激励而产生的。声道的一端是喉,另一端是嘴,其中包含有声带、声门、 口腔和鼻腔等。根据声带振动与否,语音可分为浊音和清音两大类。声带在气流 的作用下发生振动,从而产生准周期的声波激励,这种激励经过口腔和鼻腔的谐 振作用而形成浊音,有时称为有声音。气流经过口腔的唇齿部分,如果引起湍流 就产生摩擦音,有时因为唇部突然张开而形成爆破音。凡是声带不振动的声音, 统称清音,有时也称为无声音。用数字方法模拟这种功能时,用准周期的脉冲序 列来模拟声带振动的激励,而用随机噪声模拟清音的激励,口腔、鼻腔等所组成 的声道谐振特性可用时变数字滤波器来模拟。数字滤波器的频率响应受到一些参 数的控制。不断控制清浊音开关、激励脉冲的周期以及噪声源强度,同时随着不 同的发音改变滤波器特性,输出的信号就是所要求的语音信号序列。如图2 1 所示。 第二章语音信号处理 信号 n ) 图2 1 语音信号产生模型 语音信号是一个局部平稳的随机信号,它的激励参数和声道滤波器的参数均 随时间而变化,但是由于发声器官的惯性使这些参数的变化速度受到限制,对于 声道参数,在一较短的时间内( 1 0 3 0 m s ) 可近似认为是不变的,因此语音的短时 分析帧长一般取为2 0 m s 左右。对于激励源参数,大多数情况下这一结论也是正 确的。但是有些音的变化速度特别快,例如塞音或塞擦音的爆破段,2 0 m s 的时 间间隔就过长,这时取5 m s 的间隔更为恰当。模型中将语音信号截然分为受周期 脉冲激励和噪声激励两种情况。这与实际情况并不完全符合,将清浊音开关换为 叠加号更为合适,这样激励信号可以是上述两种激励按任意比例相叠加,这更加 符合实际情况( 即使如此,这个模型也不能完全包括所有的情况) 。除了这些限 制以外,这个模型的局限性主要表现在它的传输函数不包含有限传输零点,而像 鼻音、擦音这样一些音的声道传输函数中是包含有限零点的。一种解决问题的方 法是在声道模型v ( z ) 中引入若干有限传输零点,但是这将使模型复杂化。另 一种方法是适当提高阶数p ,使得全极点模型能更好地逼近具有此种零点的传输 函数。 2 1 2 语音信号的短时分析 由于语音信号的准平稳特性,任何语音信号数字处理算法和技术都建立在短 时基础上。为了实现各种具体应用目的而做进一步的复杂处理之前,有一些经常 使用的、共同的短时分析技术如下: 一、预滤波、采样、a d 变换 预滤波的目的是:( 1 ) 抑制输入信号各频率分量中频率超出z 2 的所有分 量( ,为采样频率) ,以防止混叠干扰。( 2 ) 抑制5 0 h z 的电源干扰。这样,预滤 波器必须是一个带通滤波器,其上下截频分别是厶= 3 4 0 0 h z ,五= 6 0 一1 0 0 h z , 1 2 第二章语音信号处理 采样率为z = 8 k h z 。对于绝大多数语音编解码器,语音信号经过预滤波和采样后, 由a d 变换器变换为二进制数字码。a d 变换器分为线性和非线性两类。目前采 用的线性a d 变换器绝大部分是1 2 位的,非线性a d 变换器则是8 位的。它与 1 2 位线性变换器等效。但是为了后续处理,必须将非线性的8 位码转换为线性 的1 2 位码。 二、语音信号数字化的存储和加窗 将己数字化的语音信号序列将依次存入一个数据区,在语音信号处理中一般 用循环队列的方式来存储这些数据,以便用一个有限容量的数据区来应付数量极 大的语音数据,已处理过的语音数据可以依次抛弃,让出存储空间来存入新数据。 在进行处理时,按帧从此数据区中取出数据,处理完成后再取下一帧。在取数据 时,前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为o 一1 2 。 为了防止g i b b s 效应,对已取出的一帧语s ( 挖) 要经过加窗处理,这就是用一 定的窗函数w ( 甩) 来乘s ( 甩) ,从而形成加窗语音s ,( 刀) ,即j 。( 刀) = j ( ,z ) w ( 船) 。在语 音信号数字处理中常用的窗函数是方窗和哈明窗。 三、语音信号的短时能量、短时平均幅度和短时过零率 短时能量、短时平均幅度和短时过零率是语音信号的一组最基本的短时参 数,在计算这些参数时使用的一般是方窗或哈明窗。 当窗的起点n = 0 时,语音信号的短时能量用e 表示,其计算公式如下: | v l 晶= s :( 刀) ( 2 1 ) 疗= 0 如果窗w ( 聆) 的起点不是n = o 而是某个其它整数m ,那么相应的短时能量用邑 表示,其取和限为n = m ( m + n 一1 ) 。 当窗的起点为n = o 时,语音信号的短时平均幅度用m o 表示,其计算公式为: 坂2 弘( 以) i ( 2 - 2 ) 同样,当窗的起点为任意整数m 时,可表示为帆。眠也是一帧语音信号能量 大小的表征,它与扇的区别在于计算时小取样值和大取样值不因取平方而造成 第二章语音信号处理 较大差异。 当窗起点位n = 0 时,语音信号的短时过零率用z 0 表示,以表示一帧语音中 语音信号波形穿过横轴( 零电平) 的次数。它可以用相邻两个取样改变符号的次数 来计算: 1 ,一1 z o = 去 i s g n 【s 。( 挖) 卜s g n 一1 ) 】1 ) ( 2 3 ) 其中s g n 表示取符号。同样,当窗的起点为任意整数m 时,过零率用乙表示。 e 、m 和z 都是随机参数,但是对于不同性质的语音它们具有不同的概率分 布。浊音的短时平均幅度最大而短时过零率最低,清音的短时平均幅度居中而短 时过零率最高,无声的短时平均幅度最低而短时过零率居中。它们的条件概率密 度函数都很接近于正态分布。 四、语音信号的短时自相关函数和短时频谱 设s 。) 是一段加窗语音信号,它的非零区间为n = 0 一( n 一1 ) 。( 门) 的自关函 数称为语音信号s ( n ) 的短时自关函数,用凡( ,) 表示,它的计算公式为: r ( z ) = s 。( 挖弦。( 刀+ 2 r ) = ( 疗弦,( 胛+ ,) 一= 一 一= o ( 2 4 ) 易于证明,灭。( z ) 是偶函数,即凡( f ) = 又( - f ) 。灭。( z ) 在z = ( 一+ 1 ) ( 一1 ) 区间之外恒为0 。氏( ,) 的最大值在,= 0 处,且凡( 0 ) 等于加窗语音的平方和,即 凡( o ) = 5 :( 甩) 一= o ( 2 5 ) s 。( n ) 的离散时域傅立叶变换( d t f ,r ) & ( e x p ( 州) 称为s ( n ) 的短时频谱,计 算公式为: & ( e x p ( 一) ) = & ( ,z ) e x p ( 一一盯) n l o ( 2 6 ) 瓯( e x p ( 一) ) 2 i 便称为s ( n ) 的短时功率谱。假设s ( n ) 的d t f t 是s ( e x p ( 一) ) , 且w ( n ) 的d t f t 是( e x p ( w ) ) ,那么& ( e x p ( w ) ) 是s ( e x p ( ,w ) ) 和形( e x p ( w ) ) 的周 1 4 第二章语音信号处理 期卷积。通常采用方窗时求得的s 。( e x p ( 一) ) 与s ( e 啾j w ) ) 的偏差较大,这就是 g i b b s 效应。为了减小这种影响,在求短时频谱时一般采用哈明窗。在语音信号 数字处理中,都是采用s 。( ,z ) 的离散傅立叶变换( d f t ) 瓯( 后) 来替代& ( e x p ( 一) ) , 并且可以用高效的快速傅立叶变换( f f ,r ) 算法完成由瓯( ,z ) 到s 。( 七) 的转换。为了 使瓯( 七) 具有较高的谱分辨率,所取的df ,i 以及相应的f f t 点数,较& ( 珂) 的 n 长度要大。可以证明,l 瓯( e x p ( 一) ) 2 l ,是氐( ,) 的d t f ,r ,这可以表示为: 2 2 线性预测编码 & ( e x p ( 一) ) 1 2 :芝凡( 加x p ( 一一,) 一一 ,+ l ( 2 7 ) 根据语音信号的产生模型,语音信号s ( z ) 是一个线性非移变因果稳定系统 v ( z ) 受到信号e ( z ) 激励后所产生的输出。在时域中,语音信号s ( n ) 是该系统的 单位取样响应v ( n ) 和激励信号e ( n ) 的卷积晗引。在语音信号数字处理所涉及的各 个领域中,根据s ( n ) 来求得v ( n ) 和e ( n ) 具有非常重要的意义。例如,为了求得 语音信号的共振峰就需要知道v ( z ) ( 共振峰频率是v ( z ) 的各对复共扼极点的频 率) 。又如,为了判断语音信号是清音还是浊音以及求得浊音情况下的基音频率, 就应该知道e ( n ) 或e ( z ) 。在实现各种语音编码、识别、合成以及说话人验证和 识别等算法时无不需要由v ( n ) 和e ( n ) 的卷积s ( n ) 来求得v ( n ) 和e ( n ) 。由卷积 信号求得参与卷积的各个信号是数字信号处理各个领域中普遍遇到的一项共同 的任务,解决此任务的算法称为解卷算法。解卷算法的研究是一项十分重要的研 究课题,其目的在于用尽可能少的计算代价来获取尽可能准确的v ( z ) ( 或v ( n ) ) 和e ( z ) ( 或e ( n ) ) 的估计。解卷算法的深入研究还引入了很多重要的概念和参数, 它们对于编码、识别、合成等许多研究工作和应用技术都是至关重要的。解卷算 法可以分成两大类。第一类算法中首先为线性系统v ( z ) 建立一个模型,然后对 模型的参数按照某种最佳准则进行估计,所以这种算法称为参数解卷。如果所取 的模型中只包含有限值极点而没有有限值零点,则系统的函数可以表示为 y ( z ) :l 彳( z ) 。其中,彳( z ) :羔q z 一,这时解卷算法可以归结为对各模型参数 第二章语音信号处理 见进行估计。这种模型称为全极点模型或称为a r 模型( a u t o r e g r e s s i v e 模型) 。 如果采用最小均方误差( l m s 误差,l e a s tm e a n s q u a r ee r r o r ) 准则对a r 模型参 数进行估计,就得到了著名的线性预测编码( l p c ) 算法( l p c l i n e a rp r e d i c t i v e c o d i n g ) 。如果所取的模型中既包含有限值极点又包含有限值零点,则称为零极 点模型或a r m a 模型( a u t 0r e g r e s s i v em o v i n ga v e r a g e ) 。第二类算法则无需为 线性系统建立一个模型,因而可以称之为非参数解卷算法,用同态信号处理完成 解卷任务就是其中最重要的一种瞳2 1 。 2 2 1 l p c 分析的基本概念 考虑到语音信号只有在一个短时段中才可以认为是平稳的,因此对语音信号 的l p c 分析和其它语音信号分析相同,必须是一种短时分析。这就是说,只能利 用一短段语音来估计其模型参数,这一短段的持续时间一般选择为2 0 m s 左右。 为了进行短时分析可以采用两种方案:第一种时对一个长的语音序列s ( n ) 用窗 函数w ( n ) 相乘,形成加窗语音& ( 刀) ,然后对& ( 以) 进行l p c 分析。只要限定窗 的长度便可以保证分析得短时性,由此导出的方法称为自关法。第二种方案不是 对s ( n ) 加窗,而是限定求均方值吒= s 2 ( 甩) 中的取和间隔为一个短时段, 一疗 由此可以导出自协方差法盈3 j 。 e ( n ) v ( z ) = g ( z ) a ( z ) e ( z ) 未知 未知 已知 图2 2 参数解卷模式 首先给出一个参数解卷的通用模式,如图2 2 所示,其中假设一个己知的序 列s ( n ) 是一个未知的序列e ( n ) 激励一个未知的系统所产生的。如果假设此未知 系统是一个线性非移变因果稳定系统,且可以用一个线性差分方程描述,那么其 q 特性可以用其z 域传输函数v ( z ) 来表示,且v ( z ) = g ( z ) a ( z ) ,g ( z ) = 邑z , = o 1 6 第二章语音信号处理 尸 彳( z ) = q z ,毋,q 皆为实数,且口o = 1 。这样,参数解卷问题归结为求模 ,= 0 型的参数g ,和q 。如果能有一种算法,可以根据己知的s ( n ) 正确地估计出这些 参数,那么未知的系统v ( z ) 便可求得。由于e ( z ) v ( z ) = s ( z ) ,根据v ( z ) 和s ( z ) 便立即可以求得e ( z ) ,从而全部解决了解卷的问题。 现在对这个模型再加一些限制以便于得到一种高效的求解算法。第一个限制 是令v ( z ) 的分子多项式g ( z ) = 1 ,这样v ( z ) = 1 a ( z ) 。由于系统模型中只包含极 点而不含零点( z = 0 处的零点除外) ,所以这种模型称为“全极点模型 。而参数 解卷问题归结为系数珥的估计问题。第二个限制是对于一般的未知序列e ( n ) 加 以约束,把它写成g e ( n ) 的形式。其中e ( n ) 是一个周期脉冲序列或一个高斯白噪 声序列。当e ( n ) 是一个周期脉冲序列时,可以表示为: p ( 疗) = 万( 刀一叱) ( 2 8 ) 其中当n 2 0 时,万( 胛) 2 1 ,而对于其它n 值万( 刀) 皆为o 。m 是其周期值。当 e ( n ) 是高斯白噪声序列时,它的自关函数满足下列条件: 疋( ,) = e 【p ( 刀) e + 1 ) 】= 万( 甩) 而且e ( n ) 的取值满足高斯分布( 正态分布) 。系数g 是一个非负实数,通过它的改变来控制系统输出序列s ( n ) 的幅度大小。在做了 这些限制之后,可以将参数解卷的问题归结为首先正确估计模型v ( z ) = 1 a ( z ) , 也就是估计a ( z ) 的阶数p 和它的各个系数q 口。;其次,在估计得到v ( z ) 的基 础上,求得g 和e ( n ) ,并且判断出e ( n ) 是周期脉冲序列还是高斯白噪声序列。 现在如果得到了一个语音序列s ( n ) ,而且知道它是一个周期脉冲序列或一 个高斯白噪声序列激励一个全极点模型所产生的,那么应当采取什么算法,才能 在某种最佳意义上估计出模型的参数( p 以及q 口。) 、激励信号e ( n ) 和增益系数 g 。可以证明,线性预测算法能按照最小均方误差的准则给出问题的解,它是一 种最小二乘法,简记为l m s 算法心4 1 。 在序列s ( n ) 中任取一个时刻n ,假设n 以前的尸,个样点上的语音样值 s ( n 1 ) ,s ( n 一2 ) ,。s ( n p ) 为已知,而时刻n 的语音样值s ( n ) 尚未知道。 1 7 第二章语音信号处理 现在用这p 个已知的样值取某种线性组合来预测未知的样值。如果用;( 厅) 表示 这个末知样值的预测值,那么i ( 即) 预测公式为: 如卜和c 州, 浯9 ) 其中各系数q 皆为实数,称为预测系数。预测值;( 疗) 与真值s ( n ) 之间的误 差称为预测误差,用s ( 甩) 表示。s ( ,z ) 可由下式计算: p 占( 疗) = s ( 疗) 一;( 诈) = j ( 厅) + q j ( 刀一f ) = 1 ( 2 1 0 ) 由于s ( n ) 是一个随机序列,f ( 挖) 也是一个随机序列。可以用s ( 推) 的均方 = 研s 2 ( 刀) 】来衡量线性预测的质量。显然,越接近于零,预测的准确度在 均方误差最小的意义上越好。为了实际计算的方便,一般用求时间平均代替代计 算中的求集合平均e 。这时蠢可以表示为: 2 军政川 ( 2 - 对于一个特定的语音序列,蠢取决于尸,和各个系数口f 。如果能找到一个特 定的阶数p 和一组预测系数,使达到最小值,那么最佳预测阶数应是p = p , 最佳预测系数应为匆= q ,i = 1 p 。按照图3 2 的全极点模型,s ( n ) 可以表示为: s ( 玎) :一圭口,s ( 以一f ) + ( 咒) ( 2 1 2 ) 将( 2 1 2 ) 式代入( 2 1 0 ) 式后再代入( 2 一1 1 ) 式,就得到蠢的下列表示式: t : 圭q s ( 聆一f ) 一圭q s ( 疗一f ) + ( 以) 】2 = 【 厂( 疗) + g ( ) ) 】2 ( 2 1 3 ) 其中厂( 聍) :羔q j ( ”一,) 一圭口i s 一f ) ,g ( 甩) :( 胛) 。 这样,可以得到= 厂2 ( 以) + 2 厂) g ( 力) + 9 2 ) 。考虑e ( n ) 是白色噪 声的情况,这时序列e ( n ) 的各个样点值相互统计独立。由此不难导出f ( n ) 和g 1 8 第二章语音信号处理 ( n ) 相互统计独立,因此厂( 刀) g ( 胆) = o 。9 2 ( ,2 ) 是不随预测阶数尸和预测系 数绣而变化的。2 0 ) o 恒成立。因此,的最小值只能发生在厂2 ( ,1 ) = o 的情况。而实现这一点的充分必要条件是下列两项中的任意一项成立。 ( 1 ) 尸= p , 商= q ,i = 1 一p ( 2 ) 尸 p ,毒= 口j ,i = l p ,匆= o ,i = ( p + 1 ) 尸 如果模型阶数p 是预知的,那么可以设置预测阶数为尸= p 。如果存在一种有 效的算法能够求得使达到最小的一组最佳预测系数匆,那么就可以立即得到 模型参数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 养殖水产品智能保鲜技术创新创业项目商业计划书
- 智能能源智能调度创新创业项目商业计划书
- 脑机接口意念控制轮椅创新创业项目商业计划书
- 自动化版权管理创新创业项目商业计划书
- 2025年盖州市消防员考试笔试试题(含答案)
- 电商SaaS平台多站点管理创新创业项目商业计划书
- 艺术交流社交场创新创业项目商业计划书
- 园林生态环保教育活动创新创业项目商业计划书
- 移动设备远程控制技术创新创业项目商业计划书
- 2025年社交媒体平台舆情监控与危机公关应对策略优化报告
- 2025年湖南湘西自治州州直事业单位招聘考试笔试试卷附答案
- 幼儿园安全责任书及后勤管理制度
- 消防车辆事故课件
- 2026届四川省宜宾市普通高中高一化学第一学期期末统考试题含解析
- 《2型糖尿病中医防治指南(2024版)》解读课件
- 剑阁县普安镇污水处理厂扩容建设项目环评报告
- 商务楼宇管理办法
- 肺炎护理试题填空及答案
- 社用手机管理办法
- 心电监护操作常见并发症预防及处理
- 学校食堂各种检查记录表格表册11
评论
0/150
提交评论