(信号与信息处理专业论文)电话语音的频带扩展.pdf_第1页
(信号与信息处理专业论文)电话语音的频带扩展.pdf_第2页
(信号与信息处理专业论文)电话语音的频带扩展.pdf_第3页
(信号与信息处理专业论文)电话语音的频带扩展.pdf_第4页
(信号与信息处理专业论文)电话语音的频带扩展.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(信号与信息处理专业论文)电话语音的频带扩展.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电话语音的频带扩展 中文摘要 电话语音的频带扩展 中文摘要 目前,在大多数通信系统中,所传输的语音信号的带宽一般都小于4k h z 。在这 种情况下,窄带语音质量与相应的宽带语音质量相比有很大差距。宽带语音编码技术 虽然提高了语音质量,但是也提高了对通信系统的要求。由于历史和经济上的原因, 在短期内不可能完全改变现有的通信系统。一个可行且容易实现的方案就是在电话网 络接收端通过重构宽带语音的方式来扩展电话信号的带宽。 从窄带信号重构宽带信号的过程叫电话语音的频带扩展。电话语音频宽扩展算法 大致可以分为训练阶段和扩展阶段。在训练阶段,通过语音训练使用数学方法模拟语 音信号声学特征参数的映射函数;在扩展阶段,根据映射函数比对测试语音,从而转 换得到合成语音。 本文主要研究基于码本映射的电话语音带宽扩展算法。该算法包括窄带语音的特 征提取、谱包络扩展和激励扩展等模块。 本文主要工作如下: ( 1 ) 在语音特征参数方面,详细介绍了m f c c l p c c l p c l s f 的提取方法。比 较m f c c l p c c l p c 作为窄带特征参数在电话语音带宽扩展性能方面的优缺点,并 根据实验数据选择合适的特征参数。 ( 2 ) 介绍了目前主要的带宽扩展方法,比较码本映射、线性映射和统计映射之 间的优缺点。在此研究基础上,本文提出了基于码本映射的带宽扩展改进算法。该算 法优化了码本结构和提高了搜索效率。 ( 3 ) 分析了主要的宽带激励模型,从谱失真角度比较合成语音分别在白噪声激 励模型和谱折叠激励模型下的合成效果。在此研究的基础上,本文采用基于采样率转 换的谱折叠宽带激励模型,有效地减小了由谱折叠引起的频带失真带宽,显著地提高 了合成语音的质量。 ( 4 ) 建立基于码本映射的带宽扩展系统,采用客观和主观两种评测标准来评估 电话语音的频带扩展中文摘要 系统性能。从码本容量和窄带特征矢量( m f c c l p c c l p c ) 两个角度,分别测试合成 语音的失真度,通过客观评测数据评估了系统性能。主观测评采用m o s 评分,评测 系统性能。 关键词:带宽扩展;矢量量化;谱失真;电话语音;码本映射;谱折叠; i l 作者:唐金峰 指导老师:赵鹤鸣 b a n d w i d t he x t e n s i o no f t e l e p h o n es p e e c ha b s l :r a c t b a n d w i d t he x t e n s i o no ft e l e p h o n es p e e c h a b s t r a c t n o w a d a y s ,i nm o s to ft e l e c o m m u n i c a t i o ns y s t e m s ,t h eb a n d w i d t ho fs p e e c hs i g n a li s l i m i t e dt o4 k h z i nt h i sc a s e ,t h el i m i t e df r e q u e n c yr a n g el e a d st or e s t r i c t e ds p e e c hq u a l i t y c o m p a r e dt ow i d e b a n ds p e e c h w h i l ew i d e b a n ds p e e c hc o d i n gt e c h n o l o g yi m p r o v e st h e s p e e c hi n t e l l i g i b i l i t ya n dn a t u r a l n e s s ,t e l e c o m m u n i c a t i o ns y s t e m sh a v et o b em o d i f i e d h o w e v e r ,i tr e q u i r e sal o n gt r a n s i t i o n a lp e r i o dt oc h a n g et h et e l e c o m m u n i c a t i o ns y s t e m s d u et oe c o n o m i c a la n dh i s t o r i c a lr e a s o n s o n ep o s s i b l es o l u t i o ni st oa r t i f i c i a l l ye x t e n dt h e s i g n a lb a n d w i d t ha tt h er e c e i v i n ge n do ft e l e p h o n es y s t e mb yr e c o n s t r u c t i n gt h ew i d e b a n d s p e e c h t h i sp r o c e s so fr e g e n e r a t i n gw i d e b a n ds p e c t r a lf r o mn a r r o w b a n ds i g n a l si sr e f e r r e dt o a sb a n d w i d t he x t e n s i o no ft e l e p h o n es p e e c h b a n d w i d t he x t e n s i o nc a nb ed i v i d e di n t o t r a i n i n ga n de x t e n d i n gp r o c e d u r e s t h ep u r p o s eo ft r a i n i n gp r o c e d u r ei st of i n dap r o p e r m a p p i n gf u n c t i o nb yt r a i n i n gs p e e c h ,w h i l et h ep u r p o s eo fe x t e n d i n gp a r ti st os y n t h e s i z e t h es p e e c hf r o mt h ep a r a m e t e r i nt h i st h e s i s ,ab a n d w i d t he x t e n s i o na l g o r i t h mb a s e do nc o d e b o o km a p p i n gi s i n t r o d u c e d t h i sa l g o r i t h mc o n s i s t so ft h r e em a i nm o d u l e s :t h ef e a t u r ee x t r a c t i o n ,t h e e x t e n s i o no fs p e c t r u ma n dt h ee x t e n s i o no fe x c i t a t i o n t h em a i nt a s k si nt h et h e s i sa r ea sf o l l o w s : ( 1 ) i no r d e r t oe x t r a c tf e a t u r eo fs p e e c h ,l p c - d e r i v e d c e p s t r a lc o e f f i c i e n t , l s f - c o e f f i c i e n t ,m e l c e p s t r a l c o e f f i c i e n ta r ei n t r o d u c e d a sn a r r o w b a n df e a t u r e p a r a m e t e r s ,m f c ci sc o m p a r ew i t hl p c ca n dl p c o nt h ea d v a n t a g e sa n dd i s a d v a n t a g e s o ft e l e p h o n es p e e c hq u a l i t y ( 2 ) t h eb a n d w i d t he x t e n s i o na l g o r i t h m s ,i n c l u d i n gc o d e b o o km a p p i n g ,l i n e a rm a p p i n g a n ds t a t i s t i cm a p p i n g ,a r es t u d i e d an e wb a n d w i d t he x t e n s i o na l g o r i t h mi sb a s e do n i i i b a n d w i d t he x t e n s i o no f t e l e p h o n es p e e c ha b s t r a c t c o d e b o o km a p p i n gi sp r o p o s e d i to p t i m i z e st h em a p p i n gs t r u c t u r ea n di m p r o v e st h e s e a r c he f f i c i e n c y ( 3 ) t h em a j o rb r o a d b a n de x c i t a t i o ni sa n a l y z e d t h es y n t h e s i z e ds p e e c he x c i t e db y w h i t en o i s ei sc o m p a r e d 、v i t hs p e e c he x c i t e db ys p e c t r a lf o l d i n ga b o u ts p e c t r a ld i s t o r t i o n a n e ws p e c t r a lf o l d i n ge x c i t a t i o nb a s e do ns a m p l i n gr a t ec o n v e r s i o ni sa d o p t e dt od e c r e a s e t h ed i s t o r t e db a n d w i d t ha n di n c r e a s et h eq u a l i t yo f s y n t h e s i z e ds p e e c h ( 4 ) ab a n d w i d t he x t e n s i o ns y s t e mb a s e do nc o d e b o o km a p p i n gi se s t a b l i s h e d w e a d a p ta no b j e c t i v ea n ds u b j e c t i v ee v a l u a t i o nc r i t e r i at oe v a l u a t et h es p e c t r a ld i s t o r t i o nf r o m t h ec o d e b o o ks i z ea n dt h en a r r o w b a n df e a t u r ev e c t o r ( m f c c l p c c l p c ) a sao b j e c t i v e e v a l u a t i o nm e t h o d ,m o si sp r o p o s e dt oe v a l u a t es y s t e mp e r f o r m a n c e k e y w o r d s :b a n d w i d t he x t e n s i o n ;v q ;s p e c t r a ld i s t o r t i o n ;t e l e p h o n es p e e c h ; c o d e b o o km a p p i n g ;s p e c t r a lf o l d i n g ; w r i t t e n b y :t a n gj i n f e n g s u p e r v i s e db y :z h a oh e m i n g 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体己经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均己在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:阻 日期: 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容,沈文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:盏塑日期:二删 导师签名:巡日期:笙乞:孕 电话语音的频带扩展第一章概述 1 1 研究背景及意义 第一章概述 人类语音的频带信息主要分布在5 0 h z 到8 k h z 的频率范围之间。然而,目前的 主要电话网络( 例如p s t n 和g s m 网络) 所传输的语音信号的带宽一般都小于4 k h z , 频带被限制在3 0 0 h z 到3 4 k h z 范围内。这种带宽的语音称作窄带语音,在传统的语 音通信应用中,窄带语音包含了足够的信息,语音质量已经被人们接受。它在保证一 定可懂度的同时,也降低了对通信带宽的需求,但这一切却以牺牲语音的自然性为代 价。因为窄带语音丢失了原始语音中的高频分量,所以它听起来不够自然,缺乏临场 感又感觉压抑。在某些对语音质量要求较高的场合,如电话会议,窄带语音的质量就 不能满足需要。 对更好的语音质量的追求推动了语音编码技术的进步,并使宽带语音( 5 0 h z 到 7 l ( h z ) 的发送和接收成为可能。宽带语音通信可以通过重新设计传输链路来达到, 并且在通信链路的两端引入新的语音编解码器终端。目前,已经有几种宽带语音编解 码方案被开发出来。 在1 9 8 5 年,i t u t 提出了第一个用于远程电话会议的宽带语音编解码器g 7 2 2 。 在1 9 9 9 年,i t u t 又提出了第二个宽带语音编解码器g 7 2 2 1 ,它在保证语音质 量的前提下又降低了传输码率。 在2 0 0 6 年,e t s i 和3 g p p 共同提出了用于码分多址( c d m a ) 蜂窝电话网络的 自适应多速率宽带语音编解码器a m r w b 。该编解码器也被i t u t 应用到固定电话 网络,标准化为g - 7 2 2 2 。 这些宽带语音编解码器在语音的可懂度和自然性方面有了显著的提高。可以预 见,在未来宽带语音通信将会取代窄带语音通信。然而,如果要传输宽带信号需要建 设一个新的网络环境以提供更高的速率和更大的带宽,并且需要通信终端具备宽带信 号处理的能力,这是既花费高又耗费时间的。 在这种背景下,在宽带接收端采用人工方式扩展信号带宽的方法得到了迅速发 电话语音的频带扩展第一章概述 展。该方法仅利用窄带语音的信息来重建宽带语音,不需要发送端和网络具备宽带能 力。带宽扩展原理如图1 1 所示,远端终端为传统的模数转换器采样率为8 k h z 的窄 带电话,使用的窄带语音编解码器可以是a 律编码或者g s m 编码。在宽带接收端, 首先用传统的窄带语音解码器解码窄带语音信号,然后应用人工带宽扩展产生一个采 样率为1 6 k h z 的宽带语音。这种电话语音带宽扩展方法的实践应用既省去了建设通 信网络的高额成本,又在一定程度上恢复了电话语音的自然性。尽管不能通过人工带 宽扩展得到真正的宽带语音,但是它显著的提高了宽带终端接收到的窄带语音的质 量,使语音听起来更加自然。因此,研究将3 4 k h z 带宽的窄带语音扩展得到8 k h z 带宽的宽带语音的带宽扩展算法有着重要的现实意义。 迈 图1 1 接收端进行人工带宽扩展 2 电话语音的频带扩展 第一章概述 1 2带宽扩展的发展历史及研究现状 当用电话语音和高保真语音相比较时,就会立刻发现电话语音音质的不足,例如 在电话里听到广播或者电视节目与直接收听广播或者电视节目相比,它们之间的质量 差别可能会使收听者感到厌烦,因为对于不同的语音类型需要收听者集中不同程度的 精力才能弄懂所听到的内容。 在2 0 世纪7 0 年代早期,当使用者提出了需要更佳的电话语音要求的时候,英国 广播公司( b b c ) 成为最早尝试恢复宽带语音的实验者之一【l 】。然而,由于当时的技 术和知识水平,只是在接收端进行了细微的带宽扩展应用,而且并无报告说对这个改 进感到满意。大多数的研究者仍然没有把注意力集中在发射器和接收器两个方面。 在2 0 世纪7 0 年代到8 0 年代之间,带宽扩展领域虽然没有什么进展,但有关的 一些工作有相似的目标。例如,从语音编码方面来看,减少分配给高频带的字节数量 的目标自然导致了很多次尝试【2 】,当接收端从窄带信号恢复出剩余成分的时候,编码 方面只是进行了高频谱部分信息的还原。 在2 0 世纪8 0 年代末期到9 0 年代初期之间,人们研究带宽扩展的兴趣开始增长, 这主要归功于处理器速度的提高和宽带语音编码技术的进步。从2 0 世纪9 0 年代开始 至今,带宽扩展算法不断发展,理论逐渐成熟,而基于语音产生的源滤波器模型的研 究成为最为广泛的研究模型。 现今研究的带宽扩展算法通常是基于线性源滤波器生成模型【3 】。该算法模型分成 独立的两步:一步是估计高频带激励信号,另一步是估计高频带谱包络。高频带语音 信号由高带激励信号通过高带谱包络合成滤波器滤波生成。带宽扩展的关键就是如何 利用窄带信号估计高频带激励信号和高频带谱包络。 当前,带宽扩展算法对高频带激励信号的估计方法以谱折叠【4 】、白噪声激励【5 1 、 谐波噪声模型【6 j 最为典型。相对于激励扩展,带宽扩展算法中的高频带谱包络扩展更 为重要,因为对高频成分,由于其频率高,信号变化快,人耳难以分辨频谱精细结构, 只能感觉信号的频谱包络。高带谱包络的估计一般通过提取窄带信号的特征参数然后 结合预先训练得到的高带谱包络信息来估计输入信号的高带谱包络。至今为止,谱包 络扩展有线性映射法哪8 】【9 】、码本映射法【l o 】【17 1 、统计映射法【1 引。 电话语音的频带扩展第一章概述 y n a k a t o h 最早提出了线性映射法【7 】,该算法构造一个变换矩阵,将输入的窄带特 征矢量通过变换矩阵转换为高带谱包络参数,但是其将窄带特征参数与高带谱包络参 数之间的相关性假定为简单的线性关系,模型过于简化,估计得到高带谱包络失真较 大。 n e n b o m 提出了基于码本映射的矢量量化算法f 1 4 】,但是算法在码本训练时无法考 虑信号的高低带之间的统计相关性,不能实现最优的搜索和分类,估计的高带谱包络 失真比较大。另一个实现方案是使用表示窄带谱包络和他们相关宽带特性的特征向量 【1 5 】 o k y p a r k 提出了基于高斯混合模型的窄带语音谱变换方法【19 1 ,它使用统计理论中 的混合高斯模型来描述不同类语音信号的特征参数的概率分布,并利用窄带语音特征 参数和高斯混合模型参数估计宽带谱包络,其可以描述窄带特征参数与高带谱包络参 数之间各种线性和非线性的相关,提高了谱包络估计的精度。该研究显示基于g m m 的方法优于传统的码本映射方法。码本映射方法和g m m 方法【2 0 1 1 2 1 】的一个缺点是没 有考虑语音的时间相关性。为了合并从一帧到另一帧语音的相关性,有人提出了隐马 尔科夫( h m m ) 方法【2 2 】【2 5 1 。该估计技术假设帧语音与前一帧语音相关。研究表明基 于h m m 方法来估计缺失的频带能显著减少带宽扩展信号中不必要噪声。但是这种估 计的最大缺陷在于无法找到表示谱包络的最佳特征,并且特征之间没有良好的区分标 准。 为了研究频谱不同频带之间的内在相关性。m n i l s s o n 等人试图从信息理论观点 证实是否有足够的相关性以保证重建丢失频带的准确性。m n i l s s o n 等人的研究表明: 共有信息在一个较低的范围内存在于低频带谱参数和高频带谱斜率和增益之间【2 6 1 。这 个结果确定了带内关联性的存在。m n i l s s o n 等人接着又做了一个尝试,此次试验为 了证明是否低频带和高频带之间的依赖关系强到足够完成带宽扩展【2 7 】。m n i l s s o n 在 实验中用了梅尔频率倒谱系数( m f c c ) 参数化谱包络,用高斯混合模型( g m m ) 模型化概率分布。m n i l s s o n 从实验结果中观察到了不同频带之间的共有信息短缺, 特别是摩擦音的情况,并且重建的高频带普遍包含可以察觉到的谱失真。m n i l s s o n 最后得出结论:谱包络参数的无记忆匹配会完成得相当好,因为结果信号听起来会令 人悦耳,而不是因为匹配精确。 4 电话语音的频带扩展第一章概述 p j a x ,p v a r y 也试图从带宽扩展信息理论角度出发进行研究,他们在实验中发现 了高频带谱包络平均对数谱失真的较低范副2 8 】。这个较低的范围用高频带的熵和窄带 与高频带之间的共有信息来表示,并且它对任何无记忆匹配方法造成了限制。 为此,j m v a l i n 和y a g i o m y r g i a n n a k i s 先后提出无边带信息的高频带重建会产生 不能令人满意的结果【2 9 j 1 3 。y a g i o m y r g i a n n a k i s 认为窄带到宽带的变换是个“一对 多的映射,结果在没有边带信息的情况下,不能确保匹配正确【3 0 1 。因而,如同两篇 文章所说的那样,有些高频带信息需要发送到接收终端以配合重建。从这个观点出发, 无边带信息的带宽扩展因其代表可能达到的最低速率而获得较差的性能。 1 3 本文主要工作 本文采用基于码本映射的带宽扩展算法。本文主要工作包括: ( 1 ) 语音特征参数提取部分,详细介绍了l p c 、l p c c 、l s f 系数、m e l 倒谱 系数的求解和提取方法;比较m f c c l p c c l p c 作为窄带语音特征参数进行谱包络 扩展后的失真度,通过试验数据的比较来选择最佳参数进行语音扩展; ( 2 ) 研究已有的带宽扩展算法,比较码本映射法、线性映射法以及统计映射法 的优缺点;在此基础上,本文提出了基于码本映射的带宽扩展算法。将合成的宽带信 号进行自适应能量增益调整,得到更清晰的语音信号; ( 3 ) 分析主要的宽带激励模型,分别比较在白噪声激励模型、谱折叠激励模型 下合成语音的失真度。并结合此前研究,在本文中采用了一种基于采样率转换的谱折 叠宽带激励模型,提高了合成语音的质量。 ( 4 ) 通过对特征参数( m f c c l p c c l p c ) 和码本容量测试数据的比较,从谱失 真角度测评本文提出的改进算法。 1 4 论文结构安排 第一章,概述。简要地阐述电话频带扩展研究的背景及研究意义,介绍电话语音 的频带扩展的发展过程、研究现状以及在电话语音的频带扩展方面己获得的成就。最 后对本文的研究思路和主要工作做了简要的介绍。 电话语音的频带扩展第一章概述 第二章,语音信号的特征提取。介绍了语音信号分析方法,重点介绍 m f c c l p c c l p c 作为窄带语音特征参数提取方法,最后对宽带谱包络特征参数 ( l s f ) 的提取方法进行了阐述。 第三章,带宽扩展算法的研究与设计。介绍码本映射、线性映射、统计映射的基 本原理,在比较其优缺点的基础上详细介绍码本映射的带宽扩展算法。对噪声激励、 非线性失真激励、谱折叠和谱平移激励进行比较研究,在此基础上采用基于采样率转 换的谱折叠激励来提高合成语音质量。 第四章,带宽扩展系统的实现与仿真。设计整体系统框架;通过实验分别比较 采用m f c c 、l p c c 、l p c 作为窄带特征矢量进行谱包络扩展后的谱失真度;引入谱 失真来观察码本容量和不同激励模型对合成语音的影响程度;从主观评测入手,引入 m o s 评测方法,从码本容量和特征参数( m f c c l p c c l p c ) 角度,评测合成语音质 量,评估系统性能。 第五章,总结和展望。总结了全文主要做的工作,提出本文存在的问题和今后 的研究方向。 6 电话语音的频带扩展 第二章语音信号的特征提取 第二章语音信号的特征提取 2 1 语音信号的预处理 对数字化的语音信号序列采用循环队列的方式将其依次存入数据区,以便有一个 有限容量的数据区来应付数量极大的语音数据,已处理完提取出了语音特征参数的一 个时间段的语音数据可以依次抛弃,让出空间来存储数据。 对数据进行分析之前,需要对数据进行预处理。预处理一般包括预加重、加窗、 分帧【3 1 】【3 4 】等。 2 1 1预加重处理 由于语音信号的平均功率谱受声门激励和e l 鼻辐射的影响,高频端大约在8 0 0 h z 以上按6 d b 倍频程衰减,为此要在预处理中进行预加重。预加重的目的是提升高频 部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析3 5 1 。通常用具有 6 d b 倍频程的提升高频特性的预加重数字滤波器实现,它一般是一阶的,即 日( z ) = 1 一l a z 一 ( 2 1 ) 对于清音信号,声门一般很小,而对于浊音信号,声门近似为1 ,般取值在o 9 5 左右。 2 1 2 分帧后加窗 语音信号是一种非平稳的时变信号,其产生过程与发声器官的运动紧密相关。在 5 5 0 m s 的范围内,语音频谱特性和一些物理特征参数基本保持不变。这样就可以将 平稳过程的处理方法和理论引入到语音信号的短时处理中,每个短时的语音段称为一 个分析帧。此时,每个分析帧好像是从一个具有固定特性的持续语音中截取出来的, 对该分析帧进行处理就相当于对固定特性的持续语音进行处理。分析帧既可以是连续 的,也可以采用交叠分帧的方法,一般帧长取1 0 3 0 m s 。 7 电话语音的频带扩展第二章语音信号的特征提取 通常采用一个长度有限的窗函数来截取语音信号形成分析帧,窗函数将需处理区 域之外的样点置零来获得当前语音帧。理想窗函数的频率响应要求主瓣无限狭窄且没 有旁瓣( 即无频谱泄漏) ,但这种窗函数在实际工程中是无法实现的3 4 1 。 根据不同应用,可以采用不同的窗函数来逼近理想的频率响应。最简单的方法是 采用矩形窗截取信号。一个n 点的矩形( r e c t a n g l e ) 窗函数定义为 f 1 0 n 3 - 数字脉冲 语音信号一 随机噪声 r丫 序列发生器 i 发生器 音量控制 图2 1 语音信号产生模型 电话语音的频带扩展第二章语音信号的特征提取 不难看出,图2 1 中给出的模型将语音信号的产生简化为激励信号通过一个声道 参数控制的时变数字滤波器产生。该滤波器的稳态系统函数为: 酢) : 1 一q z 一 ( 2 4 ) 采用这样一种简化的模型,其主要优点在于能够用线性预测分析的方法对滤波器 系数口,和增益常数g 进行非常直接和高效的计算。 式( 2 4 ) 中,数字滤波器的参数口,就是线性预测系数,因此求解滤波器参数和增益 常数的过程常称为线性预测分析。因为它的基本问题就是要从语音信号序列直接决定 一组线性预测系数n ,。鉴于语音信号的时变特性,预测系数的估计值必须在一段语音 信号中进行。 语音音信号的产生可以用一个线性预测模型来【3 3 】表示。在语音信号的线性预测模 型中,可以用语音信号的刀一1 到,z p 时刻的采样值来预测,2 时刻的采样值,其中p 为 线性预测阶数。腮时刻语音信号的预测值可由式( 2 5 ) 给出 _ ( 行) :羔q s ( ”一七) t = 1 ( 2 5 ) 其中吼( 七= 1 , 2 ,p ) 为线性预测系数,s ( ”) 为刀时刻语音信号的采样值,s ,( 挖) 为疗 时刻语音信号的预测值。 设语音信号在一帧内是平稳的,则可以认为线性预测系数在一帧语音内是保持不 变的,并可以通过使预测误差的均方值最小来求得。语音信号预测误差为 均方值为 巳= s ( 功一( ,? ) ( 2 6 ) 如净叫纠2 亿7 , 式( 2 7 ) 中n 为帧长。由线性预测知识可知,预测误差s 为一白噪声序列,并且与 j ( ,? ) 无关。把式( 2 6 ) 代入式( 2 7 ) ,然后再令其对系数吼的导数为零,则可得到下式 9 电话语音的频带扩展 第二章语音信号的特征提取 p ,( 七) = a , r ( k - i ) ,k = 1 2 一p 式中r ( k ) 表示语音信号的自相关函数,其值可由下式求得 n k - i ,| ( 七) = s ( n ) s ( n - k ) ,k = 1 2 一p 把式( 2 9 ) 写成矩阵形式,则有 ,( 0 )r ( 1 ) r o )r ( o ) r ( p - 1 ) r ( p 一2 、 r ( p 一1 ) r ( p 一2 ) r ( o ) q 口2 a p r o ) r ( 2 ) r ( p ) ( 2 8 ) ( 2 9 ) ( 2 1 0 ) 其中,系数矩阵r 是一个对称阵,其主对角线和次对角线上分别具有相同的元 素。这种矩阵称为t o e p l i z t 矩阵,上述方程称为y u e l w a l k e r 方程。求解y u l e w a l k e r 方程的l e v i n s o n d u r b i n 算法【3 3 j 如下: 计算语音信号的自相关函数r ( d ,其中k = 0 ,1 ,p 初始化 p 1 = r ( 1 ) r ( o )( 2 1 1 ) 。 口( 1 ) 2p ( 2 1 2 ) s 1 = 1 一( p r o ) 2 邶) ( 2 1 3 ) 对m = 2 ,3 p 进行以下计算 p ( ”) = m i ( 埘一f ) j r ( m ) - 口 r ( m 一纠 口? = p 伽 西胛= 西”d - p 沏“a 州( r a - j ) ,i = 1 ,2 ,m - 1 s ”= 【1 一( p 所) 2 】s 川 1 0 ( 2 1 4 ) ( 2 1 5 ) ( 2 1 6 ) ( 2 1 7 ) 电话语音的频带扩展第二章语音信号的特征提取 则a i ( m ) ( 江1 , 2 ,p ) 为p 阶线性预测系数。 2 3 l p c 倒谱系数( l p c c ) 线性预测倒谱系数( l i n e a rp r e d i c t i o nc e p s t r a lc o e f f i c i e n t s ,l p c c ) 是基于语音信号 为自回归信号的假设,利用线性预测分析获得倒谱系数的一种倒谱特征f 3 6 】。因为一般 8 3 2 维的l p c c 就可以较好的表征声道特性,所以l p c c 在各种特征提取系统中得到 广泛的应用 3 3 j 【3 4 j 。 在语音信号的线性预测模型中,声道的传递函数为 h ( z ) = ( 2 1 8 ) 1 一口,z 一 式中p 为线性预测阶数,a i ( f = 1 , 2 ,p ) 为p 阶线性预测系数。 对h ( z ) 取对数,然后再对z 一作傅立叶级数展开,得 l n n ( z ) = c e ) - - c 上p o ) z ” ( 2 1 9 ) 其中c 凹称为语音信号的l p c 倒谱系数,也即l p c c 。将式( 2 1 8 ) 代入式( 2 1 9 ) 舷l j 两边对z q 求导,再简化得 式( 2 2 1 ) 口- f i l 写成如下形式 = c 肚g 1 ( 2 2 0 ) 一) = e n c l p ( n ) z 州 ( 2 2 1 ) 1 一y q 2 一胆1 毒。_ h 电话语音的频带扩展第二章语音信号的特征提取 pp o z i a ,z 州= ( 1 一q z “) ,2 ( ”) z 却一 ( 2 2 2 ) j = 1i = ln = 1 在式( 2 2 2 ) q b ,令方程两边z - 1 各次幂的系数相等,则可以得到l p c 倒谱系数c l p ( 即) 与 线性预测系数口,( f = 1 , 2 ,p ) 的关系 c l p ( ”) 吒尸( 聆) c 尸( 疗) - a i o t h g 尸 刀) + 口行( 1 p ) ( 2 2 3 ) 上述l p c c 提取过程的重要性在于,它提供了一组方便且简捷的语音信号模型参 数,这组参数较精确地表征了语音信号的频谱幅度,而且分析它们所需的运算量相对 来说并不大。但是,l p c c 也有它的缺点【3 7 1 ,因为它基于全极点模型的假设,因此对 于清音和鼻音来说并不确切,而声道响应都含有零点的影响,因此,从理论上讲,应 该采用极零点模型。 还有,式( 2 2 3 ) 看似可以无穷尽的递推下去,也就是说l p c c 的阶数q 可以无穷 大。q 取得较高,可以使得l p c c 系数保存更多的语音信息,但是随着q 的增大, 高维的c ,将变得很小,实际上己经没什么作用了。倒谱系数的个数q ,一般取3 p 2 比较适合,例如p 取8 ,q 取为1 2 。另外,l p c c 的距离量度可选用欧氏距离。 因为低阶倒谱系数对整个频谱斜率很敏感,而高阶倒谱系数对噪声很敏感,所以 为了减少这些敏感性,需要对倒谱系数进行加权处理,这己经成为标准的技术。对倒 谱系数进行加权,其第i 帧的倒谱加权形式为: 耽( 所) = 1 + ( q 2 ) s i n ( n m q ) ,1 m q ( 2 2 4 ) c ( m ) = c ( 研) 吸( 珊) ( 2 2 5 ) 1 2 ji、,ji 驴 驴 c c 七 一 一 圩 玎 口 口 七一胛后一聆 州盆糊 电话语音的频带扩展第二章语音信号的特征提取 2 4l s f 系数 l s f 参数是l p 系数的另一种表现形式。从数学角度看,l s f 参数与l p 系数是 一种一一映射关系,l s f 参数完全等价于l p 系数。从生物学角度看,l s f 参数表示 声门完全开启或完全闭合状态下声管的谐振频率。l s f 参数具有许多优良的特性,而 这些性质是l p 系数所不具备的。因此,在各种语音算法中,多采用l s f 参数来表示 语音信号的短时谱信息,尽管l p 系数与l s f 参数的相互转换会增加算法的复杂度 【3 8 】【4 0 1 o 线性预测误差滤波器传递函数a ( z ) 存在如下的递推关系: a p + l g ) = a p k v + l z - ( 川) 么p g q ) ( 2 2 6 ) 式中,p 为预测器阶数,通常取偶数;k ,+ 。被称作反射系数。当k p + 。分别为1 和一1 时,我们可以得到2 个p + l 阶多项式: p ( z ) = a v ( z ) 一z 一( p + 1 ) 彳,g 。1 ) q g ) = a v ( z ) + z - ( ,+ 1 ) 彳,g 一1 ) ( 2 2 7 ) 将式( 2 2 7 ) 展开,并因式分解,得到: 尸( z ) :( 1 _ z - i 旃( 1 2 z - l c 。s q + z 一:) 比) :( 1 4 - z - i 旃( 1 2 z - jc o s 只+ z - 2 ) 式中,q ,只即为l s f 参数。q ,p 按下列关系排列: o 幺 q 巳2 ,2 万 c o ,只的值是交替的成对出现,因此又被称为“线谱对”。 ( 2 2 8 ) ( 2 2 9 ) 在对l s f 参数进行量化后,只要保证其交替性,则量化后的l s f 参数所构成的 合成滤波器一定是稳定的。l s f 参数由于量化所产生的误差不会对短时谱包络产生较 大的影响。这是l s f 参数得到广泛应用的一个主要原因。 l s f 参数的求解方法主要分为复数域求根法、实数域求根法、滤波器法等若干大 电话语音的频带扩展第二章语音信号的特征提取 类。在这几大类求解方法中,实数域求根法被认为是最简单、最快速的方法,同时, 也是目前被应用最广的一种方法。 实数域求根法可以将l s f 参数的求解转化为一个一元高次方程根的求解。对于式 ( 2 3 0 ) ,令m = p ,并将p ( z ) 、q ( z ) 作如下变换: 趴z ) - 等一z 一栊( 挚( z , 2 - + z - ( m 2 - o + ) ) q7 g ) = 1 , , , 2 ,- 1 7 ,g ”2 一,+ z 一( m 2 一,) + g 册,:) ) ( 2 3 。) 其中,p 。,q ,为多项式的系数,且p o = q 。= 1 对于上式, 令 s ,( z ) = z + z 1 卜= z + z ,i = 1 , 2 ,m 2 1 。则s 。( z ) 为i 阶变形的c h e b y s h e v 多项式 【4 1 】【4 2 】。根据c h e b y s h e v 多项式的性质,式( 2 3 0 ) 作如下变换: 只g ) = 尸嘭枷l x = 一l 幺g ) = q 嘭枷卜z 仃1 ( 2 3 1 ) 式中,只g ) ,包g ) 为x 的m 2 阶多项式。对于式( 2 3 1 ) ,令z = p ,由z = z + z - 1 可推导出x = 2 c o s ( 0 3 ) 。结合式( 2 2 8 ) 可知,当x 为方程只g ) = 0 或q g ) = 0 的一个 根时,缈= a r c c o s b 2 ) 即为一个l s f 参数。 采用d f t 的方法求解l s f ,对于尸( z ) ,q ( z ) 的系数求d f t ,得到z 。= e 一, k = 0 , 1 ,n 各点的值,搜索极小值点的位置,即零点位置。利用p ( z ) ,q ( z ) 的零点沿 着单位圆随的增加交替出现的性质,搜索量可大大减少,一般n 为6 4 , q 2 8 就足够 了。 线谱对参数是频域参数,它和语音信号的谱包络有更紧密的联系。由于线谱参数 的量化特性和内插特性较好,可以提高转换后参数合成语音的效果。而且线谱对参数 每个分量只对该频率范围内的频谱有影响,而不同与线性预测系数会对整个系统的稳 定性造成影响,有更好的鲁棒性。另外线谱对参数可以很好的表示共振峰频率和其带 宽,适合用于合成语音。 1 4 电话语音的频带扩展第二章语音信号的特征提取 2 5m e l 倒谱系数( m f c c ) m e ! 频率倒谱系数( m e lf r e q u e n c yc p e s t r a lc o e f f i c i e n t ,m f c c ) 不同于l p c c 等 通过对人的发声机理的研究而得到的声学特征,m f c c 是受人的听觉系统研究成果推 动而导出的声学特征【4 5 1 。该特征是在m e l 标度频率域中提取出来的倒谱参数,其计 算是基于语音信号的滤波器组分析。数字滤波器组分析是语音信号处理中最基本的方 法之一,其滤波器组可看作人类听觉感知系统前端的一个粗糙模型。 表2 1 临界频带滤波器组参数表 序号中心频率带宽序号中心频率带宽 11 0 01 0 01 l1 1 4 91 6 0 22 0 0 1 0 0 1 21 3 2 01 8 4 33 0 0 1 0 0 1 3 1 5 1 6 2 1 1 44 0 0 1 0 0 1 41 7 4 12 4 2 55 0 0 1 0 0 1 52 0 0 02 7 8 6 6 0 0 1 0 0 1 62 2 9 73 2 0 77 0 0 1 0 0 1 72 6 3 9 3 6 7 88 0 0 1 0 0 1 83 0 3 l 4 2 2 99 0 0 l o o 1 93 4 8 24 8 4 1 0 1 0 0 0 1 0 0 2 04 0 0 05 5 6 m f c c 的提出基于以下两点研究成果:首先,人类对单个音调的感知强度近似 与该音调频率的对数成正比。m e l 频率表达了这种语音频率与“感知频率的对应关 系。在m e l 频率域内,人对音调的感知度为线性关系,举例来说,如果两段语音的 m e l 频率相差两倍,则人耳听起来两者的音调也相差两倍。m e l 频率与线性频率的转 换公式为: 丘,- - 2 5 9 5l o g1 0 ( 1 + 厂7 0 0 ) ( 2 3 2 ) 其次,当同时发出两个频率相近的音调时,人只能听到一个音调。只有当两个频 电话语音的频带扩展第- 二章语音信号的特征提取 率分量相差一定带宽时,人类才能将其区分。这个带宽被称为临界带宽( c r i t i c a l b a n d w i d t h ) ,其计算公式如下: b w c = 2 5 + 7 5 1 + 1 4 。1 0 0 0 ) 2 】0 6 9 ( 2 3 3 ) 其中f 为中心频率。 这样,就可以构造如图2 2 所示的临界频带滤波器组( c r t i c i a l b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论