已阅读5页,还剩56页未读, 继续免费阅读
(信号与信息处理专业论文)g729与amr级联语音可懂度提高技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着无线通信技术的快速发展,各种通信网络之间互通变得越来越重要。 因而各种语音编码器之间互通级联应用便不可避免,如移动通信中广泛采用的 ( 3 7 2 9 与a m r 编码器。然而编码器级联应用却带来了语音可懂度的明显下降。 因此必须找到一种方法,使在不改动现有的通信网络设备基础之上,为网络互 联提供一个较低成本的语音可懂度增强解决方案。这便是本文研究的主要目的。 通过对g 7 2 9 与a m r 级联工作导致语音可懂度下降的原因进行具体分析。 在此基础之上,针对语音信号的浊音成分,给出了一种结合现有高频补偿方法 的语音可懂度增强算法,即基于窗函数的共振峰增强的语音可懂度增强方法。 经过m a t l a b 仿真,表明该算法对级联编码器语音信号可懂度具有一定地提 高。 本论文的主要工作有: 1 介绍了语音信号的基本性质,以及语音信号处理的基本方法; 2 详细分析了g 7 2 9 与a m r 级联工作导致语音可懂度明显下降的原因, 针对这些原因提出可行的解决办法; 3 详细介绍本文中提出的语音可懂度增强解决方案,包括清浊音判决、高 频补偿以及共振峰增强等; 4 m a t l a b 上对算法进行具体仿真,并对算法性能进行评价。 关键词:编码器级联,g 7 2 9 ,a m r ,可懂度增强 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o fw i r e l e s sc o m m u n i c a t i o nt e c h n o l o g y , i n t e r o p e r a b i l i t yb e t w e e nv a r i o u s c o m m u n i c a t i o nn e t w o r k sb e c o m e si n c r e a s i n g l y i m p o r t a n t s ot h ec a s c a d ew o r kb e t w e e nk i n d so fs p e e c hc o d e c sc a n tb ei n e v i t a b l e , s u c ha st h ew i d e l yu s e d ( 2 7 2 9a n da m r c o d e c si nm o b i l ec o m m u n i c a t i o n s h o w e v e r t h ec a s c a d ew o r kb r i n g sd i s t i n c td e c l i n ei ns p e e c hi n t e l l i g i b i l i t y t h e r e f o r e ,t h e p u r p o s eo ft h ep a p e ri sf i n d i n gaw a y t op r o v i d eal o w ,c o s ts p e e c hi n t e l l i g i b i l i t y e n h a n c e m e n ts o l u t i o nw i t h o u tc h a n g i n gt h ee x i s t i n gn e t w o r ke q u i p m e n t s b a s e do nt h ed e t a i l e da n a l y s i so ft h er e a s o nw h y t h ec a s c a d ew o r ko f ( 3 7 2 9a n d a m rl e a dt ot h ed e c l i n ei ns p e e c hi n t e l l i g i b i l i t ya n dc o m b i n i n gt h ee x i s t i n g h i g h 。f r e q u e n c yc o m p e n s a t i o n m e t h o d s ,t h e d i s s e r t a t i o np r o v i d e s a s p e e c h i n t e l l i g i b i l i t v e n h a n c e m e n ts o l u t i o nb a s e do nt h eh a n n i n gw i n d o w f u n c t i o n a c c o r d i n gt ot h em a t l a bs i m u l a t i o n ,t h em e t h o ds h o w s c e r t a i ne f f e c to ns p e e c h i n t e l l i g i b i l i t ye n h a n c e m e n t t h em a i nw o r ko ft h ed i s s e r t a t i o ni so r g a n i z e da sb e l o w : 1 i n t r o d u c i n gt h e t h eb a s i cp r o p e r t i e sa n dp r o c e s s i n gm e t h o d s o fs p e e c hs i g n a l ; 2 g i v i n gaf e a s i b l es o l u t i o no nt h er e a s o nw h y t h ec a s c a d ew o r ko fg 7 2 9a n d a m rl e a dt ot h ed e c l i n ei ns p e e c hi n t e l l i g i b i l i t ya c c o r d i n g t od e t a i l e da n a l y s i s ; 3 d e t a i l e di n t r o d u c i n gt h es p e e c hi n t e l l i g i b i l i t ys o l u t i o n ,i n c l u d i n gt h ed e c i s i o n o fv o i c e d u n v o i c e ds e g m e n t s ,h i g h f r e q u e n c yc o m p e n s a t i o no fv o i c e ds p e e c ha n d f o r m a n te n h a n c e m e n t ; 4 m a t l a bs i m u l a t i n ga n da l g o r i t h me v a l u a t i o n k e y w o r d s :c o d e c sc a s c a d i n g ,g 7 2 9 ,a m r ,s p e e c hi n t e l l i g i b i l i t ye n h a n c e m e n t i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名: 里鳢 日期:别。年s 月彰日 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 日期:圳d 年分月彭日 第一章绪论 第一章绪论 本章主要介绍了低速率语音编码的意义及其发展状况。特别介绍了两种不 同语音编码器级联对语音信号可懂度的影响,及对其进行可懂度增强的各种方 法。最后介绍了本文的主要工作。 1 1 课题研究背景及其意义 1 1 1 低速率语音编码技术及其发展状况 通信系统中最常见的数据形式就是语音。随着技术的不断发展,以高可靠 性、高抗干扰能力等优点的数字化语音在通信系统中所占的比重越来越大。为 了压缩传输比特率,节省存储空间,语音压缩编码技术得到了很大的发展,出 现了形式各样的语音压缩编码。语音压缩编码的目的是要在尽可能低的传输速 率上获得高质量的语音效果,在保证重建语音质量的情况下,尽可能地降低描 述语音信号的比特率。语言编码按照其编码形式,大致上可分为四种:波形编 码、变换域编码、参数编码和混合编码【l 】。 1 9 3 9 年,h o m e r d u d l e y 提出并实现了在低带宽电话电报电缆上传输话音信 号的声码器,成为语音编码技术的鼻祖。此后,带宽和传输干扰问题的不断解 决,推动了数字通信的发展,进一步地也推动了低速率语音编码技术的迅速发 展。 从2 0 世纪8 0 年代以来,人们对带宽有限的无线通信、卫星通信和军事保密 通信的需求不断增加。特别是随着互联网技术的发展,各种与语音应用服务相 关的业务不断出现,要求语音数据能被灵活处理、存储、传送。这大大刺激并 推动了低速率语音编码技术的发展。 随着通信方式的不断更新和现代通信技术的不断发展,人们对低速率语音 编码器的需要日益增加,同时对编码语音的质量要求也在不断提高,语音编码 技术向着在较低的速率下实现较高的语音编码质量的方向不断发展。在低速率 语音编码技术的发展过程中,实用系统的最低压缩速率已经达到2 4 k b p s 甚至更 低,在保证了语音质量的同时大大节省信道带宽 2 1 。由此可知,低速率语音编 码技术在未来将有着非常广泛的发展与应用前景。 1 电子科技大学硕士学位论文 1 1 2 语音可懂度及其评价标准 语音可懂度,顾名思义就是语音可听懂的程度。这是2 0 世纪2 0 年代,贝尔 实验室发明的种客观评价语音编码器质量的方法【3 4 1 。可懂度只有比较的意 义,并不是一种绝对值。在度量一个语音编码质量时,为了比较不同情况的结 果,测试时必须采用同样的测试材料,对测试方法也须统一。常用的评价语音 可懂度的方法有平均意见分测试法( m e a no p i n i o ns c o r e ,m o s ) 和判断韵字测试法 ( d i a g n o s t i cr h y m e rt e s t ,d r t ) t 5 1 。 m o s 法采用5 级评分标准,即优( e x c e l l e n t ) 、良( g o o d ) 、中( f a i r ) 、差( p o o r ) 和坏( b a d ) ,用数字5 1 来表示这5 个等级。其中:5 代表语音失真察觉不到;4 代表语音失真刚可以察觉到;3 代表失真有察觉到且稍觉可厌;2 代表失真能明 显察觉到,可厌但可忍受;1 代表失真无法忍受。测试人在听完所测试语音后, 用这5 个等级对所测试的语音的质量进行打分。全体测试人员的平均分即为所测 语音的m o s 得分。 d r t 法则使用若干对同韵母的单字进行测试,例如“嘿”和“飞”。测试中, 让测试人员听一对同韵母中的某个字的音,判断是哪个字,全体测试人员判断 正确的百分比就是d r t 得分。通常认为得分在9 5 以上,语音质量为优; 8 5 9 4 为良;7 5 8 4 为中;6 5 7 4 为差;6 5 以下则表示不可接 受。 1 1 3 不同声码器级联对语音可懂度的影响 随着人们对高质量通信业务需求的高速增长,各种通信网络正在快速融合。 这种网络间的融合趋势促使采用不同协议标准的网络需具有协同工作的能力, 各种编码器之间级联工作便不可避免。虽然采用单一的编码器,语音可懂度依 然很高。但是采用不同编码器级联工作的方法,便会带来语音可懂度明显下降 的问题。例如无线通信网路中采用较多的g 7 2 9 6 】与a m r 7 1 级联方式,如图1 1 所示。这两种级联后语音的可懂度较使用单一一种编码标准都有明显的下降。 其中最主要的问题是语音信号经过了两次低速率语音编解码器后,语音信号高 频部分的某些对可懂度影响较大的成分,如共振峰【8 成分,几乎完全消失。 2 第一章绪论 用 白 终 a d g 7 2 9 编码g 7 2 9 解码 端 信道传输 用 1r 户 一删i唿h i篙8 i 幺袈 d a ,、 端 图1 1 ( 3 7 2 9 与a m r 级联工作方式 1 1 4 课题研究的主要内容及其意义 本文的工作就是基于g 7 2 9 与a m r 级联工作带来语音可懂度明显下降这样 的背景下进行的。研究的思想就是在经过两次编解码之后,通过一处理模块对 语音信号进行处理,恢复语音信号的高频部分对可懂度影响较大的成分并对其 进行增强,达到有损语音可懂度增强的目的。课题研究的意义就在于不改动现 有的通信网络设备基础之上,为网络互联提供一个较低成本的语音可懂度增强 解决方案。 1 2 国内外研究现状及发展趋势 针对编码器互联带来语音可懂度下降的问题,国内外已经进行了非常多的 研究。研究的方向主要有两个大的方面: 一是各种编码器之l 刈转码技术的研究,即语音信号经过前一个语音编码器 的编码后直接进行转码处理,然后通过后一个语音编码器的解码输出语音,这 样的处理省掉了两次编解码的过程。目前已经发表了一些关于语言编码器参数 转换的研究成果,例如:h o n g 。g o ok a n g 于2 0 0 0 年提出的关于i t u tg 7 2 9 和 t i ai s 6 4 1 之l 旬的转码方案【9 1 ;k y u n gt a ek i m 提出的关于g 7 2 3 与e v r c 之间 一种高效的参数直接转换算法【lo 】;国内的如东南大学的吴镇杨教授提出的一种 从a m r 到g 7 2 9 的转码方案】。 3 电子科技大学硕士学位论文 另一种研究较多的就是对两次编解码后的语音信号进行直接的增强处理。 主要的思想就是利用接收到的现有的语音信号的低频信息重建缺失的信息来达 到可懂度增强的目的。业界也发表了一些关于这种方法的研究成果。如:中兴 通讯发表的“关于数字音频编码扩展方法”的专利【1 2 】;s o n ye r i c s s i o n 公司的专 利“s y s t e ma n dm e t h o df o rm o d i 聊n gs p e e c hs i g n a l s ”【1 3 】;三星公司的专利“使 用共振峰增强对话的方法和装置 1 4 1 ”。这些研究成果在实际的语音通信系统中得 到了很好地应用。 以上所述就是关于解决不同编码器级联带来语音可懂度下降的两个大的研 究方向。虽然业界已经取得了一定的研究成果,但是至今仍没有一套完整的技 术解决方案。 1 3 论文的主要工作及内容安排 本论文的主要工作是对经过g 7 2 9 与a m r 级联后的语音进行深入研究分 析,找出其可懂度下降的根本原因,针对这些原因,给出了一种结合现有高频 补偿方法的语音可懂度增强的方案和算法,即基于窗函数的共振峰增强的语音 可懂度增强方法。并将该算法在m a t l a b 上进行仿真和分析。 论文的章节安排如下: 第一章介绍了针对编码器级联带来语音可懂度这一问题的研究背景,成 果以及发展现状。 第二章介绍了语音信号的一些基本性质及语音信号处理的一些基本方 法。 第三章对g 7 2 9 与a m r 两种编码器做简单介绍,对通过编码器级联后的 语音可懂度下降原因进行分析,并提出可行的解决方法。 第四章介绍文中提出的语音可懂度增强方案,对方案中使用的各算法进 行详细描述,包括清浊音判决,高频补偿,共振峰增强等。 第五章在m a t l a b 上进行系统仿真,并对该方案性能进行分析。 第六章总结工作中尚不完善的地方,提出了一些后续改进的建议 4 第二章语音信号处理的基本理论 第二章语音信号处理的基本理论 在研究和分析语音信号之前,必须首先理解语音信号的一些重要特性,以 及由这些特性产生的一些处理语音信号的基本理论,这些基本理论贯穿语音信 号可懂度提升研究的整个过程。 2 1 语音信号的声学特征 语音作为一种声音,必然具有声音的一般物理属性,即具有一定的音调、 音色、音强、音长【2 ,1 5 】。音调是指声音的高低,它取决于声带的振动频率( 基频) , 基频越高,音调越高。基音频率最低可达7 0 h z 左右,最高可达5 0 0 h z 左右。音 色也叫音质,是一种声音区别于其他声音的基本特征。音色与声带的振动频率、 发音器官的送气方式以及声道形状、尺寸密切相关。音强即为声音的强弱,取 决于声波振动的振幅大小。声音的长短被称为音长,它取决于发音的持续时间 的长短。 发音时由声带是否振动引入了“浊音( v o i c e ds o u n d ) ”和“清音( u n v o i c e d s o u n d ) ”的区别,声带振动的是浊音,声带不振动的是清音。浊音构成一个音节 的主干部分,无论是从时长还是能量来看,浊音在音节中都占主要成分。清音 只出现在音节前后端位置上,它们的时长和能量与浊音相比都很小。 声学特性中另一个重要的特征就是浊音信号的共振峰【2 ,8 】。声道在发音时会 产生共鸣的作用。当发浊音时,声道会以最大振幅来振荡,从而产生一组共振 频率,称为共振峰频率( f o r m a n tf r e q u e n c y ) ,简称共振峰( f o r m a n t ) 。共振峰是不 同浊音成分区分的重要参数,它一般包括共振峰的位置和共振峰的频带宽度 ( f o r m a n tb a n d w i d t h ) 。不同浊音对应一组不同的共振峰参数,为精确地描述语音, 应尽可能的使用多个共振峰。在实际应用中,前三个共振峰便足够描述浊音, 它们分别被称为f 、丘和只。浊音共振峰与发音时舌位位置密切相关。第一共 振峰f 与舌位高低有关,表现为舌位高,只低;舌位低,f 高。第二共振峰只 与舌位前后密切相关,表现为舌位靠前,e 高;舌位靠后,只低。第三共振峰 只虽与舌位的关系并不密切,但是受到舌尖活动的影响,舌尖抬高卷起时,只 就明显下降。 5 电子科技大学硕士学位论文 2 2 语音信号的特性 2 21 语音信号的时域和频域特性 时域中,可以通过观察时域波形看出语音信号的一些重要特性。 图2 - 1 是一个男声“开”的时域波形,语音波形采样频率为1 0 k h z ,量化精 度为1 6 b i t 。图中横轴为采样点,纵轴表示信号的归一化幅度。从图中可以看出 语音信号随时间变化的能量起伏关系,但无法辨别出语音波形的具体细节。 剀2 - 1 语音信号“开”的时域波形 图2 2 是“开”浊音部分a i 的一段波形。从国中可咀看出这段语音信号具 有明显的周期性,且振幅较大。这个周期对应的就是声带振动的周期,即基音 周期。 m # 圈2 - 2 浊音段庙一段时域波形 6 ;s口 第二章语音信号处理的基本理论 圄2 - 3 是清音刖的一段展开图。从图中可以看出,清音段波形类似于白噪 声振幅较小,无明显周期性。 薹f l 剖 = f 舻 “”“” 图2 - 3 清音段删一段时域波形 语音信号时域波形虽简单直观,但由于语音信号的复杂性,一些特性需要 在频域中才能体现。如观察一小段浊音的波形,从它频谱中大致可以看出其谐 波特性及其共振峰的特性。 语音信号是短时平稳信号,在一个很短时间p l j ( 1 0 m s 一3 0 粥) 是相对平稳的, 但在长时间的周期中语音信号特性会发生变化。根据语音信号的这种短时平稳 特点,可以采用截取语音中的一小段( 1 0 脚3 0 m s ) 的方法对语音信号进行频谱 分析。 图2 - 4 给出了“开”中a i 一段语音信号的频谱特性。语音信号长度为2 0 m s , 采样率为l o k h z 。在进行傅里叶变化前,为提高其频谱分辨率,对语音信号补 零到5 1 2 点,短时分析时采用汉明窗进行加权处理( 移去语音信号中的直流分量 和加重高频分量) 。 电子科技太学硕士学位论文 图2 4“开”中a 卜段语音信号频谱特性 从图中可以看出峰峰值直接的间隔大约为1 8 0 h z ,因此基音频率约为 18 0 h z 。并且从图中可阻看出频谱中明显的几个凸起点,它们就是共振峰频率。 第一共振峰大约在7 0 0 h z 左右;第二共振峰大约在1 7 0 0 h z 左右;第三共振峰大 约在2 7 0 0 h z 左右。表明浊音信号频谱具有明显的共振峰特性。 图2 - 5 给出了剧中一段清音信号的傅里叶变换从圈中可以看出频谱峰峰 值之间间隔是随机的,表明清音没有明显的周期性。 l 忡 丑;志高;二兰赢志志”生 图2 - 5“开”中u 一段语音信号频谱特性 2 22 语音信号的语谱图 时域和频域分析是语音信号分析的两种重要方法,但是两种方法单独使用 来对语音信号进行分析时均有局限性:时域分折无法了解语音信号的频域特性, 8 第二章语音信号处理的基本理论 而频域分析又不能反映语音信号随时间不断变化的特性。语音信号是时变信号, 频谱随时间也是在不断变化的。但是由于语音信号的短时平稳性,可以在语音 信号某一时刻上用其附近的短时段分析得到一种频谱,将语音信号在时间轴上 连续地进行这种频谱分析。这种和时间相关的频谱分析被称为语谱图分析 2 ,8 ,1 5 , 旧。其横轴表示时间,纵轴表示频率,每个像素的灰度值大小表示在给定时间 和频率上的能量。显然地,语谱图分析是一种动态的频谱分析,它显示了语音 信号频谱髓时间变化的规律,报好地综合了频域和时域分析的特点。 语音信号的能量谱功率可表示为: 1, p ( ) 2 j 君五i 扣,。) ( 2 1 ) 其中: ( m ) = 女m 月一k l e - j 。2 ( 2 2 ) 4 n 是使用的长度为2 n + i 的窗函数,x ( n ,m ) 表示一帧以时间点h 为中心 的语音信号在。处的傅里叶变换。 图2 - 6 给出了“开”的宽带和窄带语谱图,图中横轴坐标表示时间,纵轴 坐标表示频率,灰度值大小为在( h ,0 3 ) 处的能量大小,能量采用对数表示。宽带 语谱图和窄带语谱图的区别在于窗函数的长度不同。宽带语潜图的频率分辨率 通常为3 0 0 h z 4 0 0 h z ,时间分辨率为2 m s 5 m s ,因此通常具有较好的时间分 辨率。窄带语谱图的频率分辨率为5 0 h z 一1 0 0 h z 时间分辨率为5 m s l o m s , 因此通常具有较好的频域分辨率。 ( a ) “开”的宽带语谱匿 电子科技大学硕士学位论文 怕1 “开”的窄带语谐图 图2 - 6“开”的语谱图 从宽带语谱图中可看出,图像呈现出垂直的条纹,这些垂直条纹的间隔时 间大致上反映的就是基音周期的大小。从窄带语谱图上可以看出浊音段语音的 各次诣波,各谐波分量表现为横向的波纹。其中较粗的黑色“横杠( b a n ”带表 示的就是语音信号共振峰,横杠随着时间起伏变化。清音在语谱图中则表现的 含混不清,看起来比较杂乱。清浊音之间过渡段反映在语谱图上则是弯向浊音 段共振峰的一段横杠。 2 3 语音信号的短时分析技术 虽然由于语音信号的非平稳特性,不能用处理平稳信号的数字信号处理技 术束对语音信号进行处理。但由于在个短的时间范m o o , , s 3 0 m s ) 内,其特 性基本保持稳定,即语音信号的短时平稳特性。所以对语音信号的处理必须建 立在“短时”的基础之上,将语音信号分成一段一段来进行分析,其中每一段 称为“帧( f r a m e n 一帧长度大约为1 0 m s 3 0 m s 。 23 1 预加重 由于受声门激励和声道辐射影响,语音信号的功率谱在8 0 0 h z 以上大约按 6 d b 倍频衰落,所以在求语音信号的频谱时,频率越高,相应的频谱成分就越 小。采用预加重( 唧h a s 镕) 【2 】的目的就是提升语音信号的高频成分,使语音信号 的频谱在整个频带内变得平坦,便于频谱分析。预加重一般在整个语音信号分 娜螂螂鲫蛐鳓船跚。 * 第二章语音信号处理的基本理论 析处理之前进行,采用的是一阶的数字滤波器: h ( z ) = 1 一彩叫( 2 3 ) 其中a 为一接近于1 的常数。 在经过一系列语音信号处理之后,需要对信号进行去加重处理 ( d e e m p h a s i s ) ,加上6 d b 倍频的下降特性来还原出语音信号原来的特征。 2 3 2 语音信号分帧和加窗技术 经过预加重处理后的语音信号,接着就是要利用移动的长度有限的窗函数 进行分帧处理。分帧时一般采用图2 7 叠交叠的分帧方法【15 1 ,这样主要是为了 保持语音信号的连续性,使帧与帧之间能平滑过渡。其中帧与帧之间的交叠部 分称为帧移( 一般为帧长度的一半) 。分帧后的语音信号表示为: 丸( 咒) = x ( n ) 奉w ( n ) ( 2 - 4 ) 其中w ( n ) 表示分帧时使用的窗函数。 第k 帧 l 堕整 l 塑堡 i 图2 7 帧长与帧移关系示意图 通常采用的窗函数是矩形窗和汉明窗,它们分别表示为: 矩形窗: 1 以n ,2 :;,o e 厶 0 2 5 ,则认为不存在基音周期,候选值均取为0 。 状态损失函数表示为 r 下, i 蹦乙f ) 础h 刽+ p d , 一幔。 ( 4 - 1 o ) 转移损失函数表示为: i ( f ,i ,) = 其中,口、p 、7 为取用的权重值。z 嗜为当前语音信号中计算存在基音周期的 语音帧的r l 的平均值。运用v i t e r b i 算法找到损失最小的基音周期候选序列。第k 帧语音信号第个候选值的最小损失函数表示为: c ( k ,j ) = m ! n c ( k 一1 ,f ) + l ( 尼,j ,i ) + s ( 足,j )( 4 1 2 ) 如果语音信号共有k 帧,那么整体最小损失就为m i n c ( k ,朋,确定各语音 帧的最优基音周期的候选值,从而输出最终的基音周期结果。 4 1 2 语音信号预处理 这里对语音信号的预处理包括去均值处理、低通滤波处理和数值滤波处理。 4 1 2 1 去均值 语音信号一帧中的非零均值会在所求的所有延迟上产生很高的相关性,这 1 4 0 引 4 e 吗 o = , ”。,刊 ,f一 l u y 7 电子科技大学硕士学位论文 会对清浊音判断带来非常大的影响。正因为此,我们在后续处理前首先从分析 数据帧中减掉均值,表示为: x ( 胛) = x ( n ) 一u 其中= 专篓x ( 甩) ,为一帧语音信号长度。 ( 4 - 1 3 ) 4 1 2 2 低通滤波 共振峰会给基音检测的准确带来较大困难。为减少高频部分共振峰的影响, 需要对去均值后的语音信号进行8 0 0 h z 低通滤波,去除大部分共振峰的影响【2 , 2 4 】 o 所采用的低通滤波器为使用双线性变换法设计的五阶椭圆滤波器,其设计 技术指标为: 采样率:,= 8 0 0 0 h z 通带截止频率:f = 8 0 0 h z 阻带起始频率:,= 1 2 0 0 h z 通带最大衰减:l 一点= 一0 2 5 d b 阻带最小衰减:文= 一5 0 d b 滤波器设计流程如下: 1 ) 模拟滤波器的频率: 国= 2 zt a l l ( 孕) js 通带截止频率0 ) c 和阻币4 4 4 - 起始频率妙分别为: c o c = 2 x 8 0 0 0 t a n ( 丽z c x 8 0 矿0 ) - 5 1 9 8 7 2 c o = 2 x 8 0 0 0 t a n ( 等瑚1 5 2 4 0 则: 一( - o r :8 1 5 2 4 0 :1 5 6 8 q 5 1 9 8 7 2 2 ) 设定滤波器阶数为n = 5 ,使得近似满足定义的指标: 兰上= 1 5 5 6 ,l 一4 = 一0 2 8 d b ,匹= 一5 0 0 1 d b ( 4 - 1 4 ) ( 4 1 5 ) ( 4 1 6 ) ( 4 - 1 7 ) ( 4 1 8 ) 第四章语音可懂度增强算法设计及软件实现 3 ) 确定模拟滤波器传递函数h ( s ) ,并归一化。对应眈 s l = 最= 一0 0 9 6 9 9 + j 1 0 3 0 0 墨= 只= 一0 3 3 3 9 0 j o 7 1 7 7 墨= 一0 4 9 5 1 9 4 = 疋= + j 1 6 1 7 0 哦= 也= j 2 4 3 7 7 第五个零点为无穷大。模拟滤波器的传递函数为: ( j ) = k m 兀( s - 8 。 m = 1 兀( s - s 。 k = j = 1 的零极点为: 4 ) 确定数字滤波器的传递函数日( z ) 。将s = ;再i - - z - i 带入上式可得: 其中: m 兀( 1 一乙z 叫) 日( z ) = b o o + z _ ) 肛m 专一 兀( 1 - p k z 叫) k = l 7 一,弓吒 乙2 毒 1 一二- 矿 。一+ 吾是 耻毒 1 一二- s 。 级联的离散时间滤波器系数为: c l f = 一2r e ( q f ) = 一2 ,;c o s ( 0 ) 求得: c 2 ,= l q ,= ,;2 3 3 ( 4 1 9 ) ( 4 - 2 0 ) ( 4 2 1 ) ( 4 2 2 ) ( 4 - 2 3 ) ( 4 2 4 ) ( 4 2 5 ) 电子科技大学硕士学位论文 置m = 1 ,则增益 其中 d = 一15 0 8 4 d 一14 5 5 6 口= 一07 2 2 8 a 一1 1 3 4 6 矗2 = 一0 4 5 8 0 矗3 = + l0 a 2 l = 0 8 9 2 8 “2 2 = o6 6 1 8 20(4-26) 肛= 1 0 最,= 1 0 晟= 0 0 2 孟石卸0 0 8 2 ” 圆此殴计的五阶椭圆低通滤波器传递函数为: r 4 2 7 ) l h ( z ) = 兀珥( z ) ,l = 3 ( 4 - 2 8 ) i - i 舭,= 等z 兰蓦1d ,+ d i z + 其幅度和相位频率特性如图4 - 2 所示 0 r 一一_ _ _ _ r 1 营 i i “j 一j 一一二o ! “ l i 啪0 _ 1 旷高f 1 赢广1 面面i 盂矿茹矗 f 一y f h l ,:曩了j = = t = 二 1 一、 - - 一+ 。 i 一1 “ r 、一一。j 一i1 :二l 二= l 螂f 毛未 苗r j f r 矿磊b r 4 2 9 ) 酗4 - 2 五阶椭圆低通滤波器幅度与相位频率响应 4 l23 数值滤波 数值滤波的主要作用就是数据平滑处理。经过8 0 0 h z 低通滤波的语音信号, 主要去除了第三和第四共振峰的影响,但第一和第二共振峰仍然可能保留,它 们可能会使得浊音段语音信号的周期性模糊,产生错误的基音估计。数值滤波 3 4 38口fl 第四章语音可懂度增强算法设计及软件实现 的作用便是去除这一影响,突出浊音语音信号的周期性,使基音估计较准确【2 5 1 。 数值滤波的原理为将一个长度为的窗逐点向前移动,每次取窗内样点的 平均值作为中间点的输出值。这样,输出y ( n ) 与输入x ( n ) 之间的关系可以表示 为: - ,r 1 k 砌) 2 志,至砌“m - o ,1 ,2 ( 4 - 3 0 ) 其中n = 2 k + 1 为分析窗长度。 实际数字滤波时,考虑到操作的可行性,分析窗旱的样点平均值只能作为 末点的输出值。其输出一输入关系应为: y ( ,z ) 2 万缶i v - - j x ( 川) ,咒= o ,1 ,2 ( 4 - 3 1 ) 传递函数便为: 日( z ) 2 n 1y n = 0z 一”(4-32) 本文中采用了n = 9 的数值滤波器,图4 - 3 给出了其幅频和相频特性曲线。 0 百- 2 0 写铷 墨- 6 0 - 8 0 l 署 i 星挝瓜n 一f l 图4 - 3n = 9 数值滤波器幅度与相位频率响应 图4 - 4 给出了语音信号“所有股民”的一帧语音波形( 1 6 0 点) 的比较,从图 中可以看出经低通滤波器和数值滤波后的语音波形较原始波形显示出非常强的 周期性。 3 5 电子科技大学硕士学位论文 0 2 憾0 1 堕 肆o 毒_ 0 1 旬2 采样点数 ( a ) 原始信号 0 2 0 4 0 6 0 8 0 1 0 01 2 0 1 4 0 t 6 0 采样点数 ( b ) 经低通和数值滤波器厉的信号 图4 _ 4 语音波形处理比较示例 4 1 3 清浊判决算法流程 经过以上分析,本文中清浊判决的具体步骤如下: ( 1 ) 对语音信号进行低通滤波和数值滤波处理; ( 2 ) 。确定各帧的幅度差平方和函数,并与设定的门限值进行比较,进行清 浊判决并初估计基音周期; ( 3 ) 利用v i t e r b i 算法进行后处理,确定最终的基音周期丁,并得到清浊判 决的最终结果。 其算法流程如图4 5 所示: 3 6 第四章语音可懂度增强算法设计及软件实现 图4 。5归一化互相关函数清浊判决流程图 4 1 4 清浊判决结果及其分析 用于基音检测的语料内容为“所有股民”,采样率为8 k h z ,帧长为2 0 m s ( 1 6 0 样点) ,帧移1 0 r e s ( 8 0 样点) ,使用不同方法的基音检测结果如图4 - 6 所示,检测 中孤立检测出的1 到2 点基音值被滤除( 即判为清音处理) 。 2 工 鬃1 0 0 蝴 0 ( a ) 归一化s m d s f 1 0 0 t r 一” 蚕 妄s o 厂一_ 瑚 0l :l 一一 01 02 03 04 05 06 07 08 09 01 0 0 帧数 ( b ) v e t e r b i 后处理 图4 - 6 语音“所有股民”的基音轮廓 图4 7 是基音轮廓所示的边界帧,从图中很明显地看出这些语音帧是清浊 音之间的过渡段,所以本文所采用的基于幅度差平方和函数的清浊判断具有很 3 7 电子科技大学硕士学位论文 高的正确率。 憾 罂 s 硬 采样点 ( a ) 第1 2 帧语音 05 01 0 0 采样点 ( c ) 第5 1 帧语音 刨 挚 s 罢 采样点 ( b ) 第3 8 帧语音 图4 7 基音轮廓的边界帧 4 2 语音信号的高频补偿技术 4 2 1 算法介绍 采样点 ( d ) 第8 5 帧语音 经过( 3 7 2 9 与a m r 级联系统的语音如图3 - 6 所示,高频部分的能量损失严 重,而这部分中保存有对可懂度影响较大的谐振分量和共振峰信息。高频补偿的 作用就是恢复浊音帧的高频部分谐振分量和共振峰信息。高频补偿的基本思想 就是语音信号较高的频率不被编码及传输,而是在解码端根据较低的频谱在一 些附加参数( 低频谐波信息) 帮助下重建出来。 本文中采用的方法,是向接收到的窄带语音信号添加更多的合成信息,从 而构造出语音信号的高频分量。该方法包括以下步骤: 1 ) 对语音信号进行频谱分析,分析语音信号的低频成分,提取出语音信号 的基频分量和低频部分的谱峰值,即谐振分量; 3 8 1 5 0 5 1 o 0 越坚一皋l e i 第四章语音可懂度增强算法没计及软件实现 2 ) 利用提取的低频部分的相关参数恢复出语音信号的高频成分; 3 ) 将生成的高频部分同语音信号的低频部分相连接,从而合成出新的语音 信号,即经过高频补偿的语音信号。 其具体实现流程如图4 8 所示: 输 图4 8 语音信号高频补偿 输入的语音信号按照按照前面介绍的方法进行清浊音判决,如果当前语音 帧信号被判为清音帧,则直接输出,不做处理。如果语音帧被判为浊音帧,则 对当前帧进行频谱分析,提取低频部分的谱峰值信息,连同清浊判决确定的基 频信息一起输入低频信息扩展与复制模块从而生成语音信号的高频成分,最后 连同原有的低频分量经过合成滤波器处理生成出经过高频补偿的语音信号。 低频信息扩展与复制是进行高频补偿的核心部分,其具体实现如图4 9 所 示: 高频成分 图4 - 9 低频信息扩展与复制具体实现 利用前面清浊判决得到的基频信息可确定高频部分谐振分量的位置,峰值 检测确定低频部分的峰值信息,利用这些峰值信息生成高频补偿所需的成分, 将这些信息复制到确定的高频谐振位置上,得到语音信号的高频成分。用于高 3 9 电子科技大学硕士学位论文 频补偿的成分是低频中第一个到最后一个大于谱能量均值的一段谐振分量。把 这段成分按确定的高频谐振分量位置添加到高频中,直到布满整个高频段。 4 2 2 高频补偿实验结果 用于高频补偿实验的是一段经过( 3 7 2 9 与a m r 的语音,内容为“所有股民”, 采样率8 0 0 0 h z ,帧长为2 0 m s ( 1 6 0 点1 ,帧移为1 0 m s 。实验中采用其中的一帧浊 音帧。其经过系统前后的频谱如图4 - 1 0 所示。经过系统后,语音帧的高频成分 几乎完全消失,后三个菇振峰几乎全部丢失。 弦j 黪 辩” e o 三垂面 j ,。| i :甜k j j 矿芸毪拦挚o 豫 h q u 眦y f “= 。e 殛耍亟固i 嘞蝴辫静鳓懈孵洲衔, 刳4 - 1 0 级联系统前后语音帧频谱圉 通过本文所述方法进行高频补偿前后的语音信号的频谱图如图4 1 1 所 示,通过高频补偿后的语音信号高频丢失的成分得到一定补偿,丢失的共振峰 信息也得恢复。这样的补偿有利于下一步对语音信号进行共振峰增强处理。 第四章语音可瞳度增强算法设计及软件实现 嘶需 。”篇m ) g ”- ”8 8 避堕j e 。j j j i t 。嗨螺 | | 。k 。7 1 i j 圈舡1 1 高频补偿前后频谱图对比 图4 - 1 2 是一段语音信号经过高频补偿前后的信号语谱图,从图中可以清 楚的看到语音信号经过高频补偿后,高频部分信息得到很大的恢复。 4 m # “ 1 0 i 堂橐自自曼蔓;壁! 鹭;l 叁 o0 10 2n 30 40 5060 7 目月$ l 高频补偿前信号语谱囤 囊蠡龋表彝酒鸯l 0o 0 2030 460 7n目09 h 月s 伯) 高频补偿后信号语谱图 图4 1 2 高频朴偿前后信号语谱图 43 语音信号的共振峰增强技术 共振峰是反映声道谐振特性的重要特征,它代表了语音信息的最直接的来 4 l m m m 。 z h * 电子科技大学硕士学位论文 源,人对语音的感知便充分利用了共振峰的信息。因此语音信号的共振峰对语 音可隧度起着决定性的作用。 采用共振峰增强的语音信号可懂度增强方法,不仅因为其大大降低了处理 时的复杂度,更重要的是因为它仅仅对语音共振峰做增强处理,而并不改变语 音信号本身的包络轨迹,从而很好地保持了语音信号原有的基本特征。 43 l 共振峰提取技术 4 3 1 i 共振峰提取相关技术 共振峰信息包含在语音频谱包络中,因此共振峰参数的提取关键是语音频 谱包络的估计。常用的语音信号共振峰的提取方法主要有以下几种: 1 带通滤波器组法 带通滤波器组法的原理是通过滤波器组的设计使估计的共振峰同人耳灵敏 度相匹配 圳。 各滤波器中心频率可按两种方式分布:一是采用等f i j 距的分布,从而可以 保证各通道群延时相同。另一种就是采用非均匀的分布,例如在低频段间距较 小,在高频段问距大,使得输出的群延时相同。为使频域分辨率较高,滤波器 的阶数应足够大,但同时却带米了时域分耕率的降低,因此频域分辨率与时域 分辨率不能同时满足。 圈4 1 3 是一种滤波器组注提取语音信号共振峰的系统结构示意图,其中心 频率从15 0 胁到6 , 址3 z 等间隔分布在频带上。 n m 一疆! 归i 图4 一1 3 带通滤波器组法提取共振峰 4 2 第四章语音可懂度增强算法设计及软件实现 2 倒谱法 倒谱法运用对数运算和二次傅里叶变换将谐波分量和声道频谱包络分离 开。用短时窗,( ,z ) 从语音信号的倒谱c ( n ) 中截取出h ( n ) ,h ( n ) 经d f t 变换后得 到的h ( k ) 就是声道的离散谱。该方法能精确地估计语音共振峰,但缺点是计算 复杂,运算量较大【2 7 1 。图4 。1 4 为倒谱法提取语音信号谱包络的原理图。 图4 1 4 倒谱法估计语音信号频谱包络 3 线性预n g ( l p c ) 法 l p c 法是一种有效的频谱包络估计方法,根据求得的声道包络可计算出语 音共振峰。线性预测提供了一种最简单的,行之有效的共振峰提取方法。本文 中对共振峰信息的提取便是基于这种方法。 4 3 1 2 线性预测的基本思想 语音信号线性预测的基本思想 2 ,4 】是:语音信号的当前时刻采样值可用过去 若干个语音采样值的线性组合来表示。在最小均方误差准则下求取一组唯一的 预测系数( 线性组合中使用的加权系数) ,使线性预测得到的结果逼近实际语音信 号采样。 根据信号谱估计的基本思想,语音信号x ( 咒j 可以看作为由激励信号“( 咒) 激 励一个全极点模型h 【z ) 而产生的输出,如图4 1 5 所示。 图4 1 5 语音信号产生模型 系统传递函数表示为: 酢) : 卜日,z q ( 4 3 3 ) 其中,g 表示增益,q 为加权系数,p 为阶数。可以看出,语音信号产生模型 是以系数哆和增益g 为参数的全极点模型,即a r 模型。 加权系数 口,) 可以用来定义一p 阶
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临床试验药物供应的应急储备策略
- 有关《穆桂英挂帅》豫剧作文
- 临床试验远程监查与研究者培训的整合模式
- mba的毕业论文提纲案例
- 导师对学生学术论文评语
- 2025会计专业论文范文3-会计学毕业论文范文-写作指导-
- 煤炭企业的经济效益与财务管理
- 后并发血清肿的多元Logistic 回归分析及防治对策探讨
- 试论教育先行解答题
- 怎么样选定论文题目
- 乒乓球兴趣小组活动记录
- 酒吧威士忌服务流程
- 电子式电能表的检定
- 植物生产类专业职业生涯规划书
- 中国胃食管反流病诊疗规范(2023版)解读
- 高中学生学籍表模板(范本)
- 办公楼建筑能源管理平台技术方案书
- 河南省铭玮昊化工科技有限公司年产1000吨溴硝醇、100吨磺酰胺、200吨叔丁酯项目环境影响报告书
- 灭火器检查记录表模板实用文档
- 《赢利 未来10年的经营能力》读书笔记PPT模板思维导图下载
- 2023年成都交子金融控股集团有限公司招聘考试备考题库及答案解析
评论
0/150
提交评论