(通信与信息系统专业论文)基于统计模型的语音活动检测与语音增强研究.pdf_第1页
(通信与信息系统专业论文)基于统计模型的语音活动检测与语音增强研究.pdf_第2页
(通信与信息系统专业论文)基于统计模型的语音活动检测与语音增强研究.pdf_第3页
(通信与信息系统专业论文)基于统计模型的语音活动检测与语音增强研究.pdf_第4页
(通信与信息系统专业论文)基于统计模型的语音活动检测与语音增强研究.pdf_第5页
已阅读5页,还剩89页未读 继续免费阅读

(通信与信息系统专业论文)基于统计模型的语音活动检测与语音增强研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山大学博士学位论文 基于统计模型的语音活动检测与语音增强研究 专业:通信与信息系统 博士生t 李宇 指导教i ) 币i t 谭洪舟 摘要 近年来,日常生活中的移动电话,数字助听器,车载语音系统等数字语音处理设备 的大量出现和使用引起人们对语音增强领域研究重视。同时复杂噪声环境下这些语音设 备性能的急剧下降也使得人们对其抗噪声能力提出更高的要求。目前,该领域仍然存在 着许多有待解决的关键问题。此外,v o l p 的普及,使得人们可以方便地、低成本地进 行语音通信。本文主要从语音活动检测、频域语音增强和v o l p 多媒体会议混音处理三 方面展开研究,内容包括以下四点: ( 1 ) 依据噪声功率谱密度分布的拖尾特性,用r a y l e i g h 模型近似噪声功率谱密度数 据的统计分布,导出基于r a y l e i g h 模型的新判决阈值更新表达式,并提出一种基于该判 决阈值更新准则的语音活动检测算法。由于r a y l e i g h 分布下虚警概率具有解析表达式, 从而避免了计算逆互补误差函数,降低了算法的复杂度。在非平稳噪声环境下,其正确 检测率高于d a v i s 提出的基于g a u s s i a n 模型的算法。 ( 2 ) 对上面的语音活动检测方案,提出结合倒谱频谱估计的语音活动检测算法。该 算法针对原d a v i s 的语音活动检测算法中使用的w e l c h 频谱估计算法复杂度较大的缺 点,给出一种更节省计算资源的语音活动检测算法。 ( 3 ) 提出一种基于对数r a y l e i g h 混合模型的语音增强算法,导出了基于对数r a y l e i g h 混合模型的最小最大m m s e 估计器,该估计器比基于g a u s s i a n 混合模型的估计器有更 高的输出分段信噪比。 摘要 ( 4 ) 提出一种适用于集中式多媒体音频会议系统的实时同步混音转发算法。该算法 通过设置多个循环混音缓冲区,并对其实施同步控制来实现音频数据的混音、转发功能, 并利用反映操作系统调度情况的声卡缓冲区数据长度确定每次混音处理的数据长度,减 轻操作系统调度对混音的影响。实验表明此算法是可行和稳定的。 关键词:语音增强,语音活动检测,阈值更新,最小均方误差,对数瑞利混合模型,混 立 日 1 1 中山大学博士学位论文 r e s e ar c ho ns t a t i s t i c a lm o d e l b a s e dv o i c ea c t i v i t y d e t e c t i o na n ds p e e c he n h a n c e m e n t m a j o r :c o m m u n i c a t i o na n di n f o r m a t i o ns y s t e m n a m e :l iy u s u p e r v i s o r :p r o f t a nh o n g z h o u a b s t r a c t r e c e n t l y ,t h ee m e r g e n c eo fd i g i t a ls p e e c hp r o c e s s i n gd e v i c ee m p h a s i z e su st ot a k em o r e a n dm o r ea t t e n t i o nt os p e e c he n h a n c e m e n tr e s e a r c hd o m a i ns u c ha sm o b i l ep h o n e ,d i g i t a l h e a r i n ga i d sa n dv e h i c u l a rs p e e c hs y s t e mi n o u ro r d i n a r yl i f e a tt h es a n l et i m e ,u n d e rt h e c o m p l i c a t e dn o i s ee n v i r o n m e n tt h er a p i dp e r f o r m a n c ed e g r a d a t i o nf r o mt h es p e e c hd e v i c e sl e t u st a k eh i g h e rd e m a n d so nt h e i ra n t i n o i s ea b i l i t y p r e s e n t l y ,t h e r ea r eal o to fp r o b l e m sw h i c h a r en o tr e s o l v e di nt h a tr e s e a r c hd o m a i n m o r e o v e ra st h ed e v e l o p m e n to fv o l p ,p e o p l ec a n c o m m u n i c a t ee a c ho t h e rc o n v e n i e n t l ya n dl o w - c o s t l y i nt h i sd i s s e r t a t i o n ,t h er e s e a r c he f f o r t i sf o c u so nt h r e em a i nr e s e a r c ha r e a s v o i c ea c t i v i t yd e t e c t i o n ,f r e q u e n c yd o m a i ns p e e c h e n h a n c e m e n ta n da u d i om i x i n gi nv o l pm u l t i m e d i ac o n f e r e n c e n i si n c l u d ef o l l o w i n gf o u r a s p e c t s : ( 1 ) w ed e d u c eat h r e s h o l du p d a t ee x p r e s s i o nb a s e do nr a y l e i g hm o d e l d u et ot h er i g h t t a i lc h a r a c t e ro fh i s t o g r a mo fn o i s ep o w e rs p e c t r u md e n s i t yr a y l e i g hm o d e li su s e dt o a p p r o x i m a t ei t sd a t ad i s t r i b u t i o n b a s e do i lt h i se x p r e s s i o n ,w ep r e s e n tav 削da l g o r i t h m ( c a l l e dr a y l e i g hb a s e dv a d ) t h i sv a d h a sal o w e rc o m p l e x i t ya n dm e m o 巧r e q u i r e m e n ti n c o m p a r i s o n w i t ht h o s eo fg a u s s i a nb a s e dv a dp r o p o s e db yd a v i s e s p e c i a l l yi n n o n s t a t i o n a r yn o i s es i t u a t i o n ,i tg e t sah i g h e rc o r r e c td e l e t i o nr a t et h a nt h a to fg a u s s i a n b a s e dv a d ( 2 ) av a dm e n t i o n e da b o v e ,c o u p l e d 谢t hu s i n gc e p s t u r mt h r e s h o l d i n gm e t h o dt o c a l c u l a t et h ep s do fn o i s ei n s t e a do fw e l c hm e t h o di sp r o p o s e d i th a sal o w e rc o m p u t a t i o n c o n s u m e ( 3 ) af r e q u e n c yd o m a i ns p e e c he n h a n c e m e n ta p p r o a c hb a s e do nl o g r a y l e i g hm i x t u r e m o d e l ( l r m m ) i sp r e s e n t e d i nt h i sa p p r o a c hw e d e d u c eal l l l i l s ee s t i m a t o rf o rs p e e c hs i g n a l u s i n gl r m ma n dm i x m a xa p p r o x i m a t i o n t h ee s t i m a t o rg e t sh i g h e rs e g s n rp e r f o r m a n c e i ns p e e c he n h a n c e m e n ti nc o m p a r i s o nw i t hg m mb a s e de s t i m a t o r i i i a b s t r a c t ( 4 ) w ep r o p o s ea na u d i om i x i n ga n dt r a n s m i t t i n gs c h e m ef o rc e n t r a l i z e dv o i p c o n f e r e n c es y s t e m e a c hc o n f e r e n c ee n d p o i n td e v i c ei sa s s i g n e d 扎c i r c u l a rm i x i n gb u f f e ri n t h es e r v e r ,b e s i d e sac o m m o nc i r c u l a rm i x i n gb u f f e ri sa l s ou s e d s y n c h r o n o u sc o n t r o lt ot h e a l lc i r c u l a rm i x i n gb u f f e r si si m p l e m e n t e di nt h i ss c h e m e t h el e n g t ho fd a t au s e df o rm i x i n g i sd e c i d e db yt h eo n eo ft h a ts t o r e di nt h es o u n d c a r db u f f e rw h i c hr e f l e c t st h eo p e r a t i n g s y s t e ms c h e d u l i n g t l l i sc a na l l e v i a t et h ei n f l u e n c eo p e r a t i n gs y s t e ms c h e d u l i n gi nt h ea u d i o m i x i n go p e r a t i o n e x p e r i m e n tr e s u l t sm a n i f e s tt h a to u rs c h e m ei sf e a s i b l ea n ds t e a d y k e yw o r d s :s p e e c he n h a n c e m e n t ,v o i c ea c t i v i t yd e t e c t i o n ,t h r e s h o l du p d a t e ,m i n i m u m m e a ns q u a r ee r r o r ,l o g r a y l e i g hm i x t u r em o d e l s ,a u d i om i x i n g i v 论文原创性声明内容 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成 果。对本文的研究作出重要贡献的个人和集体,均已在文中以明 确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 毒宇 日期:必明年6 月2 日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即: 学校有权保留学位论文并向国家主管部门或其指定机构送交论文 的电子版和纸质版,有权将学位论文用于非赢利目的的少量复制 并允许论文进入学校图书馆、院系资料室被查阅,有权将学位论 文的内容编入有关数据库进行检索,可以采用复印、缩印或其他 方法保存学位论文。 学位论文作者签名: 毒雪 导师签名: 日期:钞叫年6 月之日 日期:工e n j7 年莎月乎日 中山大学博士学位论文 第1 章绪论 语音增强和语音活动检测是语音处理领域很具有挑战性的两个研究热点。 近十年来,语音增强和语音活动检测得到迅速发展,同时也涌出现许多新的研 究课题。本章分别介绍语音活动检测、语音增强和网络会议系统混音技术的研 究背景、意义、存在的问题和本文的主要工作及内容安排。 1 1 研究背景及意义 语音是人类沟通的基本手段。人类的各种社会活动和行为给语音信号研究带来了许 多新的问题,同时,语音处理技术的发展时时刻刻改变着人类日常生活方式。例如语音 编码技术的出现使得人们可以在有限的通信带宽资源中聆听远处的声音,近来,宽带语 音编码的发展令我们通信中的话音更加自然,更具有可理解性减轻或降低了沟通中产生 误解。对大词汇量连续语音识别难题的突破导致了人们有着新的语音输入方式和人机交 互模式。人们可以解放双手直接口述,使指示机器工作或者理解我们的话语,大大提高 工作效率。 在日常生活中使用的语音处理技术如语音编码和语音识别等技术都不可避免要面 对各种背景噪声的干扰。噪声的存在大大降低了这些技术使用的性能或直接导致使用者 不可忍受而放弃使用。环境噪声如现场存在的背景谈话声、汽车驾驶仓的机器振动噪音、 高速行驶中的汽车引擎声,室内墙壁的反响噪声等,都会对原始语音信号造成污染。背 景噪声的存在及其特性对考虑人类语音特性的参数语音处理技术影响尤其严重,破坏了 预先假定的参数模型和听觉特性。现有的语音识别系统在无噪声环境下都可以很好地使 用,但一在嘈杂的环境场所中使用,其实别性能急剧下降。显然,在噪声的干扰下,识 别系统中使用的语音特征之间的区分性被减弱,导致系统识别错误增加。 随着移动通信的普及变成现实,移动通信技术带给人们无约束和便利的语音沟通的 同时,更是把语音通信带到了个充满复杂噪声的应用环境。而在吵杂的环境中手提电 话的语音编码不可避免会增大编码误差。这是由于语音编码如c e l p 1 】( c o d ee x c i t e d 第1 章绪论 l i n e a rp r e d i c t i o n ) 编码都是基于人类发声模型提出的,完全没有考虑环境噪声的存在。 如何消除加性噪声带来的不便? 语音增强的出现可以降低或解决噪声的不利影响。 语音增强通常用作前端处理模块出现在各种实际应用的语音处理系统中。它通过对含噪 语音进行滤波,近似还原纯净语音信号,使得语音处理不直接面对含噪语音信号,增强 了语音系统的鲁棒性,而高鲁棒性的语音增强技术可有效地扩大语音处理系统的应用场 所。 语音通话中往往是一方说话一方听话,在整个通话过程中,两个人同时说话的时段 不多,而且在某一方的说话中亦包含大量的停顿。以上因素造成实际传输的有效语音信 号的持续时间比通话的时间少得多。有统计表明,以通话的一方来讲,有约6 0 左右的 通话时间段是静音或背景噪声。为了降低通信带宽占用、节省通信设备的存储量和电源 消耗、提高运算效率、增强编码质量和减少背景噪声等目的,往往对要编码传输的语音 信号进行检测,以确定语音信号的有音时段和静音时段部分。这往往需要用到语音活动 检测( v o i c ea c t i v i t yd e t e c t i o n ,简称v a d ) 算法。很多语音识别系统对语音进行特征提取 时,都要选择有音发声时段进行提取,v a d 可以辅助特征提取的进行。对于多数语音 增强算法,工作时都要求获得噪声统计信息才能有效地进行增强处理。语音活动检测算 法正是在提高通信系统中提高传输效率、在语音增强系统中获取噪声统计信息和在语音 识别系统中确定有音区域进行特征提取的有效方法。 综上所述,语音增强技术是其他语音处理技术实际应用的前提和性能保证;而语音 活动检测算法则是语音编码和识别等语音处理技术中必不可少的功能模块之一。语音活 动检测算法亦为语音增强中获得噪声统计信息提供了一个可行有效的解决方案。对语音 增强技术和语音活动检测进行研究具有重要的实用意思和符合国内外语音信息技术发 展趋势。 随着v o i p ( v o i c eo v e ri n t e m e tp r o t o c 0 1 ) 的不断普及,人们开始越来越多地使用 v o l p 系统进行通话来代替日常不太重要的电话联系,如著名的s k y p e 公司已经推出这 样的服务了。v o l p 会议系统的出现可以使人们不必通过电信等通信部门就直接进行语 音会议。这种新的v o l p 会议系统方式利用企业内部现有的计算机网络资源和i p 终端如 i p 网络电话机就可以为企业内部提供了很大的便利,具有不受地域的局限,节省巨大的 通信费用,避免了设备的重复性投资,高效快速的传达信息和实时记录会议录音作为备 2 中山大学博士学位论文 案等优点。通过i p 网关还可以与通信部门的固定电话和移动电话相连接,实现与传统 通信系统的兼容。 语音活动检测和语音增强的另一个重要应用领域是近年兴起的v o i p 。语音增强可 作为v o i p 语音输入的预处理技术滤除背景噪声,而语音活动检测除了降低带宽开销外, 在v o l p 会议系统的混音处理中可以作为说话人选择策略的一个重要依据。作为v o l p 会议系统的核心技术之一的混音处理直接决定系统输出到各个终端的语音的质量。对混 音处理技术进行研究可以保证v o l p 会议系统的混音数据的同步性和语音的清晰性。高 质量的同步混音转发方案可以降低系统传输语音的延时,从而有助于v o l p 会议系统回 声的产生。在v o i p 会议系统日益普及的今天,高质量的同步混音转发技术具有很高的 实用价值和广阔的前景。 1 2 基本问题 1 2 1 语音活动检测 在语音信号中分割出说话语音时段和不说话时段的处理过程称为语音活动检测。一 般情况下语音信号都会受加性环境噪声影响,所以语音活动检测处理研究就是针对受加 性噪声污染的语音信号,设计出高鲁棒性的语音活动检测方法。 图1 1 语音活动检测处理流程图 f i g 1 - 1f l o w c h a r to fv a d v a d 输出 考虑两类假设,一类为空假设风,另一类为备择假设q 。风表示只有噪声出现, 而q 代表语音和噪声同时出现。设信号特征为f e a t u r e ,判决阈值为7 7 ,有 hifeature7 7 ( 1 1 ) 乏7 7 ( ) 下 音竺 第l 章绪论 当f e a t u r e 大于叩时,输入信号是含噪语音信号,表明该时刻是说话语音时刻;当f e a t u r e 小于卵时,输入信号仅仅是噪声,表明该时刻为没有说话时刻。 不失一般性,可以把语音活动检测看成是模式识别问题,用上面图1 1 所示。特征 提取主要对含噪语音信号提取出适合区分语音信号和噪声信号的信息,可以是频域或时 域的各种系数特征或统计特征。v a d 判决则是一个判决表达式,或者神经网络等,用 以得到检测的初步结果,在通过修正判决阶段。修正判决一般是一个时滞状态机或隐马 尔可夫模型( h i d d e nm a r k o vm o d e l ,简称h m m ) 等,它的存在出于考虑语音间的强相 关性,其目的是减少误判的出现。 1 2 2 语音增强 频域语音增强的本质问题是设计纯净语音的估计器,对受加性环境噪声污染的语音 信号进行估计,使得纯净语音的估计值与真实值的失真测度的期望最小。 设x u ) 与y ( ,) 分别表示时域离散的语音信号和不相关的加性噪声信号,则观察到的 含噪语音信号z ( ,) 有z q ) = x ( 1 ) + y q ) 。用短时傅立叶变换( s h o r t - t i m ef o u r i e rt r a n s f o r m , 简称s t f t ) 转换到时频域,有 l - i z ( k ,刀) = z ( 1 + n m ) w ( o p 印枨儿 ( 1 2 ) 式中k = o ,1 ,三一1 ,是频段索引,刀是时间帧数,n = o ,1 ,w ( ,) 是宽度为三的窗函数, m 为帧移动的间隔。若已经求得纯净语音的估计量j ( 七,甩) ,可以通过逆s t f t 获得语 音信号: 叠( ,) = j ( 七,刀) 话( ,一枷) 一2 州一枷彬l ( 1 3 ) 式中话( ,) 是与原以,) 相互正交的窗函数。 设计纯净语音的估计器就是给定一组频域含噪语音信号召( 七) 和失真测度 d x ( k ,刀) ,j ( 七,刀) 下,找出使得失真测度的期望最小的估计值j ( 七,胛) : 耍( 七,h ) = a r g t 啦ne d x ( 七,拧) ,j i 召( 七) ) ( 1 4 ) 依据刀与以的大小关系,j ( 七,阼) 是因果估计值( n r 拧) 或是非因果估计值( n 疗) , 4 中山大学博士学位论文 整个语音增强如图1 - 2 所示。 杀节畔咂一 图1 - 2s t f t 语音增强处理流程图 f i g 1 2f l o w c h a r to fs t f ts p e e c he n h a n c e m e n t 常用于语音增强的失真测度如下: ( 1 ) 平方错误失真测度 e x ( 七,甩) ,j ( 尼,刀) 全i 石( 尼,刀) 一j ( 七,刀) 1 2 ( 2 ) 频谱幅值失真测度 a x ( 七,刀) ,j ( 七,刀) 叁,咒) 一觚刀) 1 2 ( 1 5 ) ( 1 6 ) 其中a ( k ,刀) 表示频谱幅值。 ( 3 ) 对数幅值失真测度 d l s a x ( k ,聆) ,2 ( k ,z ) h 。ga ( k , n ) 一1 。g , 4 ( k ,刀) 1 2 ( 1 7 ) 1 2 3 多媒体会议混音处理 对于集中式的多媒体会议系统,设会议系统有路音频流,根据语音活动检测或文献 4 】 和说话人选择策略,将会议与会终端分成两个集合。一个称为活动源集合,记为 既。= “lk1 ,m ) ,m 表示参与混音的音频输入路数,另一个称为非活动源集合, 记为,僧= x jif = l ,一肘) 。设y j ( n ) 与x j ( n ) 分别表示输出到第路终端的混音波 形的第即个采样值和第,路终端输入音频流波形的第厅个采样值。 则每路混音输出可表示为如下: 缈 s s u m - 姒功孑蕊芝 m8 , m e es u m - 薯( ,2 ) ,葺( 挖) ,胛,是所有路的活动源的输入语音波形之和。 忙i 第1 章绪论 公式( 1 8 ) 是波形混音处理的主要依据。若乃( 力) 的值超出【一2 ,1 ,2 p - 一l 】( 其中p 为 二进制位数) ,则产生溢出噪声。现有的各种混音算法都是以解决混音溢出问题为目的 来对输入音频流进行处理的。不失一般性的做法是对音频流输入值进行加权求和或者求 和后乘以一个比例因子使得输出的混音波形值在范围卜2 e - 1 , 2 尸- 1 1 】之中。 1 3 目前存在的问题 数字语音增强和语音活动检测研究已经发展了好几十年,取得了突破性的研究成果。 e p h r a i m 开创的最小均方误差( m i n i m u mm e a ns q u a r ee r r o r ,简称删s e ) 语音增强方 法位1 是现今研究的基础。b e r i t e l l i 提出的利用模糊软技术提取判决规则的语音活动检 测技术啪,已经作为g 7 2 9v a d h l 的修订标准。但仍然没有彻底解决所有难题。主要表现 在: ( 1 ) 语音活动检测方面 原有的g 7 2 9 等语音编码标准中的v a d 虽然计算量低,但检测性能仍然不够理 想,特别在非平稳噪声环境下,存在漏检,虚警现象经常发生。尽管统计似然比方法检 测性能要好,但其计算量增加了不少,代价大。在语音通信中,要求高效、高性能的 v a d 仍然是一个研究热点。 提高低信噪比环境下算法的检测性能没有被很好解决。据作者了解,对于各种 噪声源,目前现有算法的检测正确率在0 d b 低信噪比环境,仍然没有超过9 0 。很多算 法在5 d b 时已经失去检测意义。 ( 2 ) 语音增强方面 现有的语音增强算法对非平稳噪声的处理效果仍然比其他平稳噪声差很多,如 仿真中代表街道或餐厅中的背景谈话声音的b a b b l e 噪声。 对时变环境的鲁棒性是现有语音增强算法获得高去噪能力的一个限制点。很多 算法在某些特定的环境下工作很好,但要是在不同的环境下切换,如从轿车环境到车外 街道环境,这样的噪声环境变化使得语音增强算法难以适应。 语音信号的质量和可理解性同时得到改善的问题没有很好解决。到目前为止, 现有的语音增强算法只能改善以上两点中的其中一点,很难做到两方面都同时得到改 善。 6 中山大学博士学位论文 ( 3 ) 混音处理方面 现有v o l p 会议系统的混音处理研究以波形叠加混合抗失真方面的研究居多,没 有考虑到网络传输的同步因素。 对混音处理中的说话人选择技术等相关技术研究不多。在说话人切换中仍然存 在令人讨厌的剪切声,有待进一步解决。 1 4 本文的创新点 本文主要针对适合语音通信中被用于语音编码和语音增强的语音活动检测算法和 短时傅立叶变换域的m m s e 语音增强算法展开研究。在总结和吸收这两方面相关文献 的基础上,对现有算法进行改进和创新,提出新的算法。此外,对在v o i p 会议系统中 混音处理亦展开了初步研究。三部分研究内容都可以作为一个功能模块用于v o l p 会议 系统。本文的创新点有以下四方面: ( 1 ) 依据噪声功率谱密度分布的拖尾特性,用r a y l e i g h 模型近似噪声功率谱密度数 据的统计分布,导出基于r a y l e i g h 模型的新判决阈值更新表达式,并提出一种基于该判 决阈值更新准则的语音活动检测算法。由于r a y l e i g h 分布下虚警概率具有解析表达式, 从而避免了计算逆互补误差函数,降低了算法的复杂度。在非平稳噪声环境下,其正确 检测率优于d a v i s 在文献【5 】提出的算法。 ( 2 ) 提出结合倒谱频谱估计的语音活动检测算法。该算法针对文献【5 中的v a d 算 法中使用的w e l c h 频谱估计方法复杂度较大的缺点,在不牺牲太大检测性能的条件下, 给出一种更节省计算资源的v a d 算法。 ( 3 ) 基于对数r a y l e i g h 混合模型( l o g r a y l e i g hm i x t u r em o d e l ,简称l r m m ) 可以 更精确、用更少参数对纯净语音信号s t f t 域系数的对数幅值进行建模,提出一种基于 对数r a y l e i g h 混合模型的语音增强算法,导出了基于对数r a y l e i g h 混合模型的最小最大 m m s e 估计器。该估计器比基于g a u s s i a n 混合模型的估计器有更高的分段输出信噪比。 ( 4 ) 设计了一种多媒体语音会议实时同步混音转发方案。给每一路语音信号分配一 个循环混音区及一个公共混音区,对所有混音区进行同步控制。再转发给对应的支路。 实验验证了方案的有效性和正确性。 7 第1 章绪论 1 5 本文内容安排 第1 章分别介绍语音增强和语音活动检测技术的研究背景、意义、存在的问题和本 文的主要工作及内容安排。 第2 章先概述了高阶统计方法,统计似然比方法和统计非似然比方法等v a d 算法, 对它们的优缺点进行分析和讨论。然后回顾了本文相关的语音增强算法研究进展。从 d f t 域m m s e 准则语音增强为路线展开了该类语音增强算法的主要组成技术,包括语 音信号统计模型、先验信噪比估计和噪声估计等问题。对同样要利用m m s e 准则的时 域子空间和基于离线模型参数训练的估计方法也进行了综述。接着总结了目前存在的问 题。最后,介绍了v a d 和语音增强的评测标准。 第3 章先介绍了噪声信号数据的统计模型及一类基于统计非似然比的v a d 方法。 然后在基于具有相似拖尾特性的r a y l e i g h 统计模型上导出新的阈值更新准测,并提出一 种基于该判决阈值更新准则的语音活动检测算法。仿真表明其检测性能在非平稳噪声环 境下优于或相当于g a u s s i a n 模型阈值更新准则。 第4 章先介绍传统的非参数频谱估计方法,然后介绍倒谱阈值频谱估计方法。统计 非似然比语音活动检测需要背景噪声的功率谱密度( p o w e rs p e c t r u md e n s i t y ,简称p s d ) 估计值。本章提出结合倒谱阈值频谱估计的语音活动检测,在不损失检测性能的同时降 低了整个v a d 系统的计算量。仿真验证了算法的检测性能。 第5 章回顾用对数r a y l e i g h 混合模型对语音信号频域系数的对数幅值建模的理论。 在基于对数r a y l e i g h 混合模型的语音信号概率表示上,导出了语音信号的m m s e 估计 器。仿真表明该m m s e 估计器比现有的基于g a u s s i a n 混合统计模型的m m s e 估计器有 更低的复杂度和更高的信噪比增强性能。 第6 章是v o l p 会议系统的混音算法的研究,前面章节提出的v a d 算法和语音增强 算法都可以作为系统的功能模块用于该会议系统中。文中先介绍语音信号波形混音的原 理,然后介绍了循环缓冲区的混音器结构,再此基础上设计了一种多媒体语音会议实时 同步混音转发方案。实验验证了方案的有效性和正确性。 最后,在第7 章对本文的工作进行了总结和讨论,并对今后的研究进行了展望。 8 中山大学博士学位论文 第2 章语音活动检测、语音增强和混音处理综述 近十年来,语音增强、语音活动检测和v o i p 会议混音处理得到迅速发展。 本章分别分析和比较了与本文相关的语音活动检测技术和语音增强技术的研 究进展和的优缺点,并介绍了v a d 和语音增强的评测标准。最后对近年来的 v o i p 会议混音处理方法进行回顾。 2 1 语音活动检测标准、分类及文献回顾 在语音信号中分割出会话语音时段和不说话时段的处理过程称为语音活动检测。从 最初多特征的门限比较方法到现在的统计检测方法,语音活动检测已经发展了几十年 了。语音活动检测是语音信号处理中十分重要的一个环节。本节主要阐述和分析各类 v a d 算法。 2 1 1i t u tg 7 2 9a n n e xb 的v a d 4 l 国际电信联( i t u ) 盟于19 9 6 年1 2 月制定了g 7 2 9 a n n e xb 标准,在非连续传输模式 ( d i s c o n t i n u o u st r a n s m i s s i o n ,简称d t x ) 下支持g 7 2 9 的8 k b i t s 编码器工作。g 7 2 9 a n n e xb 中有完整的语音活动检测算法,将有声段与无声段区分开。在有声段,语音按 正常速率进行编码和传输。在静音过长的情况下说话方会有认为对方掉线的错误感觉, 所以在无声段用舒适噪声产生( c o n f o a a b l en o i s eg e n e r a t i o n ,简称c n g ) 功能来模拟背景 噪声,使得通话更接近于理想环境,并以1 5 b i t 帧的速率进行编码。v a d 算法的作用是 用来检测通话过程中是否有语音的存在,它是可变速率语音编码的关键部分。作为速率 选择的依据,语音存在与否的判断因素会直接影响语音通话质量。i t u tg 7 2 9a n n e xb 中的v a d 算法的模块流程图如图2 1 所示。 g 7 2 9a n l l e xbv a d 算法中,语音按帧时间顺序以语音帧的形式从通话开始就被处 理。算法分为以下四步。 9 第2 章语音活动检测、语音增强和混音处理综述 第一步,四个参数特征将从输入语音中提取。它们分别是全频段帧能量、低频段帧 能量、线频谱频率( l i n es p e c t r a lf r e q u e n c y ,简称l s f ) 和帧的过零率。分别如下 ( 1 ) 线频谱频率 嘲 三。 ( 2 1 ) 由线性预测系数得到的一组线频谱频率l s f 系数,其中p = 1 0 。 ( 2 ) 全带宽信号能量e , e = 1 0 1 0 9 l o 1 叫 亿2 , 其中r ( 0 ) 为输入语音信号的第一个自相关系数,n = 2 4 0 为l p c 分析窗长度。 ( 3 ) 低频带信号能量局 e l = l o - l o g t o 1 h t 鼬 亿3 , 历指输入语音信号在0 - - f ,h z 频段的能量。其中,h 为截止频率f , s z 的f i r 滤波器的 冲激响应;r 对角线上为自相关系数组成的t o e p l i t z 自相关系数矩阵。 ( 4 ) 归一过零率 z c = 面1m 射- i - m 删- s g n x ( h ) 1 ( 2 4 ) 其中, x ( f ) 为输入语音信号,m = 8 0 为编码的帧长度。 计算每一帧所抽取的四个参数分别与背景噪声运行平均值的差值。这四个参数的 运行平均值分别是其在前m = 3 2 个帧的平均值l s f t 、e 、e l 和z c 。四个差值参数 分别定义如下: 心= 圭( 三s f i 一面 ( 2 5 ) 屿= e ,一巧 ( 2 6 ) 蝎= e l - e , ( 2 7 ) a z c :一z c z c ( 2 8 ) l o 中山大学博士学位论文 开始 一6 1 1语音参数提取 上 更新最小缓冲 上 初始化平均 y 嗡佘n l s f ,z c ,e n 1 n 芝二! l y ! r 、 若能量 1 5 d b , 初始化平均能量i v o i c i n g = l ,否则= o n * 女 ,顼术 产生不同参数 上 v上 v o i c i n 9 2 0 1 t n 多边界初始条件判决 上 v a d 判决平滑 n = 乡l y 一 苜隶噪户琵霞 i 一 结束 1 、是否达到门限焦 一兜耕干列百泵嵘户爹双 图2 1i t u tg 7 2 9 a n n e xbv a d 算法流程图 f i g 2 1i t u tg 7 2 9 a n n e xbv a df l o w c h a r t 第二步,多边界( m u l t i b o u n d a r y ) v a d 判决。g 7 2 9a n n e xb 算法中的v a d 采用了 不同于一般算法的单阈值判决,而是采用更可靠的多边界判决,大大提高了判决的准确 率。该判决仍未决定该帧语音属于有活动音还是静音。 第三步,v a d 平滑。v a d 平滑反映了语音信号的长期平稳特性。是大多数v a d 算法中都要用到的技术。一般认为如果v a d 检测到当前帧没有出现语音,还应该考虑 第2 章语音活动检测、语音增强和混音处理综述 到前面几帧的情况,如果前面曾连续出现语音达到一定的时间,那么认为当前帧为语音 的可能性就很大。平滑后的判决结果使话音帧与静音帧之间的切换更为自然。 第四步,背景噪声平均运行参数的更新。这一步的执行先要经过一个能量条件判断, 只有当满足条件e ,大于门限值时,才对背景噪声平均参数进行更新。参数更新并不是 每一帧都必须的。四个背景噪声平均运行参数的更新都采用一阶自回归策略。当检测到 噪声特性的较大变化或通话开始时会采用不同的系数集。 g 7 2 9 a n n e xb 标准的v a d 在高信噪比有令人满意的检测性能,但当信噪比降低或 遇到非平稳噪声时,主要通过增加误警来维持通话的畅通,所以其作用不明显。起不了 v a d 算法主要的作用。g 7 2 9 a n n e xb 标准v a d 的算法参数一般很难进行优化。文献【3 】 提出基于模糊逻辑的特征匹配,而特征提取仍然利用g 7 2 9 a n n e xb 的相同声音参数组。 模糊遗传神经系统工具训练的一组六个模糊规则用于算法的匹配阶段。该改进算法兼容 g 7 2 9 a n n e xb 标准,减少了4 3 的“剪切”效应和2 5 的活动因素效应。 另一个应用于移动语音通信的v a d 是欧洲电信标准协会( e t s i ) g s m 网络的v a d 算法【6 1 。该算法比g 7 2 9 a n n e xb 标准v a d 算法更加复杂,检测性能要好。 2 1 2 高阶统计方法【7 l 该v a d 是一种工作在时域,基于语音信号的高价统计( h i g h o r d e rs t a t i s t i c s ,简称 h o s ) 属性的检测算法。其特征包括基于高价统计的偏度( s k e w n e s s ) 、峰度( k u r t o s i s ) 和 它们各自的标准化形式,信噪比和线性预测系数的预测错误和偏度平方与峰度的1 5 次 方的率。这些特征被用于区分语音活动帧和噪声帧: ( 1 ) 高价统计特征:高斯( g a u s s i a n ) 过程信号g ( n ) 的高价统计特征e 【g ( 刀) 】。通过下 式估计,并用自回归策略平滑估计量。 = 寺【g ( 刀) r ( 2 9 ) ( 2 ) 标准化偏度和峰度:偏度估计可用( 2 9 ) 得m 3 窖,峰度的无偏估计如下: 俞c ,= ( 1 + 丙2 ,m 。g - 3 ( 鸠g ) 2 ( 2 1 0 ) 那么有分别有标准化偏度和峰度 1 2 中山大学博士学位论文 y s 凑和儿= 嚣 亿 其中心,是帧能量。 ( 3 ) 噪声和信噪比估计:当信号帧被判断为非语音帧时,系统进行噪声功率估计。最 初用一段噪声来初始化。在非语音帧时按自回归平均更新噪声功率估计值。 ( 七) = ( 1 一j 6 i ) 以( 后一1 ) + 卢 如, ( 2 1 2 ) 跚一陪 亿 其中当x 0 时,p o s x 】_ x 否则为0 。 ( 4 ) 预测错误和偏度平方与峰度1 5 次方的比率: s k r = 爵 2a 1 k u u 4 , 1 踊i = 士百( 1 4 ) i1 j i 图2 2 基于h o s 的双状态机 f i g 2 - 2h o sb a s e dv a d s t a t em a c h i n e 有了以上特征,v a d 检测可以用一个如图2 2 描述的包括噪声和语音状态的状态机 表示。 噪声状态:通过噪音存在概率更新噪声能量。通过s k r 率、g a u s s i a n 似然概率和 线性预测系数的预测错误p e 判断当前信号帧是否语音帧。若以下三个条件之一满足, 从噪声状态跳转到语音状态。 连续两个信号帧p ro b n o i s e i 或饱 2 ; 其中、r 雎、。和:分别各个门限值。 语音状态:用语音似然概率和托、n 判断当前信号帧是不是高斯信号。若一下条件 符合,过一个两帧或三帧的时滞( h a n g o v e r ) 周期跳转到噪声状态。 i 7 r p r o b n o i s p 】 ka n d 儿 t r 3a n dy 4 乙 ( 2 1 5 ) 该算法使用的高阶统计特征本质上对g a u s s i a n 信号有免疫作用,因而在g a u s s i a n 噪声或近似噪声有很好的检测效果。但遇到b a b b l e 等非平稳噪声时,高阶统计特征没 有任何优势可言。该算法工作在时域,并且要计算含噪语音信号高阶统计特征,计算量 较大。 2 1 3 基于统计模型的似然比方法 基于统计模型的语音活动检测的主要思想是假设语音信号和噪声信号服从某种统计 模型的分布,分别计算出每帧信号对应模型的参数,然后通过似然比进行检测。该方法 首先由s o h n 提出【8 1 假设语音信号受到加性噪声污染,两者相互独立。对于输入的第t 帧含噪语音,v a d 可以看成一个二值假设检验问题,分别表示语音存在( p r e s e n t ) 与不存在( a b s e n t ) 的两种假 设风和耳分别如下所示: j 日( ) = 风:印唧办口砌:z ( ) = n ( ( 2 1 6 ) 1 日( ,) = i - i , :s p e e c hp r e s e n t :z ( t ) = s ( f ) + n ( f ) 其中,z ( t ) ,s ( f ) 和n ( ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论