(信号与信息处理专业论文)基于稀疏分解的单通道混合语音分离算法研究.pdf_第1页
(信号与信息处理专业论文)基于稀疏分解的单通道混合语音分离算法研究.pdf_第2页
(信号与信息处理专业论文)基于稀疏分解的单通道混合语音分离算法研究.pdf_第3页
(信号与信息处理专业论文)基于稀疏分解的单通道混合语音分离算法研究.pdf_第4页
(信号与信息处理专业论文)基于稀疏分解的单通道混合语音分离算法研究.pdf_第5页
已阅读5页,还剩129页未读 继续免费阅读

(信号与信息处理专业论文)基于稀疏分解的单通道混合语音分离算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学博i :研究生学位论文 摘要 摘要 单通道混合语音分离是语音分离研究的重要方向,稀疏分解理论的发展为解 决单通道混合语音分离问题提供了新的思路。正因为如此,本论文主要研究基于 稀疏分解的单通道混合语音分离算法。借鉴稀疏分解和随之发展起来的压缩感知 的理论成果,通过字典学习,构造合适的与源语音信号自适应的基或字典,在此 基础上,采用不一范数优化算法,设计有效的基于稀疏分解的单通道混合语音分 离算法和基于压缩感知的单通道混合语音分离算法,以达到增强目标语音,抑制 干扰语音的目的。本论文的主要工作和创新如下: 从探讨如何构造与源语音信号自适应的基或字典出发,提出通过对角化源 语音信号自相关矩阵,构造理想准k l t 基,并从理论上证明,任何信号在理想 准k l t 基下都具有稀疏性。鉴于在实际情况下,不一定能获得确切的理想准k l t 基,提出通过选取合适的模板和计算相应的模板匹配系数,来近似语音信号的自 相关矩阵,再对近似的自相关矩阵进行特征值分解,构造两种实用的模板匹配准 k l t 基一非齐次线性均方估计模板匹配准k l t 基和正交匹配追踪模板匹配准 k l t 基。仿真表明,浊音信号在模板匹配准k l t 基下的特性与在理想准k l t 基 下的特性相近。 以创新点为基础,研究基于准k l t 基的单通道混合语音分离。 a 从理论上证明,当基函数满足一定的条件时,采用厶一范数优化算法,可以 实现单通道混合语音的完美分离,并进一步证明理想准k l t 基满足该条件 b 由于实际语音分离时,源信号未知,故无法获得理想准k l t 基,提出对上 述两种模板匹配准k l t 基构造方法进行改进,以混合语音信号为已知条件,来 构造各源语音信号的模板匹配准k l t 基。在此基础上,提出了两种实用的基于 模板匹配准k l t 基的单通道混合语音分离算法一基于非齐次线性均方估计模板 匹配准k l t 基的分离算法和基于j 下交匹配追踪模板匹配准k l t 基的分离算法。 仿真表明,该算法的性能优于现有的基于独立成分分析基的分离算法和采用形分 析技术改进后的计算机场景分析算法。 论文将压缩感知和单通道混合语音分离相联系,研究基于压缩感知的单通 l 南京邮i 乜人学博l :研究生学位论文 摘要 道混合语音分离。 a 从压缩感知的视角看待单通道混合语音分离问题,设计基于压缩感知和 k s v d 的单通道混合语音分离算法。仿真表明,该算法对各类混合语音的分离 效果相差不大,性能稳定。 b 在d c t 域设计基于能量特性的帧间帧内自适应语音压缩感知观测构造算 法,以进一步减少基于压缩感知的源语音信号的“采样率 ,为研究基于压缩感 知观测特性的单通道混合语音分离奠定基础。仿真表明,该算法的性能优于贝叶 斯压缩感知算法的性能。 关键词:语音分离稀疏分解压缩感知字典学习线性规划 南京邮电人学博l :研究生学位论文 摘要 a b s t r a c t s i n g l e - c h a n n e ls p e e c hs e p a r a t i o ni sav i t a li s s u eo fs p e e c hs e p a r a t i o n , a n ds p a r s e d e c o m p o s i t i o nh a sp r o v i d e da n e ww a yt os o l v es u c hp r o b l e m s t h e r e f o r e ,w ep u to u r r e s e a r c hf o c u s e so nt h es p a r s e - d e c o m p o s i t i o n - b a s e ds i n g l e - - c h a n n e ls p e e c hs e p a r a t i o n a l g o r i t h m si nt h i sd i s s e r t a t i o n u s i n gt h et h e o r e t i c a lr e s u l t so fs p a r s ed e c o m p o s i t i o na n dc o m p r e s s e ds e n s i n g ( c s ) ,w h i c hi sd e v e l o p e do nt h eb a s i so fs p a r s ed e c o m p o s i t i o n ,w ep r o p o s es e v e r a l s o u r c e - a d a p t i v eb a s i s ( o rd i c t i o n a r y ) c o n s t r u c t i o na l g o r i t h m sf i r s t ,a n dt h e no nt h i s b a s i s ,w ep r o p o s es e v e r a le f f e c t i v es p a r s e d e c o m p o s i t i o n b a s e ds i n g l e - c h a n n e ls p e e c h s e p a r a t i o na l g o r i t h m sa n dc s b a s e ds i n g l e c h a n n e ls p e e c hs e p a r a t i o na l g o r i t h m s ,t o e n h a n c et h et a r g e ts p e e c ha n ds u p p r e s st h ei n t e r f e r e n c es p e e c h t h em a i nw o r ka n d m a i nc o n t r i b u t i o n sa r ed e s c r i b e da sf o l l o w s : w ed e r i v e t h ei d e a l q u a s i k l t ( q i “t ) b a s i sb yd i a g o n a l i z i n g t h e a u t o c o r r e l a t i o nm a t r i xo ft h es p e e c hs o b r c e ,a n dp r o v et h a t ,a l lt h es p e e c hs o u r c e sa r e s p a r s ei nt h e i ri d e a lq k l tb a s e s h o w e v e r , i ns o m er e a l w o r l da p p l i c a t i o n s ,t h ei d e a l q k l t b a s e sc a n n o tb eo b t a i n e de x a c t l y , t h e r e f o r e ,w ep r o p o s et oc o n s t r u c tt w ot y p e s o ft e m p l a t e - m a t c h i n gq k l tb a s e s ,w h i c ha r ec a l l e dn o n h o m o g e n e o u sl i n e a rm e a n s q u a r ee s t i m a t i o n ( n l m s e ) t e m p l a t e m a t c h i n gq k l t b a s i sa n do r t h o g o n a lm a t c h i n g p u r s u i t ( o m p ) t e m p l a t e - m a t c h i n gq k l t b a s i s s i m u l a t i o nr e s u l t sd e m o n s t r a t et h a t t h ec h a r a c t e r i s t i c so fv o i c e ds p e e c hs i g n a l si nt h e i rt e m p l a t e - m a t c h i n gq k l tb a s e s a r es i m i l a rw i t ht h o s ei nt h e i ri d e a lq k l tb a s e s o nt h eb a s i so ft h ew o r kd e s c r i b e di n ,w ep r o p o s et h es i n g l e - c h a n n e l s p e e c hs e p a r a t i o na l g o r i t h m sb a s e do nq k l t b a s e s a w ep r o v et h a t ,b a s e do nt h ei d e a lq k l tb a s e s ,a l lt h es o u r c e sc a nb ep e r f e c t l y s e p a r a t e df r o mas i n g l em i x t u r eb y 厶o p t i m i z a t i o n b s i n c et h es o u r c e sa r eu n k n o w nb e f o r es p e r a t i o n ,w ec a n n o to b t a i nt h ei d e a l 堕塑电人学博j j 研究生学位论文 a b s t r c t q k l tb a s e sa c t u a l l y t h e r e f o r e , w ep r o p o s et op e r f o r ms i n g l e c h a n n e l s p e e c h s e p a r a t i o nb a s e do nt h en l m s et e m p l a t e - m a t c h i n gq k l tb a s i sa n do m p t e m p l a t e - m a t c h i n gq k l t b a s i ss e p a r a t e l y , w h i c ha lec o n s t r u c t e df r o mt h em i x t u r e b y i m p r o v i n gt h et w ot e m p l a t e - m a t c h i n gq k l tb a s i sc o n s t m e t i o na l g o r i t h m sd e s c r i b e d a b o v e i ti so b s e r v e dt h a to u rp r o p o s e dm e t h o d sp e r f o r mb e t t e rt h a nt h em e t h o d e x p l o i t i n gi n d e p e n d e n tc o m p o n e n ta n a l y s i sb a s i sf u n c t i o n sa n dt h e i m p r o v e d c o m p u t a t i o n a la u d i t o r ys c e n ea n a l y s i sb a s e dm e t h o du s i n gs h a p ea n a l y s i s w es t u d yo nc s b a s e ds i n g l e - c h a n n e ls p e e c hs e p a r a t i o na l g o r i t h m s 轧m o t i v a t e db yt h e s i m i l a r i t yb e t w e e nt h em a t h e m a t i c a lm o d e la d o p t e di n s p e e c hs e p a r a t i o na n dc s ,w ea t t e m p tt or e c o v e rt h es p e e c hs o u r c e su s i n gac s a p p o a r c h ,a n dp r o p o s eas i n g l e - c h a n n e ls p e e c hs e p a r a t i o na l g o r i t h mb a s e do nc sa n d k - s v d s i m u l a t i o nr e s u l t sd e m o n s t r a t et h a to u rp r o p o s e d a l g o r i t h mh a ss t a b l e p e r f o r m a n c e b b a s e do i lt h es p a r s i t yo f s p e e c hi nt h ed c td o m a i n ,w ep r o p o s ea ni n t e r - f r a m e a n di n t r a - f r a m ea d a p t i v es p e e c hc sm e t h o d u s i n gs p e e c he n e r g y , t of u r t h e rr e d u c et h e s p e e c hs a m p l i n gr a t eb a s e do nc st h e o r y , f o rt h ef u r t h e rr e s e a r c ho ns i n g l e c h a n n e l s p e e c hs e p a r a t i o nb a s e d o i lc sm e a s u r e m e n tc h a r a c t e r i s t i c s s i m u l a t i o nr e s u l t s d e m o n s t r a t et h a to u ra l g o r i t h mp e r f o r m sb e t t e rt h a nt h eb a y e s i a nc o m p r e s s e d s e n s i n g k e y w o r d s :s p e e c hs e p a r a t i o n ;s p a r s ed e c o m p o s i t i o n ;c o m p r e s s e d s e n s i n g ; d i c t i o n a r yl e a r n i n g ;l i n e a rp r o g r a m m i n g 南京邮电大学 博士研究生学位论文摘要 学科:王堂 专 业:信呈皇信。恳处理 研究方向:亟音处理当现岱语直通信 作者:2 0 0 7 级博士研究生郭海燕 指导老师:杨震教授 题目:基于稀疏分解的单通道混合语音分离算法研究 t i t l e :r e s e a r c ho ns p a r s e d e c o m p o s i t i o n b a s e ds i n g l e c h a n n e ls p e e c hs e p a r a t i o n a l g o r i t h m 关键词:语音分离稀疏分解压缩感知字典学习线性规划 k e y w o r d s :s p e e c hs e p a r a t i o n ;s p a r s ed e c o m p o s i t i o n ;c o m p r e s s e d s e n s i n g ; d i c t i o n a r yl e a r n i n g ;l i n e a rp r o g r a m m i n g 本论文得到以下基金项目资助 国家8 6 3 重点项目:“中文为核心的多语言处理技术 ( 编号:2 0 0 6 a a 0 1 0 1 0 2 ) 国家自然科学基金项目:“基于l p 优化的语音压缩感知理论和编码技术的研 究”( 编号:6 0 9 7 11 2 9 ) 江苏省普通高校研究生创新科研计划项目:“单通道欠定条件下混合语音分离 关键技术研究 ( 编号:c x 0 9 b 一1 4 8 z ) 南京邮电人学博:j j 研究生学位论文缩略语 a m a s a a s t b c r b c s b 0 l b b p b s s c a s a c s d c t e m d e t f f m o g f o c u s s g m m g s m m h m m h m s l c a i l s - d l a i s a i s n r l ( j m a p 缩略语 幅度调制 a m p l i t u d em o d u l a t i o n 听觉场景分析 a u d i t o r ys c e n ea n a l y s i s 仿射变换 a f f i n es c a l i n gt r a n s f o r m 分组协调松弛 b l o c kc o o r d i n a t er e l a x a t i o n 贝叶斯c s b a y e s i a nc o m p r e s s e ds e n s i n g 最佳正交基t h eb e s to r t h o g o n a lb a s i s 基追踪b a s i sp u r s u i t 盲源分离 b l i n ds i g n a ls e p a r a t i o n 计算机听觉场景分析 c o m p u t a t i o n a la u d i t o r ys c e n ea n a l y s i s 压缩感知 c o m p r e s s e ds e n s i n g 离散余弦变换d i s e r e tc o s i n et r a n s f o r m 经验模式分解 e m p i r i c a lm o d ed e c o m p o s i t i o n 等角紧致框架 e q u i a n g u l a rt i g h tf l a m e 有限高斯混合模型 f i n i t em i x t u r eo f g a u s s i a n s 局部欠定系统求解 f o c a lu n d e r d e t e r r n i n e ds y s t e ms o l v e r 高斯混合模型 g a u s s i a nm i x t u r em o d e l 高斯分级混合模型 g a u s s i a ns c a l e dm i x t u r em o d e l 隐马尔可夫模型h i d d e nm a r k o vm o d e l 谐波幅度抑制h a r m o n i cm a g n i t u d es u p p r e s s i o n 独立成分分析 i n d e p e n d e n tc o m p o n e n ta n a l y s i s 基于迭代最小均方i t e r a t i v el e a s ts q u a r e sb a s e dd i c t i o n a r y 的字典学习算法l e a r n i n ga l g o r i t h m s 独立子空间分析 i n d e p e n d e n ts u b s p a c ea n a l y s i s 改进信噪比 i m p r o v e ds i g n a lt on o i s er a t i o k a r h u n e n l o e v e 变换 k a r h u n e n l o e v et r a n s f o r m 最大后验概率m a x i m u map o s t e r i o r v 南京邮电人学博i :研究生学位论文 缩略语 m c e s a最小交互熵频域分析m i n i m u m c r o s s e n t r o p ys p e c t r a l a n a l y s i s m d c t m e f m m s e m o s m p n l m s e o m p o q a s r i p r l s d l a s b c s e g s n r s n i f s n r s t f t s v d 修正d c t 极大熵函数 m o d i f i e dd i s c r e t ec o s i n et r a n s f o r l t l m a x i m u me n t r o p yf u n c t i o n 最小均方误差m i n i m u mm e a ns q u a r ee i t o r 平均意见评分 m e a n o p i n i o ns c o r e 匹配追踪 m a t c h i n gp u r s u i t 非齐次线性均方估计 n o n - h o m o g e n e o u sl i n e a rm e a ns q u a r e e s t i m a t i o n 正交匹配追踪 o r t h o g o n a lm a t c h i n gp u r s u i t 主观质量评估 o b j e c t i v eq u a l i t ya s s e s s m e n t 限制等距特性 基于递归最小均方的r e c u r s i v el e a s ts q u a r e sb a s e dd i c t i o n a r y 字典学习算法l e a m i n ga l g o r i t h m s 子带编码s u b - b a n dc o d i n g 分段信噪比 稀疏非负矩阵分解 信噪比 短时傅立叶变换 奇异值分解 v i s e g m e n ts i g n a lt on o i s er a t i o s p a r s en o n n e g a t i v em a t r i x s i g n a lt on o i s er a t i o s h o r t t i m ef o u r i e rt r a n s f o r m s i n g u l a rv a l u ed e c o m p o s i t i o n 南京邮电大学博:卜研究生学位论文 图表说明 图表说明 图2 1 理想准k l t 基及投影向量波形图2 5 图2 2 不同匹配准则下重构信号的s e g s n r 3 4 图2 3 不同匹配准则下重构信号的眦。3 4 图2 4 不同帧长下重构信号的s e g s n r 3 6 图2 5 不同帧长下重构信号的眦3 6 图2 - 6 不同模板个数下重构信号的s e g s n r 3 9 图2 7 不同模板个数下重构信号的甩。3 9 图2 8n l m s e 模板匹配准k l t 基及投影向量波形图4 0 图2 - 9 不同迭代次数下重构信号的s e g s n r 4 6 图2 - 1 0 不同迭代次数下重构信号的撇4 6 图2 1 1 不同残差信号能量阈值下重构信号的s e g s n r 4 8 图2 - 1 2 不同残差信号能量阈值下重构信号的眦4 8 图2 1 3 不同最大相关系数阈值下重构信号的s e g s n r 5 1 图2 - 1 4 不同最大相关系数阈值下重构信号的珞一5 1 图2 1 5o m p 模板匹配准k l t 基及投影向量波形5 2 图2 1 6 语音信号在d c t 基下的投影向量。5 6 图3 1 基于n l m s e 模板匹配准k l t 基的分离语音波形7 l 图3 2 基于o m p 模板匹配准k l t 基的分离语音波形7 8 图4 1k - s v d 算法流程图8 8 图4 2 基于c s 和k s v d 的分离语音波形9 2 图4 3 帧间帧内自适应c s 算法框图9 9 图4 _ 4 不同c s 方案下重构信号的s e g s n r 1 0 0 南京邮电大学博士研究生学位论文 图表说明 图4 5b c s 方案与帧间帧内自适应c s 方案下重构信号的s e g s n r 比较1 0 2 图4 - 6 有无能量区间区分的帧i h j 帧内自适应c s 方案下重构信号的s e g s n r 比较一1 0 4 表2 l 不同匹配准则下不同腓s p | 。畸范围的语音帧比例一3 2 表2 2 不同匹配准则下语音信号的i 删值3 2 表2 3 不同匹配准则下语音帧的平均g i n i 系数3 3 表2 4 不同帧长下不同岬时范围的语音帧比例3 5 表2 5 不同帧长下语音信号的气;鲫1 5 邮姆值= = 3 5 表2 - 6 不同帧长下语音帧的平均g i n i 系数3 6 表2 - 7 不同模板个数下不同懵。一嘶范围的语音帧比例3 8 表2 8 不同模板个数下语音信号的气j g 肚k p a 嘶值3 8 表2 - 9 不同模板个数下语音帧的平均g i n i 系数。3 9 表2 - l o 不同迭代次数下不同一钠咖范围的语音帧比例4 5 表2 - 11 不同迭代次数下语音信号的i 呻b 舯啪值4 5 表2 1 2 不同迭代次数下语音帧的平均g i n i 系数4 6 表2 1 3 不同残差信号能量阈值下不同。蚋嘶范围的语音帧比例4 7 表2 1 4 不同残差信号能量阈值下的;胛埘舯;l y 值和迭代次数4 8 表2 1 5 不同残差信号能量阈值下语音帧的平均g i n i 系数4 8 表2 - 1 6 不同最大相关系数阈值下不同。咿嘶范围的语音帧比例5 0 表2 1 7 不同最大相关系数阈值下的气i 卵。叩。时值和迭代次数5 0 表2 1 8 不同最大相关系数阈值下语音帧的平均g i n i 系数5 1 表3 1 基于理想准k l t 基的分离算法性能一吃v 6 4 表3 2 基于理想准k l t 基的分离算法性能一l s n r 。6 4 表3 3 基于n l m s e 模板匹配准k l t 基的分离算法的客观性能一6 9 表3 - 4 基于n l m s e 模板匹配准k l t 基的分离算法和几种已有分离算法的性能比较一6 9 v 南京邮电人学博j :研究生学位论文图表说明 表3 5 基于n l m s e 模板匹配准k l t 基的分离算法的主观性能7 0 表3 - 6 以d 。为参照时基于n l m s e 模板匹配准k l t 基的分离算法的客观性能7 2 一山 表3 7 基于o m p 模板匹配准k l t 基的分离算法的客观性能7 6 表3 8 基于o m p 模板匹配准k l t 基的分离算法和几种已有分离算法的性能比较7 7 表3 - 9 基于o m p 模板匹配准k l t 基的分离算法的主观性能7 7 表3 1 0 以d p 为参照时基于o m p 模板匹配准k l t 基的分离算法的客观性能7 9 。粕 表3 两种基于模板匹配准k l t 基的分离算法性能比较8 1 表4 1 基于c s 和k s v d 的分离算法的客观性能9 0 表4 2 基于c s 和d c t 的分离算法的客观性能9 1 表4 3 基于c s 和k s v d 的分离算法的主观性能评估9 3 表4 - 4 不同c s 方案下重构信号的m o s 分比较1 0 1 表4 5 帧间帧内自适应c s 方案与b c s 方案下重构信号的m o s 分比较1 0 2 表4 6 有无能量区问区分时各重构质量帧所占比例1 0 3 表4 7 有无能量区间区分时重构信号的m o s 分比较一1 0 4 i x 南京邮电大学博十研究生学位论文第一章绪论 第一章绪论 1 1 单通道混合语音分离的概念及研究意义 语音是人类最方便最直接也最常用的交流方式。然而,在实际坏境中,人们在获取语 音信号的同时不可避免地会受到周围环境噪声的干扰,这些干扰可能会导致某些语音信号 处理系统性能急剧下降。例如与安静环境相比,噪声环境下语音识别系统的性能会大大下 降,这使得实验环境下研究的语音识别系统的实用性受到了限制,在这种情况下采取某种 措施,例如语音增强,显得尤为必要。因此语音增强一直是国内外学者十分重视且具有应 用意义的研究课题,既可作为语音信号处理独立的研究方向,又可作为其它语音系统中的 处理前端,以提高系统的鲁棒性能。 语音分离是一类特殊的语音增强方法,其噪声对象一般为难以处理的类语音噪声,这 种方法是在源语音信号和传输信道参数( 即混合过程) 未知的情况下,仅根据从麦克风采 4 集到的观测数据( 即混合语音信号) ,来恢复或分离出独立的源语音信号的过程。其目的 是增强目标语音,抑制干扰语音。目标语音和干扰语音性质的相似性决定了语音分离的难;。; 度是各类语音增强方法中最难的,但在实际环境中也是有据可依的,可从人耳听觉的“鸡 尾酒会 效应得到佐证。设想,在嘈杂的鸡尾酒会上,即使酒会上的每个人都在交谈, 人耳也可以毫不费力地听到对面朋友的每一句话。这个著名的“鸡尾酒会”问题说明了在 多个背景语音的嘈杂环境下,人的听觉系统有分离及提取感兴趣的语音信号的能力,这说 明自然界是存在可以对付此类噪声的系统的,而如何使得我们的机器( 计算机) 也具有这 样的功能,就是本文要研究的内容。 语音分离按信号混合方式分为线性混合信号分离,卷积混合语音信号分离和非线性混 合语音信号分离。线性混合语音信号分离认为混合信号是各源信号的某种未知线性组合。 在自然语音环境中,由于障碍物的反射和源信号位置的差异,各源语音信号到达麦克风的 时延不同,采集到的混合语音实际上为各源语音信号与房间冲激响应的卷积。但因为时域 上的卷积在频域上可首先转换为乘积,然后进行同态信号处理,转换为线性叠加信号后分 离去除,所以可将时域卷积混合信号转换到频域上,再用线性混合信号分离技术来处理。 故对线性混合语音信号分离问题的研究可以作为卷积混合语音信号分离问题的研究基础。 非线性混合语音信号分离认为混合信号是源语音信号的非线性组合,而在某些环境下也会 南京邮电人学博:卜研究生学位论文第一章绪论 出现非线性混合方式( 例如各源语音信号首先经过一个非线性系统,然后才进行混合) , 但由于非线性模型及非线性参数的复杂性,使得非线性混合语音信号分离算法也更为复 杂。一般情况下,由于不同语音来源不同,在开放的空间中混合多为线性混合方式。目前 的语音分离算法的研究也大多是针对线性混合方式的,本课题研究的单通道混合语音分 离,同样假设属于线性混合语音信号分离范畴。 语音分离按源语音信号数目( 也即说话人的数目) 与采集的混合语音信号数目( 也即 麦克风的数目) 关系,可以分为过定,适定和欠定三种情况。过定情况下,混合语音信号 个数大于源语音信号个数;适定情况下,混合语音信号个数等于源语音信号个数;这两种 情况下的语音分离用盲源分离( b l i n ds i g n a ls e p a r a t i o n ,b s s ) 中的独立成分分析( i n d e p e n d e n t c o m p o n e n ta n a l y s i s ,i c a ) 技术可以很好地解决 1 】【2 】。欠定情况下,混合语音信号个数小于源 语音信号个数,不满足i c a 的条件,需要寻求新的解决方法。本课题所研究的单通道混合 语音分离是欠定情况下的特例,其混合语音信号的个数是最少的( 只有一个) ,即要求从 一个麦克风采集得到的混合语音信号中,分离出彼此独立的多个源语音信号,因己知条件 最少而难度最大。虽然难度很大,但单通道混合语音分离在现实生活中也是有据可依的, 同样可从人耳听觉的“鸡尾酒会”效应得到佐证。设想,在嘈杂的“鸡尾酒会”上,我们 只用一只耳朵倾听,仍然可以很好地听到感兴趣的说话人语音,这就说明了人的听觉系统 对同一信道中传输的两个重叠语音( 即单通道混合语音) ,仍有分离的能力。这是因为人 耳在分离语音信号的过程中,虽然应用了语音信号到达左右耳的时延差异,强度差异及方 位差异,但人耳分离语音不完全依靠时延信息和方位信息,还利用了各源语音信号自身的 特性( 如基频,在时域或其它域投影向量的非零位置等) 及语音这一类信号所具有的特殊 性质。由于不同语音信号自身的特性不同,故可以根据各源语音信号的不同特性来分离混 合语音信号。作者也是主要基于各源语音信号自身的特性,来研究单通道混合语音的分离。 单通道混合语音分离有着广泛的应用场合,例如: 单通道混合语音分离作为一类特殊的语音增强方法,能有效去除目标语音中的类语 音干扰,提高目标语音的质量,可用于通信中串音的去除,电话会议中多说话人同时说话 时对主说话人语音的增强等。 单通道混合语音分离可作为语音识别的预处理步骤,从被其它说话人污染的测试语 音中,提取相对纯净的目标说话人语音,使测试阶段和训练阶段的语音环境更匹配,提高 语音识别在类语音干扰噪声环境下的鲁棒性。 单通道混合语音分离可用于助听器的设计上。在有两个或两个以上的说话者存在的 2 南京邮电大学博上研究生学位论文 第一章绪论 条件下,有听力障碍的人往往很难把注意力集中到某一个人身上。可以利用单通道混合语 音分离技术,对特定的源语音信号进行增强,使得人们可以清楚地昕得想要与之交流的说 话人的声音,而不会受到其它外来声音的干扰。 由于一个麦克风是最容易布设也是最常用的,所以单通道混合语音分离技术如果可 以突破,则具有的实际应用价值最大。 1 2 单通道混合语音分离的研究现状 早在上世纪七八十年代,人们就对单通道混合语音分离进行了研究。早期的单通道混 合语音分离技术大多基于语音的基频分离和增强。1 9 7 0 年s h i e l d s 提出了用梳状滤波器通过 目标说话人的谐波成分来实现单通道语音分离 3 】。1 9 7 6 年p a r s o n s 对含元音的语音分离进行 了研究,先由混合语音确定各源语音的基频,再用谐波选择算法将混合语音分割为很多部 分,每部分分属于各说话人,最后将属于各目标说话人的部分组合起来,得到分离后的语 音【4 】。1 9 8 4 年,h a n s o n 提出了基于干扰语音谐波幅度抑$ 1 j ( h a r m o n i cm a g n i t u d es u p p r e s s i o n ,屯 h m s ) 实现目标说话人语音的增强,主要分为两部分:干扰语音预测部分和干扰语音去除- 部分。其中干扰语音预测部分通过提取干扰语音基频处的短时幅度谱实现,干扰语音去除“ 部分通过谱减法实现【5 】。1 9 8 7 年l e e 在h a n s o n 的基础上进行了改进,先用h m s 实现语音信 号的初步分离,再用多信号最小交互熵频域分析( m i n i m u mc i o s s e n t r o p ys p e c t r a la n a l y s i s , m c e s a ) 方法对原有的分离信号进行了调整,使得与混合语音的自相关信息相一致【6 】。1 9 8 8 年m i n 提出通过可变帧长的正交变换和频谱匹配的方法进行混合语音的分离,先通过基频 检测来确定合适的帧长,再通过语音检测技术,判断该帧的语音是只包含一个源说话人的 还是包含多个源说话人的,然后将属于各源说话人的语音频谱部分分别组合,得到各源说 话人的语音信号,最后再通过后处理降低高频部分的噪声【7 】。 九十年代后,单通道混合语音分离得到了更深入的研究,主要有三类方法:基于统计 模型的单通道混合语音分离方法,计算机听觉场景分析( c o m p u t a t i o n a la u d i t o r ys c e n e a n a l y s i s c a s a ) 和基于投影分解的单通道混合语音分离方法。详细介绍如下。 1 2 1 基于统计模型的单通道混合语音分离方法 基于统计模型的单通道语音分离方法与基于统计模型的单通道语音降噪方法原理上 很相似,都是建立在对信号训练建模基础上的,不同点是语音分离中处理的噪声对象( 即 3 南京邮电大学博士研究生学位论文第一章绪论 干扰语音) 与目标语音有着相似的统计特性,而一般语音降噪处理中的噪声与语音的统计 特性不同。基于统计模型的单通道混合语音分离方法通常分为三步:第一步,对各源语音 信号或其特征参数建模,通过训练确立各源语音信号模型的参数;第二步,以混合语音信 号和源语音信号模型为已知条件,根据合适的准则,选择源语音信号中的若干成分来最优 地组成混合语音信号;第三步,由选取的各源语音信号成分直接组成分离后的各源语音, 或者先形成相应的滤波器,再预测出各源语音信号。其中,由混合语音信号和源语音信号 模型预测分离语音的方法有广义维纳滤波算法,掩蔽算法等 8 】 9 】 1 0 】【1 1 】,一般是由最大 后验概率( m a x i m u m ap o s t e r i o r , m a p ) 准则,最大似然( m a x i m u ml i k e l i h o o d ,m l ) 准则,最 小均方误差( m i n i m u mm e a ns q u a r ee r l o r ,m m s e ) 准则等得到的。掩蔽方法是一类很重要的 预测方法,主要思想是抑制混合语音中的不可靠成分,将混合语音中的可靠成分转化得到 感兴趣的目标说话人语音。掩蔽分为两类,一类为硬掩蔽 9 】,混合语音的某一子带成分 只能分配给某一个源语音信号,不能同时分配给多个源语音信号;一类为软掩蔽 1 0 】 1 1 】, 分离的目标语音为混合语音的各子带成分的加权,权值为0 - 1 。由于各源语音信号不可能 完全不重叠,故软掩蔽算法性能要优于硬掩蔽算法。 源语音信号的模型主要有高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 及其变形或扩 展,隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) ,潜在d i r e c h l e t 分解模型等。g m m 具 有一般性,对音频信号广泛适用,基于g m m 的语音分离和音乐分离都取得了不错的效果 1 2 1 3 。b e i e r h o l m 采用一维零均值的g m m 对各源语音信号的离散余弦变换( d i s c r e t c o s i n et r a n s f o r m ,d c t ) 系数建模 1 4 1 。由于不同时段的语音可能形状相同,只是幅度不同, 若用g m m 建模,则要用很多的高斯成分来描述这些不同幅度的语音段。b e n a r o y a 针对 这一问题,提出用高斯分级混合模型( g a u s s i a ns c a l e dm i x t u r em o d e l ,g s m m ) 对源语音信号 建模 1 5 】。k a m e o k a 针对单个语音谐波成分,用t i e d g m m 建模,t i e d g m m 的均值参数 为基频和一维变量之和 1 6 1 。r o w e i 对各源语音信号的短时傅立叶变换( s h o r t t i m ef o u r i e r t r a n s f o r m ,s t f t ) 系数分别用h m m 建模 1 7 】。r e y e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论