(信号与信息处理专业论文)智能环境下基于音视频特征融合的多说话人跟踪研究.pdf_第1页
(信号与信息处理专业论文)智能环境下基于音视频特征融合的多说话人跟踪研究.pdf_第2页
(信号与信息处理专业论文)智能环境下基于音视频特征融合的多说话人跟踪研究.pdf_第3页
(信号与信息处理专业论文)智能环境下基于音视频特征融合的多说话人跟踪研究.pdf_第4页
(信号与信息处理专业论文)智能环境下基于音视频特征融合的多说话人跟踪研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(信号与信息处理专业论文)智能环境下基于音视频特征融合的多说话人跟踪研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 摘一要 近年来,随着远程视频会议系统以及自动会议分析系统的发展,智能环境下 说话人跟踪问题已成为人机交互领域的研究热点,它在以人为基础的普适计算、 视频会议系统以及机器人导航等领域都有着广泛的应用。随着当前自动会议分析 系统的发展,以往基于麦克风阵列与基于计算机视觉的单模态跟踪技术已无法满 足复杂条件下对说话人跟踪系统整体精确性与鲁棒性的需求。基于此,本文就智 能环境下音视频多特征融合的多说话人跟踪方法方法展开了深入的研究,主要取 。得的研究成果如下: ( 1 ) 针对粒子滤波算法在说话入跟踪系统中的广泛应用,本文对粒子滤波算 法展开了深入的研究。考虑到一般系统状态的转移概率密度函数无法实现最新量 测信息的实时更新,容易导致权值退化问题的出现,本文采用有限中心差分的方 法对系统的重要性概率密度函数进行迭代更新,并通过引入噪声信息差值的方法, 对系统的采样粒子数进行在线调整,实现了粒子采样的实时更新,一定程度上克 服了粒子采样的权值退化问题。 ( 2 ) 针对基于麦克风阵列的说话人跟踪问题,本文提出了一种基于自适应有 限差分粒子滤波的说话人定位跟踪方法,该方法将自适应差分粒子滤波引入到声 源定位跟踪系统,实现了低信噪比与强混响环境下说话人的鲁棒跟踪问题。 ( 3 ) 针对基于计算机视觉的人体头部跟踪问题,本文考虑采用人体头部的颜 色和椭圆轮廓的最大梯度距离测度( d m g ) 信息作为特征观测量,在d s 证据理 论的框架内实现了同类信息的融合处理,有效避免了基于单一颜色特征在光照突 变、姿态变化以及背景相似等情况下的跟踪稳定性较差的问题,一定程度上提升 了人体头部跟踪的精确性和鲁棒性。 ( 4 ) 最后,本文在自适应有限差分粒子滤波算法的整体框架内,提出了一种 基于音视频特征融合的多说话人跟踪方法,该方法在充分分析多个说话人动态运 动模型规律的基础上,建立了基于滤波理论的状态方程和系统的观测模型,并实 现了智能环境下音视频特征融合的多说话人跟踪问题。 关键词:音视频融合;说话人跟踪;麦克风阵列;头部跟踪;粒子滤波 本文研究工作受甘肃省自然科学基金( n o 1 0 1 0 1 l i z a 0 4 6 ) 资助。 智能环境下基于音频视频多特征融合的多说话人跟踪研究 a bs t r a c t i nr e c e n ty e a r s ,w i t ht h ed e v e l o p m e n to ft h er e m o t ev i d e oc o n f e r e n c es y s t e ma n d a u t o m a t i ca n a l y s i ss y s t e mo ft h em e e t i n g ,s p e a k e rt r a c k i n gu n d e rt h ei n t e l l i g e n t e n v i r o n m e n th a sb e c o m et h ef o c u sp r o b l e mi nt h ef i e l do f h u m a n - c o m p u t e ri n t e r a c t i o n s p e a k e rt r a c k i n gh a v eaw i d er a n g eo fa p p l i c a t i o n si nt h ep e r v a s i v ec o m p u t i n g s y s t e r m 、v i d e oc o n f e r e n c es y s t e ma n di n t e l l i g e n tr o b o tn a v i g a t i o ns y s t e m w i t ht h e d e v e l o p m e n to fa r t i f i c i a li n t e l l i g e n c et e c h n o l o g y , s p e a k e rt r a c k i n gs y s t e mw h i c hb a s e d o nm i c r o p h o n ea r r a yo rc o m p u t e rv i s i o nc a nn o tm e e tt h ea c c u r a c yr e q u i r e m e n to ft h e t r a c k b a s e do nt h i s ,t h i sp a p e rm a i n l yr e s e a r c hm u l t i p l es p e a k e rt r a c k i n gu n d e rt h e i n t e l l i g e n te n v i r o n m e n tw i t ha u d i o v i s u a lf e a t u r e s f u s i o n a n dm a i n l ym a d et h e f o l l o w i n gs e v e r a la s p e c t so ft h er e s e a r c hr e s u l t s : ( 1 ) s p e a k e rt r a c k i n gs y s t e mh a sat y p i c a ln o n l i n e a rf e a t u r e i nt h ev i e wo ft h e w i d e l ya p p l i c a t i o n so ft h ep a r t i c l ef i l t e ra l g o r i t h mi nn o n l i n e a rn o n g a u s s i a ns y s t e m , t h i sp a p e rr e s e a r c ho nt h ep a r t i c l ef i l t e ra l g o r i t h mf o rf u r t h e r w ek n o wt h a tt h es t a t e t r a n s i t i o n p r o b a b i l i t yd e n s i t y f u n c t i o nc a n ta c h i e v et h el a t e s tm e a s u r e m e n t i n f o r m a t i o nu p d a t i o n ,a n de a s i l yc a u s et h ep h e n o m e n o no ft h ew e i g h t sd e g r a d a t i o n 。 t h i sp a p e ra d o p t e dt h ef i n i t ec e n t e rd i f f e r e n c em e t h o dt ou p d a t et h ep r o b a b i l i t yd e n s i t y f u n c t i o na n di n t r o d u c e dt h ev a l u e so ft h ei n f o r m a t i o ng a pn o i s e t h en u m b e ro f p a r t i c l e sc o u l du p d a t er e a l - t i m ea n dw a sw e l lt oo v e r c o m et h ep h e n o m e n o no ft h e w e i g h t sd e g r a d a t i o n ( 2 ) t h i sp a p e rp r o p o s e dan e wk i n do fp a r t i c l ef i l t e rm e t h o db a s e do nf i n i t e d i f f e r e n c et ol o c a t ea n dt r a c ks p e s k e rb a s e do nt h em i c r o p h o n ea r r a y t h i sm e t h o d i n t r o d u c e dt h ea d a p t i v ef i n i t ed i f f e r e n c ep a r t i c l ef i l t e ri n t os p e a k e rt r a c k i n gp r o b l e m , a n dg o tt h er u b u s tr e s u l t si nt h el o ws i g n a l t o - n o i s e ( 3 ) h e a dt r a c k i n gb yu s i n gs i n g l ef e a t u r er e s u l t si nap o o rp e r f o r m a n c ei n r o b u s t n e s s t os o l v et h i sp r o b l e m ,a nh e a dt r a c k i n gm e t h o db a s e df u s i n gm e a s u r e m e n t s o fh e a db yu s i n gd se v i d e n c et h e o r y t h ep r o p o s e dm e t h o du s e st h ec o l o ra n d d i s t a n c et om a x i m u mg r a d i e n tp o i n t ( d m g ) f e a t u r e sa st h eo b s e r v a t i o nm o d e l ,a n d e f f i c i e n t l y a v o i d st h eu n s a t b l e p r o b l e m s v i a u s i n gs i n g l e c o l o rf e a t u r ei nt h e i l l u m i n a t i o no fm u t a t i o n ,p o s t u r ec h a n g e ,g r e a t e rd i s t a n c ea n ds i m i l a rb a c k g r o u n d ( 4 ) a tl a s t ,t h i sp a p e rp r o p o s e dan e wk i n do fs p e a k e r st r a c k i n gm e t h o dw h i c h b a s e do na u d i o v i s u a lu n d e dt h ea d a p t i v ef i n i t ed i f f e r e n c ep a r t i c l ef i l t e rf r a m e t h i s m e t h o de s t a b l i s h e dt h ed y n a m i cm o v e m e n tm o d e la n dt h es y s t e mo b s e r v a t i o nm o d e l n 硕士学位论文 _ _ l i | l _ l i l 自_ _ _ e 目目= 墨_ | 目l 目_ _ l 目_ = 目_ 目l i t 自= 目_ l l _ _ _ _ _ - 目_ l _ j l 目i i _ 目目- l i 目_ 目目寡- _ 自_ b a s e do nt h et h e o r yo ff i l t e r i n gb yt h et h ef u l la n a l y s i st ot h ed y n a m i cm o v e m e n t m o d e ld i s c i p l i n e t h i sp a p e rr e a l i z e dt h ea u d i o - v i s u a ls p e a k e r st r a c k i n gp r o b l e mi nt h e i n t e l l i g e n te n v i r o n m e n t k e yw o r d s :a u d i o - v i s u a lf u s i o n ;s p e a k e rt r a c k i n g ;m i c r o p h o n ea r r a y ;h e a d t r a c k i n g ;p a r t i c l ef i l t e r t h er e s e a r c ho ft h i st h e s i sw a ss p o n s o r e db yt h en a t u r a ls c i e n c ef o u n d a t i o no fg a n s u p r o v i n c eu n d e rg r a n tn o 1010 1 l i z a 0 4 6 i i i 智能环境下基于音频视频多特征融合的多说话人跟踪研究 插图索引 图1 1 音视频信息相关性、互补性示意图2 图1 2 标准人工智能实验室布局图一2 图1 3a m i 智能会议室功能模型2 图1 4 智能环境下说话人跟踪问题研究项目及相关单位一6 图2 1 重采样的示意图1 6 图2 2 标准的粒子滤波算法框图一:1 7 图2 3 系统状态估计”2 1 图2 4 均方根误差曲线2 l 图2 5 系统状态估计”2 2 图2 6 均方根误差曲线2 2 图3 1 模拟冲激响应归一化幅值分布一2 5 图3 2 智能会议室布局图2 8 图3 3 试验中采用的语音信号2 8 图3 4x 轴上跟踪曲线2 9 图3 5y 轴上跟踪曲线2 9 图3 6 说话人跟踪序列3 0 图3 7 实际说话人跟踪实验的均方误差跟3 0 图4 1 人体头部椭圆模型d m g 测度示意图”3 5 图4 2 跟踪结果3 8 图4 3 实验一均方误差根曲线3 9 图4 4 跟踪结果3 9 图4 5 实验二均方误差根曲线4 0 图5 1 信息融合四级功能模型4 2 图5 2 多源异类信息融合系统构架图4 4 图5 3 实验中智能会议室的平面布局图4 8 图5 4 简单场景下音视频联合的单说话人跟踪一4 9 图5 5 简单场景下音视频联合的多说话人跟踪结果4 9 图5 6 视觉杂波背景下音视频联合的单说话人跟踪结果5 0 图5 7 视频杂波背景下融合跟踪与基于视频跟踪的结果5 0 i v 硕十学位论文 附表索引 表1 1 基于音视频信息融合的说话人跟踪方法7 表2 1 均方误差根的均值与方差2 2 表2 2 均方误差根的均值与方差2 2 v 硕士学位论文 第1 章绪论 近年来,随着“智能家居 、“汽车辅助驾驶系统 以及远程视频会议系统、 自动会议分析系统的发展,智能环境下说话人跟踪问题逐渐成为人机交互领域的 关键技术和研究热点,该技术在普适计算、智能会议分析系统以及智能机器人导 航等领域都具有较为广泛的应用【2 】。例如,在以人为基础的普适计算的智能空间内, 各种信息的普适交互,需要准确定位说话人的位置信息;在智能会议系统当中, 说话人位置的准确定位,可以指引摄像机的转向,获取当前说话人高质量的视频 序列,同时,可以通过调整麦克风的指向来获取高精度、高信噪比的语音信号, 为下一步的语音信号分析等研究做好铺垫。 1 1 课题的研究意义 目前,说话人跟踪技术主要以单模态信息的支撑为基础,概括起来可以描述 为基于麦克风阵列的声源定位技术【3 - 1 0 】以及基于机器视觉的视频跟踪技术【l 卜1 3 j 。这 种利用单模态信息进行定位跟踪的方法只能在特定的条件下才能获得理想的跟踪 效果,无法满足当场景变化较为复杂的动态变化环境下的跟踪要求。例如,基于 麦克风阵列的说话人定位跟踪系统不受视觉杂波的影响,并且具有全方位定位能 力,而且在说话人被其他物体完全遮挡的情况下仍然可以实现有效的定位跟踪, 但是该系统空间分辨率较低,受环境噪声影响较大,长时间的房间混响以及机器 噪声都有可能影响系统定位跟踪的精度;基于计算机视觉的跟踪系统不受音频噪 声信号的影响,但是当说话人位于视角之外时,则无法进行有效跟踪,而且,单 独的视觉跟踪系统容易受到光照突变、姿态改变以及遮挡等情况的影响。 因此, 如何提高场景不断变化以及说话人不断变化等复杂背景及强干扰情况下说话人跟 踪系统的准确性和鲁棒性,目前,已经成为当前迫切需要解决的问题。特别是在 多个说话人参与的场景,由于说话人之间的语音重叠以及视频遮挡等因素的出现, 进一步增强了说话人跟踪的难度。如何准确的建立多个说话人的动态模型,并给 出合理的观测模型是研究智能环境下多个说话人跟踪问题的基础和前提。 近年来,随着多源信息融合理论的发展,研究人员在充分模拟人脑对视觉信 息与听觉信息综合处理方法的基础上,利用音视频信息的时空相关性和互补性( 如 图1 1 所示) 进行异类信息融合跟踪,较好地克服了单模态情况下的不足【l 刁1 4 。3 引, 有效提高了说话人跟踪系统的精确性和鲁棒性,该方法已经成为该领域的研究热 点问题之一。基于音视频异类信息进行融合处理的技术涉及到现代信号处理、现 代控制理论、计算机视觉、语音信号处理以及多源信息融合理论等多个学科领域, 是一个跨学科的挑战性研究课题。因此,本文的研究对推动我国人机交互技术的 智能环境下基于音频视频多特征融合的多说话人跟踪研究 发展具有一定推动作用。本文的研究成果将直接提升我国远程会议系统以及自动 会议分析系统的应用水平,具有重要的应用前景和社会价值。 覃刚 | | 蟀 l :二兰量重三当i 】 。“。“”1 o 一齑提频豆朴信息 一1 图1 1 音视频信息相关性、互补性示意图图i 2 标准人工智能实验室布局图 1 2 智能环境下说话人跟踪技术的主要难点 所谓智能环境【3 】是指一个布置了各种传感器的室内环境( 如图1 2 所示) ,该 实验室为当前国际展开智能环境下音视频融合跟踪技术的标准环境。在这个环境 中,人们可以进行各种自由交互活动,并且该环境能够主动为用户提供各种各样 的服务,进行人机的自然交互,促使人们的活动进行的更加方便有效,而其中最 基本的任务就是说话人位置的精确定位和跟踪。 图1 2 所示的智能环境是a m i 感知人工智能实验室布局图,该实验室为当前 进行音视频信息处理基础研究的标准智能环境,桌面上的两个圆形物体分别是由8 个相同的麦克风等距离组成的两个圆形麦克风阵列,其具体直径为2 0 c m ;房间大 小为8 2 0 c m x 4 3 0 c m x 2 4 0 c m ,会议中使用的桌面大小为4 8 0 e m x l 2 0 e m ;墙壁上分别 嵌入有获取说话人视频信息的固定摄像机,其平面布局图如图1 3 所示。该环境内 配置的各种传感器( 通常情况下主要包括摄像机与麦克分阵列) 为人机交互技术 和智能会议分析系统的研究提供基础语料来源,其主要功能如图1 4 所示。 图1 3 智能会议室平面布局图图1 4 a m i 智能会议室功能模型 在智能环境下,通过麦克风阵列和摄像机获取说话人的音频和视频信息,在 后续的研究中对音视频信息进行有效处理,目前基于音视频特征开展的研究主要 2 硕十学位论文 包括人脸识别、语音识别、情感分析等等,所有这些最基本的任务就是对说话人 的位置信息进行有效的定位和跟踪。 尽管在合作场景( 场景中总人数与说话人个数不变) 下对既定说话人各种活 动的跟踪任务目前可以很容易的实现,但是在非合作场景( 场景中总人数与说话 人个数均变化) 下对说话人进行有效跟踪仍然面临着很多挑战,特别是在复杂环 境下,如何利用说话人语音信号与视频信号之间的互补性和相关性( 如图l 所示) 进行多说话人跟踪问题。概括起来讲,主要有以下三个方面的难点: 。 1 ) 运动模型的建立。建立合理的说话人运动模型,是进行说话人跟踪研究中 首要解决的问题,目前研究中已建立的模型基本上是以合作场景为前提的单说话 人运动模型,但是当场景中存在多个说话人的时候,通常会发生视觉交互和音频 重叠现象,同时,由于说话人数目的不断变化导致运动模型的状态参量也在不断 变化,在这种情况下,要实现说话人的精确跟踪必须要通过说话入的个数实时判 定来实时更新系统模型,但是这种自适应交互模型的建立是一个很复杂的问题。 2 ) 滤波方法的选取。说话人跟踪系统是典型的非线性系统,随着说话人个数 的增加,系统的维数也在增加,如何在高维度非线性系统中采用有效的滤波方法 也是一个比较困难的问题。 ” 3 ) 融合规则的确定。目前,音视频异类信息的融合方法主要有乘性融合和加 性融合两种。乘性融合使目标的概率分布变得更加尖锐,虽然增强了概率密度的 鉴别能力,但是却抑制了状态分布的多峰性,放大了系统的噪声;加性融合是采 用特征权值加权求和的方法给出目标系统最终的权值调整因子,虽然消弱了噪声 对系统估计的影响,但是跟踪效果的可信度没有太大的改变。如何针对当前融合 方法的不足,探索异类信息的自适应融合方法也是一个急需解决的重要问题。 由以上三点可以看出,智能环境下音视频联合的多说话人跟踪问题的研究具 有一定的挑战性,特别是本课题拟解决的复杂环境下多说话人跟踪问题,无论是 模型的选择、还是高维非线性滤波方法和音视频异类信息融合方法的研究,对人 工智能技术的发展都具有较大的推动作用。因此,该课题的顺利开展,对我国远 程会议系统以及自动会议分析系统技术的发展具有重要的推动作用。 1 3 国内外研究现状 智能环境下基于音视频特征融合的多说话人跟踪问题是一个多学科交叉的前 沿性研究课题,涉及到现代信号处理、多生物信息技术、信息融合技术等多个学 科领域。在过去的几十年里,研究人员进行了许多探索性的研究。 2 0 世纪7 0 年代,国外就开始了合作场景下说话人跟踪技术的研究,但是早期 的研究主要是基于麦克风阵n t 4 - 1 0 或者是基于摄像机【1 1 m 】的单模态跟踪技术,虽然 在一定程度上取得了成功的应用,但是这种单模态的特征具有很大的局限性。例 3 智能环境下基于音频视频多特征融合的多说话人跟踪研究 如,音频跟踪在语音检测中具有很好的效果,但是,音频跟踪的空间分辨率较低; 而且j 音频信号受环境噪声的影响较大,房间混响、相关性干扰噪声都会导致定。 位精度的大幅降低;视频跟踪受摄像机视角的限制,当说话人位于视角之外时, 则无法判断摄像机的下一步指向,而且单模态的视频跟踪技术容易受光照突变、 姿态改变以及物体遮挡等情况的影响;同时,计算量也很大。 随着多源信息融合技术的发展,研究人员在人脑感知机理的基础上,发现说 话人的语音信号与视频信号具有很强的互补性和相关性。互补性主要体现在音频 信息具有全方位特性,但其定位精度较差;视频信息的获取虽然受到摄像机视角 的限制,却可以提供精确的定位信息。另外,视频信息不受背景噪声以及房间混 响等声学环境的影响,音频信息则与视觉场景的复杂度无关。相关性体现在说话 人语音与唇动信息之间具有相关性以及圆形麦克风阵列之间的时延与图像中人脸 的位置的相关性。这种利用说话人音频信号与视频信号之间的时空相关性和互补 性( 如图1 1 ) 进行异类信息融合跟踪,较好地克服了单模态情况下的不足【i - 3 , 1 4 - 3 0 l , 有效提升了说话人跟踪系统的精确性和鲁棒性。 2 0 世纪9 0 年代,y a n g 等人首次提出了合作场景下音视频联合的单说话人跟 踪框架,立足于摄像机的核约束和音频信号的互相关系数展开研究,采用基于肤 色的人体与脸部跟踪,语音检测与定位,以及音视频识别技术【l4 1 。但是这种融合 方法仍然只是概念意义上的框架水平,并且研究假定融合线索在各点都是可以及 时得到的,这限制了它的具体应用。徐光佑【3 】以i m p o r t a n c ep a r t i c l ef i l t e r 为融合工 具,首先通过跟踪结果单独提取先验概率分布进行采样,然后通过音、视频融合 的观察模型计算样点权值,实现了合作场景下前台固定说话人的有效跟踪。d b j a y a g o p i 1 9 】等人在多摄像机和多麦克风的智能环境下分别运用音频信号、视频信号 和视听融合信号对多人会议中最主要说话人的估计进行了十分细致的研究,提出 了一套系统的完全自动的基于语音信号的最主要说话人估计模型。他们分别采用 了同类信息融合和异类信息融合原理对音视频信息进行处理,然后分别估计出最 主要的说话人,达到了很高的准确率。但是该实验也存在着较大的不足:首先, 实验中假设参会人始终都坐在自己的位子上,不会出现位置的移动,所以实验没 有涉及说话人位置移动后的跟踪和定位问题;其次,实验要求提取高信噪比的音 频和视频信号,而实际会议中的视听信号不一定满足此条件。在随后的研究中, k e n ib e m a r d i n 等人将贝叶斯推理论与非线性滤波方法相结合,提出了合作场景下 真正实用的说话人融合跟踪系统【2 袍8 1 。金乃高【1 6 】利用摄像机、麦克风两种异类传 感器提取说话人的音频与视频信息,通过动态的贝叶斯网络实现了复杂背景下基 于视听信息融合的说话人定位与跟踪。最后,将声源定位方法、人脸跟踪方法以 及基于动态贝叶斯网络的视听联合说话人跟踪方法进行了比较,实验表明,基于 动态贝叶斯网络的视听联合说话人跟踪方法效果较好。 4 硕士学位论文 但是以上研究均是在合作场景下进行,对传感器数目和说话人运动的范围均 有限制,并且要求传感器保持较高精度的校准水平,这些都限制了说话人跟踪系 统的应用。随着滤波技术的发展,研究人员大量的研究工作均是探索建立合理的 说话人运动的状态空间模型,随着场景复杂度的延伸,状态空间的复杂度也就相 应的增强。麻省理工大学的n c h e c k a 3 1 】首次建立了完整的状态空间模型,将说话 人的运动信息和语音信息作为状态变量,在粒子滤波框架内进行推理跟踪,在严 格限定的场景下初步实现了2 个说话人的交互跟踪,但是该模型存在严格的缺陷, 对于参与者的出现和消失无法检测,再视频交互和音频重叠情况下,容易导致跟 踪失败。在此基础上,d g a t i c a 和g l a t h o u d 3 2 】将说话人语音活动检测和说话人头 部椭圆形状以及运动情况作为观测模型,并通过先验马尔科夫随机场进行概率传 播,较好地实现了3 个以下说话人的有效跟踪,但是该模型的在人数切换过程容 易导致跟踪失败,从新跟踪需要手工初始化。针对此问题,文献 3 3 】将音频信息与 说话活动分开处理,分别作为两种不同的状态信息进行处理,较好地解决了音频 杂波的问题,在多人环境下实现了说话人的自由切换和跟踪。但是该方法只能实 现一个说话的跟踪,当多个人同时说话时,会出现错误跟踪的情况。 多说话人跟踪系统滤波算法的关键就是实时性。自从粒子滤波算法在说话人 跟踪系统中获得广泛的研究和应用之后,研究人员就开始在该算法的框架内进行 非合作场景下的说话人跟踪技术研究,随后在粒子滤波算法的基础上又提出了- 一。 些不同的算法。随着说话人数的增加,系统参量维数急剧增加,而当前采用的粒 子滤波算法为了增强系统的鲁棒性和跟踪精度,必须急剧增加采样粒子数,这样 就明显增大了算法的时间消耗,算法实时性丢失。d h o a n g o 3 4 】采用离散特征信息。 的方法,将特征状态空间按照固定的迭代步数进行离散化处理,一定程度上提高 了算法的实时性,但是当说话人个数超过3 时,系统的跟踪精度明显变差;在此 基础上,文献 3 5 】充分利用多源信息的互补性,在动静态特征融合处理的基础上, 进行状态空间的离散采样,实现了多说话人多特征融合的有效跟踪,但是该算法 依然没有从本质上解决系统维数对滤波时间消耗的影响。基于此,t s h i v a p p a p 6 j 采用隐马尔科夫( h m m ) 模型与t u r b o 编码相结合的方法,进行目标假设推理的 方法,提出了一种多级迭代解码( m u l t i l e v e li t e r a t i v ed e c o d i n g :m i d ) 算法,在保 证高滤波精度的同时,很好地解决了算法的实时性问题。虽然m i d 算法在处理高 维系统滤波问题时具有较强的鲁棒性和较地的时间消耗,但是它在解码过程中要 求系统的状态必须符合高斯分布;而且,在解码初期,必须针对特定的环境进行 人为的初始化训练,这些都需要进一步的研究和改进。 音视频多特征融合跟踪属于异类信息的融合,其融合规则的好坏直接影响最 后的跟踪效果。目前采用的融合方法主要有两种【1 2 】:加性融合与乘性融合。这两 种融合方法虽然提升了系统的跟踪精度,却在一定程度上消弱了融合效率:加性 智能环境下基于音频视频多特征融合的多说话人跟踪研究 融合按照不同特征的可信度调节各特征权值系数,然后通过加权求和的方式获得 总的特征权值,该方法对噪声不敏感,但是不能提高融合跟踪的可信度;乘性融 合采用特征权值乘积的形式给出多个特征的联合分布情况,它能有效提高跟踪精 度,但是存在放大噪声的缺点。针对这些缺陷,文献 3 7 】提出了一种基于d s 证据 理论的自适应融合方法,有效提升了融合效率,但是在说话人增加的情况下,该 方法计算量太大。在此基础上,顾鑫等【3 8 】提出了一种自适应融合方法,其融合精 度明显高于加性融合与乘性融合,但是该方法要严格限制系统的初始状态,并且 需要传感器的精确校准。 图1 4 智能环境下说话人跟踪问题研究项目及相关单位 系统整体性能指标是评价一个完整系统的标准。目前,说话人跟踪系统普遍 采用的评价指标只有一个:系统的跟踪误差。3 礅 3 8 4 0 将跟踪率( t r a c k i n gr a t e : t r ) 、成功率( s u c c e s sr a t e :s r ) 等因子作为说话人跟踪系统的评价指标进行了定 义,但是这些指标无法量化一个完整系统的整体指标。在实际的跟踪系统中,系 6 硕+ 学位论文 统的初始化时间及初始化精度与跟踪误差之间的关系、传感器校准率以及系统的 时间消耗等因子均可以作为量化指标进行综合考虑。 纵观当前国内外对智能环境下说话人跟踪方法的研究,其具体的方法和进展 可以概括为如表1 1 所示。其相关的研究项目和研究单位如图1 4 所示,其中图1 4 中的a m i 项目的数据库是本文研究的数据来源。 表1 1 基于音视频信息融合的说话人跟踪方法 阵列 融合方法场景复杂度算法模型时间 摄像机麦克风 特征最邻近法 l2 单人场景核几何约束 1 9 9 9 权重平均 23 单说话人空间概率映射( s m p ) 2 0 0 1 无权重特征加权 l2跟踪 基于p f 的概率模型 数据关联的最邻近方法 l 4 核几何约束 生成规则 21 4 2 0 0 2 重要性采样和生成规则 21 4 多人场景 2 0 0 3 单传感器权重叠加 52 单说话人 基于p f 的概率模型2 0 0 4 生成规则21 6跟踪,到 无权重特征加权 4 1 2多入场景2 0 0 5 序贯状态更新 41 6多说话人 迭代扩展k a l m a n 无权重特征加权2 1 4跟踪m c m c p f2 0 0 7 多级迭代解码( m i d ) 28基于m i d 的h m m 模型2 0 l o 重要性采样 41 6 基于p f 的概率模型 2 0 l l 综上所述,可以看出近2 0 年来,国内外对智能环境下的说话人跟踪问题展开 了广泛的研究,总体而言,当前的研究主要局限于合作场景中说话人跟踪问题以 及非合作场景中说话人运动状态的近似描述,而对于非合作场景下多说话人的研 究目前少有涉足。特别是当说话人视频上互相遮挡、语音上相互重叠时,现有的 状态模型均无法实现连续有效的跟踪。 1 4 本文主要研究工作及组织结构 针对智能环境下音视频多特征融合的说话人跟踪问题,本文主要开展了以下 几项研究: 1 ) 说话人跟踪系统具有典型的非线性,由于粒子滤波算法在非线性系统中表 现出了很好的滤波性能,因此,本文在粒子滤波算法的基础上采用系统滤波的方 法对说话人运动轨迹进行跟踪,通过分析系统特性,寻找优选的建议分布函数, 7 智能环境下基于音频视频多特征融合的多说话人跟踪研究 探索说话人跟踪系统中的高精度粒子滤波方法; 2 ) 深入研究了基于麦克风阵列的说话人定位跟踪方法,采用基于联合波束 相位形成( s r p p h a t ) 定位方法进行基于滤波方法的说话人定位跟踪研究,很好 地克服了房间混响以及环境噪声的影响,在提出的自适应有限差分粒子滤波框架 内实现了基于音频信号的说话人跟踪问题; 3 ) 充分考虑到人体头部颜色特征以及椭圆轮廓特征的稳定性,将颜色直方图 与椭圆轮廓的最大梯度距离测度( d i s t a n c et om a x i m u mg r a d i e n tp o i n t ,d m g ) 特征 作为观测模型进行粒子权值更新,在粒子滤波框架内实现了基于视频多种同源信 息融合的人体头部跟踪方法,并将d s 证据理论引入到基于不确定同源信息的多 特征融合系统中,进行有效的信息融合处理,实现了基于d s 证据理论多特征融 合的人体头部跟踪; 4 ) 建立完整的多说话人运动模型,并在本文提出的新算法的框架内实现多说 话人的有效跟踪,给出跟踪系统的指标。针对这些研究问题,本文的具体安排如 下: 第一章:为绪论部分,给出了智能环境的定义,并详细介绍了智能环境下音 视频融合跟踪说话人跟踪的研究意义、研究现状及存在的问题。最后,针对当前 研究中存在的问题,给出了本文的具体研究内容。 第二章:介绍粒子滤波算法原理,深入分析影响粒子滤波算法的因素,以探 索优选的建议分布函数为出发点,提出了一种新型的自适应有限差分扩展卡尔曼 粒子滤波算法,并对概算法的滤波性能进行仿真分析,给出仿真结果。 第三章:分析了基于麦克风阵列的说话人定位跟踪问题的原理,对比分析了 音频信息各种定位特征的优缺点,选择联合相位变换波束形成输出能量作为音频 观测特征,在本文提出的自适应粒子滤波框架内实现了基于麦克风阵列的说话人 定位跟踪技术的仿真与实际实验。 第四章:立足于计算机视觉技术,深入分析了当前用于视频目标跟踪的主要 方法,以基于特征跟踪的方法为切入点,对比分析了各种特征对于跟踪精度的影 响,在粒子滤波算法的框架内,实现了基于视频同源多特征融合的人体头部跟踪, 并给出实际的实验结果和分析。 第五章:基于音视频信息的互补性与相关性,初步建立了可以实现有效跟踪 的多说话人运动模型,并将该模型运用于粒子滤波框架内,提出了基于有限差分 粒子滤波的多说话入跟踪方法,并将最后的仿真结果与当前存在的方法以及基于 音、视频单模态的方法进行了对比,给出了系统的整体评价。 最后,对全文的研究进行了总结,同时给出了本文研究中存在的不足以及该 技术下一步发展的方向和展望。 8 硕士学位论文 - _ _ - | - 目目e _ _ _ _ _ = = e j 目目_ 目_ | l 目= 皇s e 自e = = 自= = = ! ! = ! ! ! = l 目目= = 目! 自= 目e 目= - 目_ _ i _ _ _ _ _ _ _ _ _ _ i i 1 5 本章小结 , , 本章详细介绍了该文研究的背景及意义,并初步给出了智能环境的概念。以 合作场景与非合作场景为背景,给出了智能环境下音视频联合的说话人跟踪技术 的研究现状。最后,针对当前研究中存在的问题,给出了本文的具体研究内容以 及本文的详细组织结构。 9 智能环境下基于音频视频多特征融合的多说话人跟踪研究 第2 章粒子滤波算法原理 粒子滤波( p a r t i c l ef i l t e r ,p f ) 4 1 】算法的主要思想是利用一系列离散的采样 点集来近似系统的变量的概率密度函数,采用样本均值的方法来代替复杂的几分 运算,进而获得系统状态的最小方差意义下的估计值。由于该算法对非线性、非 高斯系统的高度适应性,最近几年,该算法具有较大的发展,在目标跟踪【4 2 。5 4 1 、 机器视觉【5 5 , 5 6 】等领域均有了较大的发展。本章首先对非线性贝叶斯滤波原理进行 了分析和介绍,接着指出了粒子滤波的来源蒙特卡罗近似计算;其次,详细 介绍了标准粒子滤波算法,重点讨论了重要性概率密度函数的选取;最后,针对 当前粒子滤波算法中存在的权值退化问题,在有限差分计算的思想指导下,提出 了一种自适应有限差分粒子滤波算法,并对该算法的性能进行了综合仿真分析。 2 1 贝叶斯滤波方法 贝叶斯滤波估计算法的本质就是利用已经具有的先验知识来构造系统随机状 态变量的后验概率密度函数,即通过建立有效的预测模型,来获取系统状态的先 验密度信息,再在状态转移的方式下来近似估计系统的状态,通过结合最新时刻 的量测信息来获取系统状态的后验概率密度,在最小均方误差意义下,可以定义 这种滤波为最优的【5 7 】。 假设系统的状态方程和量测方程如下: 蕞2a ( x k 一”w k 一- ) ( 2 1 ) 气= h k ( x a + v k ( 2 2 ) 方程( 2 1 ) 、( 2 2 ) 为研究离散非线性滤波问题通用的表达式,其中无:r 斗r b 是状态向量以一。的非线性方程, w k i ”k 册是高斯过程噪声的离散序列,以和仇,分 别是状态方程中的系统状态和系统噪声向量的维数,n 是自然数集。鬼:r 专尺 是系统状态墨的非线性关系函数,饥,k ) 是观测噪声的离散序列表达式,其中, n 和强,分别是系统观测向量和噪声向量的维数值。 问题可以描述为在给定的观测信息互。的条件下,通过系统状态的有效转移, 有效估计状态向量毛的值,也就是估计系统状态的后验概率密度函数p ( 以i 互。) 。 在通常情况下假设初始状态概率密度函数p ( x oiz o ) = p ( x o ) 是已知的,其中x o 表 示系统的初始状态向量,磊表示量测值的最初信息。按照某个既定的原则,贝叶 斯滤波方法可以通过预测与更新的方法递归地估计出系统的后验概率密度函数 p ( 五i 钆) 。假设k 1 时刻已知系统的状态概率密度函数p ( & 一。iz 蛄一。) ,通式( 2 1 ) 给 1 0 硕士学位论文 出的系统状态模型,我们可以预测出k 时刻系统状态模型的先验概率密度: p ( 五 z i 生- i ) - - - - p ( 赡l 气一。) p ( 毛一。l 刁尘4 ) 呶一。 ( 2 3 ) 在该式中,是采用p ( 气l 五一,钆- - ) 2 p ( l 一) 来描述( 2 1 ) 所体现的一阶马尔可夫 过程。在贝叶斯原则的基础上,我们可以获取系统更新的先验概率知识: 地i z l 舢。) = 剖掣 ( 2 4 ) 其中,计算表达式中的定量p 瓴z i :a - i ) = p ( 乙 x k ) p ( x ki 钆一) 呶主要依赖于由 ( 2 2 ) 和系统量测噪声定义的似然函数p ( z kl ) 。在系统的状态更新公式( 2 4 ) 中,测量值乙主要是作为最新观测信息对系统的先验情况进行有效的修正,进而 得到融入最新量测信息的后验概率密度函数。式( 2 3 ) 和( 2 4 ) 是贝叶斯滤波理 论下最优估计的一般表达式,在通常情况下,该式是无法获得精确的解析形式。 当前,基于该准则确定的滤波方法,均是在一定条件下,满足某种关系获得有限 最优解。 2 2 标准粒子滤波算法 粒子滤波目前己经广泛应用于目标跟踪、信号分析以及经济统计分析等研究 领域。其主要的模拟思想起源于蒙特卡罗模拟思想,通过一系列的采样来获取相 应的后验状态信息。 2 0 世纪4 0 年代,在计算机技术迅速发展的基础山,人们急需要采用一种计算 机模拟的方法来解决很多科学实验中无法用实际实验解决的问题,研究人员试图 采用随机采样的计算方法来模拟积分运算,于是就诞生了蒙特卡罗方法,该方法 已经提出,就在数值积分领域取得了较大的应用,物理研究学家并将该方法应用 到核武器的研制试验中,得到了很好的效果。 2 2 1 蒙特卡罗近似思想 所谓的蒙特卡罗积分就是采用数学期望的计算法方法将系统的某个积分值进 行近似,在抽样粒子求和计算的基础上对系统的最优状态进行滤波估计,其具体 的表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论