




已阅读5页,还剩66页未读, 继续免费阅读
(计算机软件与理论专业论文)虚拟视频卡拉ok合成系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 视频卡拉o k 系统是一种新型的卡拉o k 系统,萌芽于2 0 世纪末期。它通过 演唱者在卡拉o k 碟中的画面与摄像头拍摄其演唱的画面之间进行切换,将演唱 者置入进屏幕中。由于切换后的画面呆板,形式单调;加上采用硬连电路实现, 成本较高,故得不到广泛推广。 本文立足于视频卡拉o k 系统不足之上,发明了一种崭新的娱乐系统虚 拟视频卡拉o k 合成系统。 虚拟视频卡拉o k 合成系统意将在网络上不同终端结点但同时演唱同一首歌 的演唱者通过各种图像处理与声音合成技术交互融合后置入同一虚拟舞台背景 中,在演唱者各自的终端上实时显现虚拟合唱的效果。如果选用明星演唱实录作 为虚拟舞台背景,则可使演唱者能看到自己与明星同台演出的虚拟场景,极大地 满足了人们过把明星瘾的欲望。 本文的主要工作包括: 提出一套全新流程:“图像预处理”,“背景建模”,“去除背景”,“连通区域去 噪”,“人像提取”,“人像压缩”对人像提取技术研究,得到了较好的试验结果; 在抠像分析研究工作中,针对背景差分法性能受光照变化十分敏感和帧间差 分法性能受目标运动速度十分敏感的不足,提出了新型的阴影检测背景差分法和 基于参考帧的差分法,并得到了较好的试验结果; 提出了基于m a x t r e e 思想的连通区域分析去噪算法进行人像后处理; 基于h 2 6 4 标准,在原运动搜索算法上提出改进算法缩短了视频编码时间; 采用新型的图像合成算法将抠像技术处理后的人像嵌入到一幅无人像内容的 图像中,试验效果逼真; 采用u p ( u n i f i e dp r o c e s s ) 规范,结合u m l ( u n i f i e dm o d e ll a n g u a g e ) 工具 r a t i o n a lr o s e 设计系统,采用基于j a v a 语言实现的j m f ( j a v am e d i af r a m e w o r k ) 开源框架设计系统。 关键字:虚拟视频卡拉o k 合成,人像提取,人像合成。 a b s t r a c t a b s t r a c t v i d e ok a r ao ks y s t e mi san e wk i n do fk a r a o k eo k w i t ht h es h i f to fk a r ao k v i d e oa n dc a m e r as h o o t i n go fs i n g e r s ,i ts e t ss i n g e r si m ot h es c r e e n n e v e r t h e l e s s ,t h e p i c t u r ei ss os t i f ft h a ti ti sd i f f i c u l tt oc a r r yo nt h ew i d e s p r e a dp r o m o t i o n t h i st h e s i sw h i c hb a s e so nt h ei n s u f f i c i e n c yo ft h ev i d e ok a r ao ks y s t e m ,h a s i n v e n t e dab r a n d n e we n t e r t a i n m e n ts y s t e m 一- v i s u a lv i d e ok a r ao k s y n t h e s i ss y s t e m t h es y s t e mi n t e n d st op o s i t i o ns i n g e r sw h oa r ea td i f f e r e n tt e r m i n a li nt h en e t w o r kb u t s i n gt h es a m es o n gs i m u l t a n e o u s l yi n t ot h es a m ev i r t u a ls t a g e ,e v e n t u a l l ym a n a g e st o v i s u a l i z et h ee f f e c to fac h o r u so nt h es i n g e r s r e s p e c t i v et e r m i n a l s t h ed e t a i lc o n t e n t sa n dr e s u l t sa r ea sf o l l o w s 1 ) i nt h es e c t i o no fp o r t r a i te x t r a c t i o n ,t h ea u t h o rh a sp u tf o r w a r das u i to fb r a n d n e w f l o ww h i c hc o n s i s t so fi m a g ep r e p r o c e s s i n g ,b a c k g r o u n dm o d e l i n g ,b a c k g r o u n d e l i m i n a t i o n ,c o n n e c t e d d o m a i nd e n o i s i n g ,p o r t r a i te x t r a c t i o na n d p o r t r a i t c o m p r e s s i o n ,a n dg o r e nb e t t e rr e s u l t s 2 ) t h et w om e t h o d sa b o u tb a c k g r o u n dm o d e l i n gb a s e do ns h a d ed e t e c t i n ga n d r e f e r e n c ef r a m ew e r ep r e s e n t e dd u r i n gp o r t r a i te x t r a c t i n gr e s e a r c h ,a n dt h eb e t t e r r e s u l t sh a sb e e ng o r e n 3 ) t h em e t h o dd e a l i n gw i t hd e n o i s i n gw i t hc o n n e c t i v ed o m a i na n a l y s eb a s e do nm a x t r e em e t h o dh a sb e e np r e s e n t e d ,a n du s e di n p o s t - p r o c e s s i n ga f t e rp o r t r m t e x t r a c t i n g 4 ) b a s e do nh 2 6 4s t a n d a r d ,a ni m p r o v e da l g o r i t h mo nm o t i o ne s t i m a t i o nw a s b r o u g h tf o r w a r dt or e d u c et h et i m eo fv e d i oc o d i n g 5 ) t h ec o m p a c ta l g o r i t h mh a sb e e np r e s e n t e d ,e m b e d d i n gt h et w op r o c e s s e dp o r t r a i t i m a g ei n t ot h ei m a g ew i t h o u tp o r t r a i t ,a n dw h i c hi sp r o v e db yt h ee x p e r i m e n t s 6 ) t h es y s t e mh a sb e e nd e s i g n e dw i t hu p ( u n i f i e dp r o c e s s ) c r i t e r i o n ,u m l ( u n i f i e d m o d e ll a n g u a g e ) a n dj m f ( j a v am e d i af r a m e w o r k ) k e y w o r d s :v i s u a lv i d e ok a r ao ks y n t h e s i s ,p o r t r a i te x t r a c t i o n ,a n dp o r t r a i ts y n t h e s i s 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:二王车 日期:a 口口孑年5 月谚日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:璋导师签名: e l 期:扣口f 年5 月汀日 第一章绪论 1 1 系统简介 第一章绪论 流媒体技术【l 】广泛应用在多媒体新闻发布、网上演示、在线直播、网络广告、 电子商务、视频点播、远程教育、实时视频会议等互联网的信息服务领域,互联 网的发展决定了流媒体市场的广阔前景,流媒体技术的应用将为网络信息交流带 来革命性的变化,对人们的工作和生活产生深远的影响。 人们可以利用流媒体技术通过视频会议看到对方的肢体语言,听到对方的语 音,使所有与会人员能在安装有视频会议系统的任意地方,通过网络传输,能感 受到开会的气氛。这是一种靠硬件实现的系统,使用方便,但是价格比较昂贵。 虚拟视频卡拉o k 合成系统是一种采用视频会议思想,利用视频会议技术中 广泛采用的流媒体技术,且结合视音频处理技术,并应用于当今人们流行的卡拉 o k 娱乐活动上的软件系统。 虚拟视频卡拉o k :合成意将在网络上不同终端结点但同时演唱同一首歌的演 唱者通过各种图像处理与声音合成技术交互融合后置入同一虚拟舞台背景中,在 演唱者各自的终端上实时显现虚拟合唱的效果。如果选用明星演唱实录作为虚拟 舞台背景,则可使演唱者能看到自己与明星同台演出的虚拟场景,极大地满足了 人们过把明星瘾的欲望。 系统将流媒体技术与合成技术结合探索新型领域。具体表现为:处在a ,b 两 地的终端用户利用麦克风和摄像头,以卡拉o k 形式表演同一首曲目。在此表演 的过程中,各地麦克风和摄像头将采集到的声音和图像数据经过网络传输到对方 ( a 地用户的声音数据a a 和图像数据a v 传输到b 地,b 地用户的声音数据b a 和图像数据b v 传输到a 地) ,当数据达到对方时( 比如a 地数据达到b 地) ,则 接收方b 将来自a 地的流媒体数据分解为视频数据a v 和音频数据a a ,并且将这 两路数据与自己的两路数据分别合成,其中音频合成表现为a a ,b a 和v a 合成 ( v a 为本地的伴奏音乐) ;视频合成包含三个视频流:a v ,b v ,w ( w 为一个 虚拟场景流) 。在a ,b 两地都存有同样的一个虚拟场景文件v f ,其中w 为v f 的流内容。最后在各自终端播放出两个合成流。 电子科技大学硕十学位论文 1 2 研究现状 视频会议研究的内容注重对流媒体网络传输的研究,而虚拟视频卡拉o k 合 成系统研究的内容涵盖较多,不仅包括流媒体编解码传输技术研究,还包括人像 提取技术,图像压缩技术,图像合成技术,人声分离技术,人声合成技术研究。 目前人像提取技术多数采用人像识别技术【2 】,以小波变换理论为基础,进行人 脸识别,定位人像,在利用人像边界轮廓提取人像,进行人像与背景分离。 图像压缩技术【3 】多数采用编码的方式来进行有损或者无损压缩。 图像合成技术可以分为3 类:基于三维模型和图像绘制混合的方法【4 1 ;基于几 何关系的方法【5 】;基于图像插值的方法【引。 人声分离技术有线性分解、独立分量分析、奇异值分解。 线性分解技术分离出语音的效果很差,在系统要求信噪比不高的时候,可以 接受。奇异值分解技术【7 】将采集到的声音信号进行分解和重构,提取有用信息,消 除噪声,从而提高了声音信号的信噪比,保证了故障的确诊。利用短时傅里叶变 换,从时频域提取特征,进一步说明了该方法的有效性。独立分量分析( i c a : i n d e p e n d e n tc o m p o n e n t a n a l y s i s ) 8 1 是由盲信源分解技术发展的多道信号处理方法。 是将多道观测信号根据统计独立的原则,通过优化算法分解为若干独立成分,实 现信号的增强和分解。 语音合成技术是人机语音交互的一个重要组成部分。语音合成研究的目的是 制造一种会说话的机器,使一些以其它方式表示和存储的信息能转化为语音,让 人们能通过听觉而方便地获得这些信息。语音合成的基本方法可以归纳为三大类: 波形合成方式 9 】、参数合成方式【1 0 1 和规则合成方式【l l 】。 目前流媒体开发多数基于微软提供的d i r e c t s h o w 技术【1 2 】,利用f i l t e r 实现。 d i r e c t s h o w 是在w i n d o w s 平台上用于流媒体开发的框架,其前身是a c t i v e m o v i e 。 它提供了高质量的采集和回放功能,支持很多格式,包括a s f ( a d v a n c e ds y s t e m s f o r m a t ) ,m p e g ( m o t i o np i c t u r ee x p e r t sg r o u p ) ,a v i ( a u d i o - v i d e oi n t e r l e a v e d ) , m p 3 ( m p e ga u d i ol a y e r - 3 ) ,w a y 。另外,在采集方面,它对w d m ( w i n d o w d r i v e r m o d e l ) 署t l 老式的音频采集设备都有很好的支持。d i r e c t s h o w 作为d i r e c t x 的重要成 员,能自动地检测所有可用的视频和音频加速卡。当然,如果没有这些设备 d i r e c t s h o w 也能正常工作。总的来说,d i r e c t s h o w 简化了媒体播放、格式转换、采 集的工作。 在近些年来,s u n 公司开发了自己的一套处理流媒体的机制:j m f ( j a v am e d i a 2 第一章绪论 f r a m e w o r k ) t1 3 】。它可以在j a v aa p p l e t 和a p p l i c a t i o n 中使用音频,视频或者其他基 于时间的多媒体。j m f 所支持的多媒体格式如下:a i f f ( a i r 0 ,a v i ( a v i ) , g s m ( g s m ) ,h o t m e d i a ( m v r ) ,m i d ( m i d ) ,m p e g l ( m p g ) ( 即常见的v c d 文件) , m p e g 2 ( m p 2 ) ( 即常见的d v d 文件) ,q u i c k t i m e ( m o v ) ,s u na u d i o ( a 1 1 ) , w 打e ( w a v ) ;j m f 对r t c p ( r e a lt i m ec o n t r o lp r o t o c o l 实时流控制协议) 的支持: r t c p 也是最近才加到j m f 中的,它可以使得基于j m f 的客户端通过r t c p 与服 务器交互,请求获取媒体的数据流。 1 3 应用领域 虚拟视频卡拉o k 合成系统能够使处在不同地域的人们同时演唱同一首歌。 比如两位小孙孙其中一人位于上海,另一人处在成都,他们想通过演唱一首祝寿 歌给远在北京的爷爷拜寿。虚拟视频卡拉o k 合成系统完全能够满足让两个小孙 孙演唱的同一首歌同时传送到北京的爷爷那里,爷爷不仅能够听到他们的和声, 还能看到他们的人像在一个视频画面里。 虚拟视频卡拉o k 合成系统能够更加紧密地把世界联系起来,比如中央电视 台把“同一首歌将处在世界各地的华侨联系在一起,将中国与世界融合在一起, 但是每次举办节目,都必须把大量的演员们组织到异国,而花费了大量的人力和 物力,降低了举办节目的频率,导致节目收到预期效果太慢。如果将系统安装在 世界的各个角落,在举办节目时,演员们不用都到国外去,甚至根本不用聚集到 起,他们只需在任何安装有系统的地方,甚至在家里、各自的演播室进行各自 表演,系统会将他们的合成效果天衣无缝地传送到世界各地,这样可以让那些因 为工作繁忙而不能到国外去的演员们参加到“同一首歌 中去。 虚拟视频卡拉o k 合成系统使得明星开办演唱会更加容易:目前许多明星因 为找不到友情客串而放弃开演唱会,因为客串们必须亲自到演唱会现场进行表演, 这使得邀请他们不方便。但是这套系统却能让客串们不必亲临现场,就可以方便 进行表演,而从此使得邀请友情客串不再成为明星们开办演唱会的门槛。 如果选用明星演唱实录作为虚拟舞台背景,则可使普通演唱者能看到自己与 明星同台演出的虚拟场景,极大地满足了人们过把明星瘾的欲望。 电子科技大学硕士学位论文 1 4 本文研究工作和组织结构 针对视频卡拉o k 系统不足,发明了新型系统虚拟视频卡拉o k 合成系统, 其中重点研究了人像提取技术,人像场景合成技术,视频编码技术,并提出了自 己的新算法,最后采用基于目前标准的一套软件开发流程,实现了系统。本文用 四章内容分别介绍了以上内容: 第二章通过6 个方面展示对人像提取技术的独特研究方式,并提出了三种新 型算法。 第三章以两部分讨论视频合成技术研究。在前一部分摸索目前国内研究颇少 的图像嵌入技术,并提出一种新型算法结束该部分;后一部分介绍人声处理研究 领域中的一些热点算法,并简要给出它们性能特征,最后选用f a s t l c a 算法作为系 统人声处理算法。 第四章步入视频编解码领域,探索h 2 6 4 标准下的运动补偿算法,最终提出 一种改进型算法,优化搜索点数量。 第五章分解为3 部分内容,结合本系统,详细介绍u p 开发流程,每部分以图 文结合方式形象表达设计思路。 第六章总结全文,描述展望。 4 第二章人像提取技术研究 第二章人像提取技术研究 视频流中人像实时提取是计算机视觉领域的重要研究内容,在智能监控、视 频压缩、自动导航、人机交互、虚拟现实等许多领域中有广泛的应用前景,它涉 及图像处理、模式识别、人工智能等多项技术和领域。 随着数字电视和视频监控技术的不断发展,对图像运动目标的有效检测、提 取已成为关键技术,并且是进行目标跟踪、识别等后续处理的基础。处理速度和 可靠性是运动目标检测需要解决的两个基本问题,也是衡量有关算法优劣的两项 重要指标。 现有的运动目标检测方法主要分为3 类,且各有优缺点:帧间差分法基于时 间序列图像上的差分图像检测运动目标,能够较好地适应环境变化较大的情况, 但一般难以获得运动目标的完整轮廓( 因其难以有效地检测出图像序列中与运动目 标相对应但变化不够明显的像素点) ;光流法对图像的运动场进行估计并将相似的 运动矢量合并,以检测运动目标。在摄像机存在运动的情况下其性能较好,但算 法复杂,运算量较大,无法满足视频流实时处理的要求;背景差分法通过将图像 序列和参考背景模型相减来检测运动目标,能检测出与运动目标相关的所有像素 点,但对于外界环境的变化( 如光照、外来事件等) 非常敏感。 将人物图像从现场背景中提取出来,可以采用很多种传统的图像处理技术。 传统的图象处理技术中针对静态图象的人像提取算法包括有直方图的方法【l4 】、基 于边缘检测的方法【1 5 】、区域增长的方法【16 1 ,基于四叉树的方法【17 1 、空间聚类的方 法【1 8 】、基于马尔可夫随机场( m i 讧) 【1 9 】的方法等几大类。 在众多算法中,时间复杂度最低的是背景差分法,其思想基础就是色键( c h r o m a k e y ) 技术【2 0 】【2 l 】。 在影视应用领域中,我们所获得的图像很多情况下都是彩色的,而且为了便 于图像提取人们常将摄像环境布置为均匀光场下的特征色,如蓝色或绿色,为此 即形成了色键技术,色键是传统电视节目制作中常用的技术,即在制作电视节目 时,对一幅演员在蓝色背景的演播室中表演的图像,利用视频硬件处理技术( 基 于专用图形处理系统,成本太高) ,把演员的图像从蓝色背景中抠出来,然后实时 地或在后期制作过程中把它与其它背景合成,以形成全新的视觉画面。电影中拍 摄的许多特技镜头都采用的是这种方法,演员只需站在一块绿幕前进行激情表演 电子科技大学硕+ 学位论文 而已! 剩下则由数字艺术家们导演所需要的一切元素,包括大海、天空、船上的 乘客、飞翔的海鸥等等通过数字技术合成完成。此方法通常要求在用户演唱时摄 像头固定,因此适合用户演唱时活动范围较小的场合。尽管利用色键技术,很容 易把人像部分从蓝背景中分离出来,有利于实时配上期望的虚拟背景图像,但针 对普通用户使用还是存在一定的不便之处。 背景差分法对于外界环境的变化( 如光照、外来事件等) 非常敏感【2 2 1 ,因为摄像 头的光敏感性较强,会导致拍摄到连续两帧图像中在同一个像素点的灰度值有可 能会明显变化,但是这个变化程度会由于采用好的编码的方式而减弱,图2 1 能 够说明这个变化的敏感度。 图2 - 1 连续2 0 帧图像采样值( 上为r 通道变化图,中为g 通道变化图,下为b 通道变化图) 可见连续几帧静止背景画面中像素点灰度值不稳定,所以很难用“等于或不 等于”二值逻辑思想来判断这些像素点为前景还是背景。且像素点受波动的幅度 并不遵循明显规律,因为混合色( 灰度值在r g b 分量中都占有一定量的比重) 要 比纯色( 灰度值在r g b 分量中明显存在一个分量占据主导地位) 波动幅度更大, 6 ,lilnniijiii fljii儿hq 第二章人像提取技术研究 而又很难把深色与浅色量化,所以也不能把它们的取值固定在一个范围内来判断 是否是背景点。 前人认为这种波动服从高斯分布【2 3 1 ,但并没有给出一个判定落在高斯分布内 的准则,有很多文献均对这方面做了研究,但都由于试验场景不同,没有得出一 个统一结论。 对此作者做了大量深入研究,最终提出一种基于背景差分法思想的新型提取 方法。方法涉及到建立背景模型,判断前景,判断阴影,去除噪声4 部分内容, 图2 2 为方法的流程图。 2 1 图像预处理 图2 2 系统采用人像提取模块流程 由于摄像机镜头的影响,拍摄得到的数字图像可能存在几何畸变,图像可能 存在噪点;同时由于周围环境的制约,数字图像可能存在偏色、对比度低等缺陷。 因此,在进行人物图像提取之前,需要对图像进行预处理,以改善图像质量,该 技术的主要方法有:几何空间变换【2 4 1 ,色彩空间变换【2 5 】【2 6 】等。 由于自然界的颜色千变万化,为了给颜色一个量化的衡量标准,就需要建立 色彩空间模型来描述各种各样的颜色。人对色彩的感知是一个复杂的生理和心理 联合作用的过程,所以在不同的应用领域中为了更好更准确地满足各自的需求, 就出现了各种各样的色彩空间模型来量化描述颜色。我们常接触到包括r g b 7 电子科技大学硕士学位论文 c m y k y i q n h s i 等等o r g b ( r e d ,g r e e n ,b l u e ) 是计算机中最常见的色彩空间。它通过红、绿、蓝 3 基色的相加来产生其他颜色。r g b 颜色空间被广泛的应用在计算机图形、成像 系统和彩色电视中。 格式在数字电视机中最常用【2 7 1 ,其中y 表示亮度,u 和v 分别表示偏 向蓝色和红色的颜色偏差。y 通道是用来描述l u m a 信号,l u m a 信号是黑白电视 可以看到的信号,它与亮度信号有一点点不同,值的范围介于亮和暗之间。u 和v 通道从红( r ) 和蓝( b ) 中提取亮度值来减少颜色信息量。这些值可以从新组合 来决定红( r ) ,绿( g ) 和蓝( b ) 的混合信号。y u v 的优点之一就是其色度频 道的采样率可比y 频道低,同时不会明显降低视觉质量。 经过大量的实验对比我们发现在y u v 色彩空间中效果是相对而言比较好的, 因为y u v 受光线的变化相对迟钝。 y u v 格式具有这种优点【2 8 】的原因是因为色度频道的采样率可比y 频道低,同 时不会明显降低视觉质量。但是具有这种优点是有所代价的。因为y u v 格式会由 于采样频率的高低形成一定比例,而弱化导致采样率i 目前有以下这些采样频率 比例。 4 :4 :4 表示色度频道没有下采样,如图2 3 左所示。 4 :2 :2 表示2 :l 的水平下采样,没有垂直下采样。对于每两个u 样例或v 样例,每个扫描行都包含四个y 样例,如图2 3 中所示。 4 :2 :0 表示2 :1 的水平下采样,2 :1 的垂直下采样,如图2 3 右所示。 &函&q圆& 圆函 函&q圆& q&函&函函函函 q & 函函函函 y u v4 :4 :4 样例位置y u v4 :2 :2 样例位置y u v4 :2 :0 样例位置 图2 - 3y u v 各样例位置( 灯光样例用叉来表示,色度样例则用圈表示) 通过上图可以看出除y u v4 :4 :4 的无损采样外,所有的采样均是一种亚采样 技术的体现,会导致降低数据的精度。 在预处理阶段我们假设从摄像头捕获到的色彩空间为r g b 彩色空间。因为现 第二章人像提取技术研究 在很多摄像头够能直接捕获到彩色空间,但是有很少摄像头支持y u v4 :4 :4 的无损采样,然而所有摄像头却都支持r g b 格式。 为此要将r g b 格式转变为y u v 准4 :4 :4 彩色空间以保证不减低数据精度, 图2 4 为y u v 准4 :4 :4 存储三个像素点的情况。 i n c r e a s i n gm e m o r ya d d r e s s e s 口皿口丑圈皿 图2 4 准4 :4 :4 存储图 采用这种简单映射规则,既不有损精度,又有助于后续处理。 通过采用公式2 1 和2 2 进行两个坐标系统之间互相转换【2 9 】: y = 0 2 9 9 r + 0 5 8 7 c t + 0 1 1 4 b ( 2 - 1 ) u = 0 16 8 7 r 0 3 313 g + o 5 b + 12 8 v = 0 5 r 0 4 18 7 g o 0 8 13 b + 12 8 r2 ( 0 8 7 7 y + o 8 7 7 ( 2 2 ) g = ( ( y 一0 3 r - 0 1 1 b ) 0 5 9 b = ( 0 4 9 3 y + u ) o 4 9 3 所以要把从摄像头得到的r g b 灰度值用公式2 1 转换成格式。在转化 中要注意来自摄像头的数据的顺序为倒序,从屏幕的左下角开始,从左往右,从 下到上,且像素点以b g r 的顺序依次存储。 2 2 背景建模 由于动态环境比较复杂,一些外界因素很容易引起背景的变化,如光照变化, 背景扰动,以及运动目标进入,都会引起来自摄像头采集到的数据发生波动,这 些波动点被看做为噪声点。 来自摄像机拍摄到的视频或多或少带有某些不容忽视的噪声。典型的噪声源 般有以下几种:由于c c d 像素产生电荷的不均匀性所形成的c c d 残余像素噪 声;由预放器等电路产生的噪声;由a d 转换所引起的噪声等等 3 0 l 。 由于摄像头感光片质量的优劣完全决定噪声大小程度,所以摄像机硬件所产 生的噪声之间不相关,在时空分布上彼此独立,进而噪声在统计意义上互相独立, 9 电子科技大学硕士学位论文 这包括噪声与它在视频图像中的位置和时间无关,即在同一帧中的噪声互不影响, 且同一个像素点的噪声在不同帧中独立。根据该结论,结合摄像机噪声分布测量 值可得到背景图像的统计模型,应用统计分析办法去除噪声。 设图像矩阵任意点为x ,每个点有y u ,v 三个颜色强度,这里取y 讨论,其 它颜色强度原理相同。令 心,心,心) 为背景图像中的某一点p x 在连续n 帧 中的y 取值, 氏,氏,& ) 为该点在这连续n 帧中的噪声,我们则有: v i 【1 朋】:以,= 以+ 正成立,其中以是该点的真实值。噪声的随机变量正的均值 为0 ,即 e ( 正) = e ( 氓,”,”) ) = o ( 2 3 ) 根据中心极限定理,足够多帧样本在该点取值近似服从高斯分布,即 二心( 厦,)( 2 4 ) 其中及= 寺耋段,以为该点统计量的数学期望,吒= 击童i = l ( 心一厄) 2 为该 ,lf = 1 y ,l l 点统计量的方差,对每个点的这1 1 帧图像求得均值互。,方差仃。 不仅从理论上得出这个结论,且从大量试验中,亦得出分量( 准y u v 空间, 并将y u ,v 这些量定义为分量,故一个像素点有3 个分量) 的灰度测量值服从高 斯分布。 前人的研究成果【3 1 】【3 2 】【3 3 1 认为可通过统计背景中每一个点x 在足够多帧背景中 的取值,得到该点分量之间所满足的三元高斯分布模型,即满足均值向量为乃。和 协方差矩阵为,的三元高斯分布: m 属 卜志p “吨,匹,。卜则p 5 , 其中概率密度函数中指数部分所描述的是该样本偏离该高斯分布均值向量的 曼哈顿距离: _ ( x ) = ( 工一厦) 1 :1 ( 工一及) ( 2 - 6 ) 为了得出高斯分布的参数,我们选取连续1 1 帧数据,统计这n 帧数据中每个 像素点r g b 的均值和方差。由于视频图像的尺寸一般为3 2 0 * 2 4 0 ,所以一幅图像 中的分量个数为3 * 3 2 0 * 2 4 0 ,故需对n 3 3 2 0 2 4 0 的分量进行存储,这样如此大的 数据量会消耗大量内存,试验证明在内存为2 5 6 m 的e c l i p s e 平台上运行,在n 为 5 0 时,会出现内存溢出现象。对此情况,采用一种迭代技术来计算1 1 帧中每个分 1 0 第二章人像提取技术研究 量的均值和方差。不失一般性,设在n 帧中存在一个分量为i ,通过以下公式对i 统计这n 帧中的均值和方差。 l a v e ( i + 1 ) = ( i a v e ( i ) 木n + d ( i ) ) ( i + 1 ) ( 2 7 ) i v a r ( i + 1 ) = ( ( i v a r ( i ) + i a v e ( i ) 宰l a v e ( i ) ) 掌n + d ( i ) 宰d ( i ) ,、。、 - i a v e ( i + 1 ) 木i a v e ( i + 1 ) 木0 + 1 ) ) 0 + 1 ) 其中i a v i ) 为第i 帧1 分量的均值,i v a r ( i ) 为第i 帧1 分量的方差,d ( i ) 为第i 帧1 分量的灰度值。 如果求得的方差盯,小于l ,则说明该分量几乎无波动,故为一个纯色像素点, 但是要预防它受光照变化影响而产生小幅度波动。通过试验证明此时将方差仃。放 大为1 来抑制这种小幅度波动。 方差和均值结果表示为两个等长的数组,数组的大小均为3 2 0 * 2 4 0 * 3 。一个数 组用来存储均值,另一个数组用来存储方差。 然而颜色的取值是一个随机变量,其受光线变化引起的噪声程度和摄像头的 性能有关,并且不同颜色受光线的变化的波动程度不同,所以一个像素点的分量 之间的联系程度弱到可忽略不计,故所有分量都有一个自身的判断准则。 在此选取n 帧训练后的m 帧数据作为自适应的资源。对自适应定义如下:每 个分量都有一个判定属性规则( 该分量在不同时刻的表现为前景或者背景) ,而这 个判定规则要通过一定数量的数据来测试背景模型的优劣,同时对背景模型进行 动态调整,目的要得到训练背景模型每点的门限值n x 。 取其中一幅图像进行讨论,对于任一点p 。,同样设 心,心,- i x 为该点 在背景图像连续1 1 帧中y 分量取值,设n 。为需要训练的一个参数,通过等式n = ( i 儿一及i + k ) 吒,其中v i 1 叫,k 为一个阈值,经过大量试验证明k 在此取1 0 。 这样可以得到该点的n 。,在这里训练样本有n 帧,所以每一点有1 1 个n 。,我们取 这n 个n 。中最大的一个作为最终的门限值,记为n 。,每个象素点都有一个n 。, 于是最后可以得到一个门限值矩阵n 。 2 3 过滤背景 2 3 1 背景差分法 背景差分法是利用当前图像与背景图像模型的差分来检测运动区域的一种技 电子科技大学硕士学位论文 术,它一般能够提供最完全的特征数据。 背景差分法的基本思想是:将每个输入视频帧和已经建立好的背景模型相比 较,如果同位置的像素特征、像素区域特征或其它特征( 我们通常用均值和方差 进行比较) 存在一定程度的差别,则在新视频帧中这些位置的像素点或像素区域 就构成前景,否则为背景。所以背景模型的准确性将直接影响目标的提取。 在拍摄的视频流中取第i 帧图像进行讨论,设第i 帧中存在一点p 。,从是它 的颜色强度,n x 为门限值矩阵n 中该点所在位置的值,如果颜色强度段减该点均 值厨,超出门限值与方差盯。的乘积,则该点为前景,否则为背景。 2 3 2 帧间差分法 帧间差分法【3 4 】是基于运动图像序列中相邻两帧图像间具有强相关性而提出的 检测方法,是对相邻帧图像作相减运算之后,对结果图像取阈值并分割,提取运 动目标。这种检测方法对光照变化不敏感,非常适合于动态变化的环境,而且运 算简单,检测速度快。但是当运动目标信号的帧间相关性和噪声的帧间相关性都 很弱时,此时基于帧之间的像素强度变化来检测场景中目标是否运动,则难以区 分。比如说:它不能检测出静止或运动速度过慢的物体,对于高速运动的物体又 会使得分割区域远远大于真实目标,其分割区域与目标运动速度相关;如果物体 内部的灰度比较均匀,相邻帧间可能在目标重叠部分形成较大空洞,严重时造成 分割结果不连通,不利于进一步的物体分析与识别。 以上两种方法,是迄今使用最多的方法。但遗憾的是,背景差分法对光照非 常敏感,所以会导致实验效果不稳定,特别当遇到有阴影区域时,效果会很糟糕。 在背景差分法研究中最多的就是如何去除阴影的方法,但都没有得出一个完美的 结果。 通过大量实现,总结规律,最终提出了一种改进型背景差分法阴影检测 背景差分法。并且在此基础上,又提出了一种新型的方法基于参考帧的差分 法。 下面先讨论阴影检测背景差分法,再讨论基于参考帧的差分法。 2 3 3 阴影检测背景差分法 通过公式2 - 9 判断当前帧中的每个像素点分量( y u ,v ) 是否服从准高斯分布。 1 2 第二章人像提取技术研究 。= 般蒜麓o - ,代+ k 纛 陋9 , 【o ,l 段一厦i 以 前景点 卜叫 k 值为摄像头感光片的感光灵敏度值,不同的摄像头这个值会不同。 在y u v 格式中,y 为亮度信号,u ,v 为色度信号。通过大量实现发现:光线 变化的特征表现为y 变化很大以致于它不再满足准高斯模型,而u ,v 却依然在准 高斯模型内。当出现阴影区域时,y u ,v 均发生变化,不再满足准高斯模型。此时 这三个分量体现在r g b 的灰度值与背景模型在该点的均值对应分量呈比例。 所以当色差信号不在模型中时,说明颜色发生了变化,此时一定为前景;如 果色差信号在模型中,且亮度信号也在模型中,则说明该点为背景;如果色差信 号在模型中,而亮度信号不在模型中,则要判断该点是否为阴影,如果为阴影, 则说明为背景,否则为前景。算法如下: 先定义方法i s s c a l e : i s s c a l e ( y ,u ,v ) r = ( o 8 7 7 y + v ) 0 8 7 7 ; g = ( 一0 3 r - 0 11 b ) 0 5 9 b = ( 0 4 9 3 y + u ) o 4 9 3 i f ( r 一一g 旦1 r e t u mf a l s e ; e l s e r e t u r nt r u e ; ) 分别计算某点在准高斯模型的b o o l e a n 值,记作y g u g v g 。 i f ( ! ( u g & v g ) ) 该点为前景 i f ( y g ) 该点为背景 ) e l s e i f ( i s s c a l e ( y ,u ,v ) ) 该点为阴影 e l s e 该点为前景 ) 接下来重点探讨基于参考帧的差分法,这个算法是前景区域提取的完整算法, 它要用到阴影检测背景差分法。 电子科技大学硕士学位论文 2 3 4 基于参考帧的差分法 基于参考帧的差分法是一种与传统差分法有很大不同的新型差分算法,这种 算法在目标物体轮廓的完整性检测有很好的效果,在效率上也与有很大提高。 现今的硬件条件下,摄像头拍摄的视频流所能达到的帧频都在2 5 帧秒以上, 所以我们可以假定背景由于噪声引起变化的速度是比较缓慢。为了清楚的描述该 差分法,先定义两个算术运算符 a a 。,。a a 户 1 0 艺丢要三苦兰菩蓦等三兰三等慧:q 。, xo y 2 x lx x ,x 萑y ( 2 11 1 其中a ( i 1 ) ,a ( i ) 为处在第i 1 帧画面和第i 帧画面上的同一个分量。计算该分 量在这两帧中的u ,v 值的欧氏距离。这里要忽略y 值,因为y 值受光照变化波动 很大。 算法已知前一帧图像为c n - l ,它包括背景b 。1 和前景f n 1 ,如图2 5 左所示:当 前帧图像c 。1 和当前帧图像c n 已知,而背景b n 和前景f n 未知,算法的任务要求 出前景f n 。如图2 5 右所示: 图2 5 相邻两帧图像图 首先公式2 1 2 对不同取值的情况进行讨论: a ( i - 1 ) a ( i ) : 1 a ( i - 1 ) = f ,a ( i ) = b 1 a ( i 一1 ) 2 b ,a ( i ) = f 1 a ( i - 1 ) 2 f ,a ( i ) 2 f ( 2 1 2 ) 0 a ( i 1 ) 2 b ,a ( i ) = b 0 a ( i - 1 ) :f ,a ( i ) = f 其中f 代表前景,b 代表背景。下面详细阐述以上5 种情况: 第1 ,2 种情况为相邻两帧中,有一帧为前景,一帧为背景。当人像发生移动时, 从前一帧为背景( 前景) 的区域移动到当前帧为前景( 背景) ,这种情况便会产生。 此时它们属于两种不同的属性,故两个像素点的距离大,所以此时取值为1 。 1 4 第二章人像提取技术研究 第3 种情况为相邻两帧中,两帧均为前景,但是它们的像素点发生了变化。 当人像某部分发生移动时,该部分被移走,而人像中的另外一部分却把移走的那 部分填充上时,这种情况便会产生。此时它们属于两种不同的属性,故两个像素 点的距离大,所以此时取值为1 。 第4 种情况为相邻两帧中,两帧均为背景,即在该位置都没有人像遮挡。此 时它们具有相同的属性,故两个像素点的距离小,所以此时取值为0 。 第5 种情况为相邻两帧中,两帧均为前景,即处在该位置上的人像部分没有 发生移动。此时它们具有相同的属性,故两个像素点的距离小,所以此时取值为0 。 当用c n 1 和c n 中的每个对应像素点做p 运算时,会出现上述5 种情况。将第 1 种情况中的集合记作q ,第2 种情况记作w ,在第3 种情况记作e ,在第4 种情 况记作r ,在第5 种情况记作t 。注意集合中的元素都是点处在图像中的坐标值。 如公式2 1 4 所示: f = c ( n 1 ) oc ( n ) = q 形 e 尺 丁 ( 2 1 3 ) 不难看出f n 1 : o u e w r ,f n = 形u e u t 。 下面详细描述该算法流程: 1 计算f ,并取出f 值为q ,w , e 的集合 q u 肜u e ) ,记作z ; 2 用z of n - i = q u w u e o o u e u t = w ; 3 用w uf 小i = w u q u e u t = w u q l :e u t ,记作s ; 4 将s 中对应坐标位置且处于当前帧的像素点与背景模型进行阴影检测型 背景差分法,得到f n 。 图2 - 6 从左到右,从上到下通过一个例子,形象地描述了该算法。 电子科技= 学硕士学位论文 圜函匿 c 每1 ) n c ( n )f 瘸肖 = : 前罱 匕:= j 背景 r 口t 目e zwsf - 1 圈2 - 6 基丁参考帧的差分法实例幽 我们根据前一帧得到了当前帧的前景,并且在过程中有严格的数学模型来支 持,这样可以很好的保证得到的图像比较完整干净。 但是由于公式2 - 1 1 中k 的取值和采用阴影检测背景差分法中判断比值的误差, 得到的前景区域也会有噪声( 本应该为背景的像素点误判成了前景) 和空洞( 本 应该为前景的像素点误判成了背景) 。经过大量试验,得出这种误判虽然存在,但 这些噪声和空洞却小多,并且它们不会出现在人像的轮廓处,即不会影响人像轮 廓的提取,故在此基础i - ,增加了步算法连通区域分析。 24 连通区域分析 可以把提取到的前景图像看成个二值图像,即背景和前景。通常它
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 招商大会 发言稿
- 护林安全知识培训课件
- 重庆消防医院招聘笔试真题2024
- 2024年福州闽侯县精神病医院招聘专业技术人员真题
- 数控车床编程与加工 课件 3.5台阶轴加工工序四编程与加工G02G03G71
- 2025版风力发电机组购销合同模板
- 邵阳绥宁县中医医院招聘笔试真题2024
- 2025版美发店员工加班费计算及调休制度合同
- 2024年温州市龙港市市属国有企业招聘真题
- 二零二五年度打印机租赁与设备回收再利用合同
- 温硝化制硝基苯装置的改进
- 保教知识与能力幼儿园课件
- 财务部半年度述职汇报PPT模板
- 药品种类清单
- 公共基础知识(社区工作者基础知识)试题(附答案)
- GB/T 37915-2019社区商业设施设置与功能要求
- GB/T 31298-2014TC4钛合金厚板
- 《电业安全工作规程》
- 卡西欧gw5600说明书
- 中兴NGN培训教材 MSG9000结构原理介绍课件
- 穿湖隧道施工组织设计
评论
0/150
提交评论