已阅读5页,还剩85页未读, 继续免费阅读
(控制理论与控制工程专业论文)高清视频中视觉重要区域自动识别技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 于葡要 h 2 6 4 a v c 编码器作为当今高清视频的编码标准,其结构特性非常之复杂, 具有多重的预测环节,频率划分的离散余弦变换( d c t ) 转换环节和量化环传输处 理环节。如何解决h 2 6 4 a v c 编码器计算复杂度的问题,使其能够应用于实时处 理中,成为一个国内外的热门课题,它将对高清视频的处理和传输的效率有深刻 的影响,本文的课题研究来源于此。 为了使编码器能够适应实时处理的应用,本文我们将选择在视频图像进入编 码器前对视频图像进行预处理。 在这个预处理环节中,首先进行图像物件分割,本文将介绍一种基于视频图 像纹理,色彩,位移等特征的图像全局移动矢量跟踪的方法,计算出全局矢量,通 过全局矢量的反补,再打上不同标签,完成了视频图像物件的分割。 然后应用图像物件分割和人类视觉系统的研究结果,根据视频图像中能够引 起人类视觉敏感的特性,提出一种图像中重要区域自动识别的方法,图像重要区 域的自动识别是一个能够提供非常强大信息的过程,在编码器量化传输处理环节 中,建立一个图像重要区域的识别图能对量化阶的设置有很大的帮助。本文提出 的方法将对视频图像中的颜色区域,分割后的物件大小,像素所在的位置区域和 分割后的物件的移动速度这四个元素进行分析计算,得出四个相关影响因子,然 后将这4 个因子综合形成一个重要区域识别图( i m p o r t a n c em a p ) 。而本文将提出四 种常用的快速组合方法对四个元素进行组合计算。 对前面选择的四种组合方式,本文的最后一章通过e y et r a c k i n g e x p e r i m e n t ( 眼球跟踪实验) 将这四种方法进行对比分析,计算出各自方法与 实验结果的c o r r e l a t i o nc o e f f i c i e n t ( 相关度系数) ,根据这个系数的大小,从而总 结出这四种组合方法的各自优劣和重要区域的识别好坏情况。 关键词:高清视频h 2 6 4 a v c 图像物件分割人类视觉系统重要区域自动识别 眼球跟踪实验 广东1 = 业大学硕士学位论文 a bs t r a c t a st h ev i d e oc o d i n gs t a n d a r dn o w a d a y s ,t h es t r u c t u r eo fh 2 6 4 a v ci sv e r y c o m p l i c a t e ,i tc o n t a i n sam u l t i p l e - p r e d i c t i o np r o c e s s i n gp a r t ,ad i s c r e t ec o s i n e t r a n s f o r m ( d c t ) c o m p u t i n gp a r t ,a n daq u a n t i z a t i o np r o c e s s i n gp a r t h o wt os o l v e t h i sp r o b l e m ,m a k et h ep r o c e s s i n ga d a p tt or e a l - t i m ea p p l i c a t i o ni sb e c o m i n gah o t t o p i ci nt h ew o r l d ,i tw i l lc a u s ead e e pi n f l u e n c ei nt h ee f f i c i e n c yo fv i d e op r o c e s s i n g a n dv i d e ot r a n s m i s s i o n a n do u rr e s e a r c hi sc o m i n gf r o mt h i st o p i c h e r ew ep r o p o s et oa d dap r e p r o c e s sp a r tb e f o r et h ev i d e of r a m ec o m ei n s i d et h e v i d e oe n c o d e r i nt h i sp r e p r o c e s sw o r k ,w ew i l lf i r s t l yp r o c e s st h ef r a m eo b j e c ts e g m e n t a t i o n , w h i c hi ti sam e t h o dt h a tb a s i n go nc o l o r ,t e x t u r e ,m o t i o na n ds oo nt os e g m e n tt h e o b je c ti nt h ev i d e of r a m e s a n dt h e nf r o mt h eo b je c ts e g m e n t a t i o na n dt h eh v s ( h u m a nv i s u a ls y s t e m ) ,a m e t h o do ft h eh u m a nv i s u a li m p o r t a n tr e g i o ni d e n t i f i c a t i o ni sg i v e n t h i si m p o r t a n t r e g i o n i d e n t i f i c a t i o ni sap r o c e s s i n gt h a tc o u l dp r o v i d ev e r yu s e f u li n f o r m a t i o n , e s p e c i a l l yf o rs e t t i n gt h eq u a n t i z a t i o ns t e pi nt h eq u a n t i z a t i o np r o c e s s i n gp a r t t h e a l g o r i t h mi nt h ea r t i c l ew i l la n a l y z et h ep i x e lc o l o r s ,o b je c ts i z e ,p i x e lp o s i t i o na n d o b je c tm o t i o n ,a n dg e tt h ee l e m e n t st h a ti n f l u e n c eh u m a ne y em o v e m e n t l a s t l y , w e w i l lu s e4d i f f e r e n tf a s tw a y st oc o m b i n et h e s ee l e m e n t st og e tt h ei m p o r t a n tm a p ( i m ) i nt h el a s tc h a p t e r ,w ew i l lu s et h ee y et r a c k i n ge x p e r i m e n td a t at oh e l p u sc o m p a r et h e s e4f a s tc o m b i n ew a y s ,a n dg e tt h e i ra d v a n t a g ea n d d r a w b a c kp o i n t s k e y w o r d s :h dv i d e o ;h 2 6 4 a v c ;o b j e c ts e g m e n t a t i o n ;h u m a nv i s u a ls y s t e m ; i m p o r t a n tm a p si d e n t i f i c a t i o n ;e y et r a c k i n g e x p e r i m e n t i i 独创性声明 独创性声明 秉承学校严谨的学风与优良的的科学道德,本人声明所呈交的论文是我个 人在导师的指导下进行的研究工作及所取得的研究成果。尽我所知,除了文中 特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究 成果,不包含本人或其它用途使用过的成果。与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明,并表示了谢意。 本学位论文成果是本人在广东工业大学读书期间在导师的指导下取得的, 论文成果归广东工业大学所有。 申请学位论文与资料若有不实之处,本人承担一切相关责任,特此声明。 岬年月日 系磊而钐 、孤立 字 字 签 签 者 师 作 教 文 导 论 指 第一章绪论 第一章绪论弟一早瑁可匕 1 1 高清晰度电视及压缩技术简介 视频已经成为当今人类最不可或缺的一部份,无论在电视传播还是实时通讯, 我们都可以找到视频应用的存在,其中一项就是高清电视。高清电视原名高清晰度 电视,英文名h d t v ( h i g hd e f i n i t i o nt v ) ,是一种电视业务下的新型产品,原 i t u r 给高清晰度电视下的定义是:“高清晰度电视应是一个透明系统,一个正常 视力的观众在距该系统显示屏高度的三倍距离上所看到的图像质量应具有观看原 始景物或表演时所得到的印象。根据国家信息产业部颁布的高清标准,高清平 板电视机在水平和垂直方向上的清晰度要高于7 2 0 线,简单来说就是真正的高清 平板电视机必须要满足分辨率高于1 3 6 6 x 7 6 8 这一条件。本文题目所用的高清电视 标准是1 9 2 0 x 1 0 8 0 的分辨率,每1 秒5 0 帧图像池,。 当要编码传输和解码如此之巨大的数据信息量的时候,人们既想节省带宽, 减少信息量的传输,但又想得到非常优秀的视觉效果,视频压缩技术就出现了, 这个技术可以帮助人们解决这个问题。那什么是视频压缩技术呢? i a i ne g r i c h a r d s o n 告诉我们,视频压缩技术就是一种减少视频传输信息量的一种技术, 这是一个非常复杂的过程,同时它作为一个专业课题己被人们研究了很多年之久 了。在这段时候,许多视频压缩标准出现了,像m p e g 1 ,m p e g 一2 等。在这些标 准之中,m p e g 2 是非常经典的一代,它被用作数字电视和d v d 视频的编解码技 术的标准长达1 0 多年之久,在这期间,m p e g 2 向人们展示了它的高效性,但随 着人们对视频要求的不断提高,如果的高清电视要求更加高质量的视频和更加快 速度的传输,m p e g 2 则看起来已经无法适应了。此时,一个新的由i s o i e cm p e g a n di u t - tv i d e oc o d i n ge x p e i 汀g r o u p 联合开发的视频处理基准h 2 6 4 出现 了,这个基准意在取代老的m p e g 2 ,h 2 6 4 是一种高性能的视频编解码技术。目 前国际上制定视频编解码技术的组织有两个,一个是“国际电联( i t u t ) ”,它制 定的标准有h 2 6 1 、h 2 6 3 、h 2 6 3 + 等,另一个是“国际标准化组织( i s o ) ”它制定 的标准有m p e g 1 、m p e g 2 、m p e g 4 等【3 】。而h 2 6 4 则是由两个组织联合组建 的联合视频组( j v t ) 共同制定的新数字视频编码标准,所以它既是i t u t 的h 2 6 4 , 广东工业大学硕士学位论文 又是i s o i e c 的m p e g 4 高级视频编码( a d v a n c e dv i d e oc o d i n g ,a v c ) ,而且它 将成为m p e g 4 标准的第1 0 部分。因此,不论是m p e g 4a v c 、m p e g 4p a r t1 0 , 还是i s o i e c1 4 4 9 6 1 0 ,都是指h 2 6 4 。h 2 6 4 a v c 最大的优势是具有很高的数据 压缩比率,在同等图像质量的条件下,h 2 6 4 a v c 的压缩比是m p e g 一2 的2 倍以 上,是m p e g 4 的1 5 - - 一2 倍。举个例子,原始文件的大小如果为8 8 g b ,采用m p e g 2 压缩标准压缩后变成3 5 g b ,压缩比为2 5 :1 ,而采用h 2 6 4 压缩标准压缩后变为 8 7 9 m b ,从8 8 g b 到8 7 9 m b ,h 2 6 4 a v c 的压缩比达到惊人的1 0 2 :1 。h 2 6 4 a v c 为什么有那么高的压缩比? 低码率( l o wb i tr a t e ) 起了重要的作用,和m p e g 2 和m p e g 4a s p 等压缩技术相比,h 2 6 4 a v c 压缩技术将大大节省用户的下载时 间和数据流量收费。尤其值得一提的是,h 2 6 4 a v c 在具有高压缩比的同时还拥 有高质量流畅的图像,而这需要大量的资源来用于处理数据计算,使得其难以应用 于实时处理中。能够使h 2 6 4 a v c 对h d t v 高清电视的处理能搞实时化,让高清 电视普及是视频处理领域里的一个热门课题【4 】。 1 2 高清视频中视觉重要区域自动识别技术的研究意义 当人类正在观看一段视频播放的时候,所有的视频图像都将会经过人类的人 眼的视觉系统进行处理,而人眼的视觉系统对图像的认知是非均匀的和非线性的, 并不是对图像中的任何变化都能感知。例如,人类视觉会对某种特定情况会特别注 意,而对另外某些情况却又会不甚敏感。因此,如果视频处理编码方案能利用人眼 视觉系统的一些特点,识别出视频图像中哪些区域将会吸引人类视觉系统的注意, 即找到视频图像中的视觉重要区域,是有助于提高视频处理的效率的。长期以来, 通过对人眼视觉现象的观测和研究,人们已经发现人眼的视觉特性有很多特点, 可以直接或间接地用于改善视频信息的处理。如何由人眼视觉特性而建立各种数 学模型,一直是高清视频重要的优化处理算法之一。 1 3 高清视频中视觉重要区域自动识别技术的国内外研究现状 目前国内外所有对高清视频中视觉重要区域的自动识别技术的研究一般都是 基于对人类视觉系统模型研究结果的,而其中有以通过人脸,物体的移动以及视 频图像颜色等特性进行重要区域识别的。 通过在高清视频中定位人脸而进行的重要区域识别方法在c h a i 和 2 第一章绪论 b o u z e r d o u m 的论文中有详细的解释【5 】,它是通过颜色分割,密度规律特性,光亮 度识别和形状析出这4 个基本步骤从而锁定视频图像中的人脸的,这种方法在高 清视频图像重要区域识别中的应用非常广泛。 而判断视频中的物体移动也是视频图像重要区域识别的常见方法,作为视频 与图像的最大分别就是,图像中的所有物体都时静止的,而视频中的某些物体则 会移动,根据人类视觉系统的特点,不同移动特征的物体具有对人类视觉系统或 大或小的敏感触发度【6 】。 另外一种常见的方法,分析图像中颜色对人类视觉系统的影响,a z i z 和 m e r t s c h i n g 在论文中给予了非常详细的描述 3 0 1 ,他们通过了颜色的饱和度对比, 密度对比,色泽对比,反色,暖色,主色这些特定情况的分析,从而识别了在图 像中特定区域的重要性。 除了以上所提的几种识别技术外,人们也还会常应用的视频图片中无间大小 分别,位置不同,图内对称情况等等人类视觉模型。 1 4 本论文的结构 本文将从高清视频特点入手,根据h 2 6 4 a v c 编码器的高效率但运算复杂度 高的特点,进行其重要区域识别,从而减轻编码器的运算负担,帮助了提高 h 2 6 4 a v c 编码器应用实时处理实现的可能性。所以针对这一课题,本文的研究 内容和结构如下: 第一章绪论 提出课题的研究背景和意义;从h d t v 的基本概念出发,分析视频编码的内 容;已存在的高清视频编码的主要方法简述,以及高清视频图像视觉重要区域识 别技术的研究现状。 第二章编码器结构与图像预处理 详细介绍h 2 6 4 a v c 编码器的工作原理,并从中找到深入点进行分析,确 立了加入预处理环节为编码器的量化处理提供帮助的策略。 第三章高清视频中物体的分割 介绍种新的对高清视频中存在的物体,通过其移动特点,对其进行分割的 技术。 第四章i m 因子的计算以及合成 广东工业大学硕士学位论文 通过视频分割后得到的物体以及人类视觉系统知识上的帮助,确定一些能引 起人类眼睛注意的特征因子,对其进行数学化并实行计算,最后进行合成,它就 是i m ,i m p o r t a n c em a p ,重要区域识别图,并且通过眼球跟踪试验来验证结果。 结论 总结本研究的成果与不足,提出建议。 4 第二章编码器结构与图像预处理 第二章编码器结构与图像预处理 2 1 高清视频图像编码器h 2 6 4 a v c 编码器结构 图2 1 展示了h 2 6 4 a v c 编码器的大体结构。 图2 - 1h 2 6 4 a v c 编码器结构 f i g u r e 2 - 1t h es t r u c t u r eo fh 2 6 4 a v c 首先在h 2 6 4 a v c 编码器中,每一帧图片会根据相应的情况分裂成对应的 块状,那就是宏块,宏块具有不同的分辨率,而且它是编码器处理的基础单位【1 】。 宏块经过入口后,来到了预测环节,h 2 6 4 a v c 编码器支持两种预测模式, 它们分别是外部模式( i n t e rm o d e ) 和内部模式( i n t r am o d e ) ,对应不同的模式【7 】( s l , 宏块也会有对应的不同分辨率( 如图2 - 2 ) ,而编码器在视频的编码过程中,会选 择其中一种来进行帧预测。如果编码器选择的是外部模式,在图2 1 中的m e 处 理环节( m o t i o ne s t i m a t e 移动估算) 中,当前帧会首先与参考帧进行比较,其中 参考帧是来自于从前处理过的图片,计算出两帧之中对应宏块的位移矢量,这就 是位移估算结果,接着来到图2 - 1 中的m c 处理环节( m o t i o nc o m p e n s a t i o n 位 r i 业女学硕学位论文 移补偿) 中,编码器会把位移估算结果叠加到参考帧中,当作位移的补偿,从而得 到一个补偿后的帧图。紧接着,这个补偿后帧来到了图21 中的p 环节,当前帧 会与它进行比较,得出它们得相差量( 图2 - 1 中。d 。) ,最后编码器会将这个相差量 作为传输信息。另一方面,如果编码器选择了内部模式进行预测环节处理,便码 器将会用到一个名字叫重组帧的帧图( f 。,如图2 1 所示) ,这个重组帧是编码器上 次处理结束后所得到的结果,这个重组帧和传输的原帧是会有区别的。从图2 2 中,我们可以看到,h2 6 4 a v c 编码器可以支持好几种空间内部预测模式,人们 可以通过对应情况从而进行设定一种最为合适的模式来进行内部预测,如果得知 某个帧区域在显示中极为重要,那么编码器可以选择分辨率小的宏块进行内部预 测,相反,则选择分辨率大的模块进行预测。接着,经过内部预测环节,编码器 就像外部预测一样得到一个对应的补偿后帧,它会被送到编码器的p 环节,最后 与当前帧进行对比,传输其相差量m 。 圈 图2 - 2 内都模式和外部模式的女块分辨章 f i g u r e 2 2r e s o l u t i o no f m b i o c ko f i n t e r d i n t r a 在预测环节之后,传输数据,相差量d 。来到了图2 - 1 中的t 处理环节, 即d c t ( d i s c r e t ec o s i n e t r a n s f o r m ,离散余弦变换) 处理环节,离散余弦变换具 有很强的能量集中特性,:大多数的自然信号( 包括声音和图像) 的能量都集中 1 1 第二章编码器结构与图像预处理 在离散余弦变换后的低频部分,从而得到了d c t 参数,这些参数接着会被量化 处理在图2 1 中的q 处理环节,量化处理环节,最后得到的数据会分成两路, 其中一路会进行记录( r e c o r d ) 再配合上对应的信息作为头文件进行熵编码 ( e n t r o p ye n c o d e ) ,然后得到数据传输给解码器;另外一路则是进行反量化和反 d c t 变换,然后通过参考帧组合成f n ,这将可能会作为下一个参考帧。 2 2 高清视频图像预处理 在前一节,我们了解了h 2 6 4 a v c 编码器的结构与工作原理,知道其具有 非常高的计算复杂度,而这种过高的复杂度,使其不能很好的与实时处理相结合, 那么课题目标就是实现缓解一些编码器的工作负荷,从而使编码器更进一步适应 实时处理环境。而加入一个预处理环节帮助编码器提高效率便作为一种很常用想 法被人们利用1 。 图2 2 内部模式和外部模式的宏块分辨率 f i g u r e 2 - 2r e s o l u t i o no fm a c r o b l o c ko fi n t e ra n di n t r a 如图2 3 所示,视频帧在进入编码器之前,先进入预处理环节( p r e p r o c e s s ) , 而在这个环节中,一些相关信息将会预先获得,然后视频帧再进入编码器,预处 理环节同时会将之前所获得的信息传送给编码器,从而帮助其提高效率【1 】。 编码器需要什么样的信息呢? 回到上一节,在量化处理的过程中,量化阶的 选择将决定传输数据的大小与精确,而编码器中处理的单位是代表图象某个区域 的宏块【地】,假如我们能够知道图像中这个区域的重要性,给于这个量化处理最优 7 j 东e 业大学硕士学位论文 的量化阶,这会极大地提高了编码器的工作效率【1 3 】【l 】,使其得到的结果在保证数 据量大小一定的前提下给于最好的画面效果f 1 5 】。所以,在预处理的过程中,我们 将会计算视频图像重要区域图【1 6 1 ( i m p o r t a n c em a p ,文中简称i m ) 。在i m 中,视 频中每一帧的图像的每一个宏块都会有其赋值,如果其赋值相对较大则说明这个 宏块较重要,而预处理就会通知编码器其在量化处理过程要相应取小的量化阶, 精确处理( 图2 - 4 中左图所示) ;而相反,如果这个赋值比较小,则说明其不那么 重要,人们在观看视频的过程中不会那么注意它,可以不那么准确的量化,可取 较大的量化阶【1 7 】【1 8 1 ( 图2 4 中右图所示) 。 髟 7 蜥罐a i 瑚啦捌钿城椭撬糟唾 臻t , 知研船1 岛艄珈忡嘲 + 夕 ;、八 ; 。? o “! 。t 霹? i 图2 - 4 量化阶大小决定输出的精确度 f i g u r e 2 - 2o u t p u ta c c u r a c yi sd e p e n d e do nq u a n t i z a t i o n 为了计算出i m ,在预处理中,视频帧图将会被加以分析,然后对其进行物件 分割,因为能够确定在图中存在有什么物件,哪个是背景,哪个是摄像机所关注 想表现的这些要素对计算i m 很有帮助】【l 。】。 完成视频图像中的物件分割后,人类视觉系统( h u m a nv i s i o ns y s t e m ) 的一些 知识会被用来分析图像中存在如何的吸引人目光的要素,而在最后,这些要素将 会被综合 2 0 1 【2 l 】,形成i m 。 2 3 本章小结 本章中,我们介绍了一些本课题相关准备工作并且确定了研究方案,首先我 们了解了h 2 6 4 a v c 编码器结构和工作原理,然后,我们以量化处理部分作为改 善h 2 6 4 a v c 处理效率的切入点,而预处理环节的引入会被用于帮助提供最优 第二章编码器结构与图像预处理 量化阶选择的相关信息。从第三章起我们将对预处理环节的工作进行深入讨论, 其中第一步将是对视频中的物体进行分割。 9 广东i 业大学硕士学位论文 第三章高清视频中物体的分割 3 1 视频中基于物体移动的分割技术 如果能清楚地掌握视频中每个物件的运动,知道它们运动的方向,运动的速 度,即能够跟踪到视频中的物体运动,那么就能够精确而又快速的在视频中分割 出物体。在许多方法中m m 引”i ,人们通过了视频中物体在空间上或者时间上的移 动信息来进行分割处理。在时间移动信息上,知道全局移动矢量( g l o b a l m o t i o n ,拍摄视频时,摄像机的移动) 是非常必要和重要的,如图3 1 所示,左图 中,视频红色长条和青色圆球都处于中间位置,到右图的场景,球仍在中间,而 红长条却到了右边,我们可以认为摄像图在锁定球来拍摄,球的移动矢量即是全 局移动矢量。h o m 和s c h u n c k 他们m 1 想通过视频中两帧之间的光流( o p t i e a l f l o w l ,求出视频中移动物体的信息。或者,可以估算连续帧之间的物体移动参数 模型啡,用全局移动矢量进行反补偿,使得视频中只有在移动的物体保留它们的 对应速度。 t h ev i e w 口fc b m f l p 82 1 忑i r _ j 、 、 o b j e c t l l jo b j e c t l j 、! ,么 m 口t i d n 日n f i n do u t t h e h 日e t i i s f o l l o w e db y t h ec 日m e r 8 圈3 - l 全月频移自 f i g u r e3 - iv i d e og l o b a lm o t i o n 在处理高清视频中,为了提高处理速度,适应这种情况,组帧将会用来作为 处理视频分割的单位,组帧是o l i 。i e r 和v i n c e n t 提出的一个名_ i 司l ,郎是g r o u p o f f r a m e 。这将会用到视频中的几个连续帧来计算全局移动和进行物体分割处理工 鲨 兰三耋喜鎏塑錾:錾盟:型 作。 3 2 组帧中全局移动矢量的快速计算 为了获得在摄像头下和现实生活相关的正确物体的移动信息。我们同过几 个连续的视频帧组合成一组帧,然后估测其中的物体的规则运动。首先,我们会 用视频中连续的9 帧作为一组帧,因为在人类观看视频的最佳临界时间根据人类视 觉系统( h u m a nv i s u a ls y s t e m ) 是每帧2 0 0 毫秒,所以高清电视其规格标准是用 1 9 2 0 x 1 0 8 0 每帧的分辨率,而其f p s ( f r a m ep e rs e c o n d ) 则是5 0 赫兹m i ,即是2 0 毫秒一帧,那么9 帧刚好是1 8 0 毫秒,非常的接近2 0 0 毫秒。在组帧中,中问的帧将 会是编码器中的当前帧,所以,当前帧在组帧当中,会有4 个过去的图,和4 将来 的图作为参考。我们将会通过这9 帧的信息来进行物体的移动矢量的计算。但为了 减少运算量,从而快速获取结果,实际中,组帧只有其中5 帧会被用来运算,如图 32 所示,他们分别是当前帧和第1 ,3 ,7 ,9 帧。同时,我们会建立一个工具,通 ( t u b e ) i 钥,并且在这帧组中通过这个通来跟踪规则运动的宏块从而得到这个宏块 在帧组中的移动矢量。这种方法可以得到更为平滑和更为准确的物体真实移动式 量。 圈3 - 2 帧组自通 f i g u r e3 - 2g o f 扑dt u b e 其中p e c h a r d 曾提出过一种多重分辨率的移动矢量估算法,其非常适合应用 在高清视频的这种高分辨率的情况下。首先,高清视频的帧图将会在通过一个 广东工业大学硕士学位论文 空间滤波器,从而分辨率缩小成原来的六分之一,在小分辨率的图中处理,从而 加快加快了工作的速度。在这个缩小的帧图中,我们会计算物体的运动矢量。如 图3 - 2 中,在帧组中,每个宏块会同时进行比较全局误差( g l o b a le r r o r ) 来确定自身 在每帧图中的位置。全局误差,m s e g = k m s e k ,其中k = 一4 ,2 ,+ 2 ,+ 4 ,它是 对应于当前视频帧的宏块和其过去视频帧以及将来视频帧中对应宏块的均方误差 值【2 6 1 ( m s e ,m e a ns q u a r ee r r o r ) ,指数k 表示了与当前帧中宏块做比较的宏块所处 帧的位置。这个均方误差将会全面计算每个宏块的y u v 要素( y 是明亮度值, 而u 和v 表示色度值) 。在所有的均方误差中,其中最小的一组会被选择当作 这个当前帧中宏块在帧组中的运动矢量,从而套上通加以跟踪。 最后,我们可以把帧组中的每个通对应的宏块的运动矢量计算出来,我们再 通过这些宏块的运动矢量来求出全局移动矢量。 3 3 高鲁棒性的全局移动矢量计算法 完成了当前帧中宏块的运动矢量的计算,下一步将确定其全局移动矢量。我 们要通过这些运动矢量来确定帧组中全局移动矢量的参数值,一个由6 个参数组成 的关联模型( 公式3 1 ) 会用于计算全局移动矢量【2 8 】。 ( 乏 = ( 兰三兰三 ( ;) + ( ;i c 3 , 其中a i ( f = 1 , 2 ,3 ,4 ) 是变形参数( 其中1 和4 代表了扩散特性,而2 和3 代 表了扭曲特性) ,而和f ,是翻译参数,圪,x 和y 对应的是横向与纵 向的移动矢量的和在帧图中的位置。 3 3 1 全局移动矢量计算 我们将会把c o n d r a y 曾在m p e g 2 求全局移动矢量使用过的方法应用在我 们的情况下【2 8 】。视频中的帧图里每一个宏块的移动矢量是我们求全局移动矢量的 基本信息,其中每个通有一个移动矢量。根据所得的组帧中宏块的移动矢量,可 求得关联模型中( 公式3 1 ) 参数的值,如公式3 2 所示: 小a m = a 川= a 川= a , 限2 、 f j = 圪一a l x a 2 y ,t ,= 一a 3 x a 4 y 1 2 第三章高清视频中物体的分割 摄像头在摄影视频的过程中,其移动是非常复杂难以预测的,而一般而言, 因为全局移动矢量又是和摄像头的移动一致的。因为关联模型中的扩散特性系数 和扭曲特性系数对翻译参数的影响,那么全局移动矢量的计算可以分成两步:第 一步,我们把4 个变形参数根据关联模型求出来,这些变形参数有可能是全局移动 矢量的变形参数;第二步,为了找到最具可能成为对应全局移动矢量的变形参数, 我们把所有每个宏块的所求出的变形参数收集起来在一个直方图之中( h i s t o g r a m ) , 统计它们出现次数,为了贴近最合适的情况,我们用上高斯分布( g a u s s i a n d i s t r i b u t i o n ) 来进行加权。最后如果某种变形参数出现次数最多,那么它则被 认为是全局移动矢量的变形参数。 为了完善全局移动矢量的参数的定位,一种最小二乘法会用来计算在所找位 置的周围的可扩展性。一旦全局移动矢量的变形参数被确定,他们将会被用来反 补于原有的移动矢量上,所以,根据公式3 i ,宏块的移动矢量将受到其翻译参数 大小影响,我们将会把这些移动矢量通过高斯分布公式( 公式3 3 ) 收集在一个二维 的直图上 2 9 】。 1一生霉 c ( x ,少) = 音p 2 ( 3 3 ) 三冗g 公式3 3 中,x 和y 表示了移动矢量圪,圪对应于帧图中的位置。而翻译参数的 值可以通过这个二维直图中的峰值点的位置所获得。最后,所有的移动矢量都被 反补所求出来。 3 3 2 图像宏块鲁棒加权 对于一个给定的宏块( 如图3 - 2 中的c u r r e n tb l o c k ) ,其移动矢量是要通过其最 小的m s e 来进行判断的。因为在计算中,其在通中的宏块是被定义在图画中常 规运动的区域,那么在通上的宏块所存在的物体可能将不是同一个物体,而经过 通所求的移动矢量就不一定能反应出真实的移动了。为了提高其鲁棒性,这种情 况的移动矢量不应被用于全局移动变量的计算中。由于上面的原因,其移动矢量 在对全局变量的影响需要将通中宏块的信息进行加权。简单来说,来自于高纹理 度区域的移动矢量比来自于常规区域的移动矢量所提供的信息更为可靠,因此我 们可以利用通的空间活动性来将其归类,空间坡度就会被用以计算宏块的空间活 动性。如果其空间坡度越高,那么其可靠性越高。 r 东i 大学硕学位论文 对于每个宏块,将会有两个坡度,分别是平均纵向坡度v v 和平均横向坡度 v h ,根据不同的对应情况,宏块将会被归类为高频率纹理,一般频率纹理,或者 平滑区域。 一个是属于高度纹理区域的宏块,有可能它只往一个方向移动比如说,两 个坡度中其中一个是高而另外一个是低。如果全局移动矢量是与这个高纹理部分 的移动矢量一致( 纵向或者横向) ,那么定位在这个区域的宏块移动矢量就不那 么可靠了。所以,我们将会区别对待这两个空间坡度。在实验中,根据宏块的空 间坡度( 甲( 审v ) ) 和( 甲( v h ) ) ,我们可以比较合适的算出加权在两个 元素上的高鲁棒性值,而甲是根据空间坡度计算加权值得公式,其内容如公式 34 所示。 y o ) = ;,删 1 一y ( 1 6x ) ,8 ( x ( 1 6 ( 34 ) 1 o t h e r w i s e 圈3 - 2m 横轴的加权系数 f i g u r e3 - 2h o r i z o n t a la n dv c r i t i e a lw e i g h t 如图3 3 展示了在一段高清视颓s h i e l d s 中,加权值的效果。其中左上图是视 频中原图,右上图是公式33 的图形曲线,左下图是水平坡度上的加权( 白色表示l , 黑色表示0 ) ,右下图是纵向坡度上的加权( 白色表示1 ,黑色表示0 ) 。 第三章高滑视额中钫体# “ 至此,一种高鲁棒性的全局移动矢量计算法已经介绍完了,我们完成对前面所讲 直方图数据的鲁棒性加权。 3 4 基于全局移动矢量的图像分割研究 对于全局移动矢量计算,我们用在找到最大峰值在位置直方圈中所求出的翻 译参数来反补移动矢量。假设每一个直方图中的峰值表示一个物体的移动信息, 我们却不能只保茸峰值,而是要用到全部的值。 设定不同物体时,第一步首先是排除噪声,我们将会使用一个排除临界值来 限制直图,如果小于这个临界,其会被赋予0 。第一步之后,我们将从晟丈峰值开 始扩散向下扫描只要其值是大于0 的,我们都给它打上和峰值一致的颜色标签, 直到起周围的值到了0 ,接着到第二大,第三大的峰值直到所有大于0 的区域都 会被赋予标签。如果有一个宏块被赋予了不止一个标签,那么它将隶属于离它最 近的峰值同用的一个标签。这些相同标签就表示了他们都来自同一个物体。 在实验中,我们用到来自s v t 的3 个不同的高清视频进行测试m l ,如图3 3 所示,他们分别是一个1 0 8 0 p 标准的拖拉机视频( t r a c t o r ,图3 4 ) ,两个7 2 0 p 标准的标志盾视频( s h i e l d ,图3 - 5 ) 和移动日历( m o b i l ec a l e n d a r ,图36 ) 。 墓蕤 圈3 4 拖拉机 f i g a m3 - 4 t m c t o r 图3 - 5 标志盾 f i g u r e3 - 5s h i e l d s 倒3 - 6 移自日历 f i g u r e3 6m o b i l ec l a n d e r 我们采用基于全局移动矢量的视频分割对其进行实验,其结果如图37 ,幽 38 ,图3g 所示基本达到了正确而且快速分割处理的要求。完成了视频中物件 的分割后,就为识别视频帧图中重要区域提供了条件。 f i g u r e3 7o a en o f t h es e g m e n t a t l o na f t r a c t r f i g u r e3 - 8o n e f r a m eo f t h es 。g m e n t a t l o no fs h i e l d s 广东i 大学硕学位论立 35 本章小结 f i g u r e3 - 7o n eh a f t h cs e g m e 玎【a t 】o no f m o b i l ec a l e n d 本章中,我们介绍了如何在预处理环节对高清视频中的物件进行分解,从而 帮助识别视频中的区域重要性。首先组帧被用作分割处理的单位量,然后在组帧 中,我们运用通的帮助得到各个图像中区域单位的运动适量,再用一种关联模型 的快速估算法将会用于全局矢量的计算,接下来,再用一种鲁棒加权值对所得到 的全局矢量进行相应加权最后我们根据全局矢量值对相应环节打上标签,从而 完成了视频中物体分割。第四章中,我们将基于视频物件分割后的结果,从而进 行i m 的计算和分析。 第四章图像重要区域( i m ) 因子的计算以及合成 第四章图像重要区域( im ) 因子的计算以及合成 在上一章中,我们完成了对视频中物件的分割,这样我们就可以知道在视频中 的某一帧里,存在有多少个物体,可以判断哪个是背景,而且在分割之余,我们还获 得了每个物体的移动信息,从而,方便了我们去判断其重要区域分布图,即 i m p o r t a n c em 印( i m ) 。 4 1im 计算的基本结构 i m 要能够清楚的反映在每一帧视频画面上,其哪个部分最为吸引,哪个部分 可以不那么重要,并且给与对应的赋值以方便归类,那么我们要如何计算它呢? w i l f r i e do s b e r g e r , a n t h o n yj m a e d e r 的论文【1 6 】给了我们一个很好的方法,虽然 他们只是针对图形而非视频而进行i m 计算。他们的计算方法是基于h v s 的, 而且情况与我们相似,他们也完成了图像中物件分割的判断,然后他们通过分析 这些物体的大小,形状,所处在的位置和是否背景物体,再加原图画上各个不同 区域的颜色对比,然后综合以上5 种情况的结论,系统地计算出此图片的重要区 域分布图i m ( 图4 1 ) 。 o r l g l n m l s 口n w r 吐t o n - m a 口 j _ 弋 c o m b i n ej i m p o r t a n t f a c t o r s 、 m a p s 图4 - 1o s b e r g e r 的方法 f i g u r e4 - 1t h ew a yo fo s b e r g e r 在计算高清视频i m 的情况中,我们大可以用这样的结构去切入分析,根据 h v s 的规律找出相关的特点进行综合。 1 9 广东工业大学硕士学位论文 4 2lm 因子的选取 定好了计算结构,接下来就要进行组成结构的因子的选取,为了计算的快速性, 在i m 的计算下,我们不可能对所有能够引起人们眼球注意的特征面面俱到,我们 只会选取最为重要,而且是最为方便计算的特征因子。 在许多论文中,我们可以看到不同的特征计算方式1 3 0 f s 】r 让】,比如其中有人脸定位, 根据h v s 的定义,视频或者图像中出现的人脸特写非常吸引人们的目光注意,可是 这会耗费很多资源用以计算,所以在我们的i m 计算中将不会选取这个因子。所以 最后我们选择的因子为:颜色,物体大小,位置,和物体移动这4 个特征点。 首先,颜色在h v s 的定义下是十分重要的影响因素,颜色的不同足以引起人 们注意程度的区别。而且颜色相当容易从每一张视频帧中获取,能够快速方便的 利用处理。而且许多研究者也为我们提供了研究经验。 再者,物体大小也是h v s 定义下比较重要的眼球注意题材,特别是在产生强 烈对比的时候。与颜色相似,获取物体大小信息不会耗费许多计算资源和时间, 只要得到构成物体的象素数即可。 接着到了图像中位置,根据h v s ,位居图像中间的物体在相同情况下会优先 得到人们的关注,而处在边缘的却往往容易被人们所忽略,是一个相当重要的因 子。同时,获取其信息也是相当简单的。 最后是物体的移动信息,前面三个因子都是基于图片考虑的,它们不能反映 视频的情况,最能体现视频和图像效果不同的特点就是视频中的物体会移动,而 图像中不会。而且根据h v s 的描述,一个物体的快慢不同的确非常能影响人们眼 球的关注度。 所以,颜色,物体大小,位置和物体移动速度是我们计算i m 所要获得的4 个因子。 4 3im 因子的分析计算与合成 上一节,我们选定了颜色,物体大小,位置和物体移动速度为组成i m 结构四 个因子,接下来我们将对其分析计算,并且我们会用m a t l a b 帮助我们进行试验工 作。 2 0 第四章图像蕈要区域( i m ) 因子的计算以及合成 4 3 1m a tia b 图像视频处理工具 自m a t l a b 是一种由美国m a t h w o r k s 公司出品的商业数学软件,是一种数值计 算环境和编程语言,主要包括m a t l a b 和s i m u l i n k 两大部分。m a t l a b 基于矩 阵( 英语:m a t r i x ) 运算,其全称m a t r i xl a b o r a t o r y 即得名于此。它在数学类科 技应用软件中在数值计算方面首屈一指。m a t l a b 可以进行矩阵运算、绘制函数 和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工 程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分 析等领域。虽然它以一种科学软件的面目出现,但它更像一种语言,透过工程人 员比较容易理解和学习的方式,借助积木般的构建和解决问题的方式,将目前工 程和科学界重要的问题通过软件制作成工具包。最基础的两个部分是m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 主播应具备的直播素质、意识及良好习惯
- 2026年鄂尔多斯职业学院单招职业适应性测试题库及答案1套
- 2026年长春早期教育职业学院单招职业适应性考试必刷测试卷附答案
- 2026年河北化工医药职业技术学院单招职业倾向性测试题库新版
- 浅谈量子信息与量子计算
- 2026年衡水健康科技职业学院单招职业倾向性考试题库附答案
- 2026年广州城建职业学院单招职业适应性测试题库附答案
- 2026年福建省南平市单招职业倾向性测试题库必考题
- 2026年西南财经大学天府学院单招职业倾向性测试题库及答案1套
- 2026年重庆市资阳地区单招职业适应性测试题库必考题
- 绿色生产与公司可持续发展计划
- 心房颤动诊断和治疗中国指南(2023) 解读
- 2024年国家开放大学电大开放英语考试题题库
- 《涡流检测》课件
- 数电票商品税收分类编码表
- MOOC 光学发展与人类文明-华南师范大学 中国大学慕课答案
- 设备安装监理细则
- 《活出最乐观的自己》读书笔记思维导图PPT模板下载
- 高中地理 人教版 选修二《资源、环境与区域发展》第五课时:玉门之变-玉门市的转型发展
- 催化加氢技术(药物合成技术课件)
- 近三年(2023-2023年)广西物理学业水平考试试题
评论
0/150
提交评论