(信号与信息处理专业论文)基于内容的视频对像分割技术.pdf_第1页
(信号与信息处理专业论文)基于内容的视频对像分割技术.pdf_第2页
(信号与信息处理专业论文)基于内容的视频对像分割技术.pdf_第3页
(信号与信息处理专业论文)基于内容的视频对像分割技术.pdf_第4页
(信号与信息处理专业论文)基于内容的视频对像分割技术.pdf_第5页
已阅读5页,还剩87页未读 继续免费阅读

(信号与信息处理专业论文)基于内容的视频对像分割技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西北工业人学硕士学位论文 摘要 摘要 基于内容的视频对象分割是数字视频技术乃至计算机视觉领域的一个研究 热点。 虽然m p e g - 4 对视频对象作了 定义,但至今没有定义视频对象的具体分割 方法,因此也就成为本论文所研究的内容。沦文的主要工作包括: . 详细探讨了视频对象分割技术的现状, 并对几种有代表性的方法作了深 入分析,讨论和比较了各自的优缺点及适用范围; . 深入研究了有关视频对象分割提取所需的基础技术; 论文的创新点是: 1 .提出了一 种基于边缘块分割的视频对象提取算法。 试验证明, 针对静止 背景下头肩序列中的视频对象分割问题, 本文算法取得了较好的主观视 觉分割效果。 避免了传统分割方法的一些常见问题, 如数学形态学的过 分割问题和基于光流场方程的不稳定和孔径问题。 2 .成功引入了金字塔多尺度分层理论的思想, 形成了从上层到下层、 从宏 块到各个像素的逐层精细分割模式。对于国际通用的头肩视频 c l a i r e 序列,可使视频对象分割的平均处理速度提高到1 2 帧/ 秒,比国际上典 型算法的处理速度 ( 如k i m 算法4 帧/ 秒和l i 算法 7 帧/ 秒) , 有了很大 程度的提高。 3 改进了传统的im 1 值选取方法,可为图像二值化提供更合适的闭值。 从而 有效地将错检或漏检的像素块数量控制在平均1 个左右。 关键词: m p e g - 4 标准 视频编码 面向 对象 视频对象 视频对象分割 头肩视频序列 金字塔理论 西北工业大学硕士学位论义 abs 1 p act abs tract t h e c o n t e n t - b a s e d v i d e o o b j e c t ( v o ) s e g m e n t a t i o n i s t h e r e s e a r c h f o c u s o f t h e d i g i t a l d e f i n e s v i d e o p r o c e s s i n g t e c h n o l o g y a n d t h e c o m p u t e r v i s i o n . a l t h o u g h mp e g - 4 v o , t h e c o n c r e t e m e t h o d o f v o s e g m e n t a t i o n h a s n t b e e n b e c o m e s t h e t o p i c i n v e s t i g a t e d i n d e t a i l i n t h i s t h e s i s . t h e m a i n w o r k e x p l a i n e d , w h i c h i n c l u d e s : . t h e a c t u a l i t y o f v i d e o o b j e c t s e g m e n t a t i o n i s s h o r t c o m i n g s a n d t h e c o r r e c t f i e l d f o r e a c h s t u d i e d . t h e a d v a n t a g e s o n e o f t h e r e p r e s e n t a t i v e m e t h o d s n o w a d a y s i s a l s o a n a l y z e d a n d d i s c u s s e d . t h e b a s a l t e c h n o l o g i e s n e e d e d i n v i d e o o b j e c t s e g m e n t a t io n h a v e b e e n i n v e s t i g a t e d d e e p l y . t h e h i g h l i g h t s a n d t h e n e w m e t h o d p r o p o s e d : 1 .a n a u t o m a t i c v i d e o o b j e c t g e n e r a t i o n m e t h o d w i t h b o u n d a r y b l o c k s e g m e n t a t i o n h as b e e n p r o p o s e d . f o r t h e v i d e o o b j e c t s e g m e n t a t i o n in t h e h e a d - s h o u l d e r s e q u e n c e s w i t h a q u i e s c e n t b a c k g r o u n d , t h e e x p e r i m e n t s h o w s t h a t t h e m e t h o d p r o p o s e d g e t s a g o o d r e s u l t i n s u b j e c t i v e v i s u a l e ff e c t i t a v o i d s s o m e g e n e r a l p r o b l e m s w i t h t h e t r a d i t i o n a l s e g m e n t a t i o n m e t h o d s , s u c h a s t h e o v e r - s e g m e n t a t i o n w i t h m a t h e m a t i c a l m o r p h o l o g y , t h e i n s t a b i l i t y a n d a p e r tu r e e ff e c t w i t h o p t i c a l f lo w . 2 . t h e m u l t i - s c a l e l a y e r i d e a o f t h e p y r a m i d t h e o ry i s s u c c e s s f u l l y i m p o r t e d i n t h i s t h e s i s , s o a s e g m e n t a t i o n p a tt e rn c o m e s i n t o b e i n g , w h i c h f o l l o w s u p p e r l a y e r t o l o w e r l a y e r a n d b l o c k s t o p e l s . t e s t e d w it h t h e u n i v e r s a l h e a d - s h o u l d e r v i d e o -c l a i re s e q u e n c e s , t h i s p a t t e r n c a n p r o c e s s 1 2 f r a m e s p e r s e c o n d ( f / s ) . c o m p a r e d w i t h th e r a t e s o f t h e o t h e r i n t e rn a t i o n a l r e p r e s e n t a t i v e m e t h o d s , s u c h a s 4 f / s w i t h k i m s m e t h o d a n d 7 f / s w i t h l i s m e t h o d , t h e p a tt e rn p r o p o s e d a c c e l e r a t e s r e m a r k a b l y . 3 . t h e t r a d i t i o n a l t h r e s h o d i n g m e t h o d i s i m p r o v e d t o g e t t h e r i g h t t h r e s h o l d f o r t h e i m a g e b i n a r i z a t i o n . t h e w r o n g b l o c k s a n d t h e m i s s i n g b l o c k s a r e l i m i t e d 1 1 西北工业大学硕士学位论文 基于内容的视频对象分割技术 t o o n e b l o c k k e y w o r d s : mp e g - 4 s t a n d a r d , v i d e o e n c o d i n g , o b j e c t - b a s e d , v i d e o o b j e c t , v i d e o o b j e c t s e g m e n t a t i o n , h e a d - s h o u l d e r v i d e o s e q u e n c e s , p y r a m i d t h e o r y i i i 西北工业大学硕士学位论文第章. 绪论 第一章.绪论 1 . 1研究背景及意义 2 0 世纪 9 0 年代以来,信息技术和计算机互联网飞速发展,在此背景下,多 媒体信息己成为人类获取信息的最主要载体, 同时也成为电子信息领域技术开发 和研究的热点。 多媒体信息经数字化处理后具有易于加密、 抗干扰能力i n 、 可再 生中继等优点, 但同时也伴随海量数据的产生, 这对信息存储设备及通信网络均 提出了很高要求,从而成为阻碍人们有效获取和使用信息的重大瓶颈。 因此研究高效的多媒体数据压缩编码方法,以压缩形式存储和传输数字化的 多 媒体信息具有重要意义。 作为多媒体技术的核心及关键, 多媒体数据压缩编码 近年来在技术及应用方面都取得了长足进展, 它的进步和完善正深刻影响着现代 社会的方方面面。 人类获取的信息中7 0 % 以上来自 于视觉, 视频信息在多媒体信息中占有重要 地位; 同时视频数据冗余度最大, 经压缩处理后的视频质量高低是决定多媒体服 务质量的关键因素。 因此数字视频技术是多媒体应用的核心技术, 对视频编码的 研究已 成为信息技术领域的热门话题。 视频对象分割研究, 是近年来才提出的一个比较新的课题。 他是指按照一定 的标准将视频序列分割为具有一定意义的语义实体的组合。 我们把该语义实体成 为 视频对象 ( v i d e o o b j e c t , v o ) a 尽管m p e g - 4 描述了v 0 p 的 概念和用途, 但是并没有对v 0 p 的具体生成算法 做出标准化的规定,而只是提供了v o的表示模型。这并不是意味着它不重要, 相反, 对于m p e g - 4 来说, 视频对象分割是一个非常重要的步骤。 可以说, 视频 对象获取是支持基于内容功能中不可缺少的一部分。 因此, 视频对象的提取成为基于内容的视频编码中的一个鱼待解决的关键难 点。这也就是本文研究工作的意义所在。 由于视频对象分割课题的提出和视频编码技术的发展息息相关, 我们首先回 顾一下视频编码技术的发展历程。 两北工业大学硕士学位论文基于内容的视频对象分割技术 . 1 . 1视频编码技术的发展历程 m p e g 是动态图像专家组( m o v i n g p i c t u r e s e x p e r t s g r o u p ) 的英文缩写,它 成立于1 9 8 8 年, 是专门从事制定多媒体视音频压缩编码标准的国际组织0 1 o m p e g 系列标准己 成为国际上影响最大的多媒体技术标准, 其中m p e g - 1 和m p e g - 2 是采 用以香农信息论为基础的预测编码、 变换编码、 墒编码及运动补偿等第 一 代数据 压缩编码技术(2 j ; m p e g - 4 ( i s o / i e c 1 4 4 9 6 ) 则是基于第二代压缩编码技术: j 制定 的国际标准, 它以视听媒体对象为基本单元, 采用基于内容的压缩编码,以实现 数字视音频、图形合成应用及交互式多媒体的 集成。 m p e g系列标准对v c d , d v d 等视听消费电子及数字电视和高清晰度电视( d t v 今 不能对图像内容进行访问、编辑和回放等操作: 今 未充分利用人类视觉系统 ( h v s , h u m a n v i s u a l s y s t e m )的特性。 m p e g 一 4 则代表了 基于模型/ 对象的第二代压缩编码技术, 它充分利用了 人眼 视觉特性, 抓住了图像信息传输的本质, 从轮廓、 纹理思路出发, 支持基于视觉 内容的交互功能, 这适应了多媒体信息的应用由 播放型转向基于内容的访问、 检 索及操作的发展趋势。 a v 对象 ( a v o , a u d i o v i s u a l o b j e c t ) 是m p e g - 4 为支持基于内容编码而提 出的重要概念。 对象是指在一 个场景中能够访问和操纵的实体, 对象的划分可根 据其独特的纹理、运动、形状、模型和高层语义为依据。在m p e g - 4中所见的视 音频己不再是过去m p e g - 1 , m p e g - 2 中图像帧的概念,而是一个个视听场景 ( a v 场景) ,这些不同的a v 场景由不同的a v 对象组成。 a v 对象是听觉、视觉、或者 视听内容的表示单元,其基本单位是原始a v 对象,它可以是自 然的或合成的声 音、 图像。 原始a v 对象具有高效编码、高效存储与传输以及可交互操作的特性, 它又可进一步组成复合a v 对象。因此m p e g - 4 标准的基本内容就是对a v 对象进 行高效编码、组织、存储与传输。a v对象的提出,使多媒体通信具有高度交互 及高效编码的能力,a v 对象编码就是m p e g - 4 的核心编码技术。 m p e g - 4 不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全 方位的存取性, 它采用开放的编码系统, 可随时加入新的编码算法模块, 同时也 可根据不同应用需求现场配置解码器,以支持多种多媒体应用。 m p e g - 4采用了 新一代视频编码技术, 它在视频编码发展史上第一次把编码 对象从图像帧拓展到具有实际意义的任意形状视频对象, 从而实现了从基于像素 的传统编码向基于对象和内容的现代编码的转变, 因而引领着新一代智能图像编 西北工业大学硕十学位论文 第 一 章. 结论 码的发展潮流。 m p e g - 4除采用第一代视频编码的核心技术,如变换编码、运动估计与运动 补偿、量化、 嫡编码外, 还提出了一些新的有创见性的关键技术, 并在第一代视 频编码技术基础上进行了卓有成效的完善和改进。 下面重点介绍其中的一些关键 技术。 视频对象 ( v o )提取技术 m p e g - 4不再像传统意义下的对整帧图像进行编码,而是将其分解为一些具 有实际意义的 对象, 即 所谓的 视频对象平面( v i d e o o b j e c t p l a n e s , v o p ) e m p e g - 4 实现基于内容交互的首要任务就是把视频/ 图像分割成不同对象,或者把运动对 象从背景中分离出 来,然后针对不同对象采用相应编码方法,以实现高效压缩。 因此视频对象 ( v o )提取即视频对象分割,是m p e g - 4 视频编码的关键技术,也 是新一代视频编码的 研究热点 和难点fi 视频对象分割涉及对视频内容的分析和理解, 这与人工智能、图 像理解、 模 式识别和神经网络等学科有密切联系。目 前人工智能的发展还不够完善, 计算机 还不具有观察、 识别、 理解图像的能力;同时关于计算机视觉的研究也表明要实 现正 确的图 像分割需要在更高 层次上对视频内 容进行理解。 因此, 尽管m p e g - 4框 架己 经制定, 但至今仍没有通用的有效方法去根本解决视频对象分割问题, 视频 对象分割被认为是一个具有挑战性的难题,基于语义的分割则更加困难。 目 前进行视频对象分割的一般步骤是:先对原始视频/ 图像数据进行简化以 利于分割,这可通过低通滤波、中值滤波、形态滤波来完成;然后对视频/ 图像 数据进行特征提取, 可以是颜色、 纹理、 运动、 帧差、 位移帧差乃至语义等特征; 再基于某种均匀性标准来确定分割决策, 根据所提取特征将视频数据归类; 最后 是进行相关后处理,以实现滤除噪声及准确提取边界。 v o p 视频编码技术 视频对象平面 ( v o p , v i d e o o b j e c t p l a n e )是视频对象 ( v o ) 在某一时刻 的采样, v o p 是m p e g - 4 视频编码的核心概念。 m p e g - 4 在编码过程中针对不同v o 采用不同的编码策略,即对前景v o 的压缩编码尽可能保留细节和平滑;对背景 西北t业大学硕士学位论文 基 j 立 内容的视频对象分割技术 v o 则采用高压缩率的编码策略, 甚至不予传输而在解码端由其他背景拼接而成。 这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产生的 方块效应, 而且使用户可与场景交互, 从而既提高了压缩比, 又实现了基于内容 的交互,为视频编码提供了广阔的发展空间。 m p e g 一 4 支持任意形状图像与视频的编解码。 对于任意形状视频对象川 。 极低 比特 率实时应用 ,如可视 电话 、会议 电视 ,m p e g - 4则采用 对于 v l b v ( v e r y l o w b i t - r a t e v i d e o , 极 低比 特率 视频) 核进行编 码。 传统的矩形图 在m p e g - 4 中被看作是v o 的一种特例, 这正体现了 传统编码与 基于内容编码在m p e g - 4 中的统一。 v o 概念的引入,更加符合人脑对视觉信息的 处理方式, 并使视频信号的处理方式从数字化进展到智能化, 从而提高了视频信 号的交互性和灵活性, 使得更广泛的视频应用及更多的内容交互成为可能。 因此 v o p 视频编码技术被誉为视频信号处理技术从数字化进入智能化的初步探索。 视频编码可分级性技术 随着因 特网 业务的巨 大增长, 在速率起伏很大的i p ( i n t e r n e t p r o t o c o l ) 网络及具有不同传输特性的异构网络上进行视频传输的要求和应用越来越多。 在 这种背景下, 视频分级编码的重要性日 益突出, 其应用非常广泛, 且具有很高的 理论研究及实际应用价值,因此受到人们的极大关注。 视频编码的可分级性 ( s c a l a b i l i t y )是指码率的可调整性,即视频数据只 压缩一次, 却能以多个帧率、空间分辨率或视频质量进行解码, 从而可支持多种 类型用户的各种不同 应用要求【的 。 m p e g - 4 通过视频对象层 ( v o l , v i d e o o b j e c t l a y e r ) 数据结构来实现分级 编码。 m p e g - 4 提供了两种基本分级工具,即时域分级 ( t e m p o r a l s c a l a b i l i t y ) 和空域分级( s p a t i a l s c a l a b i l i t y ) , 此外还支持时域和空域的 混合分级。 每一 种分级编码都至少有两层v o l , 低层称为基本层,高层称为增强层。基本层提供 了 视频序列的基本信息,增强层提供了视频序列更高的分辨率和细节。 在 随后 增 补 的视 频 流应 用 框 架 中 ,m p e g - 4 提 出 了 f g s ( f i n e g r a n u l a r i t y s c a l a b l e ,精细可伸缩性)视频编码算法以及 p f g s ( p r o g r e s s i v e f i n e g r a n u l a r i t y s c a l a b l e , 渐进精细可伸缩性) 视频编码算 西北工业大学硕士学位论文 第一章. 绪论 法。 f g s 编码实现简单, 可在编码速率、显示分辨率、内容、 解码复杂度等方面 提供灵活的自 适应和可扩展性, 且具有很强的带宽自 适应能力和抗误码性能。 但 还存在编码效率低于非可扩展编码及接收端视频质量非最优两个不足。 p f g s 则是为改善f g s 编码效率而提出的视频编码算法,其基本思想是在增 强层图像编码时使用前一帧重建的某个增强层图像为参考进行运动补偿, 以使运 动补偿更加有效,从而提高编码效率。 运动估计与运动补偿技术 m p e g - 4 采 用i - v o p , p - v o p , b - v o p 三 种 帧 格式 来 表 征 不同 的 运 动 补 偿 类型 【旧 。 它采用了h . 2 6 3 中的半像素搜索( h a l f p i x e l s e a r c h i n g ) 技术和重叠运动补偿 ( o v e r l a p p e d m o t i o n c o m p e n s a t i o n )技 术 , 同 时 又 引 入 重 复 填 充 ( r e p e t i t i v e p a d d i n g )技术和修改的块 ( 多边形)匹配( m o d i f i e d b l o c k ( p o l y g o n ) m a t c h i n g ) 技术以支持任意形状的v o p 区域。 此 外 ,为提 高运 动估计算 法精度 ,m p e g - 4 采用 了 m v f a s t ( m o t i o n v e c t o r f i e l d a d a p t i v e s e a r c h t e c h n i q u e)和 改进 的 p m v f a s t ( p r e d i c t i v e m v f a s t ) 方法用于运动估计。 对于全局运动估计,则采用基于特 征的快速顽健的 f f r g m e t ( f e a t u r e - b a s e d f a s t a n d r o b u s t g l o b a l m o t i o n e s t i m a t i o n t e c h n i q u e ) 方法。 在m p e g - 4 视频编码中, 运动估计相当 耗时, 对编码的实时性影响很大。因 此这里特别强调快速算法。运动估计方法主要有像素递归法和块匹配法两大类, 前者复杂度很高,实际中 应用较少,后者则在h . 2 6 3 和m p e g 中广泛采用。在块 匹配法中,重点研究块匹配准则及搜索方法。目 前有三种常用的匹配准则: ( 1 )绝对误差和 ( s a d , s u m o f a b s o l u t e d i f f e r e n c e )准则; ( 2 ) 均方误差 ( m s e , m e a n s q u a r e e r r o r ) 准则; ( 3 ) 归一化互相关函数 ( n c c f , n o r m a l i z e d c r o s s c o r r e l a t i o n f u n c t i o n ) 准则。 在上述三种准则中, s a d 准则具有不需乘法运算、实现简单方便的优点而使 用最多,但应清楚匹配准则的选用对匹配结果影响不大。 西 北t .业人 学硕士学位论文 基于内容的视频对象分割技术 在选取匹配准则后就应进行寻找最优匹配点的搜索工作。 最简单、 最可靠的 方法是全搜索法 ( f s , f u l l s e a r c h ) , 但计算量太大, 不便于实时实现。 因此快 速搜索法应运而生, 主要有交叉搜索法、 二维对数法和钻石搜索法, 其中钻石搜 索法被m p e g - 4 校验模型 ( v m , v e r i f i c a t i o n m o d e l ) 所采纳,下面详细介绍。 钻石搜索 ( d s , d i a m o n d s e a r c h ) 法以 搜索模板形状而得名, 具有简单、 鲁 棒、 高效的特点, 是现有性能最优的快速搜索算法之一。 其基本思想是利用搜索 模板的形状和大小对运动估计算法速度及精度产生重要影响的 特性。 在搜索最优 匹配点时, 选择小的搜索模板可能会陷入局部最优, 选择大的搜索模板则可能无 法找到最优点。因此 d s算法针对视频图像中运动矢量的基本规律,选用了两种 形状大小的搜索模板。 大钻石搜索模板 ( l d s p , l a r g e d i a m o n d s e a r c h p a t t e r n ) , 包含9 个候 选位置; 小钻石搜索模板 ( s d s p , s m a l l d i a m o n d s e a r c h p a t t e r n ) , 包含 5 个候 选位置。 d s 算法搜索过程如下:开始阶段先重复使用大钻石搜索模板,直到最佳匹 配块落在大钻石中心。由于l d s p 步长大,因而搜索范围广,可实现粗定位,使 搜索不会陷于局部最小, 当 粗定位结束后, 可认为最优点就在l d s p周围8个点 所围菱形区域中。 然后再使用小钻石搜索模板来实现最佳匹配块的准确定位, 以 不产生较大起伏,从而提高运动估计精度。 此外s p r i t e 视频编码技术也在m p e g - 4 中 应用广泛, 作为其核心技术之一。 s p r i t e又 称镶嵌图或背景全景图,是指一个视频对象在视频序列中所有出现部 分经拼接而成的一幅图像。 利用s p r i t e 可以直接重构该视频对象或对其进行预 测补偿编码。 s p r i t e 视频编码可视为一种更为先进的运动估计和补偿技术,它能够克服 基于固定分块的传统运动估计和补偿技术的不足,m p e g - 4正是采用了将传统分 块编码技术与 s p r i t e 编码技术相结合的策略。 西北工业大学硕士学位论文 第一章. 绪论 1 . 2 】 _ 2 . 1 本文研究内容和章节安排 主要研究内容 因为视频对象分割技术的研究是一 个 崭新的、 充满挑战性的课题, 是国际学 术界的研究热点,目 前仍然属于研究的初级阶段。 所以, 市面上没有系统介绍它 的相关书籍。 在从网上、 教研室所能查到的视频对象分割学术论文范围之外, 笔 者查阅了视频对象相关课题如视频压缩、 动目 标检测、 识别和跟踪等国内外大量 的文献。在此基础上,笔者主要进行了下列工作: 1 ) 认 真总结了 现今已 有的几种典型视频分割算法。 针对基于光流场的参数模型 法、 基于时空结合的数学形态学分割法以及基于帧间差的高阶统计量法等典 型算法,从其算法流程、 应用到的理论、技术特点、以及实际分割效果、适 用范围等进行了仔细剖析,并分别给出了试验图像; 2 )深入研究了 有关视频对象分割的 基础技术和方法。 从边缘检测技术、 闺 值确 定方法、以及数学形态学处理和分水岭算法等静态图像处理技术;到光流场 方程和运动参数模型、 高阶矩检测器、 活动轮廓模型等运动图像序列处理技 术, 着重于从理论分析的角度剖析了各自的特点和不足,为进 一 步研究奠定 了良好理论基础; 3 提出了一种基于边缘块分割的 视频对象自 动提取快速算法。 试验证明, 针对 静止背景下头肩序列中的视频对象分割问题, 本文算法取得了较好的主观视 觉分割效果。避免了传统分割方法的一些常见问 题,如数学形态学的过分割 问题和基于光流场方程的不稳定和孔径问 题; 4 )成功引入了金字塔多尺度分层理论的思想,形成了从上层到下层、从宏块到 各个像素的逐层精细分割模式。对于国际通用的头肩视频 c l a i r e序列,可 使视频对象分割的平均处理速度提高到1 2 帧/ 秒,比国际上典型算法的处理 速度 ( 如k i m 算法4 帧/ 秒和l i 算法7 帧/ 秒 ,有了 很大程度的提高; 5 )改进了传统的闽值选取方法, 可为图像二值化提供合适的il l 值, 从而有效地 将错检或漏检的像素块数量控制在平均1 个左右。 西北工业大学硕士学位论文基于内容的视频对象分割技术 . 2 , 2本文章节安排 第 一 章为绪论部分。 介绍了本文课题的研究背景和意义, 视频编码技术的发 展历程,并详细介绍了mp e g - 4 的关键技术。 第二章介绍了 视频对象提取技术的发展概况, 并对当今常用的算法作了详细 地描述、分析和说明。 第三章分析了视频分割基础技术静态图像处理技术和运动图像序列处 理技术。对不同的方法进行了仿真试验,为本文算法的选择奠定基础。 第四章提出了一种基于边缘块分割的视频对象自 动提取快速算法。 本文算法 引入金字塔多分辨率原理, 采用从上到下, 即从像素块到像素的逐级细化的分割 模式。 通过运动块检测得到大运动变化区域; 对象块跟踪结合上一帧对象块弥补 运动不充分的区域; 连通域标定校正得到正确的视频对象块, 再将搜索区域限定 在对象边缘块, 有效的降低了处理时间, 使实时分割成为可能: 并对分类后的区 域细分割而最终得到精确的视频对象。 本文算法在对头肩序列中的视频对象提取 试验中取得了比较满意的效果。 第五章为总结和展望。 对本文研究内容和创新点作了总结, 说明了今后工作 的 重点, 对v o 提取的发展方向作了大胆的 预测: 并对最新的m p e g - 7 , m p e g - 2 1 视频标准作了简要介绍。 西北一 _ 业大学硕士学位论文 第二章.v o分割算法综述 第二章. v o 分割算法综述 2 . 1 视频对象的定义 m p p ,g - 4增加了支持基于内容的功能,它把视频序列分割成语义意义上的视 频对象 ( v i d e o o b j e c t j o ) , 视频对象在某一瞬时的 “ 快照” 称为视频对象平 面 ( v i d e o o b j e c t p l a n e s , v o p ) ,且一系列v o p 表示一 个运动对象 。 , 。 那么为什么v o 提取至今仍然没有一个确定的方法呢? 一方面这是由图像分割的局限 性决定的。 提取语义对象的过程实是一个特镇 提取与分割过程。 图像的本身就是计算机视觉和图像处理中很难解决的一个不确 定性病态问题。 虽然人们己经进行了几十年的研究, 至今尚无统一的理论和评判 标准, 现有的分割算法大都是针对具体问 题的 11 , 12 , 1.11 。另外,缺乏一种明确的是 和视频对象分割算法的语义表达和语义均匀性标准。要获得对视频对象的分割, 首先要求对视频对象的属性有一个明确的规定, 即组成它的区域满足某种均匀一 致性, 比如通过它的纹理信息、 运动信息、 形状信息、 甚至是模型和高层语义信 息划分。 但是这些信息, 如局部的统计量、 形状参数和运动参数等, 需要利用分 割的结果来精确获取,这样就陷入了一个循环之中。而且在自 然图像进行分割, 高层次的形状和运动等级和信息也不足以给出争取的分割结果, 需要更高层次上 各种物体的物理及概念层次的语义知识。 而我们目 前还很难明确的表达一种适合 于分割算法的语义概念,也还没有哪种通用算法能够进行精确可靠的自 动分割。 所以在各个标准中并没有制定视频对象分割的通用算法, 而是将这部分工作留给 了针对具体应用需要的人们以及广大的研究人员去研究和探索。 2 . 2 视频分割方法的分类 在现今的视频处理研究中, 虽然目 前还没有一种高 效、 通用的视频分割方法, 但是从多种研究途径出发, 人们己经探索出许多种视频分割方法。 因此, 根据不 同的分类标准,现有的视频分割方法可以分类如下: a .按照人工参与的 程度, 通常可分为自 动分割“ j , 15 , ifi1 和半自 动分割 i7 , in . 19 . la ) 西北一 _ 业大学硕士学位论文 第二章.v o分割算法综述 第二章. v o 分割算法综述 2 . 1 视频对象的定义 m p p ,g - 4增加了支持基于内容的功能,它把视频序列分割成语义意义上的视 频对象 ( v i d e o o b j e c t j o ) , 视频对象在某一瞬时的 “ 快照” 称为视频对象平 面 ( v i d e o o b j e c t p l a n e s , v o p ) ,且一系列v o p 表示一 个运动对象 。 , 。 那么为什么v o 提取至今仍然没有一个确定的方法呢? 一方面这是由图像分割的局限 性决定的。 提取语义对象的过程实是一个特镇 提取与分割过程。 图像的本身就是计算机视觉和图像处理中很难解决的一个不确 定性病态问题。 虽然人们己经进行了几十年的研究, 至今尚无统一的理论和评判 标准, 现有的分割算法大都是针对具体问 题的 11 , 12 , 1.11 。另外,缺乏一种明确的是 和视频对象分割算法的语义表达和语义均匀性标准。要获得对视频对象的分割, 首先要求对视频对象的属性有一个明确的规定, 即组成它的区域满足某种均匀一 致性, 比如通过它的纹理信息、 运动信息、 形状信息、 甚至是模型和高层语义信 息划分。 但是这些信息, 如局部的统计量、 形状参数和运动参数等, 需要利用分 割的结果来精确获取,这样就陷入了一个循环之中。而且在自 然图像进行分割, 高层次的形状和运动等级和信息也不足以给出争取的分割结果, 需要更高层次上 各种物体的物理及概念层次的语义知识。 而我们目 前还很难明确的表达一种适合 于分割算法的语义概念,也还没有哪种通用算法能够进行精确可靠的自 动分割。 所以在各个标准中并没有制定视频对象分割的通用算法, 而是将这部分工作留给 了针对具体应用需要的人们以及广大的研究人员去研究和探索。 2 . 2 视频分割方法的分类 在现今的视频处理研究中, 虽然目 前还没有一种高 效、 通用的视频分割方法, 但是从多种研究途径出发, 人们己经探索出许多种视频分割方法。 因此, 根据不 同的分类标准,现有的视频分割方法可以分类如下: a .按照人工参与的 程度, 通常可分为自 动分割“ j , 15 , ifi1 和半自 动分割 i7 , in . 19 . la ) 西北 _ 业大学硕士学位论文 基于内容的视频对象分割技术 根据图像分割中 使用的分割信息, 可分为基于运动的分割川、 基于时空 的分割m i 和基于纹理的分割(27 ) 根据使用知识的特点与层次,将图像分割方法分为数据驱动与模型驱动 两大类型,其中 数据驱动分割2n ) 直接对当前图像数据进行操作, 虽然也 可使用有关先验知识, 但不依赖于知识; 模型驱动分割e s , z s l 则直接建立 在先验知识的基础上, 这样分类更符合当前图 像分割的技术要点。 2 . 2现今v o p 分割算法概述 2 .2 . 1基于光流场的参数模型法 单纯根据运动信息的均一性来划分区域, 估算出图像的运动场, 将具有相似 运动的区域聚类,形成视频对象的方法,而并没有充分考虑空间信息。 a d i v g (1 ,) 提出了 将连续视频的 每帧图 像进行分层表示。 通过光流场方程和多 参数的运动模型联立求解, 将符合相同运动模型的区域看作同一个视频对象的不 同部分,把可用一个仿射变换描述的像素归为层或 v o p 。 这样,每一层结合它 的仿射运动参数就可以建立视频序列中的不同v o 。算法一开始估计运动场时, 把一帧分割为若干方块, 对每个方块计算仿射运动参数作为初始运动模型, 并用 迭代自 适应k均值算法(28 ) 合并相同 运动模型的区 域。 具体如下: 若一个像素的光流和用某个层的仿射运动参数模型合成出来的光 流的差 ( 有方向, 矢量差) 小于和其他层的参数合成的光流的差, 那么此像素被 归为此层。 显然, 为了构建不同的层, 需要大量的信息, 即需要一个很长的图像 序列。 将每层按照仿射运动参数做形变和插值, 以对齐运动一致的物体, 在对这 个对齐的序列使用时间中值滤波器以获得每个v o的单一表示图。 缺点: 无法表示在图像序列中沿自 身轴旋转的 对象, 例如沿中轴线旋转的立 方体盒子; 因为噪声的影响, 以及光流场方程本身的遮挡问 题和孔径效应, 光流 估计的可靠性、 精确性较差; 多参数仿射运动模型只适用于刚体运动, 无法描述 非刚体的运动, 例如行走中的人; 并且, 层的建立需要一个较长的序列, 不可能 实时完成。 西北 _ 业大学硕士学位论文 基于内容的视频对象分割技术 根据图像分割中 使用的分割信息, 可分为基于运动的分割川、 基于时空 的分割m i 和基于纹理的分割(27 ) 根据使用知识的特点与层次,将图像分割方法分为数据驱动与模型驱动 两大类型,其中 数据驱动分割2n ) 直接对当前图像数据进行操作, 虽然也 可使用有关先验知识, 但不依赖于知识; 模型驱动分割e s , z s l 则直接建立 在先验知识的基础上, 这样分类更符合当前图 像分割的技术要点。 2 . 2现今v o p 分割算法概述 2 .2 . 1基于光流场的参数模型法 单纯根据运动信息的均一性来划分区域, 估算出图像的运动场, 将具有相似 运动的区域聚类,形成视频对象的方法,而并没有充分考虑空间信息。 a d i v g (1 ,) 提出了 将连续视频的 每帧图 像进行分层表示。 通过光流场方程和多 参数的运动模型联立求解, 将符合相同运动模型的区域看作同一个视频对象的不 同部分,把可用一个仿射变换描述的像素归为层或 v o p 。 这样,每一层结合它 的仿射运动参数就可以建立视频序列中的不同v o 。算法一开始估计运动场时, 把一帧分割为若干方块, 对每个方块计算仿射运动参数作为初始运动模型, 并用 迭代自 适应k均值算法(28 ) 合并相同 运动模型的区 域。 具体如下: 若一个像素的光流和用某个层的仿射运动参数模型合成出来的光 流的差 ( 有方向, 矢量差) 小于和其他层的参数合成的光流的差, 那么此像素被 归为此层。 显然, 为了构建不同的层, 需要大量的信息, 即需要一个很长的图像 序列。 将每层按照仿射运动参数做形变和插值, 以对齐运动一致的物体, 在对这 个对齐的序列使用时间中值滤波器以获得每个v o的单一表示图。 缺点: 无法表示在图像序列中沿自 身轴旋转的 对象, 例如沿中轴线旋转的立 方体盒子; 因为噪声的影响, 以及光流场方程本身的遮挡问 题和孔径效应, 光流 估计的可靠性、 精确性较差; 多参数仿射运动模型只适用于刚体运动, 无法描述 非刚体的运动, 例如行走中的人; 并且, 层的建立需要一个较长的序列, 不可能 实时完成。 砷北1 业大学硕士学位论文 基于内容的视频对象分割技术 b 根据图像分割中使用的分割信息,可分为基于运动的分割“”、基于时字 的分割”和基于纹理的分割”。 c 根据使用知识的特点与层次,将图像分割方法分为数据驱动与模型驱动 两大类型,其中数据驱动分割”直接对当前图像数据进行操作,虽然也 可使用有关先验知识,但不依赖于知识;模型驱动分割“5 。“1 则直接建立 在先验知识的基础上,这样分类更符合当前图像分割的技术要点。 2 2 现今v o p 分割算法概述 2 2 1 基于光流场的参数模型法 单纯根据运动信息的均一性来划分区域,估算出图像的运动场,将具有相似 运动的区域聚类,形成视频对象的方法,而并没有充分考虑空间信息。 a d i vo ”提出了将连续视频的每帧图像进行分层表示。通过光流场方程和多 参数的运动模型联立求解,将符合相同运动模型的区域看作同一个视频对象的不 同部分,把可用一个仿射变换描述的像素归为层或v o p 。这样,每一层结合它 的仿射运动参数就可以建立视频序列中的不同v o 。算法一开始估计运动场时, 把一帧分割为若干方块,对每个方块计算仿射运动参数作为初始运动模型,并用 迭代自适应k 均值算法啪3 合并相同运动模型的区域。 具体如下:若一个像素的光流和用某个层的仿射运动参数模型合成出来的光 流的差( 有方向,矢量差) 小于和其他层的参数合成的光流的差,那么此像素被 归为此层。显然,为了构建不同的层,需要大量的信息,即需要一个很长的图像 序列。将每层按照仿射运动参数做形变和插值,以对齐运动一致的物体,在对这 个对齐的序列使用时间中值滤波器以获得每个v o 的单一表示图。 缺点:无法表示在图像序列中沿自身轴旋转的对象,例如沿中轴线旋转的立 方体盒子;因为噪声的影响,以及光流场方程本身的遮挡问题和孔径效应,光流 估计的可靠性、精确性较差;多参数仿射运动模型只适用于刚体运动,无法描述 非刚体的运动,例如行走中的人;并且,层的建立需要一个较长的序列,不可能 实时完成。 阿北工业大学硕十学位论文 第二章v o 分割算法综述 仿真试验与结果分析 我们对美国c a r n e g i em e l l o n 大学机器人研究所v s a m ( v i d e os u r v e i l l a n c e a n dm o n i t o r i n g ) 中心的航拍视频中的单目标序列和多目标序列进行了试验。 首先第一组是单目标序列( 规格为s g i ,3 2 0 x2 4 0 ,g r a y ,l o h z ) ,捕述的 是一辆小汽车在公路上行驶。 ( a )( b ) ( c ) 图2 1 单目标序列:( a ) 上一帧( b ) 当前帧( c ) 检测结果 如图2 - 1 所示,准确的检测出了完整的视频对象运动区域,为下一步精确的 提取视频对象奠定了基础。 第二组是多目标序列( 规格为s g i ,3 2 0 x2 4 0 ,g r a y ,l o h z ) ,显示了一辆 小汽车从右下角向上行驶,同时一辆大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论