(信号与信息处理专业论文)基于细胞神经网络的视频对象分割算法的研究.pdf_第1页
(信号与信息处理专业论文)基于细胞神经网络的视频对象分割算法的研究.pdf_第2页
(信号与信息处理专业论文)基于细胞神经网络的视频对象分割算法的研究.pdf_第3页
(信号与信息处理专业论文)基于细胞神经网络的视频对象分割算法的研究.pdf_第4页
(信号与信息处理专业论文)基于细胞神经网络的视频对象分割算法的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(信号与信息处理专业论文)基于细胞神经网络的视频对象分割算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 摘要 传统的视频编码标准如m p e g l 2 、h 2 6 1 3 由于不需要对场景进行分割或分析, 从某种意义上说是低级处理技术。新的视频编码标准m p e g 一4 引入了视频对象平面 ( v o p ) 的概念,通过将场景分割成语义对象并分别进行编码和解码,支持基于内容 的交互性和可分层性。 将视频序列分解成一系列的v o p 是m p e g 一4 成功与否的关键之一。目前国p q p l - 文 献中已经提出了很多的视频对象分割算法,但是视频对象分割还是一个经典难题。 首先,大多数分割算法都依赖于具体的应用,即只适合特定类型的视频序列;其次, 由于算法复杂和计算量大,分割一帧至少需要一秒钟的时间,显然离实时处理的要 求还相差甚远。 越来越多的图像、视频处理和模式识别任务已很难用传统的图像视频处理框架 完成。可能的解决方法之一是采用一种新的计算体系结构。而细胞神经网络( c n n ) 是 一个具有实时信号处理能力的大规模非线性模拟电路。c n n 最有吸引力的特征就是它 的高速的计算能力,以及和h v s ( 人类视觉系统) 很多的相似性。故它特别适合于图 像和视频处理任务。因此,将c n n 引入视频对象分割是一个值得研究的问题。 本论文在分析视频对象分割和细胞神经网络相关理论的基础上,着重探讨了基于 细胞神经网络体系结构的视频分割算法。其应用领域是在视频会议、监控中广泛存 在的头肩序列。头肩序列具有背景可预先得到,实时性要求高等特点。针对单一背 景的头肩序列,提出了基于彩色信息的c n n 算法,克服了仅利用灰度信息时的信息 不完整性问题。对背景相对复杂的视频序列,提出了一种利用先验信息的基于彩色 边缘的变换检测算法。它避免了常规变化检测算法存在的阂值选择问题,取得较好 的分割效果。所有操作都是使用的简单的c n n 模板,可以用c n n u m 来直接实现。 另外,选用和设计恰当的模板是细胞神经网络应用的难点之一。本文还探讨了使用 遗传算法进行细胞神经网络模板的设计,对c n n 模板库里的空洞填充模板进行了改 进,得到了处理时间更短,效果更好的模板参数。 本文课题是国家自然科学基金的资助项目,项目编号( 6 0 1 7 2 0 2 0 ) 。 关键词视频对象平面,头肩序列细胞神经网络,c n n 模扳 上海大学硕士学位论文 a b s t r a c t t r a d i t i o n a lv i d e os t a n d a r d ss u c ha sm p e g 一1 1 2 h 2 6 1 3a r el o w 1 e v e lt e c h n i q u e si n as e n s e ,b e c a u s en os e g m e n t a t i o no ra n a l y s i so ft h es c e n ei sr e q u i r e d t h en e wv i d e o s t a n d a r dm p e g - 4i n t r o d u c e st h ec o n c e p to fv i d e oo b j e c tf v o 、t os u p p o r tc o n t e n t b a s e d f u n c t i o n a l i t i e sa n ds e a l a b i l i t i e s w h i c ha r eu s e f u li nm a n yp r a c t i c a ls i t u a t i o n s v i d e oo b j e c ts e g m e n t a t i o ni sak e yi s s u ef o r t h es u c c e s s f u iu s eo fm p e g 4 r e c e n t l yi tg a i n e dc o n s i d e r a b l er e s e a r c he f f o r t s a n dm a n ya l g o r i t h m sh a v eb e e n p r o p o s e di nt h el i t e r a t u r e h o w e v e r , i ti ss t i l lc o n s i d e r e da soneo ft h em o s tc h a l l e n g i n g t a s k si nt h em a c h i n ev i s i o nf i e l d f i r s t m o s to f t h ea l g o r i t h m sa r ea p p l i c a t i o n d e p e n d e n t a n dc a nb ea p p l i e dt os o m es p e c i f i cv i d e os e q u e n c e s s e c o n d a tl e a s tls e c o n do rm o r e i sn e e d e dt os e g m e n to n ef r a m eb e c a u s eo ft h ea l g o r i t h mc o m p l e x i t ya n dh i 曲 c o m p u t a t i o n si n v o l v e d w h i c hi ss t i l lf a ra w a yf r o mr e a lt i m ep e r f o r m a n c e r e c e n t l y i tb e c a m ec l e a rt h a tt h ec l a s s i c a la n dw e l l d e v e l o p e df r a m e w o r ki ni m a g e p r o c e s s i n gi s n tp o w e r f u le n o u g ht o s o l v ec o m p l e xi m a g ep r o c e s s i n ga n dp a t t e r n r e c o g n i t i o nt a s k s o n ep o s s i b l eb r e a k t h r o u g hi st h ea d o p t i o no fn e wc o m p u t a t i o n a r c h i t e c t u r e i ,e t h eu s eo f c e l l u l a rp r o c e s s o ra r r a y s c e l l u l a rn e u r a ln e t w o r k s ( c n n ) i s an o n l i n e a rd y n a m i cp r o c e s s o ra r r a vd h et o i t sh i g hp a r a l l e la r c h i t e c t u r ea n d r e s e m b l a n c et oh v s ,c n ni sp e r f e c t l ys u i t a b l et oi m a g e v i d e op r o c e s s i n ga p p l i c a t i o n s s oi ti sw o r t h yo f i n t r o d u c i n gc n ni n t ov i d e oo b j e c ts e g m e n t a t i o n a f t e rab r i e fr e v i e wo fr e l a t e dt h e o r yf o u n d a t i o no fv i d e os e g m e n t a t i o na n dc n n t h i st h e s i sd i s c u s s e si nd e t a i lt h ev o pg e n e r a t i o ni nt h ec n na r c h i t e c t u r e t h e a p p l i c a t i o nd o m a i ni s1 i m i t e dt oh e a da n ds h o u l d e rs e q u e n c ef h s s ) ,w h i c hi sf o u n da sa m a j o rt a r g e to fm p e g 一4v i d e oc o n f e r e n c i n gs y s t e m s ,s u r v e i l l a n c e se t c f o rh s s ,a p r i o r ib a c k g r o u n di n f o r m a t i o nc anb eg o ti na d v a n c ea n dr e a lt i m ep e r f o r m a n c ei so f t e n r e q u i r e d a na l g o r i t h m ,w h i c hm a k e su s eo fo nc o l o ri n f o r m a t i o n i sp r o p o s e df o rs i m p l e b a c k g r o u n dv i d e os e q u e n c es o a st oo v e r c o m et h ei n s u 伍c i e n ti n f o r m a t i o np r o b l e mf o r m o n o c h r o m eb a s e da l g o r i t h m f o rr e l a t i v e l yc o m p l e xb a c k g r o u n dv i d e os e q u e n c e ,a n a l g o r i t h mb a s e do nc o l o re d g ec h a n g ed e t e c t i o ni sp r o p o s e d i tc a na v o i dt h ec r i t i c a l s e l e c t i o no ft h r e s h o l df o rc o n v e n t i o n a lc h a n g ed e t e c t i o n i tcana l s op r o v i d eag o o d s p a t i a la c c u r a c y a l lt h eo p e r a t i o n so ft h em e t h o d sa p p l yo n l ys i m p l ec n nt e m p l a t e s w h i c hc a nb er e a l i z e db yc n n u md i r e c t l y i na d d i t i o n t h et e m p l a t ed e s i g ni sa l s oa ni n d i s p e n s a b l es t e pf o rc n n sa p p l i c a t i o n w ed i s c u s st h et e m p l a t ed e s i g nu s i n gg e n e t i ca l g o r i t h m ( g a ) a sa ne x a m p l e ,t h e h o l e f i l l i n gt e m p l a t ei nc n nt e m p l a t el i b r a r yi si m p r o v e d i tc a ns h o r t e nt h ep r o c e s s i n g t i m ew i t hb e t t e rr e s u l t s t h i st h e s i si ss u p p o r t e db yt h en a t i o n a in a t u r es c i e n c ef o u n d a t i o no fc h i n a ( n o 6 0 1 7 2 0 2 0 ) k e y w o r d s :v i d e oo b j e c tp l a n e ,h e a da n ds h o u l d e rs e q u e n c e ( h s s ) ,c e l l u l a rn e u r a l n e t w o r k s ( c n n ) ,t e m p l a t ed e s i g n n 上海大学硕士学位论文 第一章绪论 1 1 研究背景和贡献 传统的视频编码标准如m p e g - 1 1 1 、m p e g - 2e 2 、h 2 6 1 3 nh 2 6 3 1 4 1 不需要 对场景进行分割或分析,所以从某种意义上说是低级处理技术。新的编码标准 m p e g 一4 支持基于对象的内容表达。通过分别对物理对象编码和解码,提供一套 使用户可交互式地操作视频对象的工具。基于内容的可分层性,允许编解码器在 不同层次、以不同分辨率分配可用的比特流。 由于m p e g 4 采用了基于对象的压缩编码方法,它可以把图像和视频分割成 不同的对象,分别处理。除了能提高数据压缩,还能实现基于内容的交互功能, 有效的处理基于对象的多媒体压缩、存取与互用,可广泛的应用到网上购物、远 程医疗、教学、监控及可视电话等领域。 为实现基于内容的功能,m p e g 一4 需要先把场景分割成视频对象( v 0 ) 。在帧时 刻的视频对象称为“视频对象平面”( v o p ) 。v o p 分割也日渐成为人们所感兴趣 的研究课题 5 ,6 ,7 ,8 ,9 。但是目前还没有一种通用的自动分割算法适用于各 种视频序列。由于语义视频对象提取的复杂性,当前大多数的分割系统提取每个 v o p 需要一秒甚至更长的时间 1 0 。这样,对于一个两分钟长的视频,大约需要 l 2 小时的时间才能完成视频对象分割。显然这离实时处理的要求还相差甚远。 细胞神经网络( c n n ) 是一个具有实时信号处理能力的大规模非线性模拟电路, 由大量的胞元组成,每个胞元只允许与最邻近的细胞之间直接通信 1 1 。c n n 最有 吸引力的特征就是它的高速的计算能力,和与h v s ( 人类视觉系统) 很多的相似性, 也特别适合于图像视频处理应用。因此,将c n n 引入视频对象分割是一个很值得 研究的问题。 v o p 分割大致可以分为初始帧分割和其后的基于运动信息的对象跟踪,其中初 始帧分割是保证准确分割的关键,本文把它作为研究的重点,具体的研究内容如 下: 利用彩色信息,针对单一背景的头肩序列进行c n n 初始帧的分割,避免使用 阈值化的梯度方法,利用填充技术很好的得到了对象的二值掩模。 上海大学硕士学位论文 阂值化的梯度方法,利用填充技术很好的得到了对象的二值掩模。 ( 1 ) 在( 1 ) 的基础上,根据头肩序列的特点,利用先验的背景知识,使 用一种基于彩色边缘的变换检测方法进行c n n 初始帧的分割,并通 过一系列的模板操作得到所需要的结果。两种方法中使用的c n n 模 板在c n n 的模板库中都可以找到,因此可以直接在c n n u m 上实现。 ( 2 ) 用遗传算法进行c n n 模扳参数的设计,对遗传算法进行适当的改进, 设计出了效果更好的空洞填充模板。 1 2 论文结构 本论文共分六章,主要阐述了基于细胞神经网络的v o p 分割。各章内容分别 如下: 第一章叙述了本论文的背景和贡献。简要概述了视频序列的分割的必要性和 特点,以及将细胞神经网络引入视频分割的意义。 第二章是对视频对象分割的概括与总结,主要介绍了v o p 相关概念,视频对 象分割的分类方法,以及用于v o p 分割常用的算法和步骤,初步介绍了细胞神经 网络的知识。 第三章主要是介绍细胞神经网络的一些概念、网络结构与特点等。并讨论了 细胞神经网络在图像分割方面的应用。概述了细胞神经网络在视频分割应用中的 研究现状。 第四章主要是讨论利用彩色信息以及基于彩色信息的变换检测方法,来提取 视频对象的初始帧,并给出了相应的试验结果。 第五章主要讨论了细胞神经网络模板参数的设计方法,对对遗传算法进行模 板设计提出了部分改进,得到更加优化的空洞填充模板。 第六章为结论以及未来的工作。探讨了本文的优点与不足,并说明了下一步 的工作内容。 一 :海大学硕士学位论文 第二章视频对象的分割概述 2 1 引言 m p e g 一4 是新近公布的主要着眼于甚低比特率( v l b c ) 的视频编码标准。为了适 应现在和未来多媒体的应用,m p e g 一4 提供了一个灵活的框架和一个开放的工具集, 以支持八个关键性功能 1 2 这些功能一般可以归为三类: 1 基于内容的交互性。m p e g 一4 使得用户可以与视频场景中有意义的对象进行交 互性操作。这包括基于内容的数据存取,检索、超连接、询问或浏览等工具。它将 有可能分别地解码、处理视频对象和不需要译码而编辑原始景象。 此外,m p e g 一4 将提供组合自然和合成景象或对象( 混合自然和合成数据编码) 的方法且改进视频序列中帧和对象的时间随机存取。 2 压缩。m p e g - 4 的目标是提供在相似的比特率中比现有标准主观上更好的视 频质量。它也支持立体和多视点的视频应用所需要的多个并行数据流。 3 通用存取。为了保证在广泛范围内的存储和传输媒体中的数据存取,m p e g 一4 必须提供足够的误差健壮性和基于内容的可分层性。 经典的基于帧的视频标准无法提供这些基于内容的功能,因此就需要一种全新 的方法来实现它。m p e g - 4 依据基于内容的视频对象表示,把景象看成各自独立编码 和解码的许多对象的合成。 视频对象( v o ) :视频对象是景象中有语义意义的对象。 视频对象平面o p ) :视频对象平面是视频序列中在某个帧时刻的v o 。视频序 列的每一帧由场景中对应于各个v o s 的v o p s 所组成。 视频对象层o l ) :视频对象层是一包含对应v o p s 的形状、运动和纹理信息 的有序的v o p s 序列。 图2 1 表示将一个图像分解为几个独立的v o p ,这个场景包括两个物体( 一 个人和一颗树) 还有背景。序列中的每一帧都被分割成三个v o p ,那么分割后的序列 就由一系列的v o p o ,v o p i 和v o p 2 组成,这就可以分别对每一个v o 进行单独编 码形成一个用户可以控制的比特流。 一旦视频序列按照视频对象和视频对象平面来表达,它便易于实现所有的新的功 一h 海大学硕十学位论文 能,例如交互性和基于内容的分层。现在让我们看一下由视频校验模型定义的 m p e g - 4 编码和解码器结构。 图2 - 1 将一副图像分割成多个v o p 如图2 2 所示,第一级是v o p 的定义,其中输入信号被分割成视频对象平面。注意 m p e g 一4 视频校验模型 1 3 没有指定确切的生成v o p 的方法。目前它仍是个开放的领 域。然后分别编码每个v o p 的形状、纹理信息和运动矢量,这样用户可以分配不同 v o p 间的b e 特率。例如因为带宽限制可以选择不传输某些v o p 或对某些v o p 选择不 同的空间和时间分辨率以提高视觉上重要对象的质量。解多路复用器为不同的v o p ( 它们然后被分别解码) 分配输入的比特流。最后的合成级把v o p 组合在一起,重 建场景。 输 入 视 频 图2 - 2m p e g 一4 州编码器和解码器结构 输 出 显 一 不 4 上海大学硕一 j 学位论文 由上可见,要实现m p e g - 4 的交互功能,从输入视频序列中分割出v o 是必须的。 虽然在第二代编码技术中曾经出现一系列基于光流场、彩色、强度等低层次的特征 区域聚类的分割方法,但这对分割具有语义意义的对象是无效的。 2 2 视频对象分割算法分类 视频是一串连续的图像序列,视频的每一帧( 在某一时刻的采样) 即可视为一 幅图像。因此视频序列实际上是图像在时间维的扩展,但视频不是图像在时间维的 简单扩展,因为视频序列的帧间存在着大量的时间冗余和空间冗余。从图像和视频 的关系可以看出,视频分割与图像分割存在着一些联系。目前,各种文献所提出的 图像分割的算法已达上千种 1 4 】,然而图像分割常被称为“低级”分割,它依赖于 像素级的低级特征,如灰度、颜色和纹理的一致性。相比而言,视频分割研究相对 较少且要复杂得多,方面,视频对象包含着运动信息,存在着非刚体物体形变、 遮挡等,另一方面分割出的视频对象必须是具有语义意义的实体,而这种语义意义 上的一致陛( s e m a n t i c h o m o g e n e i t y ) 很难用上述的低级特征来刻画。目前尚不能通过 数学建模对具有语义意义的视频对象进行明确地定义和描述,语义一致性往往依赖 于具体的应用,如交通监控中的汽车,视频会议中的人。 一般来说,一个好的视频分割算法应该满足: ( 1 ) 分割出来的对象应符合人类视觉系统( h v s ) 特性,也就是具有语义意义的视 频对象,边界和轮廓应达到象素级的精度; ( 2 ) 分割算法应该高效快速,这对于实时视频应用尤为重要; ( 3 ) 初始化应该简单和易于操作,也就是人机交互尽量少: 视频分割算法的分类方法各异,大多数分类方法是模糊的或不完整的 1 4 。常 见的分类方法有以下两种:根据分割过程中人工参与程度的不同,视频对象分割算 法分为两类:自动分割( a u t o m a t i c u n s u p e r v i s e ds e g m e n t a t i o n ) 半自动分割 ( s e m i a u t o m a t i c i n t e r a c t i v es e g m e n t a t i o n ) :根据分割过程中所利用信息的不同,视频 分割算法分为三类:空问分割、时间分割和时空分割。 自动视频分割算法在分割过程中无需人工的参与,可以自动地从视频序列中分 割出运动目标并进行跟踪 1 5 】 1 6 1 7 。然而,在自动视频分割中,由于语义一致 性往往采取一些低级特征的组合,作为先验知识隐含在算法中,当自动视频分割算 法应用于不同的图像序列时,如果序列中视频对象的语义一致性与先验知识不符, 上海大学硕士学位论文 就不可能得到满意的结果。因此,大多数自动视频分割算法只适合于特定的应用场 合,而且绝大多数的自动分割算法采用运动信息作为主要的特征。一般来说,基于 运动的分割往往计算量大,对噪声也很敏感。 半自动的分割算法借助人工的参与来定义语义 1 8 1 9 2 0 2 1 】,如协助定义 视频对象的轮廓、位置,所选择的跟踪对象是刚性还是柔性等,然后跟踪后续帧 中的初始区域,区域的边界按预先定义的语义特征被修正,以克服由于跟踪带来 的误差。因此半自动分割往往可以获得更好的效果。 将视频图像沿时间轴进行分割,就称为视频图像的时域分割( f e m o r a l s e g m e n t a t i o n ) 就是依次计算相邻两帧间的差别,方法主要有比较对应象素,比 较直方图,比较图像区域或边界的变化率等,时间分割通常利用运动信息,因为 大多数运动对象具有跟背景不同的运动 2 2 】。 空间分割将图像划分为区域,其中某些区域具有相似的特征,而与其它区域 明显不同,然后通过空间聚类形成语义视频对象。常见的特征有颜色、纹理和几 何性质。 时空分割法则先通过时间分割标识出运动对象,然后与空间分割得到的对象 边界融合在一起,以得到更精确的分割结果。时空分割由于同时利用时间和空间 信息,因此可以取得更好的效果。当前的研究趋势之一是寻找更好的时间分割与 空间分割的融合方法。 2 3 视频分割步骤和算法 视频分割算法常分为三步:初始分割、对象跟踪和边界修正e 2 3 1 。很多视频 分割的不同的算法,都是这三个步骤的组合。初始对象的分割就是分割一个视频 序列中的第一帧。 2 3 1 传统的分割方法 1 初始对象的分割 初始对象的分割就相当于是对静态图像进行分割,有空间域的图像分割方法和 基于统计分布的图像分割方法两大类。 其中空i l 白j 域的分割方法,主要是利用空间上彼此相邻的象素点之间属性值的异 同关系,确定分割门限,进行图像分割。主要方法包括:区域分割方法,区域 生长方法;分裂合并的方法;基于边缘的图像分割方法。 6 上海大学硕士学位论文 而基于统计方法的图像分割方法主要包括两大类:利用图像全局象素点属性值 的统计分布确定分割门限的统计直方图方法;利用象素点局部属性相关性统计 的方法,如:统计聚类的方法、b a y e s 分割方法和m a r k o v 随机场( m r f ) 图像分割 方法。当然,在实际的应用过程中,基于空间域和基于统计分布的图像分割方法 之间,并没有严格的界线区分。图像分割的结果常常是多种分割方法相结合的产 物。应该针对具体应用的要求,充分利用对图像内容的先验知识进行图像分割, 下面将具体阐述一下几种常用的初始对象分割。 基于数学形态学的初始对象分割 基于数学形态学方法的算法,这种方法可以为以后进一步的应用提供基本 的框架。对图像进行滤波,将感兴趣的对象保留或者移去,构造距离变换,得到 形状和尺寸的信息。事实上很多形态学变换都是滤波器,最简单的形态滤波器就 是开运算( 先膨胀后腐蚀) 闭运算( 先腐蚀后膨胀) 和两者的交替。它经常在图 像分割中用于图像的简化,噪声滤除,图像的预处理和后处理。形态滤波器的一 个优点就是可以移去小于给定值的区域,同时保留剩余对象的轮廓。典型的形态 分割技术主要包括三个主要的步骤:图像简化、标志提取和分水岭算法。在最近 的研究中,基于形态学滤波的区域生长算法和分水岭算法应用比较多,图像分割 中的分水岭变换经常应用在形态学梯度图像中,因为图像,中的对象的轮廓对应 于梯度图像( g f ) 中的分水岭线,应用这种方法经常会得到的过分割的结果。 区域生长算法 区域生长的基本思想就是将具有相似性质的象素集合起来构成区域。具体先 对每个需要分割的区域找一个种子象素作为生长的起点,然后将种子象素周围邻 域中与种子象素有相同或相似性质的象素( 根据某种事先确定的生长或相似准则 来判定) 合并到种子象素所在的区域中。将这些新象素当作新的种子象素继续进 行上面的过程,直到再没有满足条件的象素可以被包括进来,这样一个区域就长 成了。实际运用区域生长法的时候需要解决三个问题:( 1 ) 选择或确定一组能正 确代表所需区域的种子象素( 2 ) 确定在生长过程中能将相邻象素包括进来的准 则,( 3 ) 制定让生长过程停止的条件或准则。一般所用的判断准则是:如果所考 海夫学硕士学位论文 虑的象素与种子象素灰度值差的绝对值小于某个门限t ,则将该象素包括进种子 象素所在的区域,在这个过程中阀值t 的选择是很重要的,它决定了发生合并的 象素的数目。种子的选择是另外一个要考虑的问题,半自动分割的方法可以允许 用户自己来选择种子,对于自动分割种子的选取有两种方法,就是基于距离变换 的种子选择方法和轮廓检测的种子选取方法。 分水岭算法 图像首先使用所谓的重建形态滤波器删除暗的和亮的劈块,然后在标志提取阶 段通过标识较大的恒灰度值的区域而选取初始区域,分水岭算法基于这些初始区域, 以类似于区域增长的技术置标象素,最终形成区域的分割。 分水岭算法就是由标志器提取阶段获得的每个标志器生成一个区域或盆。因为 通常选择较大的平坦区作为标志器,在它们内部的形态梯度为零。结果,标志器对 应于浮雕中极小值( 如图2 3 所示) 。分割区对应于蓄水盆且它们的轮廓由分水岭线 确定。分水岭算法现在可视为泛滥过程。始于最低的纬度,洪水逐渐填充第一个蓄 水盆。当这个盆的水平线抵达另一个极小值的纬度,水也会填充那个盆。一旦两个 不同盆的水开始汇合,就在它们欲合并处构筑堤坝阻挡它们汇合。 图2 - 3 分水岭算法示意图 粗略地说,在较低纬度的象素首先被洪水淹没,接着是淹没其它相邻的同一纬 度的象素。当水平线高于极大梯度值的时候,泛滥的过程终止,且区域边界出堤坝 给出。 一 2 对象跟踪算法: 前景对象常常根据运动一致性而区别于背景对象。这样运动对视频序列分割 上海大学硕士学位论文 来是一个非常有效的信息。也可以根据其它特征来标识前景对象( 例如静态图像分 割中所采用的彩色、亮度或边缘信息) ,而实际上一些运动分割算法仅基于运动信息。 运动图像的分割既可以直接利用时空图像的灰度和梯度信息进行,也可以采 用在两帧视频图像间估计光流场,然后基于光流场进行。此外还有豪斯道夫距离 跟踪器、修改的豪斯道夫距离跟踪器和形态学运动滤波器,活动轮廓模型等算法, 简述如下。 对差图像求取阈值直接确定对象的变化 在序列图像中,通过逐象素比较可以直接求取前后两帧图像之间的差别, 假设照明条件在多帧图像之间基本上不变化,那么差图像的不为0 处表明了该处 的象素发生了变动,也就是说,对时间上相邻的两幅图像求差可以将图像中目标 的位置和形状变化突出出来。如果对一系列图像两两求差,并把差分图像中值为 正或负的区域用逻辑或合并就可以得到整个目标的形状,如图2 - 4 所示: 图2 - 4 利用差分图像提取目标 基于光流的对象跟踪: 假设有k 个独立的运动目标,每个矢量对应一个不透明目标在3 d 空间进 行刚体运动所得到的投影。这样每个独立的运动都可以准确的用一组映射参数来 描述,所以光流的方法需要和适当的时空平滑约束条件相结合,要求其在邻域中 的位移向量的变化比较缓慢,所以这种方法不适合那种快速变化的情况,并且它 容易受孔径现象和遮挡现象的影响,可能得不到好的结果。 基于变换检测掩模的对象跟踪 变换检测掩模( c c d m ) 的方法避免了在光流估计中计算微分梯度。它能够在 海大学硕士学位论文 连续的两帧中识别变换的和未变换的区域,那么运动对象就可以从静止的背景中 提取出来,但由于它对噪声很敏感,并且通过取简单的阂值,就会导致一些错误 和不精确性,所以一般c d m 经常和分层或者松弛算法中,若背景是运动的,使用 帧间差或变化检测掩模就会出现问题,因为两帧间的完全配准非常困难,背景中 的空间边缘将在对应帧差图像中生成高度结构化的非高斯分量,且其值较大。 k i m 2 4 等提出一种基于时一空信息自动分割v o p 的技术。算法同时利用了时域信 息和空域信息,二者的作用是不一样的。时域信息用于定位图像序列中运动对象 的位置,这是通过观测时域方向两个连续图像帧,根据两个连续差值图像估算获 得f - i 1 9 1 j 试的两个方差,再经过假定测试( h y p o t h e s i st e s t i n g ) 比较两个方差 而定位运动对象的位置;空域信息用于将每个图像分割成语义意义的对象,并得 到运动对象精确的边界信息。时域分割生成变化检测掩模而标识运动区域( 前景) 和非运动区域( 背景) ,而空域分割生成空间分割掩模,最后时域和空域掩模结 合在一起就得到最终的v o p 的分割。此算法的缺点也是很明显的,变化检测掩模 往往无法处理运动背景的图像序列。 基于活动轮廓( s n a k e ) 模型的对象跟踪算法 1 9 8 7 年k a s s 等人首先在第一届计算机视觉国际会议上提出活动轮廓模型一 s n a k e 2 5 。s n a k e 是在图像域内定义的可变形曲线,通过对其能量函数的最小 化,从而调整s n a k e 的自然形状使与对象轮廓相一致。s n a k e 的形状由曲线本身 的内力和图像数据的外力所控制。作用在s n a k e 上的力依据于轮廓所处的位置和 其形状将如何在空间局部地变化。内力和外力的作用是不同的:内力起到平滑约 束的作用,而外力则引导s n a k e 向图像特征移动。在一个序列中,连续两帧之间 的变化很小,对第一帧进行初始化,那么就可以利用第一帧的结果作为下一帧的 初始条件,依此类推。这种模型需要用户输入初始的与目标对象的形状相似的初 始曲线。一些孤立的边界也许会使s n a k e 达到局部最小值,然而在一个视频序列 如果对象运动的速度很快的话,在头一帧中的运动物体的分割边界,也许会和下 一帧中的轮廓相差很多,为了引导s n a k e 向着期望的边界变化,最近发展了一种 向图像外部能量种增加梯度方向信息的方法,在最小化s n a k e 能量的时候,一种 新的方法考虑到梯度强度和图像的方向,也可以得到更好的分割结果。 上海大学硕士学位论文 基于豪斯道夫距离的对象跟踪算法 h u t t e n l o c h e r 2 6 首先提出了一种叫做豪斯道夫距离的方法来比较两幅图像。 其主要的思想是假定豪斯道夫距离小于某一阈值r ,使得可较早地排除误匹配。如 此仅当若豪斯道夫距离低于r 才能得到匹配。后来m e i e r 用此距离提出了一种跟踪 算法,在连续帧中跟踪初始分割的对象,在这种算法中,需要计算相邻两帧的帧间 差,然后取闽值得到二值图像。当运动对象有不一致的运动部分的时候,例如物体 的某一部分运动要比其他的部分运动的快,则基于豪斯道夫距离的跟踪器有可能会 丢失那些快速运动的部分,另外一个改进的方法就是将物体分离,对于不同的非刚 体部分采用不同的豪斯道夫距离。 2 3 2 用细胞神经网络进行视频分割 由于语义视频对象提取的复杂性,当前大多数的分割系统从o c i f 格式序列 中提取每个v o p 需要一秒甚至更长的时间,这样,对于一个两分钟长的视频,大 约需要l 2 小时的时间才能完成视频对象分割。因此视频分割算法的处理时间 也是一个瓶颈 i o 。近年来越来越多的图像、视频处理和模式识别任务己很难用 传统的图像视频处理框架完成。可能的解决方法之一是采用一种新的计算体系 结构。而细胞神经网络是一模拟v l s i 非线性实时高速并行处理的阵列处理器, 它的最显著的特征就是它的连续时间特性允许在数字域内实现实时信号处理; 它的局域连接特性特别适合于神经网络模型的v l s i 实现。因此将c n n 引入视 频对象分割是一个值得研究的问题。 有关基于细胞神经网络的视频分割是本文主要的研究方向,将在后面的部分 详细介绍。 上海大学硕上学位论文 第三章细胞神经网络基础及其在图像处理中的应用 3 1 概述 人工神经网络是一门交叉学科,她涉及生物,电子,计算机,数学和物理等 学科,有着非常广泛的应用背景,对未来的科学技术的发展将有着非常重要的影 响。人工神经网络是采用物理可实现的器件或采用现有的计算机来模拟生物体中 的神经网络的某些结构和功能,并反过来用于工程或其他的领域。人工神经网络 的着眼点不是用物理器件去完整的复制生物体中的神经细胞,而是采纳其可利用 的部分来克服目前计算机或其他系统不能解决的问题,如学习、识别和控制等。 人工神经网络由很多处理单元有机的连接起来,并行的进行工作。它的处理 单元很简单,其工作是集体进行的,信息传播和存储方式与神经网络非常相似。 它没有运算器,存储器等现代计算机的基本单元,而是相同的简单处理器的集合。 人工神经网络的模型和算法有很多种,在人工神经网络中,权是一个反应信 息存贮的关键量,在结构和转换函数定了以后,如何果设计权使网络达到一定的 要求,这是人工神经网络必不可少的部分,大多数神经网络权的设计是通过学习 得到的,大体可以分为下列几种:( 1 ) 死记式学习( 2 ) 占学习律( 3 ) 自组织学 习和h e b b i a n 学习律( 4 ) 相近学习律。 人工神经网络的主要类型有:前馈式神经网络,反馈式神经网络,自组织竞 争神经网络,随机神经网络等等。细胞神经网络是反馈式人工神经网络的一种, 它不像h o p f i e l d 网络一样要求每个神经元与其他神经元完全联接,因为在真实的 神经网络里,并没有这种要求。在1 0 。数量的神经细胞组成的人脑种,每个神经 细胞只与其周围的1 0 ,左右的神经细胞相连。在视觉初级加工的神经网络中,每 个神经细胞与其相近的神经细胞之间的联接较强,而远离该神经细胞的联接权较 弱。视觉处理就是利用这种联接权的方向进行方向检测,边缘提取等工作,细胞 神经网络就是以神经网络的这种联接方式为背景,来实现一种局部联接的,权可 设计的人工神经网络。 细胞神经网络( c e l l u l a rn e u r a ln e t w o r k c n n ) 是由美国加州大学伯克力分 校的l o c h u a 和l y a n g 在1 9 8 8 年提出的 2 7 它是一个具有实时信号处理能力的 上海大学硕j 学位论文 大规模非线性模拟电路,由大量的胞元组成,且只允许最邻近的细胞之间直接通 信。细胞神经网络最显著的特征就是:它的连续时间特性允许在数字域内实现 实时信号处理;它的局域连接特性特别适合于神经网络模型的v l s i 实现。它 与传统的神经网络不同,具有以下一些特点: ( 1 ) 其动态范围可以预先设置 ( 2 ) 可检验其全局稳定性 ( 3 ) 可估计网络的收敛范围 一般来说细胞神经网络可分为以下几类 2 8 1 ( 1 ) 连续时间神经网络( c t c n n ) ( 2 ) 离散时间细胞神经网络( d t c n n ) ( 3 ) 广义细胞神经网络( g c n n ) ( 4 ) 非线性延迟细胞神经网络( n d c n n ) 细胞神经网络的模型的基本结构如图3 1 所示。图中的方块为称为每一个胞元的 单元电路,胞元之间的连接表示他们之间的耦合。每个神经元与周围r 范围内的 神经元相连。 图3 - 1 细胞神经网络模型的结构 ,= l 表示一个神经元除了与本身相连以外,还与周围8 个其他神经元相连:,= 2 表示与周围2 4 个神经元相连。,= 坝与f 2 ,+ 1 ) 21 个其他神经元相连。 它含有线性和非线性电路元件,典型元件有线性电容,线性电阻,线性和非 线性受控源以及独立电源。 上海大学硕士学位论文 对于每一个c ( f ,) 用一个等效电路来描述,这个等效电路可以用运算放大器 来实现。c n n 所有的胞元c ( f ,力的电路结构是样的,图3 - 2 就是一个c ( f ,d 的等 效电路a 下标“、x 、j ,分别表示输入,状态和输出。蜥表示输入,用一个独 立的电压源西来表示。如果c q ,) 有外界输入时则西0 。叫表示神经元的状 态,它是由电容上的电压决定的。与邻近神经元的关系则是由2 p 个线性电压控 图3 - 2 单个神经兀的结构 制电流源来决定,如果邻近神经元c ( 女,) 的输入为“盯,输出为y 肼。那么。,抽可 以表示为: i 掣( i ,j ;k ,) 2 a ( f ,j ;k ,) y 盯( 3 - 1 ) 厶。( f ,j ;k ,) - - 1 3 ( f ,j ;k ,) “埘 ( 3 - 2 ) a ( i ;t ,d 表示第c ( 七,f ) 的输出与c ( f ,) 之间的连接权,b ( i ,;t ,) 表示第c 僻,) 的输 入和c ( i ,) 之间的连接权,它们可以通过在电容上并接一个压控电流源来实现, 如邻近有关联的神经元个数为p 个p = ( 2 ,+ 1 ) 2 ,那么压控电源有2 p 个。设由 a ( i ,j ;t ,) 组成的矩阵为a ,由b ( i ,j ;k ,) 组成的矩阵为b ,它们由( 2 r + 1 ) 2 个元组成, 而每个神经元与相邻神经元之间的连接都是由a 和b 中的元决定的。可见输出 反馈效应依赖于相互作用参数a ;而输入控制效应则依赖于b 。因此称a 为反馈 算子,b 为控制算子。y i 是c ( i ,j ;k ,) 的输出,它是由一个非线性电压控制电流源 绢成: 上海大学硕士学位论文 k = 嚎沌 ( 3 3 ) f ( x i j ) 的特性如图3 - 3 所示,它是一个分段线t 生 e , g x ,满足公式: f ( x q ) = 喜( i x + l i 一卜一l 】) ( 3 - 4 ) j- f ( x i j ) 1 厂 1 - 1 图3 - 3 分段线性的厂& f ) 根据图3 - 2 的电路,利用希尔霍夫电流和电压定律,得到每个人工细胞神经元满 足下列的状态方程: c 堡学= 一i 1 舭) + 础,f ) 彰缈咖以) + 哪蛳y b ( ( i , j ;咖洲 ( 3 - 5 ) 其中l j 茎m ;1 j n ;c o ;r , 0 :( 3 - 5 a ) 输入方程为: u u = 口曼f m ;1 j n ( 3 - 5 b ) 约束条件为: f f ( o ) f s i ;1 i m :l s s ,z ( 3 5 c ) l “f i 蔓1 ;1 兰i 兰m :1 蔓,sn ( 3 5 d ) 系统的对称条件为: a ( i ,j ;k ,) = a ( k ,l ;i ,j )( 3 - 5 e ) c n n 网络就是按这些单个神经元的模型直接连接而成的单层的动态网络。 c n n 网络模型有如下特点: 上海大学硕士学位论文 ( 1 ) 所有人工细胞都是由图3 一l 形式的电路所组成,每个细胞的电路都是 相同的。 ( 2 ) 每个细胞只与( 2 r + 1 ) 2 个相邻的细胞相连,每个细胞都接受自己和邻 近其他单元的反馈信号,反馈多少由a 、b 两个矩阵决定。a 、b 称为 模版。 ( 3 ) 所有细胞的输入输出关系是非线性单调上升函数,在c n n 网络中采用 了分段线性来描述,如公式3 4 所示。 ( 4 ) 网络由一组非线性的状态方程来描述,即是一个动态方程。 一个细胞神经网络完全由式( 3 5 )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论