(通信与信息系统专业论文)基于边缘技术的动目标提取.pdf_第1页
(通信与信息系统专业论文)基于边缘技术的动目标提取.pdf_第2页
(通信与信息系统专业论文)基于边缘技术的动目标提取.pdf_第3页
(通信与信息系统专业论文)基于边缘技术的动目标提取.pdf_第4页
(通信与信息系统专业论文)基于边缘技术的动目标提取.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(通信与信息系统专业论文)基于边缘技术的动目标提取.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主里型兰垫查叁兰竺! :堂垡笙兰 一一旦墨 摘要 数字视频随着信息产业豹人力发展,已经成为现代生活中不可缺少的信息米源。随着人 们的物质文化生活需求越来越高,数字视频在国民生产、教育、娱乐和安全等领域必将得到 更广泛的返_ 【l j 。这也对数字视频处理技术提出了更高的要求。 视频分割一直是视频处理中的一个重要内容,也是难点和热点。它是视频分析和视频理 解的基础,也是实现交互式视频通讯系统的前端技术,目的就是得到视频对象,在新一代的 多妻j l l 体国际标准m p e g 4 和m p e g 7 中就有针对任意形状的视频对象的编码接r l 。同样,在 视频检索、智能监控、生产控制汞j 视频编辑业务里,视频分割都是急需解决的问题,在这些 领域芙丁视频分割的算法得到了人力的研究。 本文是在监控环境卜为了满足今后对智能监控的需要,从而开展对运动日标提取的研 究。当然,文中使用的方法也可以实现在其他的视频环境下对运动目标的分割提取。文中分 析和总结了多种分割方法,最后从人们认识客观事物的过程出发,运用近年来一些新的算法 和技术手段,通过对运动目标边缘的提取实现运动目标的分割提取。 针对麻用环境,文章把视频分为有经验背景知识和无经验背景知识两种,采用不同的方 法制定不同的算法流程,以得到初步的分割数据一一精细边缘。在有经验背景知识的情况卜, 我们通过定义引入色度分量的差图象,得到稳健的运动物体框架,在此基础上修改传统的 c a n n y 算法的搜索流程,使之能处理含有时间关系的经验背景知识和当前帧,得到连续性人 为改观的精细边缘。在无经验背景知识的情况下,通过将运动信息下的残缺的边缘作为种子 生长点的方法,得到更丰富的边缘信息。 在处理运动背景方面,作者引入了m p e g 4 灵影编码中的全局运动估计方法,简化参数 模型,得到背景相对运动的良好估计。为了使精细边缘连续化,作者针对有经验背景知识的 情况提出辅助轮廓的概念和算法,可以有效地进步消除噪声,也可以直接和精细边缘结合 生成连续的物体边缘。进一步,作者引入主动轮廓的算法和梯度矢量场方法,在有经验背景 知识币 无经验背景知识两种情况卜都能得以运用,并取得良好的连续边缘。最后,本文给出 了算法的实验结果。 本文的算法框架具有良好的模块化结构,具有一定的开放性和扩展性,对算法框架中的 每一个模块的改进都可以提高整体算法的性能。结束语中总结了本文。l :作,井对以后的l :作 做了展望。作者希望通过本文对基丁边缘技术的动目标分割提取技术的研究,能够给厉续的 研究者提供参考思路,为视频分割算法在国民生产等方面的应用提供一些有益的帮助。 n 主旦壁兰垫查叁堂堡! :堂些堡皇 茎 a b s t r a c t w i t ht h eg r e a td e v e l o p m e n to fi n f o r m a t i o ni n d u s t r y , t h ed i g i t a lv i d e oh a sb e e no n eo f t h em o s ti m p o r t a n ti n f o r m a t i o ns o u r c e si nt h em o d e r ns o c i e t y w i t ht h ei m p r o v e m e n to f t h es t a n d a r do fl i v i n g 。d i g i t a lv i d e ow i l lb eu s e dm o r eb r o a d l yi nt h ef i e l do fi n d u s t r y , e d u c a t i o n e n t e r t a i n m e n ta n ds e c u n t y a i it h e s en e e d ss p e e dt h es t u d yo fd i g i t a lv i d e o p r o c e s s i n gt e c h n o l o g y v i d e os e g m e n t a t i o ni sa ni m p o r t a n ta n dd i f f i c u l tt a s ki nd i g i t a lv i d e op r o c e s s i n g i ti s t h eb a s eo fv i d e o a n a l y s i s a n dc o m p r e h e n s i o na n di st h ef o r e p a r t t e c h n o l o g y o f a l t e r n a t i n gv i d e oc o m m u n i c a t i o ns y s t e m t h ea i mo fv i d e os e g m e n t a i o ni s t oa b s t r a c t v i d e oo b j e c t sa n dt h em o d e r nm u l t i n m e d i as t a n d a r d ss u c ha sm p e g 4a n dm p e g 7h a v e c o r r e s p o n d i n gc o d i n gi n t e r f a c e sf o rt h e s ea r b i t r a r y s h a p eo b j e c t s v i d e os e g m e n t a t i o ni s a l s oi m p o r t a n ti nt h ef i e l do fv i d e or e t r i e v a l ,i n t e l l i g e n ts u r v e i l l a n c e ,p r o d u c t i o nc o n t r o la n d v i d e oe d i t i n g m o v i n go b j e c ti st h em o s ti m p o r t a n ti n f o r m a t i o ni ni n t e l l i g e n ts u r v e i l l a n c ea n dt h e s e g m e n t a t i o no fm o v i n go b j e c t si s t h eb a s eo ft a r g e ta n a l y s i sa n dr e c o g n i z a t i o n t h e e m p h a s i so ft h i sd i s s e r t a t i o n i st h es e g m e n t a t i o no fm o v i n go b j e c t s s e v e r a lk i n d so f a l g o r i t h ma r es t u d i e di nc h a p t e r2 s i m i l a r t ot h ec o u r s eo fs c e n e r e c o g n i z a t i o nb yh u m a n , a l g o r i t h mb a s e d o ne d g ea b s t r a c ti sd e v e l o p e di no u r s t u d y i nc h a p e r t3a n dc h a p e r t4v i d e oi sc a t e g o r i z e di n t ot w oc l a s s e s :o n ew i t hb a c k g r o u d i n f o r m a t i o na n dt h eo t h e rw i t h o u t i nt h et w oc h a p t e r s w eu s ed i f f e r e n tf l o w sa n d a l g o r i t h m st op r o c e s st h et w ok i n d so fv i d e oa n dg e tr e f i n e db u tu n c o n t ! n u o u se d g e s w h i c hw i l ib eu s e di nc h a p t e r5 f o rt h ev i d e ow i t hb a c k g r o u n di n f o r m a t i o nc h r o m i n a n c e i n f o r m a t i o ni sa l s ou s e da sar e f e r e n c ei nd i f f e r e n c ei m a g et og e tar o b u s tm o v i n g o b j e c t s f r a m e i nt h ef r a m et r a d i t i o n a lc a n n y a l g o r i t h mi si m p r o v e da n d i sa d d e dan e w a b i l i t yt o p r o c e s st w ot e m p o r a lc o r r e l a t i v ef r a m e sb yw h i c hw eg e to b j e c t s r e f i n e de d g e s f o rt h e v i d e ow i t h o u tb a c k g r o u n di n f o r m a t i o n ,t h ef r a g m e n t i z e de d g e sc o n n e c t e dw i t hm o v i n g i n f o r m a t i o nw i l lb ec o n s i d e r e da ss e e d si nt h es e a r c hp a r to fc a n n y a l g o r i t h ma n dm o r e e d g ei n f o r m a t i o nw a s a b s 订a c t e d f o rm o v i n gb a c k g r o u d s 。g l o b a lm o t i o ne s t i m a t i o ni n t r o d u c e di nm p e g 4i su s e di n w h i c hp e r s p e c t i v em o d e li ss u b s t i t u t e db ya f f i n em o d e l w eg e tg o o dg l o b a lm o t i o n e s t i m a t i o nr e s u l t t om a k er e f i n e de d g e sc o n t i n u o u s ,a na l g p d t h mn a m e da u x i l i a r ye d g e m e t h o di sp r o p o s e df o rt h ev i d e ow i t hb a c k g r o u n di n f o r m a “o n 。w h i c hh e l p st or e m o v e m o r en o i s ea n db yw h i c hr e f i n e de d g e sc a nb em e n d e dt ob ec o n t i n u o u s a c t i v ec o n t o u r s m e t h o da n dg v f ( g r e d i e n tv e c t o rf i e l d ) m e t h o da r eu s e dt om a k er e f i n e d e d g e s c o n t i n u o u sw h e t h e rw i t hb a c k g r o u n di n f o r m a t i o no rn o t a ti a s tt h ee x p e d m e n tr e s u l t sa r e g i v e n t h e a l g o r i t h m h a ss a c l a b l ea r c h i t e c t u r eb a s e do ni n d i v i d u a lm o d u l e t h e j m p r o v e m e n to fe a c hm o d u l e c a na l s oi m p r o v et h ec a p a b i l i t yo ft h ew h o l ef r a m e w o r k i n t h ee n d t h ef u t u r ew o r ki sd i s c u s s e d t h ea u t h o rh o d et h er e s e a r c hw o r ki n t h i s d i s s e r t a t i o nc o u l dm a k es o m ec o n t d b u t et ot h e s t u d ya n da p p l i c a 6 0 no fd i g i t a lv i d e o s e g m e n t a t i o n 1 1 1 中国科学技术大学硕士学位论文 目录 致谢 在本论文完成之际,作者首先要衷心地感谢我的导师王仁华教授他严谨的 治学态度,渊博的专业知识和勤奋u _ r - 作精神对我来说受益匪浅,给我留下了极 其深刻的印象在科大3 年研究生学习期间,王老师对我的学习、工作和生活给 予了无微不至的关怀和帮助,特此表示衷心的感谢和敬意 同时,我还要感谢实验室的戴礼荣老师,宋彦老师在作者的研究工作中经常 给予的建设性的建议,对他们给予的无微不至的关怀和帮助,在此表示衷心的感 谢还要感谢夏德瑜老师和刘必成老师,他们在生活上和实验环境上给予了作者 很大的支持,使作者能够顺利完成论文的撰写 另外作者还要感谢实验室的孙岭、钟庆,陆克诚,岳嵩和邵阳等同学,在共 同的研究学习中,作者和他们结成了深厚的友谊祝实验室的全体同学学习工作 顺心如意 还有就是我学习生活了8 年的中国科学技术大学,感谢科大给予我的培养。 在这个“第二”故乡里的学习生活经历将令我终身难忘 最后,我要感谢我的父亲母亲,他们对我的支持和关爱是我完成学业和继续 前进的动力 刘永 2 0 0 3 5 2 2 中固科学技术人学硕f :学位论文 绪论 第一章绪论 1 1 数字视频简介 所谓视频就是在时间上一个能够表达物体连续运动的图象序列,电影和电视都属于视频 的范畴。和静l r 的i 蚓象相反,我们往往称之为活动图象或者运动图象。从电影开始视频信息 在时间上就已经实现了离散化,整个视频信息由许多单一的画面组成,每幅画面称为一帧。 由丁人眼的视觉惰性,每秒2 4 帧以上就可以形成连续活动的影象感觉,所以现在的很多视 频采集标准都是使2 5 帧,秒或者3 0 ( 2 9 9 7 ) 帧秒。因此帧构成了传统视频信息的最小和 最基本的单元。 视频信息和其他信息方式相比较主要有以卜3 个特点【黎洪松,l 】: 1 ) 人类接受的信息约有7 0 来自视觉,周围景物在视网膜上的影象是人类最有效和最重要 的信息获取形式。 2 ) 视频信息具有一系列的优点:确切、直观、具体生动、效率高等等。 3 ) 视频信息的容量人,“百闻不如一见”就是对其信息量犬的描述。 视频数据往现代生活中越来越显得无比的重要,人们每天几乎都观看新闻类的视频仃 曰;电视和电影成为现代人的主要娱乐;在安全和一业生产领域,视频监控技术的运_ j 随处 可见;现在视频电话也渐渐进入人们的生活之中。 传统电影和传统电视虽然在时间上实现了以帧为特征的离散化,但在每一帧的图象里, 还都是模拟的数据,电影胶片利录影盒带是这些模拟信号的存储方式。数字视频不仅在时间 上是离散的,而且在每一帧的表达上都以数字信号为基础。和模拟的视频数据相比,数字视 频贝有更良好的性质: 1 ) 带宽的适廊性,虽然一些数字视频也是同定带宽的,但从产生的原理来看,数字视频的 带宽相比模拟信号来说要灵活得多,可以通过多种手段来实现对变化带宽的适应。 2 ) 更强的交互能力,模拟视频只能提供快进和快退这样的简单交互方式,而数字视频能更 精确地定格到具体的帧上,m p e 9 4 等新的多媒体协议更提供了基于内容的接口,为将米 基丁内容的交互提供了可能。 3 ) 算法易丁软件实现,系统更容易升级,由于数字化,视频数据还可以携带更多的保密数 据,也容易加密。 4 ) 视频数据鼙人,由丁数字化的原因,使得人量的压缩算法成为可能,:竹省了存储空间和 通讯带宽。 1 2 数字视频相关技术 针对视频领域,有很多不同的应用,总结起来,主要有以下几点: 1 2 1 运动估计 视频数据义称为动图象,和静态图象最大的不同在于数据包含了很多有用的运动信息。 这些3 维状态的物体和3 维的运动在视频数据里是一个2 维的投射,人们根据经验知识可以 判别山3 维物体的空间和时间的运动关系,运动估计就是需要解决这个问题。由于视频序列 中图科学技术人学硕l j 学位论文 里每帧是一个2 维图象,所以很多的研究先在2 维运动估算上进行。常见的运动分析算法有 基丁光流的运动估计、基于块匹配的估计算法、h o m s c h u n c k 方法和梯度估算的方法等 【a m u r a tt e k a l p ,2 】。在很多压缩算法里往往采用算法结构简单的块匹配的估计算法,这 类算法在以块为单位的数据压缩方面起到很好的压缩效果,但往往由于其不能适应物体的旋 转,缩放和变形而使其估计出的运动矢鼙不能真实反映图象中物体的运动情况。 1 2 2 编码和压缩 视频编码和压缩是视频麻_ l j 中的必要步骤。假设每个亮度帧( l u m i n a n c ef r a m e ) 为1 4 4 0 像素,彳i 和1 0 5 0 行、每个色度帧( c h r o m i n a n c ef r a m e ) 为7 2 0 像素行和5 2 5 行,如果我们 采_ l | j3 0 帧秒的帧采样率和8 比特,像素,带宽将要达到5 4 5 m b p s 【a m u r a tt e k a l p ,2 】。所 以如果没有压缩编码,数字视频根本没有办法得到j “泛的应用。目前主流的压缩算法在时间 冗余上主要利州运动补偿( m o t i o nc o m p e n s a t i o n ) 的结果,只对运动估计的残差编码;在空 间冗余上主要利用d c t 压缩方法;另外在数据自身冗余方面主要是霍夫曼或者算术编码。 在基丁内容分析的情况下,还可以采用更新的编码方法,比如任意形状的物体编码( a r b i t r a r y s h a p eo b j e c tc o d i n g ) 和对背景低比特率压缩甚为有效的灵影( s p r i t ec o d i n g ) 编码。除了 压缩算法外,由丁越来越多的应用建立在u d p 或者信道状况恶劣的无线传输方式上,视频 自身的纠错或著错隐藏的编码也得到了足够的重视和发展,如打包编码( p a c k e tc o d i n g ) 、 可逆变妖编码( r e v e r s i b l e v l c c o d i n g ) 、错误隐藏编码( e r r o r c o n c e a l m e n t c o d i n g ) 【胡国 荣,3 】。在带宽臼适应方面时间可伸缩编码( t e m p o r a ls c a l a b i l i t y c o d i n g ) 、空间可伸缩编码 ( s p a t i a ls c a l a b i l i t yc o d i n g ) 、信噪比可伸缩编码( s n rs c a l a b i l i t yc o d i n g ) 【m p e g 4v i d e o g r o u p ,4 1 和精细粒度可伸缩编码( f i n e g r a n u l a r s c a l a b i l i t yc o d i n g ) 【w e i p i n gl i ,5 】得到 运州。 1 2 3 视频分割 从人的方面看,视频分割可以分为时域分割( t e m p o r a ls e g m e n t a t i o n ) 和空域分割( s p a c i a l s e g m e n t a t i o n ) 。 时域分剂主要是镜头的检测,就是把视频序列按照场景分割成一段段场景缓慢变换的更 小的序列,每个缓慢变换的序列称为一个镜头。 空域分割主要是在单个的镜头内对视频的内容进行分割是基丁内容的视频处理的核心 算法。在视频编码方面,m p e 酗提出任意形状的对象编码方案,视频对象( v i d e oo b j e c t ) 可 以是任意形状的物体,协议中没有对取得视频对象的方法做任何的限制。同样,随着自动化 程度越米越高,监控设备也趋向于智能化,对运动日标的有效提取成为自动分析和识别的重 要前提。本文就是着重研究了空域分割中的运动目标的自动提取问题。 1 2 4 视频数据的检索 随着视频数据的增多羽i 海量存储设备的发展,视频数据的查询搜索显得越发重要。由于 存储的视频数据是经过压缩的,所以很多视频数据的检索为了提高速度,系列匹配算法在 压缩域被提山。 2 中匿科学技术大学嫒l ? 学位论文 绪论 1 。3 现有视颡艨雅标准奔绍 l t 3 ,l薹差。2 6 1 h 2 6 1 是1 t u 一个视频压缩标准,用于在综合监务数字网( i s d n ) 上良p 6 4 k b p s 的 速率开展视频会议币i 可视电话业务。例如6 4 k b p s ( p = 1 ) 的速攀适用丁低品质的可视电 霜业 务,通常是q c i f ( 1 7 6 1 8 8 ) 格式的视频,其中4 8 k b p s 用予视频信号。视频会议业务通常 需要较高的翻象斌始,敬p 超过6 时,带宽达刘3 8 4 k b p s ,可以穆送e l f ( 3 5 2 2 8 8 ) 格式的 视频。h 2 6 1 现在嚣米魄较麓单( 可以说怒簸粳蜷的褫频编码攘絮) ,但它却避最来出现躬 筏颠梅壤如m p e g l 霸 m p e g 2 熬参考蒸麓,它还提供了涎令鬣簧 l 孽特,鹾: 1 ) 由下h 2 6 1 土磐埘t - 双向视频避傣,因此它规定最_ 太编码延迟为1 5 0 m s ,已经诚嘴, 如果延遐超过1 5 0 m s ,就不能缭观看者在视觉上产生赢按网传的效果。 2 ) h 2 6 1w 以心低成本的v l s i 实现,这一点对于人批疑生产可视电话和电视会议设 备来说尤为煎要。 l 。3 2m p 嚣g l m p e g i 标准趋一个i s o 标准,翊于c i f 格式的褫藏及其落额磊鹃速率约为1 s m b p s 黥 各种数字存储介质上的编码表示,主攥虑用在交互式多媒体系统中。m p e g l 算法与h ,2 6 1 算法类似,另外还有自己的一些特点。m p e g l 在编码器设计中,提供了人鼙的灵活性。幽 象格式和其他的一系剃参数都被包含在比特流本身舞中,这一特点兔耆午算法可以婿予不弼人 小雨l 宽赢比的翻象,也可以蠲在:f 作速率藏阑缀太的信遴和设餐上。 1 3 3m p e g 2 m p e g 2 标凇也建一个i s o 标准。它怒m p e g l 的兼容扩艘,广滋成厢在备种速率( 2 2 0 m b p s ) 莉l 各种分辨率情况卜的场合。m p e g 2 语法的主要特点慰# 1 ) 提供蛹行扫描输入,赢清晰度输入剽色度通道的交替二次袋样。 2 ) 提供一个霹调繁( s c m a b l ec o d i n g ) 弱跑耨流。 3 ) 提供踱避瓣鬃识番嗡璃逮矮。 基,戳上戆特点,m p e g 2 捉供了跑m p e g | 矮鼙舒缀多耱圈象矮黛,掰鞋被斑糟经离溥糍 度电视( h d t v ) 领域【a m u r a t t e k a l p ,2 】。 1 3 4h 2 6 3 h 。2 6 3 是i t u 戆援焱标准,是i - f 2 6 1 靛兼容扩壤,是专门耀,电鹾髑络翘视频编码技术, 主要秘的熊弼w 税电话。在h 2 6 1 豹熬谶上,将一般的运动搜索媛为半像素点遨动援索, 从而达到降低码速率承l 提高豳象质鬣的弱的。另外还提供了四个慈缀增强选项:高级预测技 术、算术编码、p 8 帧、无限制运动矢最,这四个选项可致逸剩进一步降低码流幂l 挺离嘲蒙 编码质堵的目的【郭武,6 】。 1 3 s醒p e g 4 m p e g 4 楚一令i s o 拣准( i s 0 1 4 4 9 6 ) ,与其说蹩一个撬鬏探携誉磐试为它蹩一个交盔 3 中周科学技术人学颤 j 学位论文 绪论 的多女i i 体框架。m p e g 4 是第一个提出内容交互的多媒体协议,在多媒体通信领域意义重人。 从人的框架来说可以分成两个部分:自然编码部分( n a t u r a lv i d e oc o d i n g ) 和合成编码部分 ( s y n t h e t i cv i d e oc o d i n g ) ,如果两者在同一个场景里运用,就称为混合编码技术( s n h c : s y n t h e t i c n a t u r a lh y b r i dc o d i n g ) 。对于合成视频对象,m p e g 一4 提供了2 d 网格、3 d 网格及 3 d 人脸和身体等对象对人工合成信息进行具体描述,定义了有关图形文本的多种表达方式。 目前我们看到的人多还是自然码流的技术。在这部分,m p e 6 4 提供了多种选择模式,带宽从 低比特率到高带宽都能找到相应的模式。在具体的编码中提出视频对象v o ( v i d e oo b j e c t ) 的概念,在一般的视频通讯席用中可以把v o 的形状定义成矩形,这样就和传统的m p e g 2 以 及h 2 6 3 在编码框架和码流形式上取得一致。同样,m p e g 4 提供了针对任意形状物体的编码, 但没有具体规定物体的提取方法。 它除了包括压缩本身的一些i :具、算法外,更结合了近年来图像和声音分析与合成、视 频和音频压缩、计算机视觉和听觉、计算机图形、虚拟现实、信号处理等领域的最新研究成 果,在推出“视听对象”概念的基础上提出了基于内容的视听对象的编码方法。 在开发低码率编码标准的同时,它将重点放在人们更感兴趣的具体对象的交互性、灵 活性和可操作性上,它是第一个使用户由被动变为主动、允许用户在接受端对图像羊卢音 进行操作希i 交且式访问的编码标准。为了达到j i 泛麻阁的目标,m p e g 4 提供了由“i :具” _ 手| f “算法”组成的“f :具箱”解决方式,支持以卜功能:基丁内容的视音频对象编码 ( m p e g 4 的核心) :基丁i 内容的交互性:基丁内容的多媒体数据访问;基于内容的码流控 制平编辑;基丁内容的图像、视频、纹理的可分级性和高效压缩;增强型瞬时随机存取; 多个数据流的同步编码;误码环境f 的错误恢复力和鲁棒性。m p e g 4 支持各种扫描标准和 幽像格式,支持各种带宽应用( 典型码率为5 k b p s l o m b p s ) 。 m p e g 4 标准采州分级编码方式对视频对象进行编码,人们可以以不同的速率、分辨率 或质鼙访问存储在数据_ 宰中的不同对象,处理器可以只解码比特流中的一部分数据,重要 的对象可以优先解码,不太重要的背景信息则可以以较低的空间分辨率、较低的帧频进行 解码,甚至根本不解码。这种基r 对象的编码、存储、传输和操作,使得m p e g 4 具有了高 效率的编码能力和强人的交互式功能。 1 3 6m p e g 7 m p e g 7 的止式名称是“多媒体内容描述接口”,目标是创建一种对多媒体数据的描述标 准,这种描述能对信息的内涵进行某种程度上的解释而且能被计算机或其他信息设备传递或 访问。m p e g 7 并不针对某种特殊的应州,相反它的标准化的要素将支持尽可能广泛的麻 川。m p e g 7 构建丁其他标准之上,如m p e g l 、m p e g 2 和m p e g 4 。 m p e g 7 标准的基础主要有三部分:描述符、描述表和描述定义语言( d d l ) 。描述符 是低层次特征的表示方法,即表示视听内容的基本性质( 从信号幅度的统计模! i | ! 到信号的基 本频率等) 。m p e g 7 描述表则是描述符的结构集合。而描述符定义语言( d d l ) 是一种是 m p e g 7 具有高度灵活性的机制【于鹏,7 】。 1 4 论文内容和安排 4 中固科学技术人学顾l 学位论文 钟i 论 1 4 1论文背景 在对视频的研究和应用中,人们往往只对视频中的某些部分感兴趣,其中运动目标就是 个典型的例子。这些部分通常被称为视频对象域者前景( 其他部分称为背景) 。一般对应 着视频中特定的、具有特殊性质的区域。为了分析和辨识视频中的这些目标,需要将他们从 视频中分离提取出来,在此基础上才有可能进一步对目标进行测量和对视频进行利用。视频 分割就是指把视频i 劐象分割成锌具特性的区域并提取感兴趣目标的技术和过程。 图1 1 视频工程的三个层次 作为一种关键的视频分析技术,视频分割在视频:啊鼙中占据重要的位置。和幽象l :程 样,视频l :程也可以分为三个层次:视频处理、视频分析和视频内容理解( 如j ! f ii 】所示) 。 对象分割是从视频处理上升到视频分析的关键步骤,再进一步就上升到视频理解。在视频分 割前,对视频的加i :主要处于视频处理的层次,视频分割后对视频的分析才成为可能。多年 来,对视频的分割研究一直是视频技术中的热点和难点,而且人们对其的关注和投入不断提 高。另一方面,视频分割也在实际中得到“泛应用,新一代的视频编码系统都把对分割后的 任意形状的视频对象编码纳入协议框架。 虽然在m p e g 4 和m p e g 7 中留有对任意形状的视频对象编码接口,但都没有提供视频 分割的标准化算法,前端的对象分割或者说目标提取算法现在火都还处在试验阶段。在视频 加i :中,出现了一些l :具,但人多都是半人“i :的,完全自动分割还远远没有达到实h j 要求。 本文更着重丁运动目标的自动提取,为此研究了一些资料,也设计了一些算法,希望它 能够为实际l :作提供有盗的帮助。 1 4 2论文内容 本文在智能监控的研究背景f 提出问题。在监控过程中,运动目标往往是最有价值的信 息雨j 视频中晟值得注意的部分,要实现监控智能化,就要对监控内容。特别是运动目标进行 有效的识别和分析。所以,对监控视频中运动目标的提取质蟹而言,会直接影响到后续的分 析雨j 识别的止确性。 在远动目标提取之前,往往有一个镜头分割的过程。这里的镜头如前所述( 1 2 3 ) ,是 段缓慢变化的视频。每进入一个镜头,目标分割往往需要重新初始化,所以镜头分割的好 坏也成为一个指标。但由t g f 控条f t - 下的视频内容的变化,至少在背景变化方面是缓慢进行 的,可以认为监控视频属于同一镜头,所以论文没有涉及这个前端的处理过程。 5 中周科学技术人学硕i :学位论文 绪论 很多情况f 我们的设备对周围的环境能具备一定的先验知识,例如监控条件r 在无运动 目标时更新背景资料,即使在有云台控制的设备环境f 也可以备份周围的视觉环境资料,这 些资料在论文中称为经验背景知识。具有这些信息,运动目标的提取过程可以有一些特别的 方法,不同丁无经验背景知识的情况,所以我们在论文里对有先验背景知识和无先验背景知 识的情况进行了区分,其目的是得到更好的效果。 运动背景和静态背景处理的不同之处在丁运动背景环境需要消除相对运动,这部分内窬 在论文中被安排在无经验背景知识那章的前部分描述。 论文中针对有先验背景知识章节和无先验背景处理的章:柑都将只得到一个初步的处理 结果,文章里称之为精细边缘,之后将通过辅助轮廓或者主动轮廓的处理方法得到贴近真实 轮廓的连续边缘,进而挖掘出我们需要的运动目标,处理结构可以参看酗1 2 。 1 4 3论文安排 圈1 2 目标提取处理框架 本文内容安排如f :第一章是绪言,介钌 了数字视频的相关技术和基本内容,介纠了运 动目标提取在视频处理中所处的位置,简要说明了主要的研究内容。第二章将介宝h 已有的视 频分割算法,对算法门类总结。第二章是处理有经验背景知识下的初步分割问题。第四章是 处理无经验背景知识f 的初步分割问题。第五章提出辅助轮廓和引入主动轮廓的方法,川米 在初步分割的基础上得到连续的边缘,并对视频对象( 运动目标) 进行挖掘。第八章是结束 语,对j :作做了总结,井提出今后的jj :作目标。 6 主旦壁堂垫查厶兰堡! :堂竺堡壅型型韭型燮! ! ! 堕 第二章视频目标提取算法 人类认识世界的7 0 以上的感观信息来自于视觉,人们对于熟悉的环境能够快速准确 地进行日标判断,进入视觉的景物立刻被提取,识别,形成概念,备个概念之间的关系被明 确之后形成了对场景的描述。当人们想利用机器来做这个工作的时候遇到了前所朱有的困 难,主要原因体现在如 的方面: i ) 二维| 鳘i 象到三维关系的判断。目前机器接受的输入都是平面的二维图象,对视频对象的 识别都停留在平面分析地步,很难得到实际正确的三维关系描述。 2 ) 经验知识的作川。人们认识事物是一个逐步累积的过程,很多经验的物体形状、颜色、 纹理和三维特征都以先验知识的形式存在于观察者的脑中。而且人类认识不同物体的所用的 特征著别很大,机器很难具备如此丰富的数据。即使有比较多的经验模板,如何进行快速的 卉找和匹配也是很难解决的问题。 3 ) 机器没有人类的场景分析能力。人类在缺乏经验的情况下,对陌生的景物一开始也有可 能认识错误,但在经过分析之后,人类能综合原有的经验库产生新的“临时”经验,解决陌 生场景的分析问题。 基丁以上的原冈,司以看出视频对象的提取和场景分析不是一个简单的前后关系,而是 相互影响的过程,如图2 1 中虚线流程所示。但就目前而止,我们还很难把场景分析的结果 荐同馈剑视频对象提取的过程中,即使有一些场景分析的研究在进行,那也是很特定和简单 的模型( 例如人员进出建筑物、运动员的跑动关系、车辆碰撞现场描述等) a 所以现在人多 数应_ h j 仍然是单向的,如图2 1 中实线流程所示。 图2 1场景分析过程 视频对象提取人多要经过两个过程:1 ) 只利用帧内图象本身的信息进行的提取称为帧 内目标分割提取( i n t r a - f r a m e o b j e c t s s e g m e n t a t i o n ) ;2 ) 利用视频的运动信息来跟踪、细化 7 中田科学技术人学顾i :学位论文 视频日标提取算法 进而提取对象称为帧间目标分割提取( i “t e r - f r a m eo b j e c t ss e g m e n t a t i o n ) 。静态圈象分割算 法是视频对象分割的基础,帧内分割由于没有利用到前后帧的信息,采用的方法类似丁静态 幽象的目标提取方法。实际上很多视频目标提取方法都建立在图象目标分割的基础之上,有 了初步的结果后再联合帧间的信息加强提取效果。 2 1 基于像素的阈值化分割技术 像素是对幽象进行分析时候最先接触的基本元素,任何图象分析都是从像素开始的。单 纯的像素处理忽略了幽象空间内容,这类方法往往不能取得太好的效果,通常作为预处理的 部分存在丁图象分析里,分割的结果受r j 限指定、光线强度变化和图象噪声的影响比较人。 像素之间根据特征差别进行的区分可以用闽值化的方法进行。例如对于灰度图象的闽值 分割就是把每个像素与灰度闽值比较,得到两个大类,达到区域分害4 的目的,由此可见阑值 化分割算法主要有两个步骤: 1 ) 确定需要的分割闽值; 2 ) 将分割闽值与像素值比较以划分像素,如式2 1 所示; 鼬川= 托雾凳籍 偿t , 在利刚阈值化方法来分割灰度图象时候,一般都有一定的假设,就是说它是基丁一定的 图象模型的。这个模噩通常可做如卜的描述:假设图象由具有单峰灰度分布的目标和背景组 成,处t 日标或背景内部相邻象素间的灰度值是高度相关的,但处于目标和背景交界处两边 的像素在灰度上有很人的著别。 在一般的多闽值分割情况f ,阈值分割后的图象可表示为: g ( x ,y ) = j | 矿t l 瓦( 曲 g ( x ,y ) = a n d f l ( 曲一玩( z ) j 瓦( 石)( 2 8 ) l0 , e l s e 像素的特征有很多,例如和周围像素的相关特性,或者前后帧的差值( 这在前面的例子 中有所体现) ,很多时候这些特征是从灰度这一基本特征得到的。灰度特征表达了视频中能 域的分布情况,除了它还有色度特征。【潘锦辉,1 1 】中采用了r o b 空闰来决定是否是同一 9 中国科学技术人学硕l :学位论文 视频1 5 标提取算法 物体: 在某个区域内计算颜色矢量最人和最小值 c 。= m a x ( r ) ,m a x ( g ) ,m a x ( b ) c 。= m i n ( r ) ,m i n ( g ) ,m i n ( 6 ) ) 计算他仃j 的著值: d r ,g ,b = c 一一c 。 = m a x ( r ) 一m i n ( r ) ,m a x ( g ) 一m i n ( g ) ,m a x ( 6 ) 一m i n ( b ) 3 个分姑如果都小丁一个j 限,就认为他们是一致的区域。 ( 2 9 ) ( 2 1 0 ) ( 2 1 1 ) 除了r g b 空间还有很多的颜色空间可以加以利用,尽管基于感知的颜色模型( c i e , h v c ,h s v ) 更适合予图象的表达和分析 c u c e h i a r a , r ,1 2 1 ,但我们倾向于选择y c r c b 颜色模型,原冈在丁:( 1 ) 对机器而言,不具备直接感知特征的y c r c b 模型的颜色著别同 样可以通过c r c b 分鼙得以体现;( 2 ) 由于大多数原始视频数据是y c r c b 格式的,冈此直 接利川可以省去转化i :作 j i a n p i n g f a n ,1 3 1 。 2 2 基于图象随机场模型的分割技术 对丁二维图象,我们认为存在一系列的点s = , ,s 2 。j 。) ,对于这些点存在一个标 记场 c o o ,c o l ,c 0 2 ( o n ) 和一些事先观察场 d o ,d l ,d 2 或 。这样视频目标分割的问题可以 门结为在事先观察场和其他一些约束条件下得到标记场的问题。 对丁- 每一个图象的标记点,其概率分布可以用以下公式描述: p ( c o ) = 三e 卅f ,( 州 ( 2 z ) 这里的r 是调整参数,且u ( 国) = r o ( c o ) ; f c 1 z = e _ 1 州,这里的z 是个标准化 m 常数,称为分拆函数。u ( 国) 表示某种势能,也称为g i b b s 势能,是系统的能量函数。而其 中的k ( ) 则是基团阈势能。这里的基团一般是邻域或者相互关系密切的单元,i ! i 象邻域就 弈易构成基团,如图2 3 所示,所有的基团构成基团集合c s 。 巳二日 习口日吒一 卣昭甲士田 图2 3 4 像素邻域和8 像素邻域的基团集合 1 0 中田科学技术人学坝f :学位论文 视频目标提取算法 为了利_ l j 先验知识即事先观察,我们重新定义能量函数: u ( c o ,e 1 ) = - 当圪( ) + 8 ( c o ,d ,) = u i ( ) + u 2 ( c o ,d ) ( 2 1 3 ) f e s e s 通过最人后验概率估计,使得标记场的后验概率分布最大化,即可使能量函数最小,我 仃j 在实际廊川中能螭函数晟小即意味着前后变化最小,从而判断出运动和非运动区域【s t a r t z l i ,1 4 1 。 【詹劫峰,1 5 】中取连续的3 帧构成邻域并形成基团集合,如图2 4 ,图2 5 所示。 图2 5 基团构成 式2 1 3 中的u ,( ) 被重新定义,由原来的翻象自身的特征变化为图象变化夫小的描述: u 1 = t ,( c o 。,) ( 2 1 4 ) ( q 川= 般荔 仁1 5 ) 这里的 0 而且根据空间、过去时间以及朱来时间上的邻域关系的, a o ,只,尻可以取不 同的值,其中, a o 是定义在空间邻域关系上的基团参数,其目的就是消除孤立的噪声点以及 填补分割区域的空点。厦,厦分别是朱来基团和过去基团参数,用来预测当前时刻的分割。 j 生| 象观察场 d o ,d ,d 2 或) 在这里就是前后的帧差,假设存在高斯噪声的影响,该点是否 年i l 前一帧对戍点一致就可以用一个决定函数表达: 删= k 。,国掌 中国科学技术人学硕 j 学位论文 视频目标提取算法 u 2 ( e o ,们= 寿限一( q ) j 2 ( 2 1 7 ) u j e j 这样就把图2 5 中显示的所有包括空间的和时间的相邻域和当前点的关系_ j 能量公式加 以表达,以能昔越小为条件形成迭代,得到正确的标记场,运动和非运动得n t 区分。 2 3 利用边缘探测的分割技术 人的视觉过科中有个重要的特点是对梯度变化火的部分比较敏感,人总是能先注意到 不同物体的相交处,这些区

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论