(信号与信息处理专业论文)视频中运动对象的检测与提取.pdf_第1页
(信号与信息处理专业论文)视频中运动对象的检测与提取.pdf_第2页
(信号与信息处理专业论文)视频中运动对象的检测与提取.pdf_第3页
(信号与信息处理专业论文)视频中运动对象的检测与提取.pdf_第4页
(信号与信息处理专业论文)视频中运动对象的检测与提取.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(信号与信息处理专业论文)视频中运动对象的检测与提取.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕l 学伊论文 摘要 在过去的十多年里,视频对象的检测与提取技术已受到了计算机视 觉领域的广泛关注。在视频编码巾,基于内容和利用人眼视觉特性的第 2 代编码技术已经提出,提取视频对象可以很大地提高压缩效率,并为 存储和传输提供了便利。在m p e g - 4 标准和正在制定的m p e g - 7 标准中提 出了基于对象的检索和浏览技术。在互联网领域的w e b 技术中,我们需 要提取视频对象,以对静上t 或动态场景进行查询和交互。另外在模式识 别、计算机视觉、视频检索等领域也得到了广泛的应用。 m p e g - 4 作为第二代的视频编码标准,首次提出了基于目标对象的编 码。但是m p e g - 4 并没有给出视频对象的具体分割方法,只是对视频的编 解码过程进行了定义。视频对象分割方法无论是在视频压缩还是在对象 编辑的应用上,都占有着举足轻重的作用。因此对视频对象分割方法的 研究具有重大的应用价值和理论意义。 在对已有视频分割算法进行详细分析的基础上,基于帧内的分割( 守 域分割) ,本文提出一利- 基于边缘检测和分水岭分割相结合的图像分割 算法。该方法首先利用边缘检测算子对图像进行边缘检测,通过边缘点 的限制,避免区域的过分割,同时通过改进的分水岭分割补充漏检的边 缘,使轮廓更加完整,从而得到较好的分割效果。基于帧间的分割( 时 域分割) ,本文分析了运动对象检测和提取的基本方法和理论,利用三 帧差分与背景差分相结合的方法来进行自适应的运动对象提取,提高了 算法的效率。实验证明,该算法能准确、快速地检测和分割提取出运动 对象并有很强的鲁棒性,有着广泛的适用性,为视频监控对象的压缩和 查询操作提供了坚实的理论基础,具有较好的实用价值。 关键词:运动对象;三帧差分法:背景差分法;混合高斯背景模型 视频中运动对象的柃测1j 提取 曼曼曼曼曼曼曼皇曼曼曼鼍曼曼曼舅曼曼曼曼曼曼曼鼍曼寰曼量! ! 曼曼鼍! 曼曼量曼曼皇曼皇皇曼i i i i i 一一i 鼍鼍! 曼寰曼! 曼! 曼蔓 a bs t r a c t i nt h ep a s td e c a d e ,t h et e c h n o l o g yo fv i d e oo b j e c t d e t e c t i o na n d e x t r a c t i o nh a sb e e nw i d e s p r e a dc o n c e r n e di nt h ef i e l do fc o m p u t e rv i s i o n v i d e oc o d i n gm e t h o db a s e do nt h ec o n t e n ta n du t i l i z a t i o no fh u m a nv i s u a l c h a r a c t e r i s t i c so ft h e2 n dg e n e r a t i o nc o d i n gt e c h n i q u eh a sb e e np r o p o s e d v i d e oo b j e c te x t r a c t i o nc a n g r e a t l yi m p r o v et h ec o m p r e s s i o ne f f i c i e n c y ,a n d p r o v i d e sac o n v e n i e n ts t o r a g ea n dt r a n s m i s s i o n 0 b j e c t b a s e dr e t r i e v a la n d b r o w s i n gt e c h n o l o g yh a sb e e nd e v e l o p e db yt h em p e g 4s t a n d a r dm p e g 7 s t a n d a r d i nt h ef i e l do fw e bt e c h n o l o g yo ft h ei n t e r n e t ,w en e e dt oe x t r a c t t h ev i d e oo b j e c tt oq u e r ya n di n t e r a c tw i t ht h es t a t i co rd y n a m i cs c e n e s i n a d d i t i o n ,i nt h ef i e l do fp a t t e r nr e c o g n i t i o n ,c o m p u t e rv i s i o n ,v i d e or e t r i e v a l h a sa l s ob e e nw i d e l yu s e d m p e g - 4i st h en e wc o n t e n t b a s e d m u l t i m e d i ad a t a c o m p r e s s i o n s t a n d a r d i ti st h ef i r s tt i m et o p r o p o s et h eo b j e c t o r i e n t e dv i d e oc o d e h o w e v e r ,m p e g - 4s t a n d a r do n l yd e f i n e sav i d e oc o d i n ga n dd e c o d i n g p r o c e s s ,a n dd o e sn o td e v e l o ps p e c i f i cv i d e oo b j e c ts e g m e n t a t i o n a sa n i m p o r t a n ta s s i s t i v et e c h n o l o g yi nt h ev i d e op r o c e s s i n gd o m a i n ,t h er e s e a r c h a b o u tv i d e oo b j e c ts e g m e n t a t i o nh a st h ep r o f o u n ds i g n i f i c a n c ea n dt h eg r e a t a p p l i c a t i o nv a l u e t h i sp a p e rp r e s e n t sa ni m a g es e g m e n t a t i o na l g o r i t h mc o m b i n i n ge d g e d e t e c t i o na n dw a t e r s h e ds e g m e n t a t i o nb a s e df r a m e s e g m e n t a t i o n ( s p a t i a l s e g m e n t a t i o n ) ,o nt h eb a s i so fad e t a i l e d a n a l y s i s o fe x i s t i n gv i d e o s e g m e n t a t i o na l g o r i t h m s f i r s t l y ,i tu t i l i z e se d g ed e t e c t i o no p e r a t o rf o r i m a g ee d g ed e t e c t i o na n de d g e p o i n tl i m i t ,t o a v o i dt h e r e g i o n o f o v e r s e g m e n t a t i o n ,t h r o u g hi m p r o v e dw a t e r s h e ds e g m e n t a t i o nt o s u p p l y m i s s e dt h ee d g e ,i no r d e rt og e tb e t t e rs e g m e n t a t i o nr e s u l t s b a s e do nt h e i n t e r f r a m es e g m e n t a t i o n ( t i m e - d o m a i ns e g m e n t a t i o n ) ,t h i s p a p e ra n a l y z e s t h eb a s i cm e t h o d sa n dt h e o r i e so ft h e m o v i n go b j e c t sd e t e c t i o na n d e x t r a c t i o n ,a n da d o p t s a d a p t i v em o v e m e n to b je c te x t r a c t i o nu s i n ga c o m b i n a t i o no ft h r e ec o n s e c u t i v ef l a m ed if f e r e n c ea n db a c k g r o u n di m a g e d i f f e r e n c et oi m p r o v et h ee f f i c i e n c yo ft h ea l g o r i t h m e x p e r i m e n t ss h o w t h a tt h i sa l g o r i t h mc a na c c u r a t e l ya n dq u i c k l yd e t e c ta n de x t r a c tm o v i n g o b j e c t sa n dh a ss t r o n gr o b u s t n e s sa n db r o a da p p l i c a b i l i t y ,p r o v i d e sas o l i d 硕l j 学伊论文 t h e o r e t i c a lf o u n d a t i o nf o rt h ev i d e os u r v e i l l a n c eo b j e c t s c o m p r e s s i o na n d i n q u i r y ,a n dh a sg o o dp r a c t i c a lv a l u e k e yw o r d s :m o v i n go b j e c t s ;t h r e ef r a m ed i f f e r e n c e ;b a c k g r o u n ds u b t r a c t i o n ;m i x t u r e g a u s s i a nb a c k g r o u n dm o d e l 硕卜学f ? i 论文 mmimm!_皇 插图索引 图1 1 视频分割算法框架l4 图2 1 梨予图像分割实验2 6 图3 1 村1 邻帧差法原理流程27 图3 2 两帧差分法示意图2 9 图3 3 三帧差分法示意图2 9 图3 4 背景差分法原理流程2 9 图3 5 单高斯模型的概率密度示意图31 图3 6 混合高斯模型密度函数示意图32 图4 1i n t e l l i g e n tr o o m 实验结果图3 6 图4 2 高斯混合模型构造的背景图像37 图4 3s a m p l ev i d e o 实验结果图38 硕一l j 产伊论文 第1 章绪论 1 1 数字视频与多媒体技术 世界正迈向数字化、网络化、全球一体化的信息时代。人类的生活 也将在这个变为“地球村”的星球上进入更高品质的“数宁化生存”。视 觉信息作为人类最“赏心悦目”的信息将大放光彩。视频是连续运动图 像序列。每幅图像称为一帧。由于人眼的视觉惰性,每秒2 4 帧播放图像, 就能够在视觉上形成具有连续活动影像感觉的视频。 为什么需要视频信息? 主要原因有以下几点: ( 1 ) 人类接受的信息有7 0 来自视觉; ( 2 ) 视频信息有一系列的优点:确切、直观、具体、生动、效率高、应用 广等: ( 3 ) 视频信息容量大,通过视觉获得的视频信息,比通过听觉获得的音频 信息具有更大的信息量。 视频数字化的好处包括: ( 1 ) 开放结构视频系统意味着视频可以存在于多个空间点上,而且信噪比 在单一标称范围内; ( 2 ) 交互性,允许中断以便获取通往视频数据库的路径,并获取视频; ( 3 ) 按命令进行可变速率v b r 的传输; ( 4 ) 从一个标准向另外一个标准变换只需简单变换软件; ( 5 ) 在一个公共多媒体平台上集成各种视频应用; ( 6 ) 编辑功能,包括剪辑、粘贴、放大、去噪声滤波和模糊处理; ( 7 ) 抵抗噪声,实际传输差错的能力和易于加密。 因此,数字视频随着计算机技术和通信技术的发展,早已普及到人 们的生活,成为多媒体技术的重要组成部分。 多媒体技术是2 0 世纪9 0 年代计算机的时代特征,是9 0 年代计算机 的又一革命。多媒体是针对单媒体而言的。媒体在计算机领域中有两种 含义:一是指用于存储信息的实体,如磁带、磁盘、光盘和半导体存储 器;一是指信息的载体,如数宁、文字、声音、图形和图像。多媒体技 术中的媒体是指后者。多媒体计算机是指计算机综合处理多利- 媒体信息: 文木、图形、图像、音频和视频,使多种信息建立逻辑连接,集成为一 个系统并具有交互性。要把一台普通的计算机变成多媒体计算机要解决 m 坝巾j 生功对豫的伶洲j 提取 的关键技术是音频视频信号获取技术、多媒体数据的有效编码和解码技 术、音频视频数据的实时处理技术以及输出技术等。 在计算机发展的初期,人们只能用数值这种媒体承载信息。当时只 能通过“0 ”和“1 ”两种符号表示信息,即用纸带和卡片有孔和无孔来 表示信息,纸带机和卡片机是主要的输入输出设备。“0 ”和“1 ”很不直 观,很不方便,输入输出的内容很难理解,而且容易出错,出了错误也 不容易被发现。这一时代是使用机器语言的时代,因此计算机只限于极 少数汁算机专业人员使用。 2 0 世纪5 0 年代车7 0 年代,出现了高级程序设计语言,开始用文字 作为信息载体,人们可以用文字( 如英文) 编写程序,输入计算机,计算 机处理的结果也可以用文字表示输出。这样,人与计算机交往就直观、 容易得多,计算机的应用也就扩大到具有一般文化程度的科技人员。这 时的输入输出设备主要是打宁机、键盘和显示终端。使用英文文字与计 算机交互,对于文化水平比较低的人,特别是非英语的围家,仍然是一 件困难的事情。 从8 0 年代开始,人们致力于研究将声音、图形和图像作为新的信息 媒体输入输出计算机,这将使计算机的应用更为直观、容易。19 8 4 年, a p p l e 公司的m a c i n t o s h 个人计算机,首先引进了“位映射”的图形机 理,用户接e 1 开始使用m o u s e 驱动的窗口技术和图符,受到广大用户的 欢迎。这使得文化水平较低的公众包括儿童在内都能使用计算机。随着 与计算机相关的硬件技术,尤其是半导体技术的进展,有效地带动了数 字视频编码算法和视频处理器结构的改进,促使1 0 多年前单色文本、图 形子系统发展成今天的色彩丰富、高清晰度现实子系统,同时能够做到 全屏幕、全运动的视频图像,高清晰度的静态图像,视频特技,三维实 时的全电视信号以及高速真彩色图像。同时还有高保真度的音响信息。 综上所述,无论从半导体的发展还是从计算机进步的角度,后者从 普及计算机应用、拓展计算机处理信息类型看,利用多媒体是计算机技 术发展的必然趋势。 1 2 数字视频信号的分类 数字视频分成自然视频n a t u r a lv i d e o 和合成视频s y n t h e t i cv i d e o 两类。 自然视频是最主要的视频信号,由摄像设备如使用感光胶片的摄像 器材、氧化铅摄像管、电荷耦合器件c c d 等对真实世界的场景进行光学 硕i j 学f j z 论文 成像,经过时间和成像平面的取样形成数据流( c c d 阵列直接形成平面 取样信号) 。成像过程直接影响图像质量。在接收端播放时可以边接收边 播放。 合成视频是通过大型三维影像创造软件,如3 ds t u d i 0m a x 和m a y a 等人工创作的虚拟现实的计算机图形。随着计算机技术尤其是计算机图 形学、图形显示以及相关硬件设备的发展和快速普及,这类视频信号在 逼真度、内容、应用范围和使用机率方面不断提高。在2 0 0 2 年的韩日世 界杯足球赛上,对每场比赛现场直播节目,重放影像包括两类数字视频, 即除了真实场景的慢镜头景像外,还包括虚拟现实的景像,与三维计算 机游戏f i f a 2 0 0 0 相似。这在世界杯足球赛的历史上,是首次应用虚拟 现实的计算机图形于现场直播,收到了很好的视觉效果叫。 本文研究的内容是针对自然视频信号的对象分割技术,简单地说就 是把视频当中的静止的或者活动的对象和背景图像分离并提取出来,以 便于后续的压缩和对象的操作等。 1 3 计算机视觉及运动对象分析概述 计算机视觉是指,计算机控制传感变换设备对客观景物进行采集, 利用计算机对景物的视觉信息进行表征及压缩、处理分析、存储及网络 传输,从而实现人类对生物视觉( 包括眼睛和大脑) 所具备的功能。它从 所获得的图像巾生成对景物的明确、有意义的解释和描述,对客观世界 进行视觉感知。所涉及的采集、处理、表征、存储与传输五项技术都在 发展,但人们研究较多的还是视觉信号信息处理技术1 5 1 。 人们通常将汁算机视觉分为高层h ig hl e v e l ,中间层i n t e r m e d ia t e l e v e l ,和低层l o wl e v e l 。低层视觉主要研究涉及像素一级的运算操作, 包括边缘捡测和区域分割等。巾间层主要分析二维的形状、颜色、纹理、 运动、明暗和遮挡等。随着应用场合的不同,要特别关注其不同的先验 知识;根据区域的性质和特征,找出区域间的关系,并推导出相应的三 维描述。高层视觉主要研究三维景物的解释、理解和物体识别。 计算机视觉中有关运动的研究,早在二十世纪三十年代就开始了。 但早期较成功的研究还主要是集中于对刚体运动的研究上。五十年代左 右,对非刚体的研究逐渐兴起。尤其是人的运动分析,由于其在监控、 机器人、人机交互等方面具有广泛的应用前景,而激发了世界范围内的 广大工作者的研究兴趣。 运动对象分析的主要应用领域为:( 1 ) 监控领域:自动视频监控是指 视: ! 中j 厶动对啄的辁洲j 提! 坟 在忙碌的环境下实时观察人和车辆,并描述其运动和交互作用。应用之 一是出入口控制,它检测某个人是否真的出现然后对其进行人脸识别、 跟踪:其他应用如停车场的临控系统,它跟踪物体的运动以判断是否会 有犯罪情况的发生。例如,在安伞度要求较高的军事场合,只有具有特 定身份的人才能出入。这时需要使用生物特征预先建立一个生物特征数 据库。当有人准备进入时,系统可以自动获取实时拍摄的图像中来访者 的特征,如身高、脸部表象、步态等,以决定是否可以让来访者进入。 视频监控已在美围、欧洲和日本有了大的研究工程。而且近年来,也成 为一些国际会议和工作组的主题。视频豁控在商业、法律、法律和军事 领域有直接的需求。安装视频摄像机比较廉价,但雇佣合适的人员观察 拍摄结果却是非常昂贵的。尽管目前视频摄像机在银行、商场和停车场 已较为普及,但提供的都是“事后的证掘,失去了其积极、实时性的 意义。人们需要视频监控进行连续2 4 小的监控,对犯罪行为进行自动报 警,使工作人员有时间去及时制止犯罪的实施。( 2 ) 控制领域:与控制 领域巾相关的应用是提供控制函数。如设计游戏,虚拟环境,动画等的 接l j 。这时,可通过脸部表情分析、手势识别等进行更好的人机交互。 ( 3 ) 分析领域:对人运动的分析和理解有助于建立人体的几何模型,解释 人体的运动行为机制。可用于医学步态分析、体育运动及舞蹈训练等。 运动对象分析属于图像理解和分析的范畴,涉及到计算机视觉、图 像处理、模式识别、心理学等领域。例如,在心理学方面,j o h a n s s o n 在他著名的m l d s ( m o v i n gl i g h td is p l a y s ) 实验中发现人们只需根据很少 的运动点就可以识别出运动的模式,如走、起立。这引出了一个问题: 是否可以直接从运动中识别运动模式,而不需要恢复结构。在运动学方 面,需要发掘人体的模型以解释其运动基理。在舞蹈学方面,人们长期 致力于设计用于舞蹈、芭蕾、戏剧的高层次的人体运动描述。计算机图 像学则处理人体运动的合成。 运动对象分析的过程主要可以分为运动目标检测 一1 ,目标分类, 目标跟踪,行为理解和步态分析等。目前,运动人体的检测、跟踪与识 别已成为计算机视觉领域中备受关注的研究方向。它研究的是人体的各 种运动,如头部、胳膊、手、肘及腿部的运动。另外,在出入口监控、 视频人脸检索等系统中运动人体分析的最终目的包含人的身份识别等问 题。例如,在视频监视中,远距离的监视得到人体运动信息,如步态等: 近距离的监视则以人脸为主,这时需要人脸检测与跟踪、人脸识别。与 指纹、虹膜等一样,人脸识别也属于一种生物特征认证技术。而且人脸 识别更可靠、更易于被人们所接受,因此受到了人们的高度重视。比如 4 硕十7 纠市论文 基于视频的自动人物认证系统,它所处理的视频序列就包含逐渐走近摄 像机的人体。因此,运动人体检测、人脸检测与识别阳1 既可作为独立的 课题进行研究,也可以作为一个课题的各个步骤进行综合的研究。本文 主要致力于研究运动对象分析中的目标检测及提取。 1 4 视频分割技术的研究及应用现状 1 4 1 视频分割与图像分割的关系 视频是一连串的图像序列,视频中的每一帧( 某一时刻的采样) 即可 视为一幅图像。因此,视频实际上是图像序列在时间维的扩展,但视频 处理并不是图像处理在时间维的简单扩展,这是因为视频序列中相邻图 像之间存在大量的时间冗余和空间冗余,相关性很强。因此,视频分割 与图像分割之间既有区别又存在联系:图像分割常利用空问信息进行 分割,视频分割同时还利用时间信息进行分割。图像分割依赖于像素 级的低级特征,如灰度、颜色和纹理的一致性,往往是相似性区域的聚 类,通常不涉及语义意义,因此也被人称为“低级”分割。视频对象分 割由于对象包含着运动信息,常会发生遮挡区和显露区等问题以及存在 非刚体对象的形变问题,很难仅用上述的低级特征来刻画,还需借助于 语义的一致性。由此而言,视频分割比图像分割要复杂得多。图像分 割是一幅静态图像单独的分割。视频分割先要进行初始帧分割,分割初 始帧对象时既可沿用图像分割的某些方法,又常运用后续帧的相关信息, 获得初始帧视频对象后,通过对象跟踪算法,持续地分割出后续帧的视 频对象,因此视频分割并不是单独一帧图像的分割,而是一种前后关联 的多线索融合分割。此外,图像分割己研究了数十年,目前已有千余种 分割算法,而视频对象分割起步相对较晚,但由于有广泛的应用前景, 发展甚为迅速j 1 4 2 视频分割的相关概念 当f j ,多媒体技术正朝着分布式环境下提供交互式多媒体服务的方 向发展,尤其是希望能够提供基于视频内容的应用,为了实现基于内容 的存储、传输和检索等操作,很重要的一个方法就是分割出运动的视频 对象( v i d e oo b j e c t ,v o ) 。 视频可以看作时间上连续的图像序列,视频中的每一帧都是一幅静 态图像。视频分割是将一段连续的视频分割为若干组织单元的过程。因 此,视频分割通常包含图像分割的过程,但视频分割却不是图像分割在 时间上的简单扩展。从语义信息的角度分析,视频是由大量场景组成的, 视! 顷中逆动对豫f 门柃测j 提取 每个场景由一个或多个镜头组成,而镜头是由一系列的帧组成的。 视频对象( v id e oo b j e c t ,v o ) 是视频场景中可以任意访问和进行 操作的实体,具有一定高层理解的语义区域,是人类视觉系统对某一事 物认知的抽象描述。视频对象分割就是把视频图像序列中人们感兴趣的 或者具有某种重要特性的一个或多个视频对象从背景中分割出来,并在 时间轴上对这些对象进行跟踪。显而易见,我们这罩所说的对象,就是 指运动对象( 全文如此,不在特意区分) 。提取出的对象在某些方面往往 具有如色彩、亮度、纹理及运动特征等相似属性。 通常,一个视频场景由背景和目标( 对象) 组成,而视频序列的目 标( 对象) 往往是视频序列的重要组成部分。因此如何能有效的分割出 视频对象,对视频图像分析具有重要的意义。 1 4 3 视频分割的应用领域 视频分割在很多领域有非常重要的作用,在视频编码中基于内容和 人眼视觉特性的第二代编码技术已经提出,提取视频对象能够有效地提 高压缩效率,并为存储和传输提供便利。这一新的编码技术将对很多方 面产生巨大的作用,如数字电视、动态图像、实时多媒体监控、低比特 率下的移动多媒体通信、基于内容存储和检索多媒体系统、 i n t e r n e t i n t r a n e t 上的视频流和可视游戏、基于面部表情模拟的虚拟 会议、d v d 上的交互多媒体应用、基于计算机网络的可视化实验室场景 应用、演播电视、网上购物和电子商店、远程监控、医疗和教学等。在 m p e g - 4 标准中提出基于对象的压缩编码技术,在m p e g 一7 标准中提出基 于对象的检索和浏览技术,而视频对象分割技术则是其中的关键技术之 一。另外视频分割在模式识别、计算机视觉、视频检索等领域得到了广 泛的应用。视频对象分割技术作为崭新领域的基础性技术,已经吸引了 众多研究人员的目光,成为当前研究的热点问题。 为了实现m p e g 一4 标准所提出的面向对象和基于内容可操作的目的, 视频分割技术在视频监控和视频编码领域正不断被研究和应用。 视频监控技术极大地改变了人们的工作和生活方式,提高了相关领 域的自动化程度,在工作效率、资源利用及安全性方面发挥了重要作用 1 0 一14 】 o ( 1 ) 公路智能交通系统。公路交通监视系统是智能交通系统 ( i n t e l l i g e n tt r a n s p o r t a t i o ns y s t e m ,i t s ) 的重要组成部分,是目 前交通运输领域及视频图像处理领域的前沿研究课题。 以前的交通监控采用红外线、超声波或是在路面下铺设传感器设备 对来往车辆进行检测,安装设备时需要对路面施工,阻碍了车辆的j 下常 6 硕十学伊沦文 通行。当设备出现问题时,维修工作异常复杂耗时费力。现今采用的交 通视频监控系统,可轻松的完成安装,拍摄画面方便直观,而且各个交 通要道都可安装此系统,有效的提高道路的监控范围。同时交通视频监 控系统的用途范围也在不断扩大,如斑马线上路人的检测,超速车辆的 实时抓拍。所以交通视频监控已经成为智能交通系统领域重点研究的对 象。包括对某一车辆的跟踪、对某道口来往车流量的统计、对经过车辆 的测速。在以上所有应用中,第一件事都要对监控视频的图像帧进行分 割,找出运动目标和背景对象,然后才能对目标进行检测分析。从这个 意义上说,视频分割是交通监控领域的首要技术,对象分割的精确与否 直接决定了车辆检测结果的可靠性。 ( 2 ) 视频监控系统。视频监控系统一般是出于某些安全考虑,通过 在室内或建筑物出入口处安装摄像头,对室内人物活动或其他环境变化 等进行监控。例如,在银行、停车场、超市等位置安装视频监控系统记 录顾客出入及活动情况,以便于出现事故后进行回放分析;在高温、高 压及有毒化工生产车阳j 安装监控系统可以实现远程监控,避免了潜在的 安全隐患。但是由于受到目前视频对象分割技术水平不高以及视频自动 分析能力不足的限制,目前视频监视系统的智能化程度不高。因此,在 该领域的研究主要针对视频分割技术的改进,以提高视频监控系统的智 能化水平。 第一代的视频压缩标准都是将一幅帧图像分成大小相同的宏块,无 区别的进行编码,无法再对其中的对象进行操作。在进行传输时,有限 的网络带宽使的视频在压缩时必须采用低比特率。每帧分配码流的减少, 必然导致图像质量的降低。真是针对这一问题,m p e g - 4 标准提出了基于 对象编码的概念,可对视频中的感兴趣对象进行操作。在带宽较窄时, 可以按照对象的重要程度,为不同对象分配不同码率。编码控制机制可 以把码率多分配给前景运动对象,少分配给人眼不关注的背景对象,这 样就可以在进行顺利传输的同时,保证了图像的主观质量。基于对象的 编码同时满足了基于内容的交互性和编码的灵活性。可以实现对象的的 操作与编辑,图像编码的码流和分辨率可由用户自由选取。视频分割后, 每个对象由运动信息、形状信息、纹理信息三类信息进行描述,再根据 这些信息进行视频的编解码。具体的来说,m p e g - 4 在编码过程中针对不 同的视频对象采用不同的编码策略,即对前景视频对象的压缩编码尽量 分配更多的码流,采用低压缩率编码,对背景对象分配较少的码流,采 用高压缩率的方法,当满足s p r it e 编码时,可不对背景进行传输,而直 接用其他背景拼接。 见! 负叶,j 苎劲再r 啄f 门f 令洲i1 j 掣_ i 叉 曼曼! 曼曼曼! 曼曼! 曼皇量皇! ! 曼鼍曼曼曼曼曼曼! 曼! 曼! i 曼曼! ! 曼曼曼曼曼曼曼曼曼! ! ! 曼! ! ! ! 曼! 曼曼皇曼曼曼曼曼曼曼曼曼皇曼曼! ! ! 曼曼曼! ! ! 曼 视频对象的分割被公认为是一个具有挑战性的难题。在m p e g 一4 标准 制定后,一直到现在还没有取得令各方一致认同的解决办法,m p e g 组织 并没有制定将数字视频序列分割成视频对象的具体方案。因此,为了推 动m p e g - 4 的广泛应用,对视频对象分割技术进行研究是非常迫切、非常 必需的。 然而,视频内容是具有复杂性和随机性的音视频的结合,即在时问 上和内容上具有复杂性。用户查询视频内容的方式也具有多样化,如事 例查询,即查询视频中内容大致相近的视频片段。除此之外,通过语义 关键词也可查询,利用此类搜索引擎查询与此关键词相关的视频内容。 通过这种方法查询和检索视频内容,我们需要保证视频所含有的视频片 段在时间上是连续的。语义结构分析就是将时间轴上的视频内容及其表 达的语义信息结合起来进行分析。当今国际社会在研究视频处理方面提 出多种研究方法,其中大部分方法的着眼点都是对视频内容的语义理解, 包括交互式检索模型、基于可靠性的情感模型、基于人体感觉的感知模 型、视频语义检索及智能视频内容归纳等。视频语义理解研究视频内容 的概念和前后内容的关系与结构。现有的理论概念是结合视频内容上下 文的信息和多媒体存在论来具体分析和理解视频所要表达的内容,并在 其理论基础之上建立专家研究系统,使用遵守一定规则的搜索引擎、可 视检测器、领域知识、宏数据及相关数据库等。 近几年,在视频分割算法领域中,大多数算法采用时空联合分割。 时空联合的视频分割方法在利用相邻帧的信息同时,又结合了单帧图像 内部的结构信息,这就符合了人眼视觉系统处理视频对象的方式。如果 不考虑主观经验的存在,人眼也无法分割帧图像中每个对象的区域,而 只能由纹理、色彩等某些属性划分区域和其边界。而视频对象在不同帧 图像中的位置由于运动会产生一定的变化,而人眼对此变化信息感知后, 根据其在时间域上的共性,在单帧图像中抽象出每个对象的具体定义, 最后获得每个对象各自的区域。可以看出,帧间相关信息的利用可以解 决单帧图像分割中不能获得对象位置的问题,而单帧图像信息的利用可 以用来解决时域分割中难以准确获得对象边缘的问题。时空联合的分割 方法与单独采用时域分割或空间域分割方法相比较,能获得边界轮廓更 加明显、位置更加精确的视频对象。所以,这些算法能够有效分割出独 立的前景对象,在众多应用领域已经表现出较好的应用前景,但在算法 的精确性、实时性及鲁棒性等方面还远没有达到令人满意的程度,仍需 要进一步提高和完善弘2 0 | 。 从二十一世纪初,人们除了把视频研究的重点关注在视频对象的分 硕卜号:伊沦文 割和归纳一k 以外,研究人员也意识到音频特征在视频语义分析处理上也 是不可或缺的一部分。音频特征除包含语义信息之外,还包含了听觉信 息。用音频特征来分割视频内容比视频分割相对更容易一些,计算复杂 度较低。这样的话,如果用音频就可以精确的分割出前景目标或场景的 时候,就不需要另外利用视频特征进行复杂处理,这就在很大程度上加 快了图像的分割速度和效率。同时,音频特征的分析结果在视频处理时 也具有很大的参考价值,用来帮助其进行视频分割。在单独视频没一种 分割方法不能对视频对象做出精确分割是就需要把二者相结合,取长补 短,消除歧义,得到最精确的分割结果。 著名的c o s t 电信联盟组织中的c o s t 21 l 小组是欧洲一个专门从事视 频分析的论坛和研究网络。他们试图利用该测试模型对不同的分割方法 进行测试、比较、优化,最后通过融合不同分割方法得到最好的分割效 果。c o s t 2 11 当前的主要工作是构造一个可以为多种具体对象进行分割 的视频分割框架,称为a n a ly sism o d e l ( a m ) 。a m 的基本特征是把利用 多种方法取得的信息加以融合以期望得到最好的分割效果。整个视频分 割框架分为全局运动估计与补偿、局部运动分析、变化检测、场景变化 检测、局部运动分割以及彩色图像分割等。a m 把用不同算法获得的分割 模板采用某种规则加以融合得到最佳的分割效果。各个国家的相关机构 也围绕这个问题做了大量的研究工作包括对视频对象分割、基于对象的 编码等。 s c h e m a 是一个由十几家研究机构( 包括一些研究中心、大学、企业 和个人) 组成的一个联合机构,成立于2 0 0 2 年,专门从事基于内容的语 义场景分析和信息榆索。参加者中许多都曾在m p e g 一4 和m p e g 一7 中有过 重要贡献。该机构目前最重要的进展之一就是赞助了q t m e r a 项目, q i m e r a 项目的目标是为视频对象分割与跟踪开发出一个灵活的模块化 软件架构,该软件架构可以配置多种分析算法,并在必要的时候支持人 机交互,在这个软件架构下,开发者可以很容易地将自己的算法结合到 测试模型中,分析算法的效率和准确性。 在国内这一技术也引起了许多研究机构的兴趣,如哈尔滨工业大学 和中科院计算所于2 0 0 1 年1 月在意大利比萨召开的m p e g 工作组会议上 递交了关于s p r it e 的离线生成算法的提案。在该提案中,提出将视频分 割技术嵌入到s p r i te 生成算法中,从而有效地提高了生成s p r it e 的视 觉质量。 9 视! 顾巾运动对豫的伶洲。j 提取 1 5 视频对象分割技术发展概况 视频图像中运动对象的分割在技术上山于涉及到计算机图像处理、 视频图像处理、模式识别、以及人工智能等诸多领域,因而具有较强的 研究价值和意义。目前,在美国、r 本、欧洲己经有大量的目标检测与 跟踪的研究工作,并且也出现了大量的国际会议和新闻组,在国内也出 现了一定舰模的研究,同时也定期召开一些相关会议探讨研究成果和发 展方向。 运动对象分割的目的是从序列图像中将变化区域从背景图像中提取 出来。运动区域的有效分割对于目标分类、跟踪和行为理解等后期处理 非常重要,因为以后的处理过程仅仅考虑图像中对应于目标运动区域的 像素。然而,由于背景图像的动态变化,如天气、光照、阴影等因素的 影响,使得运动检测成为一项相当困难的工作。 视频对象的分割技术是在图像分割技术的基础上发展起来的,基本 上可以分为两大类,即基于帧内的分割技术和基于帧间的分割技术。 基于帧内的分割技术采用的是传统的图像分割技术,按照一定的空 问信息( 包括颜色、灰度、纹理等) 、变换信息( d c t 、d w t ) 、统计信息、 模型和先验知识( 对特殊类图像) 等对图像中的一致区域进行分割,然后 在帧间进行对象的跟踪。形态学分水岭算法由于计算简单而被广泛使用, 能较好地提取运动对象的轮廓。但是,由于分割依赖梯度信息,因此对 噪声比较敏感;而且没有利用帧间信息,通常会产生过度分割。 基于帧间的分割技术不仅可利用上述图像分割所用的信息,还可利 用对象的时间相关性和多视点信息来进行分割。由于运动信息是运动对 象的一个重要特征,因此常常根据运动的一致性来分割各个对象,也可 以结合颜色、纹理、边沿等特征。因各特征在对象的分割中的重要程度 不同,常常对各特征采用不同的加权系数进行聚类,或采用一些简单的 推理规则融合多种分割的结果,从而得到最终的运动对象。对运动一致 性好的对象,可以采用运动仿射模型,该方法有较好的分割效果。但是, 有些对象( 非刚体对象) 不同部分可能具有不同的运动特征,此时运动信 息不能作为有效的对象分割依据,常常需要采用后处理技术来得到实际 的对象区域。而且,由于受到噪声的影响以及运动场估计的孔径和遮挡 效应,运动场的估计可能并不准确。此外,计算运动场所需的运算量也 很大。为了避免计算运动场,可以通过计算帧问差分来得到运动区域, 然后再进行分割得到运动对象。通常认为差分图像服从高斯分布或拉普 拉斯分布,根据统计特性的不同,可以区分出运动对象和静止背景。该 1 0 硕十学伊论文 方法计算简单,但由于噪声的影响,简单的帧间差分图像的统计特性不 能有效地区分运动对象和静止背景。为了提高算法对噪声的鲁棒性,通 常采用空i n j 连通区域、多帧差分、差分图像光滑滤波、时空三维张量等 方法。时空三维张量法实际上是用时空梯度构成的矩阵的最小本征值表 征帧1 8 j 光滑程度,对于噪声较高和低对比度的图像有较好的分割效果。 也可以对差分图像采用小波变换,但是由于要在各个方向上进行滤波, 因此计算量通常较大。 下面是目前几种常用的方法: 差分法。差分图像是用来检测帧问运动或变化的常用形式,是指两 帧图像对应位置的亮度相减,可以是连续两帧原始采集图像的差分,也 可以是当前帧与建模背景图像的差分,分别称为帧间差和背景差。在摄 像机静止的情况下,视频序列相邻两帧之间的差别主要由以下两种情况 引起:首先,物体从某一位置移向另一位置:其次,噪声、光照及阴影的 影响。在摄像机运动的情况下,经过全局运动补偿后,相邻帧的背景是 静止的。 因此,帧间差可以区分变化不变区域,而背景差可以区分前景7 # 景区域,这是应用差分图像的基本原理。但是,要从差分图像提取视频 序列的运动信息却远不是如此简单,必须考虑噪声、光照变化、遮挡、 显露背景等因素的影响,而背景图像的建模也富有挑战性。此外,帧间 差可以认为是背景差中简单地把前一帧图像作为背景图像。 目前,利用差分图像分割前景( 运动物体) 与背景的方法有阈值化、 基于假设检验的统计算法、高阶统计等。 ( 1 ) 背景差方法( b a c k g r o u n ds u b t r a c t i o n ) 背景差方法是目前运动分割中最常用的一种方法。它是利用当前图 像与背景图像的差分来检测运动区域的一种技术。 ( 2 ) 帧差法( t e m p o r a ld if f e r e n c e ) 帧差法是在连续的图像序列中两个或三个相邻帧间采用基于像素的 时间差分并且阈值化来提取图像中的运动区域。例如,l ip t o n 等利用两 帧差分方法从实际视频图像中检测运动目标,进而用于目标的分类与跟 踪:一个改进的方法是利用三帧差分代替两帧差分,如v s a m 开发了一种 自适应背景减除与三帧差分相结合的混合算法,它能够快速有效地从背 景中检测出运动目标。帧差分运动检测方法对于动态环境具有较强的自 适应性,但一般不能完全提取出所有相关的特征像素点,在运动实体内 部容易产生空洞现象。 视! 帧巾逆劲对豫晌柃删j 提取 ( 3 ) 光流法( o p t ic a lf l o w ) 光流计算技术是gib s o n 于19 5 0 年提出的。所谓光流是指图像中模 式运动的速度。它是一种二维( 2 d ) 瞬时速度场,其中( 2 d ) 速度矢量 是可见的三维速度矢量在成像平面上的投影卜川1 。 光流法,基于光流方法的运动检测采用了运动目标随时问变化的光 流特性。其基本原理是:给图像中的每一个像素点赋予一个速度矢量, 这就形成了一个图像运动场,在运动的一个特定时刻,图像上的点与三 维物体上的点一一对应,这种对应关系可由投影关系得到,根据各个像 素点的速度矢量特征,可以对图像进行动念分析。如果图像中没有运动 目标,则光流矢量在整个图像区域是连续变化的,当物体和图像背景存 在相对运动时,运动物体所形成的速度矢量必然和邻域背景速度矢量不 同,从而检测出运动物体的位置。例如有些学者研究出的一种通过计算 位移向量光流场来初始化基于轮廓的跟踪算法,从而有效地提取和跟踪 运动目标。该方法的优点是在摄像机运动存在的前提下也能检测出独立 的运动目标。然而,大多数的光流计算方法都相当复杂,且抗噪性能差, 不利于实时处理。如果没有特殊的硬件装置则不能应用于全帧视频流的 实时处理。 1 6 视频对象分割方法的分类 现在出现了许多的视频对象分割方法,采用的分类方法也是五花八 门,大多数的分类方法不是含糊不清就是残缺不全。我们经常采用的有 以下几种分类方法: 1 6 1 自动方式和半自动方式 视频分割可以分成自动方式和半自动方式两类。自动视频分割算法 在分割过程中不需人工控制,可以自发的从视频序列中分割提取出前景 对象。但是,在自动视频分割中,常常采取一些低级特征来表述图像的 语义一致性,主观先验知识包含于算法之内,因此当某一种自动视频分 割方法在应用于不同的视频对象分割场合时,如果先前给出的先验知识 和视频图像序列的语义一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论