(通信与信息系统专业论文)视频对象分割关键技术的研究.pdf_第1页
(通信与信息系统专业论文)视频对象分割关键技术的研究.pdf_第2页
(通信与信息系统专业论文)视频对象分割关键技术的研究.pdf_第3页
(通信与信息系统专业论文)视频对象分割关键技术的研究.pdf_第4页
(通信与信息系统专业论文)视频对象分割关键技术的研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(通信与信息系统专业论文)视频对象分割关键技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 视频对象分割技术作为新一代视频压缩标准m p e g 一4 和多媒体信息描述标 准m p e g 一7 的关键技术之一,吸引了众多研究人员的眼光,成为现在视频研究的 一个热点问题,同时也是一个难点问题。由于一个对象的生存期是一个镜头,如 何能够准确有效地检测到镜头的转换也是一个需要解决的难题。本文围绕这两个 问题作了一些研究和讨论,主要包括以下工作: ( 1 ) 介绍了第二代视频压缩标准m p e g - 4 的基本概念、支持的新功能、用到 的新技术等。分析了m p e g 4 视频编码的算法结构包括m p e g 4 视频数据结构、 v o p 的形状运动纹理信息编码、s p r i t e 编码等。 ( 2 ) 研究了已经提出的一些视频对象分割算法,提出一种基于对称帧间差 的视频对象分割算法。由于这种算法对噪声的影响比较敏感,在求帧问差之前需 要进行滤波,并采用信息融合的方法得到一个边沿增强的滤波图像。我们利用序 列图像中运动对象边沿与帧差图像中运动区域边沿的强相关性,得到一个对象的 二值模板,同时消除了遮挡和显露背景的影响。我们利用m a l 眦a b 和m i c r o s o f t v i s u a lc + + 进行了算法的仿真,得到了较为理想的分割结果。 ( 3 ) 对镜头分割算法进行了研究,利用视频序列图像的时间相关性,提出 了一种改进的自适应自动镜头分割算法,并通过仿真实验,得到了较好的效果。 论文的结论部分对我们的全部工作做了总结,在达到预定目标的基础上,对 今后的研究工作做了展望和设想。 关键词:m p e g 4 ;视频对象分割;帧差;镜头分割 华南理上大学工学硕士学位论文 a b s t r a c t t e c h n o l o g yo fv i d e oo b j e c ts e g m e n t a t i o n ,a sak e yt e c h n o l o g yo fm p e g 一4 ,a n e w g e n e r a t i o n s t a n d a r d o fv i d e o c o m p r e s s i o n ,a n d m p e g - 7 ,as t a n d a r do f m u l t i m e d i ai n f o r m a t i o nd e s c r i p t i o n ,i sn o wa t t r a c t i n gm a n yr e s e a r c h e r sa t t e n t i o n , a n db e c o m e sah o tp r o b l e mi nt h er e s e a r c ho fv i d e o ,a n da l s oi sav e r yd i f f i c u l t p r o b l e m f o ra v i d e oo b j e c tc a ne x i s ti nas h o t ,h o wt og e tt h es h o tb o u n d a r ye x a c t l y a n de f f e c t i v e l yi sa n o t h e rp r o b l e m s oi nt h i st h e s i sw ef o c u so nt h e s ep r o b l e m s t h e m a i nw o r ki n c l u d e s : ( 1 ) t h i st h e s i sd e s c r i b e sm a i nc o n c e p t i o no fm p e g 一4 ,t h e2 n dg e n e r a t i o ns t a n d a r d o fv i d e oc o m p r e s s i o n ,n e wf u n c t i o n si tc a ns u s t a i na n dn e w t e c h n o l o g i e si tu s e d e t c i nt h i st h e s i s ,a l s oa n a l i z e dt h ea r i t h m e t i cs t r u c t u r eo fm p e g - 4c o d i n g ,i n c l u d e s m p e g _ 4v i d e od a t as t r u c t u r e ,s h a p e m o v e m e n t t e x t u r ei n f o r m a t i o nc o d i n g ,s p r i t e e n c o d i n g e t c ( 2 ) w e r e s e a r c h e dt h ee x i t i n ga l g o r i t h m s ,a n db r i n gf o r w a r dav i d e os e g m e n t a t i o n a l g o r i t h mb a s e do nd i f f e r e n c eo fc o n j o i n tf r a m e s b e c a u s et h i sa l g o r i t h mi sa 虢c t e d b yn o i s e ,i ti ss e n s i t i v e t ot h en o i s e ,b e f o r ec a l c u l a t et h ed i f f e r e n c eo f c o n j o i n tf r a m e s , w eh a v et of i l t e rt h en o i s e a n da tt h es a n l et i m ew ew i l lg e ta p i c t u r ew h i c he d g e s h a v eb e e ns t r e n g t h e n e d t a k i n gt h ea d v a n t a g eo ft h es t r o n gr e l a t i v i t yb e t w e e nt h e o b j e c t se d g e si nt h ep i c t u r eo f t h es e q u e n c ea n dt h ee d g e so ft h em o v i n g r e g i o n s ,w e c a ng e tat w o v a l u e sc y c l o s t y l eo ft h eo b j e c t , a n d ,a tt h es a l n et i m ew ec a ne l i m i n a t e t h ei n f l u e n c eo ft h ev e i l e do ru n v e i l e db a c k g r o u n d u s i n gt h et o o l so fm a t l a ba n d m i c r o s o f tv i s u a lc + + ,w es i m u l a t et h ea l g o r i t h m ,a n dg e ta g o o d r e s u l t ( 3 ) a f t e rh a v i n gr e s e a r c h e d t h e a l g o r i t h m s o fs h o t s e g m e n t a t i o n ,t a k i n g t h e a d v a n t a g eo f t h et i m er e l a t i v i t yo ft h ei m a g e si nt h ev i d e os e q u e n c e ,w e p u t f o r w a r d a ni m p r o v e ds e l f - a d a p t i v ea u t o m a t i cs h o ts e g m e n t a t i o na l g o r i t h m ,a n da l s ow eh a v e t a k e nt h ee x p e r i m e n t s ,g e tt h e s a t i s f a c t o r yr e s u l t s a tl a s tw e m a k eac o n c l u s i o no fo u r w h o l ew o r k , b a s i n go nt h ep l a n n e dt a s kw eh a v ea c c o m p l i s h e d ,w ep r o s p e c tt h e s c h e m ea n dr e s e a r c ho ft h ev i d e os e g m e n t a t i o n k e y w o r d s :m p e g - 4 ;v i d e os e g m e n t a t i o n ;f r a m ed i f f e r e n c e ;s h o ts e g m e n t a t i o n h 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律后果由本人承担。 作者签名:舌1 靖 日期:。窜年6 月矿日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密囱。 ( 请在以上相应方框内打“”) 作者签名: 导师签名: 参1 涛 l 焉¥ 1 日期:o 年月扩日 日期:0 毕年月f 厂日 第一章绪论 第一章绪论 一 一r _ r 一 1 1 数字视频与多媒体技术 世界正迈向数字化、网络化、全球一体化的信息时代。人类的生活也将在这 个变为“地球村”的星球上进入更高品质的“数字化生存”。视觉信息作为人类最 “赏心悦目”的信息将大放光彩。视频是连续运动图像序列。每幅图像称为一帧。 由于人眼的视觉惰性,每秒2 4 帧播放图像,就在视觉上形成了具有连续活动影像 感觉的视频。为什么需要视频信息? 这主要有m : ( 1 ) 人类接受的信息有7 0 来自视觉; ( 2 ) 视频信息有一系列的优点:确切、直观、具体、生动、效率高、应用广 等: ( 3 ) 视频信息容量大,通过视觉获得的视频信息,比通过听觉获得的音频信息 具有更大的信息量。 视频数字化的好处包括: ( 1 ) 开放结构视频系统意味着视频可以存在于多个空间点上,而且信噪比在 单一标称范围内; ( 2 ) 交互性,允许中断以便获取通往视频数据库的路径,并获取视频; ( 3 ) 按命令进行可变速率v b r 的传输: ( 4 ) 从一个标准向另外一个标准变换只需简单变换软件: ( 5 ) 在一个公共多媒体平台上集成各种视频应用; ( 6 ) 编辑功能,包括剪辑、粘贴、放大、去噪声滤波和模糊处理; ( 7 ) 抵抗噪声,实际传输差错的能力和易于加密。 因此,数字视频随着计算机技术和通信技术的发展,早已普及到人们的生活, 成为多媒体技术的重要组成部分。 多媒体技术是2 0 世纪9 0 年代计算机的时代特征,是9 0 年代计算机的又一革 命。多媒体是针对单媒体而言的。媒体在计算机领域中有两种含义:一是指用于 存储信息的实体,如磁带、磁盘、光盘和半导体存储器;一是指信息的载体,如 数字、文字、声音、图形和图像。多媒体技术中的媒体是指后者。多媒体计算机 是指计算机综合处理多种媒体信息:文本、图形、图像、音频和视频,使多种信 息建立逻辑连接,集成为一个系统并具有交互性。要把一台普通的计算机变成多 媒体计算机要解决的关键技术是音频视频信号获取技术、多媒体数据的有效编码 和解码技术、音频视频数据的实时处理和特技以及输出技术等。 在计算机发展的初期,人们只能用数值这种媒体承载信息。当时只能通过0 和“l ”两种符号表示信息,即用纸带和卡片有孔和无孔来表示信息,纸带机和卡 华南理工大学t 学硕十学位论文 片机是主要的输入输出设备。“0 ”和“1 ”很不直观,很不方便,输入输出的内容 很难理解,而且容易出错,出了错误也不容易被发现。这一时代是使用机器语言 的时代,因此计算机只能限于极少数计算机专业人员。 2 0 世纪5 0 年代至7 0 年代,出现了高级程序设计语言,开始用文字作为信息 载体,人们可以用文字( 如英文) 编写程序,输入计算机,计算机处理的结果也 可以用文字表示输出。这样,人与计算机交往就直观、容易得多,计算机的应用 也就扩大到具有一般文化程度的科技人员。这时的输入输出设备主要是打字机、 键盘和显示终端。使用英文文字通计算机交往,对于文化水平比较低的人,特别 是非英语的国家,仍然是一件困难的事情。 从8 0 年代开始,人们致力于研究将声音、图形和图像作为新的信息媒体输入 输出计算机,这将使计算机的应用更为直观、容易。1 9 8 4 年,a p p l e 公司的 m a c i n t o s h 个人计算机,首先引进了“位映射”的图形机理,用户接e l 开始使 用m o u s e 驱动的窗口技术和图符,受到广大用户的欢迎。这使得文化水平较低 的公众包括儿童在内都能使用计算机。 随着与计算机相关的硬件技术,尤其是半导体技术的进展,有效地带动了数 字视频编码算法和视频处理器结构的改进,促使1 0 多年前单色文本、图形子系统 发展成今天的色彩丰富、高清晰度现实子系统,同时能够做到全屏幕、全运动的 视频图像,高清晰度的静态图像,视频特技,三维实时的全电视信号以及高速真 彩色图像。同时还有高保真度的音响信息。 综上所述,无论从半导体的发展还是从计算机进步的角度,后者从普及计算 机应用、拓展计算机处理信息类型看,利用多媒体是计算机技术发展的必然趋势。 1 2 数字视频信号的分类 数字视频分成自然视频n a t u r a lv i d e o 和合成视频s y n t h e t i cv i d e o 两类。自然 视频是最主要的视频信号,由摄像设备如使用感光胶片的摄像器材、氧化铅摄像 管、电萄耦合器件c c i ) 等对真实世界的场景进手亍光学成像,经过时间和成像平面 的取样形成数据流( c c d 阵列直接形成平面取样信号) 。成像过程直接影响图像质 量。在接收端播放时可以边接收边播放。自然视频的传输如图1 1 所示。其核心 技术是视频信源编码和流传输。这类视频信号的数据量巨大。以一路c c i r 6 0 1 数 字电视信号为例,y :u :v 为4 :1 :1 ,图像尺寸为7 2 0 x 5 7 6 ,帧速为2 5 帧秒,所 需要的传输码率达到7 2 0 x 5 7 6 x 2 5 x 1 2 = 1 2 4 4 1 6 m b p s 。而h d t v 信号的码率接近 1 g b p s 。如此巨大的数据量,使数据压缩成为传输和存贮的前提条件。未经压缩的 视频数据根本不能在规定的信道中进行传输和存贮。流传输技术能保证在接收端 同步播放音频和视频。对于经过压缩的视频数据,在接收端进行解压缩及播放时, 对接收端设备的配置要求不高。 2 第一章绪论 对自然视频进行压缩的理论依据时s h a n n o n 信源编码理论。包括s h a n n o n 第 一定理( 即无失真信源编码定理) 和s h a n n o n 第三定理( 即限失真信源编码定理) 。 视频编码技术应用s h a n n o n 信源编码理论和数字信号处理的理论及技术,形成熵 编码、变换编码和预测编码等多种编码方法并不断发展。目前这类视频信号的编 码技术有多种表现形式:既有公开的国际标准如兀u t 的h 2 6 x 建议和i s o i e c 的m p e g 标准,也有不公开的专有技术如i n t e i 公司的i n d e o 技术。 音频 视频 音频 视频 图卜1 自然视频的传输系统 f i g u r e1 - 1t r a n s m i s s i o ns y s t e mo f n a t u r a lv i d e o 合成视频是通过大型三维影像创造软件,如3 ds t u d i om a x 和m a y a 等人工 创作的虚拟现实的计算机图形。随着计算机技术尤其是计算机图形学、图形显示 以及相关硬件设备的发展和快速普及,这类视频信号在逼真度、内容、应用范围 和使用机率方面不断提高。在2 0 0 2 年的韩日世界杯足球赛上,对每场比赛现场直 播节目,重放影像包括两类数字视频,即除了真实场景的慢镜头景象外,还包括 虚拟现实的景象,与三维计算机游戏f i f a 2 0 0 0 相似。这在世界杯足球赛的历史上, 是首次应用虚拟现实的计算机图形于现场直播,收到了很好的视觉效果。 合成视频在描述方法上与自然视频完全不同:经过三维建模、动作描述、渲染( 着 色) 和场景合成的过程显示运动图像,在数据量上大大少于自然视频,从而具有 较高的传输效率。合成视频的传输如图卜2 所示。其核心技术是人工合成对象的 建模与渲染。在这类视频信号播放之前,一般需要先把数据完整地下载到接收端, 不能边收边放。对接收端播放设备的配置要求很高:不仅要求大容量的系统内存 和显示缓冲区,而且要求高速处理器,尤其是支持三维图形应用接口3 da p i ( 如 d i r e c t3 d 和o p e n g l ) 的功能强大的显示设备包括三维显示卡,如采用美国n v i d i a 的显示芯片并支持d i r e c t3 d 和o p e n g l 的三维显示卡。当然合成视频也可以转换 成自然视频的格式,在自然视频的播放器上播放。合成视频的压缩除可应用于基 于图形拓扑结构的几何压缩编码方法。这方面的国际标准是虚拟现实建 模语言v r m l ( v i r t u a lr e a l i t ym o d e l i n gl a n g u a g e ) 中的压缩二值格式规范。 本文研究的内容是针对自然视频信号的对象分割技术,简单地说就是把视频 当中的静止的或者活动的对象跟背景分开,以便于后续的压缩和对对象的操作等。 华南理工大学工学硕士学位论文 场 景 图卜2 合成视频的传输系统 f i g u r e1 - 2t r a n s m i s s i o ns y s t e m o f s y n t h e t i cv i d e o 1 3 视频分割技术研究的背景及意义 计 算 机 图 形 当前,多媒体技术正朝着分布式环境下提供交互式多媒体服务的方向发展, 尤其是希望能够提供基于视频内容的应用,为了实现基于内容的存储、传输和检 索等操作,很重要的一个方法就是分割出运动的视频对象。 运动对象的分割,又叫视频分割,是将视频图像序列划分成若干的运动对象, 并在时间轴上对这些运动对象进行跟踪。通常,一个视频场景由背景和目标组成, 而视频序列的目标往往是视频序列的重要组成部分。因此如何能有效的分割出视 频对象,对视频图像分析具有重要的意义。视频分割在很多领域有非常重要的作 用,在视频编码中基于内容和人眼视觉特性的第二代编码技术n - ”已经提出,提取 视频对象能够有效地提高珏缩效率,并为存储和传输提供便利。这一新的编码技 术将对很多方面产生巨大的作用,如数字电视、动态图像、实时多媒体监控、低 比特率下的移动多媒体通信、基于内容存储和检索多媒体系统、i n t e r n e t i n t r a n e t 上的视频流和可视游戏、基于面部表情模拟的虚拟会议、d v d 上的交互多媒体应用、 基于计算机网络的可视化实验室场景应用、演播电视、网上购物和电子商店、远 程监控、医疗和教学等。在m p e g - 4 标准中提出基于对象的压缩编码技术,在 m p e g 7 标准中提出基于对象的检索和浏览技术,而视频对象分割技术则是其中 的关键技术之一。另外视频分割在模式识别、计算机视觉、视频检索等领域得到 了广泛的应用。视频对象分割技术作为崭新领域的基础性技术,已经吸引了众多 研究人员的目光,成为当前研究的热点问题。 1 4 视频对象分割技术发展概况 对象分割是图像处理、分析的一项基本内容。而今,进入了数字化时代,对 图像的操作主要面对数字图像,这是一项系统而浩大的工程。图像工程是一门对 整个图像领域进行研究应用的新学科,它的内容丰富,根据抽象程度和研究方法 的不同可分为三个各有特点的层次:图像处理、图像分析和图像理解,如图卜3 所示“,。 视频对象的分割技术是在图像分割技术的基础上发展起来的,基本上可以分 为两大类,即基于帧内的分割技术和基于帧间的分割技术。 4 第一章绪论 基于帧内的分割技术采用的是传统的图像分割技术,按照一定的空间信息( 包 括颜色、灰度、纹理等) 、变换信息( d c t 、d w t ) 、统计信息、模型和先验知识 ( 对特殊类图像) 等对图像中的一致区域进行分割,然后在帧间进行对象的跟踪。 形态学分水岭算法由于计算简单而被广泛使用,能较好地提取运动对象的轮廓。 但是,由于分割依赖梯度信息,因此对噪声比较敏感;而且没有利用帧间信息, 通常会产生过度分割“,。 - 1 图像理解卜 k 气 l 图像分析f 广 、 峰i 图像处理r 图卜3 对象分割在图像工程中的位置 f i g u r e1 - 3p o s i t i o no f o b j e c ts e g m e n t a t i o ni ni m a g ep r o j e c t 基于帧间的分割技术不仅可利用上述图像分割所用的信息,还可利用对象的 时间相关性和多视点信息来进行分割。由于运动信息是运动对象的一个重要特征, 因此常常根据运动的一致性来分割各个对象,也可以结合颜色、纹理、边沿等特 征。因各特征在对象的分割中的重要程度不同,常常对各特征采用不同的加权系 数进行聚类,或采用一些简单的推理规则融合多种分割的结果”,从而得到最终 的运动对象。对运动一致性好的对象,可以采用运动仿射模型n “”,该方法有较好 的分割效果。但是,有些对象( 非刚体对象) 不同部分可能具有不同的运动特征, 此时运动信息不能作为有效的对象分割依据,常常需要采用后处理技术来得到实 际的对象区域。而且,由于受到噪声的影响以及运动场估计的孔径和遮挡效应, 运动场的估计可能并不准确。此外,计算运动场所需的运算量也很大“。 为了避免计算运动场,可以通过计算帧间差分来得到运动区域,然后再进行 分割得到运动对象。通常认为差分图像服从高斯分布或拉普拉斯分布,根据统计 特性的不同,可以区分出运动对象和静止背景。该方法计算简单,但由于噪声的 影响,简单的帧问差分图像的统计特性不能有效地区分运动对象和静止背景。为 了提高算法对噪声的鲁棒性,通常采用空间连通区域、多帧差分、差分图像光滑 滤波、时空三维张量等方法m w 。时空三维张量法实际上是用时空梯度构成的矩 阵的最小本征值表征帧间光滑程度,对于噪声较高和低对比度的图像有较好的分 割效果。也可以对差分图像采用小波变换,但是由于要在各个方向上进行滤波, 因此计算量通常较大。 号 标 素 符 目 象 厂lll、lll 操作对象 华南理t 大学工学硕士学位论文 另一种常用方法是贝叶斯概率统计方法。根据前一帧中对象特征的概率分 布,如颜色、纹理、边沿、位置或形状等特征,并认为这些特征互不相关,从而 可以得到多个特征的联合概率密度函数,然后通过最大后验概率来分割当前帧中 的运动对象。采用贝叶斯法可以同时完成运动场的计算和对象的分割,但运算量 也较大。贝叶斯方法的关键是选用合适的特征并建立较好的对象特征概率分布模 型。 利用对象的三维模型来分割多个对象更有利于对象的恢复n 一”,。首先利用前 两帧得到对象的初始模型,并在随后的处理中不断更新模型。根据二维图像序列 恢复出对象的三维形状模型和位置深度信息,在随后的分割与跟踪中可以通过简 单的纹理映射等完成多个对象的分割。尽管这种方法的分割效果有一定的改进, 但是即使每次只计算几帧,计算量也相当大。尽管利用三维模型来分割对象运算 复杂,但是有利于对象的分割和编码,以及解码端的恢复,关键是对象模型的建 立。 基于轮廓的对象分割方法是最近研究的一个重要方向。由于语义级的对象通 常包含多个不同颜色、纹理,甚至不同的运动区域( 对非刚体运动对象) ,因此形 状信息成为一个重要的分割特征。通常可以采用基于h a u s d o r f f 距离匹配法、广 义h o u g h 变换、变形模板、l e v e ls e t 等方法m ”“。使用空间变换的网格( m e s h ) 模 型也是目前个主要的研究方向,由于采用网格的运动估计较准确,而且网格结 构可以较好的反映对象的结构特性”一。 为了提高视频对象的分割效率,可以充分利用当前帧中已分割对象的特性, 采用基于帧问跟踪的方式对下一帧进行分割。常用的方法有基于h a u s d o r f f 距离 的跟踪n ”“、基于区域的跟踪“、基于网格的匹配跟踪mr 、基于变形模板的跟踪等 4 7 - 6 3 o 尽管视频运动对象分割方法很多,但总的来说有两种方式:即自动方式和半 自动方式。自动分割难度大,分割效果随图像和视频的内容复杂程度变化很大。 主要特点是面向特定应用,预先调整好参数,可完成实时处理任务,如车辆检测 系统、大厅监测系统、可视电话和电视会议等;半自动分割方式则适用于复杂场 景下对象的分割,虽然分割质量较好,但不具有实时性。其主要特点是依赖于人 工的交互确定语义级对象并干预分割和跟踪结果,可用于任意对象的分割、操作 和高效压缩。图卜4 是一个典型的视频运动对象分割系统框架图。其中的全局运 动估计用于补偿摄像机的运动,镜头检测用于分割各个视频镜头,待分割对象可 以根据情况自动或交互地确定,根据各种信息分割出运动对象后,利用二值化模 板可以提取运动对象,并实现运动对象的跟踪。完成对象的分割之后,就可以根 据m p e g 一4 标准实现基于对象的编码了。 6 第一章绪论 1 5 分割质量的评价 除了图像和视频分割本身是非常艰巨的任务外,另一个难题是如何评价分割 图卜4 一种典型的视频对象分割系统 f i g u r e1 4at y p i c a ls y s t e mo fv i d e oo b j e c ts e g m e n t a t i o n 结果。目前这方面还没有一个统一的评价准则,主要是通过人的观察迸行主观定 性评价,缺乏客观性和定量证据。已经提出的方法可分为两大类: ( 1 ) 不使用参考图像的评价方法,评价测度一般与区域、轮廓特征有关。例 如:文献“提出了一种评价过分割( 分割区域过多) 与欠分割( 分割区域过少) 程度的 客观测度,对分割出的任意两个区域c ,与c 。,定义分割价值函数式( 卜1 ) : 厂t r u e ,d r ( c 1 ,c 2 ) m b t ( c i ,c 2 ) g ( c l ,c 2 ) = ,则在第k 帧产生镜头突变;若y 。 f ( 一般取f = 1 0 ) ,则在第k 帧产 生镜头突变,否则没有镜头突变。相似比厶的计算:如图3 1 ,将图像分成n x n 块( 一般取n = 8 ) ,可计算每块大小。对粗线内任一块,如图中标有十字符号块, 采用公式( 3 - - 8 ) 分别计算它与周围9 个相邻块的相似比厶,厶,厶,t 为这9 个值中的最小值。 l = = 丢( s 。+ s 。一。) ( 吉( m 。一力堆。一,) 2 2 ,( s 。t s 。一。) c 3 8 , 式( 3 - - 8 ) 中和j l 。分别表示相应计算块灰度值的方差和均值。最后相似比 l k 可表示为式( 3 - - 9 ) : 。 l k = e n 2 ( 3 9 ) l23 456 789 第k 一1 帧第k 帧 图3 - 1 相似比计算 f i g u r e3 - 1c a l c u l a t i o no f s i m i l i t u d er a t i o 3 3 4 基于统计判决的镜头分割方法 文献m ,提出一种稳健的统计判决镜头分割方法。该方法利用运动补偿特征, 自适应闽值技术,以及视频序列的时序镜头突变模式和镜头长度分布信息,建立 一个统计判决模型,该方法推导出的判据可使镜头检测错误率降到最低。 3 3 5 基于聚类的镜头分割方法 文献m7 ”提出用k m e a n s 聚类算法把场景分为有明显变化和没有明显变化两类 进行镜头分割。考虑到实际场景的这两类之间是模糊的,因而文献”一提出用模糊 c m e a n s 聚类算法进行镜头分割,并且为了减少计算量,文献n 一还采用由粗到细的 两步聚类方法。即先在相距较远的帧间进行粗聚类,检测出镜头突变的大致位置, 然后再逐帧进行细聚类,便可精确地检测出镜头突变的位置。 华南理t 大学t 学硕十学位论文 3 4 一种自适应实时自动镜头分割算法及其改进 这种算法是基于灰度帧差的镜头分割算法,算法的精髓在于阈值的选取方面 实现了自适应处理。 在不同的视频片段中镜头转换时产生的帧差也不相同,甚至相差很大,即使 同一视频片段里镜头转换时产生的帧差变化范围也很大。镜头转换有直接切换( 称 为突变) 和特效处理切换( 称为渐变,包括淡入淡出、慢转换、扫换几种类型) 。 如果单纯采用固定闽值法,对于帧差较小的镜头转换会有漏检测,而对帧差较大 的情况如运动会有误检测m ,。 但是研究表明:在同一镜头内的帧差的大小差别不大,围绕在此镜头帧差的 平均值上下。而镜头边界处的帧差要明显大于此镜头帧差的平均值。因此帧差相 对帧差平均值较大的帧应该就是镜头转换的边界帧,这也符合镜头变化的定义。 所以可以将镜头帧差的平均值乘以一个阈值系数口作为阈值。文献n ”提出了一种闽 值自适应更新的算法,具体流程为: ( 1 ) 初始化,令总帧差t o t a l d i f f - - 0 ,帧数k = 0 ,并读入第一帧。 ( 2 ) 于当前输入帧,计算它与前一帧的帧差d i f f 。 ( 3 )如果帧数k - - 0 ,令总帧差t o t a l d i y f = d i f f ,帧数k = i ;返回第( 2 ) 步继续计算下一帧差,否则转入第( 4 ) 步。 ( 4 ) 求平均帧差a m 豫a g e d i f f = t o t a i _ d = 旰y k 。如果当前输入帧的帧差 d i f f 闽值( 口栅r a g e d 肝) ,则认为检测到一个镜头边缘,并标记:为了寻 找下一个镜头边界,令总帧差t o t a l d i f f = o , k = 0 ;否则令 i d l a l d 矸_ 1 d t a l d 瑾f + d :f ,帧数k = k + i 。 ( 5 )返回第( 2 ) 步继续计算帧差。 我们知道,在时间轴上,相距越远的两帧之间的相关性越小。对于上述算法 中求平均值的方法不能很好的反映即将镜头转换时最后几帧的变化情况情况。为 此我们提出了一种改进的算法。原理如下: 首先让我们看一个数学推导: 设一组数q ,口:,n 。,它们的平均数为 令 m = ! ! 1 2 :! ! n 口l = m + 岛 口2 + m + 如 口。= 小+ b o ( 3 一1 0 ) ( 3 1 1 ) 第三章视频镜头分割算法的研究 则有, 轨+ + + 玩= 0 同时,令m 。= 丝字旦,n 2 m 2 半 将式( 3 - - 1 1 ) 代入式( 3 - - 1 4 ) 并展开得 m 2 - - m + b 百i + m 一+ b 2 = m + 半 由式( 3 - - 1 2 ) 得 生鱼:o 将式( 3 1 6 ) 代入式( 3 - 1 5 ) 得 将式( 3 m 。 将式( 3 m = m 1 3 ) 展开得: ( 3 1 2 ) ( 3 1 3 ) ( 3 1 4 ) ( 3 1 5 ) ( 3 1 6 ) ( 3 1 7 ) = 击”专”尹1 时+ 歹1 。+ b n z ( 3 - - 1 8 ) 一1 i ) 代入( 3 - - 1 8 ) 得: 肘。= 尹i ( m + 岛) + 击( m + ) + 互丢( m + 以) + + 古( m + 吃一- ) + 圭( m + 以) ,以 2 ( 3 1 9 ) 将式( 3 1 9 ) 展开得: m 。= m 审i + 专+ 专+ “+ 古+ 丢,+ c 击轨+ 击”。+ 砉+ 圭钆, ( 3 2 0 ) 当一_ 一时, m 。= 蜘 m 沽+ 击+ 击+ + 古+ 期+ 脚陆岛+ 击”+ 孝丢巩) 华南理t 大学工学硕士学位论文 r 1 ii i 1 1 - 一2 陆”击”叫扣+ 圳 2 卅+ 蜘b 岛+ 士砂一十古+ 圳( 3 - - 2 1 , 则有: m - m = 蜘岛+ 古”专+ 圳( 3 - - 2 2 , 如果这里设口。,口:,a 。为一个镜头内相邻帧的帧差,m 为帧差的平均值,由于在 一个镜头内帧差差别不大,所以岛,丸相对于帧差平均值m 是很小的。由式 ( 3 2 2 ) 可以看出,当h _ 一时,m 。和m 的差值将主要由玩,阮- ,巩。- 3 ,等 决定。所以我们认为m 。比m 更能反映镜头转换前最后几帧的情况,这对提高检测 镜头转换的精度是很有利的。 另一方面,上述的讨论是基于,l - 一,也就是说一个镜头中包含无数帧,这 是不现实的。但是当n = 1 0 时, 丢+ 歹1 + _ + 2 1 - 刍- = 0 9 9 9 0 2 3 4 3 7 5 0 0 0 0 ( 3 - - 2 3 ) 这样的结果在工程上,就可以近似认为是1 了,即使n = 5 丢+ 石1 + + 吉= o 9 6 8 7 5 0 0 0 0 0 0 0 0 0 ( 3 2 4 ) 也是非常接近1 的。一般在现实生活中,一个镜头包含的帧数远大于5 ,甚至 远大于1 0 。所以我们用m 。替代m 替代帧差的平均值是合理的,而且在实际应用 的意义上说比m 更有意义。由于利用帧差的办法检测镜头转换,对噪声比较敏感, 鲁棒性较差,所以在求帧差之前先进行滤波处理。我们对上述算法进行如下修改: ( 1 ) 初始化,令平均帧差a v e r a g e d i f f = 0 ,帧数k = 0 ,读入第一帧并滤波。 ( 2 ) 于当前输入帧并滤波,计算它与前一帧的帧差d i f f 。 ( 3 ) 如果帧数k = 0 ,令帧数k = i ;继续计算下一帧差d i f f 。,令 a v e r a g e d i f f = ( d i f f l + d i f f 2 ) 2 ,否则转入第( 4 ) 步。 ( 4 ) 输入当前帧并滤波后,求帧差。 ( 5 ) 如果当前输入帧的帧差d i f f 闽值( 口* a v e r a g e d i f f ) ,则认为检测 到一个镜头边缘,并标记;为了寻找下一个镜头边界,转入第( 1 ) 步,否则,求 第三章视频镜头分割算法的研究 平均帧差a v e r a g e d i f f = ( a v e r a g e d i f f + d i f f ) 2 ,转入第( 4 ) 步。 其中,阈值系数口是一个重要的系数。口的选取就至关重要了,如果选择过 大,则可能漏掉一些镜头的分割;如果选择过小,则分割出来的镜头跟实际情况 有较大的差距。实验数据表明,取口= 1 5 时,分割出来的结果接近实际镜头情况。 这种方法有许多好处。第一,完全实现了视频序列的实时分割,即在读入帧 的同时就可阱判断它是不是镜头边界的转换帧,计算方法较其他自适应闽值方法 更为实用;第二,如果采用固定阈值法,会把帧差较大的帧( 特别在一些帧差较 大的渐变中会把连续多帧) 都误检测为镜头边界,而该算法由于自适应性,只会 将帧差相对很大的开始第一帧检测为镜头边界,而后面几帧虽然帧差也较大,但 这时新的镜头帧差平均值本身就很大,所以不会将后面这几帧同时误检测为镜头 转换边界。第三,同样道理,由于采用自适应性阈值,只要帧差相对很大的帧就 能被检测出,所以作者的方法也不会漏过安静镜头中轻微的镜头变化,这一点特 别适应晚问监控系统,即使有轻微的物体经过,也可以被检测出来。第四,由于 采用了整个镜头的加权平均值,所以在检测难于检测的渐变时,受帧差虽逐步增 加而相互间变化不大这种情况的影响小,因为即使某个帧差开始增加,但由于计 算的是整个镜头的所有帧差的加权平均值,所以平均值变化并不会很大,渐变中 帧差够大的那帧同样会被检测为镜头转换处。所以对于较难处理的渐变,本方法 也很有效。 3 5 实验结果 我们用仓木麻一的一段m t v 一- - s e c r e to f m yh e a r t 来做检测,这段视频当中 突变镜头有3 6 个,渐变镜头有1 0 个,共用到5 9 3 4 帧。我们在做实验的时候,取口 = 1 5 。表3 - 1 是实验结果对比; 表3 - 1 两种算法实验结果对比 t a b l e3 - ic o n f f 鹋tt oe x p e r i m e n t a lr e s u l t sg o t t e nb yt w om e a l l s 镜头转换情况( 数字代表帧数)文献”,方法检测结果改进方法检测结果 1 0 9 1 1 0 ( 突变) 正确检测 正确检测 1 7 0 1 7 1 ( 突变)同上同上 2 7 3 3 1 4 ( 渐变)误检3 0 2 帧也是边界帧同上 3 4 6 3 4 7 ( 突变)正确检测同上 4 0 5 - - 4 0 5 ( 突变)同上同上 4 6 3 - - 4 9 1 ( 渐变) 同上 误检4 8 0 帧为边界帧 9 1 0 9 1 1 ( 突变)误检9 0 7 、9 0 8 都是边界帧误检9 0 7 、9 0 8 都是边界帧 9 8 7 - - 9 8 8 ( 突变)正确检测 正确检测 续表3 1 华南理工大学工学硕十学位论文 1 1 3 9 1 1 4 0 ( 突变)正确检测 正确检测 1 5 2 6 1 5 2 7 ( 突变)同上同上 1 7 5 9 1 7 6 0 ( 突变)同上 同上 1 8 0 2 1 8 0 3 ( 突变)同上 同上 1 9 0 8 1 9 0 9 ( 突变) 同上同上 1 9 5 8 1 9 5 9 ( 突变)同上同上 2 1 3 1 - - 2 1 3 2 ( 突变)同上同上 2 1 5 1 - - 2 1 5 2 ( 突变)同上同上 2 2 3 6 - - 2 2 3 7 ( 突变)同上 同上 2 3 4 9 - - 2 3 5 0 ( 突变)同上同上 2 3 9 3 - - 2 3 9 4 ( 突变)同上同上 2 3 9 3 - - 2 3 9 4 ( 突变)同上 同上 2 4 8 0 - - 2 4 8 1 ( 突变)同上同上 2 7 9 0 - - 2 7 9 1 (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论