(电路与系统专业论文)基于二维图像分割的视频镜头边界检测[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)基于二维图像分割的视频镜头边界检测[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)基于二维图像分割的视频镜头边界检测[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)基于二维图像分割的视频镜头边界检测[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)基于二维图像分割的视频镜头边界检测[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(电路与系统专业论文)基于二维图像分割的视频镜头边界检测[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西北火学硕_ 学位论史 摘要 视频镜头边界检测是实现视频检索的基础。本文总结了现有镜头边界检测方法, 并利用不同类型镜头边界在时空二维图上的特征提出了相应的检测方法。 对现有的突变边界检测方法进行了改进,首先在时空二维图上进行运动补偿,然 后利用梯度信息得到不连续值,使用自适应阈值定位突变边界。实验证明,该方法可 以减小光照、运动的影响,准确快速地定位突变边界。 提出了一种新的基于时空二维图像分割的渐变边界检测方法。检测溶解边界时, 取像素在水平、正对角线、负对角线三个方向上误差最小的斜率作为该象素点的斜率, 得到关于斜率和误差的二维图像并将其二值化,用数学形态学的方法进行进一步的处 理后得到关于溶解边界的不连续值;对于淡入淡出镜头边界,先利用其包含单色帧的 特征检测出是否存在淡入淡出,然后利用溶解边界检测方法定位淡入淡出的开始和结 束位置;按照扫换过程中前后镜头衔接处的边缘特征将扫换边界分为突变扫换和溶解 扫换,在时空二维图的单象素水平方向分别检测可能的突变变换和溶解变换象素点, 然后将连接的曲线在垂直方向的长度作为扫换边界检测的不连续值。实验证明该方法 能克服噪声、运动对视频时空二维图的影响,定位渐变边界的起始、终止位置。 关键词:镜头边界检测;时空二维图;图像分割;基于内容的视频检索 西北人学硕。i 学位论立 a b s t r a c t t h em o s tm n d a m e n t a lt a s ki nv i d e or e t r i e v i n gi st op a r t i t i o nl o n gv i d e os e q u e n c e si m o a 舢m b e ro fs h o t s i nt l i sp a p e r a no v e r v j e wo fs o m ee x i s t i n gs h o tb o l l n 出盯yd e t e c t i o n a l g o r i t l l 】m si s 西v e n ,a r e rt h a t ,as h o tb o l u l d a r yd e t e c t i o nm e t h o db a s e do nd i s t i n c tv i s u a l p a t t e m st o 印p e a ro nt h es p a t i o t e m p o r a ls l i c e si sp m p o s e dt oe h e c t i v e l yd e t e c tb o t h a b m p ta n dg r a d u a ls h o tt m s i t i o n si n c l u d i n gc u t ,d i s s o l v e ,w i p ea n df a d e 订a i l s i t i o n s a ni m p r o v e dc u td e t e c t i o na l g o r i t h mi sp r o p o s e d f i r s t l y ,t h eg r a d i e n ti t l f b n n a t i o ni s c o m p u t e db 邪e do nm o t i o nc o m p e n s a t e ds p a t i o - 1 1 e r n p o r a ls l i c e s ,m e n ,a d a p t i v et 1 1 r e s h o l di s u s e dt ol o c a t ec u t b o u n d a r y 厅o md i s c r e t ev a l u e an e wg r a d u a ls h o tt r a l l l s i t i o n sd 酏e c t i o na l g o r i t hb a s e do np i x e ls l o p ei sp m p o s e d t o d i s s o l v e , t h el e a s te o rs l o p e锄o n gt h r e ed i r e c t i o no fh o r i z o n t a l , d i a g o n a l a 芏1 d b a c k - d i a g o n a li su s e da sp i x e ls l o p e ,a2 _ di m a g ei sb u i l db ys 1 叩ea n de r r o r ,血e n ,t h i s i m a g ei st r a n s f o r i i l e dt ob i n a r yi m a g ea n dm a t i l e m a t i c a lm o r p h o l o g yf i l t e r si su s e dt o e l i m i n a t et h e n o i s e t h ef a d eb o 埘1 d a r yi sf o u n du s i n g 1 ef e a t u r eo ff - a d eb a u n d a r yc o n t a i n s m o n o c h i o m e 行锄e s ,t h e n ,m es t a r ta n de n dp o s i t i o ni sd e t e c t e db yd i s s o l v ed e t e c t i o n a l g o r i t l l l l l w i p ei sc l a s s i f i e di n t oc u t - w i p ea n dd i s s o l v e w i p eb a s e do nt 1 1 ef e a t u r e so ft h e j o i mo fa d j a c e n tt w os h o ti nw i p eb o u l l d a ut h em o d i f i e dc u td e t e c t i o na l g o m h mi su s e dt 0 d e t e c tc u t w i p ea n dt l l em o d i f i e dd i s s o l v ea l g o r i t mi su s e dt od e t e c td i s s 0 1 v e w i p e e x p e r i m e n td e m o n s t r a t e si te n a b l et ol o c a t eg r a d u a ls h o tt r a i i l s i t i o n se x a c t l ya n dq u i c k l y k e w o r d s :s h o tb o 1 d a r yd c t e c t i o n ,s p a t i o t e m p o r a ls l i c e s ,i m a g es e 舯e n t a t i o n , c o n t e n t - b a s e dv i d e or e 们e v a l i i 西北大学硕j 学位论文 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学 位期间论文工作的知识产权单位属于西北大学。学校有权保留并向国家有 关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。 学校可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以 采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时,本人保 证,毕业后结合学位论文研究课题再撰写的文章一律注明作者单位为西北 大学。 保密论文待解密后适用本声明。 学位论文作者签名:鞠逍聋 指导教师签名: 形z 年f 月争日形 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本 论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西北大 学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对 本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:诼) 嘲军 彬形年易月f 争日 西北丈学硕1 。学位论文 第一章绪论弟一早三百 下匕 随着计算机软硬件技术的不断进步、多媒体记录设备的普及、移动数字存储设备 容量的不断增加,多媒体信息的获取、保存和传播的便利使得多媒体信息量日益丰富。 数字视频作为一种重要的多媒体信息,属于一种非字符数值( n o n ea l p h an u h l e r i c l 数 据,具有信息分辨率高、有空间和时间双重属性、数据量大等特点“。1 “。 当人们要查找多媒体视频中感兴趣的信息时,如果视频时间短,可以通过手工调 整时间码的方式来进行检索,但是面对大量的多媒体视频时,记住某一段视频的时间 位置并快速将其找出是不现实的。用手工控制时闻码浏览的方式显然不能满足对大量 视频进行检索的要求。为了有效地利用多媒体信息,人们需要对其进行自动的组织、 索引以方便语义、内容上的检索,基于内容的视频检索技术正是基于这一需求而产生 的,并且受到了越来越广泛的重视。基于内容的视频检索指根据媒体对象的语义和视 觉特征进行检索,检索的过程也就不再是关键字匹配,而是视觉特征间的匹配,从而 具有客观、节省人力、可建立复杂描述、通用性好等许多优点【2 4 】。 镜头是视频序列编辑的最小单位,镜头边界的划分是对视频进行组织和索引的第 一步,是基于内容的视频检索中更高一级语义与内容分析的基础,所以如何准确、快 速地检测出镜头边界是重要的研究课趔。本文对镜头边界检测方法进行了深入的研 究。本章内容主要包括基于内容的视频检索技术的概要介绍,论文的研究目的和意义, 以及本文的主要内容与结构。 11 简介 1 1 1 基于内容视频检索系统 基于内容的视频检索( c o n t e n tb a s e dv i d e or e t r i “a l ,c b v r ) 是多媒体数据库信 息检索中的一门新兴的技术,可把它看作是介于用户和多媒体数据库之间的一种信息 服务系统。它按照多媒体视频数据中视频帧的颜色、纹理、边缘以及多媒体音频数据 中的音色、音调、响度等特征对多媒体音视频数据进行分析、分类和管理,用户可以 通过提供多媒体实例与大量存储在数据库中的媒体进行匹配也可以提供目标多媒体数 西北人学顿士学位论文 据的特征在数据库中检索特征相符的多媒体数据”“,这类系统的通用框架可见图 ( 1 1 ) 。用户发出查询要求,系统将查询要求转化为计算机内部的描述,并借助于这些 描述与库中信息进行匹配,提取出需要的信息数据,用户对此验证后可直接使用或是 改进查询条件进行新一轮的检索“3 。 臣困匣囹 r j 一l r 一l 镜头边界检测il 聚类傣引j 妇怔圃 ,t i 关键帧集合卜d 特征提取i 图1 1 基于内容的视频检索系统框图 为了把无结构的原始视频数据转化成结构化的视频数据,人们需要对视频数据进 行组织。文献 5 提出将视频划分成由粗到细四个层次,即视频节目( d e o ) 、场景 ( s c e n e ) 、镜头( s h o t ) 和图像帧( f r 咖c ) 的组织方法。一段视频节目可以划分为若干个场 景,每个场景包含个或多个镜头,而每个镜头又由一系列连续的视频图像帧组成。 在图( 1 2 ) 中,视频中帧是本身就具有的结构,而镜头和场景视人为分离出来的结 构。镜头包含摄像机一次摄像产生的一系列连续的帧,表示一个物理概念,场景则是指 一连串语义相若的镜头,它们一般发生在相同的时问和地点,出现相同的人物或事件, 表示的是一个语义概念1 6 】。 塑塑 圆圆回圆 圈圆圈圜 l 。 圆圆圆回圜 圆圆圆圆 到l2 视频内容层次结构 这样一种分层结构提供了紧凑和有意义的视频目录,方便了视频非线性浏览和基 两北人学硕士学位论文 f 内容的检索。为了得到这样一种组织,不仅要检测出镜头和场景这些视频单元的边 界,还要提取镜头关键帧和选择情节有代表性的镜头和代表帧。其中图1 _ 3 给出整体 框图。根掘这个组织方案可对视频进行三类操作:组织、浏览和检索。 厂1 玎 自上而f 玉夏 自卜而已 厂1 i 订 i 。_ l 情节合成 语义提取 蔓塑匦 图13 整体框图 基于内容的视频检索系统具有广泛的应用,如网上购物、视频网站、视频点播、 多媒体图书馆、家庭视频娱乐等。“。 1 1 2 镜头边界检测 镜头边界检测即检测相邻镜头之间连接的方式和位置,由于镜头内部数据在时间 和空间上具有很大冗余,所以在提取视频特征前需要将视频分割为一个个独立的镜头, 然后用一幅或几幅关键帧来代表一个镜头。镜头边界可以分为突变切变( c u t ) 和渐变 ( g r a d u a lt r a i l s i t i o n ) 边界。其中渐变的方式类型很多,包括溶解叠换、扫换、淡入淡出 “1 。我们将在第二章对镜头边界检测的几种经典算法进行介绍。 1 2 研究的目的和意义 电脑、家用摄像机、大容量硬盘等数字设备的普及以及视频压缩算法、视频编辑 软件的应用,普通人就能够拍摄并编辑多媒体音、视频数据并大量保存;互联网技术 的发展,移动存储设备、d v d 、d s p 芯片的大量应用也使得多媒体数据的传播越来越 方便。这些都为多媒体信息的存储和传输提供了硬件载体”3 。 如果人们想在家用电脑上几十甚至上百个小时的视频文件中找到某个感兴趣的视 频片断:电视台的编辑希望在大量的视频文件中找到某个特定的画面;或者人们希望 在互联网查找具有某些特征的视频段落,比如找一些赛车的视频或者某个领导人演讲 的画面等。上述这些要求如果需要把所有视频逐个看一遍的话显然太浪费时间。所以 通过计算机检索、使计算机模拟替代人的感观知觉来快速、准确的完成对多媒体数据 罱誊 - _ 西北人学硕上学位论文 的检索这一问题越来越得到人们的关注”。1 “。计算机可实现低级的从颜色、形状、纹 理进行的检索,到高级的模拟人的思维,对视频进行内容分析的检索。所以,基于内 容的视频检索就涉及到数字信号处理、计算机视觉、模式识别、人工智能、甚至心理 学等学科。目前人们已经着手这方面的研究和标准的制定,最近一直在更新的m p e g 一7 一是建立对不同多媒体信息的标准描述,并且这些描述要与信息内容相关以便能用来 快速和有效地查询和访问各种多媒体信息o “。 根据入眼的视觉暂留特性,每秒视频文件需包含2 0 3 0 帧图像序列9 1 ,才能使视频 看起来流畅。在一个镜头内部,相邻帧之间在视频内容的表达上有很强的相似性,在 数学意义上有很强的相关性。所以,由大量图像序列组成的视频数据除了包含图像空 间上的冗余也在时间上具有很大的冗余性,也就是说将视频分割成一组镜头,从各个 镜头内部找出具有代表性的关键帧,就可以去除了这种相关性。从而可以利用图像 检索技术已有的一系列令人瞩目的研究成果,如q b i c 系统”1 、曲砷幽o o k 系统“、 n e 仃a 系统3 、c h a b o t 系统”、v i s u a l s e e k 系统”1 、m a r s 系统和v i r a g e 图像搜 索引擎“”等。但是,由于视频在拍摄过程中遇到的不确定因素如光照的突然变化、视 频对象的剧烈运动、大物体遮蔽镜头以及在后期制作中导致的渐变边界过渡不明显等 情况会增加镜头边界检测和定位的困难,进而使以镜头划分为基础的场景和故事单元 的划分出现失误。所以,检测出镜头边界并精确地对镜头边界进行定位可以为后续的 场景和故事单元的划分奠定良好的基础。 1 3 本文的内容组织 本文的组织如下: 第一章:简要介绍了本文研究的目的和意义及本文的内容组织。 第二章:概述基于内容视频检索系统的整个过程及其中的关键技术,对关于视频 镜头边界检测的先前工作进行了总结,分析比较了几种检测突变、渐变的经典方法。 第三章:介绍了视频的时空二维图的概念、获取方法以及镜头内部、各类型镜头 变换边界在时空二维图上的特征。 第四章:详细介绍了突变、溶解、淡入淡出、扫换边界的检测方法以及实验结果。 第五章:对全文作总结和对未来工作的展望。 两北大学坝f 学位论文 第二章视频镜头边界检测综述 一个镜头是相机的一次连续拍摄,代表的是时间或空间上一组连续的动作,是一 系列相互关联的连续帧的组合。镜头之间的衔接方式是多种多样的,我们称之为镜头 边界。为了使镜头的衔接协调、美观,人们发展了很多种镜头之闻的衔接方式,总体 上分为突变( c u t ) 和渐变( g r a d u a lt r a n s i t i o n ) 边界两大类。突变也叫切变,是晟简单常 用的边界形式,它把前后两个镜头直接衔接在一起,即两个镜头的切换发生在连续的 两帧t 和抖1 上,其中第帧为前一镜头的最后一帧,第斛1 帧为后一镜头的第一帧 扎5 7 1 o 渐变是逐渐完成的,通常可能延续从几帧到几十帧,渐变有许多种,包括溶解、 淡入、淡出、扫换等。淡入( f a d ei n ) 是后一镜头的开始几帧缓慢均匀地从全黑屏幕中 逐渐出现。淡出( f a d eo u t ) 是前一镜头的结尾几帧缓慢均匀地变暗直至变为全黑屏幕。 更广义的定义将淡入淡出边界中的黑色帧定义为单色帧。溶解( d i s s o l v e ) 也叫叠换,是 淡出和淡入进行叠加的结果。扫换( 谢p e ) 是上一个镜头的画面逐渐被后一个镜头的画 面所代替,直至全部变为后一个镜头的画面。 图2 1 镜头边界 本章对视频镜头边界检测的多种方法进行了总结和分析,包括基于像素、基于边 缘、基于直方图、基于时空二维图等方法。 西北大学碗l 学位论文 2 1 视频镜头边界检测及其面临的困难 2 11 视频镜头边界检测 每秒视频中约包含2 0 3 0 帧图像,所以在摄像机拍摄下来的镜头内部相邻两帧所 记录的两个瞬间的时间间隔约为o 0 3 一o 0 5 秒,而这两帧的差别主要来自于镜头中物体 的运动、光照的变化、摄像机镜头的拉伸、运动以及噪音的影响等。在如此短的时间 内,上述因素对视频来说一般影响不大,所以相邻两帧在内容上具有很大的相似性。 而一个镜头中的所有帧是在摄像机的不间断的工作中拍摄下来的,所以镜头内部从第 一帧到最后一帧是一个颜色、纹理、边缘等特征连续、缓慢变化的过程。镜头的边界 是两个不同镜头的连接部分,对于突变边界来说,一般存在显著的帧间差异;而渐变 边界则是两个镜头之间逐渐的替代过程,前一个镜头逐渐退出,后一个镜头逐渐进入。 其中退出的过程包括前一镜头亮度的减弱或所占显示面积的缩小等,进入过程则恰好 相反。因此,渐变边界虽然具有一定的连续性,但是在边界内部的两帧之间,既有前 一个镜头逐渐退出产生的变化,也有后一个镜头逐渐进入产生的变化。这些差别使得 镜头渐 图2 2 视频帧的不连续值 镜头边界检测即区分镜头内部的连续性和镜头边界的不连续性或较差连续性的过 程。首先,某种特征被提取出来作为衡量帧间内容的变化,例如颜色、形状、纹理等 特征都可以用来作为对视频帧的描述,然后,根据某种标准来度量帧间内容的差别, 这种差别就是计算出来的帧间不连续值z ( t ,t + 仉其中,1 ,然后经过阈值判决,不 6 西北大学硕l 学位论文 连续值大于某一自适应或者固定的阈值,则认为帧与 + ,形成了边界,否则两帧在 同一镜头内。图( 2 2 ) 给出了一组计算出来的不连续值,在突然有很大的值出现的时候 一般是镜头边界,好的特征和标准应使边界与非边界的差别更大一些,这可以将边界 与非边界划分得更准确一些。 2 1 2 视频镜头边界检测面临的困难 视频镜头边界检测是一个国内外都非常活跃的研究方向,基本上所有的视频分析、 检索方面的研究都不能脱离镜头边界的检测。虽然目前出现了少数视频检索系统,但 是其中视频边界检测的结果仍然不是十分可靠“。并且现有的边界检测方法往往是针 对某一种类型的边界或者某类型的视频有效或者是对不同的视频或边界需要调整合适 的参数,物体相机运动和光照的变化等也会对视频边界的检测产生干扰。 在镜头边界检测中,经常会出现三种情况:错检、漏检以及对渐变镜头边界的定 位偏差。错检是将镜头内部的帧看作边界。一般镜头内部的相邻帧间差较小,但是当 物体相机运动和光照的变化很剧烈的时候,比如在拍摄相邻两帧的o 0 3 0 0 5 秒时间 差内,物体或者相机的运动速度过快,就可能导致前后两帧的差异较大,使两帧在颜 色、纹理、边缘等特征上看起来不相似,就被当作镜头边界了;漏检是没有检出正确 的镜头边界,这种情况在渐变边界的检测中比较常见,因为渐变也是一个连续变化的 过程,当选取的特征在这个过程中间变化不明显的时候就会出现漏检:渐变边界的定 位偏差是一个普遍的问题,因为在渐变边界的开始和结束位置,对于合成起来的画面 来说,总是会出现一个镜头占主导地位,而另一个镜头影响很小,有时候甚至连人眼 都不容易分辨。 可靠的边界检测方法一直是过去十几年来研究的重点,大多数方法对突变边界的 检测得到了良好的结果,但是对于镜头的渐变边界的检测仍然未能很好的解决。在这 一章的下面几节,我们将介绍几种检测方法。 2 2 视频镜头边界检测典型方法 对于如何选定合适的特征或标准来描述视频帧,尽量抑制物体相机运动、光照、 噪声等的影响,使镜头边界处的不连续值明显区别于镜头内部的不连续值,很多学者 西北大学硕士学位论文 进行了研究,提出了多种不同的方法,这些方法大部分是先将视频解压成帧序列,然 后度量帧之间的不连续值得到镜头边界;也有部分方法是直接在压缩域中检测视频镜 头边界,包括利用压缩标准直接从压缩数据中提取边界,或者将视频部分解压进行不 连续值的计算。本节介绍了几种经典的方法并对其进行了分析和讨论。 2 2 1 像素比较和块匹配法 像素比较法是直接计算相邻的第,和( f + d 两帧图像,( x ,”f ) 、,( z ,弘f + ,) 之间对 应像素灰度值的绝对差,然后将此绝对差求和,得到这两帧的不连续值q 。n 9 1 。 ,= 志誓鼽训力 其中v 一、 k 表示帧图像水平和垂直方向的象素数。 ( 2 1 ) 如果q 。大于某一个阈值,则表示第f 和o + ,) 两帧之闾出现了不连续,判定为镜 头边界。 由于物体丰目机运动、噪声等因素都会使相邻帧对应象素位置并不对应同一个象素 值,尤其是视频物体运动剧烈,摄像机移动速度过快或者视频的内容结构很复杂时, 都会加剧不对应的程度。为了减少这种影响,文献 2 0 用一个3 3 均值模板先对图像 进行平滑滤波,然后应用运动补偿中块匹配法,将第i 帧划分为块,找出其中每一块 6 ,( 女) 在第七+ ,帧中对应的块包。( 七十,) ,使得它们在选择的标准口下是最相似的,即: b h ,( i ) = d ( 6 j ( 七) ,6 i ,。( t + f ) ) = m i n d ( 岛( ) ,6 f ,( 七+ 7 ) ) ( 2 2 ) ,= i 一 其中m 是候选块6 f 。,( i + ,) 的数量,如果第和七+ ,是连续的两帧,根据同一镜头内 视觉内容的连续性可知r 包( t ) 和6 j ,( 女+ f ) 几乎是相同的块。如果第i 和t + ,帧来自于 不同的镜头,那么岛( 女) 和6 。( 七+ ,) 的差别就变得很大。这是由于在镜头边界处的视觉 内容突然发生了变化,因此这种方法在一定程度上克服了运动的影响。 22 2 直方图比较法 基于直方图的算法通常是将帧的灰度、亮度、颜色等分成个等级,再统计包含 r 西北大学硕十学位论文 在各个等级中像素的数目,形成直方图。直方图比较法中使用最广泛的是颜色直方图 法。颜色直方图包括灰度、各种颜色空间的直方图。其中最简单的是灰度直方图。灰 度直方图法将灰度空间分成若干个区间,计算帧图像象素值落在对应各区间的象素的 数目作为该帧的直方强,如图( 2 。3 ) ,将灰度图像象素值o 一2 5 5 分成6 4 等份对产生的 直方图。 图2 3 灰度翻像及其直方图 第i 帧和第t 十,帧之间的直方图差定义为 z ( i ,+ ,) = j 皿( ) 一仇+ 舸) l ( 2 3 ) = i 灰度直方图可以很容易的扩展到彩色直方图。设。为直方图的分块数,风( ,) 表示第k 帧直方图的第,个分块。对r g b 色彩直方图: z ( t ,t 十,) :羔l 群( ,) 一戡舢) h 唧( ,) 一职) h 碟( _ ,) 一毗舢) l ( 2 4 ) j = i 彤( ,) 表示第k 帧颜色直方图红色分量的第_ ,个分块- g 、b 表示绿色和蓝色分量。 这种算法对物体相机的缓慢运动不敏感,但是当光照变化、物体相机的快速运 动等使整帧的灰度、颜色等发生较大变化时,容易出现误检;而当相邻的两个镜头的 连接蝻存枢佐卜包含娄似的藏彦、颜刍比例的时候刚容器m 孤漏埝- 七n 隔f 4 、- 图2 4 具有相同颜色分革的不相似帧 西北大学硕 :学位论文 为了减少运动、干扰等引起的帧间差值变化和整体直方图类似的不相似边界的漏 捡,文献 2 1 将帧进行分块,分别比较每个块的颜色直方图,不考虑差值最大的块, 该方法对物体相机运动范围较大以及由于直方图类似导致的漏检具有改进效果,但是 对检测淡入淡出等特殊效果时会失败,同时对光照的变化也比较敏感。 滑动窗l j 滑动z fff z 值一旦,+ 卜骂z ( ,t + 1 ) 。 2 。2z ( t + 警舢,+ 争 向 图2 5 滑动窗口法 计算出帧间不连续值z 之后通常通过阙值丁来判断是否存在镜头变换边界,最简 单的方法就是确定一个全局阈值,当z r 时则定义为镜头边界。但是同一类型的镜头 变换边界其不连续值也可能有很大的差异,大的物体相机运动也会产生较大的不连续 值,并且不同的镜头边界类型其不连续值具有不同的特征,用单一的阈值很难得到最 优的结果。所以对于不同的边界需要用不同的阈值计算方法。对同类型的边界也需要 自适应地调整阈值的大小。 y e o 使用滑动窗口法来捡测突变边界。计算f = 1 的相邻帧的不连续值,如果检 测第帧,j 、+ 1 个不连续值将被考虑,形成一个滑动窗,如图( 2 5 ) 所示,那么中间的 第七帧是否为边界依据以下2 个条件:z ( 七,t + 1 ) 为n + 1 个值中的最大值; z ( _ j ,七十1 ) t z 。,乙为窗口中的次大值,女为系数。也就是说当z ( 七,j | + 1 ) 是窗口 中的最大值,并且是滑动窗内次大值的倍时,在( 七,七+ 1 ) 处有一个边界,这个参 数可理解为边乔的模式,这个模式可描述为在一系列连续值中有一个孤立的峰值, 这种方法的缺点是检测依赖于固定参数。 z h a l l g 提出了镜头渐变的双边比较法。”。该方法设置两个阈值瓦和ta 当帧差大 于瓦时,存在镜头突变;当帧差小于瓦而大于i 时存在镜头渐变。然后累积后续的帧 差,如果累积帧差达到了t ,则认为是渐变边界,如果在没有达到e 的过程中帧差小 f n 西北大学硕士学位论义 于r ,则重新计算累积帧差。因为渐变和镜头内部的帧间不连续值往往差距很小,所 以低阈值r 很难确定,导致该方法对渐变的起始和结束点的定位不准确。 直方图方法易于实现,虽然对渐变边界的检测需要设置合适的阈值以减少漏检和 错检,但是对突变边界的检测能达到较好的效果。而且直方图的思想可以应用到除了 颜色、亮度之外的其它特征,如文献 2 4 ,2 5 应用梯度向量角壹方图检测镜头边界。 2 23 基于边缘的方法 通过图像的边缘,一般也能识别出物体,如素描可以通过简单的线条表示物体。 在镜头变换边界,由于前一镜头和后一镜头内容发生了变化,所以边缘的位置、形状、 数量等也会随之改变。因此可以利用边缘在镜头变换边界的变化来检测镜头边界。已 有一些基于边缘的方法_ ”。文献 2 6 采用边缘变化率( e c r ) 的方法。采用c a n n y 算子 计算出帧女+ f 的边缘,记暖+ ,为边缘的数量,x 嚣万口带。为进入第女+ f 帧和从第女帧消 失的边缘点数量,帧t 和帧 + ,之间的边缘变化率e 积( 女,女+ ,) 定义为: 嬲谢一a x t 毫,争 , 为了减少运动对e c r 的影响,先作一个全局的运动补偿来消除相机的运动。如果相邻 两帧的边缘特别靠近,则不作为进入或消失的边缘点。另外一神基于边缘的方法称为 基于边缘对比( e 魄e b a s e dc o n t r 雒t ) 的方法见文献 2 8 。 对于画面简单或者边缘清晰的视频,如动画等,基于边缘的方法能得到较好的检 测结果,但是视频中包含很多边缘不明显、或者具有大量细小、复杂边缘的帧,如果 再加e 物体相机运动等因素,会影响镜头边界检测的效果。同时,检测每一帧的边缘 对于大量视频来说计算量巨大。 2 2 4 压缩域中的方法 由于现在大多数的视频数据使用m p e g ( m o v i n gp i c t u r ee x p e r tg r o u p ) 压缩格式, 因此压缩域中的镜头边界检测方法一般是针对m p e g 压缩视频的。 m p e g 标准是国际标准化组织i s o ( i n t e m a l j o n a lo 唱a i l i z a t i o nf o rs t a i l d a r d i z a t i o n ) 和 西北人学硕l 学位论文 国际电工委员会i e c ( i n t e m a t i o n a le l e c 仃ot e c h n i c a lc o m m i s s i o n ) 联合成立的专家组开发 的运动图像及其伴音的编码、解码以及它们之间的同步等标准。包括下列几种具体的 标准: m p e g l :1 9 9 3 年发布的针对1 5 m b ,s 速率的数字存储媒体运动图像及其伴音编 码制定的国际标准,使得基于c d r o m 的数字视频以及m p 3 等产品成为可能。m ”_ ”1 。 m p e g 一2 :是对m p e g 一1 标准的进一步扩展和改进,主要是针对数字视频广播、 高清晰度电视和数字视频等制定的4 9 m b ,s 运动图像及其伴音的编码标准“删。 m p e g _ 2 是数字电视机顶盒与d v d 等产品的基础。 m p e g 。3 :1 9 9 2 年7 月合并到商清晰度电视h d t v 工作组。 m p e g 一4 :适用于小于6 4 k b s 的极低码率的音频,视频( a v ,a u d i o - v i s u a l ) 编码 3 4 , 主要面向公共交换电话网( p s t n ,p u b i i cs 谢t c ht e l e p h o n e n e t w o r k ) ,局域网( l a n ,l o c a l a r e a n e 惭o r k ) 以及移动网上的可视电话等电信业务。相对于前两个压缩标准,m p e g 一4 已经不再是一个单纯的视频音频编解码标准,它将内容与交互作为核心。 m p e g 7 :多媒体内容描述接口,是用于信息表示的。与m p e g 一1 和m p e g 2 是 基于采样的图像和音频压缩,m p e g 一4 是基于对象的编码不同的是,m p e g 7 是“基 于语义的表示”“,它试图规范对不同媒体信息的描述而不受表达形式的限制。 现有的边界检测算法一般应用在m p e g - 1 编码的压缩视频中。m p e g l 把图像编 码分成i 帧、p 帧、b 帧和d 帧共四种类型。i 帧为帧内编码帧( i n 订a c o d e df r 啪e ) ,编 码是采用类似j p e g 的帧内d c t ( d i s c r e t ec o s i n et r a i l s f o r n l ) 编码,i 帧的压缩率是几种 编码类型中最低的。p 帧为预测编码帧( p p e d i c t i v e l yc o d e df 删n e ) ,采用前向运动补偿 预测和误差的d c t 编码,由其前面的i 或p 帧进行预测。b 帧为双向预测编码帧 ( b i d i r e c t i o n a l l y p r c d i c t i v e l y c 0 d e d f r 锄e ) ,采用双向运动补偿预测和误差的d c t 编码, 由前面和后面的i 或p 帧进行预测,所以b 帧的压缩效率最高。d 帧是直流编码帧( d c c o d e d 胁n e ) ,只包含每个块的直流分量。m p e g 一1 采用运动补偿去除图像序列在时间 上的冗余度,可使p 帧和b 帧的压缩倍数比i 帧提高很多。由于必须先传输参照帧, 因此传输次序和显示次序有可能不同,如图( 2 6 ) 。 两北大学预e 学位论文 显示次序ib b p 传输次序 ip bb b b b b 幽2 6m p e g l 视频中显不和传输次序 在结构上,m p e g l 视频流采用分层式数据结构,包括视频序列、图片组、图片、 分片、宏块、块共六层,视频序列被分为一系列图片组,每个由一帧i 帧和一些p 帧、 b 帧组成,图片组的第一帧定为i 帧。图像是图像序列的主要编码单元,宏块是图像 编码的基本单元,运动补偿、量化等均在宏块上进行。d c t 则在8 8 像素块上进行。 m p e g l 视频编码方式采用帧间d p c m i 彘r e n t i a lp u l s ec o d em o d u l a t i o n ) 和帧内 d c t 相结合的方法。 f 一_ : 一一 【剿懂一l ,呻,f 哪i 世j 1 竺 滤波 亚采样 1 敬字视 频输入 q 叫i d c t _ 1 l i 矗 编码乙i “吲懂p 复l 视额比特流 用l i 器l 酬髑 :蕊i 预测模型 1 q :量化:q :反量化;v l c :可变长编码 图2 7m p e g 1 视频编码的原理框图 在m p e g l 的压缩域上通过部分解码获得运动矢量、帧类型、帧序号、宏块类型、 d c t 系数等重要信息。由于直接从压缩域上提取上述信息而不对整个视频进行完全译 码,可以节省计算开销。 文献 3 6 利用压缩域提取的数据在镜头边界处的下列3 个特征提取视频镜头边 西北大学硕j j 学位论文 界: 溶解区域中b 帧误差能量的分布规律对于每个帧间编码的宏块,定义其d c t 系 数( 包括d c 系数和a c 系数) 的绝对值之和为该宏块的误差能量。 e ( 慨) :壹艺i 。呒1 十艺l c o 眵l + 兰i c 0 l ( 2 6 ) := :;:k 。r ”盛;易 其中,m o d e ( l 坟) = f h f p ,。将b 帧中所有帧间编码宏块的误差能量累加起来就得到了 该b 帧的误差能量: e ( e ) =一e ( 啦) ,m o d p ( 绲) = 加御 ( 2 7 ) 溶解镜头变换发生时,尽管在视觉效果上是一种缓慢叠加过程,但帧间误差能量占( 皿) 已经发生了明显的变化。对于突变、淡入淡出等镜头边界类型,其误差能量有所不同: 在突变处只有一或两帧的误差能量非常高,形成一个峰值,镜头中误差能量并不像溶解 镜头中那样呈团状分布,这个特性使得我们可以有效地将溶解镜头边界和突变区别开 来。在淡入淡出区域,淡入和淡出不是同时进行的,前一个视频序列先发生淡出,中间稍 有过渡,紧接着后一个视频序列发生淡入。在过渡期内图像渐渐变暗,直至亮度和色度 都降为0 ,其误差能量也接近o ,这一特性可以有效地将淡入淡出切换和溶解切换区分 丌来。 采用滑动窗口,从b 帧的误差能量曲线找到可能的溶解变换区域。同前类似可以定 义p 帧的误差能量,即p 帧中所有帧间编码宏块的误差能量的累加。在镜头边界处,连 续几帧的误差能量会形成一个峰值,p 帧的误差能量曲线对叠化切换很敏感,当发生 突变、淡入淡出时,p 帧的误差能量曲线也有和b 帧类似的特点。 i 帧的d c 图像差值在溶解区域出现明显的峰值。 对宏块的每个块( 8 8 像素) 进行d c t 变换得到6 4 个d c t 系数,其中第1 个系数为 直流系数即d c 系数。设c ( o ,o ) 为每个块的d c 系数,则 c ( )j 厶、”,7 c ( o ,o ) = 盟基:了一 ( 2 j 8 ) 即d c 系数为整个块的均值。一帧中所有d c 系数就构成了原始图像的d c 图像,d c 图像 两北大学硕 二学位论义 的分辨率是原始图像的1 6 4 ,却保留了原始图像的大部分信息 视频中的运动矢量在溶解区域分布极不规则或基本静止 在叠化区域内运动矢量的模值比较小,基本处于静止状态或者分布杂乱无章而其 它规则运动的运动矢量则具有明显的方向性。对各种规则运动来沈运动矢量的模值都 要足够大才有意义。而溶解区域很少存在舰则运动,运动矢量的模值普遍较小或为o 。 依据这个特点,可以进一步核实前面检测到的可能的溶解区域是否真的发生了溶解切 换。该算法直接工作在压缩域上,具有快速、鲁棒和精度高等优点,能满足实时视频镜 头分割的要求。但是只针对单一镜头变换边界具有较好的效果。 对于m p e g 而言,这种基于d c t 系数的方法只能使用于i 帧,不能适用于b 、p 帧,因此y e o 提出了一种只使用d c 系数的方法。”,通过对b 、p 帧d c 系数的近似 重构,形成d c 帧,计算d c 帧之间的差别作为帧间不连续值。用这种近似的d c 系 数求得的不连续值曲线和在解压缩域用r g b 赢方图比较法求得的曲线差别很小,但是 速度快很多。镜头渐变的检测可利用寻找d c 帧差成先增后减形状的位置。这种方法 虽然比在解压缩域中的方法快很多,但是由于b 、p 帧的d c 系数不能直接获得,计 算还需花费较多时间,而且对于渐变的检测还不是很理想。 d i v a k a r a n ”对y e o 方法进行了改进,对于渐变首先利用连续的i 帧的d c 图作比 较,确定出候选的渐变范围,然后对p 帧里具有正的d c 系数和负的d c 系数的块进 行统计,做出统计值的曲线,从而检测淡入淡出。 22 5 基于时空二维图的方法 基于时空二维图( s p a t i o - t e m p o r a ls l i c e s ,v i s u a lr h y t h m ) 的方法是在总共包含r 帧 的视频中,提取每帧的特征,组成一个m r 的矩阵,然后进行归一化,形成一幅m r 的二维图,运用图像处理的方法来检测镜头边界对应在二维图上的不连续位置。其中, 在每帧中提取的特征可以是对帧直接采样。”4 。、帧直方图“等。这样就将三维 的视频分段问题转化为二维的图像分割了。 m i ng y oc h u n g “”直接从视频帧图像中采样帧地主对角线像素得到视频的时空二 维图。对于突变边界,先求时空二维图赫( z ,r ) 的梯度d ( z ,) d ( z ,f ) = i k ( 毛f ) 一( z ,f 一1 ) i ( 2 9 ) 一塑苎查兰堡! 兰竺堡兰 然后按列求平均,不连续值吐( ,) 啪,= 志誓蚴, 其中m 。是时空二维图垂直方向的象素数。 以f ) 2 志荟啪“) ( 2 1 1 ) 矿( 萨赤荟( 啪刊f ) ) 2 ( 2 1 2 ) 其中,( ,) 在第f 列附近采样的均值,盯2 ( f ) 是方差,b 表示的则是一个范围,如( 口) 为3 2 表示曰的数据为卜1 6 ,一1 5 ,一2 ,一1 ,o ,1 ,2 ,1 5 ,1 6 。是否为突变边界由下式判断: = :i ,驾三僦:勰 亿 扫换边界的检测与突变边界的检测类似。将d ( 毛,) 后作为时空二维图每个象素点 的不连续值,超过阈值的定义为突变点,然后检测自顶向下突变点的八连通数,达到 阂值则判定为扫换边界。 对于溶解和淡入淡出边界,利用时空二维图的亮度值在溶解边界呈近似线性变化 的规律,计算时空二维图晶( z ,r ) 沿着时间轴f 在( z ,f ) 处的亮度变化斜率口( z ,f ) ,建立 了一个关于斜率日( z ,f ) 截距6 ( z ,f ) 和误差p ( z ,r ) 的线性方程: 厶( z ,) = 口( z ,f ) r + 6 ( z ,f ) + 8 ( z ,r ) ( 2 1 4 ) 取时空二维图水平方向位置( z ,f 一) ,( z ,f ) ,( z ,f + ) 处的( 2 + 1 ) 个亮度值 代入式( 2 1 4 ) 得到矩阵的形式: 死( z ,r ) = 廊( z ,f ) + 虿( z ,r ) ( 2 1 5 ) 即: 6 西北大学硕1 一学位论文 厶( 2 ,r ( z ,f ( z , ( z , 一1 、 一+ n n 1 - k ( z ”一1 ) 厶( z ,h - 一1 ) ( z ,h r ) 一 l f 一+ ll ,一l f f + 1 f + | v l f + + l 而不连续值以( ,) 则是通过斜率和误差来表示 砍( f ) = 该方法针对不同视频镜头边界在时空二维图上特点 结果。但是也存在些不足:在对突变边界的检测仅仅 值,当出现类似突变边界的垂直边缘时容易造成误检; 已( z ,f p ( z , 、 - v + 1 、 口( z ,f 一1 ) # ( z ,f ) g ( z ,r + 1 ) p ( z ,r + v 一1 ) p ( z ,f + ) ( 2 1 6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论