已阅读5页,还剩86页未读, 继续免费阅读
(计算机软件与理论专业论文)数字视频镜头检测研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西北下业人学顾 壬 : 论文摘贾 摘要 镜头检测一直是数字视频处理领域的一个重要课题。 镜头是组成视频的最基 本的单元, 镜头检测就意味着为视频的结构化表示提供基础, 使更高层的语义视 频处理成为可能。 本文首先介绍了镜头检测的研究现状, 而后针对镜头检测中存在的问题, 分 别给出了基于统计模型的镜头突变检测方法以及基于 e m 曲线拟合的镜头渐变 检测方法。本文的研究成果如下: 介绍了镜头检测的概念、研究的背景和研究的理论以及应用意义,总结 了镜头突变检测和镜头渐变检测的方法,并指出了现有方法中需要关注 的问题。 针对镜头检测中的需要关注的问题 ( 相似性度量、运动检测以及光照变 化) 进行了详细分析。相似性度量中介绍了灰度、运动特征、 直方图、 边缘等相似性度量特征和方法。运动检测分别介绍了如何避免摄像机运 动和视频中物体运动造成的镜头边界误检。光照变化处理中介绍了常用 的闪光灯避免方法。 针对现有镜头突变检测中存在的问题,提出了一种基于统计模型的镜头 突变检测方法。该方法中,采用了一种基于运动补偿的特征,来减小视 频序列中运动物体对检测结果的影响;采用统计模型来建模镜头检测过 程,充分考虑了先验和后验概率;最后对视频中闪光灯造成的亮度突然 变化进行了检测,避免了误检。在加速算法中,采用了跳帧的方法取得 了很好的加速效果。 提出了一种新的基于e m曲线拟合的镜头 渐变检测方法。首先在滑动窗 口中使用自 适应的闲值来选择候选的镜头渐变;其次使用 k a l m a n滤波 对候选镜头渐变进行前向和后向的边界搜索;而后使用e m 曲线拟合对 得到的镜头渐变进行拟合,从而得到一系列的参数;最后使用决策树进 行决策,判断是否为镜头渐变。 关键词: 基于内容的视频检索 镜头检测 统计模型镜头突变检测 e m曲线拟合镜头渐变检测 西北下 业大学硕 论文ab s tr a c t ab s t r a c t s h o t b o u n d a r y d e t e c t i o n i s a lw a y s a n i m p o rt a n t t o p i c i n d ig i t a l v i d e o p r o c e s s i n g . s h o t s a r e t h e m o s t b a s i c e l e m e n t s w h i c h c o m p o s e t h e v i d e o s e q u e n c e . s h o t d e t e c t i o n p r o v i d e s t h e f o u n d a t io n f o r v i d e o s t r u c t u r e p a r s i n g a n d h i g h s e m a n t i c l e v e l p r o c e s s ing . i n t h i s t h e s i s , t h e p r e v i o u s w o r k d o n e i n s h o t d e t e c t i o n i s i n t r o d u c e d . a n a b ru p t s h o t t r a n s i t i o n d e t e c t i o n m e t h o d b a s e d o n t h e s t a t i s t i c a l m o d e l a n d a g r a d u a l s h o t t r a n s it i o n d e t e c t i o n m e t h o d b a s e d o n t h e e m c u r v i n g f i tt i n g a r e p r o p o s e d i n o r d e r t o r e s o l v e t h e p r o b l e m s i n c u r r e n t m e t h o d s t h e f o l lo w in g i s t h e m a i n c o n t e n t s a n d c o n t r i b u t i o n s o f t h i s t h e s i s : b a s i c c o n c e p t s , r e s e a r c h b a c k g r o u n d a n d r e s e a r c h m e a n i n g s a r e i n t r o d u c e d . t h e t r a d i t i o n a l a l g o r i t h m s a r e s y s t e m i c a l l y a n a l y z e d , a n d t h e i s s u e s w h ic h a r e f o c u s e d a r e p r o p o s e d . t h e i s s u e s o f s h o t d e t e c t i o n ( s i m i l a r i t y m e a s u r e m e n t , m o t i o n d e t e c t i o n , i l l u m i n a t i o n c h a n g e p r o c e s s i n g ) a r e a n a l y z e d in d e t a i l . i n s i m i l a r i t y m e a s u r e m e n t p a rt , i n t e n s it y , h i s t o g r a m , m o t i o n f e a t u r e a n d e d g e b a s e d f e a t u r e a r e i n t r o d u c e d ; i n m o t i o n d e t e c t i o n p a rt , t h e m e t h o d a v o i d i n g f a l s e d e t e c t i o n c a u s e d b y c a m e r a a n d o b j e c t m o t i o n a r e i n t r o d u c e d ; i n i l l u m in a t i o n c h a n g e p r o c e s s i n g p a rt , t h e c o m m o n m e t h o d p r o c e s s i n g i l l u m i n a t i o n c h a n g e a r e in t r o d u c e d 卜 a n a b ru p t s h o t t r a n s i t i o n d e t e c t i o n m e t h o d b a s e d o n s t a t i s t i c a l m o d e l i s p r o p o s e d i n o r d e r t o r e s o l v e s o m e i s s u e s . i n t h i s m e t h o d , a m o t i o n c o m p e n s a t i o n f e a t u r e a r e a d o p t e d t o d e c r e a s e t h e f a l s e d e t e c t i o n c a u s e d b y m o t i o n ; t h e s t a t i s t i c a l m o d e l a r e u s e d t o m o d e l t h e a b rup t t r a n s i t i o n , t h e p r e - p r o b a b i l i t y a n d p o s t - p r o b a b i l i t y a r e c o n s i d e r e d ; f i n a l l y , t h e fl as h l i g h t a r e p r o c e s s e d t o a v o i d f a l s e d e t e c t i o n . i n o r d e r t o s p e e d u p t h e m e t h o d , a s k i p f r a m e s t r a t e g y i s a d o p t e d . a g r a d u a l t r a n s it i o n d e t e c t i o n m e t h o d b a s e d o n e m c u r v e f i t t i n g i s p r o p o s e d . f i r s t t h e a d a p t i v e t h r e s h o l d i s u s e d t o s e l e c t t h e c a n d i d a t e g r a d u a l t r a n s i t i o n i n a s l i d i n g w i n d o w ; s e c o n d k a l m a n f i l t e r i s a d o p t e d t o s e a r c h t h e e x a c t b o u n d a r y o f g r a d u a l t r a n s i t i o n ; t h i r d e m c u r v in g f it t i n g a r e u s e d t o fi t t h e g r a d u a l t r a n s i t i o n c u r v e a n d g e t a s e r i e s o f p a r a m e t e r s ; f i n a l l y , t h e d e c i s i o n t r e e i s a d o p t e d t o d e c i d e w h e t h e r t h e r e i s a g r a d u a l t r a n s it i o n . k e y w o r d s : c o n t e n t - b as e d v i d e o i n d e x i n g , s h o t t r a n s i t i o n , s h o t b o u n d a ry d e t e c t i o n , s t a t i s t i c a l m o d e l , a b r u p t s h o t t r a n s i t i o n d e t e c t i o n , e m c u r v e f i t t i n g , g r a d u a l s h o t t r a n s i t i o n d e t e c t i o n . 西北t业人学硕 卜 论文 绪沦 第一章绪论 随着数据获取、 存储、 通讯技术的发展, 大量视频数据的处理成为用户和企 业面临的一个巨大问题。对于大量的视频数据,我们不仅仅需要对其进行存取, 还需要对其进行描述、 组织、 管理。 结构化的视频数据被证明是最有效的视频组 织方式, 也最利于用户的管理以 及进行基于视频内 容的索引等高层语义 操作。 将 视频数据结构化的最基本的步骤就是将视频分割为镜头,也就是进行镜头检测。 1 . 1 研究背景及选题意义 1 . 1 . 1研究背景 随着信息技术、多媒体技术、网络技术的迅猛发展, 信息量急剧增长, 相当 多的新增信息是以数字形式存在的。它们不仅包括文字和声音,更多的是图形、 图像、 视频等视觉信息。 视频是一类重要的视觉信息源, 它不仅包含静止图像所 包含的内容,还包括场景中目 标运动信息和客观世界随时间变化的信息。 对于多媒体数据, 尤其是视频数据, 越来越多的应用不仅对数据的存储和传 输提出了要求, 还需要对视频数据进行描述、 组织、 管理。 传统的视频描述方法 是人工对数据库中的视频数据进行描述并对关键画面给定关键字, 山检索人工描 述或关键字来定位到用户所需的视频片断: 传统的视频组织管理方法是以 视频文 件为单元进行视频的分类管理。 传统方法对于海量的视频数据己经不适用了。 人 工对视频数据进行描述需要的工作量太大、 太耗时、 代价过于巨大, 并且人工的 描述是主观的、 不精确、 不完整的。 以文件为单元的视频组织管理方法粒度过粗, 通常满足不了用户的需求。因此研究有效的适合多媒体数据特点的建模、组织、 索引 和 检 索方 法变得日 益 迫切。 基 于内 容的 视 频检 索技 术 ( 1,2 ,3 .4 就是 用 于 解决 上 述问 题而提出的。 基于内容的视频检索就是根据视频的内容和上下文关系, 对大 规模视频数据库中的视频数据进行检索。 基于内容的视频检索包括很多技术, 视 频数据的结构化就是其中一项关键技术。 视频数据结构化中最重要的一个步骤就 是将视 频 序列分割为视频的 基本组成单 元一一 镜头,也就是进行镜头 检测 ( s h o t d e t e c t io n ) 也叫 镜 头 转 换 检测 ( s h o t t r a n s i t io n d e t e c t i o n ) . 镜头 分 割 ( s h o t s e g m e n ta t io n ) 或者 镜头 边界 检测 ( s h o t b o u n d a r y d e t e c t i o n ) . 两北工业大学硕 七 论文绪论 1 . 1 . 2选题意义 随着信息技术、多媒体技术、 网络技术的迅猛发展, 信息量的急剧增长, 人 们对信息检索系统提出了全新的要求。 基于文本信息的检索已经不能满足用户的 需求, 人们还需要对静态图像进行基于内容的检索。 经过近些年的发展, 扩展到 了基于内容的视频检索。 基于内容的视频检索最重要的一个步骤便是对视频数据 进行结构化, 而对视频数据进行结构化的最基本、 最重要的一个步骤就是将视频 序列分割为镜头,即进行镜头检测。 镜头检测技术是在基于内容的静态图像检索的基础上发展起来的。 镜头检测 的关键问题之一便是找到合适的描述视频中帧图像内容的特征, 通过帧间的特征 值的差异来判断是否存在镜头的转换。 目前通用的用于镜头检测的图像特征包括 图像全局或某特定区域的颜色、 直方图、 边缘以及其它能表示图像内容差异的视 觉特征。由于镜头检测还需要考虑光照变化、 物体运动、 摄像机运动对视频图 像 内容的影响,因此镜头检测还涉及到光照变化的处理、 运动的检测等领域。 近年来,镜头检测技术己 经应用在很多实际的视频检索系统中, 例如 i b m 的q b i c 系 统 11 6 1 , m a r c d a v i s 的m e d ia s t r e a m系 统 7 .8 1 以 及 美 国 哥 伦比 亚 大 学 的 v i d e o q 系 统 9 1 , 并 得 到了 广 泛的 重 视 。 镜头 检 测 的 应 用 意 义 如 下: 首先, 镜头实际上代表了时间和空间上的一个连续事件, 是组成视频的最基 本的元素。 镜头检测意味着获取视频的最基本元素, 将视频分成时间和空间上的 最小 逻辑单元, 为后续的 视 频抽象和高 语 义层次 的 视频 分割 1 0 . 11 . 12 1 、 视 频修复等 提供了基础。 其次, 视频产品中镜头的转换是根据视频的内容和衔接关系精心挑选的。 而 镜头检测能够恢复镜头转换的位置和类型,这有助于计算机推导高层的语义信 息。 例如, 电 影中 融合 ( d is s o lv e ) 通 常 被 用 来表 示 一 段时 间的 逝去 13 1 。 在电 影、 记 录片、 人物传记、 风景等视频中融合( d i s s o l v e ) 出 现比 较多, 而新闻、 体育、 喜剧 中融合就出现比较少。 因此镜头转换位置和类型的检测可以用于视频类型的识别 1 1 4 1 最后, 在彩色化黑白视频中, 不同的镜头中图像序列的颜色分布可能差异非 常大, 如果使用同一颜色查找表, 得到的结果将不能忍受。 而镜头转换信息将每 个镜头分离了出来, 同一镜头内的图像序列的颜色分布是具有相似性的, 可以 使 用同一颜色查找表, 即镜头检测能够在彩色化黑白 视频中用于产生灰度一 颜色查 找表。 西北t . 业大学硕 f : 论文绪论 1 . 2镜头检测的研究概况以及存在的问题 1 . 2 . 1研究概况 镜头是视频流在编辑制作及检索中的基本结构单元, 因此镜头的自 动分割是 视频结构化的基础, 也是视频分析和检索过程中的首要任务。 镜头分割的效果将 直接影响到更高一级的视频结构化以及后续的浏览和检索。 一个镜头由一个摄像机连续拍摄得到的时间上连续的若千帧图像组成。 基于 内容检索的视频处理, 首先要把视频自 动地分割为镜头。 所以, 镜头检测也可以 看作是一个分割问题。 视频时域的镜头分割是进一步对视频进行分析的基础,目 前对视频图像的时域分割大都是采用基于边界的方法, 即设法确定从一个镜头到 另 一 个镜头的转换( t r a n s i t i o n ) 处,也 就是 镜头 边界 ( s h o t b o u n d a r y ) , 从而确定 镜 头。 镜头之间的 转换方 式主 要 有两大 类,即 突 变( c u t tr a n s i t io n ) 和渐变( g r a d u a l t r a n s i t i o n ) 。镜头检测的主要研究内容是镜头突变和渐变的检测方法。 镜头突变 是将两个镜头直接连接在一起得到的, 中间没有使用任何视频编辑特效。 镜头 渐 变是两个镜头之间通过视频编辑特效连接在一起。 根据视频编辑特效的不同, 镜 头渐变可细分成淡入淡出( f a d e ) . 融合 ( d i s s o l v e ) , 滑入 ( w i p e ) . 翻转 ( n i p ) , 旋转 ( s p i n )等等。 镜头突变检测方法根据阂值的设定方法, 主要有 一 两种: 一是全局固定i0 值方 法; 二是自 适应闭值方法。 全局固定阂值方法是设定一 个固定闭值, 帧与帧之间 的视觉差异若大于该闽值则认为该处出现了镜头转换。 自 适应闽值方法, 在某个 滑动窗口内计算自 适应的闲值, 帧与帧之间的视觉差异若大于该自 适应闭值则认 为该处出现了镜头转换。 镜头渐变检测主要有以 下几种方法: 一是双闭值方法; 二是基于模型的方法: 三是多分辨率的方法。 双闲值方法主要是通过两个闭值来检测镜头渐变, 一个较 高的ic j 值来用来检测镜头突变,一个较低的阐值用来确定镜头渐变的起始帧位 置。 当 确定了 起始帧位置时, 开始计算累积帧间差, 若累积帧间差大于较大的闭 值, 并且相邻帧间差小于较低阂值时, 镜头渐变结束。 基于 模型的方法是根据视 频编辑时使用的渐变效果的数学模型来选取相应的表示视觉差异的特征来检测 镜头渐变。 多分辨率方法是首先在较大的时间粒度上来观察视频序列来确定候选 镜头渐变。而后在较小粒度上来确定是否为镜头渐变。 无论是镜头突变检测还是镜头渐变检测, 都需要选取合适的特征来表示视频 序列中帧与帧之间的视觉差异。 现有的方法主要选取以下几个特征用来表征帧与 帧之间的视觉差异:灰度 ( 或者亮度) 、运动特征、直方图、边缘等等。 西北t . 业大学硕 f : 论文绪论 1 . 2镜头检测的研究概况以及存在的问题 1 . 2 . 1研究概况 镜头是视频流在编辑制作及检索中的基本结构单元, 因此镜头的自 动分割是 视频结构化的基础, 也是视频分析和检索过程中的首要任务。 镜头分割的效果将 直接影响到更高一级的视频结构化以及后续的浏览和检索。 一个镜头由一个摄像机连续拍摄得到的时间上连续的若千帧图像组成。 基于 内容检索的视频处理, 首先要把视频自 动地分割为镜头。 所以, 镜头检测也可以 看作是一个分割问题。 视频时域的镜头分割是进一步对视频进行分析的基础,目 前对视频图像的时域分割大都是采用基于边界的方法, 即设法确定从一个镜头到 另 一 个镜头的转换( t r a n s i t i o n ) 处,也 就是 镜头 边界 ( s h o t b o u n d a r y ) , 从而确定 镜 头。 镜头之间的 转换方 式主 要 有两大 类,即 突 变( c u t tr a n s i t io n ) 和渐变( g r a d u a l t r a n s i t i o n ) 。镜头检测的主要研究内容是镜头突变和渐变的检测方法。 镜头突变 是将两个镜头直接连接在一起得到的, 中间没有使用任何视频编辑特效。 镜头 渐 变是两个镜头之间通过视频编辑特效连接在一起。 根据视频编辑特效的不同, 镜 头渐变可细分成淡入淡出( f a d e ) . 融合 ( d i s s o l v e ) , 滑入 ( w i p e ) . 翻转 ( n i p ) , 旋转 ( s p i n )等等。 镜头突变检测方法根据阂值的设定方法, 主要有 一 两种: 一是全局固定i0 值方 法; 二是自 适应闭值方法。 全局固定阂值方法是设定一 个固定闭值, 帧与帧之间 的视觉差异若大于该闽值则认为该处出现了镜头转换。 自 适应闽值方法, 在某个 滑动窗口内计算自 适应的闲值, 帧与帧之间的视觉差异若大于该自 适应闭值则认 为该处出现了镜头转换。 镜头渐变检测主要有以 下几种方法: 一是双闭值方法; 二是基于模型的方法: 三是多分辨率的方法。 双闲值方法主要是通过两个闭值来检测镜头渐变, 一个较 高的ic j 值来用来检测镜头突变,一个较低的阐值用来确定镜头渐变的起始帧位 置。 当 确定了 起始帧位置时, 开始计算累积帧间差, 若累积帧间差大于较大的闭 值, 并且相邻帧间差小于较低阂值时, 镜头渐变结束。 基于 模型的方法是根据视 频编辑时使用的渐变效果的数学模型来选取相应的表示视觉差异的特征来检测 镜头渐变。 多分辨率方法是首先在较大的时间粒度上来观察视频序列来确定候选 镜头渐变。而后在较小粒度上来确定是否为镜头渐变。 无论是镜头突变检测还是镜头渐变检测, 都需要选取合适的特征来表示视频 序列中帧与帧之间的视觉差异。 现有的方法主要选取以下几个特征用来表征帧与 帧之间的视觉差异:灰度 ( 或者亮度) 、运动特征、直方图、边缘等等。 西北工业人学硕 _ 论文 绪论 灰度是最直接表征图像视觉差异的量, 计算简单, 但是非常容易受到噪声的 干扰; 运动特征是将图像分块, 分别计算块与块之间的差异, 而后根据块与块之 间的差异来判断是否存在镜头转换, 运动特征对噪声的抗干扰能力较强, 并且具 有运动补偿特性: 直方图特征, 利用同一镜头内帧图像中颜色分布相似的特性来 进行镜头检测, 对于较小的运动具有较强的抗干扰能力, 但是对于快速运动以及 大物体运动通常会产生误检测; 边缘特征是利用不同镜头内的帧图像通常边缘轮 廓会相差比较大来进行镜头检测, 通常计算量比较大, 但是在镜头渐变检测中有 很好的表现。 其他用于镜头检测的特征还有基于信息学的 特征以及上述一些特征 的组合等等。 1 . 2 . 2存在的问题 近年来随着基于内容检索技术的发展,镜头检测技术也取得了很大的进展, 并且应用在很多优秀的基于内 容的检索系统中。 但是由于自 身的理论还不是很成 熟,因此还在不断的发展完善之中。其中主要存在的问题有以下几个方面: 1 .运动问题:摄像机运动、视频序列中的物体运动都能造成视频帧图像的 视觉内容剧烈变化,而镜头检测的基本原理是检测视频中帧与帧之间的 视觉差异。因此运动通常会造成镜头检测算法的误检测。 现有的方法采 用了运动补偿的特征以及运动检测来对视频序列中的物体运动进行运动 补偿,对于慢速运动取得了较好的效果,但是对于较剧烈的运动仍然没 有什么非常有效的办法。摄像机运动方面也有很多的研究, 但对于摄像 机较大的运动还是不能很好地检测到。 2 .光照问题: 光照的变化以及物体的反光、 闪烁都极易造成镜头的误检测。 通常采用的灰度,直方图特征对于全局的光照变化比 较敏感,因此很容 易造成误检测,于是有研究人员采用基于光照不变的特征,例如颜色比 值直方图。对全局的光照变化有很好的补偿作用,但是对于局部的光照 变化,尤其是镜头渐变过程中的局部光照变化仍然没有非常有效的处理 方法。 3 精度问 题: 镜头突变检测的精度通常都能达到 9 0 % 左右。 但是镜头 渐变 的检测精度却比较低。这是因为在视频编辑中视频编辑特效层出不穷, 而通常的镜头渐变检测方法都只适用于某一种情况下或者某一种特定的 镜头渐变类型。 4 .速度问题:由于视频数据的巨大数据量, 每秒钟大约3 0 帧, 一般的视频 长度为两小时左右,也就是2 1 6 0 0 帧,计算量非常巨大。因此对镜头检 测算法的速度要求非常高.通常的算法都是逐帧计算帧间相似度,速度 西北工业人学硕 _ 论文 绪论 灰度是最直接表征图像视觉差异的量, 计算简单, 但是非常容易受到噪声的 干扰; 运动特征是将图像分块, 分别计算块与块之间的差异, 而后根据块与块之 间的差异来判断是否存在镜头转换, 运动特征对噪声的抗干扰能力较强, 并且具 有运动补偿特性: 直方图特征, 利用同一镜头内帧图像中颜色分布相似的特性来 进行镜头检测, 对于较小的运动具有较强的抗干扰能力, 但是对于快速运动以及 大物体运动通常会产生误检测; 边缘特征是利用不同镜头内的帧图像通常边缘轮 廓会相差比较大来进行镜头检测, 通常计算量比较大, 但是在镜头渐变检测中有 很好的表现。 其他用于镜头检测的特征还有基于信息学的 特征以及上述一些特征 的组合等等。 1 . 2 . 2存在的问题 近年来随着基于内容检索技术的发展,镜头检测技术也取得了很大的进展, 并且应用在很多优秀的基于内 容的检索系统中。 但是由于自 身的理论还不是很成 熟,因此还在不断的发展完善之中。其中主要存在的问题有以下几个方面: 1 .运动问题:摄像机运动、视频序列中的物体运动都能造成视频帧图像的 视觉内容剧烈变化,而镜头检测的基本原理是检测视频中帧与帧之间的 视觉差异。因此运动通常会造成镜头检测算法的误检测。 现有的方法采 用了运动补偿的特征以及运动检测来对视频序列中的物体运动进行运动 补偿,对于慢速运动取得了较好的效果,但是对于较剧烈的运动仍然没 有什么非常有效的办法。摄像机运动方面也有很多的研究, 但对于摄像 机较大的运动还是不能很好地检测到。 2 .光照问题: 光照的变化以及物体的反光、 闪烁都极易造成镜头的误检测。 通常采用的灰度,直方图特征对于全局的光照变化比 较敏感,因此很容 易造成误检测,于是有研究人员采用基于光照不变的特征,例如颜色比 值直方图。对全局的光照变化有很好的补偿作用,但是对于局部的光照 变化,尤其是镜头渐变过程中的局部光照变化仍然没有非常有效的处理 方法。 3 精度问 题: 镜头突变检测的精度通常都能达到 9 0 % 左右。 但是镜头 渐变 的检测精度却比较低。这是因为在视频编辑中视频编辑特效层出不穷, 而通常的镜头渐变检测方法都只适用于某一种情况下或者某一种特定的 镜头渐变类型。 4 .速度问题:由于视频数据的巨大数据量, 每秒钟大约3 0 帧, 一般的视频 长度为两小时左右,也就是2 1 6 0 0 帧,计算量非常巨大。因此对镜头检 测算法的速度要求非常高.通常的算法都是逐帧计算帧间相似度,速度 西北t业大学硕 卜 论文绪论 非常慢。 1 . 3 研究内容及安排 1 . 3 . 1研究内容 本论文主要研究内容是基于内容的视频镜头检测技术, 其目 的是为了建立视 频数据的结构化表示, 为后续的更高语意层次的处理做准备。 针对镜头检测研究 中存在的问题, 本论文首先对以往的镜头突变检测算法和镜头渐变检测算法进行 了回顾; 其次对镜头检测中采用的相似性度量特征进行了总结: 而后分析了镜头 检测中的运动问题和光照问 题; 针对上述的分析分别给出了一种基于统计模型的 镜头突变检测算法和一种基于e m曲 线拟合的镜头渐变检测算法。 在基于统计模型的镜头突变检测算法中, 提出了一种基于运动补偿的三次块 匹配策略, 并对视频序列中闪光灯造成的光照突然变化进行了处理, 最后给出了 一种加速算法。 在基于e m曲线拟合的镜头渐变检测算法中, 首先使用自 适应的闺值来选择 候选镜头渐变:其次使用k a l m a n 滤波进行精确的渐变边界搜索;然后使用e m 进行曲线拟合得到一系列的参数; 最后使用决策树根据e m曲线拟合得到的参数 来判断是否为镜头渐变。 在给出了镜头渐变检测的试验结果后. 对造成镜头渐变 误检测的原因进行了分析,指明了算法的改进方向。 1 . 3 . 2章节安排 本论文共分六章,各章的主要内容如下: 第一章绪论介绍镜头检测研究的研究背景以及镜头检测的理论和应用意义; 对镜头检测的研究现状进行了概述, 分析了镜头检测研究中存在的问题: 最后介 绍了 本文的研究内容并给出了各章节的内容安排。 第二章介绍了视频序列的结构化表示、 视频序列中镜头的基本概念; 对现有 的镜头突变和镜头渐变检测方法进行了总结, 分析了现有方法并指出了其中存在 的问题, 第三章介绍了镜头检测中的主要问 题。 其中包括相似性度量、 运动检测、 闪 光灯避免处理。 相似性度量中介绍了常用的相似性度量特征; 运动检测中介绍了 视频中运动的处理;闪光灯避免中介绍了如何避免闪光灯对检测的影响。 第四章针对前三章的分析, 提出了基于统计模型的镜头突变检测方法, 并给 出了加速算法。 在基于统计模型的镜头突变检测方法中使用了具有运动补偿的三 西北t业大学硕 卜 论文绪论 非常慢。 1 . 3 研究内容及安排 1 . 3 . 1研究内容 本论文主要研究内容是基于内容的视频镜头检测技术, 其目 的是为了建立视 频数据的结构化表示, 为后续的更高语意层次的处理做准备。 针对镜头检测研究 中存在的问题, 本论文首先对以往的镜头突变检测算法和镜头渐变检测算法进行 了回顾; 其次对镜头检测中采用的相似性度量特征进行了总结: 而后分析了镜头 检测中的运动问题和光照问 题; 针对上述的分析分别给出了一种基于统计模型的 镜头突变检测算法和一种基于e m曲 线拟合的镜头渐变检测算法。 在基于统计模型的镜头突变检测算法中, 提出了一种基于运动补偿的三次块 匹配策略, 并对视频序列中闪光灯造成的光照突然变化进行了处理, 最后给出了 一种加速算法。 在基于e m曲线拟合的镜头渐变检测算法中, 首先使用自 适应的闺值来选择 候选镜头渐变:其次使用k a l m a n 滤波进行精确的渐变边界搜索;然后使用e m 进行曲线拟合得到一系列的参数; 最后使用决策树根据e m曲线拟合得到的参数 来判断是否为镜头渐变。 在给出了镜头渐变检测的试验结果后. 对造成镜头渐变 误检测的原因进行了分析,指明了算法的改进方向。 1 . 3 . 2章节安排 本论文共分六章,各章的主要内容如下: 第一章绪论介绍镜头检测研究的研究背景以及镜头检测的理论和应用意义; 对镜头检测的研究现状进行了概述, 分析了镜头检测研究中存在的问题: 最后介 绍了 本文的研究内容并给出了各章节的内容安排。 第二章介绍了视频序列的结构化表示、 视频序列中镜头的基本概念; 对现有 的镜头突变和镜头渐变检测方法进行了总结, 分析了现有方法并指出了其中存在 的问题, 第三章介绍了镜头检测中的主要问 题。 其中包括相似性度量、 运动检测、 闪 光灯避免处理。 相似性度量中介绍了常用的相似性度量特征; 运动检测中介绍了 视频中运动的处理;闪光灯避免中介绍了如何避免闪光灯对检测的影响。 第四章针对前三章的分析, 提出了基于统计模型的镜头突变检测方法, 并给 出了加速算法。 在基于统计模型的镜头突变检测方法中使用了具有运动补偿的三 西北t业大学硕 卜 论文绪论 非常慢。 1 . 3 研究内容及安排 1 . 3 . 1研究内容 本论文主要研究内容是基于内容的视频镜头检测技术, 其目 的是为了建立视 频数据的结构化表示, 为后续的更高语意层次的处理做准备。 针对镜头检测研究 中存在的问题, 本论文首先对以往的镜头突变检测算法和镜头渐变检测算法进行 了回顾; 其次对镜头检测中采用的相似性度量特征进行了总结: 而后分析了镜头 检测中的运动问题和光照问 题; 针对上述的分析分别给出了一种基于统计模型的 镜头突变检测算法和一种基于e m曲 线拟合的镜头渐变检测算法。 在基于统计模型的镜头突变检测算法中, 提出了一种基于运动补偿的三次块 匹配策略, 并对视频序列中闪光灯造成的光照突然变化进行了处理, 最后给出了 一种加速算法。 在基于e m曲线拟合的镜头渐变检测算法中, 首先使用自 适应的闺值来选择 候选镜头渐变:其次使用k a l m a n 滤波进行精确的渐变边界搜索;然后使用e m 进行曲线拟合得到一系列的参数; 最后使用决策树根据e m曲线拟合得到的参数 来判断是否为镜头渐变。 在给出了镜头渐变检测的试验结果后. 对造成镜头渐变 误检测的原因进行了分析,指明了算法的改进方向。 1 . 3 . 2章节安排 本论文共分六章,各章的主要内容如下: 第一章绪论介绍镜头检测研究的研究背景以及镜头检测的理论和应用意义; 对镜头检测的研究现状进行了概述, 分析了镜头检测研究中存在的问题: 最后介 绍了 本文的研究内容并给出了各章节的内容安排。 第二章介绍了视频序列的结构化表示、 视频序列中镜头的基本概念; 对现有 的镜头突变和镜头渐变检测方法进行了总结, 分析了现有方法并指出了其中存在 的问题, 第三章介绍了镜头检测中的主要问 题。 其中包括相似性度量、 运动检测、 闪 光灯避免处理。 相似性度量中介绍了常用的相似性度量特征; 运动检测中介绍了 视频中运动的处理;闪光灯避免中介绍了如何避免闪光灯对检测的影响。 第四章针对前三章的分析, 提出了基于统计模型的镜头突变检测方法, 并给 出了加速算法。 在基于统计模型的镜头突变检测方法中使用了具有运动补偿的三 西北t业大学顾 论义绪论 次块匹配算法: 使用统计模型的方法将视觉特征闽值的选择转化为使检测错误率 最小;对闪光灯造成的误检测进行了处理。 第五章提出了基于e m曲线拟合的镜头渐变检测方法, 该方法可以检测任意 类型的镜头渐变。 基于e m曲 线拟合的镜头渐变检测方法使用了 滑动窗口, 首先 使用自 适应的闭值选择候选镜头渐变;其次使用k a l m a n 滤波对候选镜头渐变进 行边界搜索; 然后对得到的候选镜头渐变曲线进行e m曲线拟合得到一系列的参 数;最后使用决策树根据参数进行分类从而检测镜头渐变。 第六章是结束语, 总结了本文所做的主要工作和成果, 并指出了其中的不足, 进而对今后的发展方向和前景做了展望。 西北t . 业大学硕 卜 论文 镜失检测概述 第二章 镜头检测概述 镜头是视频结构化表示中的最基本的单元。 镜头检测的目的就是恢复这些基 本单元, 以便对视频进行更高语义层次的处理。 镜头检测主要分为镜头突变检测 和镜头渐变检测。 本章首先介绍镜头的概念, 而后对现有的镜头突变检测方法和 镜头渐变检测方法分别进行了总结,并分析了镜头检测中急需解决的问题。 2 . 1视频序列中镜头的概念 在海量视频数据中进行检索和浏览的一个关键问题就是对原始视频数据建 立有效的索引。以前的索引研究主要是基于文本的,对文本进行结构化的分析. 将文本分为段落、 句子和单词, 而后建立索引。 基于视频数据的索引和基于文本 的 数 据索引 相类似, 首先将原始 视频数据分 割成 场景 ( s c e n e s ) 和镜头 ( s h o t ) , 而后 我 们从中 抽取关键帧或者 关键序列作为 场景( s c e n e ) 和故 事 ( s t o r y ) 的 索引。 在视频数据中,一个镜头( s h o t ) 是有许多连续的帧图像( f r a m e ) 组成的,这些 帧图像是在一部摄像机的连续操作过程中拍摄的。 在一个镜头中, 摄像机可以 做 任何 连续的运动, 例如摄像机的平移 ( p a n n i n g ) , 缩放( z o o m i n g ) , 倾斜 ( t i lt i n g ) 以 及 跟拍( t r a c k in g ) , 但 是这些 动作都是 连续的, 不 存在摄像 机信号的中 断。 多 个描 述同一故事的镜头组成了 场景( s c e n e ) 。 场景最终组成了 视频序列。 图2 - 1 为视频 结构化示意图。 _ _ _ _ _ 匕 _ _ _._ v id e o s e q u e n c ef - - -_, _ _ _ - 一一目 一匕- - 一 _ . l _ _ _ _ s c e n e _ _ _ 公 一_ . ! _._scene _ _ 一!二 一 sh o ti 匕 户 h o t 二s h o t f 1i f f !- . - frame shot一 mdaries 图2 - 1视频结构化示意图 同一镜头内的帧图像的内容没有很大的变化,即视觉上不会有巨大的变化, 可以用于表示时间空间上的连续事件。 由于镜头的这一特性, 在视频的编辑制作 和检索过程中镜头通常被作为最基本的结构单元。 因此镜头的自 动分割是视频结 构化的基础, 也是视频分析和检索过程中的首要任务。 近年来, 镜头的自 动分割 西北t . 业大学硕 卜 论文 镜失检测概述 第二章 镜头检测概述 镜头是视频结构化表示中的最基本的单元。 镜头检测的目的就是恢复这些基 本单元, 以便对视频进行更高语义层次的处理。 镜头检测主要分为镜头突变检测 和镜头渐变检测。 本章首先介绍镜头的概念, 而后对现有的镜头突变检测方法和 镜头渐变检测方法分别进行了总结,并分析了镜头检测中急需解决的问题。 2 . 1视频序列中镜头的概念 在海量视频数据中进行检索和浏览的一个关键问题就是对原始视频数据建 立有效的索引。以前的索引研究主要是基于文本的,对文本进行结构化的分析. 将文本分为段落、 句子和单词, 而后建立索引。 基于视频数据的索引和基于文本 的 数 据索引 相类似, 首先将原始 视频数据分 割成 场景 ( s c e n e s ) 和镜头 ( s h o t ) , 而后 我 们从中 抽取关键帧或者 关键序列作为 场景( s c e n e ) 和故 事 ( s t o r y ) 的 索引。 在视频数据中,一个镜头( s h o t ) 是有许多连续的帧图像( f r a m e ) 组成的,这些 帧图像是在一部摄像机的连续操作过程中拍摄的。 在一个镜头中, 摄像机可以 做 任何 连续的运动, 例如摄像机的平移 ( p a n n i n g ) , 缩放( z o o m i n g ) , 倾斜 ( t i lt i n g ) 以 及 跟拍( t r a c k in g ) , 但 是这些 动作都是 连续的, 不 存在摄像 机信号的中 断。 多 个描 述同一故事的镜头组成了 场景( s c e n e ) 。 场景最终组成了 视频序列。 图2 - 1 为视频 结构化示意图。 _ _ _ _ _ 匕 _ _ _._ v id e o s e q u e n c ef - - -_, _ _ _ - 一一目 一匕- - 一 _ . l _ _ _ _ s c e n e _ _ _ 公 一_ . ! _._scene _ _ 一!二 一 sh o ti 匕 户 h o t 二s h o t f 1i f f !- . - frame shot一 mdaries 图2 - 1视频结构化示意图 同一镜头内的帧图像的内容没有很大的变化,即视觉上不会有巨大的变化, 可以用于表示时间空间上的连续事件。 由于镜头的这一特性, 在视频的编辑制作 和检索过程中镜头通常被作为最基本的结构单元。 因此镜头的自 动分割是视频结 构化的基础, 也是视频分析和检索过程中的首要任务。 近年来, 镜头的自 动分割 两北工业人学硕 f 论文镜失检测概述 己 经应用在很多实际的应用当中,并得到了 广泛重视 从图2 - 1 很容易 看出, 镜头与 镜头之间 存在着镜头边界( s h o t b o u n d a r y ) 。 镜 头边界的作用是使视频序列中镜头和镜头间的连接和过渡更加自然、 紧密、 美观。 现有的视频中都采用了许多不同类型的镜头编辑方法, 通过对镜头的编辑, 使镜 头和镜头之间的转换更加自 然完美。 镜头转换可分为突变和渐变两大类。 渐变又 可细分成淡入淡出 ( f a d e ) ,融合( d i s s o l v e )滑入( w i p e ) 、翻转( fl i p ) ,旋转( s p i n ) 等 等。 2 . 2镜头突变检测 两个镜头间的突变是将两个镜头直接连接在一起得到的, 中间没有使用任何 视频编辑特效。 两个不同镜头中的帧图像是存在视觉差异的, 于是镜头突变就对 应为前一镜头的最后一帧图像与相邻镜头的第一帧图像之间视觉内容的突然变 化。 对镜头突变的检测目 前都采用类似图像分割中基于边界的方法, 即利用镜头 间的不连续性, 也就是使用一种特征量来表征视频中帧图像的视觉内容, 用这一 特征量的变化来衡量视觉内容的变化, 从而将视
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 储能项目后期评估与升级方案
- 十五五规划纲要:体育康复技术的研发与服务优化
- 2026年虚拟现实教育软件公司广告宣传合规管理制度
- 2026年能源加工公司特种设备安全管理制度
- 水上沉桩施工方案
- 数智赋能万亿产业:“十五五”重点行业转型实践
- 2025湖南高速建设工程限公司招聘25人易考易错模拟试题(共500题)试卷后附参考答案
- 2025湖北武汉车都集团下属子公司员工招聘12人易考易错模拟试题(共500题)试卷后附参考答案
- 2025浙江平阳县公用事业投资限公司招聘22名劳务派遣人员易考易错模拟试题(共500题)试卷后附参考答案
- 医院保洁试题及答案题库
- 集装箱式预制舱施工方案
- 2025河北廊坊市安次区第三幼儿园合同制教师招聘1人笔试考试参考试题及答案解析
- 现场交叉作业安全管理课件
- 2024年石家庄市长安区招聘社区工作者真题
- 2024年丰都县辅警协警招聘考试真题含答案详解(研优卷)
- 健康管理实务习题库+参考答案
- 浙江省宁波六校联考2025-2026学年高一上学期11月期中考试英语试卷
- 个人贷款转贷协议书
- 强电工程施工组织设计方案
- 传播学概论课件
- 2024年郑州财税金融职业学院单招职业适应性测试题库及答案详解1套真题题库
评论
0/150
提交评论