(计算机应用技术专业论文)面向情景式数字旅游的视频全景技术与运动消除算法研究与实现.pdf_第1页
(计算机应用技术专业论文)面向情景式数字旅游的视频全景技术与运动消除算法研究与实现.pdf_第2页
(计算机应用技术专业论文)面向情景式数字旅游的视频全景技术与运动消除算法研究与实现.pdf_第3页
(计算机应用技术专业论文)面向情景式数字旅游的视频全景技术与运动消除算法研究与实现.pdf_第4页
(计算机应用技术专业论文)面向情景式数字旅游的视频全景技术与运动消除算法研究与实现.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机应用技术专业论文)面向情景式数字旅游的视频全景技术与运动消除算法研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文摘要 摘要 视频全景技术和运动物体消除算法在情景式数字旅游中是非常关键的部分, 而且在数字娱乐等很多领域都有着重要的应用。 本文主要讨论了一种全景视频获取方案,包括从硬件的准备到后期的软件处 理和视频播放,并将该全景视频技术运用到情景式旅游项目中,制作了一个情景 式旅游编辑平台和展现平台。 为了解决摄像机运动条件下的运动物体消除问题,论文提出了交互式的时空 分离方法,该方法结合特征点选取技术,k l t 光流算法,根据相邻视频帧的运动 信息实现当前帧的运动物体消除。在运动消除的后期采用t e l e a 图像修复算法, 加强了运动消除的效果,使恢复的背景图像显得更加自然,弥补了由于相邻视频 帧运动信息不充分带来的部分运动物体内容无法去除的缺点。同时,论文也将介 绍一个实现了的运动消除系统,通过该系统我们可以看到该运动消除算法的运行 效果。 关键词:全景视频,运动分离,特征点,光流,k l t 算法,图像修复, t e l e a 算法 浙江大学硕士学位论文 a b s t r ac t t e c h n o l o g yo fp a n o r a m av i d e oa n dm o t i o nr e m o v i n gi ni m a g es e q u e n c ea r ev e r y i m p o r t a n tf o rs c e n a r i ob a s e dd i g i t a lt o u r i n gp r o j e c t , a l s ot h e yh a v ea p p l i c a t i o n si n d i 百t a le n t e r t a i n m e n t i nt h i sp a p e rw ep r o p o s eas o l u t i o no fh o wt og e tp a n o r a m av i d e o ,i n c l u d i n g h a r d w a r ep r e p a r a t i o n ,v i d e oe d i t i n ga n dv i d e op l a y i n g w ea p p l yt h i st e c h n o l o g yt o0 1 1 1 t o u r i n gp r o j e c ti nw h i c hw eb u l i dap a n o r a m av i d e o g i se d i t i n gs y s t e ma n da p a n o r a m av i d e o - g i sb r o w s i n gs y s t e m w e p r o p o s eai n t e r a c t i v es p a t i o t e m p o r a lm e t h o di no d e rt or e m o v em o t i o n si n v i d e o ( i m a g es e q u e n c e s ) w h i c hb a c k g r o u n di sn o ts t a t i c t h i sm e t h o du s e sf e a t u r e s e l e c t i n gt e c h n o l o g y , k l to p t i c a la g o f i t h m ,i n f o r m a t i o no fm o t i o n si no t h e rf r a m e st o b u l i dt h eb a c k g r o u n di m a g eo fc u r r e n tf r a m e a f t e rm 巩w eu s et e l e a s i m a g e i n p a i n t i n gt e c h n o l o g yt oi n p a i n to u ri m a g ee s p e t i a l l yw h e nt h e i n f o r m a t i o n si no t h e r f r a m e sa r ei n a d e q u a t et or e m o v em o t i o n si nc u r r e n tf r a m e w ew i l lp r e s e n tam o t i o n r e m o v i n gs y s t e mt os h o wp e r f o r m a n c eo fo u rm e t h o d k e y w o r d s :p a n o r a m av i d e o ,m o t i o ns e g m e n t a t i o n , f e a t u r ep o i n t ,o p t i c a lf l o w , k l t a l g o r i t h m ,i m a g ei n p a i n t i n g ,t e l e aa l g o r i t h m 浙江大学硕士学位论文图目录 图目录 图1 1 光流法4 图1 2 由i m m e r s i v em e d i a 公司提供的带有1 1 个不同角度镜头的相机8 图1 3 柱面模型9 图2 1 运动消除算法流程1 3 图2 1 2 具有代表性的特征点( 特征值最大) 14 图2 3 相邻两帧图片的k l t 光流效果图2 7 图2 4 前后修复图像对比2 9 图2 5 图像修复原理3 0 图2 6 图像修复算法的流程图3 1 图2 7 用于图像修复的快进算法流程图( f m m ) 3 3 图2 8 修复单个像素点的流程图3 5 图3 1 全景视频采集设备制作原理图3 7 图3 2 全景视频采集设备的使用方案- 3 8 图3 3 球面模型原始视频展开图4 0 图3 4 不同视角观察到的全景视频画面4 1 图3 5 球面模型构造4 2 图3 6 三角形行列生成示意图4 3 图3 7 全景视频中插入超链接,文本标签4 6 图3 8 直角坐标与球面坐标的转换4 7 图4 1 载入视频,标注运动信息5 0 图4 2 运动消除系统参数设置5 1 图4 3 运动消除效果5 2 图4 4 旅游平台编辑流程图5 4 图4 5g i s 与全景视频关联操作界面5 4 图4 6 全景视频中添加热点操作界面5 5 图4 7 旅游平台展示系统流程图5 6 i i i 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得逝望盘堂或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文作者签名: 王叶铜 签字日期: 凹。r 年月彳日 学位论文版权使用授权书 本学位论文作者完全了解逝姿盘堂有权保留并向国家有关部门或机构 送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝姿盘鲎可 以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 五喇 导师签名: 签字日期:沙苫年石月c 1 日 签字日期:2 0 0 8 年6 月c 日 浙江大学硕士学位论文 第1 章绪论 第l 章绪论 1 1 课题背景 本文的研究背景来自于情景式数字旅游项目。 随着人们生活水平的提高,对精神文化生活的形式、内容与手段有了更多更 高的期望,对数字化、网络化技术条件下涌现的形式多样、内容丰富、手段灵活、 实时互动的数字内容服务需求强烈。 当前,数字旅游常见的几种方式是:平面地图、卫星影像、航空影像、景点 照片,其中以m a p s g o o g l e t o m 和微软的v i r t u a le a r t h 为典型代表。这类数字旅游 方式虽然可以增加文字、声音加以丰富,但其表现形式单调刻板,缺乏真实感和 互动性,给予人的主要是城市中的空间位置关系。近年来,2 5 d 地图、3 d 地形、 虚拟漫游等方式逐渐应用于数字旅游。这些方式提高了数字城市( 景区) 的生动 性,更加容易被旅游者接受,但其制作过程成本高昂,需要人工为各种地物建模 ( 极其费时) ,而且其模型仅仅是对自然地形的仿真,缺乏真实感。 一种新的旅游技术是利用宽带互联网、有线电视网和无线3 g 等平台,融合 多媒体、通信等多种业务于一体,在g i s 空间数据上加载图像、视频、音频以及 动漫等数字内容,既结合g i s 系统所具有的位置和空间关系精确的优点,又利用 视频信息生动、真实的优点,改变传统数字化城市旅游只注重景观地理属性精度 表示,而较少关注这些空间属性所具有丰富人文、历史和自然等内涵属性表现的 局限性,同时采用视频全景技术,实现整个数字城市( 或某一景区) 内的任意旅 游线路点上的3 6 0 。的全景,结合超媒体、超视频等交互技术,以跨媒体的方式 组织、利用和展示景观视频、地理信息、背景音乐、景点照片、介绍文字等数字 旅游材料,支持诸如导航、观光、城市形象展现等直观、生动和交互式数字内容 服务,使得用户可以足不出户欣赏城市景区自然环境,体会其文化内涵,拓展传 统旅游手段。我们称这一类技术为情景式数字城市旅游系统。 情景式数字旅游的发展方向主要有两块内容。一是跨媒体数据的采集和播 浙江大学硕士学位论文第l 章绪论 放,另一个是跨媒体视频建模。跨媒体数据的采集和播放主要包括:( 1 ) 通过视频全 景采集设备实现3 6 0 。环形视野获取。使用该设备,数据采集人员能够通过类似 于普通摄像的方法获取旅游线路上城市( 景区) 的景观视频。( 2 ) 数字城市( 景区) 跨媒体数据结构模型建立。该跨媒体模型无缝集成包括城市的情景式景观视频、 二维g i s 矢量数据、地表影像数据、文字、图像和音频,其中以景观视频为主要 内容,以g i s 矢量数据为空间索引;跨媒体视频建模主要包括:( 1 ) 借助摄像头运 动参数的估计自动获取( 全景) 视频中关键桢的几何信息,重建并渲染三维几何模 型。( 2 ) 情景式交互系统的建立。通过个性化的三维仿真及人机交互技术搭建电子 商务等虚拟环境,实现对现实世界虚拟漫游展示的效果。相对于跨媒体数据的采 集和播放,视频建模需要解决更多的技术难点,其中一个技术难点是怎样在视频 中去除运动物体( 比如某旅游景点中的游人,车辆) 从而方便后续三维建模的进 行。这是本文讨论的主要问题。同时作者也针对跨媒体数据的采集和播放提出了 一种全景视频的获取方案,在该方案中不仅可以方便地采集和播放全景视频,而 且可以对全景视频进行编辑,比如添加热点信息,文字标注,交叉关联g i s 地图 信息等。 1 2 运动消除技术的发展 在视频序列图像中,我们可以通过运动消除技术将运动的物体前景和静止的 背景分离开来。得到准确的运动物体分离结果具有重要的意义:在计算机视觉中, 运动体分离是对象识别的首要步骤;在图像压缩编码中,可以通过视频分离提高 压缩的效率。新的m p e g 4 视频编码标准提供了基于内容的编码功能,使得新的 视频编码不再是传统意义下的对整幅图像的编码,而是针对每一个对象进行编 码。这就需要在编码之前将视频序列中的每一帧预分解成视频对象平面( v i d e o o b j e c tp l a n e s ,v o p ) 的形式,每一个v o p 表示一个运动对象。由于视频图像分 离的复杂性,运动对象的提取成为新的基于内容的视频编码中一个必须解决的关 2 浙江大学硕士学位论文 第l 章绪论 键难点,而且运动对象的提取也是计算机运动视觉检测与跟踪中一个重要的子课 题。 随着视频运动消除( 分离) 技术的发展,出现了许多新的算法。但是由于视 频运动消除算法的复杂性,对于这些方法目前尚没有一个统一的分类准则。根据 这些算法的主要特点,通常有以下两种分类方法:1 ) 基于运动信息的分类方法 主要根据算法中利用到的视频序列运动信息的不同对运动消除算法进行分类;2 ) 根据算法中用到的时空信息的不同分类。我们可以利用的信息有视频图像的时域 信息,视频图像的空间信息,运动模型的参数估计信息。一般该分类方法强调利 用空间信息来修正和增强时域分离结果。 基于运动信息的分类方法将视频运动消除算法大致分为两类。 一类以空间同性为准则。这类算法的大致步骤是:先用形态学滤波器或其他 滤波器对图像作预处理;然后对该图像的亮度、色度或其他信息作空间上的分离 并对区域作边缘检测;之后作运动估计,并合并相似的运动区域以得到最终的分 离结果。通常用光流法作运动估计,分水岭算法用于区域边缘检测,可以使分离 结果更精确。但是这类算法的计算复杂度高,一般不适用于实时系统中。基于光 流法的分离主要是基于光流场的运动参数估计,求出符合运动模型的像素区域, 进而合并区域构成运动对象进行视频分离。光流法( 图1 1 ) 是用于估计运动参 数的一个普遍的方法,但是由于存在孔径问题和遮挡问题【l 】,用光流法估计的二 维运动场往往是不确定的。对于光流场估计方法,比较典型的方法有:h o r n 和 s c h l u l c k 【2 】使用光流在整个图像上光滑变化的假设来求解光流;l u c a s 和k a i l a d e 【3 】 假设在一个小的空间邻域上运动矢量保持恒定,然后使用加权最d x - 乘法估计光 流;n a g e l 4 】使用二阶导数来估计光流。由于光流场的估计方法都是建立在运动物 体表面上所以这些方法都假设在视频帧每一点亮度至少在一个较小的时间范围 内保持不变。 浙江大学硕士学位论文 第1 章绪论 图1 1光流法 另一类算法主要以变化检测作为其分离准则。这类算法主要通过计算帧差来 检测图像上的变化区域和不变区域,将运动物体与静l 卜背景进行分离。为降低噪 声的干扰,通常利用相邻两帧检测变化区域。然而,传统的基于变化检测的方法 有一定局限性。首先,由于帧问的变化值依赖于目标运动的速度,所以当目标的 速度变化较大时分离质量不能保持一致;其次,未被发现的背景区域,经常会由 于帧差信息而被误判为是运动目标。对于背景静止或者场景只有简单全局运动的 视频图像,可以使用差分或运动补偿的变化检测算法,其算法避免了逐点计算光 流估计中的光流场,通过区分时域上相邻两帧图像的变化和未变化区域,再将场 景中的像素通过判决归属为不同的区域就可以分离出运动对象。m e c h 和 w b l l b o m 【5 利用估计出的变化检测模板( c h a n g ed e t e c t i o n m a s k ,c d m ) 来生成视 频对象平面( v i d e oo b j e c tp l a n ,v o p ) 乞他们利用相邻两帧之间的差值以及一个 全局门限值构造c d m ,然后利用松弛迭代算法对所得到的c d m 进行修正,再利用 形态学c l o s e 算子去掉那些小区域从而获得最终的c d m 。通过去除露出来的背 景,根据灰度值自适应地调整边缘位置,就可以从这个c d m 中牛成对象模板。 该算法减少了不少计算量,但是要求运动物体要包含有足够十富的纹理细节,而 4 塑垩奎堂堡主兰垡笙壅 墨! 兰堕笙 且物体必须一直处于运动之中,不能停止运动一段时间。d u f a u x 等人【6 】也使用了 相似的算法,但是其算法消除了静态背景的假设,允许摄像机移动镜头和变焦。 j a i n 和n e g e l 7 1 通过分析累积差分图像( a c c u m u l a t i v e d i f f e r e n c ep i c t u r e , a d p ) 从 静止摄像机的场景中提取刚体运动体,它主要利用从图像序列中恢复静态场景分 量或整幅图像背景,另一方面运动对象的检测可以通过比较当前帧与恢复的背景 图像完成。但是在一般场景中由于照明和摄像机位置的改变,以及摄像机电子噪 声都会产生很多错误数据,a d p 算法很难使用,所以它只能用于特定的场景中。 j a y a r a m a m u r t h y 和j a i n f 8 】通过结合像素运动速度和差分图像来分离包含纹理对象 的动态场景,通过差分图像来获得运动区域,并使用霍夫变化来估计运动区域的 运动参数。t h o m a 和b i e r l i n g l 9 】将变化检测和光流结合在一起,并且利用中值滤 波来消除变化模板中的小元素以完成对象分离。a a c h 等人【1 0 1 提出了使用m a p 和松弛算法来完成变化检测,其算法通过使用m a p 来修正和更新变化模板,消除 小的分离的区域。 根据算法中用到的时空信息的不同可以将视频运动物体消除算法分为时域 分离,空间分离,时空联合分离三种方法。在大多数应用中,人们要求分离出来 的对象在语义上是有意义的。但是单纯使用空间分离技术,即利用亮度、色度或 者纹理等方面的空间域特性对视频图像中具有某种相似性的区域聚集,这些区域 可能只是物体的一部分,单独的一部分往往是没有什么语义的,往往不符合语义 上的对象。对于视频序列,还可以利用对象的运动信息,在一个自然场景中,对 象的运动基本上是平稳的;相邻帧之间的对象具有某种相似性,同一对象各个部 分的运动基本相同。因此,如果相邻帧运动相同,就认为它们属于同一对象,从 而分离出运动对象。这样的分离主要就是利用了空间和时域上的特性同时进行分 离的方法。 时域分离是利用前、后帧的信息进行分离。因为背景通常具有与前景不同的 运动,通过变化检测。即可得到运动对象的大致区域。然而,由于运动信息的复 杂性,时间分离往往只能得到大致准确的对象边界。 空间分离则可以得到准确的对象边界,但很难自动得到语义对象区域。分水 5 浙江大学硕士学位论文第1 章绪论 岭算法是一种常见的空间分离技巧。但它有一个内在的缺陷:对梯度噪声非常敏 感,通常导致过分离。为了减少过分离,需要采取后处理来合并小的区域,往往 需要大的计算开销。d w a n g 提出了修正的分水岭算法【1 1 】,它用多尺度形态学梯 度代替单尺度形态学梯度。多尺度梯度算子由于采用了平均运算,具有更强的抑 制噪声能力,故可以大大减少过分离。 时空分离的融合是当前的研究热点之一。常见的方法是对多个特征采用马尔 可夫模型建模,然后进行优化求解,其缺点是需要的计算量大【1 2 】【1 3 】。因为通过 时间分离得到了视频对象的大致区域,而空间分离已得到了视频对象的一致区域 的准确边界,所以只需要融合时间分离和空间分离的结果即可。d e m 础1 0 n 【1 4 】通 过事先计算每个像素点的光流,时空方向和位置分别通过两个运动角度和两个运 动距离来表示。采用时空联合分离方法既利用了帧问时域上的强相关性信息,又 利用了帧内空间上的特征,能够取得较好的分离效果。 1 3 全景视频技术的发展 视频信息的采集与传输是信息技术发展的一个重要方向,视频会议等以视频 为主的信息传播已经开始为人们提供服务。但是,目前由于单一摄像头视野范围 有限,不能让不同的访问者同时观看不同角度的自己感兴趣的场景,即无法满足 个性化要求。另一方面,在过去的十年中,基于图像的绘制( i m a g e b a s e d r e n d e r i n g ,i b r ) 已经发展成为一种绘制典范。基于图像绘制的全景图( p a n o r a m i c i m a g e s ) 就是把这些离散的图像信息采用图像绘制的方法在一幅图像上完整地表 现出来。全景图的出现,克服了观众被动的观察固定视角的限制,但是全景图像 表达的是一种静态的场景,承载的信息量有限。与此同时,流媒体技术的发展和 基于硬件的图形加速方法给我们提供了一种新的途径:构建全景视频( p a n o r a m i c v i d e o ) 系统。所谓全景视频空间( p a n o r a m i c v i d e o ) 是利用采集的离散图像或连 续的视频作为基础数据,经过处理后建立起的具有三维操纵能力的实景数据空 间。用户可以在这个空间中进行前进、后退、转弯、3 6 0 度环视等操作,就好像 进入了一个空间中一样。虽然这个空间是由实景为主实现的,我们也可以引入计 6 浙江大学硕士学位论文第l 章绪论 算机生成的虚景空间,或者对实景空间进行人为的拼接以达到虚拟的目的。 利用实景来建立虚拟环境,这个想法在7 0 年代就产生了。1 9 7 8 年,m 1 1 r 媒 体实验室开发了一个称为a s p e nm o v i em a p 的项目,首次利用了实景。通过开车 穿行a s p e n 这个小城的各个街道,同时隔几米拍摄若干张照片,将这些照片连接 起来,然后加入交互手段。描放时,用户可以通过触摸屏和游戏杆来控制自己旅 游的速度和去向,就好象自己开车在这个小城里游玩。对小城的一些有名建筑, 还能在那里停下来,存取有关建筑物的资料( 资料可以是图像、声音、文本、视 频等) 。同时,提供了一张航空图作为导航图,用来标志用户地点、提示关键场 所和给出全局信息。1 9 9 1 年,a p p l e 公司的人机接口实验组( a t g ) 建立了一 个基于实景的成像环境。在其中用户能与q u i c k t i m e 数字视频数据交互。这些数 据称为航行电影( n a v i g a b l em o v i e ) ,接口称为航行电影播放机( p l a y e r ) 。通过 它们用户能进入虚拟空间。a t g 以俄罗斯某一皇宫为原型,创建了一虚拟宫殿, 用户在虚拟宫殴里游玩就象真的一样。因为显示器每时剡只能显示一部分景象, 所以在这里还通过全景图像来指导用户交互,目是给用户提示上下文信息,让用 户具有对景象的总体感和先验知识。利用实景图像已为全景视频的发展打下了坚 实的基础。1 9 9 4 年六月,a p p l e 公司首次推出全景视频产品q u i e k t i m ev r ,第一 次使人们领略了具有照片质量的虚拟现实环境。它把环绕一周的若干张边缘稍有 重叠的照片图像,利用软件( s t i t c h e r ) 将它们粘接起来,组合成一张无缝平滑的 3 6 0 度全景图像。它通过h y p e r c a r d 程序来制作热点,使不同视点的全景图像链 接,其全景图像在压缩过程中被分成7 6 8 1 0 4 大小的块,存储为标准的q u i e k t i m e m o v 文件。初始化时只装入全景图像的一部分,移动时再调入相应的块。它能 模拟人在空间的行走,向四周观望等,还具有视听效果。由于q u i c k t i m ev r 的 写作工具只能运行在m a c i n t o s h 的p c s 上因此m i c r o s o f t 公司在1 9 9 5 年3 月开 发出了基于w i n d o w s 的全景视频s u r r o u n dv i d e o 。两者功能基本相同,但制作方 法不同。s u r r o u n dv i d e o 是利用硬件,直接通过全景照相机得到全景图像。q u i e k t i f i l e v r 和s u r r o t l n dv i d e o 给我们带来了新的思维、观察和交互手段,使得无需特 殊的设备,就能进入虚拟环境。 7 浙江大学硕上学位论文第l 章绪论 一般所说的全景视频技术主要是指全景视频采集设备和全景视频后期处理 软件。目前,视频装置有多种类型:民用的摄像机、带摄像功能的数码相机、监 控摄像机、特殊成像摄像机。民用摄像机、数码相机和监控摄像机的视频获取共 同特点是可视范围由镜头可视范围大小决定,因此除非使用球面镜头,否则不可 能在不移动机体的情况下获得全景的视频图像。而使用球面镜头又带来了图像变 形的效果,不能够获得准确的全景视频图像。特殊成像摄像机使用特殊的镜头和 成像装置以产生特殊的效果,如热红外成像、x 光成像等。可以通过在不同时间 点拍摄同一景点不同角度的方法来获取全景视频,但后期的处理会比较繁琐。比 较方便的做法是采用图像拼接的原理来制作全景视频采集设备( 图1 2 ) ,在设备 组装时要尽量使各摄像头之间的距离最近,以减少拼接中的盲区,并且各摄像头 采用串联的方式连接保证数据采集的同步。全景视频后期处理软件主要包括摄像 机标定,图像配准,再投影策略,图像平滑和防抖动处理等几大部分,是研究如 何将采集的全景视频展现给用户的一个过程。全景图的表示模式主要有球面全景 图、立方体全景图和柱面全景图3 种。一般柱面模型( 图1 3 ) 用得比较多,但 柱面模型用户只能观察到水平3 6 0 度环绕的景物,无法在垂直方向上进行交互, 而球面模型可以在各个方位观察视频中的景物,但稍柱面模型复杂。 图1 2 由i m m e r s i v em e d i a 公司提供的带有1 1 个不同角度镜头的相机 浙江大学硕上学位论文 第l 章绪论 图1 3 柱面模型 1 4 运动消除及全景技术的不足 图像和视频分离技术的研究已进行了好多年,国内外的专家学者也提出了很 多有意义的算法,但是由于视频图像本身内容复杂,加上受到噪声的影响,而且 视频图像各有特点,目前还不存在一种通用的、对各类视频都有效的解决方案。 视频运动物体消除技术还处于不成熟的发展阶段。各种算法各有利弊,一般来说 衡量一个算法的优劣主要考虑算法的运行结果好坏、计算复杂度以及算法的通用 性。对于变化检测,其算法实现简单,但是对场景要求较高;而贝叶斯分离,虽 能取得好的分离结果,但是时间复杂度高;对于一般场景,使用时空联合分离会 取得比较好的效果,但是时间复杂度也偏高;在一些情况下联合使用几种方法一 起完成运动分离,这样会得到较好的效果。为了有效地对视频序列中的运动对象 提出更好的分离算法,还要做进一步的研究。 山章节1 3 可知,全景视频的构想早在7 0 年代就已经被提出来了。目前尚没 有普遍流行的原因,一是因为全景视频采集复杂,在缺乏硬件支持的情况下,采 0 浙江大学硕士学位论文第1 章绪论 集一个景点的全景视频,需要在相同的光照条件下从不同角度拍摄同一场景,然 后在后期处理中采用图像拼接的技术使其在时间轴上一致,图像拼接主要工作是 消除边缘冗余信息,做到边缘匹配无缝平滑。如果有硬件的支持,制作全景视频 相对简单一些,但还是比较复杂的。全景视频需要满足用户可以在同一景点观看 到不同视角的场景,所以它比普通视频占用更多的空间资源。目前针对普通视频 的压缩算法已经不能胜任全景视频的需求,因此很少有应用可以将全景视频发布 到网上,供用户实时欣赏。由于全景视频的高空间相关度,可以提出针对全景视 频特点的压缩算法来解决这个问题。 1 5 本文的主要工作 运动消除和全景视频方案是情景式数字旅游项目亟需解决的两个问题。 本文针对运动消除算法的不足,提出了交互式的时空分离方法,解决摄像机 运动条件下的运动物体消除问题。该方法结合特征点选取技术,k l t 光流算法, 根据相邻视频帧的运动信息实现当前帧的运动消除。在运动消除的后期采用t e l e a 图像修复算法,加强了运动消除的效果,使恢复的背景图像显得更加自然,弥补 了由于相邻视频帧运动信息不足带来的部分运动物体内容无法去除的缺点。 同时,本文提出并实现了一种全景视频获取方案,包括从硬件的准备到后期 的软件处理和视频播放,并将该全景视频技术运用到了情景式旅游项目中,制作 了一个情景式旅游编辑平台和展现平台( 单机版) 。 1 6 本文的组织结构 本文第一章,我们简要地介绍了论文的研究背景、研究目的、主要内容和组 织结构。第二章介绍了情景式数字旅游项目中用到的交互式时空分离运动消除算 法,详细介绍了该算法的原理,算法各个步骤及优缺点。第三章介绍了一种全景 视频获取方法,包括全景视频采集设备和拼接处理技术,全景视频编辑和播放等 主要内容。第四章介绍了我们的运动消除算法在情景式数字旅游中的应用,通过 l o 浙江大学硕士学位论文第l 章绪论 一个系统平台展现了部分实验效果,同时介绍视频全景技术在情景式旅游项目中 的应用,包括一个单机版的情景式旅游编辑平台和一个单机版的展现平台,最后 一章是总结和展望,对论文提到的主要内容作了回顾,目前算法需要改进的地方, 以及对其应用前景作了展望。 浙江大学硕士学位论文第2 章运动消除算法研究与实现 2 1 算法概述 第2 章运动消除算法研究与实现 对于背景静止的视频,一般采用基于变化检测的方法,往往是将背景的构建 与背景的更新视为两个独立的阶段。首先利用统计方法构建出背景图像,然后随 着场景的动态变化,不断地对它作适当的更新。该方法在背景构建阶段一般需要 较长的图像序列才能达到比较满意的效果。 对于存在摄像机运动( 背景不是静止的) 的情况,原先的方法就失效了。但 背景静止的视频运动消除方法给了我们启发。我们采用计算相邻几帧图像间光流 的方法,得到视频帧间背景像素的对应关系,将所有的视频帧都统一到一致的背 景模型中,然后按照处理背景静止视频的方法进行运动消除的处理。对于处理完 毕的图像,可能并不能得到令人满意的效果,我们采用静态图像修复算法( i m a g e i n p a i n t i n g ) 后期处理图片,从而达到比较满意的结果。图2 1 给出了我们运动消 除算法的主要步骤,包括:运动框图标注,特征点选取,k l t 光流计算,光流奇异 值去除,光流插值,背景填充,静态图像修复这几步。s p o e r r i 和u l l m a n 1 5 j 意识 到,视频中运动计算和运动边界的检测是一个“先有鸡还是先有蛋的问题 ,所 以我们在传统的时空分离算法基础上加入了人机交互这一步骤( 运动框图标注) , 这样可以达到更好的运动消除效果。当视频序列很长,或者存在多个运动物体时, 可以采用一些传统的运动检测算法代替这个步骤,但效果明显没有手工标定好。 这里我们并不是对所有像素点都计算光流值,因为并不是每个点都可以被良好地 跟踪的( t r a c k i n g ) ,我们选择可以被k l t 光流算法最好追踪的点作为特征点,对 于其他的像素点采用线性插值算法提供其光流值。借助光流提供的运动信息,我 们对先前标注的运动框图中的前景进行背景填充,其效果视该运动物体在相邻视 频序列帧中的位移量而定,如果运动物体在整个视频序列中几乎保持静止,该算 法运行的效果将不会令人满意,于是我们采用静态图像修复技术对这一缺陷进行 浙江大学硕士学位论文第2 章运动消除算法研究与实现 补救。援f 采儿币我们主要讨论特,仕点选取技术,k l t 光流算法和图像修复技术。 视频帧序列国 l 竺竺塞望里p l 垄鎏童茎堡查坠p 区匦西 匡圃 2 2 特征点选取技术 图2 1 运动消除算法流程 角点( 特征点) 没有明确的数学定义,但一般普遍认为角点是二维图像亮度 变化剧烈的点或图像边缘曲线上曲率极大值的点。这些点保留了图像图形的重要 特征,作为图像跟踪匹配中的输入数据,它在确保信息含量的前提下有效地减少 了信息的数据量,提高了图像跟踪匹配计算的速度,使得实时处理成为可能。角 点( 特征点) 技术在三维场景重建、运动估计、目标跟踪、目标识别、图像配准 与匹配等计算机视觉领域起着非常重要的作用。但我们注意到,即使是一个有着 丰富纹理的区域作为特征点的选择有时候也是不适宜的。比如说,它可能是具有 高反射度的高光面的边界,或者从某种角度观察过去是两个不同深度的树枝交叉 的点。无论那种情况,这个特征点无法在现实世界中找到对应的点,使得它在追 踪算法中没有作用,甚至给追踪算法带来坏的影响。 对于相邻视频帧之间存在较小位移的情况,通过计算位移量,线性图像变形, 1 3 浙江大学硕士学位论文第2 章运动消除算法研究与实现 或者动态调整窗口大小的方法可以有效跟踪( t r a c k ) 图像窗口。尽管存在很多方 法可以用来做运动跟踪,但特征点位置的选择对这些算法都有很大影响。比如在 一个水平亮度相同的带状条上,我们只能检测到垂直方向的运动变化。为了解决 这个问题,研究者们提出了跟踪角点,或者空间变化频率高的窗口,二阶导数足 够高的区域等很多方法。然而,这些方法存在两个问题:首先,它们都是基于一 定的启发式想法,而这些想法对大多数视频是无效的,其次,它们大多是在纯平 移模型的假设下工作的,很难被扩展到仿射模型中。 可以说特征点的跟踪算法已经是一个得到良好解决的问题,但如何选择那些 可以反映现实世界上的“特殊点还是非常具有挑战性。我们的特征点选取算法 是基于特征点追踪算法来设计的,其目的是寻找那些被特征点追踪算法追踪效果 最好的像素点作为选取的特征点,从而提高图像配准的准确度( 图2 2 ) 。 2 2 1 仿射模型 图2 2 具有代表性的特征点( 特征值最大) 仿射模型( 线性扭曲和平移) 可以用来作为视频帧图像问角点( 特征点) 相 似度判断的标准。 随着摄像机的移动,图像的像素变化是一个非常复杂的过程。然而,抛去遮 】4 浙江大学硕士学位论文第2 章运动消除算法研究与实现 挡边界不说,这个变化可以用下面的图像运动公式来表达: i ( x ,y ,t + ,) = l ( x - 善( x , y ,t ,) ,少- r ( x ,y ,t ,) ) ( 公式2 1 ) 通过移动t 时刻的图像中每一个像素点,我们可以得到t 斗f 时刻的图像。像素 移动的大小万= ( 孝,7 7 ) 被叫做位移量( d i s p l a c e m e n t ) 。位移向量万是图像在x 点的 函数,在一个窗口中,通常每个像素点的位移向量都是不一样的。在仿射空间中, 位移函数经常被表示为: 万= d i + 孑( 公式2 2 ) 其中。= :二;i 是形变矩阵,孑是特征窗口中心的平移量,孑是特征窗口 中心点的坐标。中心点贾从第一幅图片帧移动到第二幅图像中的血+ 孑位置,其 中a = i + d ,1 代表2 * 2 的单位矩阵。 ,( 么孑+ 孑) = ,( 元) ( 公式2 3 ) 给定两幅图片帧i 和j ,以及一个在i 中的特征窗口,跟踪算法( t r a c k i n g ) 是指确定出现在形变矩阵d 中和平移向量d 中的6 个参数。算法的运行质量取决 于特征窗口的大小,特征窗口中的纹理情况,以及摄像机在两幅图片帧中的移动 大小。 对于公式2 3 ,因为图像噪声以及仿射模型的误差并不是一个精确的式子。 确定运动参数实质上是寻找合适的a 和孑,使得式子 g = 【,( 血+ 孑) 一,( i ) 】2 缈( i ) 威 ( 公式2 4 ) 最小。其中w 是选定的特征窗口,国 ) 是权重函数,简单地我们取缈( i ) = 1 ,或 者缈伍) 可以像高斯函数一样,将窗口的中心位置取比较高的权重。公式2 4 表示 两幅图像对应特征点像素块问的差异,我们称之为特征点的相似度。当相似度超 出某个阈值,说明特征点的选取有问题,应该舍弃。在运动图像中,纯粹的平移 模型作为衡量相似度的标准是不够的,但仿射模型比纯粹的平移模型复杂很多, 平移模型可以看做仿射模型的一个特例( 形变矩阵为零) 。 15 浙江大学硕士学位论文第2 章运动消除算法研究与实现 将公式2 4 中形变矩阵d 和平移向量d 取偏导数,并设为0 。根据泰格公式, 我们得到 ,( 舨+ 孑) = ,( i ) + g r ( 露) ( 公式2 5 ) 通过变换【1 6 1 可以得到下面的6 * 6 系统: 霓= 历 ( 公式2 6 ) 其中z r = 【丸d 声d 拶d y yd 毒d y 】集中了形变矩阵d 和平移向量d 的所有变 量,其他变量的定义见下面的公式: u = 拈肌叫列悟x g x g f ) , i j i 民 x 2 9 : x 2 9 x g j , x y g : x y g x g ) , w d i( 公式2 7 ) 丁= 矿u r 习w 威 c 公式2 8 , x 2 9 j g y x 2 9 ; x y g ,g y x y g ; 珊: x y g ,g , y 2 9 : y 2 9 ,g y x y g z g y x y g ; y 2 9 工g y y 2 9 ; 儿l 点x gg 麓,y g 基g 版y g 荨;1 i yx g j xy l z = 点钏 ( 公式2 9 ) ( 公式2 1 0 ) ( 公式2 1 1 ) 仿射模型一般用在检测当前帧的跟踪角点与第一帧图像对应角点( 特征点) 是否一致。在这种情况下,运动已经不能单纯地通过平移来描述了,结合仿射形 变d 和平移d 则可以得到较好的运动描述。可以用扩展了的牛顿法来求解上述方 程。我们一般将仿射模型作为一个特征监视工具,用来检测特征点的选取是否合 1 6 浙江大学硕士学位论文 第2 章运动消除算法研究与实现 理,比如选取的特征点是否存在遮挡,特征点是否对应了现实世界上的点。 2 2 2 平移模型 当图片帧间摄像机的位移量非常小的时候,平移模型可以给出比仿射模型更 为可靠的结果。但是仿射模型也是必须的,它可以用来比较不同图片帧的角点( 特 征点) 像素块之间的相似程度。 特征窗口大小的选取对于跟踪算法有一定的影响,选取较小的特征窗口可以 避免使得窗口跨越两个不连续的深度空间,从而得到比较满意的追踪( t r a c k ) 效 果。然而,当窗口足够小的时候,公式2 2 中形变矩阵d 变得非常难以估计。另 外,因为窗口里面的运动变化非常小,所以即使计算出来了结果也不是很可靠。 基于这些原因,纯平移模型在追踪特征点应用中更受青睐。另一方面,在特征点 跟踪( t r a c k ) 的过程中,由于运动发生在相邻两幅图片帧中,特征窗口的仿射形 变d 应该是非常小的,我们可以假设d 是零矩阵。事实上,在相邻图像帧中计算 d 不仅没有用,还会影响位移计算的准确性。我们可以简单得把位移函数写成: 6 :a 在纯平移模型下,公式2 6 可以简化为 z 宰孑:虿 其中吾是由厅后两项组成的向量。 ( 公式2 1 2 ) ( 公式2 1 3 ) 在这里我们提出对特征点质量的定义:一个良好的特征点是可以被跟踪算法 跟踪良好的点。如果公式2 3 能够可靠地解决运动跟踪问题,我们就可以一帧一 帧地跟踪窗口。一般来说,2 2 的对称矩阵z 必须强于一定的噪音强度并且被良 好构建( w e l lc o n d i t i o n e d ) 。对噪音强度的要求意味着z 的两个特征值都必须足够 大,而良好构建( w e l lc o n d i t i o n e d ) 是指这两个特征值在数量级上不能相差太多。 两个较小的特征值表示特征窗口中所有像素的亮度基本上一致。特征值一个大一 个小表示特征窗口里的纹理特征不一致。两个较大的特征值表示可以被稳定跟踪 1 7 浙江大学硕士学位论文第2 章运动消除算法研究与实现 的有特征的纹理。 在实际应用中,当较小的特征值足够大满足噪音条件时,矩阵z 通常是被良 好构建的( w e l le o n d i t i o n e d ) ,所以我们定义一个阈值兄,所有满足条件的特征点 必须满足:m i n ( 3 a ,如) a 。在情景式数字旅游中,我们通过用户指定阈值( 相对 于最大值的百分比) 的形式来作为选取特征点的标准。 2 3 基于光流的图像对准 2 3 1 光流介绍 光流理论适用于帧间图像之间的变化不大的情况。首先考虑一维的情况,传 统的光流理论认为在经过一段时间间隔出后,图像上某点平移了缸,那么两者 的比率 v f = a x a t 被称为该点的流平移速度,也称为光流速度。 我们将光流扩展到图像的二维空间中。 ( 公式2 1 4 ) 假设i 和j 是两幅2 维的灰度图。i ( i ) = i ( x ,y ) 和j ( i ) = d ( x ,y ) 分别表示这两 幅图像在坐标i = xy l 丁处的灰度值。通常我们将图像i 称作第一幅图像,将图像 j 称作第二幅图像。我们可以将i 和j 看作是两个离散的公式( 矩阵) ,图像左上 角像素的坐标是 oo 】r ,假设n ,和刀,是两幅图像的长和高,那么右下角像素的 坐标值是 ,z 鼻- 1 玎,- 1 ,。 考虑在图像i 中有一个像素点的坐标是豇= ”ju j , 】r 。特征跟踪的目的是找 到该像素点在图像j 中的位置哥= 历+ 孑= 陋j + d ,“,+ d ,】7 。向量孑= 【d 。d y 】, 是该像素点的速度,或者说是该像素点的光流。假设缈,和国、,是两个整数,我们 定义光流孑为是使得下面相似度公式值最小的向量: 浙江大学硕士学位论文第2 章运动消除算法研究与实现 u r + ,+ w , 8 c a ) = g ( d 工d y ) = ( ,( x ,y ) - j ( x + d ,y + d ,) ) 2 ( 公式2 1 5 ) j r 罩“,一一_ y = ”,一 观察上面的式子,相似度方程是以大小为( 2 q + 1 ) ( 2 0 9 y + 1 ) 的窗1 2 1 来度量 的。通常我们取缈,和国,为2 ,3 ,4 ,5 ,6 ,7 个像素单

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论