




免费预览已结束,剩余34页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
毕业设计(论文)面向AR的计算机视觉算法An AR- oriented Computer Vision Algorithm专 业:信息与计算科学 摘 要增强现实(Augmented Reality , AR)技术是一种新兴计算机视觉技术,通过实时计算虚拟场景信息并与真实场景信息进行叠加,呈现出超越现实场景的感官体验,达到现实与虚拟结合的效果。近年来,AR吸引了越来越多的关注,虽然已有众多研究得以发表和应用,但AR技术的研究和应用仍然是一项具有挑战性的工作,还有很多技术空间和潜在应用场景。在很多AR技术实现上,目标跟踪是一项重要的基础技术。跟踪过程主要背景的分割和识别。在真实视频场景中,由于因为影响画面变动的因素很多,背景分割是一件非常有挑战性的任务。背景分割,即从视频的每一帧中分离出背景和前景,往往是分析视频内容,理解视频中的语义的第一步。本文主要利用改进的MOG算法在移动设备上进行背景分割,并以此为基础开发了基于目标跟踪的AR应用。针对移动设备特有的摄像头抖动,低内存配置和算法实时性等要求,对所使用的背景分割算法做出了合理的调整,具有一定的创新性。本文设计的基于该算法的应用具有互动性和一定的娱乐性,是在手机上进行AR应用探索的一次有意义的尝试。关键词:目标跟踪;背景模型;背景减除;增强现实- I - An AR- oriented Computer Vision AlgorithmAbstractAugmented Reality (AR) technology is an emerging computer vision technology, which combine the virtual information and real world to present a sensory experience that transcends reality. In recent years, AR has attracted more and more attention. Numerous research has been published and applied to industry such as artificial intelligence, graphic simulation, virtual communication. But it is a challenging work in AR research and application all the time, it is still a huge number of technology gap and potential application in Augmented Reality. Target tracking is an important basic step in many AR technology. The tracing process is mainly achieved by two processes, namely background segmentation and recognition. In practice, some critical situations may appear and disturb this process. Background segmentation, usually the first step in understanding the semantics of video, is to separate the background and foreground regions from each frame of the video. This paper mainly uses an improved MOG algorithm to perform background segmentation on mobile devices, and then realizes an AR application based on target tracking. According to the characters of mobile device, including camera random jitter, low memory configuration and real-time requirement, we made an innovative and reasonable adjustment on background segmentation to get better performance on mobile device. Our AR application based on this algorithm is interactive and entertaining, and it is a meaningful attempt to carry out AR applications on mobile phones.Keywords: Target Tracking;Background Model;Background Subtraction;Augmented Reality- IV -目 录摘 要IAbstractII1 文献综述11.1 研究背景及意义11.2 国内外研究现状21.2.1 背景分割21.2.2 视频跟踪71.3 本文贡献91.4 本文组织结构102 背景模型112.1 基础模型112.2 统计模型112.3 簇模型132.4 神经网络模型152.5 估计模型163 基于openCV的MOG前景识别模型193.1 背景减除模型193.2 MOG1193.2.1 背景初始化203.2.2 前景探测213.2.3 背景保持223.2.4 阴影检测234 Android平台面向AR的应用算法实现254.1 功能介绍254.2 程序实现流程255 实验结果285.1 隐身术285.2 侦查295.3 现形29结 论31参 考 文 献32致 谢341 文献综述近些年随着智能手机的普及,智能手机的摄像头,屏幕分辨率,CPU等配置也越来越高,为AR技术火热兴起提供了可能。在许多AR应用中,对从摄像头获取的视频进行前景探测和背景前景的分割,往往是智能手机上实现AR应用的第一步。有效实时的背景探测,为处理视频并加入增强现实的成分成为可能。因此促使人们寻求更加实时又能保证分割效果的背景探测算法。1.1 研究背景及意义AR技术(Augmented Reality)又称增强现实技术,是虚拟现实技术的一种。虚拟现实技术又称VR技术,依据现实环境,使用计算机构建虚拟环境,部分取代或者全部取代现实环境,并利用一些传感技术,比如基于摄像头的运动追踪或者一些穿戴设备,实现人机交互,达到现实与虚拟结合的效果。虚拟现实技术起源于二十世纪80年代,最初应用在军事训练中,用于模拟飞行员在空中的体验,降低训练成本又保证飞行员的安全。目前分为(1)屏幕式,主要应用于游戏产业(2)沉浸式,主要用于模拟训练(3)增强式,主要是手机,电脑等同时使用摄像头和显示屏的应用,旅游业等。iPhone问世以来,智能手机的功能被重新界定,高分辨率的摄像头,清晰的彩色屏幕,强大的处理器,以及GPS,无线网络,加速度传感器,气压传感器的配备使得在智能手机上实现VR技术成为可能。可以时候,智能手机的快速发展带动了AR技术的发展1。由于是一种新兴技术,目前人们探索的核心技术包括平面图像的识别,物体的三维建模,在计算机中渲染或者模拟变形,视频跟踪和定位等。在AR技术的探索和应用都还有很多空白。作为一种以手机为介质的人机交互技术。用户体验也是AR应用必须要考虑的方面。友好的用户界面和较短的处理时间,以及互动性的乐趣,都是面向AR的计算机视觉应用需要考虑的方面。本文提出的面向AR的计算机视觉算法应用,主要基于背景消减算法,是在手机上进行AR应用探索的一种尝试。具有互动性和一定的娱乐性。1.2 国内外研究现状1.2.1 背景分割在背景分割中,从画面的每一帧中,分割出背景和前景(目标物体),往往是分析视频内容,理解视频中的语义的第一步,在许多计算机视觉算法中,都是基础性的步骤。从背景中提取目标前景有很多应用,主要包括,(1)在军事工业方面,需要智能视觉监督确保军事基地的安全性,或者获得完整的机场,码头的交通状况,或者学习监测在商店里的客户的行为。(2)在生态工程中,对动物,昆虫的智能视觉观察,来获得动物的习性,迁徙。已有的论文中包括鸟类,鱼,蜜蜂,鹿的观察应用。(3)在游戏产业里,通过固定的摄像头,在游戏中实现实时的人机交互。(4)在视频分析时,通过对从画面中分类出的关键物体进行识别,继而对视频进行编码,从背景中分割出感兴趣的内容并且追踪它。在最近的前景物体探测的文章中,已经可以通过对动态的画面记录建立模型,进行多角度的追踪,实现对缓慢移动的照相机中的内容进行追踪。总之,前景分割是追踪,识别,和行为研究的第一步。图1.1 前景提取的应用:第一列是检测码头的运输情况,第二列是观测鱼类的习性,第三列是进行实时的人机交互理想情况下,背景是没有任何移动物体,没有变化的静止图像。通过比对背景模型和当前画面的不同之处,就能得出前景目标。这是最简单的情况。可是实际上,构成视频的图像序列往往包含抖动,光照变化,背景移动等情况,就提出需要使背景模型具有对光线的鲁棒性和轻微移动的适应性。Bouwmans和Toyama等人把背景分离会遇到的难点分为13类,分别是(1)视频中图像画质差,噪声多,主要由网络摄像机或视频压缩造成(2)摄像机抖动。比如有风吹动摄像机。(3)不同帧之间的颜色层次不同,主要由智能相机自动调整光圈,焦距,白平衡,曝光度等造成(4)照明变化。例如夜间开灯关灯。(5)在图片序列的某些帧,背景被完全遮挡(6)前景物体的伪装,比如因为颜色相近,前景物体容易被归入背景(7)因为前景物体所在区域的探测失误,在该区域内无法找到要标记的物体(8)背景物体的移动。会干扰前景物体探测。(9)背景中随着时间会新出现一些物体,无法实现标记忽略(10)有些背景本身就是动态的,例如河流,树叶,海面等(11)背景中的一些物体刚开始是不动的,随着时间在后续生成的背景中开始运动(12)前景目标本来是运动的,后来又渐渐不动了。(13)有光源的时候,前景物体会投下阴影,但阴影并不是我们感兴趣的部分。2-3 图1.2展示了来自背景模型的变化对前景检测的干扰。图1.2 背景分割的难点:第一行是突然的光照变化(夜间室内),第二行是动态背景(如水面)分割出目标物体主要解决两个问题,一是感兴趣的部分要能够探测出来,即对目标物体的改变的探测。二是要过滤掉不感兴趣的部分,即处理动态背景,光照变化等不重要的变化。前者通过比对计算得到的背景图像和当前图像得到,后者通过圈定感兴趣的区域和使用滤波过滤掉不重要的变化实现。在实际应用中,除了要处理视频中会遇到的众多难点,还需要达到处理数据的实时性,并且根据设备的限制尽可能采取低内存的方案。因此往往根据要处理的问题,衡量算法的复杂性,实时性,选取合适的模型。常见的分割前景物体的模型,可以根据使用的数学模型分为以下几类:(1)混合高斯模型(2)子空间学习模型(3)模糊模型(4)鲁棒的PCA模型。其中,混合高斯模型(MOG)是现在最常见的概率模型,最早由Stauffer和Grimson给出算法框架。子空间学习模型是使用降维的数据作为在线学习的数据内容。最初的方法是由Oliver提出的PCA,基于此的方法包括SG,MPG,KDE等方法。模糊方法是为了解决分割的界限不精确和能否成功识别的不确定而提出的。RPCA是近些年提出的算法。为满足现在对视频处理的需求(主要是在移动设备上使用,和处理背景不是固定的情况),对识别前景物体提出了很多新的策略,例如无参的自动图形选择,分等级的模型选择,还有些先进的模型能满足实时和低内存占用的要求。传统的前景物体探测模型(非机器学习),都不能同时处理全部的视频中的难点。这是因为,首先,这些探测算法是为处理不同的问题而提出的,因此不具有一般的框架。他们的实现步骤和能有效处理的挑战很难有效区分。第二,缺乏科学的研究过程。这些人工算法的主要进展都是在某一个方面。没有一篇调查能够真正说明白这个领域需要探索的问题究竟包含哪些,该怎样划分。第三,缺乏一个有效的数据库用以研究测试这些算法的成果。因为没有一条单独的视频记录,能够真实地反映现实世界拍摄视频会造成的全部有难度的问题。介于此,传统的方法往往是提出一个解决问题的方向,根据理想的视频,处理一些特殊的,容易解决的问题。然后其他作者根据这一算法的不足之处,提出能更好地处理该类问题的方案。或者加入一些新的元素,使其同时能够解决另一种方向的问题。新近的方法则是使用更加精巧的模型,来提升算法的鲁棒性,或者提升算法的效率,达到实时性。提取前景的一般步骤是:(1)初始化视频的N帧,获得最初的,不包含移动物体的背景图像。(2)在探测前景的每一帧中,比较背景图像和当前要探测前景物体的帧,标记出前景物体。(3)实时地更新物体背景图像。图1.3为提取前景的一般流程示意。图1.3 提取背景的一般流程背景模型分为单一的背景模型,和多张的背景模型。一般考虑单张的背景模型。背景初始化经常是在视频开头的图像序列中,找出数张干净的,没有前景物体的帧,作为背景图片。可实际的情况往往并非如此,在拍摄视频的时候,前景物体已经出现在画面里。因此在背景初始化中,主要的挑战是在至少有一半的图像包含前景物体的图像序列中,提取出有效的背景。方法主要有(1)直接在前N帧中选取(2)以前N帧提取出的背景为基础,后面的图像序列不断加入,更新背景,直到形成完整的背景图像(3)每过N帧重新计算一次背景。如何实时地保持计算得到的背景确实是真正的背景,是前景探测的最重要的工作之一。它要求在帧数不断增加的处理过程中,随着时间的增加不断学习,根据视频内容的变化不断地调整背景模型。实现背景模型更新的方法大致可以分为3类。(1)盲选(2)有区分地选取(3)模糊的具有适应性的方法。盲选,顾名思义,就是对当前图像的所有像素使用同一规则(IIR滤波),即当前背景图像,就是上一帧的背景图像,和当前图像的线性叠加。下一帧的背景模型可以用公式表示为:Bt+1x,y=1-Btx,y+Itx,y其中,是学习速率,取值介于0到1之间,代表背景模型的更新快慢。Bt是在第t帧的背景模型,It是第t帧的当前图像。这种模型的缺点在于,前景图像的像素也会用到背景模型的更新中,污染背景模型。为了解决这个问题,一些作者提出了使用不同的学习速率来更新背景模型的办法。基于原先的对于目标物体的分割,针对画面不同部分,在不存在前景的部分,背景模型更新速率很大。在被前景遮住的部分,更新速率非常慢,甚至可以取为0。由此建立的下一帧的背景模型为:Bt+1x,y=1-Btx,y+Itx,y,(x,y)BackgroundBt+1x,y=1-Btx,y+Itx,y,(x,y)Foreground其中。通常=0。这种方法虽然能够使背景有所变化,仍存在很多问题。比如,在上一帧中对背景模型的错误的分类会永久地影响。而不能得到纠正。因此一些作者提出了模糊适应的方案,例如通过统计分类器中像素不确定归为前景还是背景的次数,来调整在该像素点的分类。学习速率决定了背景模型随着视频改变的的速度。学习速率的模型包括:(1)固定速率动态调整(2)统计模型(3)基于模糊方法的统计模型。传统的背景模型主要有5类,分别是(1)基础模型(2)概率模型(3)簇模型(4)神经网络模型。(5)估计模型。第三章对背景模型有更详细的介绍。根据要处理的问题的不同,背景更新保持的算法有多种调整方法,以满足对光照变化的适应性,让背景的改变具有整体性,暂时停下的前景能够不被误判成背景等。例如设置一个计数器的集合,来计数某一像素被归为前景的次数,如果数目大于某一个阈值,就被归为背景。(因为前景物体是移动的)同时对这个计数器规定一定的有效期。使得暂时固定的前景物体可以存活。从而更新每一帧中的显著变化。前景探测就是通过标记像素点,实现前景与背景的分类。标记的像素点的方法可以根据处理图像的尺寸分成三类(1)基于像素(2)基于区块(3)基于簇。处理的尺寸决定了方法对噪声的鲁棒性和分割的精确性。基于像素的分割精度最高,但是对于噪声敏感。基于簇的分割鲁棒性最好,但是分割的精度也最弱。在算法使用的视频特征的选择上,主要有5类特征,分别是颜色,边信息,三维物体的立体形状,动作描述,和物体纹理信息。颜色属于光学信息,边特征和纹理属于空间信息,边信息的使用能够处理局部光照变化和阴影。立体形状需要多个摄像头,可以减轻伪装(颜色相近带来的难以区分)。动作属于多帧之间的信息,和图片处理的策略不同,这是视频独有的。颜色是最有效的分辨信息,但是对光照变化,摄像机抖动和阴影敏感。因此在不同的算法策略中,往往会使用多种特征,以应对光照变化,摄像头移动,动态背景等变化,不仅提高算法的精度,还能让算法的鲁棒性更好3,13。根据组合这些算子的方法不同,主要有三类经典的前景探测方法:(1)基于卷积算子(2)基于统计算子(3)基于模糊算子。根据要处理的关键问题的不同,会选择不同的办法进行背景的更新。传统算法主要解决了光照变化和动态背景对前景背景分割带来的困难。1.2.2 视频跟踪视频跟踪,即从图像序列中锁定某个移动的物体并将其标记出来。跟踪过程主要为两个过程的实现,即定位和分割。在真实视频中,跟踪却是一件非常困难的任务。因为影响画面变动的因素很多。物体的移动,旋转,变形,其他物体的遮挡等视频局部范围的变化会给跟踪带来一定的难度。同时视频中光照的变化等全局变化也会给跟踪带来很大的困难。早期的跟踪算法主要是单个物体的跟踪。能够通过一定的算法给遮挡,照明变化,和非刚性的物体形状变换等问题提供可行的解决方案。近些年出现的多个物体的跟踪算法,对多个物体之间的遮挡,在一簇相似的移动物体中追踪目标物体,也取得了较好的效果。由于视频类型的不同,物体追踪的难度也不同。显然,摄像机固定而物体移动的追踪较容易进行,而在现实中,往往是摄像机和物体同时运动,因为物体在视频中的运动方向有很大的不确定性14。追踪是许多重要的视频处理应用中的基础步骤,跟踪算法的实现具有很重要的现实功用,包括视频中有效轮廓的采集,从事的活动检测,识别视频中的人体,工业领域的差错分析,异常检测,机器人学中的应用,自动驾驶,物体导航,路径跟踪,人工智能,虚拟现实等领域。因此近些年根据要解决的实际问题,有许多相关的文献发表。2011年,Lee, J., Shawn等人关于基于记录三维移动速度数据的物体跟踪的文章中,将追踪分为分割和滤波两个部分。使用权重深度树和Bhattacharyya梯度流来构建追踪目标,实现了对噪声鲁棒,成功在相似物体中分割出目标物体。并率先使用粒子滤波来解决物体变形,移动中的有效轮廓提取的问题。在区域分割算法中,使用了机器学习的办法,通过主成分分析法来检测物体消失和重新出现。但是如果物体重新出现后的形状和原本的形状差别很大,算法就会失灵。同年,Amir等人在使用卡尔曼滤波处理交通流跟踪一文中,巧妙利用交通流的方向性和匀速运动等特性,将跟踪过程分为预测目标所在区域和校正获得精准的目标位置两个部分。通过卡尔曼滤波和均值漂移预测出物体在下一帧中出现的位置,锁定搜索区域。再通过校正过程分辨出要跟踪的物体。在追踪图像中,首先使用颜色识别。考虑到受到光照变化,路况的天气信息等影响,在颜色识别不充分的情况下,会通过形状,距离等特征进一步识别。Amir的方法最大的好处在于计算速度很快。同年,Nicolas等人在一片研究遮挡问题的论文中,采用了轮廓追踪的思路。将分割过程视为求解一个光流估计的最优化方程。在处理图像序列时,Nicolas首先根据画面中物体的可见部分,被遮挡部分将画面分成好的区域和不好的区域,然后把不好的区域又细分成部分遮挡和完全遮挡。对三个区域进行图像分割,使用不同的能量函数进行处理。2012年,张兆翔和其团队在路面交通基于三维物体变形模型的识别定位一文中,使用了基于识别的特定目标物体的跟踪方法。首先针对路面交通工具,提出基于局部梯度信息的12个形状模型和3种行为模型。在跟踪过程中,通过进化算法对模型进行改进,来克服传统的基于二位图像的边,定点,线,曲线分割等的物体识别容易出错的局限性,同时使用投影来增加鲁棒性,通过优化结构来评估计算耗时的问题。同年,孟灵飞等人在使用高精度卫星图像进行物体追踪的文章中,利用卫星图像的多角度,多光谱的特点,在一定的时间序列中,通过计算物体的结构差异,使用Bhattacharyya距离作为相似性的度量,用直方图交集判别相似性,抽象出基于时间和空间的概率密度函数,根据跟踪的目标外观来计算目标物体的像素直积的相似性。在进行目标匹配的时候,使用了滑动窗口。这种追踪办法因为利用了多种图像信息,精度很高,并且能够进一步估计速度,进行交通管控。但是由于卫星图像的局限性,当图像中物体密度很大时,识别目标物体就会很困难。Boris Babenko等人提出了一个基于混合马尔科夫随机过程模型(MRF)和最大A先验概率(MAP)估计来提高跟踪的鲁棒性,并在多个实例中进行试验,他的方案分成两部分,一部分是基于光流的空间局部分割,一种是单纯的局部分割。由于使用了边界探测对照图(CDM)这种方法在探测物体的边界时计算很快,和其他主流分割算法相比,因为不受轮廓的影响,空间分割效果更好。同年,王凌峰等人提出稀疏矩阵(SR)来表示目标的跟踪算法,使用代表颜色信息的空间颜色直方图和轮廓信息的空间梯度向量直方图,构造了一个多核融合。对于目标物体,构造一个稀疏矩阵的模板集合,对于遮挡和变形,构造另一个简易的模板集合。由于使用了多核的函数在跟踪时具有良好的鲁棒性,但是没有充分学习的模板物体可能很难跟踪,同时计算开销也比较大,无法做到实时。为了减小计算开销,可以使用近似精确的梯度方法来代替梯度。使用KSR,当只用四个变形模板时,速度很快,使用目标整体的特征来构造模板,使该算法更好地避开遮挡和融合的干扰。但是使用能够更新的模板匹配算法也有其局限性,比如最直观的,无法解决局部背景与追踪目标相似的情况。长时间遮挡或者快速移动的物体也很难追踪准确。文珑银等人提出了基于追踪器的时间-空间上下文模型(STT),来解决长时间融合和遮挡的情况。在空间上,在每一帧中用低维向量描述目标物体,采用子空间学习模型。在时间上,在多帧间,利用局部上下文信息,使用推进模型,使得跟踪更加稳定有效。总之,物体追踪的办法主要有两种思路,一种是先确定物体所在的区域,然后在该区域搜索目标物体,从而确定精确的位置。另一种是先检测到先前帧的目标物体,然后通过一定的描述子来记录它的信息,再在后续的画面帧中进行追踪。主流的追踪办法是基于图形的,这种办法的好处是能够利用传统的已经发展较为成熟的计算机识别算法。大致流程是先确定局部图形的样子作为先验信息,再在搜索区域里使用局部探测器。探测到目标物体后对其进行描述,分类。图1.4为流程的简单示例。图1.4 模块化的追踪过程示例这种基于上下文的算法的另一个好处在于,它并不排斥其他的算法和算法改进,是一种通用的办法。换句话说,这就像一个互不干涉的模块,可以随意替换其中某个部分的算法,从而使算法得到改进14。最主流的图像探测器和描述子莫过于缩放不变的图形变换(SIFT),包含一个探测器和一个滤波。有许多对这个探测器进行改进的工作,主要是提升速度(例如使用自适应算法的FAST拐角探测),提升物体识别(例如BRIEFS算法),增加鲁棒性等。1.3 本文贡献在本文中,我们使用Android Studio的架构,在最常用的智能手机平台Android平台上,使用摄像头和屏幕,借助openCV的开源库,实现了基于实时MOG算法的AR应用。我们较好地解决了手持设备的随机抖动的问题。并利用加速度传感器获得了基于角度的图像贴纸,达到了增强现实的效果。1.4 本文组织结构在这篇文章中,下列章节的组织结构如下安排:第二部分介绍了5类传统的用于前景提取的背景模型。第三部分介绍了MOG算法模型和基于openCV的实时MOG算法。第四部分介绍了在Android平台上的面向AR的应用的具体实现和改进方案。第五部分展示了一些实验结果。第六部分为结论,概况总结了全文的内容。2 背景模型背景模型的好坏是决定分割效果的重要因素,也是在背景分割方向的研究热门,近年来提出了很多背景模型。传统的背景模型主要有5类,分别是(1)基础模型(2)概率模型(3)簇模型(4)神经网络模型。(5)估计模型。2.1 基础模型传统的模型往往使用均值,中位数,直方图分析等办法得到。像素的分类通过比较背景模型和当前帧的不同得到,当所比较的像素点的特征之间的差别大于某个阈值时,就将其划分为前景。否则是背景。计算公式可以简单地表述为:dItx,y,Bt-1x,yT,(x,y)BackgrounddItx,y,Bt-1x,yT, (x,y)Foreground其中,d.,.是衡量两个像素点差别的函数,一般取为背景模型和当前图像的差别的绝对值。T是一个固定的阈值。2.2 统计模型由于基础模型阈值是固定的,所以对于动态背景和光线变化很敏感。为了降低对动态背景和光线变化的敏感性,一些作者提出了基于统计分析的背景模型。背景统计模型大致可以分为3类(1)高斯统计模型(2)支持向量表示模型(3)子空间聚类学习模型。4高斯模型是最简单的模型,用高斯函数建模得到每个像素点的强度值。最早的高斯背景模型是由Wren等人提出的单一高斯模型(SG)。能够处理较小的明度变化。随后Kim等人提出了单一的一般高斯模型(SGG),改进了高斯模型的阈值,减小了阈值的约束。单一的背景模型可能很难较好解决动态背景或者摄像机抖动的问题。因此一些作者提出了混合高斯模型(MOG),或高斯混合模型(GMM),使得高斯模型的鲁棒性和适应性得到进一步提升。Porikli和Tuzel对每个像素建立了多层的三维多元高斯模型,每一层使用贝叶斯方法得到均值和变化的概率分布函数。Alvar等人使用实时的动态椭圆神经网络(RTDENN)来提升高斯模型。Allili提出了混合的一般高斯模型(MOGG)减小阈值的约束,单一的高斯模型更快,而多元(35)高斯模型获得的结果更为精确。使用核密度函数(KDE)估计背景概率密度能够实现无参的高斯模型,但是时间开销会增加。Sheikh和Shah对KDE算子做了提升,使用一个直接联合所在区域和强度范围的KDE来表示每个像素点,使用多种信息,在复杂情况结果更加可靠。另一种提升办法是利用最大A概率的马尔科夫密度函数(MAP-MRF)对结构进行改进。支持向量模型是比高斯模型更为精巧的概率模型。在背景提取中,主要有支持向量机模型(SVM),支持向量回归模型(SVR),支持向量数据描述模型(SVDD)。Lin等人提出了基于概率的支持向量机,根据光流值和相邻帧的不同,计算每一个训练图像每个像素点的概率,直到前景和背景分割完毕。Wang等人提出使用分离的支持向量回归模型作为强度函数的背景更新算法。在进行背景初始化时,使用分块算法。在前景提取上,将前景的强度作为SVR模型的输入,把输出结果作为判断的阈值。Tavakkoli等人使用支持向量数据描述来标记前景和背景区域。与其他基于像素的模型不同,前景和背景的边界分割使用分析的办法获得。因此分割的精确度与估计它的概率密度函数没有直接关系。相比于其他非参数方法需要存储所有的参与背景训练的帧的全部像素特征向量,这种办法需要的内存较少。该方法使用离线的一般方法实现背景初始化,背景更新则是使用增长的SVDD在线算法。前景探测只需要比较支持向量。需要的开销小于基于帧像素的比较。由于分割边界由已知类决定,也更少受到参数变化的影响,能够实现自动分类。使用主成分分析的子空间学习模型(SL-PCA)是另一类重要的背景分割方法。通过前N帧的图像的平均值,根据投影矩阵,找到PCA算法中前P个显著的特征向量,作为参数来构建最初的背景模型。前景探测则是比较输入图像和它在PCA空间重构的背景模型实现。这种算法有许多缺点。主要是(1)要探测的前景物体尺寸必须要很小,(2)背景更新使用批处理的PCA计算,缺乏鲁棒性的分析,一些改变容易被背景吸收。(3)这种算法将颜色信息限制到灰度空间的像素计算。虽然整合了多通道的数据信息,但是没有直接使用,使得计算需要在高维空间实现,高维数据给数据的计算处理带来了额外的困难。针对这一缺点,Han和Jian提出了使用带权二维PCA模型,应用到RGB三通道的色彩空间和RGB+IR四通道的空间,提升算法性能,使得更好地应用于多模型的背景和阴影的处理中。(4)不能正确处理许多光照变化的情形。Dong等人提出多重子空间学习来改善这一状况。将颜色空间根据不同的照明情况组织成簇,然后进行局部组成成分分析(LPCA)变换。在不同的特征空间分别学习成簇,即每个子空间只受到离它最近的簇的光照情况的影响。这对逐步变化的光照效果良好4。此外,还有Yamazaki等人和Tsai等人提出的独立成分分析方法(ICA),Bucak等人提出了增长的非负矩阵因式分解法(INMF),对数据进行降维。Li等人提出的增长的随机(R1,R2,R3)张量法,使用了空间信息。Krishna等人提出的局部保持投影法(LoPP),通过构造一个沿着矩阵最大特征方向的拉普拉斯特征投影,来实现一个线性分类器。用一个最优化函数来保持被观察矩阵的临近位置的结构。而在处理前景与背景的分割时,使用非线性的算法。从而能够保持局部5。高斯模型和支持向量模型一般用在处理动态背景的问题上,子空间学习模型一般用于照明变化。由于能够在性能和计算开销上达到很好的平衡,统计模型算法是应用最广泛的模型。表2.1为背景消减的统计模型汇总。第一列为模型的分类,第二列为每一类的典型模型,第三列为首次提出这个模型的文章作者。表2.1 统计模型分类类型模型作者高斯模型单一高斯模型(SG)单一一般高斯模型(SGG)混合高斯模型(MOG)混合一般高斯模型(MOGG)核密度估计(KDE)Wren等Kim等Stauffer和GrimsonAllili等Elgammal等支持向量模型支持向量机(SVM)支持向量回归(SVR)支持向量数据描述(SVDD)Lin等Wang等Tavakkoli等子空间学习模型1)矩阵主成分分析(PCA)独立成分分析(ICA)增量非负矩阵因子分解(INMF)局部保形映射(LoPP)2)张量增量排名(R1,R2,R3)张量张量局部保形映射传播数据库Oliver等Yamazaki等Bucak等Krishna等Li等Krishna等Dushnik等2.3 簇模型簇模型是根据局部结构,将像素点分类成簇,再进行计算。簇模型算法包括(1)k均值算法(2)字典学习算法(3)基本序列簇算法。K均值算法最初由Butler等人提出,主要思想是把像素点标记成一组簇。该算法的背景初始化采用离线算法,根据相似性将像素点归类成簇,由于每一簇中的变化具有规律性,分成簇后,每个像素点的同时变化对整个簇的结构影响不大,因此对光照变化有很好的适应性。在后续的帧中新出现的像素与簇分组进行相似性比对,来区分被匹配的簇是否是背景的一部分。Duan等人使用一般k均值算法对这一算法进行了改进,对于出现异常值和异常区域等非全局收敛的情况,具有更好的鲁棒性6。Kim等人使用子弹学习来对背景进行建模,对于每个像素,使用一个或者多个单词,建立一个字典集。单词的数量取决于像素点的活动。样本的簇分割是基于颜色畸变度量和亮度区间两方面的考虑。对每个像素点进行度量,编码背景空间。在进行前景探测时,计算该新增像素点的颜色畸变和亮度不同。和背景具有相近的颜色畸变,并且亮度也属于该单词的亮度区间的像素,被划分为背景。颜色畸变不同,或者亮度异常,则被当做前景。在另一篇文章中,Kim等人提出建立分层模型,引入了更具适应性的字典单词的更新,对这一算法进行提升。Sigari和Fatih则提出了分级的字典模型。第一级是主字典,第二级是Cache字典。主字典存储当前使用的背景模型。Cache字典存储在新输入像素序列时,经过更新的背景模型。其他改进方案还包括基于混合锥形的椭圆模型,优点是对于光线变化具有鲁棒性;分块算法,具有多个窗口,优点是实时性等7。基本序列分簇是第三类较为广泛的簇模型。在该类模型中,前景物体基于出现的时间长短被分为序列。首先,将画面根据像素密度进行在线分簇。然后计算每一簇的中心,和该簇的出现的概率作为划分前景背景的主要依据。如果出现的概率大于给定的阈值,这一簇或者多簇就被归为背景,否则认为出现的概率更低,为移动的前景。许多作者对基本序列簇模型提出了改进方案。比如在根据像素密度分类成簇之后,增加一个步骤,将中心相距非常近的簇融合成一个簇,从而避免运算量无限增大。Xiao和Zhang将序列簇算法的阈值增加到两个。当一个新的簇将要建立时,需要和第二个阈值比较,以避免簇的中心过快降低到自身。Benalia和Ait-Aondia在计算像素点归于哪一簇时并没有使用簇的边缘信息,而是通过比较当前簇和背景模型簇的第一特征值。从而更好地利用了纹理信息,优化了内存空间8。簇模型的背景减除效果主要依赖于偏差控制更新操作,当且仅当簇模型与背景的偏差大于某个阈值时,才会新建一个簇。由于簇模型对内存空间的消耗比较大,背景更新的频率较慢。但是对于经过压缩的噪声较多的低分辨率视频的动态背景处理具有很好的效果。表2.2为背景消减的簇模型汇总。第一列为模型的分类,第二列为每一类的典型模型,第三列为首次提出这个模型的文章作者。表2.2 簇模型分类类型模型作者K-均值模型K-均值(KM)一般K-均值(GKM)Butler等Duan等字典模型原始字典模型(CB)分层字典模型(LCB)混合锥形字典模型(HCB)球形字典模型(SCB)基于分块的字典模型(BCB)分级字典模型(HCB)多尺度字典模型(MCB)Kim等Kim等Doshi和TrivediHu等Deng等Guo和Hsu等Zaharescu和Jamieson基本序列簇模型基本序列簇(BSC)修改的基本序列簇(MBSC)两个阈值的序列簇(TTSC)提升的MBSC(IMBSC)Xiao等Xiao和ZhangXiao和ZhangBenalia和Ait-Aoudia2.4 神经网络模型在具有严格数学模型的背景消减模型里,混合高斯模型(MOG)的性能综合来看最好。然而MOG模型虽然能够快速地实现前景探测,但对于视频质量的要求很高,比如无法实时处理高分辨率的背景减除,不能实现并行计算,而且对于噪声非常敏感。Luque等人将复杂的离散神经网络引入MOG模型,以提高识别的效率并改善分割的效果。此后,Luque等人又提出了用竞争神经网络模型前景探测模型(CNN)和两级化的竞争神经网络前景探测模型。竞争神经网络模型是基于背景模型相邻像素之间的适应性,使用一个非监督的竞争性的神经网络。把每种颜色所占的权重和它临近像素的颜色作为神经元的输入,来更新背景模型。由于该算法能够在像素级别进行并行处理,同时Luque等人利用了计算机硬件的结构信息,使得该算法能够实现实时计算。两极化的竞争神经网络模型(DCNN)在输入数据的预处理时,先估计数据的方向性(计算量较小),作为先验信息输入到神经网络中,从而在计算精度上有所提升,而且正向错误率也降低了。同时保持了CNN的负向错误率2,9。基于自组织神经网络(SONN)的前景探测模型最初由Maddalena和Petrosino提出。他们在HSV色彩空间实现了使用SONN学习运动的图像,然后用于前景探测的算法。称为自组织背景减除器(SOBS3)。在这种算法中,通过SONN学习得出的一组运动物体和静止物体的图形被用于探测移动的物体。自组织算法简化了学习过程,训练步骤也更加有效。最近有作者将空间相关性也引入背景更新过程,成为在背景更新过程进行自组织学习的背景消减算法(SC-SOBS4),该算法对于错误检测更具鲁棒性。考虑到SONN算法的神经网络分层是固定的,神经元的个数和位置安排也要预先设定,输入的数据缺少层次相关性,不同视频的处理效果可能因此差异很大。Palomo等人提出了增量分级自组织神经网络算法(GHS0NN)。在该算法中,神经网络的结构被分为多层,每一层使用不同的单个SONN网络,每层网络使用SOBS学习算法或者SOBS-SC学习算法,具有适应性的结构,能够根据输入数据调节学习过程2,10。表2.3为背景消减的神经网络模型汇总。第一列为模型的分类,第二列为每一类的典型模型,第三列为首次提出这个模型的文章作者。表2.3 神经网络模型分类类型模型作者神经网络模型一般卷积神经网络(GNN)多重神经网络(MNN)竞争神经网络(CNN)极化竞争神经网络(DCNN)自组织神经网络(SONN)增量分级自组织神经网络(GHSONN)Culbrik等Luque等Luque等Luque等Maddalena和PetrosinoPalomo等2.5 估计模型通过滤波来估计背景,是另一类重要的传统背景消减模型。主要使用的滤波有(1)维纳滤波3(2)卡尔曼滤波11(3)切比雪夫滤波12,使用滤波估计背景的原理是,在当前帧中前景的实际值与通过背景滤波估计的预测值有显著的差异。维纳滤波的起源是Toyama等人提出的一个叫做壁花的像素点-层级的算法。该算法基于像素点的颜色,通过在某一个点历史出现过的颜色,使用单步的维纳预测滤波,计算在下一帧图像中该点的出现的不同颜色和各自的概率。在算法实现上,使用在这一点的50个历史颜色值来计算30种可能出现的颜色预测以及他们的概率。如果实际出现的颜色在预料之内,则为背景,否则为前景移动物体。维纳滤波的计算速度很快,适合探测快速运动的物体,然而由于要考虑到噪声等随机变化,颜色阈值要取的很大。但是这样一来就无法区分与背景颜色相近的运动物体,未解决颜色相近的问题,Toyama等人对每个像素点保持两组颜色值,除了活跃颜色值序列,还有预测颜色值序列。通过计算两种序列的相似程度,来判断该像素点是否属于背景,相比于比较两个值的差别,具有更高的精度。在Toyama的方法中,通过重新计算某一帧来调整相关系数来调整适应值,同时为了应对全局光照变化,增加了一个帧间整体光照强度算法3。卡尔曼滤波是karmann等人提出的通过优化函数来估计运动物体现在所处的状态。同时证明了卡尔曼滤波可以有效地使用线性系统建模,并且可以不受白噪声的干扰。该优化系统的系统状态由背景图像Bt和灰度输入图像It决定,背景像素的亮度通过一个有限维的动态系统来更新。滤波系统初始化时,输入项设为零,背景亮度的初始分布设为一个特定值。如果出现与预测值不符合的像素点,则视为噪声。当更新值与原值的差别大于给定阈值时,karmann等人引入了一个争议系数来防止前景物体污染背景图像。对逐渐变化的整体照明,卡尔曼滤波不能有效地去除噪声,并且突然的光照变化会被误认为是前景物体11。针对卡尔曼滤波对全局光照变化的处理不当,Boninsegna和Bozzoli引入了一个附加项来模拟逐渐变化的光照强度,Messelodi等人则将一个探测全局变化的模块作为一个额外的参数引入。其他作者试图引入纹理信息,局部区域图像等办法来提升卡尔曼滤波的性能,Wang等人提出了非降的卡尔曼滤波(UKF)改用非线性系统,Fan等人提出了自适应的卡尔曼滤波(SAKF),使用静态背景和动态背景两种模型,同时计算前景区域和背景区域的累积量来调整更新速率。这种改进使算法更为简洁有效,能够达到实时2。相关滤波(CF)是由Cinar和Principe基于卡尔曼滤波提出来的。CF滤波从图片序列中抽出具有明显顺序的信息,然后假定一个代价函数,通过相似性来衡量相关度,在前景探测时能够过滤椒盐滤波。切比雪夫滤波将高斯统计模型换成切比雪夫统计模型,由Cheng等人提出,通过较小的步长,缓慢更新背景模型。这样做能够有效地降低计算复杂度。在该滤波中,切比雪夫模型的参数被设置为带宽频率为0.06赫兹,样本更新速率为每秒30帧。在这种速率下,矫正估计会使用1250帧,从而能够处理长时间被完全遮挡的背景。由于只使用背景图像和当前帧进行前景背景分类,切比雪夫模型能够很好地应对逐渐变化的光照强度12。表2.4为背景消减的估计模型汇总。第一列为模型的分类,第二列为每一类的典型模型,第三列为首次提出这个模型的文章作者。表2.4 估计模型分类类型模型作者维纳滤波维纳滤波Toyama等卡尔曼滤波卡尔曼滤波(KF)非降的卡尔曼滤波(UKF)自适应卡尔曼滤波(SAKF)Karmann等Wang等Fan等相关滤波相关滤波(CF)Cinar和Principe切比雪夫滤波切比雪夫滤波(CF) Chang等3 基于openCV的MOG前景识别模型前景识别模型包括背景减除模型和识别模型两个部分。主要是背景减除模型。3.1 背景减除模型背景减除模型的一般流程是:(1)背景初始化。通过N帧不带前景物体的背景画面初始化一个背景模型。(2)前景探测。由一个分类器
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 泰语二级考试试题及答案
- 解读语文面试题及答案
- 思想品德考试试题及答案
- 校园保安安全知识培训课件
- 电工操作面试题及答案
- 客房清扫考试题及答案
- 2025年国能铜陵发电有限公司招聘考试试题(含答案)
- 2025年广州市从化区社区专职人员招聘考试笔试试题(含答案)
- 消毒技术基础知识参考题库(附答案)
- 2025年导游知识培训考试题附答案
- 楼板加固施工协议书
- 《室内绿植布置》课件
- 手术医师人员档案
- 回收黄金免责合同协议
- 广东省广州市2025届普通高中毕业班综合测试(二)英语试题(含答案)
- 开利30HXY-HXC螺杆冷水机组开机、运行维护手册
- 医学防汛知识课件
- 2025年税法知识培训
- 婚内债务协议
- 70岁老年人三力测试能力考试题库附答案
- 新任教师学生管理方法培训
评论
0/150
提交评论