(信息与通信工程专业论文)基于视频序列的运动人体检测算法研究.pdf_第1页
(信息与通信工程专业论文)基于视频序列的运动人体检测算法研究.pdf_第2页
(信息与通信工程专业论文)基于视频序列的运动人体检测算法研究.pdf_第3页
(信息与通信工程专业论文)基于视频序列的运动人体检测算法研究.pdf_第4页
(信息与通信工程专业论文)基于视频序列的运动人体检测算法研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基于视频序列的运动人体检测是当前计算机视觉和模式识别领域的一个重 要研究方向,在图像图形处理、智能监控、视频编码等领域有着重要的地位。本 文构建了一个基于视频序列的运动人体检测系统,其主要包含了两个部分:( 1 ) 利用运动目标检测的方法将运动区域提取出来:( 2 ) 利用静止图像中的人体检测 算法检测运动区域确定运动人体。 对于运动目标检测,作者着重研究了基于背景减除的方法。在分析目前常用 方法的基础上,提出了一种基于颜色和纹理信息的运动目标检测算法,该方法分 别使用单高斯模型和马尔可夫随机场刻画颜色和纹理信息。 对于人体检测,作者提出采用离线训练的方法,即在检测运动区域之前,预 先训练好一个分类器。本文采用的是基于h o g 特征的嵌套级连人体分类器,它 由a d a b o o s t 学习算法训练得到。采用级连分类器的形式,将非人体在前几级分 类器中就被提前剔除,筛选可能性大的检测区域进入后一级的分类器,极大地提 高检测的效率,满足了实时性的需要。 实验结果表明,本文提出的运动目标检测的方法能够快速完整的检测出运动 区域,同时在很大程度上了抑制噪声和背景区域的变化;而基于h o g 特征的嵌 套级连人体检测方法可以快速准确的检测到人体。 关键词:运动目标检测,人体检测,马尔可夫随机场,h o g 特征,级连分类器 a b s t r a c t v i d e ob a s e dm o v i n gh u m a nd e t e c t i o ni sac r u c i a li s s u ei nt h ef i e l do fc o m p e e r v i s i o na n dp a t t e r nr e c o g n i t i o n , a n di ti sv e r yi m p o r t a n tf o ri m a g ep r o c e s s i n g , v i d e o e n c o d e ,i n t e l l i g e n ts u r v e i l l a n c ea n ds oo n am o v i n gh u m a nd e t e c t i o ns y s t e mb a s e d o nv i d e os e q u e n c ei sc o n s t r u c t e di nt h i st h e s i s ,w h i c hi n c l u d e st w om a i ni s s u e s :( a ) m o v i n go b j e c td e t e c t i o n , e x t r a c t i n gt h em o v i n gr e g i i nt h ei m a g e ,( b ) a n dh u m a n d e t e c t i o n d e t e c t i n gt h eh u m a ni nt h em o v i n gr e g i o n f o rm o v i n go b j e c td c t e c t i o n , b a c k g r o u n ds u b t r a c t i o nb a s e dd e t e c t i o na l g o r i t h m s a r em a i n l ys t u d i e d , a n da f t e ra n a l y z i n gs e v e r a lp o p u l a rm e t h o d s ,an e wa l g o r i t h m b a s e do nc o l o re n de o n t e x t t m ei n f o r m a t i o ni sp r o p o s e d :as i n g l eg a u s s i a nm o d e li s u s e dt om o d e lt h es t a t i s t i c a lc h a r a c t e r i s t i co fg r a yv a l u ea n dm a r k o vr a n d o mf i e l d ( m r f ) i su s e dt os p e c i f yt h ec o n t e x t u r ec o n s t r a i n t a n df o rh u m a nd e t e c t i o n , l a r g en u m b e r so f p o s i t i v ea n dn e g a t i v eh u m a ns a m p l e s 撇u s e dt ot r a i nac l a s s i f i e ro f f - l i n e w h i c hi su s e dt od e t e c tt h em o v i n gr e g i 蛐o n - l i n e t h ec l a s s i f i e ru s e di nt h es y s t e mi sb a s e do nh o gf e a t u r ei nt h ef o r mo fc a s c a d e b y u s i n gt h ec a s c a d ec l a s s i f i e r , n o n - h u m a nw i n d o w sa r e 画e c t e di nt h ep r e v i o u sl a y e r s , a n dh u m a nw i n d o w sc a ng ot h r o u g he a c hl a y e rs u c c e s s f u l l y , w h i c hc a na c c e l e r a t et h e p r o c 嚣se n dr e d u c et h en e e d e dc o m p u t a t i o n a ll o a dt os a t i s f yr e a l - t i m ea p p l i c a t i o n s t h ee x p e r i m e n t ss h o wt h a tt h ep r o p o s e dm o v i n go b j e c td e t e c t i o nm e t h o dc a nf a s t d e t e c tt h em o f i n gr e g i o nc o m p l e t e l y , a n di ti sr o b u s ta g a i n s tn o i s e sa n dd i s t u r b a n c eo f t h eb a c k g r o u n d h o gf e a t u r eb a s e dh u m a nd e t e c t i o nm e t h o dc a nd e t e c tt h es t a t i c h u m a ni nt h ei m a g es u c c e s s f u l l y f i n a l l y , t h em o v i n gh u m a nd e t e c t i o ns y s t e mw o r k s v e r yw e l lf o rd e t e c t i n gt h em o v i n gh u m a ni nt h ev i d e os e q u e n c e k e y w o r d s :m o v i n go b j e c td e t e c t i o n , h u m a nd e t e c t i o n , m a r k o vr a n d o mf i e l d , h o gf e a t u r e ,c a s c a d ec l a s s i f i e r 浙江大学硕士学位论文 第一章绪论 1 1 选题背景与研究意义 近年来,随着计算机视觉、模式识别及人工智能的飞速发展,以及智能汽车、 电影和多媒体技术和视觉监控领域的发展需求,人体检测技术受到了越来越多的 关注,己成为人工智能和计算机视觉领域的一个重要的研究内容。其中基于视频 序列的运动人体检测更是计算机视觉和模式识别领域的个研究热点,它广泛应 用于智能视觉监控、智能人机接口、人体运动细节分析和虚拟现实等领域。 智能人机接口可自动的对人的动作进行捕获、识别( 比如对人的手语进行翻 译并调用相应的功能) 及响应人的指令。可以代替传统的输入和控制设备完成人 机交互。由于它是非接触性视觉控制接口,所以它的应用领域极其广泛,可用于 残疾人使用的某些设备为残疾人带来方便、游戏控制或者用于高噪音环境等情 况。 分割图像中的人体部分,在图像序列中跟踪并分析感兴趣的运动细节,比如 分析人体的运动机制用以辅助运动员的训练或者舞蹈训练,或对人的步态进行分 析用于辅助进行人的身体识别0 1 。当前由于带宽限制,视频信号由于数据量很大 所以很难在i n t e m e t 上实时的播放,人体的运动分析可以把一个场景的前景区域 从背景中分割出来,如果用于视频会议,可以首先把背景区域传到授受点,以后 只传输前景区域及状态信息,这样可以大大减少数据的传输量,使实时的视频会 议成为可能。类似可用于基于物体的视频压缩等。 智能视觉监控就是要用计算机视觉的方法,在不需要人为干预的情况下,通 过对摄像机拍录的图像序列进行自动分析,实现对动态场景中目标的定位、识别 和跟踪,并在此基础上分析和判断目标的行为,从而做到既能完成日常管理又能 在异常情况发生的时候及时做出反应。智能视觉监控主要涉及摄像机标定、物体 识别、运动分割与跟踪、多摄像机融合、高层语义理解等内容,是计算机视觉领 域的前沿研究方向。它具有广泛的应用前景及巨大的潜在经济价值,已引起了许 多科研机构及研究人员的浓厚兴趣。 由于运动人体检测在智能监控、人机交互及人的运动分析等方面具有广泛的 应用前景和潜在的经济价值,所以开展这方面的研究有着重大意义。本文是根据 l 浙江大学硕士学位论文 作者在日本欧姆龙( o m e n ) 公司交流学习期间的工作内容总结而成,主要是构建 了一个基于视频序列的运动人体检测系统,其中主要研究了基于背景减除的运动 目标检测算法和基于特征的人体检测算法。 1 2 国内外研究现状 从视频序列中检测出运动中的人体需要解决两个问题:运动目标检测和人体 检测。以下从这两个方面分析国内外的研究现状及常用的处理方法。 1 2 1 运动目标检测 运动目标检测的目的是从序列图像中将变化区域从背景图像中提取出来。运 动区域的有效分割对于目标分类、跟踪和行为理解等后期处理非常重要,因为以 后的处理过程仅仅考虑图像中对应于运动区域的像素。然而,由于背景图像的动 态变化,如天气、光照、影子及局部扰动等的影响,使得运动检测成为一项相当 困难的工作。 根据视频图像中摄影机是否运动将目标的运动划分为两种模式:摄影机固定 和摄影机运动情况下的目标运动。在智能视觉监控中以固定摄像机模式为主,因 此本文主要研究前者。下面归纳出目前几种常用的运动目标检测算法: ( a ) 基于特征的方法 基于特征的方法包括两个主要的步骤,一是从相继两幅或多幅不同时刻的图 像中抽取特征,并建立起对应:二是依据这些特征之间的对应来计算物体的结构 ( 形状、位置等) 和运动。基于特征的方法能够很好的对物体的运动特征进行表述, 但是该方法的困难在于物体特征点的寻找和匹配。一方面,该方法很难区分不同 目标之间的特征点。特别是当运动目标很多的时候往往需要先依据别的方法来区 分不同的目标。另一方面目前并没有一种比较通用的快速匹配算法,这就限制了 它在实时视频领域的应用。 ( b ) 基于光流场的方法嘲 基于光流场的方法,也称为连续处理方法,通常假定相邻时刻之间的间隔是 很小的( 几十毫秒之内) ,从而相邻时刻的图像之间的差异也较小,可以求得稠密 ( 即图像中每一像素) 处所对应物体的运动信息。光流法也采用两步:第一步,是 2 新江大学硕士学位论文 计算光流场,第二步则是由光流场来计算场景中物体的三维运动和结构。光流场 的方法能够很好的用于二维运动估计,它也可以同时给出全局点的运动估计,但 其本身还存在着一些问题:遮挡问题、孔径问题、缺乏足够的空间图像梯度以及 计算量大的闯题。 ( c ) 基于帧间差分的方法 帧间差分,也称为时域差分,是运动视觉的方法中最为简单快速的方法。常 用的帧间差分就是连续两帧相减,二值化处理获得运动区域,但运动目标在前后 两帧中变化可能不大,导致部分区域重叠,所以检测到的运动目标并不完整,还 需要后续算法的处理。 ( d ) 基于背景减除的方法啪1 该方法的关键是背景图像的描述模型即背景模型,它是背景消减法分割前景 目标的基础。背景模型有单模态和多模态两种。前者在每个背景点上的颜色分布 比较集中,可以用单个概率分布模型来描述,后者的分布则比较分散,需要多个 分布模型来共同描述。自然界中的许多景物和很多人造物体,如水面的波纹、摇 摆的树枝、飘扬的旗帜、监视器荧屏等,都呈现出多模态的特性。最常用的描述 背景点颜色分布的概率模型是高斯分布( 正态分布) 。背景建模的方法是目前固定 摄像机视觉系统中使用最为广泛的方法。由于其算法速度快便于实现,更加有利 于其在实时系统中的应用。 1 2 2 人体检测 运动目标检测出来的运动区域可能对应不同的运动目标,比如交通道路上监 控摄像机所捕捉的序列图像中可能包含行人、车辆及其它诸如飞鸟、流云、摇动 的树枝等运动物体。由于智能视觉监控系统要对运动的人体进行跟踪识别,所以 就必须判断前景运动物体是否为人体,而人体的检测算法的好坏同时严重影响着 后续的处理。不同的应用背景下和图像分辨率下,人体检测算法不同:对于认知 领域,需要识别人体各部分的运动情况;而在智能监控中,图像分辨率并不高, 因此可以不用过多的关注人体的具体细节,只需要判断是否为人体目标。检测人 体目标比检测其他目标更具挑战性:第一,人体目标是典型的非刚性目标,可能 呈现出各种不同形状,单一的模型几乎不可能捕获各种形状的人体;第二,人的 3 浙江大学硕士学位论文 不同衣着,使基于区域特征的算法也不能有效地工作。下面简略介绍目前国内外 主要的研究方法: ( a ) 基于人体模型的方法 为了检测图像中的人体对象,首先要设计合理的人体模型。因为人体是关节 物体,所以大多数人体模型使用基于身体部分的表示,但不同模型使用的细节层 次不同。另外,也有一些研究者没有使用直观的几何模型,而是构造人体的模板。 计算机图形学和计算机视觉领域的许多研究者根据不同任务的需要提出了一些 人体模型。可以按照模型的复杂程度将它们分为一维人体模型“、二维人体模型 和三维人体模型“。 ( b ) 基于皮肤颜色的方法 人的皮肤颜色是一个明显的特征嘲,可以利用颜色信息来检测人体。人脸部 通常是裸露的而且有着特殊的颜色,所以可以通过识别人脸的存在来确定是否有 人的存在,所以可以通过h s i 空间进行皮肤颜色建模。由于皮肤的色度和饱和度 受光照的影响比较小,所以皮肤可以用二维高斯模型在h s i 空间来表示,为了减 小背景的颜色干扰,这个二维的高斯模型的均值、协方差的获得依靠前景提取后, 手工确定脸部位置对模型进行训练,在分类过程中计算像素和均值间的距离,如 果距离小于一个特定的阈值,那么该像素被分为皮肤,否则被分为非皮肤。分类 后可以确定是否有人脸存在,如果运动物体中有人脸存在,则物体被分为人体, 否则被分为非人体,但这种方法对远距离监控可能会失效。 ( c ) 基于运动特性的分类方法嗍” 基于运动的分类是利用人体在稳定地行走或奔跑时表现出的人体姿态的周 期性交化,可以利用人体运动的这一特性识别人体的存在。若物体在,时刻的状 态为x ( f ) ,若存在一个常数p 使: x ( t + 力= x ( f ) + r ( f ) ( 1 2 1 ) 其中r ( f ) 为平移量,那么这个最小的时间间隔p 就是这个物体的运动周期,人体 在稳定运动时的姿态,以人的中轴为坐标轴,人体的对称性呈周期性变化,可以 利用这一特性在时域构造时间自相似矩阵,人的周期性运动反映出不同于其它物 体运动的性质,可以利用这种时域频化的方法把人体运动识别出来。 4 浙江大学硕士学位论文 ( d ) 基于人体外形特征的方法 由于人体外形的特殊性,成为人体检测可以利用的重要信息,根据人体外形 进行检测和跟踪的算法被相继提出”,但分析人体外形的困难在于人体局部的 非刚体性表现出来的不确定性很难刻画,如果这个不确定性比较简单,可以使用 单高斯模型或者混和高斯模型来参数化“”,但人体的不确定性很大很复杂,以至 于这些模型都不适合。非参数化的方法嘲具有更大的灵活性,但是需要大量的样 本来涵盖人体的所有的不确定性,其中点分布模型是典型的非参数化方法,它用 一个有序的、标记的点集来描述人体形状,点的改变影响了人体形状的改变,该 方法具有很大的灵活性,但点集的注册标记的计算量很大,而且它是基于全局的 方法,很难处理遮挡的情况。当然,人体的可形变并不是任意的,因此可以先确 定先验的人体外形,一个可行的方法就是降低不同外形参数的相关性,在低维空 间里用混和高斯模型建模形变的变化“4 ,这样可以有效的表征全局的形变,但对 于局部的形变仍不够充分。各向异性的吉伯斯场“”的提出和在人脸形变领域的成 功应用,减少了处理人体形变的难度,但需要大量的样本训练。 检测运动的人体时,基于形状的分类是利用检测出来的运动区域的形状特征 信息来进行物体的分类的。通过检测模块得到一个二值化前景图像,对这个前景 图像进行横向和纵向的投影可以得到横向和纵向直方图”。通过多个人体样本训 练可以得到人体的横向投影宽度和纵向投影宽度的比值,这个横向投影宽度和纵 向投影宽度的比值作为人体的轮廓模式,可以用待分类的样本和此模型进行对比 确定是否为人体。 1 3 研究内容 本文把人体检测问题当作一个标准的模式识别的问题来解,通过对某一学习 算法的训练,获得一个满足一定性能指标的人体分类器。从模式识别的角度,人 体分类器的设计主要考虑特征的挑选和基于所选特征的分类器的设计。在特征的 选择上,作者采用了目前人体检测领域广泛使用的h o g 特征;对于学习算法, 本文使用的是成功应用在人脸检测领域的a d a b o o s t 学习算法,该算法在特征挑 选和分类器设计上取得了令人满意的效果。 5 浙江大学硕士学位论文 本文构建的基于视频序列的运动人体检测系统主要被分解为两个部分:人体 分类器训练和运动人体检测,如图1 1 所示。在处理视频检测运动人体之前,训 练一个人体分类器,本文使用a d a b o o s t 算法训练了一个基于h o g 特征的嵌套级 连分类器。运动人体检测部分包括了运动目标检测、运动区域标记、人体检测等 功能模块:首先,本文综合使用了颜色和纹理信息,利用分类的思想将运动区域 分割出来;然后对运动区域进行标记,去除不满足一定大小的运动区域,保留较 大区域;然后使用训练好的分类器对筛选出来的区域进行检测:最后得到运动的 人体区域。 图1 1 运动人体检测系统方框图 本论文是这样安排的:论文一共分为六章,其中第一章论述了立体的意义及 国内外的最新研究现状;第二章主要分析了常用的基于背景减除的运动目标检测 算法;第三章主要论述了作者提出的基于颜色和纹理信息的运动目标检测算法; 第四章主要论述了基于h o g 特征的级连人体检测算法;第五章论述了运动人体 检测系统的组成,并给出了实验结果与分析;最后,第六章给出了总结与展望。 6 浙江大学硕士学位论文 第二章基于背景减除的运动目标检测算法 研究 在摄像机静止的条件下,对图像序列中的运动目标进行实时检测最常用的一 种方法就是背景减除( b a c k g r o u n ds u b t r a c t i o n ) ,这种算法估计出一个不带有运动 目标的背景模型,通过计算当前图像帧和该背景模型的差别来确定运动目标的位 置,并利用检测结果动态地更新背景模型。 各种背景消减算法的主要差别在于所采用的背景模型类型和更新算法。目前 普遍采用的方法是对图像帧中每一个点,用一个统计模型来描述其亮度( 颜色) 的概率分布,在实际中使用最多的就是正态概率分布( 高斯分布) 。在背景更新时, 则对不同的检测结果赋予不同的更新系数,以区别是倾向于保留还是改变原有的 分布。本章主要研究了常用的三种基于背景减除的运动目标检测算法:单高斯背 景模型、混和高斯背景模型和主成份分析法。 2 1 单高斯背景模型法 单高斯背景模型嘲适合于单模态背景,即背景的变化不大且变化趋势比较单 一,如光线的缓慢变化等等。背景象素点的灰度值在时问上具有一定的统计特性, 如图2 1 所示,其中( a ) 中的灰度值变化曲线说明了该值是在一定的变化区间变 化,而( b ) 所示的直方图反应了该值的分布情况。 单高斯模型就是将这一统计特性建模为一个高斯分布函数,用方差和均值表 示: ,阮力w ( u ( x ,力,z 伉y ) ) ( 2 1 1 ) 其中l ( x ,j ,) 为点伉力处的灰度值,u ( x ,y ) 和联毛力分别表示该处高斯分布的均 值和方差。 一般情况下,根据新帧的每个象素值所对应的概率值的大小p 力决定这个 象索是背景点还是前景点:e ( x ,) ,) s 乙,其中弓为一预先设定的阈值;还有一 个常用的判别方法是根据该值偏离均值的程度: i j ,y ,t ) - u ( x , v , t - 1 ) i 2 - s q r t ( e ( 墨弘f l ” ( 2 i 2 ) 7 浙江大学硕士学位论文 判别后,需要对高斯背景模型进行更新,通常采用的更新公式为: 艘u(x,y,t,f)=刈(1-哪a)u(踟x,y,t一-1)+ay yt - 1 ) + 。a 2 d 弘( x n , y 力d f ) 叫) i ( x ,f ) = ( 1 一口) ( x , ,f ) 7 ( 毛y ,f ) ” 其中d 伉弘r ) = ,仁弘f ) 一u ( x , y , t 1 ) 表示灰度差。a ( o a 1 ) 称为更新系数,反 映了模型的更新速度:如果x 点被检测为前景点,则背景模型中原来的概率分布 应该得到保留,所以a 应取得比较小( 一般为0 ) ;如果x 点被检测为背景点,则a 应取得比较大,以使背景模型中的概率分布能够跟上实际的变化。 ( a ) 灰度值的变化曲线f b ) 直方图分布 图2 1 单模态情况下的灰度值的统计特性 由于不同的象素其分布不同,因此判别时采用统一的概率值作为阈值,效果 并不好:当阈值较大时,很多前景点被误判为背景:而当阈值较小时,很多背景 和噪声被误判为前景,如图2 2 所示。而判别公式( 2 1 2 ) 能够更好的反应分布的 差异性,效果较好。基于单高斯背景模型的背景减除法计算简单、速度快,而且 在一般场合情况下表现良好,因此应用较广。 ( a ) 原图 8 ( b ) 高阙值 浙江大学硕士学位论文 ( c ) 低阈值( d ) 对应判别公式( 2 1 2 ) 的检测结果 图2 2 不同的判别准则对检测结果的影响 2 2 混和高斯背景模型法 当背景模型呈双模态乃至多模态的情形时,如树枝的摇摆,水面的波纹等, 其颜色分量呈现明显的多分布特性,如图2 3 所示,r 和g 分量集中分布在两个 位置;图2 4 给出了某个象素点处的灰度值的变化情况和对应的直方图,可以看 出,其灰度值的变化区间很大( 3 0 - - 2 4 0 ) ,此时,单高斯模型不能完整的刻画背景 点的灰度分布,因此表现较差。 图2 3 多模态时的颜色分布( 右图x 、y 轴分别为r 分量和g 分量) 9 浙江大学硕士学位论文 ( a ) 灰度值的变化曲线( b ) 直方图分布 图2 4 多模态情况下的灰度值的统计特性 混和高斯模型用k ( 一般k 取值3 5 ) 个高斯模型来描述每个点的颜色 分布: 尸力= 。w o ,7 ( ,) ( 2 2 1 ) 其中,和。分别为第f 个高斯分布的均值向量和协方差矩阵,一般使用e m 算法或者足均值法估计参数。每个模型另有一个权重参数m ,和优先权参数p u , 分别表示该模型被匹配的概率和被匹配的次序。按下式计算: p ( x ,y ,t ,o = w ( x , y ,f ,i ) d e t ( z ( x , y ,t ,f ) ) ”2( 2 2 2 ) k 个模型并非都表示背景点的分布,也有可能表示前景点的分布。按优先权 从大到小的次序对所有置个模型排序,前面的6 1 个模型被认为表示背景点的分 布: , 6 ( 毛乃f ) = a r g m i l l ( w ( x , y , t ,f ) 研 ( 2 2 3 ) ji 司 其中曰为一经验阈值。新的颜色值与选定的包个分布进行匹配,一般情况下匹配 机制: l ,( 而弘,) 一u ,( 工,y ,t - - 1 ) l 2 a ( x , y ,t 1 ) ( 2 2 4 ) 混和高斯模型的的自适应更新不仅要更新高斯分布自身的参数,还要更新各 分布的权值。若检测时没有找到任何分布被匹配,则将权重最小的分布剔除,并 1 0 浙扛大学硕士学位论文 根据新的灰度值引入一个新的分布,且其方差设置较大,然后对其余的高斯分布 的权重进行归一化处理。对于被匹配的背景模型按照下面的更新公式更新: 像翟茅:玎嚣-枷1,0m+tt-,i(x,y,t)g(x,y- a ) x ( xd ( x , y , t 渺d 协t ,o )l,r ,f ) = o ,) ,f 一1 ,f ) + 口,d 1 ( 五j ,o 、 其中a 表示更新系数。权重按照下式更新; w ( x , y , t , i ) = 【( 1 ( 1 呐- f 1 ) 吨 w ( x , y y h , t - l , 力o 邓7 i 麓= ( 2 2 6 ) 其中( 0 o ,v f f ( 3 1 7 ) 马尔可夫性:p ( zl 五- ,1 ) = 以zi 矗) ( 3 1 8 ) 由以上两式可以看出,马尔可夫性刻画的是f 的局部特性,即每一个点的标 记只受其邻域点的影响,也就是说,只有邻域点才互相发生作用。大多数情况下, 非负性和马尔可夫性都可以满足。 ( c ) 吉伯斯随机场 对于s 和邻域系统,当且仅当随机变量f 的配置服从吉伯斯分布时,f 的 集合是一个吉伯斯随机场。吉伯斯分布如下所示: m = i 1e - ( 1 t ( 力 ( 3 1 9 ) 其中z :p - ( 耵渺u ) 称为归一化常量( 部分函数) ,而r 是一个温度常量,u , 是能量函数:u = e 。圪,它是集簇势能k ( 介的和,而圪的值取决 于集簇c 的局部配置。如果圪( 厂) 与集簇c 在s 的位置是独立的,则称吉伯斯随机 1 8 浙江大学硬士学位论文 场是各向同性的;如果k ( 力与c 的方向独立,则称其具有等方向性。在用马尔 可夫随机场处理视觉问题时,通常假定标记场是各向同性的。 为了计算吉伯斯分布,首先计算部分函数z ,它是f 的所有组合对应的集簇 势能和。p ( 力计算的是一种特定类型的配置出现的概率,可能性最大的那个配 置对应的是能量最低的那个。而温度r 控制着分布的锐利程度,当温度很高时, 所有的配置趋于等概率分布,当t 趋于零时,分布集中在全局的最小能量值。因 此,给定r 和u ,根据e l f ) 通过抽样空间,我们可以得到一类的配置。 ( d ) 马尔可夫随机场与吉伯斯随机场的等价性 马尔可夫随机场刻画的是局部特性,而吉伯斯随机场刻画的是全局特 性,h - a m m e r s w y - c l i f f o r d 理论指出当且仅当f 在s 和邻域n 下服从吉伯斯分布 时,是在s 和邻域n 下的马尔可夫随机场。下面给出一种证明方法。 假定p ( 力是在s 和邻域系统n 下服从吉伯斯分布,则以下条件概率: 比= 裂= 爰叫 其中厂。t y , ,允,厶,正) 是除了f 之外的所有点的一个配置,根据式( 3 1 9 ) 上式又可表示为: 。一。v c ( f ) 蹦- i 1 1 ) 轰矗丽 。上“ v d 二- 瑚c 。f 、j7 将集簇c 分为两个部分彳和b ,分别表示包含f 和不包含i 的集簇,因此上式 可以写成: 酬= 亲鬟锚b 勾, p 厶“。”7 】瞳厶。”。7 】) 对于所有包含j 的集簇,e o ( f ) :屹u ) ,因此分子分母中的p 一一k ( 门相互 抵消,上式又可以简化成只用包含i 的集簇表示: ,- 一取( 力 蹦叫p 2 嘉西丽 。 1 3 9 浙江大学硕士学位论文 也就是说,该条件概率只取决于f 的邻域,因此证明了吉伯斯随机场也是个 马尔可夫随机场。g i b b s 分布和m r f 的等价性的证明和应用,建立了图像局部特 征与全局特征的联系,并以物理系统的能量函数来表达,解决了二维图像系统 的后验概率分布和先验概率分布表示的困难,使得m r f 方法可以应用于图像分 析的几乎所有方面,使m r f 方法的实际应用得到大大发展。 ( e ) 贝叶斯估计 贝叶斯估计是最小化贝叶斯风险来获得最优估计。估计值厂对应的贝叶斯风 险定义为: 烈厂) = 。a 厂,f ) p ( f i a ) d f ( 3 1 1 4 ) 其中d 是观察值,c ( 户,力称为代价函数,e ( f l d ) 为后验概率,可以通过贝叶 斯准则计算: p ( f l 炉警( 3 1 1 5 ) 上式中p 是标记厂对应的先验概率,p ( d i 力为观察值d 对应的条件概率,同 时也称为d 固定时厂的似然函数,p ( d 为d 出现的概率。 lc ( ,力 l 广 一l 。 图3 2 代价函数的类型 一,。 代价函数c ( 厂,力表示真实值为厂,估计值为厂时的代价。常用的代价函数 有二次代价函数和冲激代价函数a ( o d ,如图3 2 所示。 c ( f ,力= i 厂一厂l | 2 ( 3 i 1 6 ) 浙江大学硕士学位论文 c ( f ,力:j o 矿| i 厂一席万( 3 1 1 7 ) 【1 o t h e r w i s e 其中忙一硼表示口和6 的距离。 当代价函数为二次函数形式时,贝叶斯风险可以表示为: r u + ) = 。i i 厂一f l l 2 p o e l d ) d f ( 3 1 1 8 ) 令望等盆= 。,可以获得最小风险对应的估计值: 广= l 沁f p ( f i d ) d f q 1 1 9 ) 当代价函数为冲激函数形式时,贝叶斯风险可以表示为: 置( 厂) 2 址- 4 ,, 7 , f f a ) 4 f = 1 一坤一私e ( f l d ) d f ( 3 1 2 0 ) 当万一0 时,上式近似为 r ( 厂) = i - x p ( f l d ) ( 3 1 2 0 其中r 是在0 厂一:1 1 2 万空间里包含的厂的量最小化该贝叶斯风险得到的估 计值为: 厂= a r g m a x e ( f i d( 3 1 2 2 ) 从式( 3 1 1 9 ) 和式( 3 1 2 2 ) 中,可以看出,最优估计都对应的是基于最大后验 的估计,因为p ( d ) 对于固定的d 是一个常量,因此p u l d ) 正比于联合分布: p 盯id ) a 。p ( 六a 9 = e ( di 力以d ( 3 1 2 3 ) 则基于最大后验估计等价于: 厂= a r g m a x p ( d i 力p ( 力( 3 1 2 4 ) 显而易见,当先验分布p ( 门是等概率的,则最大后验概率等价于最大似然 概率。 ( f ) 最大后验马尔可夫随机场( m a p - - m r f ) 由前文知道,最优估计对应最大后验估计,在基于最大后验马尔可夫随机场 ( m a x i m u map o s t e r i o r - m a r k o vr a n d o mf i e l d , m a p - m r f ) 标记中,p ( 厂ld ) 就是马 2 1 浙江大学硕士学位论文 尔可夫随机场的一个后验分布。下面结合图像复原的例子来说明基于最大后验 马尔可夫随机场的标记原理。假设一副图像中每个象素对应一个标记场 f = z ,厶,a ) ,观察值d = d l ,d 2 ,。4 ) ,和一个邻域系统g ,而且假设联合 先验分布为: p = 三。叫力 ( 3 1 2 5 ) 假定观察值是真实值和高斯噪声的叠加,即吐= 石+ 蜀,其中岛n ( u ,c r 2 ) , 则似然概率密度为: p ( dlf ) :圣一p - u ( j q d )( 3 1 2 6 ) t i t _ , x 2 x & 其中 u u i 回= u 一西) 2 2 唧 ( 3 1 2 7 ) 为似然能量,而后验概率为: e ( fid ) a op u ( j q d )( 3 1 2 8 ) 其中 u u l d ) = u ( d i 力+ u ( 力 :芝( z 一喀) z 2 0 i 2 + 兰( z 一丘。) : 3 2 乃 称为后验能量。因此在m a p - - m r f 中,最大后验概率估计等价于最小化后验能 量: 厂= a r g m a n u ( f i d( 3 1 3 0 ) , 3 2f i s h e r 线性判别 线性判别分析( l i n e a rd i s c r i m i n a n ta n a l y s i s ,l d a ) 是统计模式识别的基本方 法之一。f i s h e r 肯 佳鉴别向量方法的基本思想是将原来高维的模式样本投影到最 佳鉴别向量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证 模式样本在新的子空问有最大的类间距离和最小的类内距离,即模式在该空间中 有最佳的可分离性。因此它是一种有效的模式分析技术。这种方法的关键是如何 2 2 浙江大学硕士学位论文 求解最佳鉴别向量。j w s a m m o n 1 0 1 提出了求解最佳鉴别平面的技术,f o k y 与 w s a m m o n 1 1 1 迸一步求出了最佳鉴别向量集。在文献f 1 2 】中,作者提出了通过使 用f i s h e r 线性判别( f l d ) 来减少特征空间维数的新方法。 考虑把维空间的样本投影到一条直线上,即形成一维空间。当然,这有可 能会使在疗维空间里分得很开的一些紧凑的样本集群混杂在一起。但是,研究表 明,在一般情况下,总可以找到某个方向,使样本投影到这条直线后能够较好地 分开。 假设有一集合包含个厅维的样本,恐,h ,其中1 个样本属于类m , 2 个样本属于心类,显然有= ,+ 2 。若对样本工的分量作线性组合,则可 得标量 y = 矿x( 3 2 1 ) 这样得到相应于个样本的集合韩,妇,从几何上看,若w | l - l ,则每个乃就 是x 到方向为w 的直线上的投影,实际上w 的幅度是无实际意义的,因为它仅使 y 改变一个比例而己,重要的是w 的方向,即希望落在直线上的标以m 类的样 本和标以毗类的样本的投影会很好地分开而不是混合在一起。 样本均值之差可用来度量投影之间的分离性,设巩是 维样本的均值: 慨= 击务i = i , 2 。2 2 , 而投影点的样本均值现是: 孟= 专羔乃= 击凳矿弓= 帆,2 蚴, 由此可得i 砚一肼2h 矿( 慨一肘2 ) l ,并且只要给w 一适当的比例就可以使这差 值变得任意大。事实上为了使投影数据获得好的分离只要求这两个均值之差对于 每个类的标准而言较大些就行了。定义属于w j 类的投影样本的类内离散度为: 批一 印= ( y ,一) 2 ,f = l ,2 ( 3 2 4 ) j 2 l 。 浙江大学硕士学位论文 这样,专( 岳+ 建) 便可作为相伴数据的方差估计。岳+ 叠称为投影样本的总 的类内离散度,所i w f i s h e r 线性判别函数被定义为这样的一个线性函数- ,o ,它 能使判决函数: 以叻:蜒二驻( 3 砰+ 碍 达到极大。显然,为使,最大应使两类均值之差越大越好( 各类样本分布尽量分 开) ,而各类类内离散度越小越好( 各类样本内部尽量密集) 为了把,表示为w 的显函数形式,定义样本类内离散度矩阵s ,和总类内离 散度矩阵如下: n s = e ( x j - m ,x x j 一嘲,i = l ,2 ( 3 2 6 ) j - i & = 墨+ 是 ( 3 2 7 ) 由于 珏川( w t x j w r i n g ) 2 :釜矿一) r , ( 3 2 8 ) j 。l = o s m 相似的: 其中 ( 砰一砰) 2 = ( 矿鸭一矿) 2 = 矿( 一m 2 ) w ( 3 2 9 ) = 矿最, s = ( 嬲一鸭x 玛一) 7 ( 3 2 1 0 ) 矩阵瓯称为总类内离散度矩阵,它比例于相伴的,l 维数据的样本协方差矩阵,它 是对称的及半正定的,当 玎时通常是非奇异的。最称为类问离散度矩阵,它 浙江大学硕士学位论文 也是对称的及半正定的。由于类间离散度矩阵最是两个向量的外积,所以其秩 最多为l ,另外由于品 ,= ( j ,l i 一鸭) 7 w ,因此对任意向量m ,墨w 是在啊一方 向上的,故是奇异的。引入和墨,可将p i s h e r 线性判决函数l ,写成: 以( 叻= 舞( 3 2 1 1 ) 为了求得最优的鉴别向量,将,对w 微分得 筹w o 耐z s 6 w = 塑毪舞笋业( 3 2 1 2 )跏即、矿& w 7( 矿w ) 2 7 设 名:梁 ( 3 2 1 3 ) & w 、 容易看出,使i ,达到极大的向量w 必须满足: s w = 五& 1 ,( 3 2 ,1 4 ) 显然,这是一个求解广义特征值的问题,若& 非奇异,则可以得到一个一般 的特征值问题: 1 s w = 3 , w ( 3 2 1 5 ) 在此,由于s ,总是在码一鸭方向上的,所以没有必要求出s 1 最的特征值 和特征向量。同时由于1 ,的比例因子是非实质性的,所以可以立即把解写成: w - - - - 。( 确一鸭) ( 3 2 1 6 ) 这样就得到一个f i s h c r 线性判别,该向量就称为f i s h e r 鉴别向量。f i s h e r 鉴别 向量使类间离散度与总类内离散度之比达到最大,这样就把高维模式样本( ,l 维 问题) 转化为一维模式样本( 一维问题) ,并在一维空间( 直线) 上保持最优的鉴别 力,也就是i , r t , f i s h e r 鉴别向量能将高维模式以最优的可分性指标变换成一维模式。 如图3 3 所示,两类样本投影到新的一维向量之后,红线表示的分解面将该一维 向量准确的分开,并保证了转换后的样本的类间距离最大和类内距离最小。图3 4 显示了利用f i s h c r 线性判别的方法将两类分开的一个例子,随机生成两类,分别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论