(模式识别与智能系统专业论文)计算机视觉中的鲁棒估计方法.pdf_第1页
(模式识别与智能系统专业论文)计算机视觉中的鲁棒估计方法.pdf_第2页
(模式识别与智能系统专业论文)计算机视觉中的鲁棒估计方法.pdf_第3页
(模式识别与智能系统专业论文)计算机视觉中的鲁棒估计方法.pdf_第4页
(模式识别与智能系统专业论文)计算机视觉中的鲁棒估计方法.pdf_第5页
已阅读5页,还剩122页未读 继续免费阅读

(模式识别与智能系统专业论文)计算机视觉中的鲁棒估计方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 参数化模型是计算机 ! ! i 【觉q 1 一种重要的数据处理方法。很多计算机视觉问 题,都归结为对参数化模型的估计问题。在实际应用中,尤其是视觉应用中, 观测数据常常含有大量离群数据,这就要求参数估计方法必须具有一定的鲁棒 性。鲁棒性是计算机视觉算法实用化的前提。近年来,关于鲁棒估计的研究越 来越引起人们的重视。鲁棒估计在物体识别,图像恢复,图像分割,运动分 析,三维重建等方面取得了广泛心用。然而,在很多应用场合,如何设计具有 强曾悻性的估讣方法,仍然是一个网难的i 、u j 题。虽然已经存在一些具有高溃点 的鲁棒估计子,但这些方法在通用性和精度上还存在一定局限。本文将讨论关 :鲁棒估计的基本理论及其在计算机视觉中的应用,分析有关鲁棒估计的螳 根本性问题,并探讨如何设计具有强鲁棒性,高精度和通用性的估计方法。 本文首先讨论关于鲁棒估计的一些基本概念,介绍鲁棒统计学中对于估计 子鲁棒性的定义以及几种基于鲁棒统计量的估计方法,分析传统鲁棒统计学的 f i 足之处。为了克服鲁棒统计学的局限,考虑到计算机视觉应用对鲁棒估计的 具体需求,本文提出了关于观测数据的结构化密度假设。在此基础上给出了鲁 棒性新的定义,作为对传统鲁棒估计定义的推广。本文还结合计算机视觉的研 究背景,介绍了鲁棒估计的j l 个典型应用实例,分析了常见的几种鲁棒估计方 法的优缺点。 m 估汁是一类重要的鲁棒估计方法,很多鲁棒估计子都可以归结为m 估计 的彤式。本文讨论了m 一估计子的定义,性质以及求解方法。重降型m 一估计予是 一类鲁棒性较强的m 一估计,它可以完全克服离群数据的影响。本文讨论了重降 犁m 一估计子及其标准化形式,分析了估计过程中尺度参数的具体意义,指出尺 度参数是影n l f i j m 估计性能的重要因素,并进i 步时论了确定尺度参数的方法。 此外,本文还讨论了应用m 估计进行运动分析的过程,提出了一种基于鲁棒统 计量的运动检测方法,并结合主动轮廓模型,对视频序列中的独立运动物体进 行轮廓跟踪。基于实际丰见频的实验表明,该算法取得了良好的效果。 非参数统计学与鲁棒统计有着紧密联系,一些非参数统计方法,本身就 具有良好的鲁棒性。本文讨论了非参数统计学中的核密度估计方法,以及基 于核密度估计的模式检测算法- - m e a ns h i t t 算法。本文将m e a ns h i f t 算法应用到 聚类分析中,并与基于类内离散度的聚类算法进行比较,分析了各自的优缺 点。m e a ns h i f t 算法的另一应用是图像的保持边缘平滑。本文讨论了多种图像保 边平滑方法,分析了他们之间的联系,特别是鲁棒估计与m e a n ss h i f t 滤波之间 的本质联系。尺度参数是影响图像平滑效果的重要因素。本文从鲁棒估计的角 度出发,结合分段常数模型,提出了一种尺度自适应的图像平滑算法,实验表 中国科学技术大学博士学位论文 明,该算法明显优于固定尺度的平滑算法。 最后,本文讨论了线性e i v 模型的鲁棒估计方法,分析了各种用于线性模 型的鲁棒估计方法的优缺点。在结构化密度假设的前提下,本文提出了一种新 的基于线性e i v 模型的鲁棒估计算法。理论分析和实验表明,该算法在鲁棒性 和精度上均明显优于现有的鲁棒估计方法。为了进一步处理多结构混杂数据, 减少模型估计过程中的二义性,本文提出了用于多结构混杂数据的鲁棒估计与 样本分类的完整解决方案,并给出了相关的实验与分析。 关键词:鲁棒估计,计算机视觉,参数化模型,鲁棒统计学,m 一估计,非参数 统计,核密度估计,m e a ns h i f t 算法,遗传算法,聚类分析,主动轮廓模型,运 动分析,图像平滑,线性e i v 模型,多结构混杂数据 i i 英文摘要 a b s t r a c t p a r a m e t r i cm o d e l sa r ew i d e l yu s e di nc o m p u t e rv i s i o n m a n yc o m p u t e rv i s i o n p r o b l e m sc a l lb ef o r m u l a t e di n t op a r a m e t r i cm o d e l s i nr e a la p p l i c a t i o n s ,t h eo b s e r v e d d a t as e to f t e nc o n t a i n sh i g hp e r c e n t a g eo fo u t l i e r s ,w h i c hm a k e si tn e c e s s a r yt ou s er o b u s tm e t h o d sf o rp a r a m e t e re s t i m a t i o n f o ra n yp r a c t i c a lc o m p u t e rv i s i o na l g o r i t h m s , r o b u s t n e s so ft h ee s t i m a t o rm u s tb ec o n c e m e d r e c e n t l y t h et h e o r i e sa n d a p p l i c a t i o n s a b o u tt h er o b u s te s t i m a t i o nh a v ea t t r a c t e dm u c ha t t e n t i o n r o b u s te s t i m a t i o nt e c h n i q u e s h a v eb e e na d o p t c di nm a n yc o m p u t e rv i s i o np r o b l e m ss u c ha si m a g er e s t o r a t i o n ,i m a g es e g m e n t a t i o n ,m o t i o na n a l y s i sa n ds c e n er e c o n s t r u c t i o n h o w e v e r , i ts t i l lr e m a i n s v e r yd i f f i c u l tt oc o n s t r u c tah i g h l yr o b u s tm e t h o dt om e e tt h er e q u i r e m e n t so f t h er e a l a p p l i c a t i o n s a l t h o u g hs o m er o b u s te s t i m a t o r sw i t hh i g hb r e a k d o w np o i n t sh a v eb e e n p r o p o s e d ,t h e r ea r es t i l ls o m el i m i t sw i t ht h e i ra c c u r a c ya n dg e n e r a l i t y t h i sd i s s e r t a t i o nd i s c u s s e st h et h e o r i e sa n d a p p l i c a t i o n so f r o b u s te s t i m a t i o nm e t h o d s ,a n da n a l y z e s t h eb a s i cp r o b l e m sa b o u tr o b u s te s t i m a t i o n i ta l s od i s c u s s e sh o wt od e s i g nt h er o b u s t e s t i m a t o rw i 血h i g hr o b u s t n e s s h i g ha c c u r a c ya n dg e n e r a l i t y f i r s t ,s o m ef u n d a m e n t a lc o n c e p t sa b o u tr o b u s te s t i m a t i o nt h e o r ya r ei n t r o d u c e d t h es t a t i s t i c a ld e f i n i t i o no ft h er o b u s te s t i m a t o ri sg i v e na n ds o m er o b u s ts t a t i s t i c s m e t h o d sa r ed i s c u s s e d t h el i m i t so ft h et r a d i t i o n a lr o b u s ts t a t i s t i c sa r ee x a m i n e d t oo v e r c o m et h es h o r t c o m i n g so fr o b u s ts t a t i s t i c sa n dt om e e tt h er e q u i r e m e n t so ft h e c o m p u t e rv i s i o na p p l i c a t i o n s ,t h es t r u c t u r a ld e n s i t ya s s u m p t i o ni sp r o p o s e d b a s e d o nt h ea s s u m p t i o n ,an e wd e f i n i t i o no ft h er o b u s te s t i m a t o ri sp r e s e n t e d ,w h i c hc a n b er e g a r d e da st h eg e n e r a l i z a t i o no ft r a d i t i o n a lr o b u s te s t i m a t o r s o m er o b u s tc o r n p u t e rv i s i o nm e t h o d s ,w h i c ha r ei n d e p e n d e n to f r o b u s ts t a t i s t i e s ,a l ea l s oe x a m i n e d t o d e m o n s t r a t et h eu s eo f r o b u s te s t i m a t i o ni nc o m p u t e rv i s i o n ,s o m et y p i c a la p p l i c a t i o n s o fr o b u s te s t i m a t o ra r ed i s c u s s e d m e s t i m a t o ri soneo ft h em o s ti m p o r t a n tr o b u s te s t i m a t o r s m a n yr o b u s te s t i m a t o r sc a nb ef o r m u l a t e di n t ot h ef o r mo fm e s t i m a t o r t h ed e f i n i t i o n ,p r o p e r t i e sa n d t h es o l u t i o no ft h em e s t i m a t o ra r ei n t r o d u c e d 1 1 1 er e d e s c e n d i n gm e s t i m a t o r s w h i c h c a nc o m p l e t e l ye l i m i n a t et h ei n f l u e n c eo fo u t l i e r s a r ea l s oe x a m i n e d t h ei m p o r t a n c e o ft h es c a l ep a r a m e t e rt ot h em e s t i m a t o ri se m p h a s i z e da n dt h er o b u s ts c a l ee s t i m a - t i o nm e t h o di sd i s c u s s e d t h em e s t i m a t o ri sa p p l i e dt om o t i o na n a l y s i s am o t i o n d e t e c t i o nm e t h o db a s e do nr o b u s ts t a t i s t i c si sp r o p o s e d c o m b i n e dw i t ht h ea c t i v ec o n t o u rm o d e l ,i ti sa p p l i e dt ot r a c kt h ec o n t o u ro ft h ei n d e p e n d e n t l ym o v i n go b j e c t si n t h ev i d e os e q u e n c e t h ep e r f o r m a n c eo ft h em e t h o di sd e m o n s t r a t e do nr e a li m a g e i l l 中国科学技术大学博士学位论文 s e q u e n c e s - n o n p a r a m e t r i es t a t i s t i c sh a sac l o s er e l a t i o n s h i pw i t hr o b u s te s t i m a t i o n m a n y n o n p a r a m e t r i cm e t h o d sh a v es h o w ng r e a tr o b u s t n e s s k e r n e ld e n s i t ye s t i m a t i o nt e c h n i q u e sa r ei n t r o d u c e da n dt h em e a ns h i f tm e t h o db a s e d o nk d e w h i c hc a ns e a r c ht h e m o d e si nt h ep r o b a b i l i t ys p a c e i sg i v e nf u r t h e rd i s c u s s i o n t h em e a ns h i f ta l g o r i t h m i sa p p l i e dt ot h ec l u s t e ra n a l y s i sa n dc o m p a r e dw i t ht h ec l u s t e r i n ga l g o r i t h mb a s e do n t h em i n i m u mo ft h ei n t r a c l a s sv a r i a n c e a n o t h e ra p p l i c a t i o no ft h em e a ns h i f ta l g o r i t h mi st h ee d g e p r e s e r v i n gi m a g es m o o t h i n g d i f f e r e n ti m a g es m o o t h i n gm e t h o d s a r es u r v e y e da n dt h er e l a t i o n s h i pb e t w e e nt h e mi sa n a l y z e d t h er e l a t i o n s h i pb e t w e e n r o b u s te s t i m a t o ra n dm e a ns h i f ta l g o r i t h mi sg i v e ns p e c i a ld i s c u s s i o n t h ee f f e c to f t h e s c a l ep a r a m e t e rt ot h es m o o t h i n gi sa l s od i s c u s s e d b a s e do nt h ep i e c e - w i s ec o n s t a n t m o d e la n dr o b u s ts t a t i s t i c s ,an o v e ls c a l e a d a p t i v ei m a g es m o o t h i n ga l g o r i t h mi sp r o p o s e d e x p e r i m e n t sh a v es h o w n t h a ti ti ss u p e r i o rt ot h ef i x e d s c a l ei m a g es m o o t h i n g m e t h o d s f i n a l l y , t h er o b u s te s t i m a t i o nm e t h o d sf o rt h el i n e a re i vm o d e la r ed i s c u s s e d t h e a d v a n t a g e sa n ds h o r t c o m i n g so fp r e v i o u sr o b u s te s t i m a t o r sa r ee x a m i n e d u n d e rt h e s t r u c t u r a ld e n s i t ya s s u m p t i o n ,an o v e lr o b u s te s t i m a t i o nm e t h o df o rl i n e a re i vm o d e li s p r o p o s e d e x p e r i m e n t sh a v es h o w nt h a tt h i sm e t h o do u t p e r f o r m sp r e v i o u so n e si nb o t h r o b u s t n e s sa n da c c u r a c yt or e d u c et h em o d e la m b i g u i t i e sw h e nd e a l i n gw i 也m u l t i p l e s t r u c t u r a lc o n t a m i n a t e dd a t a ,t h em u l t i m o d e le s t i m a t i o ns t r a t e g yi sd i s c u s s e da n da c o m p l e t es o l u t i o nt o r o b u s te s t i m a t i o na n dd a t ac l a s s i f i c a t i o nf o rm u l t i p l e s t r u c t u r a l c o n t a m i n a t e dd a t ai sp r e s e n t e d e x p e r i m e n t a lr e s u l t sh a v es h o w ni t sg r e a te f f i c i e n c y k e yw o r d s : r o b u s te s t i m a t i o n ,c o m p u t e rv i s i o n ,p a r a m e t r i cm o d e l s ,r o b u s ts t a t i s , t i c s ,m e s t i m a t o r ,n o n p a r a m e t r i es t a t i s t i c s ,k e r n e ld e n s i t ye s t i m a t i o n ,m e a ns h i f ta l g o r i t h m ,g e n e t i ca l g o r i t h m ,c l u s t e ra n a l y s i s ,a c t i v ec o n t o u rm o d e l ,m o t i o na n a l y s i s ,i m a g e s m o o t h i n g ,l i n e a re i vm o d e l ,m u l t i p l e - s t r u c t u r a lc o n t a m i n a t e dd a t a j v 第章引毒 第一章引言 1 1 计算机视觉与鲁棒估计 计算机视觉主要研究如何从二维观测图像出发,通过分析与计算,形成对 三维环境的理解。计算机视觉作为人工智能的一个分支,其终极目标是模拟人 的视觉功能。自m a r r 提出的计算视觉理论框架以来,研究者们就视觉系统的各 个层次和功能,作出了大量的探索,取得了很多有意义的研究成果。一些源于 计算机视觉的实用算法,已经广泛应用丁工业监控,信号处理,多媒体等诸多 方面。 然而,由于人类的视觉行为是极其复杂的过程。目前我们对于人脑处理视 觉信号的过程的认识尚停留在初级阶段,对视觉与感知的形成尚缺乏深入的认 识。计算机视觉中的一些根本性问题,还没有得到很好地解决。在很多实际应 用中,很多计算机视觉算法的抗干扰能力,计算效率和精度尚需提高。 参数化模型( p a r a m e t r i cm o d e l ) 是计算机视觉中对观测数据进行定量分析的 一个重要工具。在很多计算视觉问题中,观测模型可以使用参数化模型以及加 性高斯白噪声进行描述。因此,模型的参数估计问题是计算机视觉中的一个基 本问题。然而,计算机视觉对于参数估计有其特殊的需求。在成像过程中, 于成像器件和外界干扰的影响,图像数据中常常会有一些较大的随机性误 差。这就导致了观测数据会包括一些偏离模型假设的数据,我们称之为离群数 据( o u t l i e r ) 。传统的基于误差最小二乘的方法,凼受到离群数据的影响,估计结 果往往偏离真实值。冈此,离群数据的存在,对于参数估计方法,提m 了更高 的要求。参数估计方法必须具有一定的鲁棒性( r o b u s t n e s s ) ,即容忍离群数据的 能力,而所需鲁棒性的强弱,则取决于具体应用的要求。 计算机视觉研究中的很多基本问题,如图像分割,边缘检测,三维重建 等,其处理对象往往含有多个结构。单个参数化模型往往不能描述观测数据的 全部。这些问题的求解,一般都可以归结为一个“参数估计一样本分类”的循 环问题。方面,为了将多结构数据分类,必须知道各个结构的参数,另+ 方 面,结构参数的精确估计,只能在数据正确分类之后,才能进行。因此,多结 构混杂数据的处理,是一个非常困难的问题。 混合高斯模型是计算机视觉中处理多结构混杂数据的一种常用方法,它将 中国科学技术大学博士学位论文 多结构混杂数据视为若干个高斯模型的混合分布。通常,混合高斯模型需要 结合m a f k o v 随机场【1 1 ,和e m 算法3 l 来完成参数估计。混合高斯模型在图像分 割【4 】【5 】,物体跟踪【6 1 ,运动分析f 7 1 1 8 】f 9 l 等方面取得了一定效果。然而,混合高斯 模型的个很大局限在于它需要已知结构的数目,而这一般是不现实的。这就 大大限制了该模型的应用。此外,基于正态假设的估计算法对离群数据的容忍 能力也很难令人满意。 从鲁棒估计的角度看,对于多结构混杂数据中的任一类结构而言,其离群 数据不仅包括粗差数据,而且还包括其他结构的数据。因此,基于多结构混杂 数据的参数估计,实际上需要的是一个具有强鲁棒性的估计方法,它能够在高 比例的离群数据的情况下,以较高的精度估汁出结构参数,进而使用估汁出的 参数来完成数据分类。近年来,一些研究人员已经开始就这方面进行大量努 力,并提出了一些强鲁棒性的估计了f 1 o 】f 1 2 】3 1 4 1 t5 】f 1 6 1 f l ”。然而,目前提出的 这些方法往往需要对数据做出一些过强的先验假设,并且它们的性能和精度尚 需进一步提高。 1 2 鲁棒估计的理论基础 在统计学理论的研究和应用过程巾,人们逐渐认识到单一正态假设住 实际虚用中的局限。但是直到二u :纪6 0 年代,一些统计学家才开始对估i 十 方法的鲁棒性进行系统研究。t u k e y , h u b e r , h a m p l e 等人的早期工作 2 0 】川 1 2 2 2 3 】1 2 4 】f 2 5 】,明确了关于鲁棒性的一些基本概念,奠定了鲁棒统计学( r o b u s t s t a t i s t i c s ,又译稳健统计学) 的基础。近年来,对鲁棒统计学的研究趋丁实用 化,出现了m 估计 2 u 2 6 1 ,l m e d s 估计【2 7 】,m c d 估计 2 8 2 9 等一系列实用算法, 鲁棒统计学的研究取得了丰硕的成果。鲁棒统计学已成为数理统计学的一个重 要分支。 鲁棒统计学主要研究能够容忍一定量离群数据的统计方法,即当观测数据 中,部分样本不符合统计模型似设时,如何保证参数估计和统计推断的正确 性。鲁棒统计学中的一个重要概念是估计子的“溃点”,即某个鲁棒估计方法 所能容忍的离群数据的最大比例。传统的鲁棒统计学认为,观测数据中,离群 数据不应超过5 0 ,即观测样本的大多数能够用单个统计模型描述。然而,在 计算机视觉中,往往出现离群数据超过半数的情况。因此,基于鲁棒统计学的 参数估计方法在应用上具有一定局限性。尽管如此,鲁棒统计学的基本概念和 一2 一 第章引言 方法,对于鲁棒估计的研究仍然起着指导性作用。 鲁棒估计方法的另一理论来源是非参数统计学 3 0 】l ( n o n p a r a m e t r i cs t a f f s t i c s ) ,它是统计学中另一个重要分支。非参数统计学主要研究当观测数据的统 计模型形式和参数未知时,如何仅从样本集中,估计未知概率密度函数和进行 统计推断。非参数统计学与鲁棒统计学相互独立而又联系紧密。鲁棒统汁学的 某些方法,可以从非参数统计的角度得到解释。而一些非参数统计方法,由于 能够适用于很大一类的概率分布,往往具有很强的鲁棒性。 非参数统计方法不需要对先验分布作过强的假设,因而应用广泛。近年 来,一些计算机视觉研究人员,开始尝试将非参数统计应用到些实际问题 中,取得了较好的效果。而在鲁棒估计方法的研究过程中,核密度估计,中位 数估计等非参数统计方法,已经成为常用的工具。 1 3 鲁棒估计的应用与发展 在计算机视觉研究中,为了解决遇到的一些实际问题,研究人员很早 就独立于鲁棒统计学提出了一些强鲁棒性的估计方法。其中最有代表性的 h o u g h 变换【3 2 】与r a n s a c 算法。这两种方法从本质上说,都是通过对参数 空间进行搜索,来寻找最优的模型参数。它们可以处理含大量离群数据的观测 样奉集,其鲁棒性强于基于鲁捧统计学的方法。然而,这两种方法都存在其局 限性,h o u g h 变换的精度受参数离散化过程影响,并且当参数数目增加时,其 存储量迅速增长,效率大大下降。而r a n s a c 算法则需要事先指定阙值参数, 并且其估计结果对阙值比较敏感。 近年来,计算机视觉研究人员一方面应用鲁棒统计学和非参数统计学的理 论工具和算法,来解决计算机视觉中的实际问题,另一方面,尝试对h o u g h 变 换和r a n s a c 算法进行改进,克服其局限性。目前,在图像恢复【3 4 ,物体识 别口5 1 3 6 ,运动估计 3 7 】,三维重建 3 8 】f 3 9 1 等诸多方面,一些原先使用传统方法很 难处理的问题,通过应用鲁棒估计方法,得到了很好的解决。 目前,对鲁棒估计的研究包括以f 两个主要方面:一是鲁棒估计方法的应 用研究,即研究如何进一步拓宽鲁棒估计的应用范围,应用鲁棒估计方法来解 决更多的计算机视觉问题。另一方面是对鲁棒估计子本身的研究,即通过分析 鲁棒估计的性质,研究如何改进现有的鲁棒估计子,提出具有更强鲁棒性和更 高精度的估计方法。 中l 鞫科学技术大学博七学位论文 1 4 论文主要内容 本文主要讨论鲁棒估计的基本理论及其在计算机视觉中的应用。主要完成 了以下研究工作: 1 分析了鲁棒统计学的基本理论,方法及其局限性,提出了关于观测样本的 结构化密度假设,并基于该假设,给出新的鲁棒性定义,为研究溃点超 过5 0 的高鲁棒性估计子提供了合理依据。 2 分析了m 估计方法的基本性质,讨论了尺度参数在m 估计中的作用。讨论 应用鲁棒估计进行运动分析的过程,提出了一种基于鲁捧统计量的运动检 测方法,并结合主动轮廓模型,提出了一种用于运动视频序列的物体跟踪 算法。 3 讨论了非参数统计学的基本原理和方法,分析了核密度估计和基于核密度 估计的m e a ns h i f t 算法。分析了聚类问题与核密度估计之间的联系,提出 了一种基于遗传算法的聚类分析方法,同时设计了一种基于m e a ns h i f t 过 程的聚类方法,并分析这两种方法的异同点。 4 分析了各种边缘保持的图像滤波算法及其与鲁棒估计之间的联系,从鲁棒 估计的角度,提出了一种新的自适应尺度的鲁棒滤波方法,用于图像恢复 与去噪。与现有方法相比,该算法在平滑图像和保持边缘结构方而具有更 好的效果。 5 分析了多结构混杂数据的鲁棒估计与样本分类问题,提出了一种新的基于 线性e i v 模型的鲁棒估汁算法。与现有的鲁棒估计算法相比,该算法具有 更强的鲁棒性和更高的精度。将该算法用于多结构混杂数据的鲁棒分析, 取得了较好的效果。 论文各部分内容安排如下: 从第_ 章开始,我们将讨论与鲁棒估计有关的些基本概念与方法,分析 传统鲁棒统计学的限制,并提出在大样本条件下,关于观测数据的结构化密度 假设。 第三章讨论了一类重要的鲁棒估计方法一m 一估计,并使用m 估计,结合主 动轮廓模型,来解决运动摄像机与复杂背景下的运动检测与物体跟踪问题。 4 第章引盅 第四章主要讨论非参数统计学的方法与应用。介绍核密度估计的方法 与m e a ns h i f t 算法,研究如何应用非参数统计方法,解决聚类分析,图像恢复等 实际问题,并讨论核密度估计与鲁棒估计之问的联系。 第五章主要讨论线性模型在计算机视觉中的推广一线性e 1 v 模型以及正交 最小二乘估计的基本原理。并讨论基于线性e i v 模型的多结构混杂数据的鲁棒 分析和样本分类问题。 最后,在第六章中,我们对本文的研究工作进行总结,并给出关于鲁棒估 计的一些基本结论。 第_ 二章鲁棒估计的赫本理论与方法 第二章鲁棒估计的基本理论与方法 本章摘要 引入鲁棒估计的基本概念,介绍鲁棒性的统计学定义,结合埘0 搬估计, 介绍有关鲁棒估计的一些基本性质。分析传统的鲁棒统计学的局限性,并提出 在大样本情况下的结构化密度假设。该假设克服了传统定义的限制,为解决计 算机视觉中的多结构混杂数据的鲁棒分析问题提供了依据。最后讨论在计算机 视觉中的鲁棒性的应用实例,并分析了几种常用的鲁棒估计算法的优缺点。 2 1 鲁棒估计的基本概念 首先我们考虑如下的线性同归问题:设观测数据集( x ;,玑) ,i = 1 ,2 ,n 满 足如卜线性模型 y :x t o + q + e( 2 1 ) 其中x = ( z ,x d 7 ,f 为同归变量 线性回归问题就是要利用观测数据集 ( o ,o ) 为同归模型的参数,e 为随机噪声。 对回归模型的参数进行估计。 线性回归问题最初由高斯使用最小二乘法( l e a s to f s q u a r e s ) 进行求解。其 基本原理是寻找一组参数,使模型残差n 的平方和达到最小。对应线性回归模 型2 1 的最小二乘估计为: a r g m i n zr ; a r g 蛩乎( 玑一x ,口一a ) 2 ( 2 2 ) ( 2 3 ) 从概率统计的角度看,这种经典的最小二乘估计,实际上是基于以下统计 假设的: 1 所有观测数据都是由一个单个线性模型产生的; 2 观测过程中产生韵噪声,可以视为零均值高斯白噪声,即每次观测的数据 误差毛是独立同分布的正态随机变量,其均值为o ,方差为口2 。 一7 一 中国科学技术大学博十= 学位论文 陵陵 ( a ) 含租荠的混杂数据( b ) 多结构混杂数据 圈2 1 混杂数据 可以证明,在以上假设满足的情况下,最小二乘估计是线性模型参数的最 小方差无偏估计【4 0 】。并且可以使用估计出的参数,进一步对噪声的标准差进行 仕;+ 4 1 1 但是,在实际观测过程中,上述假设往往不能满足,通常有两种原凼 1 观测过程中出现了偶然性的,较大的扰动: 2 观测数据实际隐含了多种结构,f i 能用单一模型束描述。 ( 24 ) 以上两种因素,都可以导致在观测过程中,产生所谓离群数据( o u t l i e r s ) , 叩不符合单一模型假设的数据。这样,观测数据集就呈现一种混杂分布的状 态( c o n t a m i n a t e d d a t a ) 。特别的,我们把前一种因素所导致的离群数据称为“粗 差”( g r o s se r r o r s ) ,而把后一种凶素所导致的离群数据称为“结构化离群数 据”( s t r u c t u r e do u t l i e r s ) 。 图2 1 中显示了两组混杂分布数据的例了。图2 1 ( a ) 中的离群数据主要是 由粗差构成。而在图2 1 ( b ) 中,离群数据不仅包括粗差,还包括结构化离群 数据。对于后一种观测数据,我们称之为多结构混杂数据( m u l t i p l e s t r u c t u r a l c o n t a m i n a t e dd a t a ) 。多结构混杂数据的分析是个极其困难的问题。很多鲁棒 估计方法,当用于多结构混杂数据时,都不能得到准确的估计结果。我们将在 第四章中专门讨论该类数据的鲁棒分析,并提出解决方法。 第二章鲁棒估计的基本理论与方法 图2 2混杂数据的l s 拟合 图2 3 混杂数据的l m e d s 拟合 对于混杂分布的数据,使用l s 估计所得到的参数会受到离群数据的影响而 偏离正确值。并且,基于l s 估计所作的方差估计,会过高的估计误差尺度。例 如,对图2 1 ( b ) 中的多结构混杂数据进行最小二乘拟合,其结果如图2 ,2 所示。 可以看出,由于离差数据的影响,l s 参数估计的结果偏离了真实值,而且, 征使用l s 参数估计的结果来估计噪声标准差盯时,我们将得到远大于真实观测 噪声尺度的估计结果。由于残差小于2 口的数据一般可以被认为是符合模型的 数据。这样就导致了观测数据中大部分数据都符合同一模型的错误判断( 如 图2 2 ) 。因此,当观测数据中出现离群数据,特别是结构化离群数据时,l s 估 计不仅不能正确估计参数,而且还会起到“模型隐藏”的副作用。 9 中国科学技术大学博:l = 学位论文 1 1 f ” ” 卜。溪一_ 1扩溪_ 。 扩一一_ i扩一:誉。:i i f :矗:如:矗:志:;i :! 南:l :矗:古:i :矗:吉:盎: ( a ) 混杂数据的位置估讣c o ) 多结构混杂数据的位置估 剀2 4 位置估计 为了从混杂数据中正确估计出模型的参数,我们必须使用能够克服离群数 据影响的估计子,即采用鲁棒估计的方法。l m e d s ( l e a s tm e d i a no f s q u a r e s ) 估计【”】是一种典型的鲁棒估计方法,它通过最小化残差平方中位数的方法,来 求解最优的模型参数。关于回归模型2 i 的l m e d s 估计定义如下 o l d i e d s ,a l a f e d s ) = a r g m 。i n m e m k - ,蠢) ( 2 5 ) 其中,m e d 4 e 表取中位数操作。由丁中位数具有鲁棒性因此与l s 估讣相 比,l m e d s 估计可以在观测数据中含有一定量离群值的隋况下,正确估计模型 参数。对图2 1 ( b ) 中的数据使用l m e d s 仙i l 的结果如图2 3 所示。 除了常用的线性回归分析外,还有。类重要的估计问题,称为位置参数估 计【4 2 】。其模型如下 y=x+e( 2 6 ) 其中,y 为p 维随机向鼍,x 称为位置参数,为观测噪声,通常假设为零均值白 噪声。显然,一维的位置参数模型就是当线一陀回归模型中只含常数项时的特例 情形。 位置参数估计同样也存在着鲁棒性的问题。当观测量为单一正态总体时, 位置参数的最优估计就是观测数据的均值向量,它使得估计的均方误差达到极 小。但是当观测数据中混杂离群数据时,均值估计因受到离群数据的影响而偏 离准确值,因此均值估计不具有鲁棒性( 如图2 4 ( a ) 所示) 。如何实现鲁棒的位 置估计也是实际应用中的一个重要问题。 一1 n 一 第二:孥鲁棒估计的罐本理论与方法 注意到,对于位置估计,当观测数据中存在多个结构时,多结构的位置参 数估计问题与数据聚类问题有相似之处( 图2 4 ( b ) ) 。位置参数的估计相当于确 定聚类中心。因此,一些基于聚类分析的方法町以用于多结构数据的鲁棒位置 估计,在第三章中,我们将比较基于鲁棒位置估计的方法与传统的聚类方法之 问的异司点。 2 2 鲁棒统计学 2 2 1 基本定义 鲁棒统计学( r o b u s ts t a t i s t i c s ,又译稳健统计学) 是数理统计的一个分 支。从二十世纪6 0 年代开始到现在,鲁棒统计学的研究成果已经广泛应用到金 融统计,数据分析,计算机视觉等诸多方面。这里,我们首先简单回顾一下鲁 棒统计学中关于鲁棒性的定义,以及一些相关的概念。 传统的数理统计的诸多方法,如参数估计,假设检验等,都需要对观测样 奉数据建立某个统计模型,即假设观测样本数据满足某种概率分布。最常用的 基本假设,就是止态假设,即假设观测数据满足正态模型。特别的,中心极限 定理指出,在每次测量的条件和精度都相同的情况下,误差的大样本分布总是 渐近正态的。幽此,人们往往认为,观测数据总是满足概率模型假设的,各次 观测数据间的误差,只是随机误差,可以作为独立同分布的正态随机变量处 理。然而,中心极限定理的前提条件实际上是过于理想化的:在实际情况下, 每次观测并非总是如此理想。由于各种人为的或仪器的原因,观测数据都会含 有较大的偏差。高斯在提出最小乘法时,曾谨慎地指出,“观测数据必须具 有同等的精度”,然而,实际数据往往不能做到这一点。 人们进一步希望,如果大部份数据集满足正态假设,沿用正态模型的方 法,能够得到近似准确的结果。然而,t u k e y 在1 9 6 0 年的先锋性论文【1 8 】中指 出,即使只有极少数数据偏离模型假设,也会给最小二乘方法造成较大的误 筹。因此,我们需要新的统计方法,它能够容忍观测数据中出现模型偏离的情 况。鲁棒统计学就是研究在观测数据偏离模型假设的情况下,如何进行统计推 断的问题,它是“关于统计学的稳定性理论”【4 ”。 在t u k e y 之后,h u b e r , h a m p l e 等也展开了关于鲁棒统计的研究,并提 出了鲁棒估计,溃点,杠杆点等重要概念【1 9 】 2 0 】f 2 l 】【2 2 】【2 3 】【2 4 】f 2 s 】。他们的研 究奠定了鲁棒统计学的基础。人们开始认识到鲁棒统计研究的重要 中豳科学技术大学博。 :学位论文 性。8 0 年代以来,r o u s s e e u w 等提出了一系列实用的鲁棒统计方法,如m v e , m c d ,l m e d s ,l t s 等【2 8 】【2 7 】 4 l l 【2 9 】,推动了鲁棒统计学的应用,也标志着鲁棒统计 学开始成为一门成熟的理论分支。 鲁棒统计学中,一个重要假设是:观测数据中,模型数据( i n l i e r s ) 必须占 观测数据的大多数,即至少有5 0 的观测数据满足同一模型。我们称之为多数 假设。基于该假设,可以导出有关鲁棒统计的一些重要的定义如下】: 定义2 1 ( 离群数据( o u t l i e r ) ) :观测数据中,不能为大多数数据所符合的模式描 述的数据,称为离群数据。 定义2 2 ( 回归离群数据( r e g r e s s i o no u t l i e r ) ) :在回归分析中,如果某个观测数据 对不符合大多数数据对所拟合的模型,则称该数据对为回归离群数据。 定义2 , 3 ( 杠杆点( l e v e r a g ep o i n t ) ) :在同归分析中,设( x ,矾) 为某个观测数据 对如果x 湘对于大多数数据,属于离群数据,则称该数据对为杠杆点。 定义2 4 ( 鲁棒估j , j - - t - ( r o b u s te s t i m a t o r ) ) :能够容忍一定量离群数据的参数估计 方法,称为该参数的鲁棒估计了。 为了更精细地描述某个估计方法的鲁棒性,r 面我们介绍溃点( b r e a k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论