(信号与信息处理专业论文)基于层次生成图模型的图像场景分析.pdf_第1页
(信号与信息处理专业论文)基于层次生成图模型的图像场景分析.pdf_第2页
(信号与信息处理专业论文)基于层次生成图模型的图像场景分析.pdf_第3页
(信号与信息处理专业论文)基于层次生成图模型的图像场景分析.pdf_第4页
(信号与信息处理专业论文)基于层次生成图模型的图像场景分析.pdf_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于层次生成图模型的图像场景分析 摘要 图像场景分析是当前图像理解的研究热点,其根本任务就是让计算机正确 解释所感知的图像场景以及场景中的内容。图像理解的过程具有鲜明的层次性, 图像理解的低层数据是视觉特征信息,高层数据是上下文知识信息,这两种类 型的信息贯穿场景分析的整个过程。 本文从数据驱动知识、知识指导数据的角度出发,研究图像分析中视觉信 息的提取和表达,结合平面有向图模型载体,着重研究目标识别模型;同时, 在目标识别模型的基础上构建一种新颖的场景分析模型,建立目标识别和场景 分析之间的约束反馈机制,体现图像分析的反馈和渐进性,最终实现场景中的 目标识别和场景图像的描述与理解等任务。 本文主要研究工作如下: 1 概述了图像场景分析的研究内容,包括场景中的目标识别和场景内容的 描述与理解。总结了平面图模型中无向图结构模型和有向图结构模型的各自特 性,讨论了有向生成图模型下d i r i c h l e t 分布的三种概率推理学习方法。 2 研究了图像场景分析中视觉信息的提取和存储,讨论了层次d i r i c h l e t 过程模型中的参数估计与学习推理问题,推导出g i b b s 采样迭代和概率推理公 式,进行场景单目标分析。针对场景图像的多目标识别问题,提出了在h d p 模 型的目标表达结构上融入部分的特征位置信息方法,形成转换d i r i c h l e t 过程模 型,从而实现多目标类别和多目标实例的检测和识别。 3 初步研究了场景分析图模型方法,借鉴h d p 图模型的分层思想,构建 了“场景一目标一部分”层次结构的生成图模型,建立视觉特征,目标类别与场 景类别之间的概率关系,生成不同场景类别和对应目标类别信息的参数化表达。 同时,验证了场景分析结果对目标分析的指导和约束作用,目标识别的结果可 以反馈作用于场景分析,体现了图像分析中反馈的认知结构。 关键字:h d p 图模型,t d p 图模型,目标识别,场景分析模型,反馈机制 a n a l y s i so fi m a g es c e n eb a s e do nh i e r a r c h i c a l g e n e r a t i v eg r a p hm od e l a b s t r a c t c u r r e n t l yi m a g es c e n ea n a l y s i si st h ec e n t r a li s s u ei ni m a g eu n d e r s t a n d i n g t h e e s s e n t i a lt a s ki st oi n t e r p r e tt h ea c q u i r e di m a g es c e n ea n di t s c o n t e n t sa c e u r a t e l v i m a g eu n d e r s t a n d i n gh a st h ed i s t i n c tl a y e rp r o p e r t y ,t h ev i s u a li n f o r m a t i o ni nl o w e r l a y e r a st h ec o n t e x t u a l k n o w l e d g ei n f o r m a t i o ni n h i g h e ro n e ,v i s u a ld a t aa n d c o n t e x t u a lk n o w l e d g ea r et w o t y p e so fi n f o r m a t i o nt h r o u g ha n a l y s i ss c e n ei m a g e s c o n s i d e r i n gk e yi s s u e sa b o u td a t a - d r i v e nk n o w l e d g ea n dk n o w l e d g e g u i d i n g d a t ai ni m a g es c e n ea n a l y z i n g ,t h i sp a p e rr e s e a r c ho nv i s u a lf e a t u r ee x t r a c t i o na n d d e s c r i p t i o ni ni m a g ea n a l y s i s ,b yc o m b i n ef l a td i r e c t e dg r a p hm o d e l ,f o e u s e so n o b j e c tr e c o g n i z eg r a p hm o d e l ;m e a n w h i l e ,b u i l dan o v e ls c e n ea n a l y s i sm o d e lb a s e d o no b je c tr e c o g m z eg r a p hm o d e lt or e p r e s e n tc o r r e s p o n d i n gr e s t r i c t i o na n df e e d b a c k m e c h a n i s m s ,u l t i m a t e l y a c h i e v e dt a s k s a s o b j e c t r e c o g n i t i o n a n d s c e n e u n d e r s t a n d i n g t h i sp a p e ri n c l u d e st h ef o l l o w i n gc o n t e n t s : 1 w ed e s c r i b e r e s e a r c hc o n t e n t so fi m a g es c e n e a n a l y s i s ,i n c l u d i n gr e c o g n i z e o b je c ti ns c e n ea n ds c e n eu n d e r s t a n d i n g ,a n a l y s i st w ok i n d so fg r a p hm o d e la n d t h e i rc h a r a c t e r s t h e nw ed i s c u s st h r e e k i n d so fd i r i c h l e tp r o c e s sp r o b a b i l i t y d i s t r i b u t i o na n dt h e i rl e a r n i n ga n di n f e r e n c em e t h o du s e di ng r a p h i c a lm o d e l 2 w es t u d yt h ee x t r a c t i o na n d s t o r a g eo nv i s u a li n f o r m a t i o nt os 0 1 v et h e g r a p h i cm o d e l sa sc a r r i e r si ni m a g es c e n ea n a l y s i s t h e nw ed i s c u s st h et h e o r i e sf o r p a r a m e t e re s t i m a t i o na n dp r o b a b i l i t yi n f e r e n c ew i t hh i e r a r c h i c a ld i r i c h l e tp r o c e s s o b t a i nt h eg i b b si t e r a t i v e e q u a t i o n st oa n a l y z es i n g l eo b j e c ti ns c e n ei m a g e w e i n t e g r a t e dt r a n s f o r m e ds p a t i a ll o c a t i o ni n f o r m a t i o ni nh i e r a r c h i c a ld i r i c h l e tp r o c e s s t of o r mt r a n s f o r m e dd i r i c h l e t p r o c e s st o s o l v et h e p r o b l e m s i n m u l t i o b je c t c a t e g o r i e sa n di n s t a n c e sr e c o g n i t i o n 3 w ea n a l y z et h eb a s i cm e t h o df o rs c e n e a n a l y s i sg r a p hm o d e lw h i c h c o n s i d e r si m a g e sa s “s c e n e - o b j e c t p a r t ”t oc o n s t r u c tt h er e l a t i o n s h i pb e t w e e nv i s u a l f e a t u r e ,o b je c tc a t e g o r i e sa n ds c e n ec a t e g o r i e s a tt h es o m et i m e ,w ea l s ov a l i d a t e t h es c e n ea n a l y s i sr e s u l t sa s p r i o rk n o w l e d g eh a v es t r o n gg u i d a n c ea n dr e s t r i c tt o i m p r o v ea c c u r a c yi no b j e c tr e c o g n i t i o na n dr e v e a lf e e d b a c ki ns c e n ea n a l y z i n g k e yw o r d s :h i e r a r c h i c a ld i r i c h l e tp r o c e s s ;t r a n s f o r m e d d i r i c h l e t p r o c e s s ; o b j e c t sr e c o g n i t i o n ;s c e n ea n a l y s i sm o d e l ;f e e d b a c km e c h a n i s m 致谢 悄悄地我来了,带着渴望和憧憬踏上了合工大这片美丽温馨的校园;悄悄 地我走了,带着感激和依恋飞向祖国那辽阔深远的蓝天。时光荏苒,白驹过隙, 转眼就是三年,曾经的分分秒秒都镌刻在我的记忆中。值此论文即将完成之际, 我带着诚恳、喜悦而伤感的心情,写下这篇致谢。它告诉我硕士学习生活已进 入了倒计时,也意味着另一段新的征程即将开始。 “恰同学少年,风华正茂”,三年岁月,师生情同学谊都将成为我生命里的 宝贵记忆,导师的谆谆教导,每一次教导都弥足珍贵;同学的殷切鼓励,每一 句鼓励都温暖我心。图像室“协同形成结构,竞争促进发展”的独特宗旨更是 给我带来了潜移默化的影响,使我受益匪浅。 特别感谢我的导师高隽教授,从踏入校园,走进图像室的那一天,我就被 高老师的渊博学识,儒雅风度所深深折服。高老师不仅教导我们如何“做事”, 更培养我们如何“做人”,所以高老师不仅是我们的学业导师,更是精神导师。 还要特别感谢我的指导老师谢昭硕导。谢老师既有导师般的严格要求,又有学 长般的友爱宽厚,他善于运用启发式思维开发学生的创新能力,每当遇到问题 或感到迷茫时,谢老师总是不厌其烦的给予指导和关心。我的硕士学习生涯里 能得此二位导师的指导,实乃人生之大幸! 拜谢了,我敬爱的老师! 感谢我的父母家人一直以来默默无闻的关心和照顾,你们所付出的心血无 以言表。感谢朱武教授,感谢图像室所有老师和同学,感谢朱士蓉师姐和姚婷 婷师妹,难忘我们在一起学习和交流的欢乐时光。感谢0 9 届计算机与信息学院 的兄弟姐妹们,感谢所有支持和帮助我的朋友们,感谢我的室友。再次展翅之 际祝愿大家带着坚定的信念去开创美好的未来! 图像室的日子里承载了我的努力,这三年所经历的点点滴滴如同璀璨的烟 火在我心头燃放,汇聚成一幅幅绚丽多彩的场景图像。在此,让我再一次谨以 诚挚之心寄托我对母校,对导师,对同窗深深的感激之情。再见了,可爱的母 校! “厚德、笃学、崇实、尚新”的校训将教导我一生;再见了,敬爱的老师! 饮水思源,师恩如海,寸草之心难报三春之晖;再见了,亲爱的同学! 期待再 次相聚,愿我们都能够“长风破浪会有时,直挂云帆济沧海”! 作者:李姗琦 2 0 1 2 年3 月 插图清单 图1 一l 图像理解的输入与理想输出l 图1 2 图像场景分析的研究内容2 图1 3 图像分析两大内容及其相互间的关系3 图l 一4 论文各章节逻辑关系结构5 图2 1 无向图模型应用于图像分析6 图2 2p a r t b a s e d 模型特点表示图一8 图2 3p a r t b a s e d 模型表示图7 图2 4 有向图模型应用于图像分析8 图2 5 有向图模型及转换实例8 图2 6b a g o f - w o r d s 模型表示图9 图2 7b a g o f - f e a t u r e s 模型算法流程9 图2 8 图模型及其与图像分析的关系1 5 图2 9 生成图模型1 6 图2 1 0 含超参的生成图模型1 6 图2 1 1 含超参的生成图模型转换表达1 6 图2 1 2s t i c k b r e a k i n g 过程表示1 6 图2 一1 3 “中国式餐馆”过程表示1 6 图2 1 4h d p 的有向图结构表达1 6 图2 1 5h d p 模型参数含义一1 6 图2 16 基于h d p 的“中国式餐馆”过程【4 副。16 图3 1 三种区域特征提取方法应用于两幅办公室场景图像1 9 图3 21 2 幅办公室场景图像中计算机屏幕的位置2 0 图3 3s i f t 特征描述子2 0 图3 4 交叉验i 正( c r o s s v a l i d a t i o n ) 方法示意图2 1 图3 5 办公室场景图像特征词汇表达2 1 图3 6 基于部分的目标表达结构2 2 图3 7h d p 下的目标部分表达2 2 图3 8h d p 下参数图模型的目标部分转换表达2 3 图3 - 9h d p 下非参数图模型的目标部分转换表达2 7 图3 1 0 包含1 6 种目标类别的图像数据集2 8 图3 11h d p 参数图模型下l6 类目标共享部分的其中7 个2 9 图3 1 2h d p 非参数图模型下1 6 类目标共享部分的其中7 个3 0 图3 1 3h d p 下参数图模型的单目标识别3 0 图3 1 4h d p 下非参数图模型的单目标识别3 0 图3 1 5 参数图模型与非参数图模型在目标分析性能上的比较3 1 图3 1 6 参数图模型下的单目标识别31 图3 1 7 共享部分与不共享部分的参数图模型在目标分析性能上的比较3 2 图4 1 场景分析生成图模型3 4 图4 2 场景分析生成图模型参数对应关系示意图3 4 图4 3 生成图模型下的目标表达3 5 图4 - 4 生成图模型下的场景表达3 5 图4 5 反馈过程框架图一3 8 图4 6 目标视觉外观歧义问题3 9 图4 7 目标识别反馈作用于场景分析,解决场景视觉外观歧义问题3 9 图4 8 反馈过程示意图4 0 图4 9l o t u sh i l l 四类场景图像4 0 图4 1 0 层次生成图模型下的目标识别一4 1 图4 1 l 迭代收敛曲线一4 1 图4 1 24 类场景分析实验的混淆矩阵4 2 图4 1 38 类目标识别实验的混淆矩阵4 2 图4 一1 4 生成图模型与h d p 模型的r o c 性能曲线对比一4 4 图4 1 5 场景分析指导目标识别4 5 图4 1 6 目标识别结果反馈作用于场景分析4 5 图5 一lt d p 的有向图模型结构表达一4 7 图5 2 基于t d p 的“中国式餐馆”过程4 8 图5 3t d p 下参数图模型的场景目标表达5 0 图5 4h d p 模型和t d p 模型学习出的全局部分对比图5 2 图5 5t d p 下非参数图模型的场景目标转换表达一5 4 图5 - 6 预先分割好目标区域的两类场景图像5 5 图5 7t d p 下的参数图模型学习出的部分5 6 图5 8t d p 下的非参数图模型学习出的部分分布5 7 图5 - 9t d p 下参数图模型和非参数图模型的街道场景图像多目标识别5 7 图5 1 0t d p 下参数图模型和非参数图模型的办公室场景图像多目标识别5 7 第一章绪论 1 1 论文研究背景及意义 图像场景分析属于图像理解的范畴,是研究用计算机系统解释图像内容, 实现类似人类视觉系统理解客观世界的一门科学,所要解决的问题是为了完成 某一任务需要从图像中获取哪些信息以及如何利用这些信息来达到目的1 。 图像场景分析的研究初期以计算机视觉为载体,主要研究内容包括图像的 获取、处理、分析及识别,输入的是数据,输出的也是数据,得到图像中有什 么是传统计算机视觉的目的。图像场景分析也与人工智能密切相关,传统意义 上的人工智能以人类知识为对象,通过分析知识的表示、存储和推理柬获得新 的知识【2 】。随着这两门学科的发展,图像场景分析也逐步发展成为计算机视觉 的拓展和延伸和人工智能的研究新领域,是门新兴的综合学科。 图像分析具有鲜明的低层、中层和高层表述的层次性。通常低层的输入为 二维像素点阵图像,输出以像素为单位的图像特征;对低层的输f 处理后形成 的符号描述为中层的输出,数据量减小,抽象度提高;高层操作对从中层抽缘 出的符号进行运算,在此基础上进一步研究图像中目标的特性和f j 标之f i t j 的棚 互关系,并通过理解图像内容完成解释图像场景的任务l j 】。 【大1 此,图像分析的过程是从符号数据到知识语义的过程,是对视觉信息和 知识信息的处理分析过程,具体表现为“表示与存储一一认知与学习一一推理 与理解”的信息表示、处理和分析的过程。从视觉采集硬件设备获取到二维阵 列,进行采样形成像素点集,冉从原始像素上提取 j 视觉特征并存储到计算机, 实现了“视觉信息的表示与存储”;然后根掘已有先验知识,在棚应理论和学j 算法的基础上进行机器学习,完成目标识别、场景分析等了任务,将形成的知 识存储到计算机,实现“知识信息的表示与存储”,即“认知与学习”;最后对 已形成的知识进行“分析和推理”完成最终的图像分析任务。图1 1 & f j 为理想 的图像分析实例。 弹解 卜 图1 1 图像场景分析的输入与理想输 仃b n“bnea 叩剐 s f 擀 三二 n i _ :_ : 轿 narhr 钭白 入 辘 由前述可知,图像分析的过程不仅需要对给定图像中的日标区域进行描述, 还包含对图像场景的整体描述和分析。l i | 美国幽家科学基金会支持的人工智能 进步协会( a s s o c i a t i o nf o rt h ea d v a n c e m e n to fa r t i f i c i a li n t e l l i g e n c e ,a a a i ) 将图 像分析的应用领域主要归纳为三个方面,分别为:遥感图像解释、日标识别和 理解、蕹于内容的图像和视频检索。近年来已在工业视觉、人机交互、视觉导 航、虚拟现实、特定图像分析解释以及_ 三物视觉研究等领域得到了广泛实践。 1 2 图像场景分析的研究内容 图像场景分析 ! 要包括两个方面的研究内容:一是场景中的目标识别;二: 是场景的描述与理解。如图l 一2 所示。场景中日标识别侧重于理解图像局部区 域,是让计算机系统判断出图像中有哪些目标,这些目标处于图像的什么位置, 是分析图像场景内容的基础,强调的是目标识别的结果可以反馈约束场景分析 的过程:场景分析侧重于理解图像整体区域,是让计算机系统判断出图像中的 目标处于什么环境,强调的是场景特征的描述、场景视觉描述模型的建立、模 型的概率推理和认知学习过程,场景分析结果对日标识别过程的指导机制等。 图i 一2 图像场景分析的研究内容 图像场景分析包含从顶到底的知识驱动和从底到顶的数据驱动,这两个方 向相:匾作用,形成层次渐进的反馈理解过程。图1 3 显示了图像分析两大内容 之问的槲瓦关系。 知识推理 数据分哲r 图1 3 图像分析两大内容及其相互间的关系 1 2 1场景中的目标识别 据不完全统计,现实世界中存在约1 万3 万种目标类别,如何对这些目标 类别进行区分,体现每种目标各自所独有的特性,是场景中目标识别的研究关 键,场景中的目标识别不仅仅基于目标实例,而是基于更广义的目标类别。也 就是说,场景中的目标识别核心问题除了包括一般目标识别所讨论的多视角变 换问题、遮挡问题、光照问题、尺度问题、背景干扰问题、形变问题,还包括 类内目标的变化。这就需要计算机对图像场景中的目标进行相应的概念理解, 即目标分析。 一般情况下目标分析的完整过程包括:( 1 ) 判断图像中指定类别的目标是否 存在;( 2 ) 确定目标在图像中的准确位置,用规则形状( 椭圆或圆形) 标记目标区 域;( 3 ) 细分出给定目标类别的目标实例;( 4 ) 识别场景图像中的目标区域;前三 类任务类似于计算机视觉中的目标识别,而识别图像场景中的目标区域问题完 全由数据驱动,完整的目标分析本质上就是对场景中的目标进行识别的过程【4 1 。 目标识别过程分为表示和学习分类两个阶段,通过提取训练样本的特征构 建特征库,再通过概率推理模型进行学习,为待识别目标提供识别决策,最终 完成识别任务【5j 。 1 2 2场景的描述与理解 图像场景的描述与理解的直观任务可认为是计算机对输入场景图像进行一 系列的计算、分析和推理过程,然后输出对应场景类别和场景中目标类别的语 义化标记。 对场景描述与理解的研究目前主要分为两大块内容:一是集中于视觉心理 学和生理学,主要研究快速场景感知的心理和生理机理,生物学家认为场景的 语义理解往往发生在目标识别之前,无需感知场景中的目标便可通过空间布局 分析语义场景内容,反应空间布局的全局特征处理先于局部分析【6 j ;二是研究 场景分析的计算模型,通过建立概率推理模型等方式实现对场景类别的判断【7j 。 现实生活世界中的目标并不是独立出现,而与其所处环境有着密切联系。 换句话说,图像所属场景类别提供了图像中目标之间的上下文关系等信息,是 进一步识别出场景中目标的基础。 在图像理解领域,目标识别和场景分析近年来都各自取得了很多进展,但 关于建立目标识别和场景分析之间的反馈过程这方面的研究却不多。因此,如 何有效结合中低层的数据分析与高层的知识推理,在数据处理分析的基础上形 成知识表达推理,得到的知识信息反过来指导数据获取过程,实现层次渐进的 分析理解过程,是本文工作重点和研究中心,对研究场景图像也具有重要意义。 1 3 论文的研究工作及组织结构 本文的研究工作基于国家自然科学基金下的两个项目:“立体图模型结构下 的自然图像理解研究”( 项目编号6 0 9 0 5 0 0 5 ) 和“基于协同学的并行多层次反馈 图像理解研究”( 项目编号6 0 8 7 5 0 1 2 ) 。 本文着重讨论了图模型在图像分析中的重要应用,有效地解决图像分析中 的视觉信息提取和表达问题;图模型结构的概率推理和参数估计问题:场景中 的目标识别问题;场景内容的描述与理解问题以及场景分析与目标分析之间的 反馈约束问题。章节之间的研究内容有较强的关联性,构成了图像场景分析的 有机整体,体现了图像分析过程的渐进性和反馈性。 图1 5 为论文研究内容的逻辑结构,各章节具体内容如下: 第一章概述了论文的研究背景、研究内容以及主要研究工作。 第二章首先介绍图模型的基础理论知识,详细阐述了平面图模型中无向图 结构模型和有向图结构模型的各自特性和主要应用场合;然后讨论了图结构模 型下的参数估计和概率推理方法,分析了层次生成图模型下d i r i c h l e t 过程的三 种概率分布推理过程,并给出了这些过程的形象表述。 第三章研究了图像场景分析中视觉信息的提取、表达及存储,分析了层次 d i r i c h l e t 模型中目标识别的学习推理过程,实现了基于r a o b l a c k w e l l i z e dg i b b s 采样层次生成模型的目标识别方法,进行了h d p 下参数图模型与非参数图模型 的场景单目标分析。 第四章借鉴h d p 图模型的分层思想,构建了“场景一目标一部分一特征”层 次结构的场景分析生成图模型,建立起视觉特征,目标类别与场景类别之间的 概率关系,分析层次生成图模型中场景分析的学习推理过程,研究场景分析图 模型下的g i b b s 采样策略以及目标层与场景层之间的相互作用,验证了场景分 4 析与目标分析之间的指导和约束作用,体现了图像场景分析中反馈渐进的认知 结构。 第五章主要针对场景图像中的多目标识别问题,提出了在h d p 图模型的目 标表达结构上融入部分的特征位置信息方法,形成转换d i r i c h l e t 模型以实现对 多目标类别和多目标实例的检测和识别。 第六章是对论文工作的总结和下一步研究工作的展望。 图1 4 论文章:肖逻辑关系结构 第二章图模型弹论基础 完成日标识别和场景分析等任务需要借助于一种有效的知识表达结构,t 叮 将图像内容转化为计算机系统能够直观理解和处理的形式。图模型1 8 1 ( g r a p h i c a l m o d e l l 即是这样一种可以很好地表达图像的像素、基元、日标以及场景之问关 系的知识表达结构,常用于解决概率统计分析问题,它融合了图论( g r a p ht h e o r y ) 永l 概率论( p r o b a b i l i t yt h e o r y ) ;图像场景分析的核心内容可视为像素的标记 ( 1 a b e l i n g ) 问题,标记即是标识出图像f f l 像素或像素块的所属类别;图模型可 j 来构筑像素| 、i j j 的关系,臣| 】将像素用图模型的节点表示,像素问的因果关系用图 模型的边来表示。 2 1图模型概要及研究现状 图结构模型可分为两火类:无向图模型和有向图模型。无向图在一定程度 上是彳j 向图的一个特殊类( 对称订向图) ,无阳图与有向图最本质的区别在于连 接顶点问的边是否有向。 2 1 1无向图模型简介 无向图模型是图模型中研究较早的一种概率图结构表示方法,在图像分析 应用中以随机场模型和星群模型为典型代表。无向图是山无向边和节点组成的 图模型,图2 1 ( a ) 中的x 和y 为节点,定义其表示随机变量或概念;无向边是连 接两个节点f i , j 的,无向边连接的两个肖点不分起点与终点,无向边表示两个= 节 点f 自j 的关联关系,如图2 1 ( a ) 中1 了点x 和yi h j 的边。对应到场景图像中,爷点表 示图像t 卜的像素点或像素块对应的标记,无向边表示像素点或像素块之间的局 部概率约束。图2 1 中节点分为两类,观测节点( o b s e r v e dn o d e s ) n l 隐节点 ( h i d d e nn o d e s ) ;图( a ) 中灰色节点为观测节点,对应图( b ) 上方中的节点y ,表 示图像像素:白色二1 了点为隐节点,对应图( b ) 下方的标记= 节点x ,表示像素对应 的目标类别。 ( a ) ( b ) 图2 1 无向图结构模型应用丁图像分析;( a ) 无向图模型( b ) 视觉对应关系示例 从图论卜来说,无向图模型可以描述为节点集合和无向边集合易, 6 鲲= ( ,毛) ,每个二符点i 与个随机变量x ,形棚关联,无向边( i ,j ) 毛表 乃两个1 了点i ,j 的局部概率约束,无向图中随机变最的联合分析i p ( 石) ,x lf ) 取值于= 彳x 厶表示的联合取样空问。 在图像分析应用中,经常会碰到如下问题,图2 2 中的三种颜色圆圈区域 有 一分相似的视觉外观以及棚对位置关系,但是从整体视觉外观的角度观察, 这两辆汽车几乎完伞不相同。 i - 。二= 0 一? 。二二:一? 图2 - 2p a r t - b a s e d 模型特点表示图 为了体现出这种部分与结构上的联系,f i s c h l e r 和e l s c h l a g e r 提 p a r t b a s e d 模型【9 1 ,它采用无向图结构,如图2 3 所示。模型将在栩司位置上具有相似视 觉外观的特征组成部分,若干个部分组成目标,充分考虑每个部分对应的特征 块之问的空f i l j 关系。 图2 - 3p a r t - b a s e d 模,性农刁i 图 星群模型( c o n s t e l l a t i o nm o d e l ) 是。种典型的基于p a r t b a s e d 模型1 10 1 1 l 的无 向图模型【1 2 ,1 ,模型认为视觉检测算予的向量集合组成场景图像,通过概念分 析将这些特征归属为某个部分,h 标由部分构成,对部分的视觉表示以及部分 问相对位置关系进行建模,将日标的每个部分视为无向图的个节点,部分之 i f i j 相对位置关系由节点之问的无向边表示,然后对外观、形状、尺度等项进行 概率分析得出各自的计算公式,再根据综合计算得到的极大似然值进行日标识 别。该模型结构中包含了不同实体问的空问关系,更接近人类的理解认知过程。 无向图模型是视觉研究领域中。种常见的概率图结构表示方法,被广泛用 f 图像纹理分类、图像区域分割、 j 标分析等图像分析干u 关领域c 】o 2 1 2有向图模型简介 在图论基础研究中,般都是着n 艮于有向图,其主要包括朴素贝叶斯模型 ( n a i v eb a y e s i a n 、概率隐语义分析模型( p r o b a b i l i s t i cl a t e n ts e m a n t i ca n a l y s i s , p l s a ) 1 4 】、隐d i r i c h l e t 分配模型( l a t e n td i r i c h l e ta l l o c a t i o n ,简称l d a ) 1 1 5 1 以及 隐m a r k o v 模型( h i d d e nm a r k o vm o d e l s ,简称h m m ) 6 j 等。 有向图是i l 有向边和节点组成的图模型,图2 4 中节点d 、z 和w 仍然定义 为随机变量或概念,有向边可以表示节点间依赖关系,方向从丌始节点指向结 束节点,如图2 4 中从节点d 指向节点z 的边;连接节点的子集表示联合概率分 稚,相互连接的节点问因果关系的联合概率分御用有向边的势函数表示:图2 - 4 f 1 】的常点同样分成观测节点和隐节点:灰色观测节点d 对应图像,w 对应视觉 特征词汇;【t 色隐节点z 对应图像像素的标记节点,表示像素所属目标类别。 图2 4 彳j 向图模型应州j :i 冬j 像分析 同样对应到图论,有向图模型( 也称为b a y e s i a n 网络) ,描述为节点集合雨1 有向边集合易,易= ( ,易) ,两个二肖点f ,j 之问由j j 箭头表示的有向边 ( f ,) 易连接,表示父节点f 与子节点,之f 自j 直接的因果关系,定义所有予节点 f 关于其父节点集合r ( j ) f l ( i ,j ) ) 条件概率的乘积为有向图的势函数: p ( x ) = l lp ( tk ) ( 2 1 ) j 王, 无父节点的节点f 的1 1 ( f ) = g ,则p ( 一i 矸) = 尸( t ) ,图2 5 ( a ) 所示的彳j 向图 中的势函数可写为: p ( x ) = p ( x 1 ) p ( x 2 ) p ( x 3x ix 2 ) p ( x 4x 3 ) p ( x 5i 毛) ( 2 2 ) 有向图模型具有m a r k o v 性质,节点变量x ,只与父= 节点变量x n 和子节点变 量集合 x ij f ( ) ) 及集合元素中的父节点变量集合相关,条件独立于其他节点 变量,若两节点共有一个子节点,则这两节点问可加入隐含的无向边表明两个 节点变量之问的依赖关系,如图2 5 ( b ) 图所示。 “ 焱 ( a )( b ) 图2 - 5 有向图模型及转换实例 有向图模型中在学习过程l 1 通常需边缘化( m a r g i n a l i z a t i o n ) 隐节点概率,臣口 对联合概率关于隐变量求衫 分( 连续情况) 或求和( 离散情况) ,学习一般为无监督 学习,其典型的应用如图2 5 ( a ) 所示,从五,x :观测节点判断x 3 隐变最节点的值, 最后得到x 。,j f 5 观测节点的标记。 b a g s o f - w o r d s 模型属于目前应用较为成功的有向图模型,它得名于将归属 于同类日标的类别特征( w o r d s ) 集中起来,形成“b a g s ”,如图2 - 6 所示。 q 堕! ! ! 一b a g 融艘r d s 雾,壁 图2 - 6b a g o f - w o r d s 模型表示图 在订向图实际应用过程中,首先通过适当的特征检测子以及特征描述子将 图像用视觉词汇表述,构成视觉词张_ = 词典,接着通过对模型进行一系列的参数 估计和概率推理,得到模型参数的迭代公式和模型的概率推理结果,最后将测 试图像的视觉词汇与视觉词汇字典【 1 的词汇进行匹配,根据训练得到的模型对 输入数据信息进行决策判断。图2 7 为其算法大致流程。 谚l 别 类别模型分类器 一 絮 图2 7b a g o f - f e a t u r e s 模型算法流样 目d 仃,有向图模型广泛应用于区域纹理识别、日标区域分割、口标识别等 与图像场景分析相关的领域,形成了自顶向下的基于模型驱动的生成模型研究 方法,成为解决广义目标识别的有效手段。 图结构模型中无论是无向图模型还是有向图模世都可以解决视觉标记问 题,这类模型首先计算不同区域的概率分御,通过统计推理,将其转换为计算 场景( 区域) 的最大后验估计的最优化问题。然而这两大类模型也存祚:各自的缺 陷,因此在具体应用中可将无向图模型和有向图模型棚结合,弥补它们的不足。 9 2 1 3图模型的图像分析研究现状 场景描述与理解成为近两年来图像分析与理解一个新的有前途的研究方 向,麻省理工学院在2 0 0 6 年召开了首次场景理解研讨会( s c e n eu n d e r s t a n d i n g s y m p o s i u m ) ,会上明确了场景描述与理解的研究主要分为两个方向:一是集中 于视觉心理学和生理学研究,主要研究快速场景感知的心理和生理机理7 - 1 9 ; 二是研究场景分析的计算模型,通过建立概率推理模型实现不同类别场景( 室内 室外等) 的判断【2 0 ,2 1 】或是场景空间中的语义分析2 2 1 。 场景空间中的语义分析是一种从场景到目标、目标到部分、部分到像素间 层次关系的图像立体表达形式。一般情况下,在构建新型语义分析框架时,主 要通过设计上下文信息描述并强调语义概念,实现数据与知识的融合处理,上 下文信息对于图像理解具有指导和约束作用,通常具有复杂的概念化语义。 融入语义信息的图模型可以更好的识别目标和场景,如何将场景图像的丰 富语义信息准确有效的表达成为当前工作的重点,现阶段主要分为两大类: ( 1 ) 目标层次语义概念。目标层次语义是将图像中所有的目标实例看作相互 独立的语义个体,根据其在图像中的分布来分析场景内容,该方法的优点是可 以在建模过程中融入空间上下文信息,不足之处在于分析目标实例分布情况时 已经隐含了对目标进行识别的过程,因而计算成本相对较高 2 3 1 。a k s o y 、 k o p e r s k i t 2 4 】等采用贝叶斯框架对图像内容进行建模,将图像划分为若干区域, 通过研究区域间的空间上下文关系来描述图像视觉语法。f a n 、f r e d e m b a c h l 2 5 ,2 6 j 等通过学习训练图像集,得到一组检测函数,用于检测构成图像内容的语义概 念敏感的显著性目标,以此实现目标的识别以及图像的标注。 ( 2 ) 局部区域语义概念。该方法将语义信息赋予给图像低层视觉特征,直接 通过图像区域级的语义分布来分析场景内容,该方法避免了错误的目标识别对 场景分析带来的负面影响,缺点是分析过程中没有融入目标之间的上下文关系。 l if e i f e i 2 0 j 等通过构建参数图模型的方法,对不同的场景类别图像进行学习推 理和分类;o l i v a 2 7 】等将场景类别与自定义高维空间的点进行映射,通过统计高 维空间的点分布对场景图像定性分析;其他从心理和生理学角度对图像场景分 析开展了相关研究,通过一系列生物学试验对场景分析的信息处理过程进行了 模型的假设和验证,并初具成效 2 8 , 2 9 j 。 尽管图像分析的两方面内容已经倍受研究学者和专家的关注【3 0 3 4 j ,但尚有 很多亟待解决的问题,例如,如何用场景信息指导目标的选择注意:如何构建 场景内容的先验信息来指导目标分析;如何将目标分析结果构建场景内容描述, 形成可进一步进行场景中目标识别与场景的描述与理解的先验信息等等 3 5 - 3 8 j 。 这些都为图像场景分析的发展开辟了新的方向和研究思路。 2 2 生成图模型简介 根据不同的数学处理思想,应用于图像分析和理解的图模型可分为判决模 1 0 型( d i s c r i m i n a t i v em o d e l ) 】和生成模型 3 ( g e n e r a t i v em o d e l ) 。判决模型根据特 征空间中不同目标类别的特征分布差异进行建模,主要有s v m s , c r f ( c o n d i t i o n a lr a n d o mf i e l d s ) 。生成模型根据特征空间中每个目标类别的特征 分布进行建模,主要有h m m s ,m r f ( m a r k o vr a n d o mf i e l d s ) 。生成模型与判决 模型相比,有着更为复杂的数据结构,可以表达更多的视觉与知识信息,从而 可以更好的对图像场景内容进行分析与理解。 图像场景分析的直观目的就是要语义化描述场景及场景中相应目标和区 域,这个过程需要利用计算机对输入场景图像进行计算、推理和分析等操作, 而生成图模型就是图像场景分析中最接近认知本质的语义化分析模型。 通过对训练样本的学习,生成模型可以构建出目标类别和场景类别信息的 参数化表达,借助图模型对场景和目标之间的联系进行描述,当识别图像中的 目标时,相当于通过建模分别得出场景图像中关于目标和图像背景的后验概率 分布p ( o b j e c ti m a g e ) 、p ( b a c k g r o u n di m a g e ) ,通过b a y e s i a n 公式,将后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论