(计算机应用技术专业论文)图像理解的关键问题和方法研究.pdf_第1页
(计算机应用技术专业论文)图像理解的关键问题和方法研究.pdf_第2页
(计算机应用技术专业论文)图像理解的关键问题和方法研究.pdf_第3页
(计算机应用技术专业论文)图像理解的关键问题和方法研究.pdf_第4页
(计算机应用技术专业论文)图像理解的关键问题和方法研究.pdf_第5页
已阅读5页,还剩108页未读 继续免费阅读

(计算机应用技术专业论文)图像理解的关键问题和方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要图像理解是当前计算机研究领域的热点和难点,其根本任务就是让计算机正确解释所感知的图像场景以及场景中的内容,图像理解与计算机视觉、与人工智能有着密切的联系,具有重要的理论研究意义和广阔的应用前景。图像理解具有鲜明的层次性,作为图像理解的低层数据的是视觉信息,理论出发点是计算机视觉,作为图像理解的高层数据是知识信息,理论依据出发点是人工智能。图像理解中视觉数据和人类知识两种类型的信息流贯穿图像理解的整个过程,但是目前对这两种类型的数据和信息流的研究基本上是割裂的,忽略了知识和数据之间的融合,忽略了低层处理和高层分析的联系。本文从数据驱动知识、知识指导数据这一图像理解的核心问题出发,从视觉信息分析处理与知识信息分析处理的结合部入手,着重研究图像理解信息流中数据和知识的表示,存储、分析和转换,研究合适的视觉信息处理载体和知识信息处理方法,实现广义目标检测识别、区域语义理解以及场景分析等图像理解的主要任务,形成新颖的图像理解方法:同时,研究图像理解的结构特性,构建新型的目标空间关系模型和整体场景的分析模型,建立模型之间的约束反馈机制体现理解的反馈和渐进性,指导先验信息的获取,并作用于低层的视觉数据处理分析,提高理解的速度和准确性,初步形成新型、完整、有效、快速的图像理解原型。本文的主要工作如下:l 、研究了图像理解中数据和信息表示的融合概述了图像理解中常见的信息表示方法,侧重描述新的“知识”和“数据”两种信息的融合和转换手段,体现图像理解中实体的认知关系;研究了图像理解中视觉信息的提取问题,总结了图像理解视觉特征的提取策略,建立了视觉像素的统计概率模型,在模型基础上提出了一种新的目标定位方法,对背景具有一定的抗背景干扰能力,并形成了对特征提取方法的有益补充。2 、研究了图像理解中视觉信息的存储与分析,针对图像理解中的图结构模型载体分析问题,总结了图模型中经典的参数估计和概率推理方法以及在视觉分析中的应用,提出了一种基于目标空间关系的无向图结构模型,讨论了新模型中的参数学习问题,推导出迭代公式,进行场景目标分析,形成对图像理解认知载体的丰富和完善。3 、研究了图像理解中视觉信息的概念认知划分,针对广义目标检测识别方法问题,提出了基于共享特征的层次b o o s t i n g 目标检测识别方法,可同时进行多类目标检测和识别,在检测率近似保持不变的情况下,提高了目标的识别率,缩短了分类的搜索时间,体现了图像理解的渐进性,形成了视觉信息向知识信息的转换。4 、研究了图像理解中的知识处理和分析,针对图像理解中的区域分析和语义标记问题,提出了基于租糙集合的区域分割方法和知识库约简方法,对场景中视觉属性较为一致的区域具有较好的分割效果,同时在保持概念分类能力不变的情况下形成了知识的有效约简,一定程度上避免的噪声数据的干扰,提高了语义标记和区域分析的合理性,实现了数据和知识的融合。5 、初步研究了场景分类的基本方法,提出的高斯概率统计模型对场景分类具有一定的有效性,同时,验证了场景分类信息对目标分析的指导和约束作用,提高了目标分析的准确度,体现了图像理解中反馈的认知结构。关键词:图像理解;信息表示与提取;图模型:广义目标检测识别;语义标记;场景分析a b s t r a c ti m a g eu n d e b t a n d i n gi st h eh o t s p o ta n dd i f f i c u i t yi nc o m p u t e rr e s e a e ha r t h ee s s e n t i a lt a s ki st oi n t e r p r e tt h ea c q u i r e di m a g es c c t l ea n di t sc 妇l ba c c u r a t e l y i ti sc l o s e l yr e l a t i v ew i t hc o m p u t e rv i s i o na n da r t i f i c i a li n t e l l i g e n c ew i t hi m p o r t a n tt h c o f i e sa n dw i d ea p p l i e m i o m i m a g eu n d e r s t a n d i n gh a st h ed i s t i n c tl a y e rp r o p e r t y a st h ev i s u a li n f o r m a t i o ni nl o w e rl 缈e lt h et h e e r i c a ls t a r t p u i n ti sc o m p u t e rv i s i o na n da st h ek n o w l e d g ei n f o r m a t i o ni nh i g h e ro n e , t h et h e o r i c a lb a s i si sa r t i f i c i a li n t e l l i g e n c e v i s u a ld a t aa n dk n o w l e d g e w et w ot y p e so f i n f o r m a t i o nt h r o u g hu n d e r s t a n d i n gi m a g e s , b u tc u r r a n tr e s e a r c h e so i lt h e mi so l c t c f f ls e p a r a t i v ew h i c hn e g l e c tt h ef u s i o n sb e t w e s r lk n o w l e d g ea n dd a t aa n di g n o r et h er e l a t i o n sb e t w e e np r o c e s si nl o w e rl a y e ra n da n a l y s i si nh i g h e ro n e c o n s i d e r i n gk e yi s s u e sa b o u td a t a - d r i v e nk n o w l e d g ea n dk n o w l e d g e - g u i d i n gd a t ai ni m a g eu n d e r s t a n d i n g , w es t a r tr e s e a r c h e sf o rn o v e lm e t h o d sf r o mj o i n t sb e t w e e nt h e s et w ok i n d so fi n f o r m a t i o np r o c e s s i n g t h et h e s i sf o c u s e so nr e p r e s e n t a t i o n , s t o r a g e , a n a l y s i sa n dt r a n s f o r mw i t hd a t aa n dk n o w l e d g ei ni m a g eu n d e r s t a n d i n gt or e s e a r c hp r o p e rc o g n i t i v ec a r r i e r sa n dk n o w l e d g ep r o c e s s i n gm e t h o d sf o rs e v e r a ls u b - t a s k sa sg e n e r i co b j e c td e t e c t i o na n dr e c o g n i t i o n ,r e g i o n a ls e m a n t i cu n d e r s t a n d i n ga n ds o , o n ea n a l y s i sw h i c hf o r m st h en o v e lw a y a tt h es a m et i m e ,w ed i s c u s st h es t r u c t u r e si ni m a g eu n d e r s t a n d i n ga n db u i l dm o d e l sf o ro b j e c t sw i t hs p a t i a lr e l a t i o n sa n dg l o b a ls c e n e st or e p r e s e n tc o r r e s p o n d i n gr e s t r i c t i o na n df e e d b a c km e c h a n i s m s ,w h i c hg u i d ef o rk n o w l e d g ea c c u q u s i t i o na n da c to nd a t ap r o c e s s i n gi nl o w e rl a y e rt oi m p r o v es p e e da n da c c u r a c yi ni m a g eu n d e r s t a n d i n ga n dr i l ln o v e lc o m p l e t ee f f e c t i v ea n dr a p i da r c h e t y p a ls t l u c t u r ei n i t i a l 耻t h i st h e s i si n c l u d e st h ef o l l o w i n gc o n t e n t s :l ,o nt h er e s e a r c ho ff u s i o nw i t hd a t aa n dk n o w l e d g er e p r e s e n t a t i o n , w ed e s c r i b et h eg e n e r a lw a y so fi n f o r m a t i o nr e p r e s e n t a t i o nw i t he m p h a s i so i lf u s i o na n dt r a n s l a t i o nb e t w e e nk n o w l e d g ea n dd a t at or e v e a lc o g n i t i v er e l a t i o n si ne n t i t i e s t h e nw es u n 岫t h ef e a t u r ee x t r a c t i o ns t r a t e g i e sa n db u i l dt h er e g i o n a ls t a t i s t i c a lm o d e l sw i t hp i x e i s b a s e do nt h e m , an e wo b j e c tl o c a t i o nm e t h o di sp r o p o s e dt ok e e po u tt h e b a c k g r o u n d n o i s ea n ds u p p l yt h ec u r r e n tw a y sf o rf e a t u r ee x t r a c t i o n 2 ,w e 咖d ym es t o r a g ea n da n a l y s i so i lv i s u a li n f o r m a t i o nt os o l v et h eg r a p h i cm o d e l sa sc a r d e r si ni m a g eu n d e r s t a n d i n g w eu m m a r i z et h et h e o r i e sf o rp a r a m e t e re s t i m a t i o na n dp r o b a b i l i t yi n f e r e n c ew i t hc o r r e s p o n d i n gv i s u a l t h e nw ep r e s e n ta nu n d i r e c t e dg r a p h i cm o d e lb a s e do ns p a t i a lr e l a t i o n s d i s c u s st w om a i np r o b l e m sa b o v ea n do b t a i nt h ei t e r a t i v ee q u a t i o n st oa n a l y z eo b j e c ta n ds o ef o re n r i c h m e n ti ni m a g eu n d e r s t a n d i n g 3 、w ed i s c u s st h ec o g n i t i v ed i v i s i o ni nv i s u a li n f o r m a t i o nf o rg e n e r i co b j o c td e t e c t i o na n dr e c o g n i t i o na n dp r o p o s et h el a y e rj o i n tb o o s t i n ga l g o r i t h m sb a s e do ns h a r i n gf e a t u r e s w i t l lt h ec o n d i t i o no fa p p r o x i m a t eu n c h a n g e dd e t e c t i o nr a t e ,t h er e c o g n i t i o nr a t ei n c r e a s e sa n dc l a s s i f i c a t i o nt i m ed e c r e a s e sd r a m a t i c a l l yt os h o wg r a d u a l n e s si ni m a g ea n d e r s t a n d i n ga n dt r a n s f o r mf r o mv i s u a ld a t at ok n o w l e d g e 4 、w er e s e a r c ht h ek n o w l e d g ep r o c e s s i n ga n da n a l y s i si ni m a g eu n d e r s t a n d i n gt os o l v et h ep r o b l e m si n 懈, i o n a la n a l y s i sa n ds e m a n t i c sl a b d i 鸭w ep r e s e n tt h en e wi m a g es e g m e n t a t i o na n dk n o w l e d g eb a s er e d o c t i o nm e t h o d sw i t hr o u g hs e tt h e o r i e s t h er e s u l td e m o t e st h eb e t t e rs e g m e n t a t i o np e r f o r m a n c eo nv i s u a lc o m i s t a n ta l 目ta n de f f e c tr e d u c t i o nw i t h o u tc h a n g e si nc o n c e p t i o nc l a s s i f i c a t i o n st oa v o i di n t e r f e r e n c ew i t hn o i s yd a t aa n di m p r o v er e a s o n a b i l i t yi ni a b e i h 塔s e m a n t i c sa n da n a l y z i n gr e g i o n st os o m ee x t e n dr e a l i z i n gt h ef u s i o nw i t hd a t aa n dk n o w l e d g e 5 、w ea n a l y z et h eb a s i cm e t h o df o rs c e n ec l a s s i f i c a t i o np r i m a r i l ya n dp r o p o s et h en mm e t h o db a s e do ng a a s s i a np r o b a b i l i s t i cs t a r i s t i c a lm o d e l sf o re f f e c tr e s u 垴a tt h es 枷el i m e w ea l s ov a l i d a t et h ec l a s s i f i c a t i o nr e s u l t sa sp r i o rk n o w l e d g eh a v es t r o n gg u i d a n c ea n dr e s t r i c tt oi m p r o v ea c c u r a c yi no b j e c ta n a l y s i sa n dr e v e a lf e e d b a c ki ni m a g eu n d e r s t a n d i n g k e y w o r d s :i m a g eu n d e r s t a n d i n g ,i n f o r m a t i o nr e :p r e s e n t a t i n na n de x t r a c t i o n , g r a p h i cm o d e l s ,g e n e r i co 巧e c td e t e c t i o na n dr e c o g n i t i o n , s e m a n t i c sl a b c l i f 骺s c e n ea n a l y s i s台肥工业大学博士学位论文插图清单图1 - 1 图像理解的多层次结构图2圈l - 2 理想的图像理解输入输出3图1 - 3 目标识别的一般过程4图i - 4 图像理勰与计算机视觉和人工智能的关系图图i - 5 论文的逻辑关系结构图2 - 1 曲线的链码表示图2 - 2 金字塔结构表示图图2 - 3 边、顶点、区域图和r s e 结构图图2 4 空问数据结构图2 - 5 目标类别相似关系下的认知树状结构体系图2 - 6 特征共享编码矩阵。图2 7 空间关系的视觉特征表示图2 - 8 层次结构下的包含关系图图2 - 9k a d i r b r a d y 方法的检测结果图2 1 0 高斯差分特征提取图2 - 1 1s i f t 描述符图2 - 1 2 基于生物视觉特性的标准模型特征集提取过程示意图。图2 1 3 基于视觉统计特性的特征提取方法框架图图2 - 1 4 四种不同类型的窗口区域图2 1 5 四种类型区域的空间灰度图1 81 81 9圈2 1 6b 6 z i e r 曲面控制点选取2 3圈2 1 7 尺度空间中平滑特性的概率分析。2 4图2 1 8 尺度空间中纹理特性的概率分析2 4图2 - 1 9 尺度空间中阴影特性的概率分析图2 - 2 0 尺度空间中阴影特性的概率分析图2 - 2 1 原始图和租定位过程的结果图2 - 2 2 不同类型的边缘概率点集合2 7图2 - 2 3 基于视觉概率模型的目标定位实验结果。2 8图2 2 4n c u t s 分割算法的分割结果图2 - 2 5 区域特征提取实验对比图3 ,im a r k o v 无向图模型图3 - 2 环状结构图的置信度传播3 7图3 - 3 展开树策略的结构转换图3 4n a i v eb a y e s 图结构模型图3 - 5p l s l m 结构模型i v,3 8。3 97o2234456圉表清单图3 - 6p l s l 模型与视觉信息的对应关系图图3 7l d a 模型结构图图3 - 8l d a 睽 型与视觉信息的对应关系图图3 - 9p l s i 模型在图像分析中的关系表示图圈3 1 0p l s l 模型对称结构图3 - 1 1 引入参数后的模型有向图图3 1 2 引入参数后的模型无向图4 l4 24 34 54 54 54 5图3 一1 3 包含目标空闯关系的参数无向图模型4 6图3 1 4 训练过程中对数似然函数收敛曲线。4 7图3 1 5 基于无向图模型空f 可关系下的目标分析结果4 8图3 一1 6 目标空间约束关系示意图图3 1 7 多目标情况下的r o c 曲线对比图3 1 8 单个目标的r o c 曲线对比图4 - 1b o o s t i n g 方法的人脸检测实例。图4 - 2 新方法框架图图4 - 3 四种类型区域的s h a n n o n 螭j 值曲线一图4 4 特征共享图4 94 95 l图4 5 用于检测和识别的2 0 类目标图4 - 6 目标的特征提取过程及真实位置图4 7 三类目标的部分特征集合信息。图4 8 弱分类器在场景图像中的检测过程图4 - 9 层次b o o s t m g 强分类器下的目标检测图4 1 0 部分检测正确结果圈4 - 1 1r p c 曲线对比图4 - 1 22 0 轮后的e c o c 矩阵图4 - 1 3 随选举轮数递增2 0 类目标的识别率变化对比曲线图5 - 1 粗糙集基本概念示意图图5 - 2 基于粗糙集合图像分割新方法结构框图图5 34 x 5 像素矩阵聚类标记图5 - 4 结构元素对图像空间划分粒度分析图5 - 5 灰度分割和最终的分割结果图5 _ 6 训练阶段区域标记5 55 66 26 26 26 3图5 - 7 分割对比实验7 7图5 - 8 分割过程中每个步骤下的区域个数7 8图5 - 9 随分割类别个数变化的估计值曲线。图5 1 0 灰度图像的分割结果对比图5 1 l 最终标记结果v7 57 98 4“甜酷砸盯毋;。合肥工业大学博士学位论文图6 - l 全局信息在场景分析中的作用8 78 8图6 - 2 用于场景分类的高斯概率模型参数对应关系示意图图“3 场景分类的特征提取图6 4 场景中的部分特征基元图6 - 5 不同场景中的基元簇概率统计图。8 7图6 - 6 基于高斯模型的场景分类执行曲线图圈6 7 六类场景中对应的七类基元簇集的高斯分布。图6 - 8 部分场景分类结果( 前三列为正确分类样本,最后一列为误分样本)图6 - 9 场景和目标包含关系矩阵图6 - i o 不同目标的相似区域示意图图7 - 1 初步形成的图像理解分析和解释机制v l8 88 88 98 99 49 49 8图表清单表格清单表2 - i 新算法与n c u t s 的目标区域在不同尺度下对应四种特性的概率均值的极大值2 9表2 - 2 新算法与n c u t s 算法的目标分割定位结果比较表4 - ib o o s t i n g 多值分类方法和层次b o o s t i n g 方法在1 0 0 轮后的识别率对比6 5表5 - i 像素分割信息表表5 - 2 近似空间的等价类和关系属性描述( 表示属性可缺)表5 - 3 区域标记特征决策表表5 4 两种分割算法结果对比表5 5 规则信息表示例( 省略颜色属性) 表5 - 6 约简后信息表( 表示属性可缺)表6 - l 场景约束机制前后的目标识别率7 37 37 8独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得盒目墨王些盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意学位论文作者签名:j 虮旧易签字日期:2 0 。7 年6 月z 口日学位论文版权使用授权书本学位论文作者完全了解盒目兰些盔堂有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权金魍兰些太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书)学位论文作者签名:琵拊呀口签字日期:2 0 0 7 年f 月佣学位论文作者毕业去向工作单位:通讯地址:导师签名:签字日期;2 0 0 7 年占月f 铂电话:邮编:致谢时光荏苒,转眼又将跨越另一个阶段,回首过去,感触良多值此博士论文即将完成之际,首先感谢我的导师高隽教授,在他的悉心指导和耐心帮助下完成了博士论文的相关工作。高老师不仅在学术上高瞻远瞩,对我们严谨有加;在生活上事无巨细,对我们关怀备至,还经常教导我们如何树立正确的人生观和掌握正确的方法论高老师的言传身教以及他所带领的图像信息处理研究室“协同形成结构,竞争促进发展”的独特宗旨,都给我带来了潜移默化的影响,将使我受益终生。衷心感谢图像信息处理研究室的所有老师和同学。为我的学业及生活带来的长足进步和点滴欢乐,图像室良好的学术氛围、协作竞争的团队精神是我得以顺利完成博士论文的重要基石特别感谢吴信东教授、胡良梅老师、张旭东老师、杨学志老师、偶春生老师、汪荣贵老师等对我学业方面的指导。感谢吴田富、王晓嘉、邵静等同学在论文相关内容的讨论与合作。感谢与胡静、路子赞、钱乐乐、徐小红,王磊、赵莹、吴克伟、陈果、孙永宣、伯梅等同学的交流带来的启示和帮助感谢图像室已经毕业的各位同窗。特别感谢骆祥峰博士、王安东硕士、胡勇硕士、董火明硕士、曹薇硕士、赵琴硕士、庞博硕士、何柯峰硕士、李建安硕士等在相关工作方面的帮助。感谢0 2 级硕博2 班所有同学,难忘大家在一起学习和交流的日子。感谢计算机与信息学院所有领导和老师在我攻读博士学位期间的鞭策和支持,特别感谢通信工程系各位领导和老师对我的鼓励和帮助。感谢研究生院各个部门的领导和老师对我的关怀和帮助。感谢中国科学院台肥智能机械研究所的各位领导和专家对论文相关研究工作的指导、建议和帮助。论文是在国家自然科学基金项目和安徽省重点科研项目研究工作的基础上完成的,特向国家自然科学基金委员会和安徽省自然科学基金委员会表示衷心的感谢。感谢我的父母家人数十年来默默无闻的照顾和关心,你们的理解和支持是我前进的最大动力感谢女友汪雨对我工作的无私支持和真诚鼓励,是我完成博士论文的精神动力感激之情无以言表。无以回报,歉然于胸,谨以此文献给你们。其他老师、同学、朋友和亲人的帮助,在此无法一一列出,但这部是我所要深表谢意的。再次感谢所有关爱我的人,你们的支持将激励我不断进取。谢昭2 7 0 4第一章绪论第一章绪论图像理解是一个新兴的综合学科,内容相当丰富。涉及的面也很宽本章主要描述了图像理解的研究背景和研究内客,概述了图像理解的层次结构和分析过程;同时,扼要介绍了本文的课题来豫研究思路组织结构以及章节安排等1 1 图像理解的研究背景1 1 1 图像理解概述图像理解( i m a g eu n d e r s t a n d i n g ) 是研究用计算机系统解释图像,实现类似人类视觉系统理解外部世界的- f 科学,所讨论的问题是为了完成某一任务需要从图像中获取哪些信息,以及如何利用这些信息获得必要的解释,图像理解的研究涉及和包含了研究获取图像的方法、装置和具体的应用实现。对图像理解的研究始于2 0 世纪6 0 年代初,研究初期以计算机视觉( c o m p u t e r v i s i o n ) 为载体,计算机视觉( 机器视觉) 简单的说就是研究用计算机来模拟人类视觉或灵长类动物视觉的- f 科学,由图像数据来产生视野环境内有用符号描述的过程,主要研究内容包括图像的获取、图像处理、图像分析、图像识别。图像包括静态图像和动态图像( 视频) ,包括二维图像和立体图像计算机视觉的输入是数据,输出也是数据,是结构化或半结构化数据和符号。识别是传统计算机视觉的目的,即要得到图像中有什么这一结论。自1 9 6 5 年r o b e r t s 识别多面体以来,图像理解已经应用在不少的领域:n a g a o 等人第一次建立了解释多波段航片的系统,对航拍图像区域进行了若干特征体的划分;s c o r p i u s组合利用并行处理和图像理解研究结果检测、鉴别有意义的目标,监视军事目标状态变化,提供军事动向资料和情报;a c r o n y m 是一个由模型出发的解释系统,通过模型化区域的三维信息结构完成模型的匹配理解过程;m o s a i c 融合多视角目标获取的二维图像完成目标三维的完整描述,对新的观察点情况进行理解分析图像理解与人工智能密切相关,人工智能简单的说就是研究用计算机模拟人脑、模拟人类智能的一门科学,( 传统的) 人工智能以人类的知识为对象,研究知识的表示、存储、推理,以及获得新的知识。( 传统的) 人工智能是在已有知识系统的基础上对知识结构关系,语义网络,通用匹配,推断决策,产生式系统,问题求解,规划控制反馈和经验学习的研究。随着计算机视觉和人工智能学科的发展,相关研究内容不断拓展、相互覆盖,图像理解既是对计算机视觉研究的延伸和拓展,又是人类智能的研究新领域,渗透着人工智能的研究进程,近年来已在工业视觉、人机交互、视觉导航、虚拟现实、特定图像分析解释以及生物视觉研究等领域得到了广泛应用。总之,图像理解的内容相当丰富,涉及面也很宽,是一门新兴的综合学科合肥工业大学博士学位论文l 1 2 图像理解的层次结构人或其他高等生物的视觉过程要解决的两个最基本的问题是在视场中有什么及其在哪儿? 其复杂的信息过程包括了感知和信息处理两部分;图像理解也有类似的两部分,即成像和信息处理和分析,因此贯穿始终的图像理解过程具有几个鲜明性的特点:l 、分阶段信息处理带来了信息的多层表示;2 、对图像的解释以某种形式的描述实现;3 ,图像的正确解释离不开知识的引导。鲢囤1 1 图像理解的多层次结构图图像理解具有鲜明的层次性,具有低层、中层和高层描述的层状结构,如图1 1 所示,二维像素点阵图像通常作为低层的输入,低层输出通常以像素为单位测出的图像特征,中层输出是在低层描述的编组、抽象后形成的符号描述,减少了数据量,提高了描述质量,更接近图像的本质。高层理解主要通过以中层符号描述为基本单元的、反映景物与目标特性的模型和服务于解释的知识库,完成解释图像的任务。因此,图像理解的过程是对视觉信息和知识信息的处理分析过程,它随着计算机视觉研究的不断深入形成新兴的研究要点,对视觉信息的分析对象而言,大多数研究内容也是机器视觉的研究内容,视觉信息的特征表述和目标识别及场景分类方法是计算机视觉的研究核心,也是图像理解的基本任务;同时,图像理解根植于人工智能,对知识信息的描述对象而言,知识的表示、推理和问题求解是图像理解的关键环节。1 1 3 图像理解的分析过程由上述图像理解的层次结构可知,图像理解是一门交叉学科,作为图像理解的低层数据的是视觉信息,理论出发点是计算机视觉,作为图像理解的高层数据是知识信息,理论依据出发点是人工智能。从研究的广泛性看,图像理解的处理信息分为视觉数据信息和人类知识信息两部分,前者侧重原始获取的数据信息以何种结构存储在计算机中,后者侧重知识的表述如何指导计算机的理解过程,两部分表示相辅相成。图像理解中对视觉信息和知识信息的研究过程就是进行信息表示、处理和分析的过程,具体表现为“表示与存储认知与学习推理与理解”的图像理解分析过程。2第一章绪论图像理解中包含了广泛的信息流,从视觉硬件采集设备获取到的二维阵列仅是信号描述,进行取样采集形成面向计算机的数据信息,形成像素点集,完成了场景图像的获取:再通过图像处理技术在原始像素的基础上提取出视觉特征并存储入计算机,实现了“视觉信息的表示与存储”;接着根据已有的先验知识或导师指导,基于学习算法和相应理论进行机器学习,进行图像理解中的目标识别、场景分类等f 任务,形成知识并存入计算机,实现知识信息的。表示与存储”,完成“认知与学习”;最后对已形成的知识进行“推理与分析”完成最终的图像理解任务,体现计算机的视觉智能性,理想的图像理解实例如图1 - 2 所示。图1 2 理想的图像理解输入输出1 2 图像理解的研究内容图像理解涉及计算机视觉和人工智能领域的相关内容,其主要研究内容包括广义目标识别、高层语义分析以及场景分类等。1 2 1 广义目标识别让计算机识别判断场景中有什么物体,在哪儿,解决“w h a t - w h e r e ”问题,这是计算机视觉的主要任务,也是图像理解的基本任务。场景中的“目标”通常可视为具有较高显著度并符合局部感知一致性的区域,目标识别的过程也是计算机对场景中的物体进行特征分析和概念理解的过程。通常地,目标识别的整个过程包括了目标判断、目标分类和目标定位,目标判断分析场景中是否存在指定类别的目标;目标分类分析划定的目标区域是何种类别;目标定位确定目标在场景中的位置,定位中的目标检测基于区域表述,用规则形状( 矩形或圆)标记目标区域,而像素级别的目标定位则通过视觉分割从场景中提取完整的目标区域。人能够快速识别出将近一万种目标物体【1 月且不受各种客观条件的影响,具有极佳的鲁捧性,对新目标的识别仅需很少的信息指导和实例分析;对计算机而言,虽然低廉的数字图像存储设备能将客观的目标进行有效的存储,但对其进行分析却非常困难,目标的表示仅仅基于像素级,缺乏人处理知识特有的高层表示和分析,对日标识别的研究涉及到目标变化的若干方面,主要包括以下几点:合肥:亡业大学搏b 学位论文1 、多方位的目标变化:不同场景中目标的多方位变化;2 、多视角的目标变化:同一目标物体中在不同视角下的变化,包括目标的平面内变换( 平移、平面旋转、放缩,倾斜等) 和平面外变换( 深度旋转等) ;3 、光照变化:日标在不同的光照环境下呈现出不同的强度变化,像素强度与光源强度呈线性变化。与光源位置呈非线性变化,光照产生的阴影区域给目标识别带来了很大的困难;4 ,背景干扰:实际场景中复杂背景的干扰涉及到识别方法的实用性和通用性问题:5 、目标遮挡:目标中的部分区域被其他目标或目标的其他区域遮挡引起的识别困难;6 、类别内的个体变化:目标几何形状的变化和内部区域的变化都会极大影响同一类别内的目标识别的判断结果。目前对前三种变化的研究较为深入,主要包括对汽车”2 0 ”、数字o 。蚓以及人脸2 1 a t - s o )或指纹”7 刀等生物特征有限类别的识别。现有方法已经可以有效地降低甚至消除这些变化对识别造成的影响;而图像理解的基本任务就是在真实世界的环境下对广泛意义上的目标进行识别和检测,虽然各种目标千差万别,但极可能属于同一认知概念的划分,冈此,后三种情况出现的问题是对图像理解中广义目标识别研究的极大挑战。通常地,目标识别包含了表示( r e p r e s e n t a t i o n ) 和学习( l e a r n i n g ) 分类两个阶段,训练样本通过提取特征构建特征库,再通过概率推理模型或分类器模型进行学习,为待识别目标提供识别决策,最后完成识别任务,图i 3 显示了图像理解中广义目标识别的一般过程,针对图像理解中广义目标识别的表示和学习问题进行深入分析和讨论将是本文研究工作的核心内容。图l - 3 目标识别的一般过程1 2 2 高层语义分析图像理解是通过计算机对输入场景的计算、分析和推理将场景的相应目标和区域进行语义化标记输出的过程,因此高层语义分析对图像理解的实现具有重要作用,由于对目标和场景进行了认知上的概念划分,因此只要有足够的训练学习均可将其进行简单的名称语义化描述。更通常的语义化描述则涉及通用的概念模犁描述,并建立区域特征与语义单词的概率对应关系,体现了数据和知识概念转换,研究侧重于视觉的中低层数据特征的分析提取和概率关系建模,一定程度上实现了自动的语义标记。4第一章绪论区域语义化的标记描述是数据与知识之间的转换过程,由于图像理解中涉及的标记描述非常广泛,因此对此类问题的研究还不多见。常用的标记方法通过低层处理进行区域分割和线提取特性测量,形成区域线及其图像特征中层数据库,数据和知识的转化和融合就是形成中层数据库的过程。规则表示前件为区域的若干特征数据,规则后件则是理解的标记描述,通常为若干名词描述,标记的过程即是对规则的推珲过程,只有事实库中的内容与规则的条件相匹配时,才能激活这条规则。当激活多条规则时,按解决冲突的策略只选择其中一条。o h m l 6 j 设置了四类耳标,解释部分由底向上( b o t t o m u p ) 和由顶至下( t o p - d o w n ) 两部分组成。由f 向上的部分形成计划图像,是对关键片的组目标标记集,并估计其正确性。由上而下的过程研究这些解释,并在已解释的大的区域之问分析小的详细结构。当由上至下过程作出有意义决策时,重新估计又激励起由底向上的过程。三维景物的图像理解建立目标的局部结构模型,语义化的过程是建立目标图的过程,目标图的节点表示目标和子目标,由广义的圆柱体表示,目标图中的弧表示层次结构和空问关系,通过找出图像的图片图描述和预报图得出的描述之间的子同构解释理解目标。通常的图像理解仅仅局限于若干有限的目标或场景,缺乏广泛的语义化描述能力。当前对语义化描述描述的研究更侧重泛化分析,b a m a r d 等1 6 3 1 将广泛的概念名词进行了层次划分,高层节点描述出现频繁较为通用的词语,而低层节点描述较为特殊的词组,将每一类概念区域得到的特征向量进行聚类,通过建立离散概率模型描述每个聚类和每个词语之间的对应关系,分析得到的目标概率直方图,取出最大概率对应的“聚类词组”对,实现知识和数据的转换和场景的语义化过程;c a r b o n e t t 0 1 6 在此基础上将图结构模型融入语义化的标记过程,建立语义化的标记过程,整个语义化标记过程是无监督的过程,其具有很好的泛化能力,但由于千变万化样本获取非常困难,因此语义化的理解结果正确性非常有限;f e r g u s等m 1 对语义化的过程则进行了某些概念上的限制,将概念的归属分类仅仅限于视觉上的分类情况,对每类语义化的概念特征建立统一的模型,最大化似然概率的过程即是选择合适的区域块进行概念语义化描述的过程,方法具有形状和尺度的不变特性,建立了将近1 0 0 多类概念目标的结构表述。由于样本获取和概念描述的多义性等影响,图像语义化研究仅仅处于初始阶段,主要以检索语义化为主,各种语义化的标记过程对概念区域的描述非常有限,数据和知识的对应关系过程通常设计模型进行参数化学习和概率分析,最大后验概率得到的对应关系就是最终语义化的结果;也可通过建立知识模型对匹配推理得到的结果进行语义化标记。因此,如何处理好语义化过程中带来的中低层数据与高层语义的转换问题是本文的另一个研究重点。1 2 3 场景分类场景语义分类是图像理解中对整体场景的判断和解释,对图像理解中场景分类的研究刚刚起步,2 0 0 6 年在m i t 首次召开了场景理解研讨会( s c eu n d e r s t a n d i n gs y m p o s i u m ,简称s u n s ) ,明确了场景分类将会是图像理解一个新的有前途的研究热点。目前,对场景分析的研究集中于视觉心理学和生理学,快速场景感知试验证明人无需感知场景中的目标便可通过空问布局分析语义场景内容,对场景理解仅需很短的时间便获取到大量的信息,从眼睛5合肥1 业大学博士学位论文获取到的视觉感知信号通过脑皮层视神经“v l 区v 2 区专v 4 区- ) i t 区专a i t 区专p f c 区”的传输通道进行信息分析与过滤,具有视觉选择性和不变性双重特性;在此基础上,o i i v a 和l i 【6 9 l 通过建立计算模型实现几类场景( 室内室外等) 的判断,并初具成效由于场景分类的系统研究刚刚起步,因此有很多亟待解决的问题,如如何构造计算函数模拟不同区域内视神经细胞的处理过程以达到激励响应的一致;如何建立有效的模型分析机制,拓展图像理解中的场景分类能力也是本文研究工作的一部分尽管已有的研究方法与图像理解密切联系,但基于高层语义知识驱动的智能方法研究和基于中低层视觉信息驱动的计算机视觉方法研究的关联性研究并不多见。因此,如何将中低层的数据处理分析与高层的知识表达推理有效地结合,数据分析形成知识推理,知识反馈指导数据获取,实现渐进的理解过程,对图像理解的研究具有突破性的重大意义,也是本文研究中心和工作重点1 3 论文的课题来源、研究思路与论文组织结构1 3 1 所选课题的来源本课题在对图像理解理论和方法研究的基础上,以国家自然科学基金项目( 6 0 3 7 5 0 1 1 )“一种新型的图像理解方法研究”为主要研究背景。结合国家自然科学基金项目( f m 5 7 5 0 2 8 )“协同视觉选择注意机制研究”和军工8 6 3 项目( 2 0 0 6 a a 7 0 4 3 3 2 ) “基于x x 特性的x x 导航与定位技术研究”的相关研究内容,开展了基于新型图像理解方法体系和认知结构的基础性研究。1 3 2 论文的研究思路目前对图像理解尚没有明确的定义,有学者将图像理解与计算机视觉相联系,有学者将图像理解与人工智能相联系,对图像理解的研究内容、结构和研究方法尚很模糊。实际上,图像理解既是对计算机视觉研究的延伸和拓展,又是人类智能的研究新领域,渗透着人工智能的研究进程,图1 4 显示了图像理解与计算机视觉和人工智能之问的关系。现代人工智能的应用领域传统人工智能的研究内容图1 4 图像理解与计算机视觉和人工智能的关系图第一章绪论我们认为,图像理解以图像为对象,以知识为核心,是研究图像中有什么、它们之间的相互关系、图像是什么场景以及如何应用场景的一门科学。图像理解与计算机视觉、与人工智能有着密切的联系,作为图像理解的低层数据的是视觉信息,理论出发点是机器视觉,作为图像理解的高层对象是知识信息,理论依据是人工智能。图像理解与计算机视觉,与传统人工智能有着不同的研究侧重点,是二者的结合部,是二者联系的桥粱图像理解属计算机视觉的高层,不仅研究图像中有什么,更重要的是研究图像中目标之间的相互关系,研究图像的含义。图像理解的输入是数据,而输出是知识,是关于对图像的理解、对图像的语义解释。如何将计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论