(信号与信息处理专业论文)图像语义检索相关技术研究.pdf_第1页
(信号与信息处理专业论文)图像语义检索相关技术研究.pdf_第2页
(信号与信息处理专业论文)图像语义检索相关技术研究.pdf_第3页
(信号与信息处理专业论文)图像语义检索相关技术研究.pdf_第4页
(信号与信息处理专业论文)图像语义检索相关技术研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(信号与信息处理专业论文)图像语义检索相关技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着多媒体、计算机、通信技术及i n t e m e t 网络的迅速发展,视觉信息检索 逐渐成为当前迫切需要解决的问题,而基于内容的图像检索是其中的一个重要 方面。回顾图像检索技术的发展历程,我们发现只有结合图像的多种信息,特 别是图像语义信息,才能使检索的能力尽可能接近人的理解水平。 本文围绕语义图像检索的应j _ f j 背景和研究现状,重点研究在基丁内容的幽 像检索系统中,如何能够结合人的高层语义理解进行检索。本文分析了构建语 义幽像检索系统的儿个关键技术,并且对其中的面向对象的幽像内容表示模型 平| i 图像语义抽象层次、图像语义提取方法,以及词义扩展的需求及麻 j ,分别 作了详尽的阐述。本文取得了一些有价值的研究成果: 1 在研究基r 区域对象的幽像检索过群中,提 n 了麻h j 机器转换模型获取幽 像对象的高层语义,从而进行语义查询的新方法; 2 在词义扩展方面,在本文的系统中利用语言学l :具、r d n e t 可以获取词 义间关系的功能,实现了在有限知识的前提r 利川更多词汇进行卉啕的需求, 从另个侧面增加了系统的功能; 3 在应川低层特祉方面。针对传统的幽像库格式不统一,应州了m p e g 7 幽像特征描述符对低层特征进行描述。 总之,在现有技术币i 实验室条件的前提r ,本研究在一定程度上缩小了“语 义鸿沟”的距离,为基r 语义的图像检索开辟了新的思路,为后续基丁语义内 容的研究打f 了良蚶的基础。 关键字:剀像捡! 豢,语义检索,幽像分割,目标识别 a b s t r a c 下 a b s t r a c t w i c h 【h e 豫p i d 出v e 蛔p m e n to fm u i t l 耐c o m p 心c 口m m u n i c a c i o nt c c h n o 【o g i 髓 部dj n t e m e t ,a nu t 鹫眦d e m a n dh a s 即a d u 酊l ya r i s e nf o rv i s 啊lj n f o r m a n o n 代打l e v a l ,】n w h j c hc o n l e n f _ b a s e di l n a g cr c h l e v a lp i a ”a ni m p o m n t l ei fw ei o o kb a c ki n t ol k h i s t 0 叫o f i m a g e 嘲r i e v a it e c h n o l o 西e s ,i “so b v o u st h a t 帅l yi f w em a k ef u u s eo f t h e v a n o u 5 m a g ec o n t e n 坞,e 5 p e c h l l yt h o s ec o n 诅i n j n g 地i m a 舒洲a n t i c s n f o r m a t l o n ,c a n w ep o s s i b i y 驴tm e5 a l i s 母i n gc 8 p a b i l i t yo fr e e v 川s y n e mw h i c hi sc l o s et oi h a io f o u r h u m a n i nt h 话c h e s i s ,w en 肛li u m m 盯i z e 廿1 er c s c a r c hs t a t eo fi h ea na n da p p l i c a t i o n b a c 睡r o u n do r c o n t e n 卜b a s c dl m a 窖er e 订i e v a i t h c nw ef b c u sm a i n ho no u rr e s e a f c ho n h o wt oe m p l o yt h e m a g 亡s e m a n t i c si oa c h i e v eab 嘲e r 嘲u 抽山ec o n t e n t - b a s e di m 赡e r e t r i e v 削s y s t e m s ah o ty e tm t r a c t a b i ep r o b i e j | i - nc u r 弛n i m a g er 帕。i e v a ir e s e a r c h t h i 5 【h e 蜘ja i s op r e s e n t ss e v e r a ik e ym e l h o d sa n dt e c h n 蛔u e sl nc o n s l r u c t i n gs i l c hs y s t e m 5 w i r ha n c m p h 私i so no b 妒c t 甜l e n t e d m 8 9 e 。o n 鼢nd e s c r ;p t ;m o d e l ,t hi m a 萨 s e m 日n t i c 如s f r a c th e r a r c h mi m a g ec o n 悖n fr c p r e s e n t 甜i 伽m e t h o 出,l m a 璺es e m a n t i c c x i n c “o nm e t h o da n ds o m ci m p o n a n 【 b p bi ns e m a n t i cr c t r i e v a ls y s t e md e s i g n t h em 由o ra c c o m 州i s h m e nc so f o u rr e s e a r c ha r ea sf 0 o 、帖 ij m a g es e m a n t j ce x t r a c t i o n l n 山ea r e ao fr e g i o n l 诅s e do 叫c c ti m a g er e f r i e v a i ,山i sm e 3 bp r e s e n t san e wq u e 7 y m e t h o du s t “gm a c h i e 搬m s f o r mm o i 仲g e h 曼h - k v e li m 8 9 c5 e m a 燃i e t b e 钉n 8 ; r e s u l i si no u r e l p e r j m e n ir e v e a i e dt h ee | f i c e n c ya n d 岛触i b i i i t yo f h l sm e t h o d a n da i s o p m v l d b dan e w “a yo f n a h o w i “g l h es e m a n t i c sg a pb e t w e e nh i g h - j e v e 】i m a g es e m a ne i c s a n dj o w l e v e iv i s i o nf b a t u 陀s 2u s 儿1 9w o r d n e tl oe x p a n dn u m b e fo f k e yw o 叫s i no r d e r1 0e ”p a n dt h ea b i i i 【yo ft h ec 8 i rs y s 把m ,t h i st h e s i su s 船av e 硌a t i l e 的0 】 w o 心咄l og e t n 他试a :出i p o i k e y w 矾s 3ur 1 i f o r mf e a t u 他d e s c r 咄o n f o rt h el 陀a t m e n to fi d w - i e v e ii m a g e 协t u r e 5 ,w ee m p l o y e da nm e p g 一7i m a g e i i a t u r e d e s c r l p o r t o d 。p i c tl h e m ,t h u se f f e c t i v e hs o l v e d t l i ep r o b i e mo fr o r m a t l i l c 帅3 e n c ymt r a d i t i o n a ii m a 铲d a t a b a s e , i naw o r d ,w eh a v en a r r o w e dt h 。9 8 pb e t w e e ni m 8 9 es e m a n 【i ca n di m 8 9 ef e a c u r e b a s 鲥o n h eo u r r e n t 陀s p a 他hl e v e lo fo 啊1 a 时啼o r y 甜垴t h ot h h 蛔啦sw e1 、a v oa l r c a d y g l a 5 p e dt h e s ei d e a sa 【钟p r o v l d ean e ws c h e m ef o r m a l l t i c l e v # ii m a g er e t r i e v a l a i i t h e s e w o r k w 川b eh e l p n 上lr o r t h e f u i u r er e s e a r c ho f c b i rs y s i e m k 钾w o r d s :i m a g e 阳e v a i ,s e i l l 柚t i c sr e t r i e v a i ,】m 8 9 es 甥m e n t a t i o n ,o q 。c t r e c 0 暑n l t i o “ y8 7 9 5 3 9 独创性声明 本人声明,所呈交的学位论文是我个人在导师指导 下进行的研究工作及取得的研究成果。尽本人所知,除 了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北 京交通大学或其他教学机构的学位或证书而使用过的 材料。与我一起工作的同志对本研究所做的任何贡献已 在论文中作了明确的说明并表示了谢意。 本人签名:盟 日期:迸吐月 关于论文使用授权的说明 本人完全了解北京交通大学有关保留、使用学位论 文的规定,即:学校有权保留送交论文的复印件,允许 论文被查阅和借阅:学校可以公布论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存论文。论 文中所有创新和成果归北京交通大学计算机与信息技 术学院所有。未经许可,任何单位和个人不得拷贝。版 权所有,违者必究。 本人签名: 日期:年一月 第章绪论 第一章绪论 1 1 论文选题的背景与意义 图像作为一种内容丰富,表现直观的多媒体信息,长期以来一直 受到人们的青睐。对于图像的管理,早期采用文件的管理方式。到了 上世纪7 0 到8 0 年代期问,对图像数据的管理是对图像赋予属性信息, 并且在关系数据库中把这些属性看作格式化的数据,图像的检索仅仅 局限于这些图像属性的字符串的匹配川,其主要方法是对图像文件建 立关键词( k e y w o r d ) 或文本标题以及一些附加描述信息( 2 ) 然后将图像 的存储路径和图像关键词之间建立联系。基于文本关键词的图像检索 技术简单方便,也有成熟的数据库理论和应用系统的支持,但是它不 能充分描述图像的丰富内涵1 3 】,从而造成实际应用上的困难。一般晓 来基于文本关键词图像检索的主要缺点有:人工标注费时费力。而且 容易出错,特别是当数据库很大的情况下这个缺点更加突出。图像包 台的意义非常丰富,“一幅图像胜过千言万语”,区区几个文字是很难 充分表达图像内涵的。 为了克服基于文本关键字检索带来的困难,上世纪9 0 年代早期 提出基于内容的图像检索( c o n t e n t b a s e di m a g er e t r i e v a l ,简称c b i r ) 技术【4 l ,从可视化角度来对图像检索进行探讨。所谓基于内容的图像 检索,是从图像库巾查找含有特定对象的图像,( 也包括从连续的视频 图像中检索含有特定对象的视频片段) 。它区别于传统的检索手段,融 合了图像理解技术,从而可以提供更有效的检索手段并实现自动化检 北京交通大学硕士学位论文 索。c b i r 具有如下特点:( 1 ) 直接从图像中提取特征建立索引:( 2 ) 检索匹配是一种近似匹配,这一点与常规数据库检索的精确匹配方法 有明显不同:( 3 ) 特征提取和索引建立可由计算机自动实现,避免了 人工描述的主观性,大大减少了工作量。图像检索从图像自身的特色 出发,它正逐步走出文字检索。 近年来,基于内容图像检索( c b i r ) 技术。在国际国内均是一个研 究热门课题,在理论上做了不少探索,并开发出一些有价值的应用系 统。比较典型的系统包括i b m 公司的o i b c 系鲥5 1 m i t 实验室的 p h o t o b o o k 【6 】。u l u c 的m a r s1 7 j ,哥伦比亚太学的v i s i l a l s e e k 【8 l ,微 软亚洲研究院开发的n d1 9 肄等。c b i r 系统按照处理对象的不同可以 分为静止图像检索和活动视频检索。前者用于检索的特征主要有颜 色、纹理、形状空间分布等。后者一般采用脱胎于序列图像分析中的 技术。幽于不同的应用背景,不同c b i r 系统在其检索实现中采用的技 术各有侧重,一般都能在传统的计算机视觉和图像处理技术中找到其 出处。 1 2 研究的内容与现状 语义图像检索已成为解决图像简单视觉特征和用户检索丰富语义 之列存在的“语义鸿沟”f l o j 问题的关键。本节从图像语义的建模和 表示、图像语义抽取方法和检索系统设计三个方面对语义图像检索的 研究状况进行了分析和研究。 第一章绪论 1 2 1 图像内容模型与表示 现存的图像检索技术和系统一般都是在需求推动下,分别对于某 一狭窄的应用领域的语义进行处理。要建立比较通用的图像语义检索 系统,并支持广泛的用户请求,对整个语义表示和处理的过程进行一 定的抽象非常必要。这个抽象的过程。即建立图像内容( 语义) 模型, 对于整合现有的系统和技术,将其纳入通用的框架非常重要。 一个图像检索系统的用户会对系统提出什么样的查询请求,以及 他们如何判断检索结果的有用性,对于如何表达图像的内容至关重 要。图像中包含很多可以胡来检索的内容。而一种有效的表示方式是 采用面向对象方式,如图1 1 所示。图像整体作为对象,本身包含各 种属性和特征:组成图像的各个部分,又可以看成独立的对象,也具 有自身的属性和特征:同时这些对象之间具有一定的关系。所有这些 属性和关系,就构成了完整的图像描迷。其中虚线框内的图像内容, 不能通过原始图像直接获得。必须通过额外的语义处理。图中,图像 全局所表示的情感、行为和场景等,属于比较抽象,比较高层的语义。 而对象及空闯关系相对抽象层次较低。 北京交通大学硕士学位论文 图1 1 基于对象图像模型 根据用户查询的复杂性,图像可以包含如图1 2 所示的语义内容 【3 i ,图中的箭头表示语义的抽象程度,下一个层次通常包含了比上一 个层次更高级更抽象的语义,而更高层的语义往往通过低层的语义推 理而获得。e a k i n s 将这些语义内容分成三个级别,其中的每一级别 对应于图1 2 中的若干语义层次,并相应于用户查询涉及的人对图像 的理解层次。 第一个语义级别称其为特征语义,它描述了图像的颜色、纹理和 形状等低层视觉特征及其组合,通过图像的视觉相似性来进行检索。 从本质上c 兑,这个级别并没有利用图像的语义信息,目前c b i r 技术 就主要处在这个层次。 第二个语义级别涉及到导出的特征,即要进行一定的逻辑推理和 识别出图像中包含的对象类别。这个层次的语义主要对应于图1 2 中 的对象和对象空间关系。要让计算机识别某一类的对象, 第一层 i 特征语义i 特定的颜也纹理、形状特征及l l 红【合i 4 第一章绪论 饲如:红色椭既 对象级别, 第二层对象语义 例如:一匹马、大象 对象之问的空间关系 第三层 空间关系语义 例如:河边的小屋 图像所处的场景 第四层场景语义 饲如:f i 幕、沙漠 璺i 像所表求的行为活动 第五层行为语义 例如:一场篮球赛 陶像给人的主现感情 第六层情感语义 例如:喜庆的图像 图1 2 层次化语义模型 首先必须让计算机内部表示,然后找出图像中可能是对象的区 域,再柬判定对象的类别。对于对象阐的空问位置等关系,则是在识 别出了对象的基础上来描述它们之问的拓扑关系。 第三个级别的检索则涉及到图像的抽象属性,需要对所描述的对 象和场景的含义和目标进行高层推理。这个层次的语义主要涉及图像 的场景语义、行为语义和情感语义,为了将图像内容和抽象概念联系 起来,复杂推理、主观判断必不可少。这些推理和判断往往是建立在 知识和学习的基础上,常常要利用心理学和认知科学方面的一系列成 果。 满足不同语义级别的检索需要不同的技术。这种对用户查询进行 分类的方法有利于描述不同检索技术的能力及其局限性。三个语义级 别最主要的差别体现在第一和第二级别之间,即是否真f 利用了图像 北京交通大学硕士学位论文 的语义。许多研究者将第二级别和第三级别的检索称为语义图像检索 1 0 1 ,而将第一和第二级别之间的差别称作语义鸿沟( s e m a l l t i cg a p ) 。 语义的另一个重要特征,就是语义的粒度。图1 2 中的语义层次 分别代表了不同粒度的语义,并且即使在同一个语义层次上,还可以 对粒度进一步划分。比如同样是对象语义,房子上的窗户的语义粒度 就要比房子的语义粒度更细。对于不同的应用领域。明确所要处理的 图像语义粒度范围,对后续的处理工作具有重要的指导意义。图像语 义的另一个重要特征是它的面向用户的特性。不同知识背景的人有不 同的语义需求,并且对于同一幅图像有时会产生截然不同的理解。如 何在检索系统中体现这种差别,是图像语义表示的一个重要问题。 a m o i d 等垮r 对图像检索中存在的“用户从视觉数据中获取的 信息与用,。自身对视觉数据理解的不一致性”而出现的“语义鸿沟 ( s e m a r i t i cg a p ) ”问题,将图像知识的作用域分成狭义域和广义域,他 们认为;在狭义域中,图像内容变化很小,整个领域的环境也相似, 当对象的外观变化较小时,图像的语义描述总体上容易定义,并且大 多数情况下是唯一的:而广义域中的图像内容差别较大,它们的函义 只能被部分定义。 狭义域和广义域的概念可用在刻画使用模式的特征定义和选择及 图像检索系统的设计中:在广义域图像中,特征描述和语义注释之删 的差距通常较大,而狭义域中的图像,特征和它们的语义注释之间的 差距较小,这样,就有可能定义特定的语义模型。同时,他们将图像 检索中的知识来源分成以下几个方面:定义图像象素集或图像特征集 之问联系的语法等同性和相似性规则:人对等同性和相似性理解的描 述规则;在感觉和物体表面特性的差别下描述图像的等同性和差别性 第一章绪论 的物理规则:描述空间图案等同性和差别性的几何和拓扑规则:基于 分类目录的规则;人为的习惯成者与人相关的模式引出的观念等同性 和差别性的规则,等等。这一结论为图像语义知识的定义和表示提供 了框架。 最简单的语义表示方法是利用文本。b u x t o n 认为“aw o r di s w o n hat h o u s a n dd i c t u r e s ”,文本描述的优点是可以描述一些高层的抽 象的概念,并且比较直观,容易处理。h e r m e s 等【b 锰i r i s 系统中, 使用相似性技术直接从户外图像中推导出场景的自然语言描述。颜 色、纹理、区城和空间信息被输入到图像解释器来获得每一图像区域 最可能的解释,然后整个场景产生的文本描述,可以利用文本检索技 术来检索。在某些情况下,利用词典( 如:w o r d n e t l l 卅) 将文本表示的相 关语义概念联系起来可以获得一定的模糊匹配能力。但是由于文本 描述坷;容易自动获取,它内在的主观性,并且对于概念之问的复杂关 系缺乏足够的表达能力,因此不能单独完成语义描述的任务。 人工智能中传统的知识表示,如语义网络、数理逻辑、框架等方 法,具有表达复杂关系的能力。最近一些研究者使用了一些不同的语 义表示模型,如z h u a n g 等使用了模糊布尔模型、概率厕i 尔模型: c o f o m b o 等使h t 形式语言理论表示:m e g h i n i i l 9 1 使用了模糊逻辑语 言:c a v a z z a 等1 2 0 l 使用了符号语言学方法。这些方法在不同的场合分 别显示了它们在语义表达或者模糊匹配方面的能力,但是目前还没有 在不同的情况下都能表现出很好效果的通用方法。 将图像看成是对象,图像对应的视觉和语义特征部看成是图像刈 象的属性,是一种直观的方法。特别是在图像包含各种层次的描述信 息,信息之恻关系复杂时,这种方式的优点更加突出。d o r i l 2 lj 将图像 北京交通大学硕士学位论文 分成前景、背景和相应对象,使用了0 巧e c t _ p r o c e s sd i a g 姗s 来描述 这些对象、对象的属性以及对象之间的关系。这是种面向对象的方 法,但是不够通用。m p e g 7 提供了通用的解决方案,将面向对象方 法天生的描述事物能力使用在图像上。 图像的低层特征与图像的高层语义表达之问还存在着巨大的“语 义鸿沟”。下面将针对图像的语义提取方法,即将低层图像特征映射 到高层语义的方法作一个全面的讨论。 1 2 2 图像语义提取方法 目前图像语义的提取方法可以归纳为三类,分别是基于知识的语 义提取;人工交互语义提取;剥用外部信息源的语义生成。它们构成 了目前语义提取方法的主线,图l 3 的三个阴影虚线框表示了这三种 语义提取方式。 利用系统知识的语义提取 基于知识的语义提取主要特征是需要预先给系统提供必要 第一章绪论 图1 3 图像语义提取模型 的知识,如对象模板、图像场景分类器等等。依据提取的语义内容和 采取的方法,又可以分为基于对象识别的处理方法和全局处理方法。 基于对象识别的语义提取 基于对象识别的语义处理,一般采用传统的计算机视觉处理框 架,主要有以下关键的处理过程:特征抽取、对象识别和基于领域知 识推理的语义提取2 4 1 ,如图1 4 所示。这是一个自底向上的过程,每 一步处理都是接下来的处理的基础。 图1 4 基于对象t 别的语义抽取 抽取的图像特征主要包括颜色、纹理、形状等,且通常分为全局 特征和局部特征两类。全局特征将整个图像看作一个单独的实体,它 的主要优点是特征抽耿和模式匹配算法的复杂度较低,而主要缺点是 检索返回的结果中有很大比例的不相关图像。局部特征可以被用来识 别图像中的显著对象,并抽取图像更多的细节信息。图像被分割成一 系列区域,再对分割好的区域提取多种特征。每个区域表示一个潜在 的用户感兴趣的对象,并且可以由对象识别层进行对象的识别柬提取 更高层的语义。利用与领域对象相关的知识进行对象局部特征的提 取,将提供一个更加鲁棒的索引和检索机制。 9 北京交通大学硕士学位论文 对象识别过程通过将存储在知识库中的对象模型与抽取的图像 特征相匹配来识别图像中的对象。通常,对象模型是个特定对象模 板,在匹配过程中将检查每一个对象摸板来获得最相似的匹配。通过 精确匹配来识别对象计算复杂度较高,并且匹配的质量依赖于图像中 对象的表现,由于同一对象在不同情况下获得的图像中通常表现出不 同的特征。固定模板的精确匹配肯定无法取得好的效果。可变模板匹 配【2 副是更加可行的方法,它通过先将原型模板的轮廓施加概率变换, 再将变换后的模板与输入图像中的显著边进行匹配。为了提高查询的 成功率,并且保证好的候选图像不落选在相似性度量中必然要用到 一些模糊和统计的技术,而且人工对输出图像的检查通常不可避免。 基于领域知识的语义推理过程在识别出对象的基础上,利用知识 库中的规则和方法,将对象和对象之间的空问关系映射到不同层次和 粒度的语义。这一部分的关键问题是图像语义知识库的建立问题和如 何利用知识库中的规则进行推理的问题。由于语义的多样性,利用知 识提取图像语义的过程,同样也需要采用一定的模糊技术。根掘特定 的领域知谚 库,可以提取特定的人所关心的语义,这样可以解决某些 面向特定用户的语义问题。 1 2 3 检索系统设计 在提取了图像的语义井将其作了适当的表达后,接下来就要考虑 如何设计利用语义的检索系统。这个部分主要涉及两个方面;一是用 户提交请求的方式;二是系统处理语义的方式。 用户的界面设计 目前将用户的语义需求提交给系统的方法主要可以分为三类。 第一章绪论 一类是基于查询语言的方法,主要包括使用关键字和s q l 。这类方法 的主要优点是便于系统处理,但是用户必须对数据库模式和查询语言 有所了解:同时,用户对提交的查询请求没有一个可视化的印象,不 能与自己脑海中的需求相比较。这一类方法更进一步就是通过自然语 言查询,这就需要语音识别和自然语言处理模块,将自然语言翻译成 系统的内部表示。另一类方法提供一个可视的界面,如通过提交范例 图像或者草图。系统对于提交的范例图像或草图进行语义抽取,再与 图像库中的语义模式相匹配。这类方法对于用户来说相当直观,但是 由于图像具有丰富的语义内容,系统容易产生歧义,无法准确把握用 户语义需求的范围与粒度。第三类方法主要是利用了面向对象的方 法,用户通过画一个结构图来提交自己的请求。图中节点表示对象, 对象问的关系通过节点之阳j 边的属性来指定。 这类方法可以指定较细粒度的图像语义。也能精确表达图像中对 象之删的关系。但是这一方法的缺点是无法表述更高级更抽象的语 义。 由于上述方法各有利弊,更好的解决办法是将不同方法结合起来。 其中任意两种方法的组合就能表达更丰富的语义内涵,并且可以消除 歧义。对于一般用户来晓,不同的场合需要不同的方法,因此系统提 供多种查询方法对于一个实用的图像检索系统必不可少。 系统语义处理 根据结合语义采取的不同方式和所处的不同阶段,系统处理语义 的方式可分为两种。 在第一类系统中,图像的相关性真萨建立在图像语义匹配的基础 j = :的。对于用户提交的查询请求和图像库中的图像,都进行语义的提 北京交通大学硕士学位论文 取工作。然后根据图像语义之间的相关性来判断图像满足用户语义需 求的程度。这一类系统在整个图像检索过程中,都与图像的语义紧密 结合。语义的匹配方法与语义的表示方法密切相关,不同的表示方法 有不同的匹配方法。 第二类系统只在正式提交查询前,将用户的语义需求与系统的语 义模板相对应,而图像的检索通过语义模板来完成。这里语义模板指 的是与一个语义概念相对应的图像集或草图集。图像库中图像与语义 模板的匹配并不涉及到图像的语义内容,而是由c b i r 来完成。在这 类系统中,c h a n g 等【2 7 】提出的视觉语义模板( s e m a n t i c s u a it e m p l a t e ) 最为典型。该方法要求用户对所要检索的概念设计一个颜色、纹理或 形状特征的草图,并指定这些视觉特征参数的变化范围。系统自动将 原始查询作多种变动,生成多个满足特征参数变化范围的查询请求, 然后通过用户反馈挑选出其中几个效果较好的查询请求。系统对查询 集的变动和用户的反馈不断进行,直到用户的检索结果得到满足。这 时再给经过优化的查询集一个语义标签,作为语义模板存储在一个查 询数据库中,以支持以后的语义查询。由于目前c b i r 技术研究已经 取得了很大的进展,这一类系统可以充分利用c b i r 的现有成果。但 是这一类方法本质上还不属于语义内容的图像检索,因为并不需要计 算机对图像进行语义提取,因此从系统的设计和功能来说,不具有通 用性,也不能达到很好的效果。 1 3 我们的研究工作 我们的工作主要集中在对静态自然图像进行语义检索方面。 针对目前图像检索中低层特征描述与人感觉之间的差异以及高 第一章绪论 层语义与低层特征之间的“语义鸿沟”,我们主要作了以下几方面的 研究: 1 在研究基于区域对象的图像检索过程中,提出了应用机器转换 模型获取图像对象的高层语义,从而进行语义查询的新方法: 2 在词义扩展方面,在本文的系统中利用语言学工具w j r d n e t 可 以获取词义间关系的功能,实现了在有限知识的前提下利用更多词汇 进行查询的需求,从另一个侧面增加了系统的功能; 3 在应用低层特征方面,针对传统的图像库格式不统一,应用了 m p e g 7 图像特征描述符对低层特征进行描述。 1 4 论文安排 论文的各章节安排如下: 第一章,绪论部分。简要介绍论文选题的背景及意义,总结了研 究的内容与现状,同时介绍了检索系统的应用领域及我们的研究工 作。 第:二章,基于内容的图像检索系统简介和一些典型检索系统介绍。 本章总结了基于内容的图像检索研究中常期的特征描述方法,特征的 相似性比较方法,介绍了本文提出的一种新的基于多分辨率分解的图 像纹理描述方法;同时较详细的介绍了目前许多研究机构己丌发的典 型检索系统。 第三章,基于机器转换的检索新方法。 本章首先简要的介绍了基于区域的图像内容检索的基本概念和研 究内容,接着介绍了本文提出的一种基于语义的图像检索方法,并介 绍了此算法在基于区域的图像内容检索中的应用,最后对算法的检索 北京交通火学硕士学位论文 结果进行了分析比较。 第四章,词义扩展的应用。 针对检索系统能够提供的关键词有限的问题,本章提出应用语言 学词典w b r d n e t 的新应用。本章首先介绍了词义扩展的需求,从而引 出了语言学词典w b d d n e t ,再讲述了w j 曲q e t 的基本原理之后,本文 给出了在基于语义的检索系统中应用w o r d n e t 获取查询关键字之间关 系的应用。 第五章,总结与展望。 对论文进行了总结并在研究的基础上提出了对未来的展望。 最后是参考文献、硕士期间发表的论文和致谢。 1 4 第二章基于内容图像检索简介 2 1 引言 第二章基于内容图像检索简介 近年来随着计算机的发展,对数字图像进行检索的需求曰益增长, 图像检索自7 0 年代逐步成为非常活跃的研究领域,其推力来源于两 大研究团体:数掘库系统和计算机视觉。 基于文本的图像检索研究主要在数据库领域进行,使用关键字注 释是最常用的方法,对图像的检索变成对关键字的检索。这种方法简 单易行,能从用户角度表达图像的高层语义。但是,当图像的数量非 常大时,其一是手二【:对图像进行注释所需的工作量大,其二是对图像 注释不但主观性强而且不精确性。 进入9 0 年代早期,由于大规模图像数据库的出现。由手工进行 所带来的困难变得越发突出。为了克服困难,研究者们提出了基于内 容的图像检索( c b i r ) ,其思路不同于基于手工注解的关键字进行检 索,而是利用图像自身的视觉内容,如颜色、纹理、形状等检索的。 基于内容的检索的三个突出特点是: l 用与图像内容相关且与图像存储在一起的量化特征进行检索; 2 用图像低层特征之间的相似性代表图像之间的相似性: 3 已有系统大多采用示例查询( q u e 叫b ye x a m p l e ) 方法。即用户给 出一幅示例图像,要求系统去检索和提取图像库中所有相似的图像。 这种方法的变形是允许用户组合多幅图像或画草图以得到示例图像, 查询过程中最重要的工作就是确定选取什么样的匹配方法来把查询 图像和图像库中的大量图像进行匹配。 北京交通大学硕士学位论文 2 2 低层视觉特征 图像处理的最终结果是为了提取可用做标志的有意义的属性,即 图像特征。图像特征可分为统计特征和视觉特征两类。统计特征是人 为定义的特征,通过对颜色空间变换得到,如颜色直方图、矩、频谱 等:视觉特征是指人的视觉可直接感受到的自然特征,如区域的颜色、 纹理、轮廓等。 特征提取是基于内容检索的基础。这里指视觉特征( 如颜色、纹理、 形状等) 。我们知道作为良好的特征应该满足下面两个条件: ( 1 ) 易于计算,便于比较,所需存储空间小。 ( 2 ) 与语义层描述之间的“鸿沟”( g a p ) 应该尽可能的小。 2 2 1 颜色特征 颜色之所以受到重视是因为:1 当入在识别图像时最直接且最 容易引起视觉敏感的特征就是颜色:2 颜色特征具有很强的鲁棒特性 一般随着图像的旋转,平移等变换颜色特征变化不大;3 从目前以颜 色为基础的检索来看,结果比较令人满意。 对颜色特征的研究必须置于颜色模型之中,常用的颜色模型有: r g b 、h s v 、y u v 、y i q 、l u v 、l a b 、x y z 及m u n s e l i 模型。这些 模型都各有所长,r g b 模型由红、绿、蓝三种颜色分量组成,是最 常用的颜色空间,常用于硬件显示系统;h s v 是一种反映了人的视觉 特性因此适用于图像处理的颜色空问模型,这里h 表示色调,s 表 示饱和度,v 表小亮度值咳模型被诸多算法所采用,往本文所提到 的系统中也应用了h s v 模型。在第甄章将对h s v 模型中的特征提取 第二章基于内容图像检索简介 过程进行较详细的阐述。 2 2 2 纹理特征 纹理是图像的表面所具有的内在特性,它包含了关于表面结构的 安排以及周围环境的关系。纹理的分析方法可分为统计方法、结构方 法和频域法等。在7 0 年代早期,h a m l i c k 【2 9 1 等人提出了关于纹理特征 的共生矩阵表示,该方法探索的是纹理的狄度级的空间依赖关系。首 先根据图像象素间的方向和距离构筑一个共生矩阵,然后从该矩阵中 提取出有意义的统计作为纹理表达。 基于人类对纹理的视觉感知的心理研究,t a m u r a 【3 0 i 等人发展了对 视觉纹理的近似计算,这在心理学上非常重要这六个视觉特征是: h 糙度、对比度、方向度、线性度、规整度、粗略度。由于t a m u r a 表 达中的纹理特性在视觉上是有意义的,而共生矩阵中的某蝗纹理特征 则不然。因而它被应用于许多图像检索系统中,如o b i , 。 尽管图像的纹理特征很难给出确切的定义,但是越常认为纹理特 征应该具备以下三个基本要素:一是某种局部的序列性,且该序列在 更大的范围内不断重复:二是序列有基本部分非随即排列组成的;三 是各部分大致都是均匀的统一体。 纹理特征是图像低层特征中另个重要部分,纹理特缸的提取土 要是从象素与邻近象素之间的关系着手。比较常用的方法有:空间自 相关函数法,t a m u r a 特征,联合概率矩阵法,和基于小波变换的纹 理分析方法等等。 北京交通大学硕士学位论文 2 2 3 形状特征 形状是刻画物体的重要特征之一,在某些领域利用形状来检索有 助于提高检索系统的准确性和效率。利用形状进行匹配有三个问题值 得注意:1 要获得有关目标的形状参数,常要先对图像进行分割、增 强,从而得到图像中物体的边界点;2 目标形状的描述是个非常复 杂的问题,要受到人的主观感受的影响:3 从不同视角角度获取的图 像中目标形状可能会有很大差别,为准确进行匹配,需要解决平移、 尺度、旋转不变形的问题。 目前常用的形状匹配方法主要有几何参数法、不变矩法、边界直 向图法、小波重要系数法、小波轮廓表达法等。 2 3 相似性测量 在基于内容图像检索中。需要根据表征图像内容的低层视觉特征 来计算图像之间的相似度,再根据相似度的大小检索出图像。检索过 程也可以看成是在特征空问中采用给定的距离度量的足近邻搜索 ( k ns e a r c h ) 。距离可以直接用于检索,也可以通过一个单调减函数转 化为在o 和l 问取值的相似度。在图像检索中常用的距离度量有余弦 【3 “、直方图减1 3 2 j 、m i n k o w s k i 距离及其加权变形,以及二次距离等 等。 假设图像表示为一个d 维的特征向量,给定两幅图像的特征分别 是x = ( x 。,x :,毛) 7 、y = ( m ,儿,n ) 7 ,可以用它们之间的央角余弦 ( c o s i n e ) 作为楣似度度量: 第二章基于内容图像检索简介 洲门2 赢 余弦度量在文本检索中常常使用在图像检索中也有使用。两个 直方图问的距离可以用直方图减( h i s t o g r a mi m e r s e c c i o n ) 来度量。 d m i n ( ,一) b ( x ,y ) = 。了1 一 ( 2 - 2 ) m i n ( 墨,咒) l, 公式2 2 主要用于直方图间的相似度度量。另外,使用较多的明 氏距离( m i n k o w s k id i s t a n c e ) 定义为: d ,( t y ) = 二1 一一只l ) 彤 ( 2 3 ) 当p = l 时,为街区距离,又称为厶距离,当p = 2 时,为欧氏距 离( e u c l i d c 趾血s t a n c e ) 又称为岛距离a 为了区别不同特征分量在相似 度度量中的作用,也常常采用它们的) j i | 权形式,如加权的厶距离为: d q ( x ,y ,w ) = i 一只i ( 2 4 ) j = l 另外,二次距离也是经常使用的,其中主要的是马氏距离 ( m a h a l a n o b i sd i s t a n c e ) ,定义为: d :( j ,y ,m ) = m ( 一只) ( 一一y ,) ( 2 5 ) j j 其中m 是实对称矩阵。如果限制m 为对角阵,可以得到加权欧 氏距。 北京交通大学硕士学位论文 2 4 检索性能评价标准 在设计了检索策略后。就需要进行检索性能的评价。这个评价通 常基于一个参考测试集和一个性能度量。参考测试集包括一个文档集 ( 或图像集) 和一个查询( q u e r y ) 集合,并且对于查询集合中的每一个查 询有一个由专家确定的相关( r e l e v a n t ) 文档( 图像) 的集合,作为该查询 的标准答案( g r o u n d - t r u t h ) 。查准率( p r e c i s b n ) 和查全率( r e c a l l ) 是文本检 索f 3 3 j 1 3 4 】中广泛使用的性能度量,同时也作为图像检索中重要的性能度 量。查准率定义为在检索到的图像中相 关图像所占的比例。查全率定义为检索到的图像中相关图像占图 像库中所有相关图像的比例。给定一个图像库,对于一个查询,图像 库中相关的图像构成集合r ,表示集合中的图像数目。假设给定检 索策略为这个查询给出的检索结果集合爿,洲表示集合中的图像数。 进一步,用1 月a i 表示集合r 和集合爿交集的大小。图2 1 说明了这些 集合。 返州| 璺| 像中相关幽 图2 1 查准率和查全率说明 这样,查准率和查全率的具体定义如下: 集合 第二章基于内容图像检索简介 m 蒯舭粤 ( 2 - 6 、 h 、 r e 删f _ 留 ( 2 - 7 ) h 。 在评价检索系统的性能时,通常使用一组查询,用它们对应的查 准率或查全率的平均值作为对系统性能的度量。检索出的图像通常要 按系统为它们计算出的相关程度来排序。因此,有时也采用在前磊个 检索结果的查准率来衡量系统性能,如在前2 0 ,5 0 ,1 0 0 个检索结果的 查准率p ( 2 0 ) ,p ( 5 0 ) p ( 1 0 0 ) 。一般的说,当查全率增加时,查准率相 应降低。一个理想的c b i r 系统应当在相同的查全率条件下,有尽可 能高的垒准率。所以也常崩p r e c i s i o nv s r e c a l l 曲线米衡量检索性能。 另外,也可以用p r e c i s i o nv s s c o p e 曲线来衡量检索性能,s c o p e 指检 索结果的数目。 2 5 著名检索系统介绍 从九十年代起基于内容的图像和视频检索技术研究就成为一个 非常活跃的研究领域,相应地也建立了许多用于商业或研究性质的检 索系统,在此我们选择几个具有代表性的检索系统作介绍。 q b i c 系统5 l o b l c 系统是由i b m 公司丌发的第一个用于商业_ ; j 途的基十内 容的图像检索系统,该系统的框架及所使用的检索技术对后来建立的 检索系统有着深远的影响。 v i r a g e 系统 v i r a g e 系统是继q b i c 之后又一个基于内容的图像搜索引擎,系 北京交通大学硕士学位论文 统由m g c 公司开发,用于商业用途。 p h o t o b o o k i 赫l 系统 p h o t o b 0 0 k 是一套用于浏览与查询图像的工具集,它由m i t 媒体 实验是研究开发。图像在装入时按人脸、形状或纹理特性自动分类, 用户可在每个分类中使用相应的特征查询。 v - s u a i s e e k l 3 7 1 系统和w 曲s e e k i 勰i 系统 v i s u a i s e e k 是一种基于视觉特征的图像搜索引擎,w 曲s e e k 是 基于网络的文本图像搜索引擎,它们都是由美国哥伦比亚大学研究开 发的。 类似的系统还有n e t 阳1 3 9 嚓统、m a r s 系统、b l o bw o r i d l 删系统、 w i n d s u r f 系统、s i m p l i c “y 系统。除了以上一些有代表性的 内容检索系统之外,还由许多研究机构或公司丌发了不同的原型或商 业检索系统。国内在这方面的研究主要集中几个大的科研机构,它们 有:微软亚洲研究院多媒体计算小组,富士通中国研发中心,清华大 学,复旦大学和浙江大学等。 2 6 小结 低层视觉特征的提取以及特征问的相似度度量是基于内容图像 检索中最基本的环节。在目前采用的低层视觉特征中,颜色特征应用 最为广泛,它容易提取,并主要用来描述图像的全局性质。但它的最 大缺点是缺乏结构性信息;形状特征适直于描述图像对象的几何信 息,是目标形状的一种高层抽象描述,但由于图像分割的困难,限制 了形状特征的应用。纹理特征既可以提供全局描述,也可以提供包肯 结构信息的局部描述,主要的问题是不易定义,而且所需的计算量往 第二章基于内容图像检索简介 往较大。相似性度量方法则需要视具体应用而定。 另外本章介绍了在检索领域迄

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论