




已阅读5页,还剩50页未读, 继续免费阅读
(计算机应用技术专业论文)基于模糊支持向量机的图像分类与语义索引.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 基于内容的图像检索( c o n t e n tb a s e di m a g er e t r i e v a l ,c b i r ) 是一个热门的研究领域, 取得了许多令人瞩目的成就,且发展势头异常迅猛。图像语义索引是基于内容的图像检 索研究领域中一个重要而又有挑战性的问题。图像和视频正在成为多媒体的主要表现形 式,实现图像内容的语义索引成为迫切的需要。由于传统的手工标注索引不仅需要耗费 巨大的人力物力,效率低下,无法应付增长速度远远超过预计的图像库,而且在对图像 语义索引标注的过程中易受到人为的非客观因素的影响。因此,图像的自动语义索引成 为了支持图像语义检索的一个重要技术。 由于传统的支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 作为典型的二元分类器,在处 理多类分类问题时存在不可分样本的问题,本文引入模糊支持向量机( f u z z ys u p p o r t v e c t o rm a c h i n e ,f s v m ) ,通过定义模糊隶属度函数来弥补传统支持向量机在解决多类分 类问题时的不足。 鉴于模糊支持向量机在多类分类问题中的出色表现,本文将其应用于图像语义索引 领域中,在图像分类思想的基础上,提出了一种新的图像语义索引方法。为了更加准确 地索引图像,本文借鉴人类基于图元的图像内容理解思想,即首先是对图像中感兴趣的、 典型的、有意义图像块的认识( 本文将这些图像块称之为图元) ,然后再通过对整幅图像 中图元之间的空间结构关系、布局以及更高层的语义理解,综合成对整幅图像的理解, 提出了加权图像金字塔结构。 在语义索引的过程中,模糊支持向量机主要用于训练概念模型库中的各个语义模型 及计算图像样本与模型之间的关联度;然后根据加权金字塔结构统计样本与模型库中各 个模型之间的关联度,最后根据图像与模型之间的关联度对图像进行索引,实现基于图 像分类思想的智能化的、合乎视觉认知机理的图像索引。 关键词:语义索弓l ;图像分类;模糊支持向量机;图像金字塔 大连理t 大学硕士学位论文 i m a g ec l a s s i f i c a t i o na n ds e m a n t i ci n d e x i n gb a s e do nf u z z ys u p p o r t v e c t o rm a c h i n e a b s tr a c t w i t ht h ei n c r e a s i n ga m o u n to fm u l t i m e d i ad a t a ,c o n t e n t - b a s e di m a g er e t r i e v a la t t r a c t s m a n yr e s e a r c h e r so fv a r i o u sf i e l d s i nw h i c h ,m a n ys t a n d i n ga c h i e v e m e n t sh a v eb e e nm a d e , a n do nw h i c ht h er e s e a r c hi sd e v e l o p e dr a p i d l y i m a g es e m a n t i ci n d e x i n ga l s ob e c o m e sa n i m p o r t a n ta n dc h a l l e n g et a s ko ft h ef i e l do fc o n t e n t b a s e di m a g er e t r i e v a l s i n c ed i g i t a l i m a g e sa n dv i d e o sa r eb e c o m i n gam a j o rs o u r c eo fm u l t i m e d i ad a t a ,i m a g es e m a n t i ci n d e x i n g i sav e r yi m p e r i o u sd e m a n d t h et r a d i t i o n a lm a n u a l l yi m a g ei n d e x i n gi sn o to n l yi n f e a s i b l e w h e nt h en u m b e ro fi m a g e si sf a s ti n c r e a s i n g ,b u ta l s oi se a s i l yi n f l u e n c e ds u b j e c t i v e l yb yt h e o p e r a t o r t h e r e f o r e ,i m a g es e m a n t i ci n d e x i n ga u t o m a t i c a l l yi si m p o r t a n tf o ri m a g es e m a n t i c r e t r i e v a l s u p p o r tv e c t o rm a c h i n e ( s v m ) i sab a s i c a l l yt w o c l a s sc l a s s i f i e ra n de s p e c i a l l yp e r f o r m s w e l lw h e nt h e r ei sn oo v e r l a pb e t w e e nc l a s s e s f o rt h en - c l a s sp r o b l e mi ni m a g ec l a s s i f i c a t i o n , s v mc o n v e r ti tt ont w o - c l a s sp r o b l e m s ,w h i c hi sa l s oc a l l e do n ev e r s u sr e s t ( 1 - v r ) p r o b l e m a n do n ev e r s u so n e ( 1 一v - 1 ) p r o b l e m u n c l a s s i f i a b l er e g i o n se x i s ti nb o t ht h ee x t e n d e dm e t h o d s ow ei n t r o d u c ef u z z ys u p p o r tv e c t o rm a c h i n e ( f s v m ) t os o l v et h eu n c l a s s i f i a b l er e g i o n sb y d e f i n i n ga m e m b e rf u n c t i o n d u et of s v m sp e r f o r m a n c ei nm u l t i c l a s sc l a s s i f i c a t i o n ,i t su s e df o ri m a g es e m a n t i c i n d e x i n gb a s e do ni m a g ec l a s s i f i c a t i o ni nt h i sp a p e r w ep r o p o s ean e wm e t h o df o ri m a g e s e m a n t i ci n d e x i n g i no r d e rt ou n d e r s t a n dt h ei m a g eb e t t e r ,u s et h eh u m a n u n d e r s t a n d i n go f i m a g e sf o rr e f e r e n c e ,w h i c hm e a n st h ef i r s tl e v e li sf o c u s e do ni n t e r e s t ,t y p i c a l ,s e m a n t i c r e g i o ni ni m a g e ,t h e n ,t h el a y o u ta m o n g t h e s er e g i o n s w ei n t r o d u c ea3 - 1 e v e li m a g ep y r a m i d s t r u c t u r ef o ri m a g es e m a n t i ci n d e x i n g i nt h i sp a p e r ,f s v mi se m p l o y e df o rt r a i n i n gt h ec o n c e p tm o d e li nt h ec o n c e p tm o d e l l i b r a r ya n dc a l c u l a t et h el i k e l i h o o db e t w e e na ni m a g ea n dac o n c e p t w ei n d e xt h ei m a g e s w i t ht h ec o n c e p t sa c c o r d i n gt h el i k e l i h o o dw h i c hi s a d d i n gu pa c c o r d i n gt ot h ew e i g h t e d i m a g ep y r a m i da n dr e a l i z eak i n do fi n t e l l i g e n t ,c o i n c i d e n ti nv i s u a lp e r c e i v i n gi m a g e u n d e r s t a n d i n ga n di n d e x i n g k e yw o r d s :s e m a n t i ci n d e x i n g ;i m a g ec l a s s i f i c a t i o n ;f s v m ;i m a g ep y r a m i d i i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 盔主越糊主盔白墨挫鱼鲎2 丕垒! 鎏j 兰丕室;! 作者签名:蕴龌日期:趁塑年f 月2 上日 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 益主煎物矗盈色当丝叠! 望j 重:笠董妄j 垃盔三2 作者签名: 盈:醴基整日期:趁叠年l 月2 l 日 锄签名:j 拙坦卜 日期:丝止年旦月旦日 大连理工大学硕士学位论文 引言 在图像检索领域,一般认为用户倾向于在语义层次上判断检索结果的好坏。这就是 说,用户所认为的好结果必然是与用户查询在语义上高度相关的。由于基于内容的图像 检索建立在对图像底层特征的提取和分析,匹配的基础之上,而图像资源底层特征与高 层语义之间固有的“语义鸿沟 决定了仅仅从图像底层特征这一方面着手的检索方式无 法取得满意的效果。 随着互联网和数字图书馆之类的数字化信息库的出现带来了海量的图像数据,同时 由于图像信息的底层特征具有高维数的特点,使基于内容的图像检索受到“维数灾难 和高计算复杂度等难以克服的难点。因此图像如果缺少了语义的支持,那么对它们的检 索无论在准确率和效率上都无法满足用户的需求。所以图像的语义检索逐渐成为了近年 来图像分析检索研究的热点,建立图像的语义表示和检索机制也势在必行。选择“基于 模糊支持向量机的图像分类与语义索引”为研究课题,主要考虑以下几个方面的因素: ( 1 ) 图像检索发展的需要。早期的图像检索技术主要是基于文本的图像检索,它是 通过手工对图像进行文本注释,使图像与文本建立关联,用成熟的文本检索技术来进行 图像检索。但这种检索方式存在很多问题,首先用手工标注图像工作量太大,需要采用 自动化或者半自动化的注释方式;其次,个人对图像的理解可能不一样,容易产生歧义, 有时存在截然不同的理解,这也使得手工注解存在很大问题;再者,人们对图像的需求 不仅仅是图像本身,还应包括图像所包含的更深层次的语义。 ( 2 ) 技术发展的必然。从技术层面上说,各种计算机技术、多媒体技术、模式识别、 人工智能、开发工具的发展,促使图像检索机制得到发展。基于内容的图像检索系统 ( c o n t e n tb a s e di n f o r m a t i o nr e t r i e v a l ,c b i r ) 需要利用图像处理、模式识别、信息技术等领 域知识来实现图像内容特征的提取和检索。基于语义的图像检索需要综合应用多媒体技 术、人工智能、信息科学、认知科学等多学科知识来实现图像语义特征的提取、表示和 检索。因而随着计算机技术,人工智能,多媒体的存取与表示技术的发展,人们能够采 取自动或者半自动的方式来进行图像语义的提取,然后采用标准化的语义表示方式,从 而有助于检索。 为了构造一个支持语义检索图像检索系统,如何获取有效的图像语义是基础,由于 传统的手工标注索引不仅需要耗费巨大的人力物力,效率低下,无法应付增长速度远远 超过预计的图像库,而且在对图像语义索引标注的过程中易受到人为的非客观因素的影 响。因此,图像的自动语义索引成为了支持图像语义检索的一个重要技术。 目前已经有很多研究尝试采用机器学习方法和统计模型的方法进行图像自动索引, 基于模糊支持向量机的图像分类与语义索弓 并且取得了不错的效果。这类方法的基本模式就是通过分析一组已经标注好的训练图像 库的一些统计信息来估计某种用于标注的统计模型的参数,然后使用这个模型来为待标 注的图像预测能够正确表达图像内容的若干文本关键字。 本文从图像的视觉信息和底层像素特征中采用联合底层特征提出其高层语义,在一 定程度上弥补图像语义与图像低层特征之间的鸿沟,采用模糊支持向量机对图像进行语 义分类并索引的图像自动语义索引方法。在本文的研究过程中,笔者参考了大量的国内 外最新研究成果的基础上,提出了一种图像语义分类与索引的新思路。经过大量实验数 据表明,本文方法在基于内容的图像分类与索引方面取得了很好的效果。 诚然,由于笔者才疏学浅,论文中难免会出现疏漏和偏颇之处,恳请各位专家批评 指正! 大连理工大学硕士学位论文 1 绪论 随着电子技术和成像技术的快速发展,数字图像成为一种获得广泛利用的媒体。最 近十几年来,数码相机的迅速普及,使数字图像更加易于获取,其应用范围也大大扩展。 而计算机技术以及互联网的兴起使各种信息的传播速度大大加快,人们可以访问和获取 的数据量呈现出爆炸式的增长。但是,海量的数据在带给人们各种便利的同时,也带来 了极大的问题:人们容易迷失在浩如烟海的数据中而难以找到自己真正需要的信息。从 而,信息检索得到了广泛的关注,而图像检索由于其具有的丰富内容形式及广泛应用前 景而得到了大量的研究。 1 1研究背景 通讯技术,计算机技术,互联网技术的迅猛发展标志着网络时代的到来。随着这些 技术的蓬勃兴起,出现了互联网和数字图书馆等庞大的缺少结构化的信息资源库,这些 资源中信息的类型千变万化,包括了简单的文本信息,稍微复杂的图像、音频、图形信 息以及更复杂的视频信息等等。这些信息资源库在人们的科研,生活,教育等方面起了 重要的作用。特别是九十年代末以来,伴随宽带网络的兴起、电子工业的突破以及多媒 体应用的出现,人们越来越倾向于对网络中的多媒体数据的使用而不像过去那样局限于 文本信息,并且这种趋势还将继续维持,而图像作为其中最重要的一种媒体存在形式所 扮演的角色也不断被人们所认可和重视。 有研究表明,当前情况下全世界计算机产生和存储的数据量每隔一个月翻一番,有 人曾用五年之前的数据预测网络信息的增长将会符合“指数爆炸 规律,而且相关资料 表明这个规律将会在未来相当长的时间里继续有效。在这样一个“信息爆炸”的世界里, 人们发现要准确地找到所需信息并非易事,往往是在耗费大量时间精力之后用户获取的 信息还不能令人满意。因此如何有效地组织管理数据,如何高效地得到用户需要的信息 等问题给传统的数据库、信息检索、计算机视觉等研究领域提出了新的挑战,特别的是, 对于图像信息的分析检索提出了如下的要求: ( 1 ) 需要有效的图像信息资源存储和索引建立机制。与传统的信息资源库所不同的 是,互联网和数字图书馆等信息资源库中除了大量的文本资源之外,还包括丰富的多媒 体数据,如图形图像、视频、音频和动画等。而这些多媒体数据之中,图像作为最重要 也是最常见的资源类型往往在数量和格式上以惊人的数量存在。与文本资源相比,图像 资源占用空间更大,能提取出来的特征维数更多。如果按照m b 级别来标量文本资源库 的话,我们就需要用t b 级别来描述图像资源库。而传统意义上的数据库往往缺乏对t b 基于模糊支持向量机的图像分类与语义索弓 级别的数据的有效支持,无论从容量或者检索效率上都无法满足图像资源库的要求。因 此如何有效的解决超大规模数据库的技术问题是制约和影响图像资源库结构化和检索 的一个重要因素。同时数据库技术的制约对图像分析技术也提出了新的挑战,如何在各 种各样的图像特征信息里面有效的去除冗余信息,保持信息的有效和简洁,减少数据存 储量,如何建立对高维的海量数据的最优索引从而提高数据检索效率也越来越成为图像 分析、检索领域的热点。 ( 2 ) 图像的分析检索技术应该偏向语义分析检索。传统的图像分析往往着重于对图 像资源的底层特征的分析,相应的检索技术也侧重于依赖底层特征匹配,在特征提取和 特征匹配这两个方向上的研究也取得了巨大的成果,但是随着图像数据指数级的增加, 图像种类的急剧膨胀,基于底层特征匹配的图像分析检索技术己经显得力不从心,多年 的研究表明这类方法在检索的准确率和效率方面无法达到用户的要求。如何有效的从图 像信息中获取高层的语义特征,从而在检索阶段得到语义的支持己经成为了图像分析检 索技术新的研究方向。而传统的利用人工手动标注的方式向图像数据提供语义检索支持 的方式不仅费时费力,还存在标注过程中不可避免的主观差异性。因此需要我们另辟蹊 径,当前最热门的研究方向就是采用机器学习的方法对未知图像数据进行自动语义索 引。 1 2 图像检索技术的发展 图像等多媒体信息的急剧膨胀,推动了图像检索技术的不断发展。传统的检索技术, 如基于文本的图像检索,已不能完全满足人们的要求,基于内容的图像检索系统( c b i r ) 的出现,解决了人们对图像视觉特征所代表的特征语义,但不能完全解决高层语义的图 像检索。而人们更渴望获取高层语义内容,如两个队进行篮球比赛,人们关注的是各队 的表现和球艺水平,而不是颜色、纹理等视觉特征。图像所蕴含的高层语义与底层特征 之存在着较大的差距,这个巨大的差距影响了基于内容的图像检索的效果,因而建立图 像的语义表示和检索机制势在必行。图像检索涉及了数据库管理、计算机视觉、图像处 理、模式识别、信息检索和认知心理学等诸多学科。考虑到计算机视觉和模式识别的发 展水平,目前图像检索系统的高肿i - t - 厶匕i ,e 还必须建立在人机交互的基础上。目前的图像检索 系统主要有三种:传统的基于文本的图像检索系统、基于图像内容的检索系统和基于图 像语义自动获取技术的检索系统。 1 2 1 基于文本的图像检索系统 从2 0 世纪中期开始,随着互联网的高速发展,网上的图像信息也急剧增加并且和 传统的文本信息一样越来越成为人们重要的信息来源,因此人们对图像信息的检索需求 一4 一 大连理工大学硕士学位论文 也就随之而来。由于传统的对信息检索的研究主要集中于文本信息检索方面,因此从2 0 世纪7 0 年代刚刚开始的图像检索研究主要是利用了传统的文本信息检索技术的图像检 索( t e x tb a s e di m a g er e t r i e v a l ,t b r i ) ,这些方法利用文本描述的方式描述图像的特征, 如绘画作品的作者、年代、流派、尺寸等。基于文本的图像检索通常回避对图像可视化 元素的分析,而选取图像名称、图像尺寸、压缩类型、作者、年代等信息来索引图像, 检索的过程一般以关键词形式的提问来查询图像,或者是根据等级目录的形式浏览查找 特定类目录下的图像。 在基于文本的图像检索系统中,需要先对所有的图像进行关键词标注,然后才能使 用全文检索技术对图像进行搜索。在这个过程中,往往会根据图像资源的实际条件采用 纯手工标注或者半人工干预等方式。如果图像资源是独立的,所有的关键词的来源只能 是标注者,如果图像资源伴随着描述性的文字,则往往采用文本信息分析技术从中抽取 有效的关键词,例如文献【1 把网页上图像周围的文本作为图像的语义索引。随着自然语 言处理技术的发展,其中的很多技术被应用到对图像的有效关键词的自动抽取当中,如 对图像的描述性文字采用自动分词,词频统计,识别“有效词和“停用词 ,识别复 合短语、专有名词和未定义词等。 当标注信息可以获取时,基于标注信息的图像检索能够直接利用现有的文本信息检 索技术,比较容易快速高效地实现。计算机技术和数据库系统的发展,使传统的文本检 索方式可以通过计算机系统简单快捷地进行。目前的文本搜索系统可以很好地支持大规 模资料集数十亿或更多记录上多种不同方式的快速查询。由于文本标注信息可以比较准 确地包含各种语义,检索结果往往能够符合人们的检索要求,速度也较快。 但是,当图像数据量快速增长时,如何获得高质量的标注信息成为了一个难题。主 要的困难来自于两个方面:首先是手工标注的代价难以接受。目前g o o g l e 、y a h o o 、m s n 等搜索引擎都提供了图像搜索的功能,其索引的图像数目均达到上十亿张。对所有这些 图像进行手工标注所需人工花费将十分巨大,耗时很长,人们难以接受。而且,新图像 不断出现,手工标注的方式无法满足及时产生和更新对应标注的要求,所以试图一劳永 逸地对所有图像进行标注是不可能的。第二是标注的不一致性问题,由于一幅图像本身 往往包含着非常丰富的信息,所以不同的人对同一幅图像会出现不同的理解。此外,对 于同语义信息,不同的人可能使用不同的词汇进行描述【2 j 。例如,用户在查询时使用 的词汇就可能与标注时的词汇不同,这进一步加剧了标注的不一致性带来的影响。 虽然存在以上问题,但是基于文本信息的检索系统易于使用,用户只需输入词汇就 可以进行检索并得到相应结果。这种便捷特性使基于标注的图像检索依然是当前最重要 的图像检索方式,并且得n t 广泛的应用【3 】,例如,目前的网络图像搜索引擎基本都采 基于模糊支持向量机的图像分类与语义索弓 用了基于文本信息的检索。下面,我们按照标注信息的来源方式分别介绍若干基于标注 的图像检索系统。 首先,相当多的系统,尤其是一些商业图像网站或专业图像供应者,依赖于手工标 注信息对图像进行索引。早期的图书馆系统中,图像基本通过与其相关的文本信息,如 作者、时代、类别等分门别类存放。在这些数字图书馆或商业图像库中,图像的标注者 往往是专业人员。与此相对,网络上图像的极大丰富使这种依赖专业人员的标注方式变 得不可行。在f l i c k r 、f o t o l i a 图像网站上,对图像的标注是通过网络用户的共同协作完 成。网站允许图像的上载者提供一组能够描述该图像的关键词,系统根据这些关键词来 索引图像。 其次,目前的网络图像搜索引擎及相当数量的网络图像库采用了一种半自动获取图 像标注的方法。网络图像的一个重要特点是它是被包含在某一文本网页当中的,因此总 是可以获得一些对应的文本信息,例如,图像的文件名、卷标文本、锚文本以及图像周 围的环绕文本等信息,其中的文本是当图像不能被正确显示时用以替代图像的文本信 息,所以它往往是图像内容的直接描述。虽然其中有一定的无关内容,但是合理利用这 些信息可以获得对应这幅图像的、具有一定质量的文本标注。由于网络上的网页是千千 万万不同的用户自由建立的,形式、内容都有着非常大的变化,对应文本质量参差不齐, 而且其中与图像相关的文本信息经常是非常有限的,即偏重于图像与网页内容相关的那 一部分。所以,如何从网页中正确提取与图像内容相关的文本信息是一个非常困难的任 务。利用这种方式得到的文本信息质量没有手工标注的文本质量高,但是人们可以期望 大多数的文本信息是有益的。现有的g o o g l e 、y a h o o 、m s n 等网络图像搜索引擎大都采 用这种方式来获得一幅图像对应的文本信息并建立索引,它们的成功说明这种方法得到 的结果能够在一定程度上满足用户的需求。与网络图像搜索引擎需要分析各种各样的网 页不同,许多网络图像库借助于用户的评论信息来改善图像的索引。例如有的网站除了 用户上载图像时可以附加一段描述文字外,其它用户也可以在浏览图像时给出自己的评 论,这些评论信息也可以被用来改善图像的索引与检索性能。 最后,许多研究工作着眼于采用完全自动的方法从图像的视觉信息本身来获得图像 对应的文本信息。这种方法自动化程度最高,也是目前最具有研究意义的方法。受限于 多种困难,该领域现有的研究成果与实际应用还有比较大的距离,尤其是当数据集规模 较大时大多数算法的性能会急剧下降。近些年来,人们尝试着从各种不同的方向进行探 索,做出了大量的尝试,是受到普遍关注的研究热点。 大连理工大学硕士学位论文 1 2 2 基于内容的图像检索系统 随着人们对网络带宽需求的增加和宽带网络自身的发展,网络应用的类型在不断扩 大,互联网上信息的类型也变得越来越丰富。另外,计算机、网络和通信技术的发展使 得产生、处理、传播数字图像视频信息的能力大大增加。如何帮助用户快速准确地找到 感兴趣的图像或视频成为一个迫切需要解决的问题,针对这一问题,人们提出了基于内 容的图像检索( c b i r ) 。 从上个世纪九十年代初开始,c b i r 作为一种新的信息检索技术得到了广泛的关注 和相当的应用。c b i r 发展至今,已成为图像检索的主流技术,也出现了许多实际的c b i r 系统【4 j 。在许多应用环境下,c b i r 有着不可替代的作用。例如,在医学图像领域,人 们往往需要根据病人的透视图像来进行诊断。这时候,利用基于内容的图像检索可以找 出类似的图像与相应的诊断信息供医生参考。此外,指纹鉴别、人脸识别等等也是基于 内容的图像搜索得到广泛应用的例子。在此类应用中,用户需要提供目标图像的某种描 述,检索系统按照一定的方式从图像数据库中找出与目标最相关或是最近似的图像返回 给用户。 根据用户输入目标图像描述的方式,基于内容的图像检索又可以分为基于图例的查 询( q u e r yb ye x a m p l e ,q b e ) ,和基于草图的查询( q u e r yb ys k e t c h ,q b s ) 两种。在系统中, 用户提交一幅实际的示例图像,系统根据该图像的颜色、纹理、形状等等信息在数据库 中进行查询。但是如何获取该示例图像在许多情况下并不易解决,所以人们提出了利用 草图的查询方式q b s 。系统向用户提供一幅画板,用户可以用笔或鼠标在该画板上描绘 出期望图像的主要内容和结构特征。在利用q b s 的搜索中,从草图中提取出来的各个 元素之间的相对位置等结构特征具有更加重要的作用。 与基于标注的图像检索相比,基于内容的图像检索更加直观,这是由于图像本身是 一种视觉媒体,许多信息难以用文本表达,而图像本身的视觉内容则可以描述相当复杂 的信息。但是相对来讲,基于内容的图像检索系统在用户交互的友好性上远不如基于标 注信息的检索系统。 基于内容的图像检索系统涉及到许多方面,主要包括图像的表示方式如各种特征及 其计算、相似目标的检索( 在文本检索中,检索结果往往是利用精确匹配得到的) 、高维 索引、查询处理( 文本查询中常用的与、或等操作在图像查询中的使用) 、用户接口( 包括 用户的输入接口和将结果呈现给用户的接口) 等等。其中许多的问题如高维索引等是非 常困难、需要进行更多研究的课题【5 1 。 最显著的问题是“语义鸿沟 问题。目前的图像分析方法只能从图像中抽取出一些 表示其底层视觉性质的特征,如颜色分布、空间纹理、区域形状等等。而人们在描述图 基于模糊支持向量机的图像分类与语义索弓 像内容时往往使用代表语义的概念,如“大海”、“沙滩”、“人群等等。现有的方 法难以在这两种图像的表达方式之间建立起比较明确、稳定的对应关系1 6 j 。由于用户一 般是根据语义信息进行检索,这种语义鸿沟往往造成检索结果难以满足人们的期望。从 现有的研究来看,这一问题还需要进行比较长期和大量的研究工作。 其次,数字图像本身是基于像素表示的,这种形式对应的数据量非常大,不能够直 接进行索引和搜索。普遍做法是从图像中提取出具有一定含义的特征( f e a t u r e ) ,包含了 该图像中具有代表性的信息,同时数据量大为降低,简化了后续的处理复杂度。这些特 征往往表示为具有很高维数的特征向量,从而,基于内容的图像检索就转化成为了高维 向量空白j 的搜索。当图像的数量快速增长时,如何快速、准确地搜索高维空间是一个非 常困难的问题,在数据库领域,高维向量空间索引也是目前非常有挑战性的一个研究方 向。所以,基于内容的图像检索难以扩充到大型图像库( 如上百万或上亿张图像) 上。 第三,类似于图像标注中的一致性问题,同一幅图像可能会被不同人用来进行不同 目的的检索,而检索系统往往需要对图像进行统一的处理并按照某种相对固定的方式进 行索引和处理,难以根据人们随时变化的主观愿望进行调整和变化,这使得基于内容的 图像检索往往达不到人们期望的性能。 虽然基于内容的图像检索遇到了种种困难,但是,传统c b i r 直接使用图像的视觉 特征和语义特征作为索引,在一定程度上解决文本检索的不足【7 】;它将图像处理和模式 识别等一些领域和数据库技术结合起来,直接提取图像内容,建立非精确的相似性匹配 方法,扩展了图像数据库的检索能力和应用领域。目前c b i r 研究系统广泛使用图像的 视觉低级特征来描述图像内容,利用高维数据索引结构来构建图像数据库,并引入交互 式学习方法等提高图像检索的性能1 8 j 。c b i r 的主要特点是它只利用了图像本身包含的 客观的视觉特征,图像的相似性不需要人来解释,体现在视觉相似性上。这导致了它不 需要或者仅仅需要少量的人工干预,在需要自动化的场合取得了大景的应用,也获得了 很大的成功。图像语义索引是c b i r 研究领域中一个重要的、新兴的研究方向,也是与 传统的c b i r 技术紧密相关的。 大量的c b i r 系统和原型已经被开发出来,通常可按查询的目标分为三类。第一类, 精确查询:用户明确知道自己要找的图像,虽然可能有些记忆偏差。第二类,类别查询: 用户对需要查询的图像不太确定,但知道它所属的类别。第三类,浏览查询:用户对白 己要找的图像很模糊,甚至在看到图像的时候才能确定是不是目标。第一类是客观目标 查询,后两类则是主观目标查询。主流的c b i r 系统之间的区别主要在于选择的图像特 征不同、设计的用户查询接口不同以及用来测评系统性能的方法不同,下面将介绍一些 经典的c b i r 系统。 大连理工大学硕士学位论文 q b i c 9 ( q u e r yb yi m a g ec o n t e n t ,q b i c ) 是i b m 开发的基于内容的图像检索系统。尽 管它在技术上不是很成熟,但是它作为第一个商业化的基于内容的图像检索系统对于推 动基于内容的图像检索技术的发展实在是功不可灭,它提出的系统框架和技术对后来的 基于内容的图像检索技术产生深远的影响。该系统支持基于例子图像的查询方式,也支 持通过由用户构造的草图、轮廓和选定的色彩和纹理样式的查找方式,以及一些其它的 查询方式。 q b i c 系统采用的颜色特征包括r g b 、y i q 、l a b 和m t m 坐标下的颜色直方图: 采用的纹理特征是改进的t a m u r a 纹理特征,即粗糙度、对比度和方向性的结合;采用 的形状特征包括形状的面积、圆形度、偏心度、主轴偏向和一组代数矩不变数。q b i c 也是少数几个考虑高维特征索引的系统之一,它首先采用k l 变换将特征空间从高维降 到低维,然后采用r 木树作为索引结构。在q b i c 新系统中,提供了基于文本的关键词 查询和基于图像内容的相似性查询的结合。 v i r a g e f l 0 】是由v i r a g e 有限公司开发的基于内容的图像检索引擎。同q b i c 一样,它 也支持基于颜色、颜色布局、纹理和结构特征( 对象边缘) 等视觉特征的检索功能。但是, v i r a g e 比q b i c 在技术上向前迈进了一步,它支持以上四种基本检索的任意组合的检索 方式。用户还可以根据需要来调整这些基本图像特征的权重。j e f f r e y 等人进一步提出了 图像管理的一个开放式框架,将视觉特征( 原语) 按通用型( 颜色、纹理和形状) 和领域相 关型分类。按领域要求,不同的有用原语可以被加到开放式中去。 p h o t o b o o k 1 1j 是由m i t 媒体实验室开发的用于浏览和搜索图像的一种交互式工具。 p h o t o b o o k 包括三个子系统,分别用于提取形状、纹理和人脸特征,用户可以在每个子 系统中按照相应的特征进行查询。在p h o t o b o o k 的最近版本中,p i c a r d 等人提出人在环 路的图像注释和检索。这种方法的提出是建立在没有一种单纯的特征可以最好地对图像 建模,而人的理解又是主观的这样一种观测之上。因此,他们提出了模型集的方法,引 进了人的因素。实验结果证明,该方法在交互式图像注释中很有效。 这些c b i r 系统主要基于图像底层特征( 如颜色、纹理、形状等特征) 的相似性进行 检索。然而,人们判断图像的相似性并非仅仅建立在图像底层特征的相似性上,基于内 容检索的初衷是想根据人对图像的理解和认识来衡量图像间的相似性进行检索的,这种 人对图像的理解可表示成图像的高层语义。由于人类感知的主观性,导致了图像视觉特 征信息和用户对视觉数据理解的不一致性,使得视觉底层特征和高层语义之间存在“语 义鸿沟 【l 引。因而,这些检索系统表现出较大的局限性。 为了实现更为贴近用户的自然而简洁的查询方式,并提高图像检索的精度,近几年 的研究逐渐转向基于区域特别是有意义的目标区域【l3 】和目标对象的高层图像语义的提 一9 一 基于模糊支持向量机的图像分类与语义索弓 取,试图由图像的底层次特征推知高层次语义,从而使用高层语义进行图像检索【1 4 。16 1 。 如文献 1 7 提出了“概念分组的概念,并利用b a y e s 方法进行概念分组的推理,能检 索“植物”、“天空 以及“建筑 、“塔 、“桥 等结构性图像语义。文献 1 8 提 出了学习图像块语义的方法,将图像的语义分为原始语义和场景语义两个层次。前者从 图像块的视觉特征得到,后者则从原始语义推出,并将图像块的语义类别看成一种“词 语”,从而可以使用文本检索算法实现图像相似性匹配。实验表明,该方法能够通过图 像的语义信息进行检索,如瀑布、雪山等。文献【1 9 】提出的语义检索算法,使用不同性 质的图像特征进行语义聚类,每个语义聚类包含颜色、形状等各种底层特征子聚类,最 终组成自顶向下的图像语义层次聚类结构。在进行图像检索时,采用基于多层感知器神 经网络模型的特征合并算法实现了从用户提交的图像示例到高层语义的映像,得出图像 的相似程度。文献 2 0 的i f i n d 利用人工交互提取语义信息,并综合运用关键词检索和图 像示例检索两种方法来实现语义检索:事先对- 4 , 部分图像做关键词标引,然后通过用 户对图像检索结果做相关回馈操作,传递关键词给正回馈的结果图像,并赋予权值或增 加其权值,减小与负反馈图像相关联的关键词权值或取消此关联。在经过足够的学习训 练之后,系统会建立起相对真实的语义映像网络,在检索实践中,结合语义映像网络返 回结果图像,以此来达到语义检索的目的。 不少研究者考虑到了用户的参与作用,研究较多的是相关回馈技术( r e l a t e d f e e d b a c kr f ) ,通过存储用户回馈信息,并运用b a y e s 方法进行语义分析。这种相关回 馈技术的局限性很明显:这是一种被动的学习方式,虽然通过人工参与可提高精确性, 但需进行大量冗余的人工操作,用户的回馈信息相对于大规模图像库来说也是非常有限 的;同时,语义特征需要人为理解,且每个用户对图像语义的主观理解又不尽相同,这 大大增加了提取图像高层语义的难度。为此需要解决两方面的基本问题:一是必须提供 高层语义的描述方式;二是必须有将底层图像视觉特征映像到高层语义的方法。从目前 现状来看,并没有从本质上解决视觉特征和语义之间的关联问题,“语义鸿沟”依然存 在。如何自动提取图像语义,成为基于内容的图像检索领域最具挑战性的难题【2 1 1 。 以孩童学认画为例,首先看看人是怎么理解图像的。人在孩提时代是通过图像开始 认知世界的,父母在教孩子看画时,一般都不会直接告诉孩子这是一幅山水画,而是直 接告诉孩子这画中有山,有水,有花等基本元素;然后等孩子看了大量的有山有水的画, 对山、水、花有了一定的概念后,再给出一些新的画,让孩子去辨认其中的山和水等。 等到孩子的认识水平达到一定程度后,然后父母再综合画中内容,告诉孩子这是一幅山 水画。在整个认识的过程吧,我们把画中的山、水这些基本元素称为像素,对应着现实 世界中的一些基本概念,而山水画则为这幅画的高层语义。 大连理工大学硕士学位论文 由此可见,人类视觉认知过程中至少包括两个基本环节t 环节一是对大量物体或典 型场景进行长期的有导师学习和分类识别,形成了海量的先验概念库;环节二是在实践 中,通过其主动视觉的特点发现或“注意其中的与先验概念库中相似的常识物体或场 景,实现对物体或场景的分类识别及语义概括。环节一是环节二的基础,通过二又可对 一不断地充实,二者事实上是一个相互交融的、循序渐进的且不可分割的过程。现有基 于内容的图像检索方法中,第一个环节是缺乏的,关键在于没有主动进行有导师学习, 正因为这一个环节研究不充分,仅靠第二环节的处理往往与视觉机理相去甚远,难以得 到好的效果。 因此,从图像中提取语义信息,实际上需要利用先验概念将底层视觉特征映像到高 层语义。对于人来说,这样的知识通过日积月累的学习获得。对于一个语义图像检索系 统,这类知识库的生成比较困难,需利用专家知识或进行大量的试验,即要么事先提供 这样的知识库,要么让系统具有学习能力,在使用中不断动态扩充知识。目前的相关回 馈技术中,系统只是被动地接受用户的输入进行行为调整,难以快速而有效地运用。而 人在学习过程中,一方面是各个层面“导师 的主动示教,另一方面是在接受知识的同 时,个体还能提出问题来主动学习。正是由于“有师指导”和“自主提问 的紧密结合, 特别对那些“善于提问的孩子 ,可更快速地获得更多知识,从而变得越来越聪明,这 是人智能快速提升的关键之所在。 受人类认识图像过程的启发,本文首先对大量图像进行有师指导的分类学习,建立 起图像概念模型库;然后从复杂图像中提取出像素信息,由这些像素的相关信息实现整 幅图像的语义标注,即为一个先认识山、水等像素,然后表述为山水画语义概念的过程。 对于新出现的概念,可以预先进行有导师学习,建立新的概念模型,进而利用扩展后的 图像概念模型库来实现图像的自动语义标注。 1 3 论文工作介绍 本文的主要研究内容:从图像的视觉信息和底层像素特征中提取其高层语义,在一 定程度上弥补图像语义与图像低层特征之间的鸿沟,采用模糊支持向量机对图像进行分 类和语义索引的方法。对图像进行特征提取,得到一系列与图像底层特征相关的特征向 量;利用支持向量机的分类特性以及统计方面的优越性能,对提取出来的图像底层特征 向量进行训练;最后采用语义分类思想,通过构造语义分类器选择和组合像素之间的语 义层次,来表述整幅图像的高层语义,实现图像视觉特征到高层语义的映像。主要涉及 到以下几个方面: ( 1 ) 对基于内容的图像分类与检索的研究现状进行了总结,并对几种典型c b i r 系 基于模糊支持向量机的图像分类与语义索弓 统的技术和特点作了介绍,明确了课题研究意义。 ( 2 ) 针对传统的支持向量机处理多分类问题的方法存在某些样本不可分的问题,引 入了模糊支持向量机,通过定义模糊隶属度函数,弥补了支持向量机在多类分类问题上 的不足,提出了一种基于模糊支持向量机的图像分类方法。 ( 3 ) 借鉴人类基于图元的图像内容理解思想,从人类对图像整体和局部的认知顺序 和认知程度出发,提出了种加权图像金字塔结构,用于提高图像语义索引的精确度。 在模型支持向量机和加权图像金字塔结构的基础上,提出了一种新的基于分类思想的图 像语义索引方法。 1 4 本文的内容安排 本文各章的主要内容安排如下: 第一章对基于内容的图像检索和语义图像检索等内容作了一般性的介绍,指出了结 合图像视觉特征与语义的图像检索研究具有的重要理论意义和现实意义;并提出了本研 究工作的主要目的;最后阐述了本文的主要内容。 第二章主要介绍图像分类的基础问题:图像内容表示。主要介绍了三种图像特征描 述子的提取方法。 第三章介绍基于模糊支持向量机的图像分类方法。阐述了模糊支持向量机如何解决 在传统支持向量机中存在的样本不可分问题;并将其应用到图像分类领域,取得了理想 的分类效果。 第四章主要介绍基于分类思想的图像语义索引,在前文描述的模糊支持向量机和加 权图像金字塔的基础上,详细介绍了图像语义索引的具体过程,并通过实验验证了该方 法的准确性。 在论
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业生产现代化合同
- 污水处理接纳协议合同范本
- 农业生产资料供应与采购协议文本
- 影视制作和发行合同
- 2025年学历类自考学前教育管理-外国文学史参考题库含答案解析(5卷)
- 农业生产资源跨界融合合作协议
- 2025年学历类自考学前教育学-学前儿童数学教育参考题库含答案解析(5卷)
- 2025年学历类自考学前教育史-幼儿园组织与管理参考题库含答案解析(5卷)
- 2025年学历类自考妇产科护理学(二)-普通逻辑参考题库含答案解析(5卷)
- 律师事务所合同审查标准操作程序
- 变压器试验收费标准
- 竣 工 验 收 证 书(施管表2)
- 2023学年完整公开课版法兰克王国
- 整理黑龙江基准地价与标定地价早
- CPK工具表的模板
- 中国画发展史
- 客户基本信息调查表实用文档
- 19-雾在哪里ppt市公开课金奖市赛课一等奖课件
- 城镇道路工程施工与质量验收规范
- GB/T 11270.2-2002超硬磨料制品金刚石圆锯片第2部分:烧结锯片
- 金融统计分析教材课件
评论
0/150
提交评论