




已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)internet上综合颜色、纹理的图像检索模拟系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 互联网上的图像检索经历了基于文本为基础的图像检索和基于图像内容的图像 检索两个阶段。随着图形学和互联网的飞速发展,人们对互联网上的图像检索需 求越来越大。传统的基于文本的图像检索已不能满足人们的需要。因而,互联网 上基于图像内容的图像检索技术越来越成为了目前研究的热点。图像内容是图像 本身所具有的特征,如颜色、纹理、形状等。现在有许多关于基于图像内容的图 像检索技术。然而,现有的大多数图像检索方法只是基于图像的某一个特征,或 者基于图像的纹理或者基于图像的颜色或者基于图像的形状进行图像检索。由于 图像的某一个特征只能代表图像的部分属性,因而仅仅基于该属性进行图像检索 的结果必然带来检索的准确性不高。在图像的众多属性中,颜色和纹理是图像的 两种重要视觉信息和图像两个最基本的特征,因面,本文尝试一种将图像颜色和 纹理结合起来的图像检索方法来模拟实现互联网上的基于图像内容的图像检索。 同时,该图像检索方法在图像分割的基础上将图像库中的图像进行语义分类,分 为纹理图像和非纹理图像。然后将图像库中的所有图像的特征向量分别存储在不 同语义类别的图像特征向量库中。这样就可以提高图像检索的准确性和执行效 率。在图像匹配中,我们利用了模式识别的相关理论作为图像相似性的度量,为 我们判定图像的相似性提供理论依据。通过对本地图像库中1 0 0 0 幅图像的模拟 实验表明,该方法能很好的提高图像检索的效率和准确性。 关键字:互联网,图像检索,图像特征,基于内容的图像检索,语义分类,模式 识别 a b s t r a c t t h ei m a g er e t r i e v a lo nt h ei n t e r n e te x p e r i e n c e dt w op e r i o d sf r o mk e yt e x t b a s e d i m a g er e 砸c v a l ( k t b i r ) t oc o g e n t - b a s e di m a g er e t r i e v a l ( c b i r ) w i t ht h er a p i d d e v e l o p m e n to fg r a p h i c sa n di n t e r a c t ,t h ed e m a n df o ri m a g e r e t r i e v a li sb e c o m i n g l a r g e ra n dl a r g 盯t h e t r a d i t i o n a lk t b i r - b a s e di m a g er e t r i e v a ld o e sn o tm e e tp e o p l e s n e e d s om o s tc u r r e n ts t u d i e sf o c u so i lt h ec b i r b a s e dt e c h n o l o g i e so nt h ei n t e r n e t i m a g e c o n t e n tm e a n st h ec h a r a c t e r i s t i c so ft h ei m a g e ,s u c ha sc o l o r , t e x t u r ea n ds h a p e t h e r ea l em a n yc b i r - b a s e dt e c h n o l o g i e sa tp r e s e n t h o w e v e r , m o s tc u r r e n ti m a g e r e t r i e v a lm e t h o d sa r eb a s e do na s i n g l ec h a r a c t e r i s t i co f t h ei m a g e s o m ea r eb a s e do n t e x t u r e ,s o m eo uc o l o ro rs h a p e a so l l ec h a r a c t e r i s t i co f a ni m a g ec a n o n l yr e p r e s e n t p a r ta t t r i b u t eo f a ni m a g e ,t h er e t r i e v a lr e s u l tb a s e do ns u c ho n ec h a r a c t e r i s t i ci sn o t v e r yi d e a l a m o n gt h ei m a g ec h a r a c t e r i s t i c s ,c o l o ra n dt e x t u r e a r et h et w om o s t i m p o r t a n tv i s u a la t t r i b u t e sa sw e l la st h et w om o s t b a s i cc h a r a c t e r i s t i c s t h e r e f o r e , t h i sp a p e r b r i n g so u t an e wm e t h o d o f i m a g er e t r i e v a l ,c o m b i n i n g c o l o ra n dt e x t u r e ,t o s i m u l a t ea n dr e a l i z et h ei m a g er e t r i e v a lb a s e do nc b i r 0 1 1t h ei n t e m e t m e a n w h i t e ,i n t h el i g h to fs e m a n t i cc a t e g o r yt h e o r yt h i sm e t h o dc l a s s i f i e st h ei m a g e si nt h ei m a g e d a t a b a s ei n t ot e x t u r e di m a g e sa n dn o n t e x t u r e di m a g e s ,b a s e do ni m a g es e g m e n t a t i o n t h e ni m a g ef e a t u r e sa r es t o r e di nd i f f e r e n ti m a g ef e a t u r ed a t a b a s e sa c c o r d i n gt o d i f f e r e n ts e m a n t i c c a t e g o r i e s i no r d e rt o i m p r o v e t h e p r e c i s i o n a n de x e c u t i o n e f f i c i e n c y i ni m a g e sm a t c h i n g ,w eu s er e l e v a n tt h e o r i e s i np a t t e r nr e c o g n i t i o na s i m a g es i m i l a r i t ym e a s l 】r e a ne x p e r i m e n to n1 0 0 0i m a g e sm l o c a li m a g ed a t a b a s e u s i n g t h i si m a g er e t r i e v a lm e t h o ds h o w si tc a ni m p r o v et h ee f f i c i e n c ya n dp r e c i s i o no f i m a g e r e t r i w a l k e yw o r d s :i n t e m e t ,i m a g er e t r i e v a l ,i m a g ec h a r a c t e r i s t i c s ,c b i r ,s e m a n t i c c a t e g o r i e s ,p a t t e r nr e c o g n i t i o n 2 第一章引言 1 1 课题研究的背景、研究目的及意义 图像是人类接触外界事物的一种重要的信息传递媒体。对于现在的信息管理 系统来说,管理图像数据的功能已经成为其重要的组成部分。然而,图像数据的 高冗余、低抽象度等特点一直是实现图像的计算机自动管理的主要难点之一。传 统的图像管理方法是在输入图像的时候,由人工对图像附加表现其内容的关键 字,通过建立关键字索引实现图像的管理和检索。但用关键词查询在实际中很难 做到,因为一副图像所包含的信息量是非常丰富的,区区几个字符很难表达出图 像的深刻内涵。而图像的物理特征为基于内容的图像检索提供了很好的检索基 础。因此,对图像的检索更多的希望在内容级上进行。 同时,随着多媒体计算技术的迅猛发展,网络传输速度的提高,以及新的有 效的图像视频压缩技术的不断出现,人们通过网络实现全球多媒体信息的共享 成为可能,然而现有的技术还不能有效地满足人们对海量多媒体信息的需求,基 于内容的多媒体信息检索应运而生。 过去的信息是以离散的形式( 如字符、数字等) 存储在关系数据库或者w w w 上,并以结构化查询语言( s q l ) 或超链接来进行查询检索,而多媒体数据则是连 续的、形式多样的、海量的信息,并且多媒体数据( 如图像、视频) 在不同的人眼 中可能有不同的理解,我们要把所有不同的解释都用关键字( 文本或数字) 来表示 显然是不可能的。另外,关键字不能有效地表示视频数据的时序特征,也不支持 语义关系,因此需要开发出一种新的检索技术来检索多媒体数据。 为了适应这一需要,人们提出了基于内容的多媒体信息检索思想。基于内容 的检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中 进行检索。它的研究目标是提供在没有人类参与的情况下能自动识别或理解图像 重要特征的算法。目前,基于内容的多媒体信息检索的主要工作集中在识别和描 述图像的颜色、纹理、形状、空间关系上,对于视频数据,还有视频分割、关键 帧提取、场景变换探测以及故事情节重构等问题。由此可见,这是- - i _ 涉及面很 广的交叉学科,需要利用图像处理、模式识别、计算机视觉、图像理解等领域的 知识作为基础,还需从认知科学、人工智能、数据库管理系统、人机交互、信息 检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠、有效的检索算 法、系统结构以及友好的人机界面。 1 2 本文结构安排 本文下面的章节如下安排: 第二章介绍了图像检索中的的几个基本理论问题,包括图像的灰度直方图、 颜色直方图和颜色模型理论,以及图像纹理和图像相似性度量的理论基础。它们 对我们后面的讨论起到理论的铺垫作用。 第三章介绍了i n t e r n e t 上的图像检索技术。图像检索从发展最初到现在已 经经历了两个阶段,即基于文本的检索阶段和基于图像内容的检索阶段。在 i n t e r n e t 上进行图像检索要经过图像的获取,图像特征的抽取及索引和图像的 检索三个过程。 第四章是本文重点和核心。我们提出一种新的图像检索的方法来进行 i n t e r n e t 上的图像检索。该方法综合了图像的颜色和纹理特征,同时利用了图 像的语义分类和建立了图像特征库,大大提高了图像检索的效率和准确性。 在第五章,我们对本文提出的方法做了分析,提出了改进的方向。最后,我 们对本文所提出的图像检索方法作了结论并对i n t e r n e t 上图像检索技术作了展 望。 6 第二章图像检索的理论基础 2 1 图像直方图 2 1 1 图像的灰度直方图 有时我们需要知道一幅图中的灰度分布情况,这时就可以采用灰度直方图 ( h i s t o g r a m ) 来表示。在数字图像处理中,灰度直方图是一个最简单和最有用的 工具。该函数概括了一幅图像的灰度级内容。任何一幅图像的直方图都包括了可 观的信息,某些类型的图像还可以由其直方图完全描述。 灰度直方图的横坐标表示灰度值,纵坐标表示该灰度值出现的次数( 频率) 。 图2 2 为图2 - 1 的灰度直方图,低灰度的象素占了绝大部分。 图2 一l 图2 - 2图2 1 的灰度直方图 当一幅图像被压缩为直方图后,所有的空间信息都丢失了。直方图描述了每 个灰度级具有的像素的个数,但不能为这些像素在图像种的位置提供任何线索。 因此,任一特定的图像有唯一的直方图,但反之并不成立极不相同的图像可 以有着相同的直方图。例如,在图像中移动物体一般对直方图没有影响。 直方图给出了一个简单可见的指示,用来判断一幅图像是否合理的利用了全 部被允许的灰度级范围。通过直方图的轮廓线,如果在某一灰度级上有峰值,表 明图像中该灰度级的像素点的个数较多,该灰度级就是这幅图像的主要灰度级。 2 1 2 颜色直方图 在本文中,我们要用的是颜色直方图。所谓颜色直方图,是依据灰度直方图 而演变过来的。颜色直方图的横坐标表示颜色值( 我们一般选取常见的红、橙、 黄、绿、青、蓝、紫、黑八种颜色) ,纵坐标表示该颜色值出现的次数( 频率) 。 不过这罩的颜色出现的频率并不是这八种颜色出现的精确次数,而是与这个颜色 相近的颜色出现次数的总和。如对于红色直方图,其直方图就综合了图像中出现 的深红、品红、番茄红等。 下面就是颜色直方图的示例: 图2 3 红橙黄绿青蓝紫 图2 - 4 图2 4 为图2 3 的颜色直方图,从中我们很容易看出,图2 - 3 的主色调为 绿色和橙色,以及少量的黄色。当然,对于这幅图通过人眼也很容易判断出来这 些主色调,但是对于一些复杂的颜色图像,人眼很难判断主色调或判断不准确。 借助于颜色直方图,我们就很容易知道复杂图像的主色调。从而为我们基于颜色 的图像检索提供方便。 2 2 颜色模型理论 常见的模型包括x y z 、h s b ( 表示色相、饱和度、亮度) ;r g b ( 表示红、绿、 蓝) ;c m y k ( 表示青、洋红、黄、黑) ;以及c i el a b 和c i el u v 颜色模型。 在本文重主要用到r g b 颜色模型和l u v 颜色模型,所以下面只对这两种颜色模型 作简单的介绍。 2 2 1x y z 颜色模型 众所周知,当我们将两种不同的颜色按一定比例混合可以生成另一种颜色, 通过混合三种不同的颜色我们就可以得到我们想要的颜色,这就是三基色颜色模 型的基本原理。 为了用三基色定义出所有的颜色,国际照明委员会c i e 定义了三种标准基色 x y z ,这三种基色是假想的颜色,并同时给出了颜色匹配图( 见右图) 。这样所 有颜色的定义都有了国际标准,并且我们有了x y z 颜色模型。 c r = a x 十b y + c z 我们令x = x ( x + y + z ) y = y ( x + y + z ) ,这样x ,y 的值就只依赖于光源的色彩 和纯度,而与光源的亮度无关,并且我们将参数x ,y 称为色度。通过色度我们 就可以确定所有的颜色了。 通过对( x ,y ) 作图我们就得到了下面这张图2 - 5 ,称之为c i e 色度图。 曲线上的点是光谱颜色,即纯彩色,它们的纯度最高。连接红色和紫色的直 线称为紫色线,它不属于光谱颜色。曲线包围的点为所有可能的可见光的组合, 9 x t0 5 叭 图 c 点即为白色,很显然越靠近c 点则它的纯度就越低。如此一来,自然界中所有 的颜色就都包含在曲线所包围的区域中了。 2 2 2r g b 颜色模型 颜色模型是图像处理的基础,目前已经提出了多种颜色模型,其中r g b 颜色 模型实际中应用最多的一种。 我们的眼睛通过三种可见光对视网膜的椎状细胞的刺激来感受颜色。这些光 在波长为6 3 0 h m ( ) 5 3 0 n m ( 绿) 和4 5 0 ( 蓝) 时的刺激达到高峰。通过对各刺激强度 的比较,我们感受到光的颜色。这种视觉理论就是使用红、绿、蓝三种基色来显 示彩色的基础,称之为r g b 颜色模型。 以r 、g 、b 三个参数为坐标,我们可以得到如下的一个单位立方体来描述 r g b 颜色模型。请看下图2 6 和2 7 : 图2 6 图2 7 其色彩空间中每个点都可以用一个向量x 表示成x = r ,g ,刎7 。 2 2 3l u v 颜色模型 l u v 颜色模型是基于人眼认识颜色的理论而建立的一种与设备无关的2 4 b i t 颜色模型,即:具有相同l 、u 、v 分量的相同颜色在所有设备上看起来颜色是 相同的。不管使用什么设备( 如显示器、打印机、计算机或扫描仪) 创建或输出 图象,这种颜色模型产生的颜色都保持一致。 在c i e 颜色空间中,l 分量表示亮度,u 和v 表示颜色信息( 即色度) 。如 果u 和v 分量都为0 ,那么l 的变化范围就是图像的灰度级范围。u 分量逐步增 加是从绿色变化到红色,而v 分量则从蓝色变化到紫色。 在c i el u v 颜色模型中,l 分量范围是 0 ,1 0 0 ,u 范围为 一1 3 4 ,2 2 0 ,v 范 围为 一1 4 0 ,1 2 2 。 图2 8图2 9 图2 - 8 和图2 - 9 说明了从r g b 立方体来观察l u v 颜色空间的情况。图2 8 是从v 轴来观察r g b 立方体,图2 9 是从u 轴来观察r g b 立方体。 c i el u v 颜色空间是从c i ex y z 颜色空间推演出来的一种颜色模型。它最大 的特点和c i el a b 颜色空间模型一样,就是具有色觉一致性的特点,即:在不同 点的同样的颜色差在人眼看起来是相同的。 2 2 4 彩色空间颜色的相似性 对于彩色空间中每个点可以用r g b 颜色模型来表示,两种颜色x 和y 的相似 度可以用欧氏距离来表示: d ( 训) = 扣丽可万虿再面j 矿 在以欧氏距离为相似度测量时,抽样点间的距离越小,在某种意义上这两个 抽样点就越相似。但r g b 颜色空间并非均匀的线性空间。实验证明,距离一定的 两种颜色,随着这两种颜色的不同引起人的色知觉的差异是不同的。也就是说, 对某两种颜色,这一距离让人感到色知觉差异很大,但对另外两种距离一样的颜 色,可能会让人感觉差异c p a , 。而在对颜色进行聚类量化时,需要用数量来描述 颜色间的差别,简称它为色差,那么r g b 颜色空间显然不能满足要求。因此,需 要一个均匀的颜色空间,在这个三维空间中,每个点代表一种颜色,空间中两点 之间的距离代表两种颜色的色差,距离越小,色差越小;反之,色差越大。因此, 在本文中采用l u v 色空间,因为它是一种近似的均匀色空间。设r g b 空间的颜色 分量分别为r ,g ,b ,则r g b 空间至l u v 空间的转换方法为: 黧i | | ; 刚黧黧 u ,: 兰兰 z + 1 6 y + 3 z v ,: ! 竺 r + 1 6 ,r + 3 z 啦嵩 瑶2 志 l =+ c y 州,如果 o s s s s 9 0 3 3 + 三如果三s0 0 0 8 8 5 6 r o r o u = 1 3 l + 缈- v o ) v = 1 3 l + ( v 一v d ) 1 2 ,_j_j 尺g 口 。,l 叭h 2 l l n n l 1,j 5 5 5 5 5 5 2 2 2 l 1 4, 0 1 l 2 1 1 o o 1 其中,x ,y 和z 是x y z 颜色空间分量;x 。,k 和z o 为参考白色的分量。 由r g b 颜色模型转换为l u v 颜色模型后,对于彩空间中每个点可以用l u v 颜色模型来表示,两种颜色x 和y 的相似度可以表示为: d ( 训) = 厄万可i 可再万了y 2 3 图像纹理 纹理( t e x t u r e ) 是任何事物构成成分的分布或特征,尤其是涉及外观或触 觉的品质。在数字图像处理中,其定义为:“一种反映一个区域中象素灰度级的 空间分布的属性”。 这里,我们关注的是一幅图像中的物体的纹理度量。如果物体内部各处的灰 度级是一个常数,或者接近常数,我们就说该物体没有纹理。如果物体内部的灰 度级变化明显但又不是简单的影调变化,那么该物体就有纹理。为了度量纹理, 我们可以设法对物体内部灰度级的变化的性质进行量化。 由照相机引入的电噪声和胶片噪声是随机纹理的例子。在这种情况下,物体 内部的灰度级变化显示不出任何可辨识的模式。与此相反,断面线是模式纹理, 它确实显示出明显的规律性。 随机纹理通常用统计性质表征,如灰度级的标准变差( 用于度量纹理的幅度) 和自相关宽度( 用于度量纹理的尺寸) 等。模式纹理还可以通过抽取某些度量进 一步表征,如模式的性质与方向,如果它的确有方向性的话。 纹理特征是从物体的图像中计算出来的一个值,它对物体内部灰度级变化的 特征进行量化。通常,纹理特征与物体的位置、走向、尺寸、形状有关,但与平 均灰度级( 亮度) 无关。 图2 1 0 是几个纹理图像的例子。 2 4 图像相似性度量的理论基础 模糊模式识别在人工智能、优选决策等科学领域有着广阔的应用前景。在本 文中,我们主要利用模糊模式识别理论来建立图像相似性测度的理论基础。 设有待识别的n 个样本组成样本集合: 每个样本用m 个指标特征向量表示: 则样本集可用mxn 阶指标特征值矩阵 x i i丑2 屯10 2 2 1x _ 2 丑。 而x 石h h 。( b ) 表示。x t 。为样本j 指标i 的特征值,i = l ,2 ,m ,j = l ,2 ,n ( 2 ) 由于m 个指标特征值物理量的量纲不同,在进行识别时要先消除指标特征值 量纲的影响,使指标特征值规格化,即将指标特征值矩阵变换为指标特征值的相 对隶属度矩阵: 1 4 ol 一 2 ” 图 r = t l1 j r 2 1o - 1 j - 。婚) 式中:r ,。为指标特征值规格化数或相对隶属度,0 r 。1 ( 4 ) 设将n 个样本依据样本的m 个指标特征按c 个级别( 或类别) 加以识别,其模 糊识别矩阵为: u = u l l u 1 2 u 2 1u 2 2 “n“f 2 “l x u 2 * “d 。0 盯) ( 5 ) 式中:u n ,为样本j 从属于级别h 的相对隶属度,h = l ,2 ,c 满足条件 ( 6 ) 设级别h 的m 个指标特征值( 称为标准指标特征值) ,则c 个级别的指标特 征可用c 阶标准指标特征值矩阵 r = y 1 1y 1 2 ,2 l,2 j y m l 】 = ( * j ) 式中:y 。n 为级别h 指标i 的标准指标特征值,为了消除指标特征值不同量纲的 影响,使标准指标特征值规格化,即将矩阵y 变换为相应的相对隶属度矩阵: s = s l ls 1 2 屯18 3 2 l 3 屯 s 2 f f ( ) ( 8 ) 式中:s ,n 为级别h 指标i 的标准指标特征值规格化数或相对隶属度,0 1 。 样本j 的m 个指标特征用相对隶属度向量表示为 级别h 的m 个标准指标特征用相对隶属度向量表示为 s h = ( s l h ,s 2 h ,s i i ) 样本j 与级别h 之间的差异,用广义欧氏距离 = 善( 表示。考虑不同指标对识别的影响不同,引入指标权向量 ( 9 ) ( 1 0 ) w = ( w 。,w 2 ,w m )( 1 2 ) 则样本j 与级别h 之间的差异,用广义欧氏权距离 d 盯= 表示。 ( 1 3 ) ( 1 4 ) 样本j 隶属于级别h 的相对隶属度为u m 隶属度可定义为权重,故有加权广义 欧氏权距离: 肾u 。丽 ( 1 5 ) 1 6 弋 叶 溉厶m 更加完善地表示了样本j 与级别h 之间的差异,则样本j 与c 个级别的差异的综 合权衡度量可以为 乃( ”= k = l “一善 ,f ( 叫捌2p l 则有 f ( u ,w ) = ( z ( “,w ) ,f 2 ( “:,”,以( “。,w ) ) ( 1 6 ) ( 1 7 ) 显然,对于给定的u 、w ,f ( i j ,w ) 越小,识别越优。故可建立目标函数“ m i n ( f ( u ,w ) = ( f l l ( u l ,们,五( “2 ,w ) ,一无( “,w ) ) ( 1 8 ) 满足约束条件 i _ 1 ,“ 卜0 ,i - 1 2 一,埘 ;1 l d 可_ 1 ,可,0 - u 盯 1 ,h - 1 ,2 。 由于样本集中的各个样本之间公平竞争,没有任何偏好关系,因此,目标函 数式( 1 8 ) 可用等权重的线性加权平均法集结为单目标优化问题: m i n ( f ( u ,w ) 满足约束条件: m 峨2 1 ,q 卜0 , i2 1 ,2 ,m i - i m “可2 1 ,可,0 “盯 1 ,矗2 1 ,2 ,c j _ l ( 2 0 ) ( 2 1 ) ( 2 2 ) 、lrj 叻 乃 。爿 从上述模糊模式识别相似性模型理论中得到的公式( 1 6 ) 和( 2 0 ) 就是我们 进行图像相似性度量公式: 孰厨 m i n c f c 们= 喜乃c 计) 第三章i n t e r n e t 上的图像检索技术 3 1 图像检索技术的两个阶段 随着互联网的高速发展,网上的多媒体信息也急剧增加,因此人们对多媒 体信息的检索需求也就随之而来。传统的信息检索主要集中于文字的检索,在多 媒体方面的研究并不是很多。互联网上的多媒体以图像为主,因此图像的检索就 成为了目前研究的热点。 互联网上图像的检索经历了两个阶段:第一阶段是以关键字为基础的检索。 第二阶段是以图像自身的内容为基础的检索。 在基于关键字的图像检索系统中,需要先对所有的图像进行关键字标注,然 后才能使用全文检索技术对图像进行搜索。这种方法存在两个方面的问题:一是 这种方法需要较多的人工参与,而且随着图像数目的增加,这种方法很难实现: 第二个问题在于图像所包含的信息量庞大,不同的人对于同一张图像的理解也不 相同,这就导致对图像的标注没有一个统一的标准,因而检索的结果不能很好地 符合用户的需求。 基于内容的检索不同于基于关键字的检索,它不需要过多的人工参与,而利 用图像自身的特征( 如颜色、纹理、形状等) 来进行检索,具有较强的客观性。 但是,由于这些特征并不代表图像真正的语义信息,基于内容的检索结果往往不 令人满意。因此目前大多数系统还是基于关键字的检索,如a l t a v i s t a 、y a h o o ! 、 d i t t o 等。 3 2 互联网上的图像检索 要建立互联网上的图像检索系统,需要解决三个方面的问题。首先是如何从 互联网上获取图像,其次是如何对获取的图像建立相应的索引,最后是如何根据 用户的需求在图像数据库中进行检索。 3 2 1 图像的获取 互联网上的图像检索过程 互联网上存在各式各样的图像,我们需要收集一些用户最感兴趣的、具有代 表性的图像以供用户使用。首先,根据目前一些流行的搜索引擎的分类,建立相 应的图像分类的层次结构;然后针对每个类别选择一些热门的、具有代表性的站 点作为候选。例如在体育方面的h t t p :w w w n b a c o g l ,政治方面的 h t t p :w w w w h i t e h o u s e g o v ,娱乐方面的h t t p :w w w d i s n e y c o m ,新闻方面 的h t t p :w w w c r l r l a o m 等站点均被选择成为下载图像的站点。 然后,设计一个高效率的软件工具( c r a w l e r ) ,针对选定的代表性站点自 动进行图像的收集。站点内所有的页面都将送给页面分析器进行分析,页面内所 有的图像都将以链接的方式存储到相应的数据库中。同时,一些启发式信息,如 图像的尺寸、文件类型、文件名、图像的颜色直方图等,将用来对图像进行简单 的分类,把广告条、背景、图标、按钮等无语义信息的图像与用户真正需要的图 像区别开,以供用户查询。 3 2 2 图像特征的提取系统 对收集到的图像,需要进行特征抽取,并建立相应的索引,以提高检索的效 率。图像的特征分为两种,一种是图像的低层特征,如图像的颜色、纹理及其形 状等。另外一类特征则是图像的语义特征。 对于图像的低层特征,主要采用的是图像的颜色、纹理及其形状等特征。其 中,颜色特征和图像的大小、方向无关,而且对图像的背景颜色不敏感,因此颜 色特征被广泛应用于图像检索。颜色特征中包括颜色直方图、颜色相关图、颜色 矩等。纹理特征代表了物体的视觉模式,它包含了物体表面的组织结构以及与周 围环境之间的关系。常用的方法有相关矩阵法,粗糙度、对比度等纹理表示方法, 以及小波变换等。形状特征则包括两种,一种是基于边界的形状特征,另外一种 则是基于区域的形状特征。最成功的表示方法有傅利叶变换和不变矩等。这些低 2 0 层的特征将通过各种方法抽取出来,并形成一组特征向量,建立相关索引并存储 到数据库中。 由于低层的特征并不直接代表图像的语义信息,因此我们还将抽取图像的语 义特征。我们采用在网页中与图像相关的文字信息来表征图像的语义特征,其中 使用到的相关信息有: 图像的文件名及其网址大多数作者直接通过文件名来表示图像的内容,如 r e d f l o w e r j p g 、c a t j p g 、c l i n t o n j p g 等,就直接把图像的内容体现在文件名 之中。同时,图像的网址信息也提供了一些相关的语义信息,如 h t t p :怖d i t t o c o m i m a g e s a n i m a l s a n i m _ b i r d s j p g 就提供了图像所属的 类别信息及其语义信息。 图像的替代文字( a l t e r n a t et e x t ) 替代文字在网页中通常用来表示图像的语 义信息,而且也是最为准确的个特征。不过,并不是所有的作者都愿意提供这 个信息。 图像周围的文字( s u r r o u n d i n g t e x t ) 在网页中图像周围的文字是最可能表达图 像所有包含的内容的,虽然有些文字可能与图像并不相关,不过这些文字在定 程度上还是表达了图像的语义信息,因此被选择成为语义特征之一。 图像所在页面的标题有些图像用来加强作者的意图,因此有些图像的内容同页 面的标题内容直接相关。页面的标题也就成为语义特征之一。 图像的超链接( h y p e r l i n k ) 图像的超链接信息在一定程度上与图像的内容相关。 因此一些语义特征可以通过对超链接的分析计算得到。 图像所在网页彼此间的链接( l i n k s t r u c t u r e ) 藉由对网页与网页间的链接分 析( l i n ka n a l y s i s ) ,网页内所包含的图像彼此间语义上的相似性可以在一定 程度上计算得到。这些信息可以用来加强图像检索的效果。 所有这些特征,都将通过页面分析器从网页中自动抽取出来,并被赋予不同 的重要性,并按照传统的文本信息检索技术,建立图像的语义特征向量。向量的 每个分量都对应一个关键字,它的值取决于该关键字在与图像有关的网页中的分 布。如果一个关键字在一个网页中出现很多次,对应的分量就会大一些:另方 面,如果这个关键字出现在很多网页中,对应的分量就会小一些。这种方法在文 本检索中被广泛采用,也适用于图像检索。 3 2 3 图像的检索 用户提交的查询,可以是关键字的查询,也可以是一张用户感兴趣的图像, 系统将根据提交的查询,在图像数据库中找到一些最相似的图像返回给用户。提 交的查询将首先转换成为一个由低层特征和高层特征结合的向量,然后分别与数 据库中图像的向量计算相似度。相似度的计算分类两步完成:一是计算低层特征 的相似度,二足计算高层语义特征的相似度,然后采用线性组合的方法得到最后 的相似度。相似度高的图像成为检索的结果。 3 3 基于内容( c b i r ) 的图像检索系统 目前i n t e r n e t 上所实现的图像检索基本上是与文本搜索引擎类似的基于图 像内容描述( d e s c r i p t i o n b a s e d ) 的语义层次的匹配( 例如通过关键词或自由词、 分类目录) 。用关键词、关键词逻辑组合或自然语言来表达查询的概念,这就是 语义层次的匹配概念。但由于对图像的理解比文本更容易产生歧义,当语词不足 以形象和准确地描述视觉感知时,用户就需要利用其所呈现的视觉特性来查询, 例如利用颜色、纹理、形状等特征。因此,就出现了基于图像本身固有属性匹配 的图像检索技术,即基于内容的图像检索( c o n t e n t b a s e di m a g er e t r i e v a l , c r i r ) 技术。 基于内容的图像检索主要包括特征提取、多维索引及用户接口三个基本要 素。下面将对它们给予简述: 视觉特征包含颜色、纹理、形状、区域、空间层次等。每个特征所对应 的匹配算法正日趋成熟。近年来研究人员发现视觉特征提取仍然不能很 好的满足用户的需要,于是在提高其精度的同时开始研究高层的语义特 征描述和相似匹配。 高效的多维索引技术是使c b i r 能够应用于超大型图像数据库的重要保 障。常用的树索引技术源于传统的数据查询,但多维特征向量有维数太 多和富含语义等特点。许多专家开始研究其它的方式提高索引效率,例 如使用聚类和神经网络技术对图像进行分类索引。 图像检索系统通过用户接口从用户处获取查询信息,并向用户提交查询 结果。用户可以向系统提交与所需查询的图像一致或类似的例图或绘制 草图;还可以给出一种或多种特征要求。在有的系统中对图像进行语义 分类,用户可以交互地由系统引导直到找到自己需要的图像为止。 在许多现存的c b i r 系统中都运用了其中种或几种相结合的接口方式。就 今后的发展来看,交互式、特征与语义信息结合的接口更接近用户的需要。 3 3 1 图像的特征提取 一基于颜色特征的检索 由于颜色具有一定的稳定性,因此成为检索中最常用的视觉特征。同时,颜 色是彩色图像的重要视觉内容,而且颜色特征相对于其他特征容易获得,因此基 于颜色的查询是基于内容的图像检索中最基本的方法,这种查询可以针对任何类 型的彩色图像。 颜色特征是图像最直观而明显的特征,一般采用直方图来描述。颜色直方图 是表示图像中颜色分布的一种方法,它的横轴表示颜色等级,纵轴表示在某一个 颜色等级上具有该颜色的像素在整幅图像中所占的比例,直方图颜色空间中的每 一个刻度表示了颜色空间中的一种颜色。采用直方图计算图像间的相似性比较简 单,但它不能反映图像中对象的空间特征。不少相关的文献都详尽地描述了针对 颜色直方图缺点( 亮度敏感性、稀疏直方图对噪声敏感性、计算量大等) 的改进 算法。 为了兼顾速度和精度,k a n k a n h a l l i 和m e h t r e 于1 9 9 6 年提出了基于聚类的 颜色匹配方法。在这个方法中他们用聚类分析的办法来从图像中提取主色,不仅 大大降低了特征空间的维度,而且保持了较高的精度。 还有的研究者将颜色和其它视觉特征结合起来考虑。这在相关文献中有所介 绍。c h a n 等人提出的r l ( r u n l e n g t h ) 及s r l ( s e m i r u n l e n g t h ) 特征的概念, 即是对这种思想的发展。 二基于纹理特征的检索 图像的纹理特征与图像中物体表面的组织结构有关。图像可以看成是不同纹 理区域的组合,纹理通常定义为图像的某种局部性质,或是对局部区域中像素之 间关系的一种度量。纹理特征可用来对图像中的空间信息进行一定程度的定量描 述。根据纹理特征进行检索主要考虑粗糙性、方向性和对比性三种特征。 早期对纹理特征提取的研究是在模式识别的背景下展开的,方式多为统计方 法,典型代表是基于二阶灰度统计特征的共生矩阵法。而后提出的相似度量:对 比度、粗糙度、方向性、规律性,比共生矩阵中的统计信息更符合人类感知力, 受到一定的重视。 1 9 9 1 年c o h e n 等采用的高斯马尔克夫随机场模型进行纹理识别,取得良好 效果。同时,许多研究者开始将小波变换应用于纹理特征表述。m a n j u n a t h 等人 对三种小波变换方法( 直角、树结构、6 a b o r ) 作了比较之后,发现6 a h o r 小波 变换最符合人类视觉特征的表达。针对纹理特征计算量大、对噪声敏感等特点, 研究者们提出了一些方法,如g a b o r 过滤器法和扩展不规则碎片型分析法。1 9 9 8 年m a n j u n a t h 提出了纹理词典的概念,它对重要的纹理类型自动生成代码字,按 其相似程度进行检索。目前也有不少研究者在研究利用神经网络进行纹理分割。 由于纹理描述比较困难,一般对纹理的检索都采用示例查询( q u e r yb y e x a m p l e ) 方式。用户给出示例的全部或部分区域特征,从而找到类似图像。 三基于形状特征的检索 形状是最接近用户需求的匹配特征。形状匹配分为基于边界和基于区域两大 类型。它们分别采用傅立叶描述予和不变矩表述特征。在相关的文献中,对这两 类方法的发展和成果都有详尽的描述。文献中也提到许多新颖的方法,如小波变 换描述法和有限元匹配法。 对于更广泛的变形匹配问题,需要从研究变形模型着手。弹性变形模型是研 究和应用最早的模型,其后提出的主动轮廓模型则应用于边缘及轮廓的检索。此 外,还有根据部分先验信息采用参数控制模型表示的方法,用于人脸识别、医学 图像检索等方面。 不少专家沿用二维表示中的两个途径表示三维形状,在思想上没有突破。从 二维图像中建立三维模型进行匹配才是今后研究的主题,这方面的成果还比较 少。在1 9 9 6 年c h e n 和s t o c k m a n 的文章中提到过三维模型的建立。 2 4 采用该特征进行检索时,用户通过勾勒图像的形状或轮廓,从图像库中检出 形状类似的图像。基于此特征的检索方法有两种:( 1 ) 分割图像经过边缘提取后, 得到目标图像的轮廓线,针对这种轮廓线进行的形状特征检索。( 2 ) 直接针对图 形寻找适当的矢量特征用于检索算法。但处理这种结构化检索更为复杂,需做更 多的预处理。 四图像分割与空间关系 局部特征提取具有较高的精确性,而好的图像分割技术将使局部特征提取得 到更令人满意的结果。例如,在颜色特征提取中采用颜色层( c o l o rl a y o u t ) 描述 方法;在纹理特征提取中进行局部纹理分割;在形状提取中对形状进行轮廓分割 和分形等技术都需要图像分割技术的支持。 图像分割技术也使得小块图像之间的方向空间关系被用作特征描述。在一些 文献中研究者对图像的方向空间关系进行了细致的讨论,并提出了用于图像检索 的相似性匹配方法。 3 3 2 语义层次关联 以颜色、纹理、形状等视觉特征描述图像一直是这一领域研究的热点,新颖 或改进的算法层出不穷。这的确提高了图像检索的精确度和速度,但是与用户要 求仍有一段距离。对用户来说,判断两幅图像是否相似具有主观因素,它依据的 是人类的感知力。再者,通过选择例图、比较两者特征来寻找相似图像的方法固 然简单,但概念的描述更有利于准确表达需要,并且毫无疑问这种方式比输入某 种特征参数( 如像素值、形态图等) 更具人性化。于是,特征表述与用户语言之 间需要有一个语义层次将两者相互关联。 提取图像的语义特征,依据是图像的视觉特征,这与基于文本的图像见所有 本质区别。过去的基于文字的图像检索只是简单机械地进行字符串匹配,而现在 提出的语义特征提取概念则是在文字与图像之间建立起映射关系。这种映射不是 一对一的,相同的文字在不同的图像内容中可以代表不同的含义,而不同的文字 也可以表示相似或者是相同内容的图像。专家们依据图像的视觉特征提取出图像 的语义特征,也有依据用户的相关反馈信息来试图自动生成可以表述一幅图像或 一类图像的文字。有的研究者就提出了语义层的思想,并提出了一种使用统计学 方法将图像归类并自动产生映射词典的算法。 对于图像的语义特征提取,也大致可以分为对场景的语义特征提取和对事物 对象的语义特征提取。场景的识别涉及到整幅图像的类型,例如城市建筑与郊外 风景的分类。1 9 9 5 年h e r m e s 在文章中提到的i r i s 系统就是从整幅图像的视觉 特征信息中提取出一个可以描述此图像的文字表述。而0 1 i r a 等人则是通过运用 一些简单的场景分析技术和特定的一组图像训练神经网络对图像进行聚类,然后 再按这些模型对图像进行分类。事物对象识别处理的对象是图像的局部信息,例 如器具的分类。大多数思想是对每一类的事物对象建立起一个合适的模型,然后 对此模型加以文字定义。 建立模型的方法是完全自动的,与之相对的思想是检索系统动态学习,即根 据用户的相关反馈系统学习语义与视觉特征之间的关联,自动生成映射。m i t 给 出的f o u r e y e s 系统就是采用这种思想,它为用户提供界面请求他们对所选择区 域进行文字注释,然后将之运用于相似图像的特征表述中去。另一种方法则是建 立一个专门用于储存语义信息的查询数据库。在这里,用户不仅要描述图像含义, 还要用一系列的视觉特征来表达所需要查询的内容,一旦查询结果令人满意,则 将图像的语义信息和视觉特征信息都存储在一个专门的查询数据库中留待后用。 3 3 3 高层语义表述 这一层次的任务是使用带有主观感情色彩的语义表述图像。例如“冷”、“热”、 “快乐”、“悲伤”等词汇的描述。在所有图像的视觉特征中,颜色是最具有感情 色彩的特征,显著的色块可以一下子吸引用户的注意力并使用户心中产生主观感 受。1 9 9 8 年c o r r i - d o n i 等人在他们的文章中对色彩感知力进行了研究,设计了 一种针对颜色
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年工程师认证指南机电工程师考试模拟题及解析
- 2025年IT企业软件开发工程师招聘笔试预测题及解析
- 武汉局安全题库及答案解析
- 缝纫制品充填工技能比武考核试卷及答案
- 寒假安全教育测试题及答案解析
- 特种炉冶炼工成本预算考核试卷及答案
- 四川省a级安全员题库及答案解析
- 重冶备料破碎工设备维护与保养考核试卷及答案
- 预定房间课件
- 2025东城区体育馆街道合作协议项目合同书
- 光学相干断层扫描(OCT)在眼科诊断中的应用考核试卷
- 超级大乐透介绍课件
- 正常产褥 教学课件
- 2025年北京市海淀区高一(下)期末考试数学试卷(含答案)
- 机场安检员岗位培训教程
- 卫生院常见护理常规
- 2025年全国矿山安全生产事故情况
- 2024年北京市西城区第十五中学七上数学期末检测模拟试题含解析
- 2025年环境监测试验检测人员培训计划
- 市政项目成本测算手册2023版
- 中华人民共和国监察法2025修订版实施条例试卷试题含答案
评论
0/150
提交评论