




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于svm的图像反馈检索研究及实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
z 5 8 6 2 1 3 摘要 基于内 容的图像检索的研究是近年来的一个研究热点,主要应用 于互联网媒体检索、医疗图片、气象数据和气象信息等领域.对图像 检索的研究涉及诸多领域,如多媒体数据库的管理、计算机视觉、数 字图像处理、模式识别、信息检索等。 图像检索的两大核心问题是图像内容的描述方法 ( 即特征提取) 和特征的匹配,本文的研究工作就是围绕这两大问题展开,并建立了 一个基于内容的图像检索的开放式实验平台。 图像内容的描述是图像检索的 基础,本文从颜色和纹理两方面对 其进行了归纳和总结。对于颜色,介绍了几种符合人类视觉感知的颜 色空间,给出了几种常用的且较好的颜色特征提取方法及其优缺点; 对于纹理,详细讨论了三种纹理特征。在此基础上实现了多种查询手 段的图像检索算法,并且在建立的彩色图像数据库上对这些算法进行 了实验。 本文在图像反馈检索过程中引入了支持向量机学习方法,并对支 持向量机在图像检索中的应用作了较全面的研究。比较了使用支持向 量机的反馈检索和传统的反馈检索方法的检索性能,并采用三种核函 数进行了 对比实验, 研究了 特征选择对向 量机性能的影响, 最后还将 单分类和二分类的支持向量机做了一下对比。实验表明支持向量机能 有效捕获用户需求,提高图像的检索效率;高斯核函数较多项式核函 数和s i g m o i a 核函数具有更强的 泛化能力:多类别的特征选取有助于 检索性能的 提高; 单分类向 量机的性能较二分类的要差。 在以上算法研究基础之上,我们建立了一个基于内容的图像检索 实验平台,讨论了系统的组成模块和功能,介绍了系统提供的各种查 询手段,给出了一些检索实例,并验证了前述理论研究的结果。 关键词:支持向量机;图像检索;相关反馈;特征提取 c o n t e n t - b as e d i m a g e r e t r i e v a l h a s b e e n d r a w i n g m o re a n d m o r e r e s e a r c h a tt e n t i o n i n t h e r e c e n t y e a r s . i t c a n b e w i d e l y u s e d i n i n t e r n e t m e d i a , m e d ic a l p i c t u r e s , c l i m o g r a p h , g i s a n d s o o n . c o n c r e t e l y , it t o u c h e s u p o n d a ta b as e m a n a g e m e n t , c o m p u t e r v i s i o n , d i g i ta l i m a g e p r o c e s s in g , p a tt e rn r e c o g n it i o n , i n f o r m a t io n r e t r i e v a l a n d s o f o r t h . t h e r e a re t w o c r i t i c a l i s s u e s f o r i m a g e re t r i e v a l . o n e i s h o w d e s c r i b e t h e c o n t e n t o f i m a g e . a n o t h e r i s h o w t o m e a s u r e t h e d i s t a n c e b e t w e e n t w o i m a g e s f e a t u r e s . my re s e a r c h d o s u r r o u n d w i t h t h e s e t w o p r o b l e m a n d i r e a l i z e a o p e n e x p e r i m e n t p l a t f o r m f o r c o n t e n t - b as e d i m a g e r e t r i e v a l . f e a t u r e r e p r e s e n t a t i o n a n d e x t r a c t i o n i s t h e b a s i s o f c o n t e n t - b a s e d i m a g e r e t r i e v a l . t h i s t h e s i s p r o v i d e s a c o m p re h e n s i v e s u r v e y o f t h e s e l o w - l e v e l f e a t u r e s fr o m t w o as p e c t s 一c o l o r a n d t e x t u r e . f o r c o l o r f e a t u r e , s o m e c o l o r s p a c e s w h i c h a re i n a c c o r d w i t h p e r s o n s p e r c e p t i o n a re i n t r o d u c e d . t h e n s e v e r a l c o l o r f e a t u re s a r e d i s c u s s e d , w h i c h a r e u s u a l l y u s e d a n d h a v e b e tt e r p e r f o r m a n c e . f o r t e x t u r e f e a t u r e , * d i s c u s s a b o u t t h re e e x t r a c t i n g m e t h o d in d e t a i l . f u r t h e r m o re , w e im p l e m e n t m a n y o f t h e s e a lg o r i t h m s a n d d o s o m e e x p e r i m e n t s o n c o l o r f u l i m a g e d a t a b as e . t h i s t h e s i s a p p l i e s t h e n e w e s t t h e o ry a b o u t s t a t i s t i c a l l e a r n i n g a t p r e s e n t , s u p p o r t v e c t o r m a c h i n e ( s v m) , i n t h e p r o c e s s o f i m a g e f e e d b a c k re t r i e v a l . i t s t u d i e s t h e i n f o r m a t i o n o f p o s i t i v e a n d n e g a t i v e i m a g e s w h i c h u s e r p r o v i d e s . w e c o m p a r e t h e p r o c e s s o f s tu d y u s in g t h re e k i n d o f k e rn e l f u n c t i o n i n a l a r g e d a t a b a s e o f n a t u r a l i m a g e s . a t t h e m e a n w h i l e , w e d i s c u s s a b o u t t h e e ff e c t o n s v m s p e r f o r m a n c e w h i c h im a g e f e a t u r e s c a u s e . f i n a l l y , a c o n t r a s t i v e e x p e r i m e n t b e t w e e n o n e - c l as s s v m a n d t w o - c l as s s v m i s g i v e n . f r o m t h e e m p i r i c a l r e s u l t s , w e c a n c o n c l u d e t h a t s v m c a n c a p t u r e u s e r s n e e d e ff e c t i v e l y a n d i m p r o v e t h e e ffic i e n c y o f i m a g e r e t r i e v a l . g a u s s i a n k e rne l f u n c t i o n h a v e b e tt e r g e n e r a l i z a t i o n 宋经作 者、 导 n :11 2 , 勿全文公布 m a b i l i ty t h a n p o l y n o m i a l a n d s ig m o i d . m u l t i - f e a t u r e s i n d i ff e r e n t c l as s e s f o r i m a g e c a n s p e e d u p p e r f o r m a n c e o f r e t r i e v a l . o n e - c l a s s s v m p r o v i d e s a l e s s p e r f o r m a n c e c o m p a r e d w i t h t w o - c l as s s v m. a c o n t e n t - b ase d i m a g e r e t r i e v a l s y s t e m i s d e s c r i b e d b as e d o n t h e a l g o r it h m s m e n t i o n e d a b o v e i n t h i s p a p e r . t h i s s y s t e m c a n s u p p o r t a l l k i n d s o f q u e r y i n g . a n u m b e r o f q u e ry i n g a n d r e t ri e v a l e x p e r i m e n t s w i t h r e a l i m a g e s a r e p e r f o r m e d t o v a l i d a t e t h e o r i e s a b o v e a n d s o m e re s u l t s a r e p res e n t e d . k e y w o r d s : s u p p o r t v e c t o ri m a g e r e t r i e v a l ; r e l e v a n c e f e e d b a c k ; f e a t u r e e x t r a c t 一 i v 北京交通大学硕士论文 第一章 绪论 1 . 1研究背景 近年来, 随着多 媒体和数据库技术,以 及we b技术的蓬勃发展, 包括图像、 音频和视频等信息的多媒体数据的大量涌现,多媒体数据 己 经广泛用于 i n t e m e t 和企事业信息系统中, 用户不仅要存取常规的 字符数据, 而且越来越多的商业活动、 事务交易和信息表现将包括多 媒体数据。如何有效地按照多媒体数据的特性去检索这些数据便成为 了多媒体技术研究中的热点问 题。 在2 0 世纪7 0 年代人们利用常规关系数据库管理系统来管理多媒 体数据,对多媒体数据人工输入各种属性,建立多媒体数据的元数据 库来支持查询。 但是, 随 着2 4 世纪9 4 年代多媒体技术的飞速发展, 可获取的图像和其他多媒体数据越来越多, 数据库容量不断增大, 而 这种用 人工输入属性和 注 释的 方法 就暴露出了 它的 缺点。 一个缺点 是 人工注释需要大量的人力, 尤其是对于大型的多媒体信息库, 如w e b 网络资源、数字图书馆等。在这样的信息环境中,每天都有大量的新 资料出现, 需要及时把这些资料归档。 没有计算机的自 动和辅助处理, 资 料的 更 新周 期就 不 能 满 足用 户的 需 要。 另 一 个 缺点 是 人工 注释 难以 解决蕴藏在多媒体数据中丰富的内容以及内容感知描述的主观性.人 们常说, 一幅图 胜过千言万语, 而音频视频等媒体包含了 更丰富的内 容,这些内 容的许多部分很难用文字来描述清楚。第三个缺点,就是 对于实时广播流媒体的处理,手工处理是完全不可行的, 必须用计算 机进行实时的内容分析。 解决上述问题的一个理想方案就是由 计算机自 动理解多媒体信息 的内容,并给多媒体信息加上客观而且全面的概念性标注。但这是一 个难题, 其中 涉及众多 领域的知识。 特别是,就目 前技术而言,当 不 限定图像的内容范围时,要做到任意图像的自 动理解还远远不是一件 容易的事情。因 此, 需要从一个中间层次来研究多 媒体内 容的表示以 及检索问 题,即 基于内 容的多媒体信息检索技术。 北京交通大学硕士论文 基于内 容的 检索 是指 根 据 媒 体 和 媒 体 对象的内 容 及 上 下文 联系 在 大规模多媒体数据库中 进行检索, 它的研究目 标是提供在没有人类参 与的情况下能自 动识别或理解图像重要特征的算法。在这种方法中, 首先对媒体信息进行分割使其成为单独的可供检索的 媒体对象 ( 以 视 频检索为例, 就需要对连续的视频流进行镜头分割, 使其成为一组镜 头的集合, 这些镜头可以作为有效的检索对象) , 再对每个媒体对象采 用特征提取算法提取相应的特征。媒体对象特征的集合就构成了其内 容描述。在检索时,根据检索要求, 查询并返回 媒体库中内 容描述最 满足要求的一组媒体对象。 目 前,基于内 容的多媒体信息检索的主要工作集中在识别和描述 图 像的颜色、 纹理、 形状、空间 关系上, 对于视频数据,还有视频分 割、 关键帧提取、 场景变换探测以及故事情节重构等问 题。 由 此可见, 这是一门涉及面很广的交叉学科,需要利用图像处理、模式识别、计 算机视觉、图像理解等领域的知识作为基础,还需从认知科学、人工 智能、数据库管理系统、 人机交互、 信息检索等领域引 入新的媒体数 据表示和数据模型, 从而设计出 可靠、 有效的检索算法、系统结构以 及友好的人机界面。 1 . 2基于内容多操体信息检索的 应用 当基于内 容的多媒体信息检索技术的研究逐步走向 成熟时, 它可 以找到许多非常有价值的应用。 基于内 容的多媒体信息 检索技术除了 给人们的日 常生活带来方便之外,也将创造出巨 大的社会价值。下面 我们列举一些可能的应用: o多媒体数据库 传统的数据库系统尽管提供了 对多媒体数据的 存储支持, 但缺乏 直接针对多媒体数据内容的检索手段,这对于多媒体数据的应用带来 许多限制。多媒体数据库应当为数据库用户提供各种有效的针对多媒 体数据的查询手段。 基于内容的检索技术的研究将为多媒体数据库的 发展提供有力的技术支持。 许多大型的商用数据库系统, 如o r a c l e 和 d b 2 ,正逐步将部分己 经成熟的多媒体内 容的分析和检索技术引入到 北京交通大学硕士论文 多媒体数据库的存储、管理和检索中。 o知识产权保护 科技的飞速发展使得人们越来越关注知识产权的保护问题。许多 知识产权的载体都是图像,最明显的是商标和艺术作品。商标知识产 权体现在专用的文字描述和专用的图形标记两个方面。 为了防止侵权, 需要通过严格的商标审查程序来确认新申 请的侯选商标是否与已注册 的商标过分近似。专用文字描述的近似审查可以 通过各种字符匹配和 变换算法实现。 对于专用的图 形标记,目 前的 普遍做法是对各种图形 由专家进行手工编码。除了费时费力外,手工编码还存在主观和不准 确的问题,由 此造成的商标漏审误审所引起的法律纠纷并不鲜见。毫 无疑问,利用基于内 容的图 像检索技术实现商标的专用图形标记的自 动审查 ( 或是 在专家的 协助下半自 动审查) 具有非常 现实的 意义。 知识产权保护的另一个方面是以图像作为载体的艺术作品的非法 复制。 将基于内容的图像分析和检索技术与其他技术 ( 如水印) 相结 合,可以 更加有效地实现艺术作品的真品和鹰品的鉴别。 0数字图书馆 日 益兴起的数字图书馆技术正在改变传统的图书馆概念。历史资 料的存储以及人们对资料的查阅和浏览方式也正在发生本质的改变。 显 然 , 对 于 数 字 图 书 馆 中 的 多 媒 体 数 据 , 需 要 借 助 基 于 内 容 的 多 媒 体 信息分析和检索技术, 例如自 动对多媒体数据进行分类。 令新一代网上搜索 网络正逐渐渗透到人们的日常生活中,除了文本资源外,网上还 存在非常丰富的图 像、视频等多媒体资源。新一代网上搜索引擎应该 具有协助用户从海量而且无序的网上资源中寻找符合要求的多媒体信 息的能力。除了对分析多媒体信息的内容外,搜索引擎还要提供友好 的查询界面和快速的联机反应能力。 令新一代视频服务 一系列相关的静止图像经过时间的扩展,再加上音频信息便形成 了一段视频,它是多媒体信息包含信息最丰富的一种媒体,基于内容 的视频检索也是基于内容检索的一个重要研究领域。新一代的视频服 北京交通大学硕士论文 务的首要应用是改变人们传统的视频浏览方式,它可以 将视频中 关键 的画面 ( 关键帧)自 动提取出来,人们通过浏览关键帧或者搜索的方 式快速找到自己感兴趣的内容。基于此,未来还可以实现基于内容的 视频点播. 新一代的视频服务也将产生新的视频节目 编辑和制作手段, 视频节目除了存储在录像带中,还将以高度的压缩方式存储在视频库 中。视频节目 还根据其内容被加上各种标引,以 此可以实现相关感兴 趣内容额检索和快速定位,极大地方便了视频节目的编辑和制作。 0医学和遥感图像的分析和处理 尽管传统的图像处理领域早就开始涉足医学和遥感图像的分析和 处理的研究,但它们仍然是一个开放的研究课题。无论是民用还是军 事,医学和遥感图像的分析和处理都具有非常重大的现实意义。 特别 是当图像规模增大时,准确有效地图像分析手段以及快速的图像识别 和检索技术将凸现其重要性。 此外,基于内容的分析检索技术还可以应用于犯罪分析与安全的 预防、时装设计、远程教育以及个人像册的管理等方面。由此可见, 基于内容的多媒体信息检索技术的研究具有非常巨大的潜在应用价 值。 1 3 论文的组织结构 本文的内容按如下方式组织: 第二章对基于内 容的图 像检索进行概述,从总体上对基于内 容的 图像分析和检索中的现有技术作了概括性的介绍,包括其发展阶段、 检索特点,以 及研究的核心问 题, 并对本文所做的工作做了一下总结。 第三章给出了图像的描述模型,并从颜色、纹理两方面介绍了图 像可视信息的特征描述和提取方法以 及特征归一化方法。 第四章给出了一种应用机器学习方法一一支持向 量机的图像反馈 检索方法,并将其与传统的反馈检索方法作了比 较, 从支持向 量的核 函数选择以 及图像的特征选择等角度研究了 这些因素对使用向 量机进 行图线反馈检索的影响。 第五章介绍了作者实现的一个图像检索实验平台,并给出了应用 北京交通大学硕士论文 所提取的各种特征及其组合检索图像的示例,并做了相应的分析。 第六章对本文的研究工作做了一下总结,并对未来的基于内容图 像检索领域作了一下前景展望。 北京交通大学硕士论文 第二章 基于内容的图像检索概述 2 . 1图像检索概述 传统的图像管理以 文件的形式进行,当用户查询一幅图像,要通 过打开 文件才能进行浏览,找到目 标对象。随着应用领域的扩大,图 像数据处理量剧增,并面临数据共享的问 题,文件系统己 难满足实际 的需求, 需要用数据库系统来支撑。由于图 像数据的信息含量丰富、 结构关系复杂,如何利用数据库来描述图像数据, 并提供有效的查询 手段, 是图 像数据管理面临的新问 题。 图像检索的研究基本上经历了基于关键词注释的图像检索和基于 内容的图像检索两个发展阶段。 1 .基于关键词注释的图像检索 这是一种传统的 数据库检索方法, 用关键词( k e y w o r d ) 或描述性文 本 ( 表示图像的客观属性,如图像的作者、标题、创作时间等) 来表 示一幅图像, 然后实现基于关键字的索引。 采用这一技术,图 像检索 通过匹配查询时给出 的 文本信息和图 像数据库中 存储的 描述关键字来 实现,它要求用户对文本特征的描述具有一定的准确性和规范性. 这种检索方法的主要问题: a 、 手工添加注释, 对于人的工作量要 求非常大; b 、 对图像的文本描述具有很强的主观性, 人对同一幅图 像 的理解各有不同: c 、 对于图像的诸如纹理、 形状等可视属性很难描述; d 、 难以 实现图像外观的 相似性检索。 2 , 基于内容的图 像检索 图 像的视觉特征难以用关键字来描述, 使得这种方法往往不能满 足人们的需要, 于是出 现了结合图 像可视特征的 基于内 容的 检索方法。 基于内容的检索不需要用户的参与, 而利用图像自 身的特征, 如颜色、 纹理、形状等特征来进行检索,具有较强的客观性。通常,可以抽取 图像库中所有文件的特征, 用户检索的过程一般是提供一个样例图像, 系统抽取该样例图像的 特征,然后同数据库中所有的图像特征进行比 较,并将与样例特征相似的图像返回给用户。 北京交通大学硕士论文 2 . 2基于内容的圈像检索及其特点 基于内 容的图像检索( c o n t e n t b a s e d i m a g e r e t ri e v a l , 简称c b i r ) , 是指直接根据描述图像内容的各种特征进行检索,它能从数据库中查 找出具有给定特征或含有特定内容的图像,它区别于传统的基于关键 字的检索手段,融合了图像理解、模式识别等技术,具有如下特点: 1 、 直接从图 像内 容中 提取信息线索。 基于内 容的图像检索, 突破 了传统的基于表达的检索局限,直接对图像进行分析和抽取特征,利 用这些描述图像内容的特征来建立索引。 2 、 基于内容的图像检索实质上是一种近似匹配的技术。 在数据库 中,需使用模式识别的方法对图像库中图 像按不同索引特征分类。在 检索的过程中,它采用某种相似性度量对图像库中的图像进行匹配, 以 获得查询结果。 这一点与常规数据检索的精确匹配方法有明显不同。 3 、 特 征 提 取 和 索引 建 立 可 由 计 算 机自 动 实 现, 避 免了 人 工 描 述的 主观性,也大大减少了工作量。 基于内 容图 像检索的研究可分为两个阶段( 1 , 从 i 、以计算为中心的研究阶段: 在这个阶段,人们主要专注于如何有效地描述图像的内容,让计 算机自 动提取图像的低级可视特征,如颜色、纹理、形状以及空间关 系等,以此来描述图像,建立图像库的索引,通过相应的相似度来进 行比 较查找, 检索图像。 这种方法存在的主要问题: a 、 这些低级可视特征与人的高级语义 理解存在一定差距; b 、 查询接口复杂, 对用户的要求比较高, 常常需 要用户进行特征选择, 并给出各特征间的权重; c 、 对于欲检索图像的 正确描述, 很难一次给出; d 、 未发挥人的主观能动性, 让人参与到检 索过程中。 2 、以 人为中心的研究阶段: 这个阶段引入了一种人机交互的方法,即类似传统信息检索的相 关反馈技术,让人参与到图像的检索过程中。 人的需求是一种高级语义,与我们提取的图像低级可视特征存在 北京交通大学硕士论文 很大差别,因此我们需要将人的主观感觉考虑到图像的检索过程中, 每次返回给用户最相关的部分图像,并让用户给出主观评价,通过这 种反馈, 我们可以有效地调整查询策略, 以 尽可能地接近用户的需求。 2 3 图像的反该检索及其特点 相关反 馈是指 通过人机交互来细化查 询, 希望细 化后的 查询结果 能够与用户的查询意图更加吻合。相关反馈的立足点是强调以用户为 中 心 而不 是以 计 算 机为中 心 1 , 2 1 。 在 假设 高 层 语 义 概念 可以 被 低层 视 觉 特征捕获的前提下,相关反馈技术试图通过用户的反馈信息在高层语 义概念和低层视觉特征之间建立联系。相关反馈技术的研究主要是为 了弥补目前图像检索系统中底层视觉特征表示和图像高层语义之间所 存在的鸿沟。 反馈检索的主要特点和优点是由用户来引导搜索,因而反馈的结 果会朝着有利于用户要求的方向 发展。其前提是认为数据库中有足够 的正确范例可以 保证每次反馈能更进一步,或反馈过程的重复进行可 以 期望最后收敛到满意的结果, 但目 前还缺少保证最终收敛的条件。 图像反馈检索的研究途径可以 分为基于信息检索理论、基于机器 学习以及基于统计理论三条线。 1 、基于信息检索理论的方法 u i u c的 y .r u i 在图像检索的相关反馈技术研究方面作了比 较深 入的 探 讨d , 2 , 3 1 o r u i 的 方 法是 从 信 息 检索 领 域的 相关反 馈 方 法中 衍 生 出来的。 他首先提出了一个由 对象、 特征和特征表示的三个层次组成 的图像对象模型,并在此模型基础上建立了一个交互式的相关反馈框 架。 基于模型的检索过程有三部分与相关反馈技术有关: 1 ) 每种特征 表示的 距离计算方法; 2 ) 各种特征表示的 组合: 3 ) 各种特征的组合。 每部分都具有可以 进行动态调整的权重系数, 相关反馈就是根据用户 的反馈信息对这些权重系数进行恰当的调整。 r u i 分别从启发式方法 和优化两方面导出对这些权重系数进行调整的策略。依据r u i 的实验 结果,其相关反馈的效果还是相当不错的。 y i s h i k a w a等4 1 在其 mi n d r e a d e r 中推导出类似的权重调整策略。 北京交通大学硕士论文 2 、基于机器学习的方法 m i t的t .p . m i n k a 和r .wp i c a r d 则通过a i 中的机器学习方法来 实现与相关反馈类似的 过程13 1 。 他们实 现了 一个人工辅 助的图像分类 和标注系统 一 一f o u r e y e s . m i n k a 指出目 前 缺乏的不 是各种各样的 特 征表示, 而是如何最佳地利用这些特征表示的策略。 f o u r e y e s 首先利 用多特征对所有的图像进行聚类,得到了一个初始分组,每个分组有 一组记录其分类合理性的权重系数。 所有分组的权重系数组合在一起 得到一组权重系数向量,它们分布在权重空间中。然后,收集用户对 各分组的反馈信息 ( 正/ 反例图 像) 。 根据反馈信息, f o u r e y e s 利用 改 进的a q 16 1机 器 学 习 算 法 对 分 组 进 行 更 新, 并同 时 更 新 权 重 空间 的 权 重系数向量。 通过用户不断的反馈,最后得到经过合理分类的分组。 3 、基于统计理论的方法 相关反馈的第三条技术路线就是基于概率和统计理论的方法。 c o x 17 1 在p i c h u n t e r 系统中 提出了 一个 用于相关反馈的 贝叶 斯框架, 并 以此来制导搜索过程。与前面所叙述的对于查询进行细化的相关反馈 方法不同的是: p i c h u n t e r 分析用户的行为和检索需求, 通过计算可能 的目 标图 像的 概率分布, 并利用贝叶斯的 推理预测真正的相关图像。 p e n g 18 1 的 方 法 依旧 属 于 细 化 查 询, 但是 他 是 利 用 概 率 相 关 学习 的 方 法 来调整相似性测度中的权重系数。 2 . 4墓于内容圈像检索的核心问砚 基于内 容的图像检索研究的关键技术主要围绕以下两个核心问题 而展开: 1 、 以什么样的方式来表示图 像内 容, 即图 像内 容的 表示问题。 图 像内 容的表示通过图 像特征的提取来完成。图像特征的提取规则与图 像分析是密不可分的,它研究如何通过各种图像分析方法将数字图像 ( 像素阵列) 转换成若干可表示的数据或特征;然后,可以利用这些 特征来刻画图像的内容。考虑到图像数目的急剧增长,图像特征的提 取最好是自 动完成,也可以在少量人工协助的情况下通过半自 动的方 式完成。 北京交通大学硕士论文 2 、 以什么样的方式来表示图像间的相似性问题以及如何快速有效 地计算这种相似性, 即图像特征的匹配问题。 图像经过特征提取之后, 就可以 抛开图 像本身, 而以所获得的特征作为图像内 容的表示。 因此, 研究图 像间的 相似性事实上是在研究特征间的相似性.图 像特征的匹 配问题就是研究如何获得计算特征间的相似性的有效方式。通常,特 征间的相似性是通过距离来刻画的,其计算策略也可能随外界的反馈 信息而进行动态地调整。由于特征匹配计算往往需要快速的联机分析 反 应能力,因此,其计算效率也是一个重要的 研究内 容。 基 于 内 容 的 图 像 检 索 是 一 个 综 合 性 的 研 究 学 科 , 它 从 图 像 处 理 、 计算机视觉、模式识别和数据库等研究领域借鉴了 很多 方法。它强调 的是如何从大规模的图 像库中快速检索到符合特定需求的相似图像。 本文的研究工作也将主要围绕上迷两个核心问题展开。 2 . 5检索效果评价 对于各种检索算法所得到的 检索结果1, 需要有一个合理的评价策 略来决定检索结果的优劣。很不幸,至今在图 像检索研究领域还没有 形成一个公认的测试图像数据库。这一方面是由于图像本身所蕴含的 内容的多样性,一幅图像所传递的信息往往不会是单一的;另一方面 是由 于对图 像相似性判断的 主观性,不同的人存在不同角度的理解, 而 且很可能 都 是合理。 这两个原因 给创 建一 个公 认的 而且是分 类合理 的 测试数据库带来了困难。 标准的测试数据库的缺乏给图像检索研究 的 横向比 较带来了困难。但是,从另外一个方面来说,这又说明了基 于内容的图像研究还是一个开放的研究课题。 检索效果的评价策略可以分成评价手段和评价指标两部分。评价 手段指的是采用何种方式来实施评价过程; 评价指标则指的是对评价 过程中所收集到的数据经过分析后得到一系列用来衡量检索效果的数 值指标。 评价手段一般可以分为主观评价和客观评价两种方式。主观评价 需要人的参与,即通过人对检索结果的视觉检查,主观判定结果中哪 些图 像与查询目 标是一致的,哪些又是不一致的:更精确她. 还可以 北京交通大学硕士论文 标出一致和不一致的 程度。当然, 这样会大大增加评价人的负担,并 因此影响评价过程, 一般并不实用。一般来说,人的视觉最有权力判 断图像间的相似性;但是,又无法忽略人在判断过程中的主观随意性 对评价结果的影响。这种影响可以 通过让更多人参与评价并取多数意 见得到部分解决。 客观评价则完全由 程序自 动完成, 这需要借助一个 事先经过分类的图 像数据库。 分类存在一个合理性的问题, 但是为了 客观还是规定只有属于同一类的图 像才是相似的。理想情况下,测试 用的图像数据库中的分类还可以是“ 软分类” , 就是一幅图 像可以同时 分属多类, 而且可以具有不同的隶属度。 但要得到这样一个合理的“ 软 分类”的数据库是非常困难的。 相比较而言,达到一定规模的多人参与主观评价方法可以得到最 好的评价效果。但是,这非常费时费力,特别是评价实验需要反复进 行时,其可操作性太差。 而且,主观评价存在一个致命的弱点是不可 重复性, 因为人前后两次的评价标准会随心里状态的变化而发生改变。 客观评价则不存在这一问题,可操作性也强。因此,客观评价手段应 用的更为普遍,也更有说服力。 评价指标目前使用比较多的是查全率 ( r e c a l l )和查准率 ( p r e c i s io n ) 。 查全率的主要含义是在一次查询过程中, 用户所查到的 相关图 像的数目 和数据库中 与目 标图像相关的 所有图 像数目 之比,即 查全率=返回的相关图片数/ 总相关图片数x 1 0 0 ; 查准率主要指在 一次查询过程中所查到的相关图像数目同该次查到的所有图像数目 之 比, 即查准率= 返回的相关图 片数/ 返回的总图片数x 1 0 0 %。 用户在 评价算法的时候, 可以 预先选定含有特有目 标的图像作为一组相关的 图 像,然后根据返回的结果计算查全率和查准率。 查全率和查准率越 高,说明该检索算法的效果越好。 另外一种评价参数是排序值 ( r a n k ) ,其值等于 ( e反馈图片排 序数/ 正反馈图片排序数)/ 正反馈总数,该值在一定程度上反映了 返回的相关图片排在前面的紧密程度,如果全部排在前列,该值应该 为 1 a 北京交通大学硕士论文 2 . 6本文的主要研究工作 本文主要研究了 基于内容的图像检索的技术,侧重于图像内容的 描述与特征的提取及反馈检索技术, 并搭建了一个图像检索实验平台, 融入了 各种特征提取算法及反馈检索机制,提供了 对图像的多种手段 查询。 对于图像内容的描述与特征提取,本文从颜色和纹理两方面对其 进行了归纳和总结。对于颜色,介绍了几种符合人类视觉感知的颜色 空间,给出了 几种常用的且较好的颜色特征提取方法及其优缺点:对 于纹理,详细讨论了三种纹理特征。 对于图像的反馈检索,本文在反馈检索过程中引入了 支持向量机 学习方法,并对支持向 量机在图 像检索中的 应用作了 较全面的 研究。 比较了使用支持向量机的反馈检索和传统的反馈检索方法的检索性 能,并采用三种核函数进行了对比实验, 研究了特征选择对向量机性 能的影响,对单分类和二分类向量机作了一下比较。 本文设计并实现了一套基于内容的图像检索实验系统,主要是作 为 各种检索算法的 测试平台, 是一个实验性的框架系统。 系统的开发 平台为 w i n d o w s x p ,开发工具为 v c + + 6 .0 , 数据库采用的是 m s ac c e s s . 北京交通大学硕士论文 第三章 图像可视内容的描述 图像内容的描述是基于内容图像检索的基础.本章首先给出图像 内容的描述模型,然后介绍图像的颜色、纹理特征的提取方法, 最后 讨论了特征的归一化问题。 3 . 1圈像内容的描述模型 图像的表示是基于内容图像检索的基石,因此我们首先需要明 确 该如何描述一幅图像, 本文将采用了 类似于 2 7 中的多媒体对象模型来 表示图像对象。 对一幅图像i ,可以用如下表达式来描述: i = 其中: d表示图 像i 的原始数据; c = c i , i = 1 ,2 , . . . ,n c ? , 表示描 述图 像所采用的 特征类别, 如颜色,纹理等; v = 钩, i = 1 , 2 , . . ,n c , j = 1 , 2 , . . . ,n ; , 表示各 类中 用到的 具体特征, 如颜色 直方图、 灰 度共生 矩阵 等, 每 一 个钩都 是由 多 个分 量 v y l , v y 2 , . . . , v ;ia 组 成的 一 维向 量。 3 . 2顺色特征的描述 颜色是物体表面的一种视觉特性,每种物体都有其特有的颜色特 征。颜色是图像内容组成的基本要素,是人识别图像的主要感知特征 之一。 相对于其他特征, 颜色特征非常稳定, 对于旋转、 平移、尺度变 化,甚至各种形变都不敏感,表现出相当强的鲁棒性,而且颜色特征 计算简单,因 此成为现有检索系统中应用最广泛的 特征。目 前几乎所 有的 基于内容检索的图 像数据库系统都把颜色检索方法作为检索的一 个重要手段,并提出了许多改进方法。 3 . 2 . 1 倾色的表示与颇色空间 颜色的特征表达依赖于所用的颜色模型,并不是所有的颜色空间 都与人的感觉相一致。人类对颜色的感觉与许多物理现象。神i*心里 北京交通大学硕士论文 学效果和生理行为都有关, 且关系比 较复杂。 在图像检索中,研究较 多的颜色模型有: r g b模型、 h s v模型、 y c b c r 模型和h n e v i d模型, 在国际标准iv i p e g - 7 中给出了部分模型相对于r g b的线性变换矩阵. r g b是一种面向 硬设备的最常用模型, 也是计算机和图像处理领 域最常用的颜色空间。我们的眼睛通过三种可见光对视网膜的椎状细 胞的 刺激来感受颜色。 这些光 在波长为6 3 0 n m ( 红 ) . 5 3 0 n m ( 绿) 和4 5 0 ( 蓝) 时的 刺激达到高峰。 通过对各刺激强度的比 较, 我们感受到光的 颜色。 这种视觉理论就是使用红、绿、蓝三种基色来显示彩色的基础,称之 为 r g b颜色模型。这种空间颜色的欧氏距离与颜色感知距离不成线 性关系,即用欧氏距离不能准确地反映颜色的视觉距离。 h s v是面向彩色图像处理的最常用模型, 其中、 s l u e ( v) 表示颜 色的 亮度,, s a t u r a t i o n ( s ) 表示色度, h u e ( h ) 表示颜色的主色调, 用。 _ 到3 6 0 度的角度表示。 人们区分颜色就常用3 个基本特性量:亮度、 色调和饱和度。亮度与物体的反射率成正比,如果没有彩色就只有亮 度1 个维度的变化。 对于彩色来说,颜色中参入白 色越多就越明亮, 参入黑色越多亮度就越小。色调与混合光谱中主要光波长相联系。饱 和度与一定色调的纯度有关,纯光谱色是完全饱和的,随着白光的加 入,饱和度逐渐减小。色调和饱和度合起来成为色度。所以颜色可以 用亮度和色度共同表示. h s v模型有两个重要的特点:首先亮度分量与色度分量是分开 的, v分量与图像的彩色信息无关。 其次, h及s 分量与人感受彩色 的方式紧密相连。 这些特点使得h s v模型非常适合基于人的视觉系统 对彩色感知特性进行处理分析的图像算法。 这些值可以 通过归一化的r g b值 ( 值域在0 到 1 之间)计算得 到,计算方法如下19 1 , ma x = m a x( r , g , b) ; m i n 二 m i n( r , g , b ) ; v a l u e = ma x( r , g , b) ; i f ( m a x = = 0 ) t h e n s a t ur a t i o n = 0 ; els e 北京交通大学硕士论文 s a t u r a t i o n = ( m a x - m i n) / m a x ; i f ( m a x二 m i n )h u e - 0 ;/ *a c h r o m a t i c* / o t h e r wi s e: i f( m a x = . r , ( x 一 x , 一 , 1) d x ld y , 这里的 波器的大小 * 代表复共扼,x 1 , x 2 的取值范围在0 到6 0 之间, 。假定局部纹理区域在空间上是均一的,那么均值 代表滤 p m和 标准差6 二就可以被用作这片区域的纹理特征. fu_ = j 1l w (x y ) i d x d y ,5 . = , 1 1 1 ( 1 ( x , y ) i - ,u _ ) z d x d y 具体的 特征向 量构造如下,这里选择m = 4 , n = 6 .f - l ,u 0 0 , s 0 0 , u 0 1 , 凡1 , , 1 3 5 , 6 3 5 1 基于g a b o r 变换分析方法的优势在于,g a b o r 变换通过加窗实现 了对局部空间进行f o u r i e r 分析, 它能够在整体上提供信号的全部信息 而又能提供在任一局部空间内信号变化激烈程度的信息,因此它的结 果最符合人的视觉特征,能取得令人满意的结果。 北京交通大学硕士论文 3 . 4 特征归一化 由于不同特征的物理意义不同,取值范围也常大相径庭;即使对 同一特征的不同分量之间,如灰度共生矩阵的各个分量之间,其取值 范围差别也很大。这可能导致一个特征或一个分量由于其取值过小, 在计算过程中近乎不起作用;或者过大,使其作用过于明显。为消除 这种影响, 我们需要对每一个特征分量进行归一化处理。下面介绍几 种可用于特征值归一化的方法: i 、线性缩放到单位区间 给定一个特征取值下限1 和一个特征取值上限u,对特征 x可以 用下式归一化到 0 , 1 中: x = 这种方法比 较简单, 但仅当特征值x 在区间 1 , u 中分布比 较均 匀时才适用。 2 、 变换为 在 0 , 1 上 均匀分布的随 机变量 做出随机变量x 的累积分布函 数h ( x ) ,由 变换x = h ( x ) 得到的 变 量是在 0 , 1 上均匀分布的随机变量。 3 、排序归一化 设对所有图像的特征采样值为x 1 , x 2 . . . . . . ., x 7q , 首先找出次序统计 x (1 ), x (2 ), . . , x (n ) , 再 将 每个图 像 特 征值 用 对 应的 归 一 化 排 序来 表示, 即: 门lesesesesj 门.1 一 、2 .份 x 了.、 x i = 天 瓦 r a n k x x . . . , x 这种方法可以 将所有特征值都均匀地映 射到 0 , 1 中。 4 . g a u s s 归一化 设图片库的总图像数为m,每一幅图片的特征向量总维数为n , v,n , 表示所有特征向 量元素集合, 对v 中的每一个元素v w按如下 公式处理: 北京交通大学硕士论文 v m , n=( 1 + 其中:p 。 , 。 v ,n n - 李) / 2 份r n 分别表示第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年制造业数据治理策略与产业数字化转型战略规划策略报告
- 2025年电缆租赁合同范本
- 2025年上海中考网试卷及答案
- 2025年东莞市合同范本
- 智能电网在2025年能源行业中的应用与能源效率提升报告
- 2025官方授权的企业代理合同模板
- 咖啡师基本考试题
- 美容护肤知识面试题及答案
- 2025年家电维修工家电维修节能环保考试试卷(附答案)
- 上半年四川真题及答案
- B级英语词汇表修改版
- 梅毒艾滋乙肝三病
- 割灌机安全操作规程培训
- 2024年山西省成考(专升本)大学政治考试真题含解析
- 最高法院第一巡回法庭关于行政审判法律适用若干问题的会议纪要
- 《病历书写基本规范》课件
- 足球场的运营可行性方案
- 重庆市面向西南大学定向选调2024届大学毕业生2024年国家公务员考试考试大纲历年真题3453笔试难、易错历年高频考点荟萃附带答案解析(附后)
- GB/T 2881-2023工业硅
- 小学生电力科普小讲座(课件)-小学常识科普主题班会
- 有限合伙份额质押合同完整版(包含质押登记公证手续)
评论
0/150
提交评论