免费预览已结束,剩余54页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章第一章 绪绪 论论 1 1 1 研究背景 1 1 2 现有主要 CBIR 系统介绍 2 1 3 CBIR 的分类 4 1 4 本文的组织结构 5 第二章第二章 基于内容的图象检索关键技术基于内容的图象检索关键技术 6 2 1 图象数据建模型 6 2 2 预处理技术 6 2 3 特征提取 8 2 4 特征匹配 9 2 5 用户反馈 10 2 6 TBIR 兼容性 11 第三章第三章 基于颜色的图象检索算法的分析与研究基于颜色的图象检索算法的分析与研究 12 3 1 HSV 颜色模型 12 3 2 基于直方图的图像检索技术分析 15 3 4 提取颜色分布主特征 19 3 5 圆环形几何分割 20 第四章第四章 基于纹理的图象检索算法的分析与研究基于纹理的图象检索算法的分析与研究 23 4 1 纹理特征描述的分类 23 4 2 灰度共生矩阵算法 25 4 3 小波纹理签名算法研究 27 4 3 1 小波变换 27 4 3 2 Mallat 算法 28 4 3 3 小波纹理特征提取 33 第五章第五章 基于形状的图象检索算法的分析与研究基于形状的图象检索算法的分析与研究 35 5 1 基于形状的图象检索的概况 35 5 2 基于小波变换的图象边缘检测 37 5 3 边界的特征提取及相似度匹配 40 第六章第六章 智能智能 CBIRCBIR 系统设计与分析系统设计与分析 42 6 1 CBIR 系统设计 42 6 2 CBIR 系统实现 44 6 3 系统试验结果及分析 48 6 4 基于内容图象检索系统的评价标准 51 第七章第七章 结结 束束 语语 54 7 1 本文结论 54 7 2 进一步的研究方向 54 参考文献参考文献 56 1 第一章第一章 绪绪 论论 1 1 1 1 研究背景研究背景 随着Internet的应用和普及 人们越来越多地接触到大量的多媒体信息 这 些多媒体信息资源以文字 图象 声音和视频等各种形式存在 数量巨大 种类 丰富 并以爆炸的速度增长 同时 网络用户也在不断增长 信息量的发展使得 人们对多媒体信息检索工具和系统的依赖日益加强 图象检索就是多媒体信息检 索的一个重要分支 如果能开发出一种先进的检索技术 根据图象的内容特征进 行有效的组织 给用户提供直观的操作接口 无疑会极大的节省人们的图象查找 时间 使得可以快速的定位到自己真正需要的图象 这种迫切的需求推动着研究 者们全力以赴的投身于图象检索技术的研究当中 图象检索自 70 年代始便成为一个非常活跃的研究领域 其推动力来源于两 大研究团体 数据库系统和计算机视觉 它们分别从基于文本关键词以及基于内 容这两个不同的角度 对图象检索作了研究进而诞生了基于文本关键词的图象检 索 TBIR Textual Based Image Retrieval TBIR 和基于内容的图象检索 Content Based Image Retrieval CBIR 这两大类别 基于文本关键词的图象检索 其研究主要在数据库领域中进行 首先对图象 用文本进行索引 再采用基于文本的数据库管理系统 DBMS 来进行图象检索 诸如数据模型 多维度索引 查询评价等的研究进展均是沿着这一领域所作的 但随着数据量的迅速增大 基于文本的图象检索存在的下列弊端限制了它的发展 1 由于图像内容的丰富性 使得对于同样的图像不同的人有不同的理解 图像注解的主观性和不精确性可能导致检索过程的失配 也就是说 不同的标注 者对同一幅 或类似的 图象的不同理解 兴趣或侧重点 造成了图象特征标注 间的差异 而这种差异大到一定程度就会对检索结果产生很大的负面影响 而且 即使同一个标注者由于特征标注时的外界和内在条件的影响 往往也会产生不同 的结果 总之 标注者的主观性往往带来这样的后果 不同的或同一个标注者用 不同的术语描述同一个特征 或者用同一个术语描述不同的特征 这就是基于文 本检索的同义性和多义性 2 由于给图象添加关键词或注释是一个繁琐且费时的过程 因此很多图象 缺少注释的信息 3 纹理或形状等图象特征几乎不可能用文本来描述 90 年代早朝 由于大规模图象数据库的出现 由手工进行图象标注这一方 2 法所带来的困难变得十分尖锐 为了克服这一困难 研究者们提出了基于内容的 图象检索 即根据图象所包含的颜色 纹理 形状以及它们的组和特征等特征信 息建立索引并且通过图象特征向量间的近似度量来进行相似性检索 不像 TBIR 语义级比较 是对描述图象的文本进行比较 CBIR 是直接比较图象内容所 承载的特征 低级特征比较 即它是直接根据图象媒体对象的内容进行的各种 特征检索 它能从数据库中直接找到具有指定特征或含有特定内容的图象 基于 内容的图象检索由于综合应用了应用数学 图象工程 数据库 人工智能及计算 机视觉等相关学科的技术成果 从图象内容本身对其进行比较 可以实现高效的 自动化的图象特征抽取 检索过程中在用户的协助下 可以提供更加符合用户视 觉感知习惯的图象检索手段 图象检索的应用非常广泛 以下是一些典型的应用 搜索引擎 各种网站的搜索引擎 随着各种电子商务网站的发展 图象 检索系统将成为这些网站的重要工具 医学 CT X 射线检索系统 数据库中相关的 CT X 射线照片 可以为医 生提供重要的参考 家庭用图象检索 数码科技使得普通家庭也会产生成千上万的图象 家 庭图象检索系统将使家庭 PC 的一个基本工具 商标检索系统 可在收录了已注册商标库中查找是否有欲注册商标类似 的 防止商标的雷同 邮票检索系统 用于邮票资料的查询 公安 根据嫌疑犯面部特征在照片库中进行查找类似人员 目前国内外许多科研机构都对 CBIR 进行了建设性的研究 并且开发了相应的 图象检索系统 有的正在将其推广到 Internet 领域 在对国内外 CBIR 发展充分 调研的基础上本文提出了一些有效算法并且作了试验演示系统 其效果良好 1 1 2 2 现有主要现有主要 CBIRCBIR 系统介绍系统介绍 IIII QBICQBIC QueryQuery ByBy ImageImage ContentContent QBIC 系统是由 IBM Almaden 研究中心研究开发的 是基于内容检索系统 的典型代表 QBIC 系统允许使用例子图象 用户构建的草图和图画 选择的颜 色和纹理模式 镜头和目标运动和其他图形信息等 对大型图象和视频数据库进 行查询 它的系统框架和技术对后来的图象检索系统具有深远的影响 它所用的 颜色特征是 RGB YIQ Lab 和 MTM Mathematical Transform to Munsell 坐标系 及 k 元颜色直方图 其纹理特征是 Tamura 纹理表示的一种改进形式 如粗糙度 对比度和方向性的组合 它的形状特征包括形状面积 曲线 主轴方向和一组矩 3 不变量 QBIC 系统还是少数几个考虑了高维特征索引的系统 查询结果可以按 照相关的序列指导子序列继续查询 这种方法能够使用户更加快速和简捷地对可 视化信息进行筛选与确定 QBIC 的演示程序在 IIII WISEWISE andand WBIISWBIIS demodemo by by StanfordStanford Uni Uni 该站点使用了 WBIIS 基于小波的图象索引和查找 一种图象索引检索算法 它有在大型图象库中进行部分略图查找的能力 该算法通过提供语义含义图象比 较在图象空间上刻画出色彩不变性 索引算法在每一个三元色上应用一个 Daubechies 小波变换 在最低频带的小波系数及它们的变量作为特征向量存储 为加速检索 整个过程分 2 步 第一步进行基于变量的粗糙选择 然后通过在被 选图象与待查询图象间的特征向量匹配 进一步改进查找 二级的分辨率匹配可 以在查找中取得更好的准确度 在这里 屏蔽技术用来作部分略图查询 这种技 术在铺获图象相关性 对象间距 局部色彩 纹理及避免偏离这几个方面比传统 的色彩布局算法要好 WBIIS 比传统算法更快更准确 在一个超过一万幅通用图 象数据库上的测试表明 在 3 3 秒内可得出一百个最佳匹配 3 3 PhotobookPhotobook Photobook 是 MIT 媒体实验室开发的一套浏览 检索图象的交互方式工具 它包含三个子系统 分别提取形状 纹理和人脸特征 用户可以分别做基于上述 特征中的一种检索 由于目前还没有一种特征可以很好地对图象建模 在 Photobook 的最新版本 FourEyes 中 Picard 等提出将人也包括在图象的标注和 检索过程中 实验结果显示这种方法对图象的自动标注很有效 4 4 MARSMARS 系统系统 MARS Multimedia Analysis and Retrieval System 系统为美国 UIUC University of Illinois at Urbana Champaign 大学所开发 其不同之处 在于用到了多领域的知识 计算机视觉 数据库管理系统和信息检索 MARS 系统 的注重点不在于寻找单个的最佳特征表示 而在于如何将不同的视觉特征组织成 有意义的检索体系 以动态适应不同的用户及应用场合 MARS 系统是正式提出相 关反馈的系统 它将相关反馈技术继承到检索的不同层次过程中 5 CORE 系统系统 CORE 系统是新加坡国立大学开发的一个基于内容的检索机 其显著技术特色包括 多 种特征提取方法 多种基于内容检索方法 使用自组织神经网络对复杂特征度量 建立基于 4 内容索引的新方法以及对多媒体信息进行模糊检索的新技术 另外还有许多类似的系统 例如加利福尼亚大学 Santa Barbara 分校的 Netra 美国哥伦 比亚大学的 VisualSEEK 系统 CMU 的 Infomedia 以及哥伦比亚大学的 VideoQ 等 1 1 3 3 CBIRCBIR 的分类的分类 随着数字图象处理及数字图象检索技术的发展 出现了一个新的问题 图象 库的用户喜欢做怎样的查询 要回答这个问题 就必须知道用户想要从图象库中 获取什么样的具体信息 这样导致了按照逐渐增加的复杂性 将图象检索分为以 下三个层次 18 1 第一层 按照图象的原始特征或低层特征进行图象检索 这层的特征包 括颜色 纹理 形状或图象元素的空间位置等 这些特征均是客观的 可以直接 从图象本身进行自动提取的 不需要额外的存储知识 这层的例子如查找与给定 图象相似的图象或查找含有某一形状物体的图像等 2 第二层 按照图象的衍生特征或逻辑特征进行图象检索 这层的特征包 括图象中被描述物体的一定程度的逻辑推论说明 它可进一步划分为以下两层 特定类型的物体的检索 如查找含有双层公共汽车的图片 具体物体或人的检索 如查找含有天安门的图片 这一层的检索通常需要涉及到一些额外存储的一些知识 3 第三层 按照图象的抽象的特征或属性进行检索 这层的特征包括对图 象中的被描述的物体或场景的意义或目的的一定程度的高层次的推理 它同样也 可划分为以下两层 按照已命名的事件或活动的类型进行检索 如查找含有苏格兰民间舞蹈 的图片 按照图片的感情或宗教意义进行检索 如查找含有描述贫穷的图片 这一层的检索涉及到复杂的推理或主观的判断 它要求在图象的内容与所要 说明的抽象概念之间建立一定的对应关系 这种图象检索类型的分类的定义 在评估不同的图象检索技术时是非常有用 的 第二层和第三层通常被合起来称为语义图象检索 并且第一层和第二层的差 距被称为语义差距 它是当前图象检索技术中较有意义的差距 由于存在图象底 层特征和其本身所包含的上层语义信息的巨大差距 目前还不能利用已有的计算 机视觉和人工智能的技术获得二者之间的满意的映射关系 因此目前国内外绝大 部分的基于内容的图象检索系统还是处在第一层 即基于颜色 纹理 形状等底 层特征的图象检索 本文分别对基于颜色 纹理 形状的图象检索算法进行研究 与分析 5 1 1 4 4 本文的组织结构本文的组织结构 本文第一章为绪论 介绍了基于内容的图像检索的研究背景 最新的发展状 况及对 CBIR 的一种分类方法 第二章为基于内容的图象检索关键技术 它着重 研究并分析了进行基于内容的图像检索必须进行的一些处理过程 如图像的数据 建模 图像的预处理技术 图像的特征提取组技术 图像的特征匹配过程及用户 参与的反馈过程 目前 国内外进行基于内容的图像检索 大部分主要依据的是 图像的底层特征 即颜色 纹理 形状特征 本文第三 四 五章分别对基于这 三种特征进行算法的分析与研究 其中 第三章是对基于颜色特征的图像检索算 法的分析与研究 它阐述了基于人眼视觉特性的一种颜色模型 HSV 颜色模型 分析并研究了应用最为广泛的基于直方图的图像检索技术 提出了一种基于颜色 主特征的圆环形几何分割分割方法 第四章是对基于纹理特征的图像检索算法的 分析与研究 它介绍基于纹理特征进行图像检索的一种分类方法 在该章研究并 分析应用较为广泛的灰度共生矩阵算法 提出了一种基于小波的纹理签名算法 第五章是对基于颜色特征的图像检索算法的分析与研究 它是三种特征中最为复 杂的一种 它介绍了该类算法的大致发展状况 提出了利用小波变换的多尺度 多分辨性进行边缘检测一种基于形状的算法 第六章为一个智能 CBIR 系统的设 计 分析与试验说明 它利用第五章提出的算法并融合了用户反馈技术 试验结 果证明该系统检索效果较良好 第七章为结束语 阐述了基于内容的图像检索系 统的发展趋势及应注意和着重研究的问题 6 第二章第二章 基于内容的图象检索关键技术基于内容的图象检索关键技术 一般而言 基于内容的图象检索系统涉及到如下几个关键技术 图像的预处理 图像视觉特征的提取及利用 有效的特征的表示及识别 空间区域特征的自动提取 高效的特征索引技术 该章将着重讨论下面几个方面的问题 图象数据建模 图象预处理 视觉特 征的提取及表示 特征匹配 用户反馈 TBIR 的兼容性等 2 2 1 1 图象数据建模型图象数据建模型 结合 CBIR 系统本身的特点 对图象建模时考虑到图象数据的特征表达 特 征匹配 特征综合和系统可扩展性等诸多因素 在参考 17 的多媒体对象模型的 基础上建立图象数据模型如下 2 1 VMRFDII MM 其中的各个符号所代表的涵义如下 D 代表图象数据 比如 JPEG 图象和 BMP 图象 是与图象数据相关联的特征集合 比如颜色 纹理和形状 i fF 是给定特征的表示的集合 j rR i f 是近似性度量的集合 比如余弦 Cosine 欧几里德 Euclidean k mM 直方图相交 Histogram intersection 等 给定一个特征 由 特征 i f kj mr 表达 特征匹配 共同决定这一特征的观察方法 是相应的特征向量 对于每一个存在一个来存储该表示的实际值 也 j vV j r j v j r 就是说是相应的一个实例 j v j r 当该数据模型应用于基于内容的图象检索中时 可以有多个特征参与检索 一个特征可以有多种表达方法 每一种表达方法可以采取不同的距离度量 2 2 2 2 预处理技术预处理技术 为了使图象获取 图象处理 图象传播过程中产生的可控和不可控信号失真 7 最小 以便后续的特征提取和检索过程更快速更准确 CBIR 研究者们在设计 CBIR 系统时常常通过采用已经成熟的图象预处理技术来构建系统的前端预处理模 块来达到这种目的 其中经常用到的预处理技术主要有 1 图象尺度归一化 将图象大小缩放到统一尺寸 进而减少特征计算复杂 度和降低系统的存储空间需求 2 去除噪声 CBIR 系统要求特征提取过程尽量实现全自动化 减少人工干扰 但是同时 这一过程也就变成了 盲过程 掺杂在图象中的随机噪声和有用信号一起作为 特征提取模块的输入 人们眼睁睁的看着受了污染的图象进入我们的图象特征库 而 无能为力 这种糟糕的情况凸现了去除噪声预处理模块的重要性 它就像 一个 图象净化器 帮助图象消除自己无法处理的噪声干扰 为了消除噪声 可以采用极大极小中值滤波或小波变换进行图象增强处理 3 消除或减弱亮度的影响 从前面引入的图象模型可以看出 同一个自然物在不同的背景光照条件下表 现出来并且经过数字化处理后得出的图象它们的图象函数是不相同的 背景光照 条件的改变表现在直方图上就是明显的平移和缩放 这对基于直方图的图象检索 系统肯定会产生很大的负面影响 呈现在用户面前就是查全率降低 为了消除亮 度对检索准确性的影响 一般可以采用直方图均衡化或颜色常量技术 图象格式预处理可以采用两种方法 用图象处理类软件和用控件实现 前者 需要手工操作 后者可以通过编程自动实现 实验发现不同的图象处理类软件由 于采用的算法并不相同 所以处理的结果虽然视觉上看不出差别 但是在特征匹 配时的出入非常大有时甚至会造成失配的现象出现 建议固定一种格式转换算法 不一致的图象尺寸 格式和质量对进行准确快速的图象检索过程有很大的负 面影响 为了克服这些弊端 可以将图象格式统一转换为具有固定尺寸 如 128 128 总像素数 24 位真彩色 BMP 图象 并对其进行中值滤波去噪处理和均衡 化消除亮度影响 图象直方图均衡化算法由于比较简单 实现算法可以用公式表示为 2 2 DDD mmm m DPDduupDdu A uH DduuH A D Df 000 00 其中 为灰度级的最大值 是图象的面积 总像素数 H u 为图象中 m D 0 A 具有 u 灰度值的像素总数 去噪声算法可以使用极大极小中值滤波算法 传统的滤波器对信号像素和噪 8 声像素都 一视同仁 会使信号像素点发生扭曲 而极大极小值中值滤波算法 利用一个有效的噪声模型对信号点和噪声点分别对待 可以有效去除高斯白噪声 椒盐噪声 实现原理如下 对于自然图象 不含噪声点的区域内部的邻点之 间存在很大的灰度相关性 平滑过渡 而噪声点一般是那些像素值在邻域中非 常突出的点 因此 在一幅图象中 如果一个像素点的值远大于或远小于其邻域 的值 也就是说该像素点与其邻域的相关性很小 那么该点很可能被噪声污染了 否则如果其值与邻点值接近 就应该是一个有效的信号像素点 该算法用公式表 示如下 2 3 其它 为最小或最大值 ij ijij ij x xxWmed y 其中 为输入图象 i j 坐标处的像素值 为噪声处理后的位于 i j 处 ij x ij y 的图象像素值 W 代表加窗操作 将像素限制在窗口覆盖下的范围内 med 为求 中值操作数 排序后取中间位置的值 2 2 3 3 特征提取特征提取 图象的特征 内容 提取是基于内容图象检索的基石 特征选取的好坏对整 个 CBIR 系统有着重要的影响 直接关系到整个系统的检索准确度 检索效果和 检索速度 广义上讲 特征既包括文本特征 关键字 标注等 又包括视觉特 征 颜色 纹理 形状 外观等 就视觉特征而言 又可分为一般特征和领域 特征 前者包括颜色 纹理 形状和物体间方位关系等 而后者根据不同的应用 有所不同 如人脸识别 指纹识别 本文只涉及视觉特征范畴中的一般特征 对特征提取技术的基本要求是准确和快速 特征选取时要考虑下列四个原则 1 图象的区分能力 应能很好的区分视觉上差异较大的图象 2 一次查询中可能检索到的最大图象数 无关图象排除能力 3 特征计算复杂度 4 特征的存储空间要求 由于感知的主观性 许多特征具有从不同角度来描述此特征的多种表示 对 一个给定的特征不存在一个最优的特征表示 典型的低级视觉特征包括颜色 纹 理和形状 颜色特征常采用直方图 包括归一化直方图和累积直方图 和图象矩 和参考颜色表等方法 纹理特征常采用灰度共生矩阵 矩特征和小波变换 形状 特征常采用傅立叶描述子和不变矩 基于内容的图像检索问题可以形式化地简化表示为以下两步 任给一个检索 图像 P 得到其特征向量 F F1 F2 Fn 其中 Fi 为图像的第 i 种特征 根据 F 9 检索特征库 或索引库 得到与 F 距离最小的特征向量 F 则 F 所对应的图 像库中的那幅图像 P 就是与 最相似的检索结果 其中第一步就是该节所阐述 的特征提取问题 第二步则是下一节所要阐述的特征匹配问题 2 2 4 4 特征匹配特征匹配 完成图象特征后并在图象数据库建立相应索引后 图象间的近似性度量问题 就转化为特征向量间的匹配问题 通过这一计算过程 可以对图象数据库中的图 象按其与查询图象的特征向量间的匹配度 距离 从小到大排序 选出前 K 用 户可自定义 幅最近似的图象作为查询结果反馈给用户 可以看出特征匹配在用 户检索过程中的重要地位 特征匹配和特征提取算法一起决定了 CBIR 系统的检 索过程及其结果与人们视觉感知的一致程度 其中特征匹配时的阈值选择非常关 键 常采用统计实验进行 常用的特征矢量匹配方法有 直方图相交 Chi Square Kolmogorov Smirnov Kuiper 距离等 p L 1 Chi square 2 4 i ii ii IQ IQ IQ 2 2 Q 代表查询图象的直方图 I 代表数据库图象的直方图 i 代表直方图的柄 bin 即灰度值 2 Kolmogorov Smirnov 2 5 max xRxSRSD x KS 其中 DKS与 x 的表示含义无关 3 Kuiper 2 6 max max xSxRxRxSRSD xx KS 3 距离 p L 2 7 p i p ii p yxyxL 1 当 p 2 时 该公式特指欧几里德范数 也就是 L2 距离 当 p 1 时 该公式特指 Manhattan 范数 也就是 L1 距离 考虑到用户对检索速度往往有很高的要求 本文的算法实现中主要采用了欧几里 德距离公式 2 8 i ii yxyxL 22 10 其中 x 代表查询图像的特征矢量 y 代表数据库中图像的特征矢量 分别 ii yx 和 代表两者的特征分量 上述的几种特征匹配公式中 距离公式因其检索速度快 计算简单容易实 p L 现经常被采用 2 2 5 5 用户反馈用户反馈 特征提取过程要避免人工干预带来的负面影响尽量实现自动化 但是查询图 象的特征一旦提取就放在内存中 检索过程中的人工参与可以使检索的效果与人 类的视觉观察保持一致 现有的 CBIR 算法 忠于图象内容 当检索的结果往往 与人们的视觉感知并不太一致 这就需要用户的参与 根据图象检索系统提供的 检索结果协助计算机判断哪些图象是他 或她 真正需要的 哪些图象肯定不能 满足视觉感知需要 这样一来人作为 CBIR 系统的一部分可以发挥非常重要的协 调作用 弥补计算机系统不能完全模拟人们感官的不足 由于仅仅基于图象底层特征很难给出令人满意的结果 其主要原因是底层特 征和高层语义间存在很大差距 为了解决这个问题 一方面需要研究出更有效的 图象表示方法 另一方面我们可以通过人机交互的方式来捕捉和建立低层特征和 高层语义之间的关联 这就是所谓的相关反馈技术 相关反馈技术最初用于传统 的文本检索系统中 它的基本思想是 在检索过程中 系统根据用户的查询要求 返回检索结果 用户可以对检索结果进行评价和标记 并将这些信息反馈给系统 系统则根据这些反馈信息进行学习 并返回新的查询结果 从而使得检索结果更 加满足用户的要求 1998 年 Rui Yong 在 MARS 系统中首次将相关反馈应用于基于 内容的图象检索中 自此采用相关反馈技术进行检索的研究开始多起来 相关反馈在信息检索中是一种指导性学习的技术 用以提高系统的检索能力 在基于内容图像检索系统中 相关反馈的过程是这样的 对于用户提供的样本图 片 系统根据样本图片及图象数据库中图片的图像特征 给出一个基于相似度的 排序列表 数据库中图片和样本图片如果在特征空间越相似 则排序越靠前 然 后 用户在该列表中选择一组符合该次检索内容的正反馈图片和一组不符合检索 内容的负反馈图片 并提交给检索系统 系统根据用户的提交信息 来优化相似 矩阵并提交给用户新的检索结果 反馈的方法大致可以分为以下两种 检索向量转移 12 15 和权值的调整 13 14 转移检索向量的思想是希望通过利用用户的反馈信息 改变用户的检索向量 将它向最理想的方向转移 通过这种方式来优化检索结果 对于用户提交的正反 馈集合 D R和负反馈集合 D N 一种方法是利用 Rocchio 公式 11 改变用户的检 11 索向量 2 9 1 1 NR Di i NDi i R D N D N QQ 其中 和分别为常量 和 NN 分别为 D R和 D N中的反馈图象个数 R N 这种技术在 Mars 系统 13 中得到了实现 试验结果表明 通过用户的反馈 系统 检索精度得到一定的提高 另外一种检索向量转移的方法是贝叶斯推理 Cox 12 和 Nuno 15 结合用户的反馈过程 假定对于同样给定的样本图 正反馈和负反馈 图象是一系列彼此独立的检索单元 利用贝叶斯规则来优化检索结果 试图将检 索错误降到最低 权值调整的方法是想通过调整各个特征 特征各维的权重来优化检索结果 Rui亮度表示颜色的明暗程度 取值范围为 1 0 S 1 0 V 图 3 1 HSV 颜色模型 2 2 RGBRGB 空间到空间到 HSVHSV 空间的变换空间的变换 给定 RGB 颜色空间的颜色值 r g b 其中 则变换到 HSV 空间 255 0 bgr 的 h s v 值的计算公式如下 设 v max r g b 则 255 v v min v bgrv s 3 1 otherwiser bgrrandbgrbifg bgrbandbgrgifb bgrbandbgrgifr bgrgandbgrrifg bgrgandbgrrifb h 5 min max 3 min max 3 min max 1 min max 1 min max 5 14 3 2 1 0 1 0 360 0 255 0 min min min 60 vshbgr bgrv bv b bgrv gv g bgrv rv r bgr hh 这里 定义为其中 3 3 将将 HSVHSV 分量合成一个物理量分量合成一个物理量 从对颜色模型的大量分析和计算 我们将 H S V 三个分量按照人类的颜色 感知进行非等间隔的量化 即把色调分为 16 份 把饱和度分为 4 份 把亮度分 为 4 份 并根据色彩的不同范围进行量化 量化后的色调 饱和度和亮度分别为 H S 和 V 如下所示 3 3 1 75 0 3 75 0 4 0 2 4 0 15 0 1 15 0 0 0 s s s s S 1 75 0 3 75 0 4 0 2 4 0 15 0 1 15 0 0 0 v v v v V 345 330 15 330 316 14 316 290 13 290 275 12 275 255 11 255 220 10 220 190 9 190 165 8 165 140 7 140 108 6 108 80 5 80 55 4 55 45 3 45 25 2 25 15 1 15 345 0 h h h h h h h h h h h h h h h h H 按照 H 16 S 4 和 V 4 的量化级 把 HSV 空间三个颜色分量合成为一维向 量 3 4 VSHVSHVSQHQQL VVS 416444 这样 H S V 三个分量就在一维向量上分布开来 在公式 1 中 我们取色 15 调 H 的权重为 16 取饱和度 S 的权重为 4 取亮度 V 的权重为 1 这就突出了人 类视觉对色调敏感的特点 并且减小了图象亮度 V 和饱和度 S 对检索结果的影响 故能充分利用图象的颜色信息来满足用户的查询要求 同时也可以算出 L 的取值 范围是 0 1 255 大大减小了未经量化的 HSV 颜色空间的尺寸 提高了 检索的效率 3 3 2 2 基于直方图的图像检索技术分析基于直方图的图像检索技术分析 颜色特征是图象最直观而明显的特征 一般采用直方图来描述 颜色直方图 是表示图象中颜色分布的一种方法 适用于检索颜色分布上近似的图象 它的横 轴表示颜色等级 纵轴表示在某一个颜色等级上具有该颜色的像素在整幅图象中 所占的比例 直方图颜色空间中的每一个刻度表示了颜色空间中的一种颜色 作为图象颜色特征的一种表示方法 直方图以其算法简单和仿射不变性被 CBIR 研究者们广泛应用于不同的商用或民用系统中 但是直方图的先天不足也在 很大程度上限制了它的使用 1 1 直方图和累积直方图直方图和累积直方图 1 直方图定义 一幅数字图象的直方图可以定义为一个离散函数 3 5 1 1 0 Li N n iH i 其中 i 表示灰度级 L 表示灰度级种类数 表示图象中具有灰度级 i 的像 i n 素总数 N 表示图象总的像素数 公式表征了图象中具有灰度级 i 的像素出现的频 率 图象直方图提供了该图象外观的一个全局描述 因此在图象特征索引中广为 使用 2 直方图距离度量 图象的颜色特征用直方图来表征时 图象间的距离度量问题就相应地转化为 直方图间距离度量问题 常用的度量方法有以下几种 a 直方图相交法 令分别代表查询图象 Q 和数据库图象 I 的直方图 则两图之 iHiH IQ 和 间的匹配值为 3 6 1 0 1 0 min L i Q L i IQ iH iHiH IQP 16 推 论 根据公式 3 2 当图像和模型直方图缩放到相同尺寸时 颜色直方图 相交公式等价于直方图差的绝对值的和 用公式可以表示成 3 3 若 则有下列公式成立 n j j n j j kIM 11 或 3 7 n j jj MI k MIH 1 2 1 1 n j jj MI k MIH 1 2 1 1 推论证明 I 理论准备 根据模式识别理论 8 直方图的每一个格或仓可以看成是一个特征 用 模式识别的观点 特征集可以指定为一个特征空间中的各轴 物体可以 定义该特征空间中的一个点 f1 f2 fn 一个度量定义在该特征空间 中 识别是通过在该特征空间中寻找最近的物体点来完成的 度量空间 定义如下 定义 1 一个集合 X 其中的元素成为点 就是一个度量空间 如果 p q X d p q R 有 正定性 d p q 0 if p q d p q 0 if p q 反身性 d p q d q p 三角不等性 d p q d p r d r q r X 其中的实数 d p q 我们称之为点 p 到点 q 的距离 具有上述三个特性的任 何函数 d p q 我们称之为距离函数或一个度量 II 推论的具体证明 3 8 jjjj jjjjjj j MIMI MIMIMI I min min 3 9 jjjjjj jjjj j MIMIMI MIMI M min min 由上式容易推出 jjjjjj MIMIMI min 2 jj jjjj j jj MIMIMI min 2 jjj jj j jjjj MIMIMI min 2 17 jj jjjj MIMIk min 22 j j j jj j jj M MI k MIk 2 min 2 2 2 3 10 j jj MI k MIH 2 1 1 b 距离法 为了减少计算复杂度 可以用直方图的均值来粗略地表达颜色特征 对图 象的 R G B 三个颜色信道 匹配的特征向量为 3 11 T BGR f 这样 查询图象 Q 和数据库图象 I 之间的匹配值可以定义为 3 12 BGR IQIQ ffIQP 22 c 中心矩法 根据帕斯维尔定理可以推导出一幅图象与其中心矩序列一一对应 这样图 象就可以近似地用其有限个中心矩来表征 设分别代表查询QB i QG i QR i MMM 图象 Q 的 R G B 三个颜色信道直方图的 i i 阶中心矩 3 分别代表数据库图象 I 的 R G B 三个颜色信道直方图的 i iIB i IG i IR i MMM 阶中心矩 则它们之间的匹配值为 3 3 1 2 3 1 2 3 1 2 i IB i QB i B i IG i QG i G i IR i QR i R MMWMMWMMWIQP 3 13 其中为颜色信道加权系数 BGR WWW d 参考颜色表法 距离法太粗糙 直方图相交法计算量太大 一种折衷的办法是将图象颜色 用一组参考色表示 这组参考色应能覆盖视觉上可感受到的各种颜色 参考色 的数量要比原图的少的多 这样可算得简化的直方图 相应的特征向量是 其中代表第 i 种颜色出现的频率 N 是颜色参考表的 T N fffF 21 i f 长度 此时加权后的查询图象 Q 和数据库图象 I 之间的匹配值为 3 14 2 1 N i IiQii ffWIQP 其中 00 1 00 IiQi IiQiQi i ff fff W 或如果 且如果 18 3 累积直方图定义 直方图的四种匹配方法中 后三种主要是从减少计算量的角度对第一种进 行简化 但是直方图相交法还有另外一个问题 当图象并没有充分利用所有的 灰度级时 其相应的直方图中就会出现 零值 这些 零值 的出现会对直方 图的相交带来很大影响 从而使得由直方图相交公式计算出的匹配值并不能正 确反映两图间的颜色差别 为了解决这个问题 可以利用累积直方图 一幅图象的累积直方图是在该图象直方图的基础上计算得出的 公式 如下 3 15 1 1 0 0 LkiHkH k i c 由于考虑了历史灰度级 所以相比直方图 累积直方图有望对亮度改变的 敏感性降低 从而用在基于内容的图象检索系统中会取得较好的效果 实验效 果可以参考 7 中第 179 页的例 8 7 1 2 2 直方图的优势直方图的优势 1 计算复杂度低 一幅 m 行 n 列的图象 其亮度直方图计算一般需要次加法运算和nm L 灰度级总数 次除法运算 算法简单 实现容易 2 具有与生俱来以下的仿射不变性 平移不变性 旋转不变性 缩放不变性 必须是归一化直方图 视角的基本不变性 3 直方图的不足直方图的不足 虽然直方图有上述很多优点 但是由于它 天生 对颜色空间位置的忽视以 及对亮度改变的敏感性 使其在基于内容图象检索系统中的应用受到了很大的限 制 在颜色空间位置信息和亮度改变要求严格的图象检索系统中它先天的弊病就 更暴露无遗 下面的两小节内容对其这两方面的不足进行了图文并茂的揭示 a 直方图不包含颜色的空间位置信息 根据统计学原理 一幅图象 二维亮度函数 的直方图就是该图象亮度值的 概率密度函数 pdf 它只包含了图象中亮度分布的统计信息 并不包含各亮度值的 任何空间位置信息 所以只要两幅图象亮度分布相同 不管它们的视觉内容差别 多大都具有近似甚至相同的直方图 参考下图 也就是说直方图与图象间存在 一对多的关系 这是直方图做为图象颜色特征时造成与人们的视觉感知规律相背 19 离的根本原因 因此它只适合检索颜色分布相似的图象 并不能满足人们多元化 的检索要求 b 直方图对亮度改变敏感 基于内容的图象检索技术一般隐含默认图象数据库中的相似图象都有相同的 背景亮度 但是由于下列原因的存在使得这种假设往往与现实并不相符合 环境光照条件的变化 相机自动增益控制的非线性 相机信号响应的变化 照片处理和打印扫描等数字化处理过程的非线性 根据前面介绍的图象物理模型 不同颜色分量值与亮度成正比 因此一幅图 象的直方图 的幅值 就随亮度的改变而成比例的伸缩 如果一幅图象的亮度变 化一致 亮度变化均匀 并且直方图并不因为亮度的非线性影响而发生畸变 我 们就可以做出这样的科学假设 同一幅物理图象生成的不同亮度版本 它们之间 的差别体现在彼此的直方图的平移和伸缩上 3 3 4 4 提取颜色分布主特征提取颜色分布主特征 颜色直方图由于其具有与生俱来的仿射不变性而被广泛用来表征图象的颜色 特征 但是由于它没有考虑颜色的空间位置信息 背景光照条件影响和颜色间的 相关性 使得它往往不符合人们的视觉感知规律并且对于亮度的改变十分敏感 另外直方图的高存储要求也降低了它的检索效率 颜色分布主特征的思路比较简单 在索引中我们只存储图像颜色分布的主要 特征 特征匹配 图像距离度量 时使用这些颜色主特征来计算图像颜色分布间 的相似度 这一方法在检索结果的鲁棒性和检索速度上远优于基于直方图的方法 13 根据概率论知识和帕斯维尔定理 我们知道一个二维函数的概率分布可以用 其矩序列特别是其中心矩序列来唯一地表征 因此如果我们能将一幅图像的颜色 分布解释为二维概率分布 那么该图像的颜色分布也就可以用其矩序列唯一表示 结合数字图像处理知识和应用数学知识不难证明这一假设的合理性 所以 在本 文算法中我们用一幅图像或其分割子区域图像的一阶中心矩 E 二阶中心矩 三阶中心矩 S Skewness 作为该图像或其子区域的颜色主特征进行特征索引 其中 一阶中心矩 二阶中心矩和三阶中心矩分别表示图像或子区域图像的平均颜色 标准方差和三次根非对称性 如下公式所示 3 16 ij ij p A E 1 2 1 2 1 ij ij Ep A 3 1 3 1 ij ij Ep A S 20 其中 A 代表图像的像素总数 图像面积 Area 代表图像空间二维坐标 ij p i j 处的合成后 参考第 3 4 节 的 HSV 像素值 这样一来就可以构建颜色主 特征向量来表征一幅图像或一幅图像的子区域 两幅图像或两幅图 SEVector 像的相应子区域间的近似性就可以用它们对应的颜色分布主特征向量间的近似性 来度量 从而就可以得出如下的近似性函数 3 17 IQSIQIQEIQ SSWWEEWVectorVectorDIQD 其中 Q 表示查询图像 I 表示图像数据库中的某一幅图像 D Q I 表示图像 Q 和图像 I 间的相似度 表示图像 Q 的颜色分布主特征向量 表示 Q Vector I Vector 图像 I 的颜色分布主特征向量 非负 表示颜色分布均值特征的权重 E W 非负 表示颜色分布标准方差特征的权重 非负 表示颜色分布三次 W S W 根非对称性特征的权重 分别表示图像 Q 和图像 I 的颜色分布均值分量 IQ EE 和 分别表示图像 Q 和图像 I 的颜色分布标准方差分量 分别表示图 IQ 和 IQ SS 和 像 Q 和图像 I 的颜色分布三次根非对称性分量 公式 3 12 中的权重视具体应用加以调整 如果图像数据库中的图像都是 在同一光照条件下获取的 那么我们可以设置 如果图像数据 SEE WWWW 库中的图像是在不同的光照条件下获取的户外图像 颜色分布平均颜色就可能包 含不可靠的信息 此时我们就可以将设置成一个比较小的值 注意如果将三 E W 个权重都设置成为 1 公式 3 12 就变成了 Manhanttan 距离公式 范数 11 LnormL 3 3 5 5 圆环形几何分割圆环形几何分割 1 原 理 颜色特征是图象的一个非常重要的特征 具有与生俱来的仿射变换不变性 平移不变性 Translation Invariance 旋转不变性 Rotation Invariance 和尺度 不变性 Scale Invariance 基于颜色直方图的检索通常是把图象转化为直方图 对直方图进行匹配 这种方法完全丢弃了图象颜色的空间位置信息 为了充分利 用颜色的空间信息来达到更接近于人类视觉感知规律的检索效果 本节提出基于 圆环形几何分割的算法 这一算法的主要思想是将一幅图像按照中心点坐标将其 等间隔分割成一个圆和几个圆环 形成几个圆环形图像区域 然后根据前两节的 介 21 图 3 2 圆环形几何分割示意图 绍的方法针对这几个圆环形区域分别计算其 HSV 颜色分布主特征向量 这样就 构建出一个颜色分布主特征向量序列 在图像近似性度量时 只要将两幅图像对 应的颜色分布主特征向量序列间的近似度算出即可据此进行图像检索 图像的圆 环形几何分割示意图如图 3 5 所示 2 实现步骤 Step1 对图像进行圆环形几何分割 根据图象的大小形状将图象分为 M 个圆形 部分 图 3 5 经过实验 对于一般的的图象取 M 8 效果较佳 600800 设 Width Height 为图象的宽和高 r 为分块圆及圆环的半径 3 18 Height Widthif 2 Height Widthif 2 MHeight MWidth r Step2 计算 1 个中心圆形区域 中间 7 个圆环形区域和 1 个分割剩余部分的颜 色分布主特征向量 具体可以参考第 3 5 其中图像像素坐标91 iSE iii 与区域编号的关系可以表示成下式 3 19 1 22 r OyOx ZN yx 其中 ZN 表示区域编号 Ox表示图像感兴趣部分中心点横坐标 Oy表示图像感兴 趣部分中心点纵坐标 r 为图像分割半径 Step3 计算图像间的近似度 计算公式如下 3 20 i i I i Q S i I i Q i I i Q Ei SSWWEEWWIQD 22 其中 为代表各个区域视觉重要性的权重 9 1 i91 iWi 公式中权重分析 一般来说人们对一幅图像的中心区域比较感兴趣 感兴趣部分 目标 因此将中心圆形和靠目标中心较近的内部圆环区域的权重设置为较大的 值是合理的 重视目标忽略多变的背景符合人们的视觉习惯 如果用户的感兴 趣区域不在中心部分 可以通过边缘检测和目标识别技术确定目标位置 对图像 感兴趣部分的中心点 Ox Oy 进行修正 消除目标平移和旋转对检索效果的影响 这一调节基于这样一个视觉习惯 人们往往比较关心不同图像间的相同部分 即 目标 也就是说即使不同图像的背景有很大不同 只要都包含人们关心的同一 个目标 人们也会把它们归为跟自己的要求近似的图像 根据视觉心理学和实验我们可以将各区域权重设置为 02 0 04 0 04 0 04 0 09 0 10 0 13 0 26 0 28 0 987654321 WWWWWWWWWW 对于商标图像分割为 4 个区域 其权重可以设置为 18 0 18 0 28 0 36 0 4321 WWWWW 另外 通过调节可以有效减轻亮度改变对检索效果的影响 SE WWW 23 第四章第四章 基于纹理的图象检索算法的分析与研究基于纹理的图象检索算法的分析与研究 图象可以看成是不同纹理区域的组合 纹理可以视为某些近似形状的近似重 复分布 一般可以认为它们是由许多相互接近的 互相编织的元素构成 它们常 富有周期性 纹理通常定义为图象的某种局部性质 或是对局部区域中像素之间 关系的一种度量 它是与物体表面材质有关的图象内在特征 包括表面结构组织 及与周围环境关系许多重要信息 纹理特征可用来对图象中的空间信息进行一定 程度的定量描述 直观上纹理描述可提供区域的平滑 稀疏 规则性等特性 它 不能单独地由颜色或密度得到 目前也是基于内容的图象检索系统中的一条重要 线索 4 4 1 1 纹理特征描述的分类纹理特征描述的分类 纹理分析一直是计算机视觉的一个重要研究方向 纹理描述的难点在于它与 物体形状之间存在密切的关系 千变万化的物体形状与嵌套的分布是纹理的分类 变得十分困难 从 70 年代末 人们开始研究图象纹理 出现各种各样的特征描 述方法和算法 关于纹理的定义和纹理的量化方法有许多 由于图象局部的不规 则性和全局的规律性可能是确定的或随机的 因此 纹理一般分为确定性的结构 和随机性的结构两大类 这两种结构可分别采用结构和统计的方法进行分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 点击竞技合作合同范本
- 货物运输安全合同范本
- 滨海新区买卖协议合同
- 物业承包出租合同范本
- 澳大利亚光伏合同协议
- 物品仓库托管合同范本
- 网约车签订合同协议书
- 灯具个人合伙合同范本
- 监控安装买卖合同范本
- 北师大版一年级下册数学总复习2《图形与几何》教案
- 2025年神经科脑卒中急性期病情评估模拟考试试题及答案解析
- YY/T 0310-2025X射线计算机体层摄影设备通用技术条件
- 中外合资企业组织文化构建研究-以S公司为例
- DB32T 5192-2025工业园区碳排放核算指南
- 口腔设备基础知识培训课件
- 剪辑调色基础知识培训课件
- 动漫五官教学课件图片
- 康复治疗技术就业
- 企业对外宣传课件
- 2025至2030年中国渗透结晶型掺合剂市场分析及竞争策略研究报告
- 红楼梦课件第三回
评论
0/150
提交评论