免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 图像检索的进展与展望图像检索的进展与展望 摘要摘要 随着计算机数据处理能力的提高和多媒体编码技术的进步 网络上的各类资源日益 丰富 人们很容易在多媒体信息海洋中迷失方向 如何从中有效地检索有用信息是一个很 关键和迫切的问题 本文基于图像检索技术 阐述了图像检索的进展与展望 关键词关键词 图像检索 基于内容的图像检索 基于文本的图像检索技术 图像和语义的混合检 索 1 引言 随着互联网的发展 越来越多的人接触到了更加方便 使用的数字媒体 如 数字照相机 摄象机 扫描仪等电子设备 面对如此众多的多媒体内容 人们 很容易在多媒体信息海洋中迷失方向 如何在浩如烟海的多媒体世界中找到自 己所需要的信息成了迫切需要解决的问题 目前 已经有不少的搜索引擎提供 网络图像的检索服务 如 Google Ditto PicSearch Ixquick Mamma 百度 等 2图像检索的进展 2 12 1 基于文本的图像检索基于文本的图像检索 从 20 世纪 70 年代开始 有关图像检索的研究就已开始 那时主要是基于 文本的图像检索技术 Text based Image Retrieval 简称 TBIR 沿用了传 统文本检索技术 回避对图像可视化元素的分析 而是利用文本描述的方式表 示图像的特征 如绘画作品的作者 年代 流派 尺寸等 一般以关键词形式 的提问查询图像 或者是根据等级目录的形式浏览查找特定类目下的图像 将 图像分为动态图像 照片 图标 背景 艺术剪辑图 插图 壁纸 界面 成 套图像 8 个一级类 下设数量不等的子类 在图像数字化之前 档案管理者 图书管理员都是采用这种方式组织和管理图像 早期的 TBIR 是手工对图像进行 注释 工作量相当大 不可避免地会带来主观性和不精确性 在 Internet 环境 下的 TBIR 网页信息的自动采集和标引技术的索引方式有全文索引和关键词索引 如 Google Yahoo 和百度等搜索引擎所提供的图像检索服务 它们采用的都是 TBIR 技术 TBIR 技术实现较简单 更符合人们检索习惯 由于这种搜索引擎可以利用 成熟的关系数据库技术 减少许多对图像内容本身的复杂考虑 所以检索比较 准确 而且速度很快 这种技术可以用来管理数量不多 但比较有价值的图片 2 库 例如 博物馆收集的图片 其缺点在于 首先 人工对图像进行标注太费 时费力 其次人工标注具有主观性和不确定性 例如 对于同一幅图像 不同 的人给出的标注可能完全不同 这使得准确地响应用户的查询非常困难 有人 通过分析网页对其链接图像的说明获得图像的文本标注 这在一定程度上减少 了人工标注的劳动量 但是网页对图像的说明仍然是人工的 因此不能避免主 观性和不确定性问题 2 22 2 基于内容的图像检索基于内容的图像检索 到 90 年代以后 出现了对图像的内容语义 如颜色 纹理 形状以及目标 的空间关系图像检索技术 即基于内容的图像检索 Content based Image Retrieval 简称 CBIR 技术 其特点是图像本身包含的客观视觉特性 不需 要人为干预和解释 能够通过计算机自动实现对图像特征的提取和存储 以下几种基于内容的图像检索方法 一 基于颜色特征的检索 实践表明 基于颜色的 CBIR 系统具有较好的性能 而且实现相对容易 最 常用的表达颜色特征的方法是颜色直方图 以直方图为特征的常用匹配方法有 1 矢量距离法 以图像的直方图在各个灰度级上的值构成特征矢量 按照欧氏距离公式计算 特征矢量之间的距离 以这个距离值代表图像之间的差别程度 试验证明 如果 选择合适的彩色空间 那么 欧氏距离与人感觉的颜色差别是一致的 2 直方图交叉法 取两幅图像的直方图在各个灰度级上的较小值 累加后即表示图像之间的相 似程度 这种相似度实际上表示两幅图像的公共部分 3 直接差值法 把直方图在各个灰度级上的值对应相减 并做归一化处理 用差值代表图像 之间的差别 如果两幅图像内容一样 则相似度为 1 相似度值越小 表示图像 间差别越大 其他常用的颜色特征表示方法还有颜色矩和颜色相关图 二 基于纹理特征的检索 纹理是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征 对图 像灰度变化的特征进行量化 与对象的位置 走向 大小 形状有关 与平均灰 度级无关 图像检索中用到的纹理特征表示方法主要有 Tamura 法 小波变换 和自回归纹理模型 三 基于形状特征的检索基于语义的图像检索 3 形状特征常与目标联系在一起 需提取目标的轮廓或描述目标轮廓所包围 的区域的性质 因此形状比颜色和纹理的语义性更强 1 基于边界的表示 代表方法是傅里叶描述子 其基本思想是用对图像进行 傅里叶变换得到的边界作为形状描述 其中一个优点就是把二维问题简化为一 维问题 2 基于区域的表示 代表方法是不变矩法 四 基于空间关系特征的检索 基于空间关系特征的检索空间关系特征可以分为两类 一类是基于图像分 割的方法 首先对图像进行自动分割 划分出其中所含的对象或颜色区域 然 后根据这些区域对图像索引 这种方法的算法都是自动的 其主要优点是可 以从大量的图像中提取边界而不占用用户的时间和精力 然而 如果通用领域 内没有经过预处理的图像 这种自动的分割技术效果就不太好 另一类是基于 图像子块的方法 它是将图像简单地均匀划分若干规则子块 对每个图像子块 提取特征建立索引 这类方法从概念上来说非常简单 但这种普通规则的分块 并不能精确的给出局部色彩的信息 而且计算和存储的代价都比较昂贵 因此 在这类方法在实际中应用较少 CBIR 系统一般包括图像处理模块 查询模块 对象库和特征库和知识库 一 图像处理模块 图像处理模块包括输入图像和图像特征的提取过程 1 图像输入过程将图像输入到系统当中 类似于文本检索系统中文本内容的 录入过程 CBIR 系统一般允许用户以全自动或者半自动 需要用户干预 的方 式对图像进行分割 标识出需要的对象或内容关键点 以便有针对性地对目标 进行特征提取 如用户界面常常提供一组示例供用户选择 或者由用户亲自绘 制草图输入系统 2 特征提取对用户或系统标明的图像对象进行特征提取处理 特征提取可由 人完成 例如人工给出一些描述特征的关键词 也可以通过对应的图像处理程 序完成 自动提取出检索用户可能关心的一些图像特征 提取的特征既可以是 全局性的 如整幅图像的颜色分布 也可以是针对某个内部的局部对象 如图 像中的子区域 特征表示方法有许多 如颜色表示法中就有颜色直方图 颜色 矩 颜色集等 纹理表示法中有 Tramura 纹理特征 基于小波变换的纹理特征 表示法 不过 涉及图像高级抽象的特征时 会受到知识领域和检索任务的限 制 因此往往需要外界知识提供辅助 二 查询模块 查询模块主要实现检索匹配过程 根据相关度计算方法 实现提问与记录 4 的匹配和筛选 最终得到符合要求的结果反馈给用户 CBIR 采用示例查询的方 式向用户提供检索接口 将用户的检索请求转化为可以对数据库进行操作的提 问 检索允许针对全局对象 如整幅图 像 也允许针对其中的子对象以及任 意组合形式来进行 检索返回的结果按照相似程度进行排列输出 如果有必要 可以基于得到的检索结果进行进一步的查询 与基于内容检索一样 CBIR 实现 的是相似性检索 模仿人类的认知过程进行 因此 往往需要在与检索用户不 断地交互中提炼检索结果 三 对象库与特征库 CBIR 中的对象库存储了输入的图像资源 特征库包含了用户输入图像特征 以及在预处理过程中自动提取的特征 对象库和特征库通过组织与图像相匹配 的索引来实现快速搜索 从而可以应用到大规模图像数据库检索的过程当中 四 知识库 在 CBIR 系统中 知识库的目的是为了将检索限定在一定的任何领域范围内 避免不同的检索要求以及不同的领域背景可能会导致对媒体内容语义产生的不 同要求 因此 检索需要一定的领域知识加以辅助来提高检索的准确性 图像的视觉内容 如图像的颜色 纹理 形状等进行分析和检 3 图像检索的展望 3 13 1 图象检索技术图象检索技术 由于图像的低层可视特征不能有效地表示图像的高层语义特征 基于文本 标注的图像检索技术仍然起着不可替代的作用 例如 为了实现对多媒体内容 的存取 索引和检索 MPEG 7 标准提出了多媒体内容的层次表示 最低层次是 可由计算机自动提取的物理统计特征 最高层次是与多媒体内容相对应地类似 文字描述的特征 语义层次的特征在必要时还需要人工标注的方式提供 基于内容的图像检索研究是一个综合的研究领域 它从图像处理 计算机 视觉 模式识别以及数据库等研究领域借鉴了很多方法 它强调如何方便快速 地从大规模的数据库中提取出满足特定要求的相似图像 在检索原理上 无论是基于文本的图像检索还是基于内容的图像检索 主 要包括三方面 一方面对用户需求的分析和转化 形成可以检索索引数据库的 提问 另一方面 收集和加工图像资源 提取特征 分析并进行标引 建立图 像的索引数据库 最后一方面是根据相似度算法 计算用户提问与索引数据库 中记录的相似度大小 提取出满足阈值的记录作为结果 按照相似度降序的方 式输出 怎样结合图像的视觉特征和语义特征 提供与人类认知模式一致的语 义检索功能将是未来图像检索研究的重点 同时 人类的检索行为是一个 逐 5 步求精 的过程 因此 与用户的智能交互机制和有效的相关反馈机制是提高 图像检索效果的有效手段 归纳而言 图像检索的方法对应于图像特征的三个 层次 也可以归结为相应的三个层次 一 简单的可视化特征层次 对图像的简单可视化特征进行查询 如颜色 纹理 形状或者是图像中元素的空间 这些特征反应的一般是图像本身客观的 一些属性 因此 一般不需要任何外界知识的辅助 二 中间的对象层次 对图像的个体特征进行查询是介于简单的可视化特征查 询和高级的抽象语言特征查询的中间状态 一般表现为对局部的特征查询 例 如检索图像中的某个对 象或者是某个人物等 这种查询一般需要对识别和检索 的目标进行一定程度的逻辑推理 所以需要借助外界知识的辅助 三 高级抽象的特征层次 对图形的抽象属性的查询 包括检索与某个事件或 者是某个活动相关的图像 例如查找反映某种情感色彩 或者是符合某种风格 流派的图像 这时需要对这些抽象的目标和场景所代表的意义进行分析 需要 对其进行更高级的推理 同时这类特征带有较强的主观色彩 因此 更需要外 界知识的辅助 3 23 2 图像检索研究的三个方向图像检索研究的三个方向 无论是基于文本的检索还是基于内容的图像检索 这两者一个共同的缺陷 就是没有考虑人类的认知模型和原理 而把语义特征和视觉特征割裂开来 未 来的图像检索系统应该能够满足以下几个要求 一 能够满足语义检索的要求 也就是说用户提交检索 不仅可以是样例图像 还可以是语言描述 请求后 系统能够分析用户的检索请求后进行检索 返回 的结果图像不仅在视觉表征上相关 而且在语义表征上也相关 二 图像特征表示不仅包含视觉特征而且包含语义特征 而且视觉特征和语义 特征可以相互作用 三 有效的知识库指导 具有智能决策能力 主要包括 视觉特征和语义特征 之间的有效映射规则 视觉特征内部和语义特征内部的有效联想规则 在线学 习用户检索偏好的机制 用户的智能交互和相关反馈机制 因此出现了图像和语义的混合检索模型 是结合文本和内容 进行融合性 研究 发挥各自的优势促进图像的高效 简单检索方式的实现 尤其是网络环 境下 结合图像所在 Web 文档的特征分析 推断图像的特征 同时结合对图像 的内容分析 共同标引达到对图像的分析和检索 不仅构造了从文本到图像的 映射和从图像到文本的映射 而且在文本表征和内容表征内部也构造了联想结 构 使我们可以综合语义特征和视觉特征进行检索 进一步 我们可以通过用 6 户交互和相关反馈提高检索效果 总之 结合文本和内容的混合检索不仅具有比较坚实的认知心理学理论基 础 而且它更加符合人类的检索习惯 友好的人机交互和智能行为也会大大提 高系统的性能 综合图像视
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 养老院安全管理课件
- 小学体育课件安全与健康
- 2025年省公务员面试真题解析与面试备考心得分享
- 2012年广东揭阳农村信用社笔试真题一(类比推理)
- 2025年吉林省安全员《C证》考试模拟题及答案
- 《四川省生态系统碳汇资源资产评估报告》
- 上海市安全员-B证考试题库及答案内部题库
- 《国际公法》02形成性考核任务练习题库
- 博兴县图书馆招聘考试真题
- 各类安全课件
- 2025年陕西有色金属科工贸服务有限公司招聘(24人)笔试考试参考试题及答案解析
- 利旧施工方案
- 三反五反运动课件
- 2025五年级英语一般现在时专项练习题
- 2025年乌苏市公安局开招聘警务辅助人员(67人)笔试考试参考题库附答案解析
- 2026年尾矿库闭库工程验收申请报告
- 农家书屋各项管理制度
- GB 19193-2025传染病消毒规范
- (12)普通高中技术与工程课程标准日常修订版(2017年版2025年修订)
- ISO 37001-2025 反贿赂管理体系要求及使用指南(中文版-雷泽佳译-2025)
- 籍贯对照表完整版
评论
0/150
提交评论