




已阅读5页,还剩70页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文图书分类号:中文图书分类号:TP391 密密 级:公开级:公开 UDC:39 学学 校校 代代 码:码:10005 硕硕 士士 学学 位位 论论 文文 MASTERAL DISSERTATION 论论 文文 题题 目:基于图像自动标注算法研究及系统实现目:基于图像自动标注算法研究及系统实现 论论 文文 作作 者:者:安震安震 学学 科:电路与系统科:电路与系统 指指 导导 教教 师:师:贾克斌贾克斌 论文论文 提交提交 日期:日期:2012 年年 4 月月 UDC:39学校代码: 10005 中文图书分类号:TP391学 号:S200902004 密 级: 公开 北京工北京工业业大学工学大学工学硕硕士学位士学位论论文文 题题 目目 :基于图像自动标注算法研究及系统实现基于图像自动标注算法研究及系统实现 英文题目英文题目 :RESEARCH OF AUTOMATIC IMAGE ANNOTATION ALGORITHM AND THE IMPLEMENTATION OF SYSTEM 论论文作者文作者: 安震 学科学科: 电路与系统 研究方向研究方向: 数字多媒体信息处理 申申请请学位学位: 工学硕士 指指导导教教师师: 贾克斌教授 所所 在在 单单 位位: 电子信息与控制工程学院 答答 辩辩 日日 期期: 2012 年 6 月 授予学位授予学位单单位位: 北京工业大学 独独 创创 性性 声声 明明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签 名: 安震 日 期: 2012-5-3 关于论文使用授权的说明关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 (保密的论文在解密后应遵守此规定) 签 名: 安震 导师签名: 贾克斌 日 期: 2012-5-3 Abstract III 摘 要 随着互联网技术和数字图像技术的迅猛发展,数字图像信息成几何级数增 长。网络已经成为数字图像信息展示的重要途径。图像资料直观逼真、生动形 象,既与其他类型资源相互补充,更是一种独立的信息载体。网络上数以亿计 的图像信息远未被人们所充分利用。如何能够快速、准确、有效地从海量数字 图像数据信息中寻找到感兴趣的图像已经成为当今图像处理领域的重要研究题。 目前虽然出现了很多基于内容的图像检索技术,并开发了相应的检索系统如 WebSEEK、QBIC、Photobook、Chabot等,但是基于内容的图像检索,结果往 往不尽如人意。另一种图像检索技术是目前互联网上所有主流图像搜索引擎均 采用的基于文本标注的检索方法。基于文本标注的方式通常需要手工方式进行 图像的语义标注,标注工作量大,基于文本的手工标注方式根本无法满足海量 图像标注的需求。因此,基于图像语义的自动标注算法的研究成为图像检索领 域中一个十分重要和关键的技术,并具有很好的研究意义和应用前景。 本文重点分析了当前自动图像标注的相关技术,以联合媒体相关模型图像 标注算法为基础,深入分析、研究了图像标注中应用到的关键技术,如图像分 割、图像聚类、词间相关性的获取等。在此基础上,设计了并构建了一个自动 图像标注及检索系统。论文完成的主要工作包括以下几个方面: 1)实现了一种改进的基于普扩散理论的图像分割算法。该算法以普扩散理论 为依据,通过在输入节点集合附近寻找特征方程的最优解,实现对图像的准确 分割。作为图像自动分割方法的一种辅助分割手段,能够有效地提高针对复杂 图像的分割精度。 2)提出了基于区域密度的RPCL图像聚类改进算法。该算法最大的优势是不 仅能够自动确定聚类个数,而且能够自动调整RPCL中次胜单元的学习率,进一 步优化了图像聚类效果。 3)提出了语义相似语言模型和 CMRM 相结合的图像自动标注改进算法。该 算法将语言模型引入到 CMRM 当中,进一步优化了图像自动标注效果。 4)设计并实现了图像自动标注及检索系统。该系统可以实现对未标注图像进 行自动标注以及基于内容的图像检索。 关键词:语言模型;图像自动标注;CMRM;图像分割;图像聚类;RPCL Abstract With the rapid development of internet technology and digital imaging technology,digital image information have increased geometrically. At the same time network has become an important approach to display digital image information. Image materials are Intuitive,lifelike and vivid,which not only complement other types of resources by each other, but also are independent carriers. Millions of image information on the network is far from being fully utilized. How to search the interesting images from the massive digital image data information quickly and accurately has become the important research topic in the field of image processing. Now theres been a lot of content-based image retrieval technology,and the corresponding retrieval systems such as WebSEEK,QBIC,Photobook,Chabot have been coming into sight,but the results of content-based image retrieval are often unsatisfactory. Another image retrieval technology is text annotation based image retrieval which is used by all major image search engines on the internet at present. Text annotation based methods usually require semantic annotation of images manually,which bring marking heavy workload and the manual way can not meet the huge demand for image annotation. Therefore, the research on automatic annotation algorithm based on image semantic has become extremely important and crucial in the field of image retrieval which has excellent research and application prospects. This article focuses on analyzing the related automatic image annotation technology, based on the combined media-related model image annotation algorithm. With deep analysis of the key technologies applied to image annotation, such as image segmentation, image clustering, correlation derivation between words and so on, an automatic image annotation and retrieval system based on semantic models is designed and built. The main work of the paper includes: 1) An improved image segmentation algorithm based on general theory of spectral relaxation is proposed in this paper. The algorithm is based on the general theory of spectral relaxation,by finding optimal solutions of the characteristic equation near the input node set,to achieve an accurate segmentation of images. As a secondary segmentation of image segmentation method,it can effectively improve the accuracy of complex image segmentation. 2) An improved RPCL image clustering algorithm bsed on region density is proposed, and the maximum advantage of the algorithm is not only to be able to automatically determine the number of clusters, but also can automatically adjust Abstract V the de-learning rate in RPCL. This algorithm further optimized the image clustering effect. 3) An improved semantic similarity language model based algorithm for automatic image annotation is proposed. This algorithm brings the language model to CMRM,and further optimizes the effect of image annotation. 4) An automatic image annotation and retrieval system is also designed in this paper. In this system auto annotation and content-based image retrieval can be processed to unannotated images. Keywords: language model,image automatic annotation,CMRM,image segmentation,image clustering,RPCL 目 录 - I - 目 录 摘 要.I ABSTRACT.III 第 1 章 绪论1 1.1 课题背景和研究意义1 1.2 研究目标与内容2 1.3 论文的结构安排3 第 2 章 图像自动标注技术及发展状况6 2.1 概述6 2.2 图像自动标注的基本框架6 2.3 图像自动标注方法综述7 2.3.1 基于全局特征的自动图像标注方法.7 2.3.2 基于分类的自动图像标注方法.8 2.3.3 基于概率关联模型的自动图像标注方法.10 2.3.4 基于图学习的自动图像标注算法.12 2.4 图像自动标注技术存在的问题13 2.5 本章小结14 第 3 章 基于 CMRM 的图像标注改进算法 .15 3.1 CMRM 图像标注方法的模型框架.15 3.2 图像分割17 3.2.1 基于 Normalized Cut 的图像分割算法.18 3.2.2 基于普扩散理论的图像分割改进算法.20 3.2.3 图像分割实验结果对比.23 3.3 图像视觉特征提取24 3.3.1 颜色特征.24 3.3.2 纹理特征.27 3.4 视觉特征归一化28 3.5 图像聚类29 3.5.1 K-means 聚类算法31 3.5.2 基于区域密度的 RPCL 聚类改进算法.32 3.5.3 聚类效果对比.34 3.6 实验结果对比36 3.6 本章小结36 目 录 - II - 第 4 章 基于语言模型和联合媒体相关模型相结合的图像标注算法37 4.1 问题提出的背景37 4.1.1 CMRM 标注模型算法存在的缺陷37 4.2 基于语言模型与联合媒体相关模型相结合的图像标注改进算法37 4.2.1 利用语言模型改进联合媒体相关模型.39 4.3 实验结果与分析41 4.3.1 实验设置.41 4.3.2 实验结果及对比.41 4.4 本章小结43 第 5 章 基于图像语义的自动标注及检索系统设计与实现45 5.1 系统总体框架及开发环境45 5.1.1 系统总体框架.45 5.1.2 系统开发环境.45 5.2 图像自动标注系统46 5.2.1 系统框架.46 5.2.2 后台数据库设计.49 5.2.3 系统展示.49 5.3 图像检索系统50 5.3.1 语义-图像检索.51 5.3.2 图像-图像检索.52 5.4 本章小结53 结 论54 参 考 文 献56 攻读硕士学位期间所发表的学术论文60 攻读硕士学位期间参加的科研活动和获得的奖励62 致谢63 第 1 章 绪论 - 1 - 第 1 章 绪论 1.1 课题背景和研究意义 近年来,随着互联网技术、数字图像技术的高速发展,出现了越来越多的 基于 web 的数字图像信息。数字图像已经被广泛地应用于人们生活的方方面面。 如新闻媒体、航空航天、科学实验、电子图书馆、远程教育、电子商务等各个 领域。而这些数字图像资源每天都会通过互联网传送到世界各地。面对如此大 量的数字图像信息,如何能够快速、有效地从海量图像信息中检索出所需信息 便成为当今许多应用领域的重要研究课题。正是在这样的背景下,图像检索技 术应运而生。 传统的图像检索技术主要可以分为两种:基于内容的图像检索(Content- Based Image Retrieval,CBIR)和基于文本的图像检索(Text-Based Image Retrieval,TBIR)。基于内容的图像检索技术本质思想就是使用图像底层视觉特 征来计算图像之间的相似度,然后根据用户提交的实例图像的视觉特征间的相 似性匹配来检索图像。例如基于颜色特征的图像检索方法,比如基于颜色直方 图的检索方法,在一定的色彩空间对图像各种色彩出现的频率进行统计。还有 基于纹理特征的图像检索方法,比如基于灰度共生矩阵的检索方法,对图像的 二阶组合条件概率密度函数进行估计,是一种空间域方法1,但是现有的纹理 特征与人的相似性感知之间还会存在较大差异,且依赖于具体的纹理图像的性 质,缺乏一定的通用性且计算量大。基于内容的图像检索技术虽然解决了文本 检索的局限性,但是由于目前使用的相似度计算基本上是基于数学比较,与人 的视觉感知特性还具有一定的差距,低层次视觉特征(如纹理、颜色、形状等) 不能完全反应和匹配用户的查询意图,因此检索性能与应用的需求还相距甚远, 基于内容的图像检索技术的研究遇到了前所未有的巨大挑战。 基于文本的图像检索技术通过手工对图像进行标注,根据标注信息利用文 本检索技术对图像进行检索。由于用户更加习惯利用关键词这种最为直接的方 式来表达查询需求,并且目前互联网上主流图像搜索引擎如 Google、Baidu、Sougou等均采用基于文本的图像检索方式。因此基于文本的图 像检索方式还是目前最主要的图像检索方式。 然而随着图像数据量的不断增加,人工标注图像的工作量非常巨大,而且 标注结果存在着很大的主观性,容易产生歧义,特别是对日益增长的海量图片 来说,完全由人工标注是不现实的。由此催生了自动图像标注技术(Automatic Image Annotation AIA)的发展。 北京工业大学工学硕士学位论文 - 2 - 自动图像标注就是让计算机自动给无标注的图像加上能够反映图像内容的 语义关键词。它利用已标注图像集合或者其他可获得的信息自动练习语义概念 空间与视觉特征空间的关系模型,并用此模型标注未知语义的图像。通过在图 像的高层语义信息和底层特征之间建立一种映射关系,在一定程度上解决语义 鸿沟2问题。自动图像标注技术是图像检索研究领域中非常具有挑战性的工作, 是实现图像语义检索的关键。一方面,自动图像标注技术的出现,克服了人工 标注图像费时费力的缺点,给用户的使用带来了极大的方便,同时也为基于语 义的图像检索算法研究提供了语义级别上的技术支持。如果能够实现自动图像 标注,则图像检索问题就可以转化为相当成熟的文本检索问题。自动图像标注 技术涉及了计算视觉、机器学习、信息检索等多方面内容,具有很强的研究价 值。 1.2 研究目标与内容 本文对基于语义的自动图像标注技术进行了全面的研究,以联合媒体相关 图像标注模型(CMRM,Cross-Media Relevance Mode)3为基础,深入研究了自 动图像标注中的关键技术如图像分割、图像聚类以及视觉特征提取等,并引入 语义相似语言模型,最后设计并实现了一个基于图像语义的自动标注检索系统。 在论文完成期间,主要的研究内容包括以下几个部分: i.基于普扩散理论45的图像分割改进算法 图像分割技术是图像处理的关键技术也是当今一个研究热点问题。图像分 割效果直接影响后续图像聚类效果。本文图像分割算法的选择充分考虑图像分 割效果。论文中使用了基于普扩散理论的图像分割算法,该算法作为自动图像 分割方法的一种辅助分割方法,实现了针对复杂图像的准确分割,保证了后续 图像处理步骤更精确,为图像标注算法获得理想的标注效果奠定了基础。 ii.基于区域密度6的 RPCL 的图像聚类算法 图像聚类本质就是将研究对象(视觉特征)分为相对同质的群组的统计分析 技术。图像聚类结果的好坏直接影响到后续图像标注结果的精度。基于联合媒 体相关模型自动图像标注方法(CMRM)中采用的 k-mean 聚类算法,该算法实 现简单,但是不能自动确定聚类个数且对初始聚类中心的选取敏感。本文在充 分分析 k-mean 算法优缺点的基础上,提出了基于区域密度 RPCL(Rival Penalized Competitive Learning)聚类改进算法,该算法不仅能够自动确定聚类个 数,解决了 k-mean 中对初始类中心选取敏感和 k 值自适应问题,而且能够自动 调整次胜单元的学习率,进而确保图像聚类更加准确。 iii.提出了语义相似语言模型与联合媒体相关模型相结合的自动图像标注算 第 1 章 绪论 - 3 - 法 将语义相似语言模型与联合媒体相关模型相结合。不再假设标注模型中各 个标注词之间相互独立,而是充分考虑标注与上下文关键词以及图像视觉内容 之间的语义相关性。最后,通过实验验证了改进模型算法的有效性。 iv.设计并实现了一个基于图像语义的自动标注及检索应用系统 本文设计并实现了一个基于图像语义的自动标注检索系统。该系统分为两 部分:自动图像标注和图像检索。其中自动图像标注部分能够实现对图像进行 自动标注的功能,建立一个可查询的图像语义信息库;图像检索部分实现了基 于文本和内容的两种图像检索方式。 1.3 论文的结构安排 本文的结构安排如下: 第 1 章为绪论。介绍了图像自动标注的课题背景及研究意义,研究内容和 目标,以及论文的安排。 第 2 章回顾了自动图像标注技术的研究发展历程和现状。分别介绍了基于 全局特征的图像自动标注算法、基于分类的图像自动标注算法、基于概率关联 模型的图像自动标注算法以及基于图学习的图像自动标注算法,并分析指出现 有图像自动标注技术尚存在的问题。 第 3 章对图像标注方法中的关键技术图像分割进行了深入研究。分析了 CMRM 标注方法中的图像分割和图像聚类算法存在的问题,并详细阐述了本文 提出的改进算法:基于普扩散理论的图像分割改进方法以及基于区域密度的 RPCL 图像聚类改进算法。最后,给出优化过的 CMRM 图像标注方法与原方法 的实验结果对比。 第 4 章对基于 CMRM 图像标注方法中的研究重点标注模型关键技术进行了 深入研究。在分析了 CMRM 标注模型算法和基于词间相关性改进的图像标注算 法的基础上,提出了语义相似语言模型和 CMRM 相结合的图像标注改进算法。 该改进算法在标注过程中不再假定标注词为相互独立,而是充分考虑标注词与 其上下文关键以及图像的视觉内容之间的相关性。最后给出实验结果与分析。 第 5 章对基于图像语义的自动标注及检索应用系统的结构进行了设计和实 现。首先介绍了系统的总体框架,然后对系统各个功能模块进行描述,并详细 说明了后台数据库的设计以及系统性能的优化方案。 结论部分是本文的结论及工作展望,总结了本文完成的工作,以及今后工 作的进一步展望。 之后是硕士期间发表的学术论文以及参加的科研项目和获得的奖励。 北京工业大学工学硕士学位论文 - 4 - 最后是参考文献和致谢。 第 1 章 绪论 - 5 - 北京工业大学工学硕士学位论文 - 6 - 第第 2 章章 图像自动标注技术及发展状况图像自动标注技术及发展状况 2.1 概述 图像自动标注通过建设底层视觉特征与高层语义之间的映射关系解决图像 检索中存在的语义鸿沟问题,从而在语义级别上对基于语义的图像检索做出支 持。使用人工的方式进行图像标注是最直接也是最有效的方式,但是这也是一 件非常耗时耗力的工作。目前很多网站都为用户提供了图像自动标注服务,例 如 MIT 提供了 Label Me 工具,用户可以对图像进行标注。然而随着图像数量的 急速增长,人工标注已经远远不能满足要求,所以,近年来关于自动图像标注 的研究越来越引起人们的重视。现有的图像自动标注算法大体上可以分为两类: 一是基于生成模型的标注方法3;一是基于判别分类的标注方法7。图像自动 标注的基本流程可以分为三部分:图像分割、特征提取以及标注算法。下面将 对图像标注方法进行详细介绍,最后,我们探讨并分析目前图像自动标注算法 存在的一些问题以及改进方向 2.2 图像自动标注的基本框架 自动图像标注过程通常包含两个阶段:训练图像库的模型训练阶段和待测 图像的自动标注阶段。模型训练阶段完成的工作包括对训练图像集合进行图像 分割、特征提取、图像聚类等操作,构建图像视觉特征空间,再通过图像标注 模型算法训练学习图像视觉特征空间和高层语义概念空间之间的关系模型。完 成模型的训练阶段之后,在自动标注阶段由用户提交一幅未标注图像,并进行 相应的图像处理,再由上述得到的关系模型完成对待测图像的自动标注。图 2- 1 给出了图像自动标注的基本框架。 测试图像 标注结果关系模型 语义概念空间 视觉特征空间 图像处理 人工标注 模型训练 模型训练 图 像 处 理 自动标注 训练图像集合 图2-1 图像自动标注基本框架 第 2 章 图像自动标注技术及发展状况 - 7 - 2.3 图像自动标注方法综述 目前的自动图像标注方法根据特征提取及表示机制的不同可以分为基于全 局特征和基于区域划分的自动图像标注算法。 自动图像标注方法 基于全局特征的 自动图像标注方法 基于区域划分的 自动图像标注方法 基于图学习 的自动图像标注方法 基于概率关联模型 的自动图像标注方法 基于分类 的自动图像标注方法 图 2-2 自动图像标注算法分类 2.3.1 基于全局特征的自动图像标注方法 早期的基于全局特征的自动图像标注工作等同于图像场景的自动分类。 Oliva等人使用面向图像场景语义的方法对图像进行自动标注89,该方法基于 图像的空间属性( 如平均,深度,尺寸等) 产生现实场景(可以是人工场景也 可以是自然场景,比如可以是房间内或房间外的地方)的有意义描述。算法验 证了全局统计特征(Gist)可以用于分析图像场景中对象的存在与否,从而免 去了对图像进行分割和进行面向对象分析的过程。文献10提出的是面向显著兴 趣点的方法,论文中使用显著区域的局部描述子的向量空间表示来描述图像, 并通过相似的图像传播语义来实现自动标注。Yavlinsky 等人11继续探索了单 纯利用图像的全局特征进行语义标注的可能。其建模框架基于鲁棒的非参数密 度估计方法, 并使用核平滑技术,研究了利用各类全局图像特征对标注性能的 影响,也显示EM D( Earth M overs Distance)距离标准可以与该框架有效整合利 用。结果显示其标注性能与推理网络方法和基于CRM12的方法性能相当。此外 算法也论证了在COREL数据集上单纯利用全局的颜色信息就可以达到较好的标 注性能。在图像数据集中两幅图像的视觉特征相似的情形下,全局颜色特征将 是建模关键词密度的坚实基础。尽管算法将每幅图像划分为3*3的矩形区域,但 该类分割方式属于硬划分(不同于基于内容的分割策略),因而仍可以看成是基 于全局特征的标注算法。此类方法的优点是可以免除对图像的区域分割、区域 聚类、三维注释和面向对象的分析等诸多过程。但通常来说,图像全局特征一 北京工业大学工学硕士学位论文 - 8 - 般只适用于表示简单的图像或背景较为单一的图像,如纹理图像、自然场景图 像、建筑物图像等。由于人眼在观察一幅图像时,总是很自然地将图像分为前 景目标和背景区域,因此用户查询时更注重图像内具有一定语义信息的特定目 标或者区域,而非背景区域。图像的全局特征只提供粗粒度的语义描述,未考 虑到图像中前景物体与背景的差异,因而不能反映图像丰富的细节语义内容, 标注的性能也不甚理想。若能将图像的前景目标区域从背景中分割出来,实现 对象级的语义描述,则可以减少由于目标物体在图像中的背景变化和场景变化 带来的影响,从而更接近语义检索的目标。因此提取区域级的低层视觉特征比 全局的视觉特征更加贴近人对图像的语义理解,基于区域划分的图像标注技术( Region based Image annotation) 也就应运而生了。 2.3.2 基于分类的自动图像标注方法 现有的基于全局特征的自动图像标注方法属于典型的多标记学习问题 (Multi-Label Learning13)。其核心思想是利用已知的标注数据建立某种模型来描 述文本词汇与图像特征之间的潜在关联或者映射关系,并据此预测未知图像的 标注。文献1415将自动图像标注问题看作多标记学习问题,通过将多标记学习 问题转化为单标记学习问题,提出了基于支持向量机(Support Vector Machine, SVM) 的自动图像标注算法。该算法为每个关键词构造一个二类分类器,将所 有标注该关键词的训练样本图像作为正例样本,而将所有未标注该关键词的训 练样本图像作为反例;然后,分别提取正反例图像的全局颜色直方图特征,并 据此为给定关键词构建SVM 分类器;最后给定未标注图像,利用每个关键词 的分类器实现对其的分类,选择分类标记结果值最高的前几个关键词作为未标 注图像的最终标注结果。由于训练样本图像只给出了关键词与图像的关联,但 并没有关键词与图像中区域的对应关系,即训练样本图像中存在不属于该关键 词语义的区域,而现有的基于多标记学习的自动标注算法未考虑到标注信息的 歧义性,因此最终的标注性能并不理想。文献16中提出了上下文相关的关键词 传播方法,该方法使用了多标记学习方法并借用线性规划方法来提高标注性能, 该方法能够同时传播多个关键词。 由于训练图像集合并不提供区域级别的标注信息,即关键词是与整幅图像 相关联而不是与图像中的区域关联,因此在图像标注领域,标注有某个关键词 的正例样本图像中也会存在伪示例。多示例学习17作为一种泛化的监督学习算 法, 能较好地处理这种歧义性问题,因此很自然地被引入到自动图像标注问题 中。文献18提出了多示例学习领域经典的多样性密度(Diverse Density)算法来解 决标注问题。算法的基本思想是,如果特征空间中某点最能表征某个给定关键 第 2 章 图像自动标注技术及发展状况 - 9 - 词的语义, 那么正包中应该至少存在一个示例靠近该点,而反包中的所有示例 应该远离该点。因此该点周围应当密集分布属于多个不同正包的示例,同时远 离所有反包中的示例。特征空间中如果某点附近出现来自于不同正包中的示例 越多,反包中的示例离得越远,则这点表征了给定关键词语义的概率就越大。 用多样性密度来度量这种概率,具有最大概率的点即为要寻找的目标点。算法 的缺点在于:首先, 由于关键词语义的丰富性,很难用唯一的特征向量来表征 其语义;其次,多样性密度算法需要将每一个正包示例都作为初始点进行一次 搜索,且要进行多次梯度下降搜索以求解最优值,因此其训练时间开销相当大。 文献19提出了基于非对称支持向量机的多示例学习(Asymmetrical Support Vector Machine Based Multiple Instance Learning,ASVMMIL) 算法,它将自动图像标 注任务转化为监督学习。算法考虑了包的歧义性,通过最小化包的分类误差将 SVM 直接应用到多示例学习问题中。文献2021也提出了基于多示例学习思想 的自动标注算法。采用层次化高斯混合模型算法(Mixtur HierarchicGaussian Model, MixHier)来估计每个关键词在特征空间中对应的特征分布。算法首先 收集每个关键词所对应的正例图像集合,并将每幅正例图像以包的形式表示。 然后对每幅正例图像采用高斯混合模型进行建模,在此基础上利用每个正例图 像的特征分布作为输入,再次利用高斯混合模型对整个正例图像集合进行语义 建模。最后选取特征空间中概率密度分布最高的视觉特征向量来表征关键词。 文献2223也是基于分类进行图像自动标注的尝试。文献24综合考虑了标注问题 输入空间和输出空间的歧义性,将多示例学习和多标记问题两者融合起来完成 标注算法。基于分类的图像标注算法的基本流程如图2-3 所示。 北京工业大学工学硕士学位论文 - 10 - 标注词列表 标注词列表为空 取出一标注词 预处理后的 训练图像集 正例反例 分类器构造 为测试图像分类 候选标注词最终标注结果 图 2-3 基于分类的图像自动标注算法的一般流程 2.3.3 基于概率关联模型的自动图像标注方法 基于概率关联模型的图像标注算法,其本质是在概率统计模型的基础上, 分析图像区域特征与语义关键词之间的共生概率关系,并以此为待标注图像进 行语义标注。直观地,两幅图像若具有较高的视觉相似性,则两者标注相近关 键词序列的概率就越高。这种方法的特点在于,无需通过学习机制为每个语义 关键词建立相应的低层视觉特征表示。换句话说,语义关键词与低层视觉特征 之间不存在一一对应的映射关系。基于概率关联模型的自动图像标注算法的一 般流程如图2-4 所示。 第 2 章 图像自动标注技术及发展状况 - 11 - 利用统计方法计算标注词和图像间的概率 关系 视觉特征提取(颜色纹理和形状等) 描述图像的向量或其它描述方法(聚类) 图像分割(基于分块或基于区域) 预处理后的训练图像集 图像检索WordNet 得到候选标注词并标注测试图像 图2-4 基于统计方法的图像自动标注过程 许多文献中各方法的区别在于计算标注词和图像间概率关系所采用的统计 方法不同。虚线部分表示部分算法借助图像检索的结果或由WordNet得到的标 注词本身间的相互关系来决定最终标注结果。文献25最早提出了基于机器翻译 模型来解决图像标注问题,算法假设文本标注与视觉特征是用以描述同一图像 内容的两种不同语言。基于此假设,它引入了自然语言中的双语翻译模型,将 图像标注的过程视为从视觉到语言再到文本再到语言的翻译问题。其中,视觉 词汇是由图像的各个分割区域经过聚类的结果,被称为blob;而文本词汇就是 标注关键词, 然后它们利用机器语言翻译的方法建立起blob与文本词汇之间的 对应关系,进而得到图像的语义标注。由于该算法的标注结果偏重于在训练图 像集中出现频率较高的关键词,因此为克服这一问题,Kang等人先后提出了两 种改进方案:一种是基于对称的翻译模型26 ,该模型将由视觉词汇到文本词汇 的翻译结果和由文本词汇到视觉词汇的翻译结果进行融合;另一种则通过对翻 译概率规则化来克服词频的影响27。相关模型是目前基于概率关联模型的自动 图像标注领域最重要的算法之一,许多后续的标注算法都是基于相关模型进行 改进和提高的。其基本思想主要是建立图像和语义关键词之间的概率相关模型。 算法通过为某一幅待标注图像找到与其相关性最大的一组语义关键词,来获得 图像的标注结果。测试图像标注关键词的概率由该测试图像的所有分割区域共 北京工业大学工学硕士学位论文 - 12 - 同决定,即通过乘积的方式来得到测试图像的每一个区域与训练集中每个图像 的视觉相似性。而对测试图像标注结果影响较大的通常是与其相似度较高的训 练图像集合,而与其相似度较小的训练图像对其标注结果的影响通常较小。文 献28将图像标注问题看作是跨语言检索问题,从而提出了跨媒体概率相关模型 (CMRM)。由于CMRM 模型采用图像子块(blob)来表征图像的语义内容,而blob 是采用区域聚类后离散化的方式生成的,因而这种离散化的表示会造成视觉特 征内容的损失,影响标注效果。针对这一问题,文献12提出了一种基于图像连 续特征的相关模型(Continuo usspace Relevance Model,CRM)。CRM利用图像各 分割区域的连续特征向量组合来表示图像,然后通过高斯核函数估计区域间的 相似关系。CMRM 模型中对区域特征进行了离散化操作。而CRM直接使用连 续特征建模,因此不依赖于聚类从而避免了粒度问题。CRM与CMRM算法的表 示形式极为相似,但最大的不同在于CRM在图像连续特征空间比较两幅图像的 相似性,而CMRM则使用聚类算法生成blob来表示图像内容。由于聚类过程本 身会带来信息缺失,因而CRM 算法效果更好。针对CMRM 和CRM 算法存在 的不足,文献29提出了多重伯努利相关模型( Multiple Bernoulli Relevance Model,MBRM),算法针对前面两种模型进行了改进。首先,由于图像分割算 法( Normalized Cut) 计算复杂,MBRM 采用了简单的网格划分图像的方法,将 图像切分为规则的矩形区域,简化了计算复杂度,实验验证了这一改进的有效 性。另外,不同于CMRM 和CRM 算法采取多项式分布来估计,MBRM 则引 入了多重伯努利分布来估计词汇的概率分布。由于采取多项式分布, 在词汇标 注时暗含所有关键词出现概率之和为1的约束条件,导致各词汇在图像标注任务 中存在排斥的关系。而在图像标注任务中,通常强调的是一个词是否应当被用 来描述该图像,即强调关键词的存在性,因此多重伯努利分布比多项式分布更 加适合描述关键词的分布概率。文献30给出了一种基于贝叶斯理论的图像标注 和检索方法,文献31给出了一个融合图像内容和上下文信息的图像标注框架, 并且图像标注是区域级别的标注,其标注过程并不依赖于分块的大小。文献32 33也是该类方法的典型代表。 2.3.4 基于图学习的自动图像标注算法 近年来,基于图学习(Graph Learning )的方法作为一种重要的机器学习算法, 已经被用来有效地解决图像自动标注这一图像语义理解问题。基于图学习的算 法是一种半监督学习算法,已知类标的训练数据和未知类标的测试数据都将参 与到算法的学习过程中。与传统的有监督学习和无监督学习相比,半监督学习 可以在学习阶段利用更多的信息,如数据的分布特性等,它适用于总数据量较 大、已标记训练数据量相对较小的情况。若我们将每幅图像( 或每个标注词) 第 2 章 图像自动标注技术及发展状况 - 13 - 作为图节点,以图像间(或标注词间)的相似关系作为边,通过图学习算法就可 以实现标注信息从已标注图像到未知图像的传播,从而完成图像标注任务。文 献34首次提出了一种基于图的自动标注方法(CGap),图像、标注关键词和同质 区域被分别表示为三类不同的图结点,并根据它们之间的相互关系连接成图。 文献35中给出了一种基于流形排序(Manifold Ranking)的图像标注方法,该方法 同时考虑了视觉信息和文本信息,并用由WordNet获得的词间的关系来为图剪 枝。在该框架下,图像标注被分为两个阶段来完成,即基本图像标注与图像标 注改善。其中,前者是通过以图像间相似性为依据的图学习过程来提供图像的 初始标注,而后者是通过以词汇间语义相关性为依据的图学习过程来改善前者 取得的标注结果。文献36通过视觉相似度来标注关键词,该模型只利用图像间 的相似度来构建kNN 相似图,而没有考虑词间的相关性。文献37提出了一个基 于图模型的最近邻生成链(Nearest Spanning Chain,NSC)来标注图像,模型给出 了图像相似性的统计估计。文献38中给出了一个基于图学习的图像标注算法框 架,并进一步改进了现有的NSC 方法。该框架同时考虑了训练集合中的词共生 关系和Web上下文中的词共生关系。基于图学习的图像标注算法的流程如图4所 示。其中虚线部分含义是指该步骤是可选项。 训练图像集 视觉特征标注词 最终标注结果候选标注词集 WordNet 图像间关系图像词间关系标注词间关系 建立图,并进行图学习 图2-5 基于图学习的图像标注算法流程示意图 2.4 图像自动标注技术存在的问题 利用图像的自动标注来实现图像的语义理解已成为当前的研究热点与重点。 虽然图像标注工作已经取得了很大的发展,并提出很多的图像标注算法,但仍 北京工业大学工学硕士学位论文 - 14 - 然不能满足用户的需求。针对这样的现状,自动图像标注衍生了两种新的研究 课题: 图像标注改善( Image Annotation Refinement ) 和基于Search的标注算法。 图像标注改善方法是指针对在基本图像标注过程中得到的初步标注结果,通过 利用标注词汇间的关联关系,去除不相关的词汇并填补上可能遗漏的词汇,从 而保证最终的标注结果具有良好的语义一致性。而基于Search的图像标注算法 通过有效地融合CBIR 技术,将未标注的图像看作是查询图像,根据检索技术 找到查询图像的一些相关图像集合,然后从相关图像的标注词的集合中,应用 文本分析技术挖掘出标注结果。图像标注改善是自动图像标注过程的重要步骤。 基本图像标注阶段得到的标注信息虽然获得了较好的结果,但通常情况下并不 能很好地反映图像的语义信息。在基本图像标注阶段得到的候选标注信息可能 是不完整的,或者包含了一些与图像不相关的标注信息。这主要是由于现有的 标注算法将每个语义关键词单独分析,并没有考虑到关键词之间的语义关联。 而通常情况下,词汇与词汇之间的语义联系还是非常紧密的,通常词汇间包括 层次关系和相关性信息。例如tiger和grass两个词的语义联系比较紧密,当一幅 图像标有关键词tiger时,其标有grass的概率也相应提高。因此利用词汇与词汇 之间的相互关系,从候选词汇中挑选出紧密相关的词汇,滤除那些无关的噪声 词汇,是改善图像标注性能的重要手段之一。许多研究工作将词汇间的相关性 融入到模型的估计过程中,文献39提出了一致性语言模型(Coherent Language Model,CLM),文献40提出了互相关标记传播模型(Correlated Label Propagation,CLP),文献41尝试着在相关模型的基础上融合全局特征、局部特 征以及文本上下文信息来完成图像标注工作。 2.5 本章小结 本文首先介绍了自动图像标注技术及其发展情况,接着详细介绍了目前 主要的几种自动图像标注算法,包括基于全局特征的自动图像标注算法、基于 分类的自动图像标注算法、基于基于概率关联模型的自动图像标注算法、基于 图学习的自动图像标注算法。最后,分析了当前自动图像标注技术存在的问题 以及发展方向。 第 2 章 图像自动标注技术及发展状况 - 15 - 北京工业大学工学硕士学位论文 - 16 - 第 3 章 基于 CMRM 的图像标注改进算法 本章介绍了基于 CMRM 自动图像标注框架,在此基础上,提出了基于普扩 散理论的图像分割改进算法,以及基于区域密度的 RPCL 改进聚类算法对 CMRM 图像标注模型进行优化最后使用 Corel 图像数据库进行测试,证明了改 进算法的有效性。 3.1 CMRM 图像标注方法的模型框架 基于联合媒体相关模型自动图像标注方法基本思想是:利用统计的方法建 立图像视觉特征与语义标注词之间的概率关系,通过学习二者之间存在的联合 概率分布,得出一组与图像视觉特征联合概率最大的语义标注词,作为图像的 最终标注词。 基于联合媒体相关模型自动图像标注算法主要分为学习建模和自动标注两 部分。首先通过训练学习图像视觉内容与语义概念之间的相关性,形成一个训 练集图像特征以及 CMRM 模型参数信息库;然后对一幅待测图像进行图像分割、 归类的处理,利用 CMRM 建立语义概念和视觉特征的相关性模型,计算标注词 与待测图像视觉内容之间的联合概率值,选取联合概率值最大的前五个标注词 对图像进行标注。CMRM 模型框架如图 3-1 所示: 第 3 章 基于 CMRM 的图像标注改进算法 - 17 - Normalized Cut图像分 割 K-means图像聚类 CMRM模型建模 视觉特征归一化 视觉特征提取 训练集特征及模 型参数数据库 Normalized Cut图像分割 视觉特征归一化 图像归类 内容表示: 视觉特征提取 待
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 鱼塘行业知识培训课件
- 高铁火车乘车安全知识培训课件
- 济南市2025-2026学年九年级下学期语文期中模拟试卷
- 集安市2025-2026学年九年级上学期语文期末测试试卷
- 高速铁路胀轨课件
- 高速铁路客运概述
- 高速消防员安全知识培训课件
- 电脑知识系列培训课件
- 电脑知识培训材料课件
- 建设工程调规及用地预审服务合同
- DISC沟通风格测试
- 员工个人职业健康监护档案
- 《护理伦理学》教学大纲
- 老年学概论(第3版)PPT完整全套教学课件
- (完整版)Hamilton汉密尔顿焦虑量表
- 浙江大学高分子化学第章课件绪论
- 大学体育:轮滑教案
- DB31-T 1380-2022 社会消防技术服务机构质量管理要求
- 景观生态学课件
- 常见天气系统课件
- 丁苯橡胶乳液聚合生产工艺
评论
0/150
提交评论