研究方法论课程论文

上传人：3*** IP属地：湖北上传时间：2021-10-24 格式：DOC 页数：6 大小：51KB 积分：30 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、基于语义的图像自动标注与检索研究摘要：随着多媒体和网络技术的迅速发展，图像数据不断扩大。如何有效的利用这些大量的图像，成为人们面临的一大难题。如何通过图像标注和检索来高效的利用图像资源，一直以来都是计算机领域的热点问题。然而最近的研究表明在基于内容图像检索和人类对于图像语义的理解之间仍然存在非常大的偏差。因此，在这个领域的研究逐渐转变成解决低层次图像特征和高层语义特征之间的“语义鸿沟”。因而基于语义的图像标注和检索技术是图像发展的必然，它融合了以往的许多图像检索的技术，建立图像的语义标注和检索机制势在必行。关键字：图像标注，图像检索，图像语义检索，语义鸿沟中图法分类号：TP391.431 文献

2、标志码：AAutomatic image annotation and retrieval system based on semanticKe Shanwuschool of computer science, Central China Normal University, Wuhan 430070,China;Abstract: with the rapid development of multimedia and Internet technology, image data is continually expanding. How to effectively use a bro

3、ad array of images becomes a major problem facing the people. How to efficiently by image annotation and retrieval using image resources, has always been a hot issue in the field of computer. However, recent studies have shown that in content-based image retrieval and humanitys understanding of imag

4、e semantics still exist the very large deviations. Therefore, research in this field gradually transformed into solving low-level features and high-level semantics between semantic gap. Image annotation and retrieval based on semantic technology is the inevitable image, it combines many previous ima

5、ge retrieval technology, it is imperative to establish mechanism for semantic annotation and retrieval of images.Keywords: image annotation, image retrieval, image semantic retrieval, semantic gap60 引言随着计算机处理能力日益增强，因特网(Internet)技术的广泛普及和网络宽带不断提高，大量的包括数字、文本、图形、图像、动画和视频等多媒体信息不断产生。图像时对客观对象的一种相似性、生动性的描述或

6、写真，它包含了被描述对象的有关信息，是人们最主要的信息源之一。数字化技术给人们带来了极大的方便，但同时，也面临着如何有效地针对海量数据进行分析，存储和检索的问题。对于图像信息而言，这些数据汇聚为一个海量图像数据库，如何从这些海量数据中搜索人们感兴趣的信息并有效利用这些信息依然是公认的难题。为了满足人们对图像的使用与检索需求，自20世纪90年代起，基于内容的图像检索(content-based image retrieve)系统应运而生。基于图像的内容如颜色、形状和纹理等特征来检索图像的技术(CBIR)应运而生，研究者已经开发了许多基于内容的图像检索系统，如Photobook1，QBIC2，Vi

7、rage3等。CBIR 的主要思想是根据图像的颜色、形状、纹理等底层特征建立图像的特征向量库，检索时对用户输入的图像作底层特征提取，再到图像的特征向量库进行查找，将最匹配图像输出。这些图像检索系统主要是检索与查询图像视觉上相近的图像，但是由于图像的底层特征与高层语义之间的不一致性，所以它们并不能很好地揭示图像内在的本质，图像深层的语义内容不能得到很好的反映。早期的图像检索系统基本上是利用图像的颜色、形状、纹理等底层特征进行相似性比较检索。然而图像的底层特征，并不能很好地揭示其内在的本质。图像的概念层语义信息没有得到表达。由于在传统的基于内容的图像检索(CBIR)中，计算机通过底层特征匹配得到的

8、图像与用户对图像信息的理解存在着不一致。人们所感知到的图像与用底层特征来表述的图像之间有着很大的差距。人们看一幅图像，不仅仅会看到图像的颜色、形状、纹理之类的视觉特征，还会看到图像底层特征后面的语义和情感，这是在 CBIR 系统中无法很好描述出来的高层图像语义，即在图像的语义和底层特征之间存在着“语义鸿沟”。由于图像的底层特征与高层语义之间的不一致性，所以它们并不能很好地揭示图像内在的本质，图像深层的语义内容不能得到很好的反映。因此我们需要对图像进行语义解释，在图像中加入高层语义特征，这样才能使计算机更好的理解图像。而图像的标注词能够很好地表达出图像的内在含义，它能够缩小底层特征和高级语义之间

9、的“语义鸿沟”。因此，基于语义的图像标注和检索越来越受到人们的重视，越来越多的研究人员投入了这方面的工作。通过基于语义的图像标注，给图像附加上语义层次上的信息，能使图像检索更加的有效。在早期的研究中，图像检索的主要方式有两种：基于文本的图像检索和基于内容的图像检索。基于文本的图像检索是通过手工对图像进行文本注释，使图像与文本建立关联，然后用成熟的文本检索技术与进行图像检索。这种检索方式存在很多问题，首先用手工标注图像工作量太大；其次，个人对图像的理解具有主观性，有时可能存在截然不同的理解，这使得基于手工标注的图像检索系统的效率很低。因此，传统的基于文本的图像检索已不能完全满足人们的要求。1

10、研究现状传统的基于语义的图像标注方法主要分为三大类：利用机器学习中的算法在图像特征与图像的文本词语之间建立联系；利用统计转换模型在分割后的图像块与文本词语之间建立对应关系；采用分类方法实现图像标注。在第一类方法中，首先利用机器学习算法在图像特征与图像的文本词语之间建立联系，然后用这些学习到的相关性去预测一些未知图像的文本词语，作为对图像语义内容的描述，典型代表是Co-occurrence模型4。这类模型把图像标注看作是从视觉特征到文本关键词的转换过程。第二种方法是利用统计转换模型在图像的分割块和文本之间建立对应关系5，代表模型是LDA(Latent Dirichlet Allocator)6和

11、Correspondence LDA7。这类模型的性能在很大程度上依赖于图像分割的质量。采用分类方法也可以实现图像标注。分类方法把每一个标注词语（或者每一个语义分类）看作一个独立的类别，然后为每一个文本关键词创建不同的图像分类模型。这个方法的典型代表是ALIPS(automatic linguistic indexing of picture)8。在ALIPS模型中，假设训练图像集合是已经分类好的，并且每一个类别用一个二维的多级隐马尔可夫模型 (Hierarchical Hidden Markov Model, HHMM)进行建模。但是，这类模型的缺点是它假设标注文本在语义上是相互独立的，这个

12、假设没有实际意义。在很多情况下，图像和文本文档对用户查询来说都是有意义的，如在 Web 搜索环境下。在这些情景下，多模态(Multimodal)图像检索有较为广阔的发展前景，如利用文本信息来提高图像的检索性能，满足用户的查询要求。人对图像的高层语义特征的理解可以利用文本描述出来。但是每个用户对图像语义的主观理解不尽相同，这大大增加了获取高层语义特征的难度9。如果没有一个标准的方法用来描述人对图像的理解，那么基于语义的检索系统就不会具有较好的检索性能。MPEG-7，又叫多媒体内容描述接口，旨在解决对多媒体信息进行标准化描述的问题，并将描述信息与多媒体内容相联系。MPEG-7标准采用XML文档存

13、储描述信息，目前XML己经成为数据描述和交换的标准，因此针对XML的半结构化特性，可以获得比传统图像检索方法更好的检索效果。2 图像检索的进展图像等多媒体信息急剧膨胀,推动了图像检索技术的不断发展。传统的检索技术,如基于文本的图像检索,己不能完全满足人们的要求,基于内容的检索方式的出现,解决了人们对图像视觉特征所代表的特征语义,但不能完全解决高层语义的图像检索。而人们更渴望获取高层语义内容,如两个队进行篮球比赛,人们关注的是各队的表现和球艺水平,而不是颜色、纹理等视觉特征。图像所蕴含的高层语义与底层特征之存在着较大的差距,这个巨大的差距影响了基于内容的图像检索的效果,因而建立图像的语义表示和检

14、索机制势在必行。图像检索涉及了数据库管理、计算机视觉、图像处理、模式识别、信息检索和认知心理学等诸多学科。考虑到计算机视觉和模式识别的发展水平,目前图像检索系统的高性能还必须建立在人机交互的基础上。图1是一种可能的图像检索系统结构。图像特征分析与提取查询检索需求检索机制用户界面检索图像用户结果命中记录反馈图1 图像检索模型结构Fig.1 Structure of image retrieval model2.1基于文本的图像检索早期的图像检索技术主要是基于文本的图像检索10,它是通过手工对图像进行文本注释,使图像与文本建立关联,用成熟的文本检索技术来进行图像检索。但这种检索方式存在很多问题,

15、首先用手工标注图像工作量太大,需要采用自动化或者半自动化的注释方式;其次,个人对图像的理解可能不一样,容易产生歧义,有时存在截然不同的理解,这也使得手工注解存在很大问题:再者,人们对图像的需求不仅仅是图像本身,还应包括图像所包含的更深层次的语义。一般来说,基于文本的图像检索过程可以用图2表示:输出检索匹配输入关键词结果图像库标引库图2 基于文本的图像检索过程fig.2 Text-based image retrieval2.2 基于内容的图像检索进入20世纪90年代后,随着多媒体检索技术的发展与广泛应用,早期的文本检索技术已不能满足用户的需求。人们迫切需要一种新技术来进行图像检索。基于内容的图

16、像检索11应运而生。CBIR是指根据媒体和媒体对象的内容及相互关系进行检索。它的研究目标是利用循序渐进的学习方法自动识别或理解图像的重要特征。当前,基于内容的图像检索可以直接从图像信息源中获得视觉内容特征,如颜色、纹理、形状等来判断图像之间的相似性。CBIR需要利用图像处理、模式识别、信息技术等领域知识来实现图像内容特征的提取、表示和检索。现在CBIR己成功地应用于许多领域,如指纹与头像识别、商标检索等。图3为基于内容图像检索的一个检索模型。用户用户界面检索特征提取图像资源知识辅助知识库图3 基于内容的图像检索模型fig.3 Content-based image retrieval mo

17、del2.3 基于语义的图像检索在实际应用中,用户往往事先对所需的图像只存在有关图像描述的对象、事件以及表达的情感等含义上的概念,用户需要的是图像含义的查询,而不是颜色、纹理、形状等特征。这些图像的含义就是图像的高层语义特征,它包含了人们对图像内容的理解,这种理解是无法直接从图像的视觉特征获得的,而要根据人们的认知知识来判断。因而,基子语义的图像检索12需要综合应用多媒体技术、人工智能、信息科学、认知科学等多学科知识来实现图像语义特征的提取、表示和检索。图4为基于语义的图像检索的过程。输出检索匹配图像库语义库结果输入关键词图4 基于语义的图像检索过程fig.4 Semantic-based i

18、mage retrieval基于语义的图像检索方法和传统方法相比具有以下特点:(l)检索结果不是孤立的图像列表,而是基于语义的相关图像或图像碎片的聚合；(2)用户可以根据语义链确定的路径浏览图像，并进行推理。目前，基于语义的Web图像检索方法已经在信息网格和知识网格平台得到实现，正交的语义空间进一步提高了图像检索的效果和智能性。要使图像检索技术真正满足普通用户的需求，必须利用更多的语义信息，一个理想的检索系统应该提供基于内容的检索和基于语义的检索方法。基于语义的图像检索系统的构建包括以下几方面的工作：(1)图像语义提取,即如何从视觉特征映射到高层语义；(2)设计高层语义的描述方式；(3)语义

19、检索系统的实现。3 图像检索研究的三个方向无论是基于文本的检索还是基于内容的图像检索，这两者一个共同的缺陷就是没有考虑人类的认知模型和原理，而把语义特征和视觉特征割裂开来。未来的图像检索系统应该能够满足以下几个要求：一、能够满足语义检索的要求，也就是说用户提交检索(不仅可以是样例图像，还可以是语言描述)请求后，系统能够分析用户的检索请求后进行检索，返回的结果图像不仅在视觉表征上先关，而且在语义表征上也相关。二、图像特征表示不仅包含视觉特征而且包含语义特征，而且视觉特征和语义特征可以相互作用。三、有效的知识库指导，具有智能决策能力，主要包括：视觉特征和语义特征之间的有效映射规则、视觉特征内部和语

20、义特征内部的有效联想规则、在线学习用户检索偏好的机制、用户的智能交互和相关反馈机制。因此出现了图像和语义的混合检索模型。是结合文本和内容，进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现，尤其是网络环境下，结合图像所在web文档的投特征分析，推断图像的特征，同时结合对图像的内容分析，共同标引达到对图像的分析和检索。不仅构造了从文本到图像的映射和从图像到文本的映射，而且在文本特征和内容表征内部也构造了联想结构，使我们可以综合语义特征和视觉特征进行检索。进一步，我们可以通过用户交互和相关反馈提高检索结果。总之，结合文本和内容的混合检索不仅具有比较坚实的认知心理学理论基础，而且它更加

21、符合人类的检索习惯，友好的人机交互和智能行为也会大大提高系统的性能。综合图像视觉特征和语义特征的混合检索代表着图像检索技术发展的方向。4 图像标注存在的问题图像自动标注(AIA)13是一个非常具有挑战性的研究领域。在AIA研究中有几个问题：一、高维特征分析。目前，所有现存的特征都在描述图片时都具有局限性。没有任何一种方法可以表示任何自然图片。在应用中，采取结合多种特征的方法来表示更多的图片。然而这种处理和分析方法需要高维特征，处理非常复杂。由于高维特征的存在，分类器的运行效率极大下降。因此，需要对降低特征维度，并选择正确数目的特征和正确的特征来进行标注。二、如何构建有效的标注模型。大多数现有的

22、AIA模型都是从低级图像特征中学习获得的。然而由于用于构建标注模型的图片的“组合爆炸”问题，样本图片的数量并不足以训练处足够准确地模型。因此，需要采用文本信息或者元数据来提升标注的准确性。然而，元数据并不准确也不充足。如何结合低级视觉信息和高级文本信息到一致性模型中成为了一个挑战性的课题。三、目前，多标签标注方法中的标签以及排序需要在线同时完成。对于图像检索来说这种方法并不高效。另一种方法是标签离线也就是首先利用概念/分类对图想进行标注并离线进行排序。一旦突破完成离线标注和排序，可以进行图像检索。四、如何利用单标签技术中获得的分类对图片进行排序来提升枷锁准确性。由于每个分类中图片具有某种分布模

23、式，高斯混合模型以及MAP排序时一个可行的解决方案。五、缺少标准词汇库以及词典来进行标注。AIA文献中使用了随机词汇库。如何分类图片仍然是未知的。需要一个分层模型对图片语义进行建模来分类图片。分层词典不但标准化了标注词汇并且允许更加使用的分布标注。在上述讲到的图像标注问题的最终问题是，现在并不存在通用的图像数据库进行AIA训练和评估。所有的AIA方法需要大量的预先标记图像样本来训练模型。此时，不同的AIA方法使用不同的图片集进行训练和评估，使得不同方法之间的性能对比评估非常困难。数据库与词典问题息息相关。如果有一个标准图像语义词典，就可以建立一个标准数据库。上述讲的这些问题都指出了AIA领域

24、未来的研究方向。结论本文对于急于内容和语义的图像标注和检索中的相关问题作了初步的综述，基于语义的图像检索原型系统中用到的基于wordNet 的词相关性标注校正模型有待改进。现在的模型只是根据wordNet、主区域、辅区域构建出标注向量，再权衡标注向量的权重；而在实际场景中，wordNet并不能完全描述词之间的相关性，基于内容和语义的图像检索。怎么把两者更好地结合起来，给用户提供更好地检索，也是个待研究的问题。无论是基于手工标注的关键字检索还是基于内容的图像检索，这两者一个共同的缺陷就是没有考虑人类的认知模型和原理，而把语义特征和视觉特征分割开来。而目前研究趋势出现的三个方向：立足于文本，对图像

25、进行检索、立足于图像内容，对图像进行分析和检索、结合文本和内容，进行融合性研究。可以说，三个方向都是相互影响和促进的，任何一个方向的进展都会促进图像检索技术向前更进一步。参考文献：1PENTLAND A,PICARD R W,SCLAROFF S.Photobook:Content-based manipulation of image databasesC.SPIE:Storage an Retrieval for Image and Video Databases II.1994:3447. 2FALOUTSOS C,BARBER R,FLICKNER M et al.Efficient

26、and effective querying by image content:the QBIC system J.Journal of Intelligent Information Systems,1994,3(3):231-262. 3HAMPAPUR A,GUPTA A,HOROWITZ B et al.Virage video engineC. Proceedings of the SPIE-The International Society for Optical Engineering. 1997:188-197. 4Mori,Y.,Takahashi,H.,Oka,R.mage-to-word transformation based on defining and vector quantizing images with words.C.The First International Workshop on Multimedia Intelligent Storage and Retrieval Management.1999:65-72.5Barna

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

研究方法论课程论文

文档简介

温馨提示

最新文档

评论

研究方法论课程论文

文档简介

温馨提示

最新文档

评论

相关文档