全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Building and Using a Semantivisual Image Hierarchy学术论文读后总结现代信息技术日新月异,发展飞速,数码相机已经人们生活中的得到普及,这使我们能够轻松地记录和分享生活中的每一个精彩瞬间。因此,在科技和网络相当发展到较高水平的今天,我们存储在设备中的或上传到网上的数字信息都是相当巨大的,这种信息量的急剧膨胀的情况下,我们迫切希望有一种工具,能够帮助我们更科学更方便地对这些巨大的信息量进行组织、浏览和检索。一种分层的观念就这么应运而生,因为分层是一种人们可以想到的自然而然的方法来结合图像的语义与它所含的视觉信息。一个有意义的图像层次可以使我们能够更方便更高效地实现图像组织、浏览和检索,并可以进一步应用在图像的注释和分类中。1.已有算法的不足建立一个有意义的图像层次成为亟待解决的学术前沿问题,许多学者都曾在此领域进行探索,并取得了一些研究成果,【1,2】提出了基于语言的分层方法和基于底层视觉信息的分层方法。WordNet就是一种基于纯语言的分层方法,并在计算机视觉和多媒体领域广泛应用在图像检索【3,4,5】和目标识别【6,7】,这样的图像层次一定意义上对图像组织上有帮助,但是忽略了能够将图像联系在一起的更重要的视觉信息。【8,9,10】中提出了基于纯视觉特征的分层方法,这种方法的提出是基于他们观察到图像的组织不是一定要遵循它们的语义层次,但很容易发现,纯视觉特征的分层方法的局限在与,这种特征难以描述,而且也难以直接地评估它在应用中的有效性。2.文章的贡献为了能够建立一个有利于完成诸如图像注释和图像分类这样任务的图像层次,作者提出了一种方法结合了图像的语义和视觉信息来创建图像层次。该方法的提出有一下贡献:1.给出图像集合和它们对应的标签集合,算法可以自动地创建一个图像层次,能够将这些图片以“普通特别”的层次组织在一起;2.文章算法给出一种通过人们主观感知的量化评估方法,得到这样的结论,文章提出的语义视觉层次相对于其他的分层方法更有意义、更精确。3.文中方法创建的图像层次能够在图像分类和图像注释等应用中更具有效性。文章在如何建立语义视觉层次、如何使用所创建的层次以及如何评估所创建的层次三个方面做了详细的阐释。3.建立图像层次建立图像层次的主要方法是:1.运用图像分割技术将图片分割为多个区域;2.对分割后的每个区域提取四个视觉特征,分别是颜色特征、纹理特征、位置特征以及量化的SIFT直方图【11】。3.一个图像与它对应的标签集合W1,W2,Wm组成一个“图像-标签对”;4.每个图像都有一个文本的路径与之相对应,分割出的每一个子区域对应路径中的一个节点,这取决于该区域的视觉特征所表达的视觉概念。4.学习语义层次学习语义视觉图像层次,需要学习的参数有3个,分别是概念索引Z、耦合变量S以及路径C,为了能使表达统一概念的图像和标签能够联系起来,就需要学习Z个S,为了使一个图像对应其在图像层次中的位置,就需要学习Z和C。使用的数据集:文章中使用Flichr中4000个用户上传的图像以及538个不同的标签,涵盖了40个图像类别,使用这些图像和标签进行训练和学习,最后得到的图像层次包含了121个节点和4级的路径53条。这个图像层次有一下特点:1.层次中的路径遵循一个“普通特别”的规则,在层次的上层表达的是更普通、更宽泛的概念,越往下走就是更具体、更具描述性的概念。2.纯视觉信息所建立的图像层次往往从某些角度讲不具有丰富意义,比如“在生日宴会上跳舞”与“生日蛋糕”两个内容的图像在纯视觉上很难联系起来,而文章中建立的图像层次就能够用它们的父节点“生日”将它们联系起来。3.纯语言的图像层次也会遗漏一些图像之间的联系,比如“铁塔”和“商业区”两个概念,但在文中建立的图像层次就能够用它们的父节点“建筑物”将它们联系起来。4.文中建立的图像层次中,因为精密地结合了视觉和文本信息,较高层次的节点表达更普通的概念,而较低层次的节点表达更具体的概念,则图像与每个节点的对应情况是多样的,这是纯基于视觉特征的算法所达不到的。5.量化评估文章的另一个突出的贡献,也是区别于其他文献的重要部分,就是文章中实现了图像层次的量化评估。如何判断一个图像层次的有效性,文中提出了两种评估准则:1.图像层次中属于同一条路径的图像表达类似的概念,它们应该用类似的标签注释;2.对于同一条路径上的不同层次的节点而言,它们之间的关系应该是较高层次的表达较普通的概念,而较低层次的表达较具体的概念。正对这两个评估准则,文章采用了两种评估方法进行实验:1.给出一副图像及描述它的6个文本标签,其中5个与图像内容联系密切,有1个与图像内容相关性低,通过文中训练学习的图像层次模型,能够识别出哪一个标签与图像内容不符,识别准确率高达92%。实验中与【12】中只使用文本聚类的算法相对比,实验结果表明,文中建立的图像层次比基于纯文本的方法更具有效性。2.给出一幅图像及正确描述图像的n个标签,在无先验知识的情况下,我们不知道这幅图像应该对于这些标签对应的怎样的层次路径,这种情况下,我们穷举的话有你n!种排列的路径,通过文中训练学习的图像层次模型,能够识别出哪一个路径遵循“普通特别”的原则准确描述这幅图像,实验中与【12】的nCRP方法相对比,前者准确率为59%,后者为50%,可见文中的层次模型更具有效性。6.图像层次的应用能够直接体现一个图像层次的价值的就是它在具体应用中的有效性。文章围绕着3个方面的应用对建立起来的基于语义视觉的图像层次的有效性进行了充分的说明。1.图像注释:利用图像层次模型对给定的图像进行注释,所得到的注释同样遵循“普通特别”的层次特点。文中模型的准确率达到46%,而nCRP【12】算法的准确率为16%,可见该模型在前人研究成果的基础上,实现了更高的飞跃。2.图像标识:文中训练学习的模型也可以被当做一种知识,这种知识体现了视觉概念与语义概念的联系,所以对于一副给定的图像,可以得到一系列语义标签,这些标签不一定是层次关系的,但他们可以描述属性的内容,文中算法的准确率高达74%,而Corr-LDA【13】算法的准确率只有44%。3.图像分类:这一直都是图像领域一个具有挑战性的任务,如果得到的层次模型中包含K个节点,则给测试图片分配一个K维向量,使得每个节点对应一个值,只有与图像内容相关的节点对应的值不为零。实验中先计算测试图片与训练图片的欧氏距离,在使用KNN算法来获取正确的标签。最后与经典的图像分类算法SPM【14】、SVM【15】等算法进行比较,结果表明文中提出的语义视觉层次模型的分类的准确度达到30%,而其他算法的精度在9%至23%之间。7.总结这篇文章在图像处理的研究领域做出了突出贡献,作者在分析到基于文本的和纯基于视觉特征的方法的缺陷后,创造性地提出了一种基于文本标签和视觉特征相结合语义视觉层次模型。整篇文章系统地阐释了如何创建一个有意义的图像层次、如何对图像层次进行量化的评估以及如何学习并使用层次模型,并使用大量的对比实验来说明文中提出的图像层次在解决图像分类等学术前沿问题中的应用价值,文章的思想为更好地组织、浏览和检索图像开拓出了另外一条道路。参考文献1 G. Miller. WordNet: A Lexical Database for English. COMMUNICATIONS OF THE ACM, 1995.2 R. Snow, D. Jurafsky, and A. Ng. Semantic taxonomy induction from heterogenous evidence. In ACL, 2006.3 Y. Jin, L. Khan, L. Wang, and M. Awad. Image annotations by combining multiple evidence & WordNet. In ACM MM, 2005.4 D. Joshi, R. Datta, Z. Zhuang, W. Weiss, M. Friedenberg, J. Li, and J. Wang. Paragrab: A comprehensive architecture for web image management and multimodal querying. In VLDB, 2006.5 R. Datta, W. Ge, J. Li, and J. Wang. Toward bridging the annotation-retrieval gap in image search. IEEE MM, 2007.6 M. Marszalek and C. Schmid. Semantic Hierarchies for Visual Object Recognition. In CVPR, 2007.7 A. Torralba, R. Fergus, and W. Freeman. Million tiny images: A large data set for nonparametric object and scene recognition. PAMI, 30(11):19581970, 80.8 N. Ahuja and S. Todorovic. Learning the Taxonomy and Models of Categories Present in Arbitrary Images. In ICCV, 2007.9 E. Bart, I. Porteous, P. Perona, and M. Welling. Unsupervised learning of visual taxonomies. CVPR, 2008.10 G. Griffin and P. Perona. Learning and Using Taxonomies For Fast Visual Categorization. In CVPR, 2008.11 D. Lowe. Object recognition from local scale-invariant features. In ICCV, 1999.12 D. Blei, T. Griffiths, M. Jordan, and J. Tenenbaum. Hierarchical Topic Models and the Nested Chinese Restaurant Process. In NIPS, 2004.13 D. Blei and M. Jordan. Modeling annotated data. SIGIR, 2003.14 S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of fea
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保险经纪人助理团队建设方案
- 仓库经理仓库物流管理培训
- 防水建设工程合同范本
- 元数据安全专员岗位培训课程大纲
- Java敏捷开发实战面试技巧
- 工厂拆除车间合同范本
- 宾馆物品租赁合同范本
- 企业信息化建设方案提升运营效率
- 小区家具维修合同范本
- 机械专业学生的就业前景与规划
- 学习回信精神担当青春使命
- 江苏省无锡市江阴市部分学校2025-2026学年高二上学期期中联考数学试卷(无答案)
- 客户关系管理客户关系分级分类模板
- 绿化维护服务保证书
- 榆林镇北台红石峡景区招聘考试真题2024
- 2025年6月浙江省高考历史试卷真题(含答案解析)
- 2024甘肃会考信息技术试题
- 2025秋青岛版(五四制)2024三年级上册科学期中检测卷(附参考答案)
- 2025云南宣富高速楚雄市东南绕城高速元绿高速那兴高速高速公路收费员招聘341人笔试历年参考题库附带答案详解
- 2025医院安全隐患排查治理专项行动的实施方案(详细版)
- 彼得·蒂尔:硅谷教父的叛逆人生
评论
0/150
提交评论