




免费预览已结束,剩余5页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
相似图片搜索引擎综述相似图片搜索引擎综述万 飞 姜陆洋 吴 非摘要:随着多媒体信息的爆炸式增长,图像搜索引擎应运而生。但是传统图像搜索引擎远远不能满足人们的需求,相似图片搜索引擎出现了。本文首先介绍了相似图片搜索引擎的起源与发展,阐述了相似图片搜索引擎的基本原理与涉及到的关键技术,并于传统的关键字图片搜索引擎进行了对比,在此基础上,讨论了相似图片搜索引擎的个人应用与社会应用,及其未来的发展趋势。关键字:图片搜索 相似图片搜索引擎 关键字图片搜索引擎一、引言搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。 摘选于百度百科从搜索引擎发展初期单纯的文字搜索、Web界面搜索到如今针对各种信息的搜索,搜索引擎产业和技术飞速发展,在短短的时间内已经成为了大众日常生活中极为依赖的一种信息摄取方式,随着搜索引擎的不断完善和智能化,这种依赖度也会越来越高,这也为搜索引擎今后的发展提供了更高的要求和更大的挑战。从目前的搜索引擎发展来看,更大程度上倾向于多媒体搜索和高精度搜索方向发展,而单纯的文字搜索已经逐渐增加了图像等新型元素,而图片搜索技术也就应运而生。早期的图片搜索引擎是把互联网中服务器上的图片地址收集起来,根据图片资源的类型而划分成不同的目录,再一层层地进行分类。用户按照现有的分类层层搜索,就能找到自己想要的图文信息。这种最原始的方式只适用于互联网信息较少的时候。随着图文信息几何式增长,才出现了真正意义上的图片搜索引擎,这类搜索引擎可以识别网站上每一页的内容开始,随后搜索互联网上的所有超级链接,并且将代表图片或是图文超级链接的所有词汇放入一个数据库。这就是现代图片搜索引擎的原型了。 摘自王炯 探访图片搜索 2007 中国互联网大会专刊随着图片搜索引擎的不断发展,国内外涌现出一批批优秀的搜索引擎,如国外的Google Images、Yahoo Images和国内的百度图片搜索。图片搜索专家和搜索引擎产品经理认为图片搜索是目前垂直搜索领域内发展最快的一个。根据Hitwise数据调查显示每年图片增长的比例是90%,每月共有36万搜索用户通过Google, Yahoo, Ask, MSN和AOL大型搜索引擎进行搜索。在这5个搜索巨头之中,他们都有专业的图片搜索,其中Google, Yahoo, MSN还将图片整合进了普通的搜索结果中。相比之前的技术水平,这些图片搜索引擎的性能更为卓越,搜索结果也更为精确合理。现代的搜索引擎主要是针对网页中图片的Alt属性、图片关键字、页面Title等属性进行分析,并返回给用户所搜索到的图片。这种技术现在发展已经较为成熟,提升空间较小,但在某些情境下仍不能满足使用者的需求。比如用户想找北京的某一个景点的图片,却又不清楚的记得具体名字,如果在搜索引擎中输入“北京景点”,作为搜索关键词进行搜索,得到的结果很可能只是北京的很多景点图片,而没有进一步缩小结果范围或确认搜索结果的措施。或者说偶然看到一些不错的图片,像论坛头像、网站缩略图等,他们的质量、分辨率都太低或者带有水印的,不适合收藏,这种情况传统的图片搜索引擎没有办法进行搜索,一种基于图片和画面的搜索技术就显得非常必要了。由于“以图搜图”这种搜索引擎刚刚起步,搜索技术还不是非常成熟,可以搜索的图片范围也不是非常的广,但应对一些日常的使用还是绰绰有余的。目前发展较为迅速且技术较为成熟的主要有T,Gazopa,Xcavator,Incogna等,国内的百度识图和安图搜两个搜索引擎也较有发展潜力。在这些搜索引擎中各自的用途不尽相同,像安图搜主要是应用于电子商务领域,而Tiltomo主要为了维护Flickr自身数据库等。目前加拿大的T和国内的百度识图较为世人所知,这种搜索引擎通过用户上传本地图片或输入网络图片URL地址在互联网上进行搜索,我们可以把这种搜索技术视为一种利用已有图像搜索类似图像的反向图片搜索引擎。二、相似图片搜索引擎的原理与技术(一)相似图片搜索引擎的原理目前关于相似图片搜索引擎的原理,浅谈图片搜索引擎的实现 网络博客,参考/2007/12/19/265.html提出了跨时代意义的设计思路。比较合理的有以下两条:1.提取事物特有的信息对搜索引擎进行训练对于搜索引擎来说,中文分词不同于英文分词,英文可以按照空格来划分单词,但是中文却是连成一片的。所以为了提高中文分词的准确率,通常会准备大量的语料对其进行训练,以提高搜索时的查准率和查全率。对于3DMax工具建模,在构造某一事物的时候,最先需要对这一事物的特征进行分析,确定好坐标,然后进行构造。不管后面用什么场景来渲染,所建的模都是一样的。比如茶壶,有自己特有的曲线,还有人的脸,一些坐标是相对固定的,不管这个人是年轻,还是变老,这些特征都是无法改变的。仿照中文分词训练的思路,如果可以采集到足够的“语料”,对搜索引擎进行训练,那么随着训练的进行,搜索引擎认识的东西也就不断的增加,能够提供给我们的信息帮助我们解决的问题也就越来越多,从而搜索引擎的功能也能不断完善。这个和早期的文本搜索引擎的发展应该是一样的。2.对多媒体文件的内容进行分析索引所有文件在存储的时候,都是以比特流的形式储存在计算机内的,对于图片来说也是如此,所以我们可以采用以下的思路:比如BMP位图,实际上是以比特流,也就是位的方式存储的,某一类物质,比如说玫瑰花,实际上内部的很多比特流都是有一定特征的,因此我们可以根据比特流的特征,将物质进行分类,从而得到一类物质,然后再根据这类物质内部的特征进行细分,得到与搜索目标契合的图片。这个和通常意义上的文本分类很像,先根据大的特征进行大的分类,然后范围逐步缩小,最终确定目标。(二)相似图片搜索引擎的技术目前在进行图片搜索时,主要搜索过程是这样的:图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立特征索引库,用户只需将要查找的图像上传或者输入URL地址,或者是勾勒图像,就可以找出与之具有相近特征的图像。图像搜索引擎的检索技术涉及了数据库管理、计算机视觉、图像处理、模式识别、信息检索和认知心理学等诸多学科,其相关技术主要包括:图像数据模型、特征提取方法、索引结构、相似性度量、查询表达模式、检索方法等。相似图片的检测主要涉及特征表示和相似性度量这两类关键技术。图像特征的提取与表达是基于内容的图像处理技术的基础。下面本文将详细论述图像特征提取技术 参照范立南、韩晓薇 张广渊图像处理与模式识别科学出版社。在认知事物时,我们首先要确定应该测量哪些对象的哪些特征以产生描述参数。适当地选择特征是很重要的,因为在识别对象时它是唯一的依据。特征提取是对模式所包含的输入信息进行处理和分析,已找到不受随机因素干扰的特征并将其提取出来。特征提取过程对于去除冗余信息,提高识别精度、减少运算量具有极大的好处。良好的特征应该具有区别性、可靠性、独立性、数目少这四个特点。首先提取出来的事物的特征应该能够区分不同类别的模式,即区别性;其次,对于所有同一类别的模式,特征应尽量一致,即可靠性;第三,特征之间应该互相没有联系,即独立性;最后,特征的数目应该在保证区分模式的情况下尽量少,以达到之前减少冗余的目的,即数目少。目前较为主流的特征提取方法主要有不变矩方法、傅立叶描述符方法、模板匹配法等。图像特征主要包括色彩、分辨率、灰度、对比度、亮度、色饱和度等。这些图像特征信息都可以作为图像内容收集起来,制作成每一张图像的特征文件于数据库之中待用。考虑到以上良好特征的特点,主要要考虑以下几个因素:(1)图像的区分能力,所选取的特征应该能够很好的区别视觉上差异较大的图像。这类特征主要有颜色等;(2)特征计算的复杂程度,所选取的特征不能太复杂,要容易表示和计算;(3)存储空间的限制,考虑到数据库存储空间等方面的问题,所选取特征的数目不能太多。图像文件的大小、尺寸等需要我们另外进行研究。考虑到图像文件很容易被放大缩小等操作,利用上述单一的图像特征反映不出来图像的尺寸改变。选用图像内容的多个参数比作为图像内容特征的参数,可以很好地反映出图像特征。研究者选择了图像的颜色和图像面积的比值作为图像内容的特征来区别图像,此比值称为色面比 基于图像特征提取的搜图引擎南开大学信息学院 刘振宪。通过色面比,我们就可以区别图像放大及缩小的改变。色面比有多种定义方法,这里给出它的定义是每张图像的不同颜色分量位图所占用该图的面积和整个图像位图面积之比为色面比。比如红色色面比值为1%,也就是说所有红色位图占总面积位图的1%。有了色面比值,当图像尺寸改变时,其色面比值不变。若两图像色面比相同,那么我们就可以认为这两张图片相同或者相似,而与图像的大小和尺寸无关。图像的色面比值大,说明该颜色占图像位图面积大,最大色面比是占该图像最多的颜色或主要颜色。占一张图像前三位的色面比一般决定该图像的主要特征。提取图像中前三位色面比值,作为图像特征,按一定规律对数据库中图像色面比值进行排序,可以得到一个新的色面比值索引库。在搜索时,对被搜索图像也进行同样提取处理,生成和索引库中相同的色面比值数据,再和搜索索引库中图像进行比较,找到色面比值相近的图像作为搜图备选结果提供给用户。但是,只利用色面比进行图像识别是不足的。对于一类特殊的图像,如人脸图像,图像之间的色面比的差异不大,因此,还需要辅助以图像的灰度特征以及形态学进行图像的边缘检测。边缘是图像中灰度级或者结构或多或少存在突变的地方,表明了一个区域的终结以及另外一个区域位置的开始。边缘能够传递图像的很多信息并且能够勾勒出物体的基本轮廓。经典的边缘检测的方法是基于空间运算的,包括对应于一阶微分的梯度法和二阶微分法。通过边缘检测,我们就能得到图像的几何特征并存入数据库。用户搜索时,首先识别被搜索图像的边缘,然后与索引库中的图片进行比较,得到相近的图像作为搜图备选结果呈现给用户。三、与关键字图片搜索引擎的差异传统的关键字图片搜索引擎利用网页中的文本内容以及网页标签提取有关图片的信息获得图片的信息,当用户输入检索关键字时,搜索引擎根据关键字索引库获得搜索结果并呈现给用户。但是,这对图像搜索是远远不够的。图像文件不仅具备文件的各种属性,同时还能提供很多关于图像内容的信息。显然,只有充分提取图片包含的内容信息,才能真正达到图片搜索引擎的效果。这样的图片搜索引擎才能被称为真正的图片搜索引擎。在使用相似图片搜索引擎时,用户可以有多种搜索方式,如关键字搜索或者是上传图片搜索,之后搜索引擎根据图片特征库对比图片特征,同时在关键字索引库中搜索关键字,得到搜索结果呈现给用户。这两种搜索引擎的具体过程以及之间的对比如下图所示: 图1 关键字图片搜索工作流程 图2 相似图片搜索工作流程从上图中我们可以看出,相似图片搜索引擎不仅包括关键字索引库搜索,同时考虑到了图片特征,从图片索引库中搜索,搜索得到的结果自然更加的精准。在这个过程中,比较困难的就是构建图片特征库,不仅需要耗费大量的时间,同时还要耗费大量的精力。但是,就用户而言,搜索界面仍然简单易行,与原有界面没有太大差距,人机交互性很强。四、相似图片搜索引擎的应用(一)个人应用相似图片搜索在个人日常生活中的应用十分广泛,本文认为主要可以分为以下几个方面:1寻找图片详细资料。人们可以通过相似图片搜索引擎寻找到目标图片的来源以及图片内容的详细资料,对个人的学习和生活具有很大的作用,网络“百科全书”的作用更加凸显。例如在野外看到一棵不知名的植物,就可以通过这张图片找到该植物的详细信息。2寻找与原图片相应的清晰大图如果原图片较小或者上面有水印、图标等,而这时又亟需一张清晰大图,可以通过相似图片搜索引擎搜索到与之内容相同的符合要求的图片。3通过图片的局部寻找完整图片。相似图片搜索引擎可以帮助人们通过已有的局部图片寻找到完整图,反过来,它也可以找到原图的局部图。4了解其图片的使用情况。通过相似图片搜索引擎,维护个人的肖像权和作品版权。人们可以通过相似图片搜索引擎查看自己的照片是否被非法使用,摄影师、设计师等也可以了解到自己的作品被哪些网站使用,是否存在侵权现象等。(二)社会应用相似图片搜索引擎在社会方面也有很大的应用,比如打击非法使用认证标识的行为,发现侵权和盗版行为,促进电子商务发展等等。1打击非法使用认证标识行为认证标志是对企业产品质量的权威认证,企业依法使用认证标志,对于维护消费者权益、保障产品质量安全具有重大意义。但是,目前有些企业仍然非法使用认证标志,妄图欺骗消费者。如图三所示,原图是国际公平贸易认证章,由国际公平贸易标签组织发起。当某商品达到一个非常高的标准时才能申请使用公平贸易认证章,然而这张图片却非常容易得到。于是通过TinEye(一个相似图片搜索引擎)得到了以下搜索结果,均是通过改原图的颜色、文字等方式非法使用原图。类似的例子有很多,社会上有许多针对不同事物的不同属性进行评价或认可的认证标识,通过相似图片搜索引擎,认证标识的颁发机构可以发现到滥用标识的现象,并及时采取措施。(原图)(搜索结果)图3 非法使用认证标志2发现盗用现象相似图片搜索引擎可以帮助人们发现这类通过图片处理技术盗用Logo、修改名画、恶搞明星等侵权山寨行为,保护人们的权益。如下图所示,原图为Transmit的Logo,Transmit是MacOSX上一款实用且很受欢迎的FTP 客户端软件。作为一个Logo,这辆小卡车是有版权的。然而通过搜索可以发现,这辆小卡车已经被很多人改变了颜色、背景、花纹等。(原图)(搜索结果)图4 标签非法盗用3.促进电子商务的发展目前,网上出现了一些基于图片进行全网比较购物的相似图片搜索引擎。用户只要在网站上输入网络商品图片进行搜索,就能找到全网同款和相似的商品。即使是同一款商品不同的店铺使用了不同的主图片,也能被深度挖掘出来,通过商品比较后,就可以直接进入商品所在的店铺进行购买。让顾客花最少的钱,买到最实惠的产品,对电子商务的发展具有深度意义。如下所示,一名网友想要买原图所示的外套,通过“安图搜”搜索该图片,可以得到下面的结果,通过对不同店铺内该外套的价格、质量、买家评价等方面选择最实惠的商品。(原图)(搜索结果)图5 电子商务应用五、发展前景目前图片搜索引擎的技术仍然不太成熟,属于一种新兴的搜索引擎技术。但是在未来,其发展必将越来越好,本文认为下一阶段的前景主要有以下几个方面:(一)应用方面新一代的相似图片搜索引擎引擎应该考虑人的性别、年龄、地域等方面的差异,给出个性化的搜索结果。目前,综合性的图片搜索引擎已经不能满足很多非本地用户的信息需求。相似图片搜索引擎的专业化、个性化趋势将会不断加强。比如,随着电子商务的快速发展,应用于网上购物领域的服务方向的相似图像搜索引擎将会越来越多,更多的是为用户提供在网购方面的体验。另外
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 62541-18:2025 EN-FR OPC unified architecture - Part 18: Role-Based Security
- 【正版授权】 IEC 60335-2-49:2021+AMD1:2025 CSV EN Household and similar electrical appliances - Safety - Part 2-49: Particular requirements for commercial electric appliances for keeping
- 初中数学垂直于弦的直径 课件人教版数学九年级上册
- 新解读《GB-T 14592-2014钼圆片》
- 人版八年级英语(上册)期末复习知识点总结
- DB6108-T 69-2023 马铃薯黑痣病防控技术规范
- 老年人防灾减灾知识培训课件
- 老年人轮椅使用课件
- 老年人科学戒烟知识培训课件
- 重卡充电知识培训课件
- 《城市轨道交通车辆标志规范》
- 人事工作目标及规划
- 第十三讲-先锋队与中华民族独立解放-中华民族共同体概论教案
- 糖尿病处方点评
- 诊断学-常见症状的诊疗(临床疾病概要课件)
- 咨询类合同合同范例
- 九上道法【思维导图+重点句+考点问题+典型例题】
- 水土保持工程概(估)算编制规定
- 2024至2030年中国山西省轨道交通行业市场深度研究及投资战略规划报告
- 《第一课-学会管理情绪课件》高中心理健康教育北师大版高中二年级全一册1634
- 旅游新媒体营销
评论
0/150
提交评论