Web中图像的检索技术研究毕业论文.doc
1目录摘要.iABSTRACT.ii第一章前言.11.1引言.11.2现有的图象检索技术.11.2.1搜索引擎的工作原理.11.2.2图像搜索引擎的检索途径.21.2.3对几个基本引擎的分析.21.2.4搜索引擎的基本要点.31.3图像检索的发展方向.4第二章基于Web的图像搜索.62.1文本与图像之间的关系.62.1.1表示图像内容的文本标记.62.1.2文本的权值比较.62.2图像信息检索.72.2.1检索模型与相似度.72.2.2分词技术和匹配方法.82.3检索反馈.9结束语.11参考文献.11摘要在网络和多媒体技术越来越发达的今天,信息检索技术成了现在计算机领域的重要内容,而图像检索技术又正是这其中的重要内容之一。而网络资源的极大丰富以及图像检索技术不断发展成熟,使得图像检索技术的应用领域不断扩大,这为图像检索技术的继续研究提2供条件。人们为了对图像进行更好的使用和组织管理,便开发出了多种多样图像检索技术,本文首先要将各种图像检索技术的工作原理、研究现状、相关图像搜索引擎与发展趋势作一个介绍。随着网络传送速度与计算机信息处理速度的提高,网页中对多媒体信息的使用变得十分普及,特别是图像信息,己经成为表示网页内容不可缺少的组成部分。在实现对网页中文本信息提取的同时,如何再为用户抽取所需的图片资料,是信息检索中一个重要的方面。于是各种基于Web的图像检索系统应运而生。它们采用不同的工作方式,极大地方便了用户对网上图像进行检索。目前图像检索技术的发展正走向更加成熟和完善,其中Web图像搜索技术也更加完善,本文将介绍这种图像检索技术并阐述Web页中的图像与文本之间的关系,对相似度作出了详细的论述。关键字:搜索引擎图象检索文本处理信息检索相似度相关性反馈StudyofWebImagesRetrievalTechniqueAbstractToday,thenetworkandmultimediatechnologyaremoreandmoredeveloped,retrievaltechniqueofinformationhasbecometheimportantcontentofthecomputerfieldnow,and3pictureretrievaltechniqueisexactlyoneoftheimportantcontentsamongthem.Andnetworkresourcesareenrichedgreatlyandpictureretrievaltechniqueisdevelopingripeconstantly,makepictureapplicationofretrievaltechniqueexpandconstantly,thisoffertermsforpicturecontinuationresearchofretrievaltechnique.Peopledevelopvariedpictureretrievaltechniqueinordertocarryonbetteruseandorganizationalmanagementtothepicture,thistextshouldfirstactasanintroductionvariouskindsofpictureoperationprinciple,researchcurrentsituation,relevantpicturesearchengineanddevelopmenttrendofretrievaltechnique.Withtheimprovementofthetransferrateofthenetworkandinformationprocessingspeedsofthecomputer,itispopularizedverymuchthatthewebpagehitstheuseforinformationofthemultimedia,especiallytheinformationofthepicture,itshowsthecomponentwithindispensablecontentofthewebpagethatownbutbecome.WhilerealizingdrawingtheChineseversioninformationofthewebpage,howtocollectthenecessarypicturematerialsforusersagain,itisanimportantrespectininformationretrieval.ThenvariouskindsofpictureretrievalsystemsbasedonWebariseatthehistoricmoment.Theyadoptdifferentworkingway,helpusersearchtothepictureonlinegreatly.Thedevelopmentofretrievaltechniqueofthepictureismovingtowardsriperandmoreperfectatpresent,Webpicturetooperfecttosearchfortechnologyamongthem,thistextrecommendthepictureretrievaltechniqueandexplainWebpictureandrelationoftextofpage,makedetailedargumentationtosimilardegree,etc.,searchforthroughexperimentmodelconclusionindicatethehighefficiencythatthepicturesearchesfor.Keywords:SearchengineImageRetrievalText-processingInformationretrievalSimilardegreeDependencefeedback第一章前言41.1引言随着多媒体技术及Internet网络的迅速发展,图像来源不断扩大,大容量高速存储系统为图像的海量存储提供了基本保障,各行各业对图像的使用越来越多,图像信息资源的管理和检索也就显得越来越重要。但由于Internet本身结构上、管理上的问题,想要在Internet准确、快速、全面地找到自己所想要的图像,却变成了件非常不容易的事。由于Internet现有的问题:内容没有结构;网上信息量庞大且还在不断的增加。因此,网络产生了搜索引擎。虽然这些给网络用户提供了不少的帮助,但由于但离准确、快速、全面地搜索自己所要的图像还相当遥远,所以对图像检索还要作很大的研究。根据国内外现有的搜索引擎和国际上的有关研究小组的种种资料表明,现有的网络资源和搜索引擎有如下特点:(1)索引的数据种类丰富,如文字、图像、声音等多媒体。数据的存取协议也是多种多样的,如HTTP、FTP、News、Gopher等;(2)索引数据量大,以致不可能有某个数据库能包括整个Internet的索引,目前最大的搜索引擎,其中的索引也只不过覆盖了Internet的一小部分;(3)资源消耗太大,系统需要将HTML文件传送至本地然后分析,大量占用昂贵的网络带宽和CPU资源,增加被搜索结点的负担。另外由于现有的搜索引擎一般是集中式的,所以搜索引擎服务器本身的硬件配置也极高,才能处理庞大的数据量和及时地响应用户的查询请求;(4)不能有效解决索引失效问题,很多时候,搜索引擎会返回无效的查询结果;(5)各检索工具各行其事,不能相互协作,在一定意义上讲是一种资源的浪费。1.2现有的图像检索技术近年来随着用户对网上图像搜索要求的不断增长,各种图像搜索引擎应运而生,它们各自以不同的工作方式为用户提供各种检索途径,使网上图像信息的搜索变得非常简单,尽管还不很完善,却已经可以满足用户的大多数要求。1.2.1搜索引擎的工作原理最基本的搜索引擎的结构,是由Spider不停地从Web网上收集数据,存放在搜索引擎的数据库中。用户通过搜索引擎服务器上的Web接口,提出搜索请求,WebServer通过CGI或其它技术访问数据库,并将用户的搜索请求转换成相应的数据存取语句,送给数据库引擎处理,并把查询结果通过网页显示给用户。网络搜索的基本原理是通过网络机器人定期在web网页上爬行,然后发现新的网页,把它们取回来放到本地的数据库中,用户的查询请求可以通过查询本地的数据库来得到。一般来说网络信息检索的实现机制一般有两种,一种是通过手工方式对网页进行索引,它的缺点是Web的覆盖率比较低,同时不能保证最新的信息。查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配,而不是通过全文的匹配进行的。第二种是对网页进行自动的索引,这种能实现自动的文档分类,实际上采用了信息提取的技术。但是在分类准确性上可能不如手工分类。在现在所有运行的搜索工具来说,一般都有一个Robot定期的访问一些站点,来检查这些站点的变化,同时查找新的站点。一般站点有一个robot.txt文件用来说明服务器不希望Robot访问的区域,Robot都必须遵守这个规定。如果是自动索引的话,Robot在得到页面以后,需要对该页面根据其内容进行索引,根据它的关键字的情况把它归到某一类中。页面的信息是通过元数据的形式保存的,典型的元数据包括标题、IP地址、一个该页面的简要