地理信息Web检索系 统体系结构、原理及发展.doc_第1页
地理信息Web检索系 统体系结构、原理及发展.doc_第2页
地理信息Web检索系 统体系结构、原理及发展.doc_第3页
地理信息Web检索系 统体系结构、原理及发展.doc_第4页
地理信息Web检索系 统体系结构、原理及发展.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4期 杜 萍等:地理信息Web检索系统体系结构、原理及发展 395地理信息Web检索系统体系结构、原理及发展杜 萍,刘 勇(兰州大学 资源环境学院,兰州 730000)摘 要:介绍了地理信息Web检索系统的含义、体系结构及基本原理,并重点阐述地理信息检索系统的发展,包括该领域两个重要的研讨会:GIR和GeoCLEF;讨论了地理信息Web检索系统与Google Maps等通用地理类搜索工具的区别,并对一个有代表性的地理信息Web检索系统SPIRIT做了详细说明;指出地理信息Web检索系统目前面临的挑战包括:地理本体的建立,页面地理信息的抽取,空间索引的建立,主题和空间双重搜索模型的运用,搜索结果的排序及搜索结果的地图可视化。关键词:地理信息Web检索;体系结构;基本原理;GIR;GeoCLEF;SPIRIT中图分类号:P208 文献标识码:A 文章编号:1001-5221(2010)04-0392-05Web的不断发展和日益普及使得网上的信息量飞速增长。搜索引擎的诞生为人们有效、准确地获取所需信息提供了很大的帮助。据统计,在人们提交给搜索引擎的查询中,约1/5跟地理信息有关1。然而,当人们把带有地理信息的查询提交给搜索引擎后,发现检索结果过于庞大,准确率不高,用户难以快速准确地找到自己所需要的信息。这是由搜索引擎的检索方式决定的。目前,搜索引擎大多采用传统信息检索方式2:基于关键字的检索和基于分类目录的检索。这两种检索方式都无法处理丰富的地理语义和空间关系,例如,对于用户查询“campsites west of Oxford”,搜索引擎将空间关系“west of”当做用户输入的关键字,那些在页面中明确出现“west”却跟用户查询需求相差甚远的网页往往会排在搜索结果的前列,从而导致搜索结果的不如人意。由此可见,现有搜索引擎的地理信息检索功能是有限的、不完备的,只有开发专门的地理信息Web检索系统才能更加合理、有效地检索Web上大量的地理信息。本文中的地理信息Web检索系统和其他文献中提及的地理信息搜索引擎3,4具有相同的含义。1 地理信息Web检索系统的含义、体系结构及基本原理1.1 含义地理信息检索是指在互联网、数据库或数字图书馆等数字资源中检索跟地理位置有关的信息,并对检索结果按某种方式排序。它允许用户把查询限制在一定的地理区域以内或区域附近,构成“带有地理约束的查询”来检索数字资源5。“带有地理约束的查询”由用户指定的主题信息和地理信息两部分构成,前者是用户输入的一个或多个关键字,后者通常采用多种表达方式:(1)用户输入的地理信息,包括地名、地理概念(如“城市”、“河流”)、地理位置关系(如“附近”、“以北”)等;(2)用户在地理信息检索系统提供的地图上用鼠标选择一定范围的地理区域或某个具体的地理位置。例如,在带有地理约束的查询“campsites west of Oxford”中,主题信息为“campsites”,地理信息为“west of Oxford”。跟传统的信息检索系统相比,地理信息检索系统不再把查询中的地理信息当作主题信息对待,而是将其区分开来,以完成主题信息和地理信息的双重检索。本文讨论的地理信息Web检索主要是指检索范围为Web而不是其他数字资源。1.2 体系结构及基本原理地理信息Web检索系统通常包括一个网页数据库,一个地理信息词典,一个信息抽取器,一个文本索引数据库,一个空间索引数据库,一个基于主题信息和地理信息的双重检索模块,一个处理地理信息查询的用户界面和一个搜索结果排序模块6-7,其体系结构如图1所示。地理信息Web检索系统的实现原理,可以分为5个步骤4,8-9:从Web上抓取网页查询处理建立文本索引数据库和空间索引数据库检索对检索结果进行处理和排序。网页数据库文本索引空间索引搜索结果排序查询处理主题&地理双重检索网页采集程序用户界面Web信息抽取空间索引数据库地理信息词典(地理本体)文本索引数据库图1 地理信息Web检索系统的体系结构Fig 1 Architecture of Geographic Information Web Retrieval1.2.1 从Web上抓取网页 利用能从Web上自动收集网页的网络采集程序,从给定的起始URL集合开始,沿着网页中的链接按照某种策略遍历Web,不停地从起始URL集合中移除URL,下载相应网页,解析出网页中的超链接URL,看是否已经被访问过,将未访问过的URL加入到起始URL集合中。重复这一过程并把遍历过的所有网页收集到网页数据库中。1.2.2 查询处理 地理信息Web检索系统接受来自用户的查询后,就结合地理信息词典或地理本体等进行查询歧义去除、查询解释、查询扩展和系统查询生成等查询处理操作,将处理过的查询提交给检索模块,由检索模块完成主题信息和地理信息的双重检索。1.2.3 建立文本索引数据库和空间索引数据库 文本索引数据库的建立:通过信息抽取,提取出索引项(关键词)来表示相关网页信息,并根据一定的相关度算法进行大量复杂计算,得到每一个索引项的相关度(或重要性)。然后,用这些相关信息建立网页的文本索引数据库。目前,地理信息Web检索系统的文本索引通常采用传统信息检索中的索引结构,如倒排表等。 GIR10:The 6th Workshop on Geographic Information Retrievalhttp:/www.geo.unizh.ch/rsp/gir10/。空间索引数据库的建立:从 Web页面抽取地理信息,建立空间索引并存入空间索引数据库。空间索引通常采用较为简单的索引结构,如规则格网、四叉树,R-tree等,方便检索模块快速、准确地完成地理信息的检索。Web页面地理信息的抽取往往借助地理信息词典或地理本体,抽取过程主要包括地理解析(Geoparsing)和地理编码(Geocoding)9。地理解析是指从Web页面识别国家名称、城市名称、地址、景观名称、电话号码、邮政编码等地理信息。该过程常常采用基于规则的方法或基于统计的方法。地理编码主要完成地理信息与地球表面某一具体地理位置的映射,从而为识别出来的地理信息指定地理坐标。地理编码阶段需要进行歧义去除处理:geo/non-geo歧义的去除以及geo/geo歧义的去除。1.2.4 基于主题信息和地理信息的双重检索 用户带有“地理约束的查询”经查询处理后,提交给检索模块,由检索模块按照一定的检索策略(检索模型)来检索文本索引数据库和空间索引数据库。许多学者都在研究双重检索模型,但至今尚无成熟的检索算法公开出版。1.2.5 对检索结果进行处理和排序 地理信息Web检索系统把主题相关性和地理相关性结合起来,生成一个相关度数值来对检索结果进行排序。相关度越高,排名越靠前。最后由页面生成系统将检索结果的链接地址和页面内容摘要等组织起来返回给用户。此外,地理信息Web检索系统通常将查询结果显示在地图上,为用户提供最直接的感性认识和人机交互的绝好途径。2 地理信息检索技术的发展地理信息检索技术的研究始于20世纪90年代,随着数字图书馆、Web、搜索引擎等技术的发展而逐步走入人们的视线。进入21世纪以来,地理信息检索技术得到了蓬勃发展。从2004年开始,美国计算机协会(Association for Computing machinery,ACM)下属的情报检索工作组(Special Interest Group on Information Retrieval,SIGIR)和信息知识管理会议(Conference on Information and Knowledge Management,CIKM)轮流举办地理信息检索研讨会(Workshop on Geographic Information Retrieval,GIR)。GIR研讨会的主题包括:地理信息检索系统的体系结构,Web页面中地理信息的抽取,空间索引的建立,地理本体、地名辞典、地理分类辞典的设计、构建、访问及维护,地理信息检索结果的可视化,地理信息检索结果的相关性排序等。GIR研讨会的召开虽然在很大程度上推动了地理信息检索的发展,但它依然未能为该研究领域提供一个统一的用以评测地理信息检索系统性能优劣的标准。2005年,在美国加利福尼亚大学伯克利分校和英国舍费尔德大学研究人员的共同努力下,跨语言评测论坛(Cross Language Evaluation Forum,CLEF)建立了一项新的评测任务GeoCLEF,为地理信息检索技术的评测提供了一个必要的框架。从2006年起,GeoCLEF成为CLEF的一项正式评测任务,主要关注地理信息检索过程中主题信息和地理信息双重检索的策略、检索结果的相关性排序两个环节。GeoCLEF为与会者提供一个文本集合和一个主题集合,它要求地理信息检索系统能够针对一个主题集合,从文档集合中找到尽量多的相关文档。同时,GeoCLEF还为地理信息检索系统提供单语种和双语种的性能评测。在单语种的评测中,文本集合和主题集合使用同一种语言;在双语种的评测中,文本集合和主题集合则使用不同的语言。2009年,GeoCLEF已经被GikiCLEF(Cross language Geograp- hic Information Retrieval from Wikipedia)所取代。GikiCLEF是跨语言评测论坛的一个新的评测任务,使用10种不同语言的维基百科数据库(Wikipedia collections)作为地理信息检索的数字资源。参加GikiCLEF评测的GIR系统需要回答地理类问题,将维基百科的文档名称列表作为检索结果返回给用户。跟GeoCLEF相比,GikiCLEF鼓励GIR系统更加关注对查询题目的理解和问题答案的推理。此外,GeoTime也致力于地理信息检索系统的评测,它是为促进信息访问技术的发展而举办的一系列研讨会NTCIR中的一个。跟GeoCLEF不同的是,GeoTime增加了对时间信息检索的评测,即参加研讨会的GIR系统必须完成主题信息、地理信息和时间信息的三重检索。3 地理信息Web检索系统实例SPIRIT GeoCLEF 2008:Evaluation of Multilingual Geographic Information Retrieval (GIR)Systemshttp:/www.uni- hilde sheim.de/geoclef/。 GikiCLEF 2009http:/www.linguateca.pt/GikiCLEF/index.php/Main_Page。 NTCIR GeoTime 2009http://NTCIR-GeoTime/。 Google IncGoogle Maps,2010http://。 Yahoo! IncYahoo Local,2010http://。 SPIRIT:Spatial-Aware Information Retrieval on the Internethttp:/。近年来,许多大公司纷纷推出自己的本地服务和基于地图的搜索工具,如Google公司的Google Maps,Yahoo公司的Yahoo Local等。用户使用这类搜索工具时,通过输入关键词或邮编等信息,得到相关链接序列、所查地区的地图和部分非空间属性。在所显示的地图上,用户可以进行放大、缩小、拖动等操作。Google Maps等搜索工具与本文讨论的地理信息Web检索系统的区别在于: 该类搜索工具的搜索范围不是整个Web,而是商业信息数据库(如黄页,Yellow Pages)。因此,它们是从结构化的数据库中搜索信息,这远比从Web上搜索信息简单,而且搜索策略也大不相同。 该类搜索工具的搜索主题仅限于“商业及服务”,如搜索“restaurants in Brisbane”,而对于其他主题的搜索,如“Earthquake in China”,它们就显得无能为力。 该类搜索工具几乎无法对地理信息的语义关系进行查询10。如用户输入查询“在北京南面的城市”,Google和Yahoo都会检索出很多不相关信息,而看不到“武汉”、“广州”等跟用户查询真正相关的信息。 因此,本文对Google Maps等搜索工具不做深入探讨,而介绍一个有代表性的地理信息检索系统SPIRIT。研究性项目SPIRIT(Spatially-Aware Information Retrieval on the Internet,SPIRIT)由EC Fifth Framework Programme资助,其目标是实现基于Web的智能化地理信息检索6,8,11,。该项目从2002年开始,历时4年,由加的夫、舍费尔德等6所大学的学者共同完成。SPIRIT由以下七部分构成:(1)用户界面;(2)地理本体和领域本体;(3)Web文档集合;(4)核心搜索引擎;(5)文本索引和空间索引;(6)相关性排序;(7)元数据抽取。用户界面允许用户指定一个主题信息、一个地名和一个与该地名有关的空间关系。SPIRIT接受来自用户界面的查询后,就进行查询歧义去除、查询解释和查询扩展。地理本体中的地名别名可以帮助用户确认自己感兴趣的地理位置,以完成查询中geo/geo类型的地名歧义去除。地名和空间关系可以确认用户查询的地理范围,系统将该地理范围直观显示在用户界面中的地图上。随后,SPIRIT根据地理本体进行查询扩展,并将生成的系统查询提交给核心搜索引擎,以得到一个完整排序的文档列表。SPIRIT检索系统采用了一个约1 000GB的Web文档集合(包含94 552 870个Web网页)。该集合中的每一个文档都做了结构化处理,以方便建立索引。SPIRIT中有两种类型的索引方式:纯文本索引(PT)和空间-文本索引(SP)。纯文本索引采用传统信息检索中的倒排表文件结构,该索引结构对于地理信息的检索效率不高,因此可通过查询扩展(例如使用地理本体来扩展同义词和邻近地名等)来提高系统的检索性能。SPIRIT使用一种新的空间-文本索引来帮助计算查询中地理信息和文档中地理信息的关系,避免查询过长可能带来的巨大性能消耗。4 挑战及展望目前,地理信息Web检索技术已经成为Web搜索引擎领域和地理信息领域的重要分支,但仍然处于发展的初级阶段,面临着许多挑战12-13:(1) 地理本体的概念设计与具体实现 地理本体提供了地理空间的结构及术语模型。地理本体在地理信息检索的查询处理过程中起关键作用,此外,空间索引的生成、检索结果的相关性排序及页面地理信息的抽取都离不开地理本体。因此,地理本体的概念设计与具体实现是开发地理信息Web检索系统首先要考虑的问题。(2) Web文档中地理信息的抽取该过程包括地理解析(Geoparsing)和地理编码(Geocoding),即从Web页面提取地理信息并去除歧义。将隐含于页面的地理信息准确地抽取出来并将其映射到某一个具体的地理位置,对于提高地理信息索引性能和检索质量都是至关重要的。(3) 空间索引、双重检索模型及检索结果排序对于抽取出来的地理信息,建立何种空间索引,按照何种检索模型来完成地理信息和主题信息的双重检索,以及如何对检索到的结果文档进行排序,是地理信息Web检索系统中很关键的问题。(4) 检索结果的可视化 将检索结果显示在地图上,供用户浏览并提供便捷的交互方式,是地理信息Web检索系统中一个很重要的研究课题。 笔者相信,随着Web技术和信息抽取技术的飞速发展以及地理本体理论的日趋成熟,地理信息Web检索技术一定能够得到更进一步的发展,并且很快走进人们的生活,满足人们对主题信息及地理信息的双重查询需求。参考文献:1 Sanderson M,Kohler JAnalyzing Geographic QueriesM/Mark Sanderson,Kalervo Jrvelin,James Allan,et alProceedings of the 2004 Workshop On Geographic Information Retrieval,27th Annual International ACM SIGIR Conference (SIGIR 2004)New York:ACM Press,2004:245-2462 李晓明,闫宏飞,王继民搜索引擎原理、技术与系统M北京:科学出版社,2004:5-63 Chen Yenyu,Torsten Suel,Alexander MarkowetzEfficient Query Processing in Geographic Web Search EnginesM/Surajit Chaudhuri, Vagelis Hristidis,Neoklis PolyzotisProceedings of the 25th ACM SIGMOD International Conference on Management of DataNew York:ACM Press,2006:277-2884 Alexander Markowetz,Chen Yenyu,Torsten Suel,et alDesign and implementation of a geographic search engineM/AnHai Doan,Frank Neven,Robert McCann,et alThe 8th International Workshop on the Web and Database(WebDB)New York:ACM Press,2005:19-245 Amitay E,HarEI N,Sivan R,et alWeb-a-Where:Geotagging Web ContentM/Mark Sanderson,Kalervo Jrvelin,James Allan,et alProceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2004)New York:ACM Press,2004:273-2806 黎志升地理信息检索若干技术研究D合肥:中国科学技术大学,20097 Miguel Garca-Cumbreras,Jos M Perea-Ortega,Manuel Garca- Vega,et alInformation retrieval with geographical referencesRelevant documents filtering vsquery expansionJJournal of Information Processing and Management,2009,45:605-6148 Jones C B,Abdelmoty A I,Finch D,et alThe SPIRIT Spatial Search Engine:Architecture,Ontologies and Spatial IndexingM/Egenhofer M J,Freksa C,Miller H JProceedings of the 3rd International Conference on Geographic Information ScienceBerlin/Heidelberg:Springer,2004:125-139 9 McCurley K SGeospatial Mapping and Navigation of the WebM/Tenth International World Wide Web ConferenceNew York:ACM Press,2001:221-22910 虞为,曹家恒,陈俊鹏基于地理空间语义网的异构地理信息查询J计算机工程与应用,2006(30):6-911 Abdelmoty A I,Smart P D,Jones C B,et alA critical evaluation of ontology languages for geographic information retrieval on the InternetJJournal of Visual Languages and Computing,2005,16:331-35812 Martins B,Silva M J,Chaves M SChallenges and resources for evaluating geographical IRM/Chris Jones,Ross PurvesProceedings of the 2005 Workshop On Geographic Information Retrieval(GIR 2005)New York:ACM Press,2005:65-6913 Jones C B,Prurves R SGeographical information retrievalJJournal of Geographic Information Science,2008,22(3):219-228(英文摘要下转第400页)Architecture, Principles and Development of Geographic Information Web RetrievalDU Ping,LIU Yong(College of Earth and Environmental Science,Lanzhou University,Lanzhou 730000,China)Abstract:There are many unstructured digital texts containing geographic information on the Web. Traditional search engines can not meet peoples demand for these digital resources. Geographic information Web retrieval aims at providing

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论