




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2006级硕士研究生开题报告基于信息检索技术的地理编码服务研究院 系:空间信息工程研究中心专 业:地图学与地理信息系统年 级:2006级姓 名:导 师:吴升教授福 州 大 学2007年 11月 27 日1 选题依据电子地图的广泛使用,极大地方便了人们的生产生活,它可以实时、动态的提供信息检索、数值分析、过程模拟、未来预测、决策咨询和定位导航等功能。但在实际应用过程中,用户经常需要在已知地名、地址的情况下,在电子地图中找出该地址的相应位置,这样一个最基本的要求,在国内并没有非常完善的解决办法2。在GIS应用领域中,为了解决这一问题,提出了一个技术概念地理编码。为了在地图上直观地定位显示某个地址数据记录,需要将地理坐标赋给该记录,这个过程就称为地理编码2。地理编码服务,能够将涉及空间信息的地名、地址描述转化为真实的地理坐标,并映射到地图、遥感影像上,实现地名、地址名称与空间信息的整合。进而可以利用空间分析手段,完成对经济社会信息的分析、统计、管理、制图和可视化表示3。国外的地理编码技术已经发展的相当成熟,但是国内的GIS软件厂商开发的地址匹配和地理编码软件没有提出适合国内信息系统应用的地址模型和标准,都没有建立标准的、起地理参考作用的地理编码数据库系统。因此,中国的地理编码技术应用还处于起步和探索阶段,适合中国国情的地址编码解决方案至今仍然是一块空白3。通过地名、地址进行地理编码的过程中,发现人们广泛使用地名简称。比如“福州大学”通常简称“福大”,“福建省空间信息工程研究中心”通常简称“空间中心”。在这种情况下,能通过地名简称准确进行地理编码是地理编码领域尚未完善解决的问题。本论文拟在分析、研究当前国内外地理编码技术、信息检索技术的基础上,设计地理编码数据库,并选择一种适合地理信息领域的信息检索技术,实现一种以Web服务方式提供第三方开发调用接口的地理编码服务,这种方式可以大大提高地理编码服务的适用范围和易用性,扩大了地理编码服务的共享范围,增强了服务公众、提供数据共享的能力。 2 文献综述2.1 地理编码服务概述分布式计算技术的发展,特别是Web Services的出现,为地理信息的广泛共享提供了技术支撑。目前,将Web Services技术综合应用于空间信息服务领域已经成为一种趋势。甚至还有人认为:空间信息服务的基本内涵是在GIS领域引入一种新模式即基于Web Service的应用模式和集成模式,已解决传统GIS存在的问题35。地理编码服务是空间信息服务的一个重要方面。对于地址编码服务38OpenGIS委员会认为:它是为用户提供通过网络进行访问的接口,实现了将相关的地址定位信息,例如地名、街道地址、邮编等,转换为规范化的位置信息,即地理坐标。2.1.1 地理编码概念地理编码的概念,国内外有关部门意见不一。中国标准化研究院认为:地理编码39( Geocoding)提供了一种将地址定位信息转换成可以被用于GIS 系统的地理坐标的方式,使得GIS可以通过对地理数据的集成、存储、检索、操作和分析,生成并输出各种地理信息,从而为土地利用、资源管理、环境监测、交通运输、经济建设、城市规划以及政府各部门行政管理提供新的知识,为工程设计和规划、管理决策服务。有的部门39认为地理编码是对城市的地名和地址进行的编码。调查研究表明,北京市的有关部门在过去几年中曾经花费很大精力开展过城市道路、道路交叉口、街坊代码信息标准化等工作,它们认为这就是地理编码。但是中国标准化研究院认为:这实际上是对地理要素或实体及其属性进行编码,目的是通过编码对地理要素或实体进行唯一的标识,并没有涉及到地理实体及其属性与地理空间位置信息(地理坐标)之间的关联,不能算是地理编码。2.1.2 地理编码服务研究现状国外许多国家在地址数据命名和表述方面要规范化得多,并且在地理编码软件工具开发和应用服务的标准和规范方面,研究和进展也比较成熟4041。但是我国GIS领域在地址编码技术应用和标准化方面还处于起步和探索阶段,适合中国国情的地址编码解决方案至今仍然是一块空白39。 国外研究现状美国早在20世纪70年代就建立了全国的地址编码标准,并开发了通用的地址编码软件工具,到90年代后成功地应用于TIGER文件系统,在历次全国人口普查统计中发挥了巨大的作用42。再如,MapInfo公司的MapMarker43是强大的地址编码工具,实现了基本的地址编码框架和地址匹配引擎。它所提供的一套产品包括MapMarker地址编码引擎、标准的地址数据库、MapMarker Server和Geocoder Control( OCX),以及其他的一些应用程序和范例介绍。同时,MapMarker在地址编码过程中也给用户附加了许多控制工具,包括地址编码模式、策略、匹配设置参数等。在其具体的应用中,MapMarker 已经结合具体地区,如美国、加拿大,完成了这两个国家的地址数据库的建设。地址匹配引擎也具有较高的响应速度,在加拿大全国1.5G字节的地址数据量的情况下,进行地址匹配仅需1秒钟。但目前,MapMarker仅适用于上述两个国家。另外,开放式GIS 联合会在2001年3月就已经发布了Geocoder Service Specification0.7.6版本,对地址编码应用服务的参数和类型等进行规范性的说明。 国内研究现状在国内,北大方正公司在MapInfo MapMarker 的基础上开发了MapSearch地址编码管理器,试图实现基于北京市全境地图数据和地址数据、依据地址字符串智能地匹配出地理坐标值。但是,地址编码管理器采用的地址模型太过复杂,加上软件功能开发太过简单,在具体应用中地址匹配率不高。北京长地计算机公司开发有“寻址神”3,通过地址匹配,可以将地址数据库和地图数据库中的数据记录相连接,并给地址数据库中的地址数据赋予地图定位信息(即空间坐标)。国内在地理编码服务标准的制定方面,还没有进行标准化的研究和制定,再加上中国现有的地名、地址体系异常复杂,地名相对混乱、无序,规律性低和缺乏统一的标准,造成国内目前在地址编码技术应用方面还仅仅局限于专业领域和部门内部,难以推广和普及。2.2 信息检索技术概述计算机信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的信息需求查找所需信息的过程。从广义上讲,信息检索包含了信息的存储和检索两部分。而我们通常所说的信息检索是指狭义概念的信息检索,即从信息集合中找出所需信息的过程,也就是利用信息检索工具或数据库查找所需信息的过程。计算机信息检索是对传统的手工检索的革命。手工检索虽然可以解决部分信息查询问题,但是这种检索方式的种种局限性已经越来越难以适应当代信息检索的发展。实践表明,手工检索将日益让位给计算机信息检索,只有通过计算机信息检索,才可能做到全面、准确、实时地获得所需信息4。2.2.1 计算机信息检索原理常见的中文检索引擎主要完成两方面的任务5:1、 信息的规范化。将搜集来的信息按照一定的方式进行组织管理,使之成为可以高效检索的信息库。信息的规范化包括分词和索引(以及资料的搜集和整理)、更新(维护)两部分。2、 信息的检索和表达。以索引好的信息库作为信息基础,利用信息库己被索引的特点,实施快速检索,同时根据用户的需求将检索结果进行输出。信息的检索包括搜索、结果输出两部分。2.2.2 计算机检索系统发展历程纵观计算机检索系统的发展,可以将其发展过程划分为三个阶段。第一阶段:1971年以前建立的许多信息检索系统,其工作方式是传统的批处理检索方式。这一阶段的数据存取和数据通讯能力都比较差。第二阶段:1971年以后,产生并发展了联机情报检索系统,如OCLC、Dialog在线数据库联机检索系统。这一阶段的特点是联机数据库集中管理,具有完备的数据库联机检索功能,但其 数据通信能力较差。第三阶段:以Internet的出现为标志,系统大多采用分布式的网络化管理,其信息资源的主要特点是:数字化形式表达、多媒体和多载体、内容覆盖全社会领域、分布无序、难于规范化和结构化、内容特征抽取复杂、用户界面要求高等。这些特点导致了信息处理从传统模式向新型模式的转变,系统功能从单纯的信息检索到综合信息管理和服务等等。这些变化必将促使信息检索技术的研究和不断发展,以满足人们对提高信息利用能力的需求。我国计算机信息检索的应用起步较晚,从70年代后期开始的,也分为三个阶段:1、 1975年1985年,这10年间,主要是引进国外文献磁带进行计算机检索。2、 1980年1985年,开始自建专业文献库进行信息服务的研究和实验阶段。3、 1985年以后,从书目库的建设转到应用软件的开发。2.2.3 计算机检索技术研究现状随着计算机检索系统的研究,信息检索技术已经趋近成熟。许多技术已经投入大规模应用。它的研究范围也在扩展,包括检索,分类和聚类等6。当然,基于互联网的搜索引擎也是基于信息检索技术。本文的研究重点是关于结构化的数据,即存储在关系数据库中的地理信息数据。在数据库领域,数据之间有特定的关系,并按照这种逻辑关系进行结构化的存储。进行检索时,可以按照这种逻辑关系直接找到需要的信息6。结构化查询语言(SQL)被作为关系型数据库管理系统的标准语言,其主要功能就是建立与各种数据库之间的联系7。它提供了一套输入、更改和查看关系数据库内容的命令。程序员可以从中检索数据,修改其中的数据和管理大多数关系数据库。SQL 的最大优点之一在于它鼓励试验。用于检索数据的查询工作与用于修改数据的查询完全分割开来,因此用户可以随心所欲地键入任意类型的数据检索查询,而不必害怕破坏数据库中数据。目前, 绝大多数流行的关系型数据库管理系统, 如Oracle、Sybase、Microsoft SQL Server、Access等都采用了SQL 语言标准。基于数据库系统的SQL查询语言满足了大量开发者的需求,但是对于海量数据来说,使用数据库中的类似like%keyword%查询将会构成数据检索性能急剧下降。因为对于模糊查询来说,数据库本身的索引根本起不了作用,查询的过程相当于一个一个记录匹配的过程,这对于数据库检索来说,效率是致命的。全文检索技术的出现,使这一问题迎刃而解。全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为一种非常有效的信息检索技术。 全文检索技术概述全文检索(Full-text Retrieval)技术是一种面向全文、提供全文的新型检索技术7。国外多从实际角度来理解全文检索,认为它是基于数据内容进行数字化文档的查询处理,为全文集和建立一个能精确定位每个字词的索引,克服了传统顺序索引在多数据集合和复杂查询条件下检索效率低的不足,一些系统还能够将检索结果按照特定因素进行相关性排序8910。全文检索12是指计算机索引程序通过扫描文章中的每一个字、词,对每一个字、词建立索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文检索的方法主要分为按字检索和按词检索两种1314。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合而为一的,而中文中字与词有很大区别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文文字则需要切分字词,以达到按词索引的目的。 全文检索技术研究现状目前比较成熟的全文检索技术有两类:1、使用关系数据库中的全文检索功能组件,比较典型的有Oracle中提供的Oracle Text全文检索组件,Microsoft SQL Server中提供的Microsoft Search全文检索功能组件。2、使用扩展性较强的全文检索引擎工具包,比较典型的有Apache Jakarta的Lucene引擎工具包15。在此基础上,很多研究者就全文检索技术做了大量的研究。复旦大学陈士杰、张玥杰在lucene的基础上研究出英汉跨语言信息检索系统16;中国科学院向桂林,在全文检索系统中实现了动态索引技术17;南京大学樊胜设计并实现了一个基于web的期刊全文检索系统18;南京大学陈康,许婷等人设计并实现了一个基于web的全文搜索引擎,并给出了测试效果19,等等。在应用方面,最成功的就是全文检索搜索引擎的大量出现。全文搜索引擎是名副其实的搜索引擎,国外代表性的有Google ()、yahoo () 、AllTheWeb ( ) 等,国内著名的有百度(http:/www.B)、中搜()。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,也是目前常规意义上的搜索引擎。2.2.4 全文检索关键技术 索引技术按照字、词建立索引是全文索引的核心,但是建立什么样的索引,是索引技术要考虑的问题。倒排索引是搜索引擎检索系统普遍采用的索引技术。北京大学的彭波20在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索结果;吴恒山等人21研究了一种新的基于可扩展散列标的倒排索引更新策略,实现了倒排索引的增量更新和实时更新,厦门大学的李栋,史晓东22设计了一种支持高效检索的实时更新倒排索引策略.这种策略综合了减少更新操作,加快实时更新和缩短用户查询响应时间等方面的优点,较好地适应了当前网络内容变化的特点。丛磊等人23则设计了用于搜索引擎上的二级索引数据库,使得搜索引擎能在短时间内返回给用户检索信息,提高了搜索的性能。纪蕾,陈英24利用聚类算法将相似的文档排列在一起,提出了一种能够有效提高索引压缩率的文档重排算法Star-Scan算法,实验证明,该算法能有效提高搜索引擎的效率。 中文分词技术众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。 我们把中文的汉字序列切分为有意义的词,就是中文分词。对于搜索引擎的海量信息处理,分词的速度是至关重要的。目前自动分词的基本算法主要分为两大类:基于词典的分词方法2526和基于频度统计的分词方法2728。基于词典的分词方法是以汉语词典为基础对中文语句通过匹配进行切分,这种方法主要包括三种基本算法29:正向最大匹配法,逆向最大匹配法和全切分法。到底采用哪种分词算法的准确度最高,对信息检索的性能影响最大,目前并无定论。对于一个成熟的分词系统来说,都需要综合不同的算法。陈宏彦,陈俊杰30提出了一种规则与统计相结合的分词算法,有效地提高了分词效率;王坚等人31提出一种基于最短路径的改进分词算法,并通过实验证明,利用改算法,可以消除大量歧义,取得较好的分词效果。李庆虎等人32设计了一种新的中文分词词典机制双字哈希机制,提高了中文分词的速度,是一种较简洁,更高效的词典组织机制。张培颖,李村合33根据中文词语中双字词语较多,并且三字词,四字词叶较多这一特点提出了一种新的分词词典机制四字哈希机制,充分返回了现代计算机内存大空间的优势,提高了分词的速度和效率。徐爱萍等34则对GIS方面的中文分词进行了研究。她在分析系统应用领域的基础上设计了一个GIS中文查询系统的词典,提出了基于扩展ER空间数据库环境的全匹配分词算法,解决了切分歧义和未登陆词的问题,为GIS中文查询语句的正确理解提供了有效的语义信息。 Lucene全文索引工具包介绍Lucene3536不是一个完整的全文索引应用,而是一个用Java写的全文索引引擎工具包,它提供了多个API函数与灵活的数据存储结构(可以定制),可以方便地嵌入到各种应用中实现针对应用的全文索引、检索功能。它是APACHE基金会jakarta的一个子项目。Lucene 有两个主要的服务15:索引和搜索。索引和搜索的任务是相互独立的。索引和搜索服务都可用,这样开发人员就可以对它们进行扩展来满足自己的需求。文本索引是Lucene 重点构造的一个可搜寻的索引区域。索引是为高性能内容查询而创建的知识库。Lucene 提供丰富的API,可以与存储在索引中的信息交互。用户可以简单地指定索引作为文档名称列表和它的摘要,也可以复杂地指定索引作为整个文档存储内容和相关的附加元数据。例如:可以按附加的元数据信息排队,这样,查询结果中就可以区分出优先级较高的一些文档。3 研究方案和技术路线3.1 研究目标和研究内容研究目标:在分析、研究当前国内外地理编码技术、信息检索技术的基础上,设计地理编码数据库,并选择一种适合地名、地址信息模糊检索的技术,将其应用在GIS系统中,实现一种以Web服务方式提供第三方开发调用接口的地理编码服务,并在客户端访问该服务,结合福州应用示范区实现地理编码。具体内容包括:1、 城市地理编码的原理和核心技术结合国内外城市地理编码系统的实现方案,研究地理编码的原理,及其核心技术。2、 地理编码数据库设计地理编码数据库作为空间信息基础数据库的重要组成部分,在城市信息化建设中具有极其重要的地位,是空间信息基础设施建设乃至数字城市建设的基础。本文研究地理编码数据库建立时,数据库的设计、数据的规范化处理等问题。3、 模糊检索技术关于地名、地址的地理编码,往往会涉及模糊匹配,所以要研究模糊检索技术。1) 研究和分析各种信息检索技术,比较其优缺点,并以具有代表性的SQL查询语言、Sql Server 2000 全文检索技术、基于Lucene引擎包的全文检索技术三种方法做综合分析比较,设计本文的模糊检索技术。2) 基于地理编码的中文分词组件中文分词效果直接影响模糊检索的查准率。本文针对地理信息系统专业领域特点,设计基于地理编码的中文分词组件,在传统中文分词技术的基础上,适当加以改进。4、 地理编码应用服务研究遵循OpenGIS的地理编码服务规范,在此基础上按照此规范,设计并实现按照不同查询方式的地理编码服务接口,包括按照地名、街道地址、邮政编码、电话号码、身份证号码、IP地址等等。5、 应用服务示范面向城市电子政务、电子商务和社会公众的需求,设计并实现地理编码服务应用示范。3.2 拟采用的技术路线3.2.1 技术路线本论文拟在研究地理编码技术和信息检索技术的基础上,针对目前城市地理编码研究中存在的问题,提出一种模糊地理编码的方法,并以Web服务方式提供第三方开发调用接口的地理编码服务。技术路线图如下:图 31 研究技术路线3.2.2 总体框架图如下图所示:分为四个部分。最底层是数据服务层,包括各个地理编码表,地名表、街道表、电话区段表、IP区段表、身份证区段表、邮编区段表。各个表供查询检索时调用。中间件层包括模糊检索引擎和精确匹配引擎。模糊检索引擎利用全文检索引擎包Lucene二次开发并对其进行扩展实现的。扩展其中文分词组件,设计基于地理编码的中文分词组件。精确检索引擎用来实现简单的查询。服务层设计通过不同查询方式供调用的接口,返回不同的结果。包括地名、地址、IP地址、邮编、身份证号码、电话号码等方式查询的接口。应用层设计调用地理编码服务的示范区。包括Ajax技术的应用来提高用户体验,数据的显示方式,界面等等。 地理编码数据库的设计方案建立地理编码数据库最关键的是,需要建立一整套规范和标准,在统一的地理参考框架中规范地址和地名数据,进行统一的组织和管理。在此要求下,需要构建地名表、街道表、邮政编码区段表、IP地址区段表、身份证区段表、电话号码区段表等,各库应该至少包括名称、标注点坐标以及必要的属性信息字段。其中,地名库应具有比较完整的行政地名和自然地名,行政地名要详细到村、小区、居委会;楼名库应具有比较完整的户籍登记的居民楼。数据的存储利用开源软件SharpMap将空间数据和属性数据都存储在SQL Server中,实现空间数据和属性数据的统一管理。 地理编码方法需要地理编码的对象有地名、街道地址、IP地址、身份证号码、邮政编码、电话号码等。方法采用定位到街道和定位到区域。其中,定位到街道是将需要地理编码记录以点位的形式定位到街道两边,这种方式利用了数值逼近方法中的插值原理,如工业路555号。定位到区域是将需要地理编码记录和地址数据库属性记录比较,如果匹配,则将该记录以点位的形式定位到区域实体的中心点,从而实现地理编码。这两种方式在实际应用中都不可能实现真正意义上的精确匹配,往往要考虑模糊匹配,本文模糊检索技术拟采用全文检索引擎包Lucene,在基于Lucene进行二次开发的基础上并能扩展其中文分词组件,设计基于地理编码的中文分词组件。 模糊检索技术图 32 检索技术结构图利用Apache Lucene的API设计出一个索引器,对地名表、地址表中选定的字段中文分词后并索引入库,索引方式是按照倒排索引,存储在索引数据库中。用户输入查询字符串后,先判断字符串的类别后再中文分词,同时利用Lucene设计出来的检索器在索引数据库中检索,如果有匹配结果则输出。同时考虑索引的增量更新、优化、对检索结果的排序问题。 基于地理编码的专业中文分词在索引器和检索器实施的过程中,都要用到中文分词。中文分词技术对检索结果的查准率有重要的影响44。中文分词算法已经被广泛研究,然而最常用的仍然是基于词典的最大匹配分词算法MM。最大匹配分次算法流程如下:图 33 最大匹配分词算法 在最大匹配的基础上,有人提出逆向最大匹配RMM。MM法和RMM法的缺点在于对词典的完全性有很强的依赖性, 且最大匹配系数M的长度很难确定,如果定义为词典的最大汉字数,则每次分词都有若干次没有意义的循环,效率不高浪费时间,如果M的长度定得比较短,一些分词匹配不到,引起分词错误。这两种方法都无法很好的解决歧义问题,有人提出了双向匹配法,即针对一个字符串,分别从两个方向进行处理,但这种方法只有检错功能,却不能自动进行校正,给出正确结果。鉴于以上几种方法的优缺点,这里,介绍一种改进的MM算法。图 34 改进的分词算法简要对这两种算法进行匹配次数的计算,以(福建省空间信息工程研究中心)为例,如果M取5,匹配次数为19,M取4,匹配次数为16,最理想的情况为M为3,匹配次数为10。而本文中的算法,不需要构造M的值,匹配次数为12。由于M的值一般取不到最理想的情况,所以本文拟采用的解决办法是比较简单且实用。针对地理信息领域有大量的未登录词,本文算法设计时,将构造专门的地名地址词典,而未登录词作为单字分词,这样既能提高检索的查准率,又能保证查全率。4 研究基础和条件4.1 已有的研究工作积累本论文是在指导老师吴升老师的悉心指导下开展的。目前已经开展了一些工作:1、 研究分析了地理编码技术,了解其原理,在此基础上设计出地理编码数据库的结构。2、 研究和分析了各种检索技术,并对全文检索技术作详细深入了解,对全文检索的几种技术作对比研究。3、 熟悉了在.net平台下基于C#语言的网络开发技术。4、 深入分析Lucene的检索机制,在此基础上已能用其简单接口进行开发。5、 分析了各种中文分词方法,已经从理论上提出了本文所用的分词方法。6、 详细了解OGC地理编码服务的标准,按照此标准进行模糊地理编码开发。7、 了解做应用示范调用Web服务的方法和步骤,大致了解了开源软件SharpMap、MsSqlSpatial对空间数据进行读写的流程。4.2 研究具备的条件本学位论文在吴升老师以及中心众多老师的指导下,依托福建省空间信息工程研究中心、福州大学图书馆、因特网等资源开展研究工作。计算机硬件方面,拥有高性能计算机一台,方便的网络,办公设施等;软件方面,配备了Windows Server 2003操作系统,Visual Studio 2005开发工具、SQL Server 2000等各种网上开源项目成果和实验数据等。5 学问论文的预期成果与创新性5.1 预期成果1、 学位论文一篇。2、 发表论文1-2篇。3、 实现各种方式的地理编码服务,并基于所开发的服务平台,做一个公共应用服务示范。5.2 创新性1、 将全文索引引擎包Lucene运用到传统的数据库检索系统中,并在地理信息领域首次试用。2、 结合地理信息系统的专业特色,将传统的分词算法进行改进,在不降低其查全率的同时,尽量提高其查准率。6 研究进度安排2008年1月2008年2月在现有的研究工作基础上,进一步深入研究lucene优化索引的方法和检索时提高效率的技术。2008年3月2008年4月基于地理编码的专业中文分词组件实现2008年5月2008年6月不同方式的地理编码服务的实现2008年6月2008年8月基于开发的服务,实现应用示范。2008年9月2008年11月撰写学位论文,准备答辩。2009年1月毕业答辩7 主要参考文献1.2. 张作化,孙凌宁.基于城市地址编码技术的探讨J.井冈山师范学院学报.2005.26(3):42-433. 江洲,李琦.地理编码Geocoding的应用研究J.地理与地理信息科学.2003.19(3):22-254. 郝长宽.基于Internet的计算机信息检索技术J.现代科技.2006.(10): 211-2125. 张彬.面向中文网络信息检索的自动分词系统设计和算法实现D.华东师范大学.2007.56. 杨志峰. 稳定的信息检索方法及其在分布式环境下的应用D. 中国科学院研究生院.2003.57. 靖培栋,宋雯斐.中文全文检索系统截词检索的实现研究J.情报科学.2006.24(6):884:8878. Ricardo Baeza-Yates.Modern Information Retrieval.New York:ACM Press,19999. 张校乾.基于Lucene的全文检索系统的研究和应用D.大连理工大学.2005.310. 苏新宁.信息检索理论与技术M.北京:科学技术文献出版社,2004.11. Charles T.Meadow.Text Information Retrieval Systems 2nd edition.San Diego:Academic Press,2000.12. 李四达.全文索引引擎Lucene的研究及其手机中的应用实现D.华北电力大学.2006.12.13. Frakes W B, Yates R B. Information Retrieval: Data Structures &Algorithms. Englewood Cliffs, NJ: Prentice Hall, 199214. Moffat A, Zobel J. Self-indexing Inverted Files for Fast Text Retrieval.ACM Transactions on Information Systems, 1996, 14(4): 349-37915. Otis Gospodnetic .Erik Hatcher著 谭鸿,黎俊鸿,周鹏,高承山 译.Lucene In ActionM.北京:电子工业出版社,2007.116. 陈士杰,张玥杰.基于Lucene的英汉跨语言信息检索J.计算机工程.2005.31(13):62-6417. 向桂林,刘锦华.全文检索系统中动态索引技术的研究与实现J.信息检索技术.2003.(3):51-5418. 樊胜.一个基于web的期刊全文检索系统的设计与实现J.信息检索技术.2005(5):32-3419. 陈康,许婷等.基于Web 的全文搜索引擎的设计与实现J计算机工程2005.31(20):51-5320. 彭波. 搜索引擎的混合索引技术J. 计算机工程与应用. 2004.22:161821. 吴恒山,刘兴宇,左琼. 一种基于可扩展散列表的倒排索引更新策略J. 计算机工程. 2004,30(8):8384,19722. 李栋,史晓东. 一种支持高效检索的实时更新倒排索引策略J. 情报学报. 2006,25(2):162023. 丛磊,许南山. 构建搜索引擎二级索引数据库J. 计算机应用研究(增刊). 2006:95295424. 纪蕾,陈英. 基于文档重排的索引压缩技术J. 清华大学学报.2005,45(S1):1828183225. 孙茂松 ,邹嘉彦.汉语自动分词中的若干理论问题J . 语言文字应用 . 1995 ,(4).26. 梁南元.书面汉语自动分词系统 CDWS J . 中文信息学报. 1987 ,2(2).27. Choi A , Cheng C H, Ko Y L. Word extraction from Chinese documents by occurrence counts A .1988 International Conference on Computer Processing of Chinese and Oriental Languages, Toronto ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 品牌运营咨询服务合同范本
- 期货从业资格之《期货基础知识》题库检测题型及答案详解(考点梳理)
- 个人买卖土地合同协议书
- 养老服务用工协议书范本
- 难点详解陕西省韩城市中考数学真题分类(数据分析)汇编专题测试试卷(含答案详解版)
- 小儿心衰的护理查房课件
- 三不放过原则课件
- 期货从业资格之期货投资分析能力检测附答案详解【考试直接用】
- 期货从业资格之《期货法律法规》练习题(一)带答案详解(考试直接用)
- 难点详解吉林省桦甸市七年级上册整式及其加减综合练习试卷(含答案详解)
- 2025-2030中国生物质能行业市场深度调研及投资前景与投资策略研究报告
- 物业外包管理实施方案
- 初中英语作文课件
- 生产企业班组长培训课件
- 基于数据的员工能力预测模型-全面剖析
- 升压站、储能站建筑施工方案
- 脐尿管瘘护理查房
- 重症监护室护理人文关怀
- 造价咨询廉政管理制度
- 隧道养护资金管理制度
- Android移动应用开发(微课版)全套教学课件
评论
0/150
提交评论