会员注册 | 登录 | 微信快捷登录 QQ登录 微博登录 | 帮助中心 人人文库renrendoc.com美如初恋!
站内搜索 百度文库

热门搜索: 直缝焊接机 矿井提升机 循环球式转向器图纸 机器人手爪发展史 管道机器人dwg 动平衡试验台设计

嵌入式平台上的地址搜索.doc嵌入式平台上的地址搜索.doc -- 5 元

宽屏显示 收藏 分享

资源预览需要最新版本的Flash Player支持。
您尚未安装或版本过低,建议您

专业文档,值得下载专业文档,值得珍藏嵌入式平台上的地址搜索李勇陈文斌(北京灵图软件技术有限公司,北京100094liyonglingtu.com,,henwenbinlingtu.com)摘要地址匹配技术是地理信息系统中的一项重要技术。本文在借鉴各种地址模型的基础上,提出了一种可以应用于嵌入式中的简化层次地址模型,建立了一个嵌入式中的搜索模式的地址匹配服务框架,并最终实现了嵌入式平台上的地址匹配搜索服务程序。结果显示这种方法具有很高的效率,很好的满足了用户的地址匹配查询需求。关键词地址模型,地址要素,地址搜索,倒排索引前言在现实世界中,人们通过地址来描述城市中的目标地理位置。这种现实世界的定位方式是通过一段文字来表示目标位置的。如,我们用北京市海淀区东北旺西路8号来表示中关村软件园的位置。在地理信息系统中,计算机无法通过诸如以上的文字信息来直接定位目标位置。目标位置是由其所在地的地理空间坐标确定的,常用的如该地的经纬度等。这就需要将能被人们记住的文字地址信息和地理信息系统中的地理空间坐标建立起一一对应的联系,从而实现人们与地理信息系统的交互。地址匹配技术(GEOCODING,也称地址编码)正是在这种背景中发展起来的。地址匹配是将地理坐标(例如经纬度)赋予街道地址还有其他点位和地理特征的过程1。有了地理坐标,地理特征就可以被显示到地图上或运用到地理信息系统中。美国是地址匹配技术应用最早,最广泛的国家。从二十世纪六十年代开始,美国就开始了地址信息的收集以及标准的建立工作,在1976年研究发展了双重独立地图编码系统(DualIndependentMapEncoding,DIME),于1990年前后发布了与人口数据相关的全国人口地址编码系统TopologicallyIntegratedGeographicEncodingandReferencingSystem,即图形整合地理编码参照系统,简称TIGER。另外,国外的很多商用地理信息系统软件中都有相关的地址匹配模块,如ArcInfo的GeoCoding和MapInfo的MapMaker等,都实现了基本的地址编码框架和匹配引擎2。而对于我国,由于国情不一样,地址地名等信息缺少统一的标准,又缺乏有效的服务体系,使得国外的地理编码软件在我国并不适用。从八十年代开始,一部分城市的规划、测绘及管理部门对城市地址编码问题相继开展了研究工作。由于地理信息应用的社会化,基于位置的服务需求强烈,地理编码和地址定位技术也得到越来越多的重视。国内也有一些公司开发了相应的地理编码软件和应用,如北京长地计算机公司的导址神,北京灵图软件公司的地址匹配引擎等。上述的各种系统都是基于服务器或者个人计算机的地址匹配服务程序。而近些年,随着嵌入式系统软硬件的发展,各种带有导航等地理服务系统的智能终端获得了广泛的应用。在这些系统中,需要相应的地址匹配服务功能。由于嵌入式系统的各种限制(主要是CPU的处理速度、内存的大小、IO的速度、外存的大小等),使得嵌入式系统中的地址匹配技术和基于服务器和个人计算机的地址匹配技术有着很大的差别。基于服务器和个人计算机的地址匹配技术并不能直接简单地移植到嵌入式系统中来使用。本文在借鉴基于服务器和个人计算机的地址匹配技术的基础上,通过分析中文地址的特征,提出一种嵌入式上的地址匹配服务框架,并在嵌入式系统中实现地址匹配的功能。这种地址匹配技术应用了当代搜索引擎的一些技术,更像是一种地址搜索功能,具有高效的特征,非常适合嵌入式系统中的应用。1地址数据的分析和地址模型地址是对具体地点的规范文字描述,主要是指由地名地址主管部门正式认可或命名的对确定地点的完整文字描述,通常以地址标牌的形式确立。地址通常是由一个或多个地址要素组成,每一个地址要素为地址串中的一个相对独立的部分。地址要素包含行政区划、道路名、自然地理名、门牌号、楼牌号等。这些要素按大的地址要素在前,小的地址要素在后的方式组合形成的地址名称。关于中文地址国内进行了许多卓有成效的研究1、2、3,4,5,下面简单介绍一下比较通用的两种模型。专业文档,值得下载专业文档,值得珍藏文献2主要介绍了一种层次地址模型,其认为各个地址要素存在着一对一或者是一对多的包含关系,比如一个省包含若干个市,一个小区对应着某条道路的某个门牌号等等,并且总结出了大约40种地址层次模式。这种地址模型的特点在于具有良好的可扩充性,对于新的地址模式可以方便的添加,并且可以针对不同城市采用不同的模式,缺点在于,有时候地址并不存在严格的包含关系,这时候用这种模型来描述就存在误差。针对上述模型的缺点,文献1提出了一种网状模型,其认为地址要素之间是一种带有固定包含指向的网状结构,并且用有限状态自动机来描述和解析各种地址。这种地址模型的缺点在于扩充性不好,修改地址模式比较复杂。在本文中,由于针对的是嵌入式中的地址匹配,考虑到效率的要求,不可能采用特别复杂的地址模型,因而采用较为简单的层次地址模型。并且,考虑到嵌入式系统的特殊需求,对地址要素之间的包含等关系并没有建立严格的联系。下面重点介绍本文中的地址模型。1.1行政区划级别地址要素的处理由于行政区划级别的数据在长时间内相对比较稳定,所以对行政区划级别的地址要素,建立严格的包含关系,并且对所有的地址要素只建立3级包含关系省市其他地址要素(对北京这样的直辖市,3级关系为直辖市区其他地址要素)。比如,某个市必定属于某个省,某个区必定属于某个市,某个镇、小区或者村必定属于某个市。特殊的,对于跨区的道路,将道路按照所属的区数分成若干段,每一段属于某个区。如图1所示。图1行政区划级别地址要素的包含关系1.2门牌号以及楼牌号的处理门牌号是相对于道路来设定的,而楼牌号是相对于小区来设定的,这也是两种存在严格包含关系的地址要素联系。由于一条道路包含的门牌号数量比较大,一个小区包含的楼牌号也比较多,考虑到数据存储以及最后地址搜索的效率,需要对这种存在严格包含关系且子级别数据比较大的地址要素进行特殊的处理。在本文中,门牌号以及楼牌号和其他地址要素分开存储,包含这些门牌号或者楼牌号的道路或小区通过一个指针来获得这些信息。这种数据处理方式有效的减少了数据冗余,并且提高了地址搜索过程中地址初步检索的效率。1.3其它地址要素的处理对于上面提到的省名、市名以及门牌号、楼牌号之外的地址要素,本文将这些地址要素当作一个独立的实体来处理。对于这些地址要素,按照中文地址模型的各种习惯,尽可能地将其拆分成最小有效地址要素单元,这样做可以提高最终用户经行地址搜索的准确性。值得说明的是,在某个市内,如果按照最小单元来拆分地址要素,有可能存在重名的地址要素名称,但实际上这两个名称并不是同一个地址,这时候就不能对这些地址要素经行进一步的拆分,而尽可能地保持其完整性。2嵌入式上的地址搜索框架用户在嵌入式设备上进行地址匹配查询时,通常是针对某个省的某个市的,因此本文设定用户在嵌入式设备上进行地址匹配查询时必须首先选择省份和城市。考虑到用户在嵌入式设备上进行信息录入时非常不便捷,本文重点考虑拼音首字母的用户输入模式,这种模式可以很好缓解用户信息录入的负担。其次再考虑汉字输入的查询。再者,由于嵌入式系统的处理能力有限,为了提高查询的效率,应尽可能将数据处专业文档,值得下载专业文档,值得珍藏理等功能提前到数据预处理阶段,充分运用PC的强大处理功能。借鉴当前流行的搜索引擎技术6,7,采用对地址要素名称进行建立倒排索引的技术来提高嵌入式上的地址匹配查询效率。基于以上考虑,嵌入式上的地址搜索框架如图2所示。图2嵌入式地址搜索框架图2中,PC端主要完成数据的预处理功能。按照文中的地址模型,原始地址数据经过地址要素拆分工具拆分成符合要求的地址要素,然后这些地址通过索引建立工具生成各种顺排数据以及倒排索引数据,包含有行政区划数据、地址要素数据(不包含省名、市名等行政区划数据以及门牌楼牌等数据)、门牌楼牌数据、索引数据。在嵌入式端,地址匹配查询服务根据用户的输入调用查询匹配逻辑,查询匹配模块通过数据读取和缓存模块高效获得所需要的各种数据,进一步处理完成用户的请求。3地址数据的预处理地址数据的预处理分为两步地址要素的拆分以及索引的建立。其中地址要素的拆分决定了最终呈现给用户的地址信息,而且地址要素拆分的好坏会影响最终查询的效率,因为准确的拆分可以大量减少重复的地址要素信息。本文中地址拆分的策略是首先拆分已经确定的地址要素,比如省名市名,然后再拆分其他地址要素。由于中文地址的复杂性,地址要素的拆分需要大量经验数据的支持,并没有一个完美的方法,在此不再赘述。下面重点介绍一下本文中地址要素数据的索引方法。本文对地址要素建立拼音首字母索引,采用二元索引,直接支持拼音首字母的输入查询,当用户需要进行汉字输入查询时,先将汉字拼音首字母取出来做拼音首字母查询然后做汉字过滤操作,从而完成汉字的查询。索引的建立过程如图3所示。图3地址要素索引文件的建立过程4嵌入式上的查询实现为了提高用户的体验,在嵌入式上实现地址匹配查询时,在用户输入的同时立即显示候选的地址信息(由于是二元索引,当用户输入超过两个字母或者两个汉字时才有提示)。为了到达这种效果,并且保证合理的响应时间,运用了多种缓存技术倒排索引的缓存以及查询结果的缓存。倒排索引的缓存减少了系专业文档,值得下载专业文档,值得珍藏统外存的IO操作,而查询结果的缓存则可以大量缩短用户连贯输入过程中的匹配操作,从而缩短了用户响应时间。由于本文的索引是地址要素的拼音首字母索引,索引在进行汉字输入查询时,需要特殊的处理,其过程如图4所示。图4汉字查询的处理过程由图4可以看出,汉字的查询是建立在拼音首字母查询的基础上的,因而汉字查询的效率会略低于拼音首字母查询的效率。5结束语本文中介绍的地址搜索服务已经在嵌入式系统中实现。对北京十几万的地址数据(其中包含道路级别数据三万多条),在普通的PDA上,拼音首字母地址匹配查询响应时间在100毫秒以内,汉字地址匹配查询响应时间基本在1秒以内,效率还是很高的,完全可以满足用户的需求。本文中所述的方法还有很多需要完善的地方。例如,目前只能实现精确匹配,并不支持模糊匹配,但在现实中人们经常会存在记忆错误或者是输入错误,在查询时需要一定的模糊性。还有就是地址数据的处理并没有做到完全自动化,需要大量人工干预。在后面的工作中,可以尝试建立一个更加完善的系统,尽量减少人工的干预,并且在用户体验度上争取获得更好的效果。参考文献1徐锡珍.城市地址编码与地址匹配的设计和应用.太原理工大学毕业设计(论文).2006年6月.2李娜.城市地理编码技术的研究.武汉大学硕士学位论文.2006年5月.3张作华,孙凌宇.基于城市地址编码技术的探讨.井冈山师范学院学报(自然科学).Vol.26No.32005年6月.4朱建伟,王泽民.地理编码原理及其本地化解决方案.北京测绘.2004年第2期.5李军,李琦,毛东军等.北京市地理编码数据库的研究.计算机工程与应用.2004年第2期.6李晓明,闫宏飞,王继民.搜索引擎原理、技术和系统.科学出版社.2004年第一版.7RicardoBaezaYates,BerthierRibeiroNeto.现代信息检索.机械工业出版社.2005年第一版更多测绘论文请登录测绘网论文频道查询http/www.cehuiwang.com
编号:201311161151074392    大小:98.50KB    格式:DOC    上传时间:2013-11-16
  【编辑】
5
关 键 词:
专业文献 学术论文 精品文档 嵌入式平
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
  人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

当前资源信息

4.0
 
(2人评价)
浏览:12次
dingyx0101上传于2013-11-16

官方联系方式

客服手机:17625900360   
2:不支持迅雷下载,请使用浏览器下载   
3:不支持QQ浏览器下载,请用其他浏览器   
4:下载后的文档和图纸-无水印   
5:文档经过压缩,下载后原文更清晰   

相关资源

相关资源

相关搜索

专业文献   学术论文   精品文档   嵌入式平  
关于我们 - 网站声明 - 网站地图 - 友情链接 - 网站客服客服 - 联系我们
copyright@ 2015-2017 人人文库网网站版权所有
苏ICP备12009002号-5