




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
两南大学硕十学位论文中文摘要 基于w e b g i s 的地址采集管理系统开发与研究 地图学与地理信息系统专业硕士研究生:张伟 指导教师周廷刚教授张雪虎副教授 摘要 地理编码是指在地理特征中加入地址属性,从而通过输入地址即能确定一个空间位置。 通过建立标准地理编码数据库,形成地址匹配检索体系,实现原有信息系统和空间信息的融 合,将城市生活中的信息空间化,从而进行更有效,更深刻的空间分析和决策应用,为城市 规划的综合分析提供技术支持,为资源环境以及社会经济的可持续发展服务。 本文在反思国外地理编码的研究进展及其应用的基础上,提出了适合我国国情的地理编 码数据模型,论文详细阐述了地址拆分、标准化的过程,介绍了空间数据参照库的建立,地 址匹配的方法。在此基础上,依据w e b g i s 的技术原理和g m l 的特点,构建了基于g 札的w e b g l s 的三层体系框架,运用此框架在地址采集管理系统中实现地图服务,以实现w e b g i s 在地址采 集管理系统中的应用。 本文重点研究了地址采集管理系统的设计与实现。其中详细介绍了系统的设计目标、系统 的设计原则、系统的功能模块、数据库的选型与设计,在此基础上设计了系统的体系结构和 系统数据的处理流程,最后重点探讨了该系统所运用的关键技术及其解决方案,主要包括基 于a r c p a d 的二次开发方法,w e bs e r v i c e 的实现,h i b e r n a t es e s s i o n 管理和事务管理等。 关键词:地理编码b g is 地址采集管理h i b 锄a t eg m l 两南大学硕十学何论文英文摘要 t h ed e s i g n m e n ta n dr e s e a r c ho fg e o c o d i n gm a n a g e m e n ts y s t e m b a s e do nt h ew e b g i s p o s t g r a d u a t eo f g i s :z h a n gw e i i n s t r u c t o r :p r o f e s s o rz h o ut i n g g a n g ;a s s o c i a t ep r o f e s s o rz h a n gx u e h u a b s t r a c t g e n c o d i n gm e a n sa d d i n ga d d r e s sa t t r i b u t ei n t og e o g r a p h i cf e a t u r e s ,s op e o p l e c a l l g e tas p a t i a ll o c a t i o nb yi n p u t t i n ga d d r e s s b ya d d r e s sc o l l e c t i n g ,a d d r e s sl o a d i n g , a d d r e s sc h e c k i n ga n da d d r e s sm a i n t a i n i n g ,g e o e o d i n gm a n a g e m e n ts y s t e mi nt h i sp a p e r b u i l d sas t a n d a r dg e o e o d i n gd a t a b a s eb yu s i n gg e o e o d i n gp r i n t i p l e sa n dm e t h o d s ,t h u s f o i m i n ga d d r e s sm a t e h i n gs e a r c hs y s t e m ,m a k i n gt h eo r i g i n a li n f o r m a t i o ns y s t e ma n d s p a t i a ld a t ab l e n d i n g ,p r o v i d i n gt h et e c h n i q u es u p p o r tf o rc a r r y i n go nt h ev a l i ds p a c e a n a l y s i sa n dt h ed e c i s i o na p p l i c a t i o n ,o f f e r i n ga s e r v i c ef o rk e e p i n go na d e v e l o p m e n to f t h er e s o n r c e se n v i r o n m e n ta n ds o c i e t ye c o n o m y i n t r o s p e c t i n gt h er e s e a r c hp r o g r e s st h a tt h ef o r e i g ng e o e o d i n gt om a k ea n di t s a p p l i c a t i o n t h i sp a p e rp u t sf o r w a r dg e o e o d i n gd a t am o d e la d a p t i n gt ot h en a t i o n t 1 1 i s t h e s i se l a b o r a t e d t h ep r o c e s so fa d d r e s ss p l i t t i n ga n ds t a n d a r d i z a t i o n ,i n t r o d u c e d e s t a b l i s h m e n to ft h es p a c ed a t a b a s e ,a n dt h ea d 出e s sm a t c h i n gm e t h o d s t i l i sp a d e l d e s i g n st h r e el a y e rs y s t e mf r a m e so ft h eg m lw e b g i sa c c o r d i n gt ot h et e c h n i q u e p r i n c i d l eo ft h ew e b g i sa n dt h ec h a r a c t e r i s t i c so ft h eg m l o nt h i sf o u n d a t i o n ,a n d m a k e su s eo f t h i st h r e el a y e rs y s t e mf r a m e st oc 舡 r yo u tt h em a ps e r v i c ei ng e o e o d i n g , s oc a na c h i e v et h ea p p l i c a t i o no f w e b g i si nt h eg e o c o d i n gm a n a g e m e n ts y s t e m b e s i d e s ,t h i sp a p e l s t u d i e st h ed e s i g n m e n ta n dr e a l i z a t i o no fg e o e o d i n g m a n a g e m e n ts y s t e m i ti n t r o d u c e st h ed e s i g nt a r g e t ,d e s i g np r i n c i p l e ,a n df u n c t i o nm o l d p i e c eo ft h es y s t e md e t a i l e d l y ,t h e n , i td e s i g n ss t r u c t u r eo ft h es y s t e ma n dt h e p r o c e s s i n gp r o c e s so ft h es y s t e md a t ao nt h i sf o t m d a t i o n ,f i n a l l y ,i ts t r e s s e st h ek e y t e c h n i q u ew h i e ht h es y s t e mu s e s ,a n dt h er e a l i z a t i o no f t h em a i nf u n c t i o ni nt h i ss y s t e m i n c l u d i n gt h es e c o n dd e v e l o p m e n tm e t h o d so f a r c p a d , h i b e r n a t es e s s i o nm a n a g e m e n t a n dt r a n s a c t i o nm a n a g e m e n t k e yw o r d s :g e o e o d i n gw e b g i sa d d r e s sm a t c h i n gh i b e r n a t eg e o c o d i n g m a n a g e m e n t g m l i i 独创性声明 学位论文题目:基王坠! 鱼! 墨鲍地址苤篡篁堡歪统五筮生叠窒 本人提交的学位论文是在导师指导下进行的研究工作及取得的 研究成果。论文中引用他人已经发表或出版过的研究成果,文中已加 了特别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同 仁在文中作了明确说明并表示衷心感谢。 学位论文作者: 况够 签字日期: 。p 7 年印月j 3 日 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人授权西南大学研究生院( 筹) 可以将学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:口不保密, 口保密期限至年月止) 。 学位论文作者签名: 毵名 导师签名: 签字日期:j ”1 年中月捎日签字日期 7 司史刚 力,7 年争月日 西南大学硕士学位论文 第一章绪论 第一章绪论 1 1 研究背景 数字城市是以空间信息为核心的城市信息系统体系,而在数字城市的信息资源的集成和 融合中,地理编码是一项非常关键的技术地理编码( g e o c o d i n g ) 是基于空间定位技术的一 种编码方法,它提供了一种把描述成地址的地理位置信息转换成可以被用于g i s 系统的地理 坐标的方式“。地址采集管理系统就是实现地理编码的过程,它的建成将促进地理编码数据库 的建设,实现在同一地理框架里反映多层次的社会经济信息,是实现城市信息共享和交换的 基石。 通过地址采集管理系统建成的地理编码数据库在经济社会和人们日常生活中起着十分重 要的作用,通过标准地址和对应的空间坐标,就可以实现以统一时空坐标整合各种社会经济、 资源环境、规划建设等信息,使城市中分散的信息资源库之间建立有机联系,实现非空间数 据与空间数据的集成与融合,为各政府部门实现信息共享、交换和整合提供基础信息支撑, 为有关领导、部门对城市规划、建设、管理决策及城市应急指挥提供准确、实时的技术支撑, 并可以满足百姓日常出行对地址定位的需求闭。 1 2 地理编码概述 1 2 1 地理编码概念 地理编码是指建立地理位置坐标与给定地址一致性的过程,以对属性数据和地理实体进 行位置确定和空间检索9 】【4 】。在a r c l n f o 中,对地理编码的定义是指在地理特征中加入地址属 性,从而通过输入地址即能确定一个空间位置。在m a p l r l f o 中,地理编码是指根据各数据点 的地理坐标或空间地址( 如省市、街区、楼层,房间等) ,将数据库中数据与其在地图上相对 应的图形元素一一对应。也就是说,给每个数据赋以y 、z 坐标值,从而确定该数据标在地 图上的位置的过程p 】。 本研究中的地理编码主要指地址地理编码,也即是在地理特征中加入地址属性,从而通 过输入地址即能确定一个空间位置地理编码的过程通常包括地址标准化( a d d r e s s s t a i l d a r d i z a t i o n ) 和地址匹配( a d d r e s sm a t c h i n g ) 。地址标准化是指在街道地址被编码之前所做的 标准化处理,地址匹配是指确定具有地址事件的空间位置并且将其绘制在地图上。本文的地 址采集管理系统主要是依据地理编码的原理,通过地址标准化和地址匹配来实现地址地理编 码,从而建立标准的地理编码数据库。 1 2 2 地理编码研究意义 随着地理信息系统( g i s g e o g r a p h i ci n f o r m a t i o ns y s t e m ) 在我国城市信息化建设中越来越 广泛的应用,城市职能部门之间也迫切要求对空间数据与非空间数据进行共享和整合。但是 目前我国政府各职能部门的信息分散,无法与其他信息有效的整合。据专家分析,政府各职 西南大学硕十学位论文 第一章绪论 能部门拥有的大量业务信息中,8 0 的信息都与地理空间位置密切相关,但是这些信息几乎都 没有空间坐标,因此无法与其它信息整合,无法实现可视化的空间分析。为了将这些空间信 息与非空间信息、非空间信息与非空间信息进行集成与融合,真正为公众提供直观而生动的 基于空间位置的服务,就需要建立空间与非空间信息之间的联系,而地理编码正是建立这二 者之间联系的最重要最实用的手段。 依据地理编码的原理,通过地址采集管理系统,采集和录入各行各业的数据,经过审核 维护而建立的标准地址编码数据库,可以在空间信息与非空间信息之间建立联系,从而实现 数据的共享与融合,这对一个城市而言具有重大的意义。以北京市为例,在建设了北京市地 名、路名、楼名和门址等数据库之后( 包括地名的标准名称、地名的空间坐标、地名的唯一 编码等) ,就可以对空间信息进行简单的查询和检索分析,以支持与位置的相关服务,如在警 用信息系统中,可以迅速查询事故地点周边的重要信息并在地图上清晰地显示出:如派出所 信息,移动巡逻警的具体位置,消防中队的信息,重点单位信息,重点人口信息,医院等;。 此外,还可以对非空间部门的信息进行分析、统计、管理、制图和可视化表示,以支持政府 的管理和决策。如通过对工商税务管理的各类企事业数据库进行分析,就可以生成各类空间 专题信息系统:对房地产的评估,可以生成交通便利图、医疗卫生分布图,餐饮分布图、商 业分布图、小区分布图、学校分布图、总体评估图;对企事业单位评估,可以生成各类点位 分布图,如交通便利图、医疗卫生分布图,餐饮分布图、商业分布图、小区分布图、学校分 布图、商业银行分布图。通过利用北京市普查办公室的各类普查数据库中的地址信息,就可 以对大量宝贵的普查数据进行空间可视化分析,生成人口普查、工业普查、商业普查、教育、 住房普查分布图,并可以进一步进行人口与教育布局的空间分布合理性、进行商业网点的选 址、房地产的地价指数分析等。 同时,它还可以为人们的日常出行带来便利。人们通过地名和地址之间的联系来寻找城 市中的目标。即可以通过地名来查找地址,也可以通过地址来查找某一范围内的各种信息。 这种定位方式是通过一段文字来表达目标位置的。例如,我们用“北碚区天生路号”来表示 某一学校的位置。在地理信息系统中,计算机是无法通过以上文字的叙述而直接寻找到目标 的位置的。目标的位置是由其所在地的地理空间坐标确定的,如该地的经度和纬度,或是其 在规定的大地平面坐标系中的x ,y 值。然而,经度纬度或是x ,y 值对普通用户来说,只是 空洞的数字,没有丝毫意义。虽然。现在可以通过全球定位系统( g p s ) 接收机来轻易地知道 自己所在的地理坐标,但这一串数字远不如街名路名门牌号更具现实意义和实在。因此,地 理信息系统需要一座沟通计算机中地理信息与用户的桥梁,进行用户的现实世界语言同计算 机空间信息语言之间的转换。地理编码可以有效地解决这一转换问题,即利用地理编码数据 库来建立地址与地理空间坐标之间的对应关系。 虽然,目前大多数信息系统中都包含了地址,联系方式这样的字段,但这些地址与空间 坐标没有建立联系,因此一般都没有被充分利用。同时,为满足管理和决策上的需要,几乎 2 西南大学硕士学位论文第一章绪论 每个行业或机构都以某种形式采集、处理和传播空闻信息。在这种情况下,尤其是在多种计 算机应用环境下,对空间数据的综合利用和共享产生了障碍。而通过地理编码可以实现原有 信息系统和空间信息的融合,将日常的经济,社会、人文、历史、旅游、商业等一系列城市 生活中的信息空间化,实现资源的共享和融合。通过标准地理编码数据库构建空间数据仓库, 在空间信息支持下进行更有效、更深刻的空间分析和决策应用。 1 3 国内外研究进展 1 3 1 国外研究进展 美国是地理编码应用最早、最广泛的国家。早在二十世纪七十年代,美国就已经建立了 全国的地理编码标准,并开发了通用的地理编码软件工具,到9 0 年代后,它已经成功地应用 于t i g e r 文件系统【7 l ,在历次全国人口普查统计中发挥了巨大作用。 日前,地理编码软件工具已经商品化,一些著名的g i s 软件都有地理编码模块,如m a p l n f o 的m a p m a r k e r ,a r c l n f o 的g e o c o d i n g 等并且在商业竞争分析、公用设施选址、城市规划方面 都有广泛的应用【s 】 下面介绍下国外主流g i s 软件中地理编码技术的应用。 ( 1 )a r c l n f o 软件中的地理地址编码 a r c i n f o 中包含有地理地址编码( a d d r e s sg e o c o d i n g ) 模块。g e o c o d i n g 是指在地理特征中 加入地址属性,从而通过输入地址即能确定一个空间位置。地址的输入可以通过几个a r c 程 序( 如a r c p l o t 、a r c e i d t 等) 交互地输入。也可以来自一个表格文件。 a r c l n f o 中将确定具有地址的事件的空间位置的过程定义为地址匹配( a d d r e s sm a t c h ) 通过确定事件的地理位置,可以用不同的方法分析事件。例如可以将犯罪事件与人口普查区 叠加,通过人口统计信息分析犯罪类型。 在国外,地址是用具有特定语法的地址字符串来表示 9 1 。例如:n u m b e r 是地址的数字部 分;s t r e e t m 腓是地址的名字部分,可以是描述特征地址的任何字符串,例如街名或某一位置 的其他名称:s t r e e tt y p e 是街道类型,如d r i v e ,s t r e e t ,a v e n u e ,l a n c gd i r e c t i o n 有时出现在 地址中的方向标志,可以是前缀方向( 出现在名字前) ,也可以是后缀方向( 出现在名字后面) ; u n i t n u m b e r s 是单位门牌号,如公寓或建筑的门牌号,它是地址的组成部分。尽管可以在地址 中存储这一信息,但是a r c l n f o 的地址匹配不支持这一信息,即这部分信息可以出现在要进行 匹配的l i f o 文件中,但处理时予以忽略;z o r l e $ 是地址中经常出现包括的地区信息,如邮政编 码或者城市名,该信息在a r c l n f o 地址匹配中非常重要。例如,当一个地址与多个特征对应时, 程序将根据z o n e 信息在几个记录中选择具有相同7 _ 0 1 1 e 信息的记录相匹配。z o n e 数据必须用 另外一个数据项存储。 在实际操作中需要使用哪几个地址成分取决于表达地址的方式和地理特征的类型( 点、 线、多边形) 。 3 西南大学硕+ 学伊论文第一章绪论 a r c l r d o 中一个典型的地理地址编码可以包括以下三个过程【l q :建立一个地址c o v e r a g e ( c o v e r a d d ) 、生成一个事件文件( e v e n tf i l e s ) 和地址匹配( a d d r e s sm a t c h i n g ) 其中,地址c o v e r a g e 是一种特殊类型的c o v e r a g e ,可以将地址与c o v e r a g e 的特征联系起来, 一个地址的不同表达方式可以存贮在一个地址文件中以增强地址匹配的能力。地址c o v e r a g e 可以是点、线或多边形c o v e r a g e 。事件文件为存储将要与某些地理特征匹配的数据的文件。 ( 2 ) m a p l n f o 软件中的地理地址编码 在m a p l n f o 中显示的数据,需包含x 和y 坐标以使m a p l n f o 知道把数据应放在地图的何 处【l ”。m a p i n f o 将指定地图坐标的过程称为地理编码它将地理地址编码看作是将空间地址数 据与空间位置( 坐标) 相关联,使得可以在地图上确定此空间地址数据所代表的地理实体的 位置。 m a p l n f o 软件中的m a p m a r k e t l l 黾一个专门用于地理编码的软件,此软件实现了基本的地 理编码框架和地址匹配引擎。它基于完备的地址数据库、美国邮政管理局( u s p s ) 街道地址 数据库、街道图层和最新的z i p + 4c e n t r o i d s 数据集来给用户提供的数据库中的每一条记录赋予 地理坐标值。同时,m a p m a r k e r 在地理编码过程中也给用户附加了许多控制工具,包括地理 编码模式、策略、匹配设置参数等。 m a p m a r k e r 模块的主要功能包括:快速、批量地理编码处理大量的数据表;交互式的地 理编码来尽可能地提高地址匹配率和容错性:可以针对街道地址、邮编或街道交叉口进行地 理编码;可以依据匹配类型,设置地理编码的结果代码来表示匹配情况;利用m a p m a r k e r 附 加的地址数据词典对地址数据进行标准化处理以满足美国邮政管理局c a s s ( 代码正确性支持 系统) 的要求;可以利用o d b c 来对数据表进行远程地理编码;m a p m a r k e r 引擎可以同时响 应多个并发的地理编码请求等等。 m a p m a r k e r 软件中地理编码的模式主要包括:自动模式地理编码;只有在进行精确地 址匹配时才采用自动模式的地理编码。交互模式地理编码:当精确地址匹配失败时就需要 使用交互模式来进行地理编码,允许用户手动匹配那些不能在自动模式下匹配的地址。地理 编码的方法主要包括:按地址进行的地理编码【”1 ;按边界进行的地理编码:“边界”指封 闭的区域或面积,例如国家、城市和邮政编码。地理编码方法的选择主要是用于提高地理编 码的准确率。在选择一种地理编码方法之前,需要事先了解数据的内容和质量,提前明确应 用地理编码的目的【1 4 j 。 在其具体的应用中,m a p m a r k e r 已经结合具体地区,如美国、加拿大,完成了这两个国 家的地址数据库的建设。由于使用了文件系统管理地址数据,使得这两个国家的地址匹配引 擎具有较高的响应速度,在加拿大全国1 5 g 字节的地址数据量的情况下,进行地址匹配仅需 1 秒钟。目前,m a p m a r k e r 已经提供了c 语言和j a v a 语言的二次开发接口,但其软件仅适用 于上述两个地区p j 。 通过对国外已有的地址编码软件的分析发现,国外已有的地址编码软件不适合中国国情, 4 两南大学硕七学位论文第一章绪论 如果全盘重新设计如同t i g e r 系统那样的地址编码体系,那么国内大部分城市现行的地名地 址体系就要作很大的调整和规范,这具有很大的难度,并且也是不现实。再者,诸如t i g e r 系统那样的解决方案,按今天的科技发展水平来衡量,也不是最理想的,其主要问题是过丁 复杂的拓扑关系给系统建设和闱户使用带来颇多麻烦【l ”。可见,完全照搬国外的地址编码模 型是不行的,我们必须要建立适合我国国情的标准地理编码数据库因此本文提出建立一种 适合我国国情的地址采集管理系统,为我国标准地理编码数据库的建立提供思考。 1 3 2 国内研究进展 从国内关于地址编码的研究情况来看,我国不少单位已经开始研究适合于我国使用的地 理编码的模型和标准。如北京市和上海市先后颁布的一系列城市道路、道路交叉口、街坊代 码标准。但这种纯属性编码模型存在空间信息冗余,比较复杂,不适合地理信息应用。 在地址匹配和定位技术方面,也开发了一些相应的软件和应用。如北京长地计算机公司 的“寻址神”,北大方正数码公司的m a ps e a r c h e r 1 6 1 等,但都没有建立标准的地理编码数据库。 以m a ps e a r c h e r 地址编码管理器为例,虽然它试图实现基丁二北京市全境地图数据和地址数据, 依据地址字符串智能地匹配出地理坐标值。但其地址编码管理器采用的地址模型太过复杂, 加上软件功能开发太过简单,在具体应用中地址匹配率不高,即使是针对地址匹配技术来说 也称不上是一个完善的系统。 此外,国内目前关于地理编码的应用基本上都是仅限于针对某个具体的应用系统。如地 理编码在公安地理信息系统、警用综合地理信息系统、公安联动应急系统、交通地理信息系 统中的应用。以警用综合地理信息系统为例。警用综合地理信息系统1 1 就是利用空间地理信 息技术,以电子地图为基础,以公安宽带网络为依托,以信息共享和综合利用为目标,实现 公安基础信息基于空间电子地图的可视化查询和分析,提高在指挥决策、快速反映、反恐等 方面的综合能力,为治安管理,警力部署、巡逻布控、安全警卫等公安业务提供行之有效的 管理手段。 目前公安行业已经建立大量的数据库如常驻人口数据库、重点人口数据库、刑侦数据库、 1 1 0 警情数据库等和相应的业务应用系统。警用综合地理信息系统的建设必须和这些数据进行 有效的结合,实现业务信息基于地理信息的可视化分析。从这个角度看,警用综合地理信息 系统离不开m i s 数据库的支撑,m i s 数据库是警用综合地理信息的最重要来源,警用综合地 理信息系统只有能够动态和m i s 数据关联,将m i s 定位到地图上实现可视化和综合地理信息 应用,系统才具有生命力和发挥应有的作用。 如何将m i s 数据定位到地图上是解决警用综合地理信息系统可持续发展的关键问题。按 照“公安五要素”模型,将警务信息抽象为人、案( 事) 件、机构、物品、地理位置五要素,公 安涉及的所有信息可以按照该五要素进行分类。同时。对数据库研究发现,大部分m i s 数据 库中都包含了地址信息。 而在实践中发现,每个楼盘都有相应的地址,可以通过地理地址编码确定每个楼块相应 5 西南大学硕十学位论文第一章绪论 的地理坐标。因此,建立基于地理地址编码平匹配技术的m i s 数据自动地图定位,是解决m i s 数据可视化的关键技术和手段。实现地理地址编码和地址匹配,需要做如下工作【1 8 1 1 ) 建立标准地址编码库:基于大比例尺电子地图提供的楼盘数据,进行标准地理地址编 码的普查,通过地理地址编码采集系统录入数据、地理地址编码整理系统建立标准地址编码 库; 2 ) 建立地址匹配服务系统:实现对自然语言地址信息的语义分析,词法分析,自动和标 准地址库匹配,比对出精确的地理坐标; 3 ) 建立批量处理m i s 数据库的地址匹配系统:实现对大数据量m i s 数据的处理,生成 相应m i s 数据的图层; 4 ) 对m i s 数据库的地址信息进行标准化处理和规范化录入,提高地址匹配的成功率。 综上可见,国内目前关于地理编码的应用基本上都是仅限于针对某个具体的应用系统, 都没有建立标准的地理编码数据库,也没有提出一个系统的、完整的地理编码解决方案。因 此本文通过开发与研究地址采集管理系统,促进我国标准地理编码数据库的建立。 1 4 主要内容和论文组织 本论文主要由五章组成,各章的主要内容如下: 第一章主要是对地理编码的概念和含义进行了解释,地理编码对于空间信息融合具有重 要的意义。最后对国内外地理编码的研究进展及其应用情况做了分析和研究。 第二章重点分析和研究了地理编码的原理与实现方法,提出了本系统所采用的地址地理 编码数据模型,详细讲述了地址拆分、标准化的过程,然后介绍了空间数据参照库的建立, 最后对地址匹配的方法做了分析。 第三章探讨了w e b g l s 在地址采集管理系统中的应用,介绍了w c b g i s 的技术原理和g m l 的特点,然后提出了基于g m l 的w e b g i s 的三层体系框架,以及地址采集管理系统中地图服 务的实现。 第五章研究了地址采集管理系统的设计与实现,首先介绍了系统的设计目标、系统的设 计原则、系统的功能模块,在此基础上提出了系统的体系结构,分析了系统数据的处理流程, 然后重点探讨了该系统所运用的关键技术及其解决方案。 最后一章,对本文进行了总结,并对以后的研究发展提出看法和展望。 6 西南大学硕+ 学位论文 第章地址地理编码的原理及方法 第二章地址地理编码的原理及方法 2 1 地址地理编码原理 地址地理编码是建立地理位置坐标与给定地址一致性的过程,即实现地址与地理坐标之 间的相互对应( 地址与地理坐标的对应关系如表2 1 ) 。我们把描述成地址的地理位置信息转 换为可被g i s 系统所理解的地理坐标,这一过程称作a d d r e s sg e o c o d i n g ( 地址地理编码) 。 表2 1 地址与地理坐标的对应关系 地名地址邮编x 坐标y 坐标 l 北京大学北京市海淀区颐和园路5 号 1 0 0 8 7 1 地址地理编码的实现原理是将需要地理编码的属性记录中的地址字符串进行拆分和标准 化,然后用拆分并标准化后的关键地址字段的值与空间参照数据中地理实体的对应字段的属 性值进行地址匹配,如果匹配成功,就将地理实体的地理坐标赋给属性表中的相应记录,从 而实现对此记录的地理编码【1 9 1 。地址地理编码的实现过程如图2 1 : 图2 1 地址地理编码的实现过程 2 2 地址数据的标准化 由于现实世界中地址数据的复杂性和命名的不统一性,要实现地址的地理编码和地址的 成功匹配,就必须遵循标准地址编码的规范,依据标准地址编码的数据模型来进行地址字符 串的拆分,实现地址的标准化。 2 2 1 标准地址编码基本规范 标准地址编码规范应该采用如下原则口o 2 1 】: 唯一性:不同的地址数据应该有唯一的地址编码; 永久性:一旦给一条地址赋好了码,就应当保持它的稳定性; 可扩展性和可持续性原则:码长要能够满足北京市地址数据增加的需要,可以适应地址 数据的改变; 标准性原则:编码必须适应国家标准体系,以便实现数据共享; 层次性:地址编码应当能够放映地址数据中各个地址要素的层次关系。 7 西南大学硕十学位论文 第二章地址地理编码的原理及方法 2 2 2 标准地址编码模型 在我国,城市地址常用的名称有以下几种: ( 1 ) 以行政区划的名字作为地址:如北京市,海淀区。密云县,永定门外街道办等; ( 2 ) 以城市的地( 片) 名作为地址:如海淀区北太平庄,马甸,海淀区红联南村等; ( 3 ) 以住宅区,社区的名称作为地址:如回龙观小区、兰旗营小区,崇文区西革新里社 区等; ( 4 ) 街巷、胡同:如中关村大街,宣武区朱茅胡同等: ( 5 ) 街道牌地址:如中关村大街1 号,颐和园路5 号等; ( 6 ) 楼名、楼号:如崇文区安化北里3 楼,前门大街2 1 6 号楼等; ( 7 ) 突出建筑物、交通场站:如保利大厦,方正大厦,北京西站等。 由上可以发现,地址典型表达为:省( 市、自治区、直辖市) + 市+ 区+ 街道办+ ( 社 区、建筑物) + 门牌号+ ( 楼名,楼号) 。 基于地址的分层数量不确定,每一个层的地址要素存在一个或多个别名,因此,我们提 出一种变长的标准地址模型,即标准地址由不同数量的标准地址要素顺序组成,所有的地址 要素构成一个变长的地址树,每个节点都可以作为一条地址,该地址的标准名称是根节点到 该节点的顺序组合( 本地址模型由作者所在项目小组共同开发,限于知识产权和商业秘密不 详细描述) 2 2 3 地址字符串的拆分 地址是具有定位功能的自然语言。英文与中文自然语言处理的一个重要差异是分词技术, 英文的单词与单词之间有空格分隔符,而中文的语素和单字词,合成词和短语之间没有清晰 的界限。语言学界对“词”在概念上有一个清晰的定义,即“词是最小的能够独立活动的有 意义的语言成分”1 2 2 1 。地址拆分是将地址字符串分割为有意义的独立的词。下面是中文地址 字符串拆分的示例: ( 1 ) 北京市东城区东直f l # b 大街1 4 号。拆分结果为:北京市i 东城区l 东直门外大街i 1 4 号,每个词的意义分别为:城市名i 区,县名i 街道名i 沿街号码; ( 2 ) j e 京市东城区中华路6 号院6 号楼,拆分结果为:北京市i 东城区l 中华路i6 号 院1 6 号楼,每个词的意义分别为:城市名l 区县名i 街道名i 沿街号码l 楼号; 基于语言学对“词”的定义以及上节地址字符串拆分的概念,为了方便地址数据模型的 分析,我们引入地址要素的概念:即地址字符串拆分之后得到的有意义的词语单位。地址要 素的组合形成地址。上例中,北京市、东城区、东直门外大街,1 4 号都是地址要素,这些地 址要素组合成了标准地址北京市东城区东直门外大街1 4 号。 2 3 空间参照数据库的建立 由于我国城市之间,城市与农村之间的地址差异性很大,因此建立国内统一的标准地理 8 西南大学硕+ 学位论文第二章地址地理编码的原理及方法 编码数据库困难重重,目前国内还没有应用于全国范围的精确度可达到街道门牌及建筑物层 面的标准地理编码空间参照数据库。所以目前空间参照数据库的建立应当考虑城市之间,城 市和农村之间的地址差异性,在一定范围内的实际现有数据为背景,建立小范围内的具有可 扩展性的空间参照数据库。 空间参照数据库的建立取决于地址模型中所包含的地理实体的种类,它主要包括道路数 据、房屋数据、区域界限数据和标志物数据等。道路数据体现的是最基础的坐标位置信息, 它由一系列道路中心线段来表示,现实世界中的交通网络就是由这些线段组成的。每条线段 都有一个唯一的矢量结构:道路名称,路左门牌号起始,路左门牌号终止,路右门牌号起始, 路右门牌号终止以及道路两边门牌号排列规律等,这个矢量结构信息包含了丰富的信息,可 以根据门牌号类地址数据进行大区域范围的交通事故定位分析、城市经济分析、公交路线分 析等。房屋数据由建筑房屋的投影边界图形表示,每个建筑房屋都有唯一的结构:房屋所在 的社区( 或小区) 名称,房屋的楼牌号及其所属区域的邮政编码等。区域界限数据的主要用 途包括:对一个地址快速而有限的搜索,按大概的定位给地址信息做索引,提供关于定位一 个地址的相关信息,区分不同定位中的相同地址间的差别,区域数据主要包括行政区划界限 及其邮政编码的相关信息,其中邮政编码的使用最为普遍。标志物数据由许多点地物表示, 每个点地物代表一个独一无二、具有标志特性的地物“9 1 。 2 4 地址匹配方法的实现 地址匹配是实现地理编码的核心技术。通常地址匹配的实现方式为定位到街道和定位到 区域,这种传统的匹配方式定位区域比较广。显得比较模糊,不能精确定位到门牌号,造成 地理编码实用性不高。因此本文通过地址的拆分,建立地址相应的索引,通过正向最大匹配 算法以提高地址匹配的效率。 2 4 1 地址的拆分与索引 地址是依据t r i e 结构来进行拆分。t i l e 结构田1 实际上是一颗k 叉树,它的每个分支由输 入的字符串构成,每个节点由输入字符串中每个字符构成。1 r 根据输入的字符串的首字符 来来建立索引,给每条字符串建立分支。利用u e 树( 又可称为地址要素树) 对地址进行拆 分,将输入的地址字符串拆分成标准的地址要素。然后,采用在咖树的叶节点上增加指针 链表指向地址模型树的方式,建立起地址模型树和t r i e 树的对应关系。不同的t r i e 树节点 层应该指向相应的地址模型树的节点,并且容许多个t r i e 树节点指向同一个地址模型的节点。 拆分完1 r m 树,就可以指向地址编码树的节点,从而起到索引作用。 2 4 2 正向最大匹配算法 正向匹配算法主要用于解决从地址字符串到空间信息转换问题。例如,假设输入的地 址字符串是“北京市海淀区颐和同路5 号”,首先取出字符串的第一个字符“北”,在t r 匝树 的第一层进行比对,看哪个节点包含“北”,如果不包含,则拆分失败。如果包含,记录下那 9 西南大学硕士学位论文第二章地蚺地理编码的原理及方法 个节点a 1 ,接着取第二个字符“京”,并取刚才作过记录的节点a i 下的所有下一层节点( 即 第二层) 进行比对,如果有节点包含“京”,则记下这个节点a 2 ,继续比较“市”,在a 2 的 下一层节点比对,找到节点a 3 包含“市”,而且a 3 为叶子节点。则拆分成功。将原来字符串 拆分成了“北京市”和“海淀区颐和同路5 号”两个串,继续用前面的方法拆分“海淀区颐 和同路5 号”这个字符串,将其分成“海淀区”和“颐和同路5 号”,再继续用同样方法匹配 “颐和同路5 号”,找到最后一个字“号”,是叶子节点,拆分成功。根据t r i e 树叶节点上的 指针查找地址模型树的相应节点,从地址模型树节点中取出相应地址的空问位置信息,同时 在地址模型树中上溯返回该地址的标准地址。 l o 两南大学硕十学位论文第三章w e b g i s 在地址采集管理系统中的府用 第三章w e b g i s 在地址采集管理系统中的应用 随着i n t e m e t 技术的不断发展和人们对g i s 的需求。利用i n t e m e t 在w e b 上发布和共享空 间数据,为用户提供空间数据浏览、查询和分析的功能,己经成为g 1 s 发展的必然趋势,2 0 世纪9 0 年代,基于i n t e m e t 技术的地理信息系统w e b g i s 应运而生。w e b g i s 为空间地址数据 的在线浏览、查询、维护与编辑提供了可能,基于w e b g i s 的地址采集管理系统,采用g m l 作为空间数据的传输格式,使得网络上各g i s 系统之间,o l s 系统与其它应用系统之间能够实 现无缝的数据交换,从而实现g i s 服务的灵活定制和扩展。通过w e b g l s 数据融合屏蔽分布 式的异构数据源,将不同原始数据格式的图层数据统一以g m l 的形式组织在一起,同时减少 数据冗余,提高数据质量。 3 1w e b g i s 技术原理 w e b g i s 是在网络的信息发布、数据共享、交流协作的基础上实现g i s 在线查询和业务处 理等功能的分布式地理信息处理系统瞄】。w e b g i s 以互联网为环境,以w e b 页面作为g i s 软 件的用户界面,把i n t e r n e t 和g i s 技术结合在一起,为各种地理信息应用提供o i s 功能。 与传统的g i s 相比,具有b s 体系结构的w e b g i s 使原来基丁:单机或局域网的g i s 扩展 到整个因特网,使地学数据和地学模型有可能在全球范围内共享。同时,经过合理的组织, w e b g i s 可以实现数据和模型操作的透明,为地球系统科学研究提供一个功能强大而又方便有 效的途径嘲。此外,w e b g i s 开发和应用管理成本低、使用简单能实现真正的信息共享,并 且w e b g i s 具有以下优点:多源数据共享;平台独立性;平衡计算负载和网络流量负载;简化 系统的操作及管理;降低系统成本和费用 2 6 1 。 3 2 g m l 特点 g m l ( g e o g r a p h i cm a r k u pl a n g u a g e ) 是o g - c ( o p e ng i sc o n s o r t i u m ) 定义的,是用来对 空间地理数据( 包含空间信息和属性信息) 进行编码和存储的基于x m l 的一个标准。这个标 准定义了x m ls c h e m a 语法和机制 2 7 1 ,提供了一个开放的,用来定义空间地理数据的框架。 而且允许用户开发出基于遵循g m l 规范的自己的子集,由于各个厂商都遵循同一个规范,使 相互之间进行空间地理数据的交换成为可能。用户也可以有自己的数据定义格式,但是在进 行数据交换时,用g m l 作为一个媒介来实现数据的传输和交换。g m l 是一种面向地理空间 对象的标志语言,它通过提供基本的几何标记、通用的数据模型和一个创建与共享应用系统 框架的机制来实现空间数据的互操作。 o g c 协会于1 9 9 9 年1 2 月1 3 日提出了g m l ,即地理标记语言的征求意见版( i u c ) 。2 0 0 0 年4 月2 0 日正式推出g m l i 0 版本的规范。2 0 0 1 年2 月2 0 日推出g m l 2 0 版本的规范,从 而为基于万维网的地理信息的发展奠定了基础。2 0 0 3 年2 月5 日,o g c 宣布批准通过和发布 西南大学硕十学位论文 第三章w e b g i s 在地由卜采集管理系统中的席用 g e o g r a p h ym a r k u pl a n g u a g e 版本3 0 。g m l 3 0 用x m l 定义了数据编码,使地理数据和属性 数据能够在不同的系统之间自由移动新发布的g m l 3 0 具有模块化特点,即用户能够选择必 要的部分使用,减化和缩小了执行的尺寸。g m l 3 0 新增加的内容包括支持复杂的几何实体、 空间参照系统、拓扑、元数据、栅格数据等多个方面【2 8 l 。 g m l 是一个开放的框架结构,利用g m l 提供的基本模型,通过对基本模型的继承和扩 展,可以比较容易地构建面向对象的模型,这种描述方法可以清楚地表示地物的属性信息和 几何信息,简洁地描述地物之间的拓扑关系,突出了面向对象数据模型的易于理解和描述口9 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年避震山地车合作协议书
- 学生食品安全知识测试题及答案解析
- 一般从业资格考试有效期及答案解析
- 农民工工资保障支付政策汇编
- 建设项目招投标文件范本解析
- 检测单位安全隐患问题库及答案解析
- 小学毕业模拟数学试卷分析报告
- 福州市安全员培训题库及答案解析
- 物业节能减排措施及效果分析报告
- 医院护理工作质量管理细则
- 2025年煤矿矿山救护救援行动人员三级救援案例分析试卷及答案
- 沥青路面施工合同范本模板
- 人工智能在灾害应急救援中的作用与挑战研究报告
- 第二单元维护社会秩序 检测题(含答案)-2025-2026学年八年级上册道德与法治
- 2025年公安辅警笔试考试题库及答案
- HTTP协议课件教学课件
- 物业防寒防冻安全培训课件
- T-CCUA 048-2025 政务信息系统运行维护费用定额测算方法
- 建筑工地环保及噪音控制施工方案
- 消化内科出科题目及答案
- 2025陕西寰宇正信科技产业发展有限公司招聘(71人)笔试备考试题及答案解析
评论
0/150
提交评论