




已阅读5页,还剩50页未读, 继续免费阅读
(地图学与地理信息系统专业论文)面向决策支持的国土资源数据仓库构建研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
首都师范大学硕:七学位论文面向决策支持的国土资源数据仓库构建研究 摘要 近几年国土资源信息化建设飞速发展,作为“数字中国”、“数字国土”的重要组成部分, 国土资源信息化是实现国土资源管理方式根本转变和国土资源工作现代化的重要途径。 在国土资源信息化过程中,数据既是基础,也是关键,具有相当重要的意义。由于国 土资源数据所涉及的范围和内容非常广泛,因此对其进行科学有效的管理是一项复杂的系 统工程。 国土资源数据库系统建设目前已经相对成熟,可以有效存储海量的国土资源数据。但 目前缺乏对这些数据的深加工,不能够完全体现高额成本获得的原始数据的价值,没有提 供数据分析和辅助决策方法和手段。将数据仓库技术与国土资源信息化建设相结合,增加 相关信息系统的辅助决策能力,为决策提供科学依据,充分发挥国土资源的宏观调控和土 地闸门作用的潜在价值。 本文对数据仓库在国土资源信息化中的应用及其相关理论进行了探讨,并以北京市国 土资源信息化建设为例,构建了国土资源数据仓库。 首先阐述了数据仓库的基础理论,包括对数据仓库概念、体系结构、数据模型、关键 技术及解决方案的介绍。 在分析国土资源数据特性的基础上,针对北京市国土资源信息化现状,提出了国土资 源属性数据以及空间数据的e t l 方法。 在面向需求的基础上,对国土资源数据仓库的决策主题的选择,数据仓库的建模、构 建策略和构建流程进行了研究,并以土地利用现状、农用地分等定级主题为例,提出了逻 辑模型,设计了相关的数据仓库结构,建立了数据集市。 在上述数据仓库模型的基础上,本文在由数据库管理系统s q ls e r v e r 、空间数据中间 件a r c s d e 以及数据仓库软件m i c r o s t r a t e g y 所组成的环境下,搭建了基于北京市国土资源 数据仓库的决策支持原型系统。 关键词:数据仓库国土资源空间数据e t l 首都师范大学硕士学位论文 面向决策支持的国土资源数据仓库构建研究 a b s t r a c t p r o g r e s s i n gr a p i d l y , i n f o r m a t i o n i z i n gc o n s t r u c t i o no f l a n da n dr e s o u r c e s ,a ne s s e n t i a lc o n s t i t u e n t o fd i g i t a lc h i n aa n dd i g i t a lt e r r i t o r y , i st h ek e yt oc o n v e r tt h em o d eo fl a n da n dr e s o u r c e s m a n a g e m e n tr a d i c a l l ya n dm o d e r n i z er e l e v a n tw o r k i n g s i nt h ei n f o r m a t i o n i z i n go fl a n da n dr e s o u r c e s ,d a t aw h i c hi sf u n d a m e n t a la n dc r u c i a lm e a n s al o ti ni t h o w e v e r , f o rt h er e a s o nt h a tl a n da n dr e s o u r c e sd a t ar e l a t e st oag r e a td e a lo fc o n t e n t s , i ti sc o m p l e xs y s t e me n g i n e e r i n gw h i l em a n a g i n gi ts c i e n t i f i c a l l ya n de f f e c t i v e l y a tp r e s e n tt i m e s ,r e l a t i v e l yg r o w nu pl a n dr e s o u r c e sd a t a b a s ei sa b l et os t o r em a s sr e l a t i n g d a t a n e v e r t h e l e s s ,l a c k i n gd e e pp r o c e s s i n gt o w a r d ss u c hd a t ac a n n o tf u l l yr e f l e c tt h ev a l u eo f r a wd a t aa tt h ep r i c eo fc o r r e s p o n d i n gh i g hc o s t a l s o ,t h e r ea r ef e wm e t h o d si nd a t aa n a l y z i n g a n dd e c i s i o na s s i s t a n c e t h e r e f o r e ,ac o m b i n a t i o no fd a t aw a r e h o u s ea n di n f o r m a t i o n i z i n gi n l a n da n dr e s o u r c e sc a ni m p r o v et h ea b i l i t yo fr e l a t i n gi n f o r m a t i o ns y s t e mi nd e c i s i o na s s i s t a n c e , s u p p l ys c i e n t i f i cb a s i st od e c i s i o nm a k i n g , a n df u l lp l a yt h ep o t e n t i a lv a l u eo f l a n da n dr e s o u r c e s i nm a c r oc o n t r o la n dl a n dg a t i n g t h i sp a p e rd i s c u s s e st h ea p p l i c a t i o n so fd a t aw a r e h o u s ea n dr e l a t i n gt h e o r i e si nl a n da n d r e s o u r c e si n f o r m a t i o n i z i n g f u r t h e r m o r e ,al a n da n dr e s o u r c e sd a t aw a r e h o u s eo fb e i j i n gc i t yi s c o n s t r u c t e da sa ne x a m p l e f i r s t l y , b a s i ct h e o r i e sa r ei n t r o d u c e di n c l u d i n gc o n c e p t s ,s y s t e ms t r u c t u r e s ,d a t am o d e l s ,k e y t e c h n o l o g i e s ,a n ds o l u t i o n s b a s i n go na n a l y z i n gc h a r a c t e r i s t i c so f l a n da n dr e s o u r c e sd a t a ,a ne t lm e t h o dd e a l i n gw i t h l a n da n dr e s o u r c e sa t t r i b u t ed a t aa n ds p a t i a ld a t ai si n t r o d u c e di nv i e wo fs t a t u sq u oo fb e o i n g l a n da n dr e s o u r c e s r e s e a r c hi su n d e r t a k e no nd e c i s i o nm a k i n gt h e m ec h o o s i n g ,d a t aw a r e h o u s em o d e l i n g , c o n s t r u c t i n gs t r a t e g y , a n dc o n s t r u c t i n gw o r kf l o w , i nt h e b a s eo fd e m a n d o r i e n t a t i o n a n e x a m p l eo fl o g i c a lm o d e lp a r t i c u l a r l yr e f e r r i n gt ol a n du s ec o n d i t i o na n df a r ml a n dc l a s s i f i c a t i o n i sm a d e a n dad a t am a r k e ti sc o n s t r u c t e da f t e rt h ed e s i g no fr e l e v a n td a t aw a r e h o u s es t r u c t u r e o nt h ef u n d a m e n to fd a t aw a r e h o u s em o d e ld i s c u s s e da b o v e ,t h i sp a p e rt h e ns e t su pa p r o t o t y p eo fd e c i s i o n - m a k i n gs y s t e mb a s i n go nb e i j i n gl a n da n dr e s o u r c e sd a t aw a r e h o u s e , i i i 首都师范大学硕士学位论文 面向决策支持的国十资源数据仓库构建研究 w h i c hi sd e v e l o p e di nt h ee n v i r o n m e n tc o n s i s t so fd b m ss q l s e r v e r , s p a t i a ld a t am i d d l e w a r e a r c s d e ,a n dd a t aw a r e h o u s es o f t w a r em i c r o s t r a t e g y k e yw o r d s :d a t aw a r e h o u s e l a n da n dr e s o u r c e s s p a t i a ld a t a e t l i v 首都师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或 集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体, 均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 靴敝储鹕。秀弓 嗍2 啷2 。同 首都师范大学学位论文授权使用声明 本人完全了解首都师范大学有关保留、使用学位论文的规定,学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。有权将学 位论文的内容编入有关数据库进行检索。有权将学位论文的标题和摘要汇编出 版。保密的学位论文在解密后适用本规定。 学位论文作者签名舞豸 日期:2 0 0 8 年5 月2 0 同 首都师范大学硕士学位论文面向决策支持的国十资源数据仓库构建研究 1 1 引言 第一章绪论 自2 0 世纪9 0 年代以来,国土资源的信息化建设经历了几个阶段,取得了长足的进步, 但目前仍然存在一些尚未解决的问题。这主要表现在如下的几个方面: 1 ) “信息孤岛”现象严重、资源不能共享。各类数据库和系统之间相互孤立,没有接口, 信息资源无法共享【i 】。 2 ) 信息化结构不合理。这主要表现在:“重建设、轻应用”,“重硬件,轻软件”,“重数 据库建设,轻数据挖掘与综合分析利用”。信息化建设的投入注重硬件,忽视软件,重视各 类数据库、信息系统建设,轻视更高层次的报表统计、综合分析。 随着近几年国土资源信息化建设进一步加快,使得国土资源数据积累量急剧增长。国 土资源系统已存储了海量数据,海量的国土资源数据是国土资源管理的宝贵财富,但目前 缺乏对数据的深加工,不能完全体现高额成本获得的原始数据的价值,没有提供数据分析 和辅助决策方法和手段。如何有效管理海量数据、分析数据、挖掘有用知识,为国土资源 业务管理和决策提供支持,己到了刻不容缓的时候。 目前国土资源数据库与信息系统建设及应用存在以下两大瓶颈: 1 ) 数据来源多样、数据格式不统一。由于工作需要,国土资源建立多种数据库( 集) , 这些数据厍( 集) 存在着多源、多种格式、结构复杂、多种比例尺、分散存放等问题,严 重影响了数据综合分析与应用 2 1 。 2 ) 信息系统规模庞大但综合统计、分析功能不足。各个国土资源行政管理部门已上 线运行的电子政务系统、办公自动化系统涵盖了多种业务、许多用户,但系统综合统计、 分析功能严重不足,地图、统计图表等功能远远不能满足领导和普通用户的需要。要实现 一个相对复杂的报表就需要临时开发,大大限制了用户使用的积极性,反过来也影响了信 息化部门对用户需求的把握。因此只有借助先进的信息技术和理念,才能打破目前的瓶颈, 开创“数据共享互通,信息随手可得”的局耐3 1 。 数据仓库是二十世纪八十年代初提出的概念,到九十年代中期已经形成潮流。数据仓 库技术能够将来自各数据源的信息进行集成,从事务历史和发展的角度来组织和存储数 据,供用户进行数据分析,并辅助决策支持。目前这种技术是信息技术发展的前沿,是实 现从数据库系统建设向数据综合利用、决策支持发展的必然选择【4 】。 一1 首都师范犬学硕士学位论文匿向决策支持的国土资源数据仓库构建移 究 本文邕在结合北京市雷土资源信息化建设现状,了解数据仓库及其框关技术,探讨这 些新技术如何为国土资源业务管理与决策提供帮助;研究国土资源数据仓库的构建方法和 技术,增加信息系统的辅助决策能力,为决策提供科学依据,充分发挥国土资源的宏观调 控和土地闸门的作用;同时为未来的国土资源综合分析与决策支持系统的建设提供理论研 究和技术研究的基础,因此本文具有较强的探索意义和实用价值。 1 2 数据仓库在国土资源信息化建设中发展现状 近年来,数据仓库( d a t aw a r e h o u s e ,简称d w ) 技术的兴起给信息社会带来新的契机, 逐渐成为i n t e r n e t 之后的又一技术热点。数据仓库技术作为一种新的分析系统解决方案, 得到了广泛重视。以数据仓痒为基础,以联机分析处理和数据挖掘工具为手段的决策支持 系统日渐成熟p 1 。 数据仓库技术早在2 0 世纪9 0 年代就已经在国外应用于实际的企业及政府的信息系统 中了,数据仓库对积累的信息进行职能分析和挖掘,收到了良好的效益。目前,数据仓库 较多的应用于金融、保险、交通、电信、零售、能源等行业1 4 1 。 7 0 年代初,国外发达国家利用g i s 来存储管理罾土资源信息。较为著名的有“同本国 主信息系统”、瞻拿大国家地理信息系统”1 6 1 、“澳大利亚全国土地信息系统”f 7 】等。美国的 许多州也建立了州一级的土地信息系统。这一类信息系统主要侧重予对基础信息的存储与 管理,很少涉及土地的管理工作【8 l 。 9 0 年代以来,各发达国家纷纷建设综合性的土地管理系统。特别在近年来人们广泛利 用互联网,在网络环境下以数字地籍数据库系统为基础,以客户服务器模式或w e b g i s 模 式运行环境进行工作。 针对国土资源管理工作面临的形势和任务,国土资源部成立伊始( 1 9 9 8 年) 就将“加 强国主资源信息系统建设”f 9 l 实现信息服务享会化”f 】作为五大目标之一,积极推进国土 资源管理信息化建设。同时,按照国家关于发展我国电子政务的重大决策,结合土地管理 工作的特点,适时部署并努力推进土地电子政务建设。几年来,国土资源基础信息积累、 信息化基础设施建设等方面取得了显著进展。 随着国内外国土资源信息化建设的高速发展,为了能完全体现国土资源数据的价值, 并提供数据分析和辅助决策功能,对数据仓库技术在国土资源行业中的应用展开了探讨。 已有学者提出了在我国的环境信息化过程中弓l 入数据仓库与数据挖掘的思路,按照我 国屋土资源信息化的嚣标和发展策略,空闻数据仓库无疑将具有极为重要的应用前景。在 , 首都师范人学硕上学位论文 面向决策支持的国土资源数据仓库构建研究 现有的国土资源信息系统与数据库的基础上,按照数据仓库的构建方法,在对各种源数据 进行预处理的基础上,通过数据变换与整理,形成面向决策服务的数据仓库,通过元数据 实现数据仓库的管理,通过各种分析工具实现其应用,服务于相关的管理与决策需求,将 有望成为今后国土资源信息化一个发展方向。当国土资源数据( 仓) 库发展到一定阶段,具 有了海量数据之后,按照数据、信息、知识的会字塔结构,通过数据挖掘技术,发现相关 的知识,以用于指导国土资源舰划、管理与利用j 。 2 0 0 1 年,张夏林等在新一轮国土资源大调查即将展丌的大背景下,展丌了数据仓库技 术在国土资源行业中应用的研究。在数据仓库技术引入国土资源信息系统的可能性、构想 及优势,数据仓库与基层办公自动化系统集合等方由i 进行了深入探讨l i 2 。 国土资源数据整合是国土资源系统集成的自订提,是国土资源信息化建设的必然要求。 王鹏提出了国土资源数据整合的方案以及基于语义转换与信息标准的数据共享技术实现 方法。基于目前国际上一些较先进的数据转换和共享技术,他们提 f 了符合国土资源数据 特性的整合方法,对国土资源数据整合具有一定的理论和l 实践价值意义j 。 一国土资源引擎数据库存储了大量的查询数据信息和类目分榆信息,是国土资源搜索引 擎系统的核心和支撑。为了满足其对相关数据的广度计算和深度计算的较高要求,祝孔强 等提出了以数据仓库与动态数据库相结合的管理模式,取得了良好的效果4 | 。 1 3 研究内容与文章组织 本文旨在了解数据仓库技术在国土资源系统中的应用现状,研究国土资源数据仓库的 建设方法和流程,实现数据仓库的展示原型系统,探讨数据仓库技术在北京市国土资源信 息系统中应用的模式。 研究内容包括以下内容: 1 ) 第一章阐述了论文的研究意义、研究背景以及研究内容。 2 ) 第二章主要包括数据仓库的基本概念、特征及体系结构,数据仓库构建的关键技 术。 3 ) 第三章分析了国土资源数据的特点。了解国土资源数据的特征、种类以及存储方 式是建设国土资源数据仓库的先决条件,有助于设计国土资源数据仓库的结构。 4 ) 第四章展开国土资源数据e t l 方法研究,并对北京市国土资源数据整合提出了实现 方法。国土资源数据e t l 是数据仓库建设中十分重要的一个环节,其工作结果对数据仓库 首都师范大学硕: :学位论文 隧内决策支掩的国土资源数据仓霹构建研究 建设的质量、成败具有十分重要、直接的影响。 5 ) 第五章研究国土资源数据仓库的建设方法和流程。不同行业的数据仓库建设有不 同的方法和流程,本文在前人研究的基础上提出国土资源数据仓库建设的方法和流程,并 设计相应的数据仓库,开发相应的数据模型。 6 ) 第六章设计实现因土资源数据仓库的决策支持原型系统( 前端展示系统) 。国土资 源数据仓库是用于决策支持的,因此必须通过一个前端工其把经过处理的数据有效、直观 地震示出来,为决策者提供分析支持。本文利焉开发工其,设计实现了数据仓库展示原型 系统。 7 ) 第七章对本文进行总结,并展望了未来的发展方向。 首都师范人学坝i j 学位论文面向决策支持的国土资源数据仓库构建研究 第二章数据仓库构建理论与技术 2 1 数据仓库构建理论 2 1 1 数据仓库概念 数掘仓库之父w h i n m o n 于1 9 9 3 年在建立数据仓库一书中,首次明确提出了数据 仓库的概念。数据仓库是一个面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e d ) 、相对稳定 的( n o n v o l a t i l e ) 、时变l 构l ( t i m e v a r i a n t ) 的一系列用于管理和决策制定的数据集合【5 1 。 随着信息技术的飞速发展和g i s 业界对海量空间数据存储、管理、分析和交换的需求, 以面向事物处理为主的空间数据库系统已不能满足需要,空间信息系统开始从管理转向决 策处理,空1 h j 数据仓库就是为满足这种新的需求而提出的空问信息解决方案。美国的 e d w a r d s 教授l9 9 6 年在澳大利亚b r i s b a n e 举办的o r a c l e 亚太地区用户大会上第一次将数据 仓库理论与技术引进g i s 领域,并逐渐形成空间数据仓库理论与技术【15 1 。 空间数据仓库是g i s 与数据仓库技术相结合的产物,是在数据仓库的基础上,引入空 间维数据,增加对空间数据的存贮、管理和分析能力,根据主题从不同的g i s 应用系统中 截取从瞬念到区段直到全球地球系统的不同规模时空尺度上的信息,从而为当今的地学研 究以及有关坏境资源政策的制定提供最好的信息服务【1 6 】【17 1 。 2 1 2 数据仓库特征 ( 1 ) 面向主题的数据组织 数据仓库基于面向主题的宗旨进行数据组织,为决策支持提供了广阔的空间。与传统 的数据库面向应用的数据组织不同,数据仓库是面向主题进行数据组织的。主题是在较高 的层次上将信息系统中的数据综合、归类并进行分析利用的抽象,每一个主题基本对应一 个宏观的分析领域【1 8 】。 ( 2 ) 集成性的数据结构 原有数据库中的操作型数据和数据仓库中的分析型数据之间差别很大。面向事务处理 的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。 面向主题的应用要求整合,需消除原数据中的不一致性,以保证数据仓库内的信息是一致 的全局信息。集成性以多种形式表现出来,如一致的命名转换、一致的变量度量、致的 首都师范大学硕士学位论文两向决策支持的国土资源数据仓库构建研究 编码结构、一致的数据物理属性等。集成性是空阗数据仓库最重要的特点嘲。 ( 3 ) 稳定性的数据环境 原有数据库中的数据通常实时更新,数据根据需要及时发生变化,而数据仓库是采用 e t l 技术加载并被加盖时间戳的。加载的数据一旦进入数据仓库后不再被修改,除非加载 的数据是错误的,那也要通过专用系统进行修改,例如联机分析处理。由于数据仓库环境 相对稳定,因而更便于进行数据的查询和分析。数据仓库的数据主要供决策分析之用,所 涉及的数据操作主要是数据查询,通过对数据仓库使用索引、规范化、构建数据立方体等 方法能够很大程度提升数据仓库的查询分析性能f 2 0 l 。 ( 4 ) 基于时间戳的更新机制 操作烈数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历 史信息,是随时间不断变化的。一般业务数据只保留6 0 9 0 天,数据量为1 0 0 m ;而数据仓 库中的数据时限为5 1 0 年,数据量一般为1 0 t 或更大。可见数据仓库中保留着不同时问段 志的数据快照,它定期将某一时闻段中的数据加载进来并加盖时闻戳,幽此使得数据仓库 中绝大部分综合性数据与时间有关。例如:数据仓库经常按照时闻段来提取群本数据,按 照时间戳进行数据查询分析,通过分析跨越很长时间间隔的数据发现数据的趋势和时间的 关系【2 0 】。 2 1 3 数据仓库体系结构 数据仓库既是一种结构和富有哲理性的方法,也是一种技术,它是存储数据的一种形 式。数据和信息从不同数据源提取出来,然后把这些数据转换成公共的数据模型并且和仓 库中已有的数据集成在一起,当用户向仓库查询时,需要的数据已经准备好了f 2 。作为一 个系统,数据仓库按照功能可划分为以下几部分:元数据、源数据、数据变换工具、数据仓 库、客户端分析工具。其体系结构图如图2 1 所示f 翻: 首都师范大学硕一l :学位论文 面向决策支持的国十资源数据仓库构建研究 专家级最终用户 客户端分析t 具 数据仓眸层 窜斥i 叵 、 数槲,叟换f :具层 源数据层 图2 1 数据仓厍体系结构 空间数据仓库是建立在数据仓库层之上的,对空i 开j 维信息进行了添加,因此空问数据 仓库的体系结构也是以数据仓库体系结构为基础构建的。目前流行的空问数据仓库解决方 案是基于中间件技术的解决方案,如图2 2 所示。采用e s r i 公司的a r c s d e 空间数据中间件 软件就是这种解决方案的典型代表。这种方式充分利用了中间件软件的功能,各系统相对 独立,易于维护,但对空间数据的融合、索引、管理、分析等操作都依赖于中间件,从而 形成了另一个复杂的系统。而且在空间联机分析、空间数据挖掘过程中无法充分利用空间 信息发现深层的模式【2 3 1 。 r ,、 钠黼僻 r、 l前端展-工具,、 中 g i s 据源; 问 :o l 分析工具r 件 lj 图2 - 2 空间数据仓库体系结构 蓠都师范大攀硕士学位论文蜒两决繁支持熬嚣士资源数攥仓瘁构建研究 2 2 数据仓库构建关键技术 2 。2 。l 数据e 朋已 数据仓库e t l ,即数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、清洗( c l e a n i n g ) 、装载( l o a d i n g ) 的过程,是构建空间数据仓库的重要环节。用户从数据源抽取出所需的数据,经过数据清 洗,最终按照预先定义好的数掘仓库模型,将数据加载到数据仓库中去。具体来讲,数据 抽敢是数据源接口,包括原始数据接口和外部数据接日,源数据接翻从业务系统中抽取数 据,必数蒸仓霹输入数据。数据转换包含对束鑫多个生产系统的数糍源的处理,确保数据 集孛的所有数值是一致鲶和被最确记录的,保涯数攘按要求装入数据仓露。数据装载部件 负责将数据按照物理数据模型定义的表结构装入数据仓库。这些步骤包括,清空数攥域、 填充空格、有效性检查等等【2 4 】。 e t l 的实现有多种方法,常用的有三种,它们的优缺点详见表2 1 。第一种是s q l 方式 实现。由e t l 人员编写全部的s q l 语句,这种方式要求e t l 人员对s q l 语句十分熟悉,编写 s q l i 藉甸的能力很强。如莱源数据来自不褥的数据库,铡搬部分数据来自o r a c l e ,部分数 据来爨s q ls e r v e r ,则要求e t l 人员对p l s q l ( o r a c l e 中的s q l 语法) 耱t - s q l ( s q ls e r v e r 中龅语法) 都要熟悉。编写出的s q l - 般较多,可维护性较差。 第二种是使用e t l i 具,如i n f o r m a t i c 、p e r v a s i v e 、d a t a s t a g e 、b od a t ai n t e g r a t o r 等专 业e t l t 具和o r a c l e 的o w b 、s q ls e r v e r2 0 0 0 的d t s ,s q ls e r v e r 2 0 0 5 的s s l s 服务等数据库 国带的工具实现。这种方式要求e t l a 员对工具十分熟悉,但利用e t l 工具,编写出的流 程具有可褫化、霹维护性强等优点。 第三稀是e t l i 具帮s q 西善言穗结合。蓠两种方法各有各的优缺点,借助工具哥以快 速的建立起e t l i 程,屏蔽了复杂的编码任务,提高了速度,降低7 难度,毽是缺少灵活。 s q l 的方法优点是灵活,提高t l 运行效率,但是编码复杂,对技术要求比较离。第三种 是综合了前面二种的优点,但管理起来相对比较麻烦。 袭2 1 三种e t l 方式的优缺点 e t l 方式优点缺点 编写s q l 语句 灵活;难度大; 霹潍是镁侮复杂犍务瓣震要; s q l 诱铝编骂王箨堂大; 效率高;对工作人员的鬻求高# 首都师范人学颂一l j 学位论文面向决策支持的国土资源数据仓库构建研究 使用专业口视化t流程町视化;效率相对较低: 具町维护性强灵活性较低; 自动化程度高,可调度要学习新工具; s q l 语f i j j 可视化 灵活性和可视化相结合管理复杂 t 具棚结合 空f b j 数据仓库不仅具有通常数据仓库所具有的面向主题化的集成、数据的稳定和安 全、随时问变化等特点,还具有海量数据存储、时空数据的动态性、多尺度等特点。除了 要对属性数据进行数据抽取、转换等工作外,还必须借助专门的g i s 工具解决诸如空间数 据集成、地理编码、空川数据尺度表达、空间数据分割等特殊问题【2 5 】。 2 2 2 数据仓库方案选择 国土资源数据具有多源性、多维性、类型多样性、空间拓扑特征、层次性与关联性、 动态性和数据量巨大等特点【】。国土资源行业业务复杂、管理决策难度大,数据仓库软件 必须要满足数据和行业业务管理的需要。 国土资源数据仓库系统设计的总体目标是满足国土资源管理部门的决策、管理要求和 各基层单位的业务需求。具体来说,系统的设计目标是:( 1 ) 可视化表达国土资源管理中各 种信息,如士地利用现状、规划、耕地保护、土地转让。提供多种可视化表达方式,如多 维报表、图表、地图、报告,提供可视化数据挖掘工具。( 2 ) 能够对各种图形数据和属性数 据进行统计分析、报表打印等。 为了实现以上目标,所采用的软件必须符合以下几个原则:具有良好的开放性、稳定 性、安全性和易操作性。( 1 ) 开放性:为了确保系统具有良好的互操作性和可移植性, 系统的数据格式和交换格式应该符合有关国家标准或行业标准,而且系统必须可以安装运 行在u n i x 、w i n d o w s 或l i n u x 平台下。( 2 ) 稳定性:系统应采用先进的软硬件平台、网络 设备,在进行系统设计、实现和测试时采用科学有效的技术和手段,确保系统能持续稳定 地运行。( 3 ) 安全性:系统必须保证数据不丢失、不被损坏,非授权用户无法访问系统。 ( 4 ) 易操作性:系统应充分考虑用户的习惯,方便易学、易于操作;系统应充分发挥g i s 图形可视化界面的特点,表现方式直观,效率高,而且客户端使用浏览器,无需安装任何 插件。 目前数据仓库( 商业上又称为商务智能,b i ) 的产品较多,基于以上的系统需求和设 计原则,本文不采取自主开发或定制开发的方式,而采用成熟的、商业化的、有较多成功 实施案例,尤其是在政府部门和国土资源行业有成功实施案例的软件产品。这样的产品稳 定性好,经受了市场的考验,技术升级速度快。最好采用专业从事b i 研发企业的产品, 9 首都师范人学颁: :举位论文蕊向决策支持的困士资源数据仓席构建研究 比如b o 、c o g n o s 、m i c r o s t r a t e g y ( 简称m s t r ) 。这些产品能够支持多种操作系统平台( u n i x 、 w i n d o w s ) ,支持多种通用的数据库管理系统( 如o r a c l e 、s q ls 缎嚣、d b 2 ) 等f 捌。 1 0 - 首都师范人学硕士学位论文面向决策支持的困十资源数据仓库构建研究 第三章国土资源数据特性分析 3 1 国土资源数据特点 国土资源是一个复杂的、动态的、时空巨系统,其地理空f e l j 要素、资源、环境信息和 管理信息的内容广泛、综合、复杂、变化迅速,这就决定了国土资源数据具有如下特点f j 3 】 2 r l : 1 ) 多源性。多源性是指国土资源数据的来源与获取途径很多,数据来自土地调查、 测绘、遥感、规划、地质勘探、业务办理等多个方面,具有跨部门的特点。i 刊时数据的获 取方式多样化,有从地面监测点用仪器监测和遥测的、有从覆盖全范围的卫星遥感数据获 取的、有普查的、还有问卷调查的和统计的等等。这些资料存在着j 监测方法不同、描述形 式不同,存在方式不同、比例尺不同、投影方式不同和精度、准确度不同等很多差异。 2 ) 多维性。多维性是指国土资源数据具有属性、时间、黍1 空问的特征,同时每个特征 本身具有多维性和动态变化性。国土资源数据的空问特征使其具有空i 日j 分前j 的差异性,即 地域性,空间的多维主要表现尺度的不同( 大、中、小比例尺) 和区域大小的不同( 全球、 区域、国家、省市、区县) ,不同的空间尺度表达了空间范围和空f h j 对象的规模大小。国 土资源数据的内容、类型不同,其观测频次、周期不同,根据时间特性的长短,国土资源 数据包括了瞬时、小时、日、月、季、年以及按时间平均的不同系列数据。由于国土资源 数据时空尺度的不同,其属性的层次与多少相应不同。国土资源还具有随时间变化的特征, 不是静态的,而是动态的。因此在生态研究过程中应注重丌展国土资源信息的动态分析。 3 ) 类型多样性。数据类型的多样性指国土资源数据类型和格式各不相同。有二维表 格数据、多维报表数据、矢量数据、栅格数据、影像数据、图形图像数据、声音视频多媒 体数据以及各种文档和报告。这些数据在处理方法上、存储格式、读取技术各不相同,需 要以不同的方法和技术进行管理。 4 ) 空间拓扑特征 国土资源数据中蕴含大量的空问数据,它们不仅表述空间实体对象的空间位置和属 性,还要描述各实体对象之间的空间关系,包括空间拓扑关系。拓扑关系主要表现为空间 对象的联结性、邻接性、连通性。通过空间实体之间拓扑关系的计算可以分析空间实体之 间的相互影唰2 8 1 。这对分析评估空间实体之问的相互作用及综合评价国土资源具有重要作 蓠都师范犬掌硕士学位论文聪是决策支持的国土瓷添数姑仓库搦建硪究 用。 5 ) 屡次性与关联懂。层次性是指誉资源数据接信息分类、箨重鲻维、空闻维可以划 分为不同的级别和层次,形成类似树状的结构。不嗣的豳土资源数据既有其糨对独立的整 体性,又有相互之间的联系性、依存性和制约性,必须从整体观念出发,充分考虑困土资 源要素内部的各子系统之间的关系,国土资源要素之间的关系。通过对圈土资源数搌层次 性和关联链的详细分析,酉以对所有数据进行有效的组织。 6 动态性。翟资源数攒对罄土瓷源遗矮体的表达是一个出模糊到耩确的过程,是 一个动态的积累过程,从土地整理开发、土地交翕、矿产资源勘探,国土资源数据釜越来 越大,反映国土瓷源实体的层次逐步缨化,反映地簸体客飘现象、规鬻的准确程度逐步提 高。 7 ) 海量数据。由于园土资源的经营管理,涉殿到国土资源、凝源、经济、生活、工 程技术等各大领域,随着对地观测技术的迅速发展和信息化的加速,其数掂必然是海量的。 3 。2 国土资源数据来源与种类 冒土瓷源数据来源广泛、种类复杂。综合来说,国土资源数据可以分为:对地观测数 摅、业务管理数据、办公数据、历史档案数据等。 1 ) 对缝鼹测数据 对地观测数据是指利用各种工舆、手段对地球袭层、内部观测所褥到魄数据,般包 括测量数据、航空航天遥感数据和其他g i s 数据。这些数据普遍具有空间意义,是鳗土资 源数据中核心的、复杂的管理对象。在国土资源管理过程中,无论怒地籍管理、国土资源 执法监察,还是探矿权、采矿权的审核,都离不开对这些数据的有效使用。对地观测数 据经过各释鸯舞工,可以生产出丰富的衍生数据,可用于蓍士资源管理、研究的方方面面i 嚣l 。 2 监务数据 业务数据是指那些欲豳土资源管理部门现有的业务处理系统中收集到并保存在监务 处理系统的,且与日常生产经营毒关的事务级数据,如业务审批、土地调查等。业务处理 系统的数据存储往往是由关系型数据库、非关系型数据库或文件系统所构成 3 ) 办公数据 办公数据是指内部的办公系统数据,这些数据在形式上表现为电子数据和非电予数据 两穗。以电子方式保存的数据,主要是以魄子表格、数据库或文字处理文档等形式保存豹 数据。非电子数据主要是文件、通糍、会议纪要等公文。扶数据酶结梅形式看,办公数据 1 2 首都师范人学硕j :学位论文面向决策支持的国土资源数据仓库构建研究 有的是以二维表格表示的结构化数据,有的是以文字文档处理文件表示的非结构化数据。 因此办公数据源的数据结构是十分复杂的,这就给数据仓库的数据抽取、加载增大了很大 的难度。有时甚至需要人工处理以后,才能加载到数据仓库中去。 4 ) 历史档案数据 历史数据,也称档案数据,是国土资源管理部门在长期的信息处理过程中所积累下来 的数据,这些数据一般进行了脱机处理,以纸质材料、磁带或其它存储设施保存,对业务 系统的当前运行不起作用。但是这些历史数据对于数据仓库的用户来说却有重要的使用价 值,尤其是知识挖掘用户在进行知识挖掘时,需要大量的历史数据。这些数据一般要根据 数据仓库模型和用户的决策分析需求来确定是否加入数据仓库,必须采用适当的应用程序 将其加入数掘仓库。 3 3 国土资源数据格式 国土资源数据仓库数据源来源非常广泛,既有地质勘探部门的原始勘探资料,设计部 门的设计资料,还有幽十资源在牛,托经营过程中的生产经营资料,以及矿业市场的供求信 息等。国土资源数据仓库的数据源主要包含业务数据、历史数据、办公数据、w e b 数据、 外部数掘。这些数据源的数据格式包括: 1 ) 纸质材料 各类国土资源部门都会生产大量纸质材料,主要有各类规章制度、文件、图纸等3 0 1 。 2 ) 文件系统 文件系统是国土资源管理领域早期应用最多的一种数据记录格式,记录了大量的国土 资源信息。 文本文件 各种格式的报表、技术资料等,常采用w o r d , e x c e l 、p d f 等格式。 图形文件 国土资源计算机辅助设计c a d 的普及,产生了大量d w g 格式的图形文件;扫描输 入的b m p 格式的图形等【3 。 _ h t m l 和x m l 格式 随着网络技术的应用,h t m l 和x m l 格式的各种商务和技术信息逐步增加,使 i n t r a n e t i n t e r n e t 成为国土资源数据仓库的另一个重要信息来源。 空间数据格式 1 3 首都! j i l j 范人学硕:l ? 学位论w 义蕊向决策支持的国土资源数据仓库构建研究 空间数据文件用于存放图形数据,由于图形数据的复杂性,因此空闻数据的格式却是 复杂多样的,目前常用的有c o v e r a g e 、s h a p e 、d w g 、d g n 、m a p g i s 等。通过空闻数据引擎 ( s d e ) ,空间数据已经大量存储于商业关系型数据库中 3 t 】。 3 ) 数据库 随着各种管理信息系统在国土资源的广泛应用,数据库己成为国土资源数据存储和管 理的主要技术,僵幽于系统歼发和数据库选型的不规范,在函土资源行业内采用了各种不 同的数据库管理系统,形成了即使是管理楣弱酶业务数据,也采用了不同数据库的情况。 这对国土资源数据仓库进行数据抽取和集成带来了困难,使数据抽取接疆和协调比较复 杂。常用的主流数据库有o r a c l e 、d b 2 、s q ls e r v e r 等。 首都师范人学硕士学位论文面向决策支持的国土资源数据仓库构建研究 第四章国土资源数据e t l 方法研究 4 1 国土资源数据e t l 分析 国土资源是一个复杂的、动态的、时空巨系统,其地理空间要素、资源、环境信息 和管理信息的内容广泛、综合、复杂、变化迅速,这就决定了国土资源数据具有多源、异 构等特点【3 2 】。而如何整合和集成这些数量大、形式多样,量纲不一,既有定量又有定性的 数据,建立各类国土资源数据库,则是国土资源信息系统建设的基础。各类国土资源数据 作为数据源是先于整合的数据库存在的,就可能有着多种不同形式的、分散的、独立的数 据源,在确定了数据库的概念体系结构之后,数据的整合和集成的过程是构建大型数据库 最困难的部分。 当前国土资源数据的真j 下状况是分散而非集成的,主要表现为数据业务平台的异构、 数据类型不匹配、数据定义的差异、数据内容与数据编码的不一致等。数据整合和集成的 含义,是从多源异构的数据源,即不同的数据库、其他非丌放主机系统数据库、文件系统 以及x m l 文档、h t m l 文档、普通文件等结构化、半结构化数据中,选择所需数据并抽取 出来,根据预先设计的数据模型的要求,利用不同的工具和方法将这些不同数据格式的转 换成与目标数据库表结构相同的数据,并通过一致性校验等清理手段对数据进行进一步的 处理,清除数据的不一致通过性,最后装载到目标数据库中l 3 3 】。 从e t l ( 数据整合和集成) 的过程和内容来讲,包括了数据提取、数据转换、数据清 理、数据装载四个阶段,不同系统的数据库之间还存在着异构数据集成的问题。数据提取 或数据抽取是用手动、半自动或自动的方法从相关信息源中有选择的采集、抽取有关的数 据并集成到数据库中,数据提取的具体实现主要考虑数据源的不同而采取不同的方式。数 据转换是对提取获得的数据进行一系列的运算和变换转换为目标数据库设计的统一的表 结构、所需的数据类型,数据单位换算、编码的统一、格式化处理等也在这个阶段完成。 数据清理是通过填写空缺值、消除噪声数据,解决数据存在误差、缺值、空值和异常值等 质量问题。数据装载是将转换和清理后的数据按照目标数据仓库建模的存储要求经数据编 码、约束性检查等加载到指定的物理区域,并生成数据库应用所需的各种数据表、视图和 关系等数据结构【2 0 1 。 以上是对非空间属性数据e t l 的分析,国土资源空间数据除了具备一般数据的特征外, 首都师范人学硕士学位论文面向决策支持的国土资源数据仓库构建研究 还具有其特有的空闻拓扑特征,它是与地球参考空闻f 二维或三维) 位置有关的、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 历史专业考研试题及答案
- 审计专业原理试题及答案
- 湖南省湖湘名校联盟2025-2026学年高二上学期入学考试语文试卷含答案
- 保卫消防专业试题及答案
- JavaEE轻量级框架Struts2 spring Hibernate整合开发 第4章Struts2高级特性
- 大学专业试题及答案
- 美容店策划活动方案
- 抗疫歌唱活动策划方案
- 家庭聚会致辞材料
- 时尚潮流发布活动指引法
- 南京理工大学介绍课件模板
- 高中物理听评课记录表
- 2025届天津市春季高考升学考试全真模拟试卷(一)英语(无答案)
- 电磁感应现象及应用课件
- 桥门式起重机吊装作业应急预案
- 甲油胶行业报告
- 《基于模型的系统工程(MBSE)及MWORKS实践》全套教学课件
- 医务人员职业暴露与防护讲课
- UL499标准中文版-2017电加热装置UL中文版标准
- 苏教版4四年级数学上册(全册)表格式教案
- 《中国香文化发展史》课件
评论
0/150
提交评论