(计算机应用技术专业论文)空间联机分析系统实现及其在工商管理中的应用.pdf_第1页
(计算机应用技术专业论文)空间联机分析系统实现及其在工商管理中的应用.pdf_第2页
(计算机应用技术专业论文)空间联机分析系统实现及其在工商管理中的应用.pdf_第3页
(计算机应用技术专业论文)空间联机分析系统实现及其在工商管理中的应用.pdf_第4页
(计算机应用技术专业论文)空间联机分析系统实现及其在工商管理中的应用.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)空间联机分析系统实现及其在工商管理中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 大连理下人学硕卜研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博二l 学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,e 乜可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名丕! 蔓幺幺 导师签名:达芝) 一垂堕年l 月n e l 大连理。 大学硕上学位论文 摘要 目前,作为数据仓库技术与g i s 技术相结合的产物空间数据仓库技术,已在测绘、 交通、市政、航空航天等领域中逐步得到应用与发展。空间数据仓库技术是数字地球、 数字城市建设中的关键技术之一,它的建立将为决策支持提供有效的途径。 空间联机分析属于空间数据仓库的前端展现部分。是空间数据仓库系统的主要应 用,它通过复杂的空间分析操作,为决策者提供直观易懂的查询结果。它可以对存放在 数据库中的数据进行分析处理,并以多维视图的形式呈现给数据分析人员、管理人员等 需要对原始数据进行统计分析的用户。用户通过这一途径可以方便的对数据进行更深入 的访问,获取隐藏在海量数据中的重要信息。 本文以空间数据仓库技术为技术背景,建立了空间联机分析平台s e i s o l a p ,并将 平台成功应用到大连市工商管理决策支持系统中。 论文首先总结了从不同类型的源系统中进行空间e t l 所遇到的问题,并提出了针 对性的解决方法。其次,为了使提取的空间描述数据与地理编码中的地址相一致,通过 使用正则表达式技术实现了数据的清洗与规范化。最后,论文介绍了空间联机分析平台 的实现,基于不同的分析主题,可以进行联机分析结果的空间展现和基于地图提交联机 分析请求,提供上钻、下钻、钻取、地图交互等功能。同时,建立了工商管理空间数据 仓库,并将空间联机分析平台应用到工商管理主题的分析中。结合工商管理系统需求特 点,阱电子地图的形式展现对不同的分析主题对应的经济户口的可视化定位与分析。 关键词:空间联机分析;空间维;组件g l s ;空间e t l 查堑望三查堂堡主堂垡笙茎 t h ei m p l e m e n t a t i o no fs p a t i a lo l a p s y s t e ma n di t sa p p l i c a t i o ni n b u s i n e s sa d m i n i s t r a t i o n a b s t ra c t a tp r e s e n t ,a st h ec o m b i n a t i o no fd a t aw a r e h o u s ea n dg i s ,s p a t i a ld a t aw a r e h o u s e t e c h n o l o g yh a sa l r e a d yb e e nu s e di nm a p p i n g ,t r a f f i c ,c i t yp l a n n i n g ,a v i a t i o n ,e t c i ti so n eo f t h ek e yt e c h n i q u e si nn u m e r i ce a r t ha n dn u m e r i cc i t y , a n di tc a l lp r o v i d ea ne f f e c t i v ew a yt o s u p p o r tt h ed e c i s i o nm a k i n g s p a t i a lo l a p i st h ef r o n t - e n dp a r to fs p a t i a ld a t aw a r e h o u s e i ti st h em a i na p p l i c a t i o no f d a t aw a r e h o u s es y s t e m s ,a n di tc a np r e s e n ti n t u i t i o n i s t i ca n d p e l l u c i dr e s u l tt h r o u g h c o m p l i c a t e ds p a t i a la n a l y s i so p e r a t i o n i tc a na n a l y z ea n dh a n d l et h ed a t as t o r e di nd a t a b a s e , p r e s e n tm u l t i - v i e w st op e o p l ew h ow a n tt oa n a l y s i st h e m ,a n db yt h i sw a y , t h ei m p o r t a n t i n f o r m a t i o nb e h i n dl a r g ea m o u n to fd a t ac a nb eo b t a i n e d t h i sp a p e rp r e s e n t sas p a t i a lo l a pp l a t f o r ms e i s o l a pb a s e do ns p a t i a ld a t aw a r e h o u s e t e c h n i q u e s ,a n ds u c c e s s f u l l yp u tt ou s e i nb u s i n e s sa d m i n i s t r a t i v es y s t e mf o rd e c i s i o n m a k i n g s u p p o r to fd a l i a nc i t y f i r s t l y , t h ep r o b l e m se n c o u n t e r e dj ns p a t i a le t l f r o md i f f e r e n tk i n d so fs o u r c es y s t e m s a r es u m m a r i z e di nt h i sp a p e r ,a n da ne f f e c t i v ew a yt os o l v ei ti sa l s op r e s e n t e d s e c o n d l y , i n o r d e rt om a t c ht h ee x t r a c t e dd a t aw i t ht h eg e o c o d i n gl i b r a r y , t h ep a p e ru s e sr e g u l a r e x p r e s s i o nt oc o m p l e t et h es t a n d a r d i z a t i o no ft h ed a t a i n t h ee n d ,t h ei m p l e m e n t a t i o no f s p a t i a lo l a pp l a t f o r mi sd e s c r i b e d ,a n di tc a ne x h i b i tt h es p a t i a la n a l y s i sr e s u l ta n ds u b m i t r e q u e s t sf r o mt h em a p s o m ef u n c t i o n ss u c h a sd r i l l i n gu p ,d r i l l i n gd o w n ,d r i l lt h r o u g h , i n t e r a c tw i t ht h em a pa r ea l s op r e s e n t e di nt h i sp a p e r m e a n w h i l e ,t h eb u s i n e s sa d m i n i s t r a t i v e s p a t i a ld a t aw a r e h o u s ei sc o n s t r u c t e d ,a n dt h es e i s o l a pp l a t f o r mi s u s e di ni t ss u b j e c t a n a l y s i s , k e yw o r d s :s p a t i a lo l a p ;s p a t i a ld i m e n s i o n ;c o m g i s :s p a t i a le t l 大连理工人学颤十学位论文 1 绪论 1 1 技术背景 1 ,1 1 空间数据仓库技术的沿革 世界上第一个将数据仓库理论与技术引进g i s 领域,并逐渐形成空间数据仓库理论 与技术的是美国的e d w a r d s 教授和美国的e s r i ( e n v i r o n m e n t a ls y s t e m sr e s e a r c h n s t i t u t e ) 公司。e d w a r d s 教授1 9 9 6 年发表了一篇题为“什么是空间数据仓库”的论文。 同年美国的e s r ! 公司发表了关于空间数据仓库的第1 篇白皮书,题为“数据仓库中的 数字制图( m a p p in gf o r t h ed a t aw a r e h o u s e ) ”。这两篇论文的发表引起了g i s 和数据 仓库领域研究者的极大兴趣,从此开创了空间数据仓库研究的新局面。 从1 9 9 6 年丌始,空间数据仓库方面的研究开始逐渐增多。1 9 9 7 年e s r i 发表了第2 篇白皮书( s p a t i a ld a t aw a r e h o u s e ) ,紧接着在1 9 9 8 年又发表了第3 篇白皮书( s p a t i a l d a t aw a r e h e u s i n gf o rh o s p i t a lo r g a n iz a t io i l ) 1 1 1 0 1 9 9 7 年加拿大si m o r tf r a s e r 大学的1 l a nj 教授首次发表了名为“空间数据仓库与 卒间数据挖掘”的学术论文,开创了研究空间数据仓库与空间数据挖掘的新领域埘。虽 然,目前还没有专门成立有关研究空间数据仓库的学术团体,但与之有关的学术讨论会 逐年增多。如e s r i 公司的全球性用广t 大会、s s d 国际会议、数字地球国际会议、g i s 国 际会议等。 在空间数据仓库的产品的研制方面,目前已出现一些较为成熟的空间数据仓库产 品。 e r s i 作为全球最大的空间技术供应商,它的软件产品系列覆盖了建设数据仓库的各 个方面。它的s p a t i a ld a t a b a s ee n g i n e 是空间数据仓库解决方案的核心,s d e 是作为 一个标准组件嵌入到传统数据仓库产品中实现空间数据转换、加载、分析。o r a c l e 公 司在数据仓库方面已经形成了完整的解决方案,包括e t l 、o w b 、e x p r e s s 、d i s c o r e r 等 产品,覆盖了数据仓库系统构建的整个过程。在o r a e l e 9 i 中进一步完善了空间操作功 能,用户可以轻松地把位置信息直接结合到自己的应用程序和服务中。m i c r o s o f t 公司 于1 9 9 9 年推出了其卒间数据仓库产品t e r r as e r v e r 3 。,它自称世界上最大的联机地图 集系统,它将卫星、航空、地形等图形存储在s o ls e r v e r 数据库中,这些数据用户可 以通过i n t e r n e 查询获得。m a p i n f o 公司于1 9 9 8 年在世界上推出了其空间数据仓库产 品s p a t i a lw a r e 。i n t e r g r a p h y 公司于1 9 9 8 年在世界上推出了其空间数据仓库产品 ( ;e o m e d i a 。 将空间数据仓库理论与技术引入到我国是2 0 世纪9 0 年代术期,北京大学遥感与地 苏立强:空间联机分析系统实现及其在工商管理中的应h = f 理信息系统研究所在空间数据仓库学术方面做了不少工作,走在全同的前列。另外中科 院遥感应用研究所、长江水利委员会长江科学院、武汉大学、信息 :程大学等也在空间 数据仓库进行研究【4 “。 1 1 2 空间数据仓库技术的发展趋势 由于空间数据本身的复杂性以及空间数据仓库管理的数据量非常庞大,支持决策的 空问计算非常复杂,因此目前研究主要有以下几个方面: ( 1 ) 空间数据结构组织,即如何高效地存储和检索数据 空间数据本身就是一个多维的数据结构,存2 维欧氏空间中,将地理实体要素嵌入 其中,形成了3 类地理要素对象,即点对象、线对象和面对象。而g i s 中几何对象之间 的空| 1 = i j 关系描述为6 种情况:点点关系、点线灭系、点面关系、线线关系、线面 关系、面面关系。 ( 2 ) 多源数据的集成,即空间、时间、属性数据的集成以及异构数据之间的集成 在大多数席用中存储在源系统中的空问数据是隐含的,如字符串形式的地址、邮政 编码、门牌号码等,这些空间相关信息通常无法直接应用,需要进行预处理和转换,用 集合对象的形式进行描述。在将空间数据融合进空间数据仓库时,必须有效地建立空洲 维与时间维及其它维度的关联关系。 ( 3 ) 空问维的管理 由于空间数据和空间关系自身的复杂性,空间维小能采用和非空间维同样的管理方 式,这样就损失了空问维的空问特性。在空间数据仓库中,只有对空间维采取合适的管 理技术,才能真正发挥空间数据仓库的作用。一种变通的做法是将空间关系转换成非空 训关系模型,然后按照非空间维相吲的方式存储。另外,将传统数据仓库中,基于数据 集的层次划分方法扩展到多维数据空间,采用空间索引树或有向图等组织空间维的层 次,也是研究的趋势。 ( 4 ) 空间度量的管理与计算 传统数据仓库中的数值型度量仅仅包含数值型数据,如最大值、求和、平均值等数 值运算,而在空问数据仓库q j 空问度量是空问数据对象的集合。在空问数据立方体的聚 集运算过程中,不同空间对象的集合进行空问融合、重叠、交叉等操作。由于涉及到空 间关系运算,这些操作的代价远大于数值型聚集函数,因此需要高效的窄间对象聚集运 算算法。 ( 5 ) 视图选择实例化技术 在数据仓库研究中对视图选择实例化进行了很多研究,在空间数据仓库中,可以利 用这些方法选择哪些方体( c u b o i d ) 需要实例化。另一方而,对于每一个方体,它的聚集 丌销仍然r u 能比较大,冈此,在空州数据市方体的构建中对方体的聚集可以细化剑单元 人连理_ 1 大学硕士学位论文 ( c e l l ) ,每个单元中的聚集有如f 三种策略:仅仅收集和存储空间对象的指针但不进行 任何聚集运算;预先进行近似聚集运算,如计算空间对象的最i j 4 1 - 包矩形( m b r ) ,满足 精度要求不高的查询需求;在单元粒度上选取部分空间对象进行聚集运算,检查每一个 空间对象的集合,聚集对整个过程影响最大的空间对象集合。 ( 6 ) 空问联机分析 随着联机分析的成功应用,空间联机分析也必将引起软件厂商和研究学者的关注。 从大量的数据中可发现不同种类的知识,需要用不同的形式来表示这些知识。由于空间 数据的复杂性,空间联机分析结果需要借助图形来表达发现的知识,这样,联机分析的 结果才容易理解,并且可以直接由用户来使用。空间联机分析的特殊性需要适合的表示 技术。在联机分析中借助g l s 组件展示空间元素,并将专题空间数据与基础空间数据叠 加起来,可以提供更直观更丰富的展现能力。 ( 7 ) 基于空间数据仓库的数据挖掘 空间数据仓库解决了数据的清洗、转换问题,并建立了空间数据和非空问数据的关 联,提供了良好的分析环境。空问数据挖掘从空问数据仓库中提取用户感兴趣的空间模 式与特征,空问与非空间数据的普遍关系,以及其它一些隐含的数据特征。空间数据挖 掘包括空刚聚类、空问分类、空间趋势分析、空间泛化、空间描述等。相似序列挖掘、 非平稳时间序列挖掘、序列模式的维护以及时间序列在空间信息方面的空间数据挖掘也 是一个重要的研究方面。 其中,采用空间索引树对空间维进行管理、空间度量的管理与计算方法、视图实例 化技术选择、空间挖掘算法的研究等方面是目前研究的热点。 1 2 论文应用背景与研究内容 12 1 应用背景 目前大多数企业根据自己的业务特点和办公需要,建立了一大批各自的业务处理系 统和办公自动化系统,积累了大量的业务数据。为了增强企业的竞争优势,众多企业立 足丁多年积累的数据和自身的核心业务,提出或已经建立了数据仓库的规划和实施方 案。数据仓库通过对数据不同的组织方式为决策的制定过程提供了良好的分析环境。虽 然数据仓库叮以处理不同类型的多维数据,但在处理空间数据时仍然具有很大的局限 性。很多研究表明企业应用系统中8 0 的数据与空间地理有关,如客户地址、供应商地 址、经营网点分布等等。而且随着空间数据获取手段的不断丰富,已经有越来越多的空 间数据存储在空间数据库、地理信息系统或其它面向对象数据库中。基于这些空间信息 我们可以进行范围更广、内涵更深刻的决策分析。但在数据仓库的规划和实施过程中, 很少考虑到这些空间信息。 苏立强:空间联机分析系统实现及其在】:商管理中的应川 通过构建空间数据仓库可以有效地管理和利用这些空间信息。空间数据仓库和o l a p 技术将大量隐含在现有数据中的空l 、h j 信息集成到数据仓库中,利用创新的空问o l a p 分 析技术帮助决策者从丰富的空问信息中获得更多的信息和知识。 随着信息技术的发展,企业和政府信息化建设和研究都处于一个新的发展阶段。在 对信息的集中处理过程斗,对数据分析能力的要求越来越高,如何将空间信息融合到现 有系统中,提升现有系统甲台,提供数据的分析功能,越来越引人关注;另一方面,虽 然各领域对空问信息处理和应用的需求各不相同,但总是包括一些基本的空间信息处理 和应用的功能,比如,空问信息的提取、空问信息的管理、空问查询和分析、制图等。 空间信息基础设施可以把空问信息与空间信息处理功能紧密结合起来,提供广泛普遍的 服务。 大连理工大学软件1 程研究室、大连理工大学空间资源研究中心承担了大连市空问 信息基础设施建设规划、大连市空间基础信息交换平台的设计和研究等任务。基于存数 据仓库和g i s 领域多年的研究成果与项目实践,本窒对空间数据仓库技术展丌了深入的 研究。 大连r 打工商行政管理局已经建立了完善的经济户几管理系统,包含了监管信息、年 检信息、监控信息、信用信息、行政处 4 、经济户n 卡、表格打印、查询统计、系统维 护等功能,对自动化办公起到了极大的辅助作用。 但随着地理信息技术的成熟和工商系统面i 临的新难题,越来越需要将传统m i s 系统 与地理信息系统结合起来,实现真1 f 意义上的可视化监管;另一方面特别是随着当前系 统的逐r 运行,数掘的堆积越来越庞大,然而领导层却无法得到支持决策制定过程的信 息,有必要实现一个空n u 决策支持系统。 由于领导管理层对决策支持制定过程信息的需求越来越迫切,而这些决策过程大多 与空间信息有关,因此,将经济户u 管理信息系统、i k 务数据与空间信息融合起来建立窄 叫数据仓库系统具有积极的意义。建立空间联机分析主题并进行分析,将为辅助决策提 供强有力的依据。同时,:商管理领域空间数据仓库的探索性研究和建设,将为其它众 多领域的空间数据仓库建设提供一定的借鉴经验。 122 论文内容组织 本文通过建立空间联机分析系统s e i s o l a p ,并将平台应用到大连市工商管理决策支 持系统巾,取得了良好的效果。 论文在第一章介绍空间数据仓库技术的沿革和发展,然后介绍了建设空f h j 联杌分析 系统的技术背景与应用背景。 第二章介绍空问联机分析平台相关技术,总结了针对不同类型的e t l 源系统进行数 据抽取的方法,引入空问维与空间度量、组件g i s 的概念,这都是存论文中使用到的技 大连理工大学硕士学位论文 术和概念。 第三章介绍空间联机分析平台的设计。包括系统总体功能设计、地址规范化模块设 计、空间联机分析模块的设计、以及系统多层架构设计。系统由设计到实现遵从了软件 工程的周期模型开发方法。 第四章介绍空问联机分析平台的实现及其在实际中的应用。包括地址规范化模块、 空间联机分析模块、工商管理数据仓库多维数据模型、空间联机分析在工商管理分析主 题中的应用。 第五章总结了论文工作,并提出下一步需要研究的问题。 空间联机分析实际上实现起来非常复杂,本文结合工商管理系统需求特点,即工商 管理局的监管对象主要包括工商企业和个体户,这些对象都具有固定唯一的空间地域属 性。我们只要充分利用这些空间属性,将地理信息平台和联机分析平台合为体,就可 以用电子地图的形式展现对不同的分析主题对应的经济户口的可视化定位与分析,以及 对基于地图提交的数据进行分析。 苏立强:空间联机分析系统实现及其在 商管理中的应用 2 空间联机分析及平台相关技术 2 1 地理信息技术 21 1 地理信息系统概念与发展趋势 地理信息系统( g i s ) 是采集、存储、管理、检索、分析和描述整个或部分地球表面 与空间地理分布数据的空间信息系统【7 1 。它是一种能把图形管理系统和数据管理系统有 机地结合起来的信息技术,既管理对象的位置又管理对象的其它属性,而且位置和其它 属性是自动关联的。它最基本的功能是将分散收集到的各种空间、非空间信息输入到计 岸机中,建立起有相互联系的数据库。包括地理实体在地球字间上所表现出来的区位特 征,如位簧、形状和属性特征的描述,以及区位特征在时间上所呈现出来的运动过程和 变化规律的解释。当外界情况发生变化时,只要更改局部的数据,就可维持数据库的有 效性和现实性。软件是6 i s 系统的核心。 随着计算机和互联网技术的发展以及应用领域的扩展,g j s 的应用软件系统发展很 快,从而构建了各种不问用途和功能的g i s 系统。目前s i s 软件发展主要趋势有:空间 数据仓库、组件式g i s 、w e b o i s 、o p e n g i s 、虚拟现实等8 1 0 ( 1 ) w e b g s 系统 w e b g i s 系统的概念是i n te r f l e l 技术应_ 【_ j 于g i s 领域的产物。g i s 系统通过w w w 功 能得以扩展,真正成为一种大众使用的二l 具。通过w w w 的任意一个节点,l nk e r n el 用尸 就可以浏览w e b g s 系统站点的空间数据、制作专题同,阱及进行各种守问检索和空问分 析,从而使o i s 系统进入千家万户。 随着组f l 式g i s 的发展和分布式对象w e b ( d i s t r i b u t e do b j e c tw e b ) 技术的逐渐成 熟,未来的万维网g i s 将是基于c o m a c t l v e x 或c o b r a j a v a 丌发的分布式对象万维网 g i s 。从基础软件的角度来看,组件式( ;t s 和w e b g i s 之削的界限将会变得模糊不清,而 只是应用方式上的区别。 ( 2 ) o p e n o l s 系统 jj :放型g s 系统的研究和应用使各政府部门及企业之问不同格式的数据能够方便地 瓦访,有利于建、z 网络g i s 系统及分布式g s 系统空削数据库,大大拓宽g i s 系统的应 用领域及其功能。 ( 3 ) 新型的g i s 系统空间数据库管理系统 目前大多数g i s 系统在处理空间数据和属性数据时都是将两者分开存放和管理。上 述数据管理和存放方式列j i 小型的( ;is 系统有一定的优越性,但对建立以面向对象为基 础的大型g i s 系统来说存在很多缺陷。冈此,现在已出现一些新型的g i s 空间数掘库管 大连理下大学硕士学位论文 理系统,这些新的系统将空间数据与属性数据存放在同一个数据库管理系统中。如 o r a c l e 开发的s d o 和e s r i 开发的s d e ( s p a t i a ld a t ae n g i n e ) 都属于这种类型的空间 数据库系统。 ( 4 ) 虚拟现实 虚拟现实是对人类真实世界某一部分或某一过程的逼真模拟,给人提供视觉、听觉、 触觉等信息,令人完全置身于虚拟世界中,感受与现实系统一致或接近,从而让人产生 - i f 虽幻犹真的沉浸感。美国m u l t i g e n 公司生产的m u l t i g e n 软件已可以利用地理信息 中心的数字地形海拔数据( d t e d ) 、数字文化特征数据( d f a d ) 和与之配套的航空或卫星照 片,快速、高效地构造任何地区的地形地貌和文化特征。 2 1 2 组件式g i s ( c o m g i s ) 系统 组件式地理信息系统是以面向对象、标准组件技术为基础的新一代g i s 开发平台的 体系结构,它的基本思想是将g i s 进行详细的功能分解,划分成不同的组件。每个组件 完成不同的功能,各个组件模块之问像搭积木一样根据客户的不同需求组合起来,形成 最终可用的系统。组件式g i s 基于标准的组件式平台,各个组件之间不仅可以进行自由、 灵活的重组,而且具有可视化的界面和使用方便的标准接口。组件式平台主要有 m i c r o s o f t 的c o m d c o m 和o m g 的c o r b a ,目前m i c r o s o f t 的c o m d c o m 占市场领导地位。 基于c o m d c 0 m ,m i c r o s o f t 推出了a c t i v e x 技术,a c t i v e x 控件是当今可视化程序设计 中应用最为广泛的标准组件。新一代的组件式g i s 也大都是a c t i v e x 控件或者其前身o l e 控件。组件式g i s 代表着当今g i s 发展的潮流。 组件式g i $ 的主要特点如下 首先,组件g i s 最明显的特点是构架清晰。由于g i s 组件是以功能作为划分依据的, 所以每个组件都具有特定的功能。系统的设计者首先是对整个系统进行功能划分,而功 能划分的过程实质就是组件设计形成的过程。 其次,组件g i s 可以实现高效、无缝的系统集成。6 i s 应用系统建设实际上是对g i s 数据、基本空间处理功能与各种应用模型进行集成。各种资源和设施管理的g i s 应用更 是要求g i s 和m i s 乃至办公自动化( 0 a ) 有机结合,这对g i s 系统集成方案提出了很高的 要求。但是传统g i s 软件封闭的、独成体系的结构使得g i s 很难与应用模型、m i s 或o a 实现高效的、有机的集成。归纳起来,基于传统的g i s 基础软件主要有四种模式的集成 方案: ( 1 ) 在g i s 基础软件与应用分析模型之间,通过文件存取方式建立数据交换通道。 在这种集成方式中,g i s 与应用分析模型通过中间文件格式交换数据,不适合大量而频 繁地交换数据的情况,而且g i s 基础软件与应用分析模型相互独立,系统整合性差。 ( 2 ) 直接使用g i s 软件提供的二次开发语言编制应用分析模型。解决了模式单一的 苏立强:空问联机分析系统实现及其在l 一商管理中的应用 缺陷,但是g i s 所提供的二次开发语言往往不能与c 、c + + 、f o r t r a n 等专业程序设计语 蛊相比,难以开发复杂的应用模型。 ( 3 ) 利用专业程序设计语言开发应用模型,并直接访问( ;i s 软件的内部数据结构。 应用模型开发者可以根据自己的意愿选择使用何种高级语言开发复杂的应用模型,但是 直接访问( ;i s 软件数据结构增加了应用开发的难度。 ( 4 ) 通过动态数据交换( d d e ) 建立g i s 与应用模型之间的快速通信。这是在d d e 技 术发展起来以后,对第一种集成方式的改进,可以避免频繁的文件数据交换所带来的效 率降低的缺陷,也避免了从g i s 外部直接访问g i s 数据结构的代价。但是,g i s 与应用 模型是分离的,这种拼接仍然是“有缝”的。 不论采用以上何种系统集成模式,传统的g i s 软件在系统集成上都存在缺陷。组件 式g i g 提供了解决以上问题的理想方案。组件式g i s 不依赖于某一种丌发语言,可以嵌 入通用的开发环境( 如:d o t n e i 、或d e l p h i ) 中实现g i s 功能,专业模型则可以使用这些 通用开发环境来实现,也可以插入其它的专业性模型分析控件。因此,使用组件式g i s 可以实现高效、无缝的系统集成。组件g i s 与应用系统的集成如图2 1 所示。 图2lc o m g i s 与应用系统之间的无缝集成 f i g 21i n t e g r a t i o no f c o m g i s 第三,组件式g i s 无须门的g i s 开发语言。传统g i s 往往提供独立的二次开发语 言,如a r c i n t 。o 的a m l 、m a p i n f o 的m a p b a s i c 等。对g i s 基础软件开发者而言,没计 一一套二次,r 发语言是1 i 小的负担,同时二次开发语言对用户和应用开发者而言也存存学 习上晌负担。而且使用系统所提供的二次开发语言,开发能力往往受到限制,难以处理 复杂阅题。组件式g i s 则不需要专门的g i s 二次开发语言,只需实现g i s 的基本功能函 数,按照组件标准丌发接口。这减轻了g i s 软件开发者的负担,而日增强了g i s 软件的 可扩展性。g i s 应用开发者,不必掌握专门的g i s 开发语言,只需熟悉基于f f i n d o w s 平 台的通用集成丌发环境,以及组件式g i s 各个控件的属性、方法和事件,就可以完成应 用系统的开发和集成。同前,可供选择的开发环境很多,如c # 、v is u a c + + 、v b 、v i s u a l f o x p r o 、d e l p h i 等。 第四,刚s 具有大众化与成本低的优点。组件式技术已经诚赴i p 界标准,刷户可以 象使用其他a c t jv e x 控件一样使用纽件式g i s 控件,使非专、的普通用户也能够r 发和 大连理l :大学颤十学位论文 集成6 i s 应用系统。由于传统6 i s 结构的封闭性,软件本身越来越大,不同系统的交瓦 性差。组件式g i s 提供空间数据的采集、存储、管理、分析和模拟等功能,至于其他非 g i s 功能( 如关系数据库管理、统计图表制作等) 则可以使用专业厂商提供的专门组件, 有利于降低g i s 软件开发成本。同时,组件式g i s 本身又可以划分为多个控件,分别完 成不同功能。用户可以根据实际需要选择所需控件,降低了用户的经济负担。同时,在 系统升级的时候,系统功能发生的改变,只是相应的组件发生的改变,无论是改变原来 接口方法的实现,还是要产生新的接口方法或薪的接口,整个系统的改动都是最小的, 原来系统中功能没有发生变化的模块还可以继续使用,使得g i s 的升级变得简单。 2 2 空间数据仓库技术 2 2 1 空间数据仓库 空问数据仓库是数据仓库的一种特殊形式,是数据仓库技术与g i s 技术相集合的产 物,是指支持管理、决策过程的,面向主题的、集成的、随时问而变化的、持久的和具 有空闯坐标的地球数据的集合( 1 0 1 。它将根据定的主题内容集成来自不同数据中的数 据,数据在结构上具有综合性;它可以截取从瞬念到区段,直到全体等不同时间尺度上 的信息,可以从多个专业应用系统中寻找答案。空间数据仓库将数据的时间属性及空间 属性紧密地结合起柬,通过构建面向分析的多值空间数掘模型,利用多维分析方法,从 多个不同的角度进行分析比较,提取隐藏在数据中的信息。 空间数据仓库的主要任务是将来源于分散在不同地点、不同单位的分布式数据库中 的类型不同、结构不同、存贮格式不同、内容与格式丰富多彩的原始数据,进行标准化、 过滤与匹配、净化,标明时间戳和确认数据质量的处理,即求精过程,然后再根据任务 的需要,将来源于分布式数据库的不同性质、不同格式的数据再进行集成与分割、概括 与聚集、预测与推导、翻译与格式化、转换与再映像处理,最后进行数据仓库的建模、 概括、聚集、调整与建立结构化查询等功能。 ( 1 ) 空问数据仓库的数据组织结构 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综 合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合, 从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。数据仓库中还有 一种重要的数据一元数据( m e t a d a t a ) 。在数据仓库环境下,主要有两种元数据:第种 是为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名、属性及 其在数据仓库中的转化;第二种元数据在数据仓库中是用来和终端用户的多维商业模型 前端工具之问建立映射,此种元数据称之为d s s 元数据,常用来开发更先进的决策支 持工具。 苏立强:空间联机分析系统实现及其莉。j :商管理中的应州 ( 2 ) 空i 训数据仓库的体系结构 空问数据仓库系统考虑的是如何有效地管理空心信息,并提供空间联机分析服务。 目前主要有以下两类空间数据仓库解决方案: 基于g i s 和数据仓库的简单结合方案 i i j ,如图2 2 所示。 g l 图22 基于g i s 和数据仓库的结合 f i g 2 2a r c h i t e c t u r eb a s e do nd wa n dg i s 这种方式直接基于关系型数据库分析,易于实现,但分析能力有限,且在数据量增大 的情况下效率较低,系统难以维护、数据难以更新。 基于中问件的结合方案”】,如图2 3 所示。 图23 基于中间件的结合方案 f i g 2 3a r c h i t e c t u r eb a s e do i lm i d d l e w a r e 这种方式充分利用了巾问件软件的功能,各系统相对独立,易于维护,但对空间数 据的融合、索引、管理、分析等操作都依赖于中间件,从而形成了另一个复杂的系统。 而且在空间联机分析、空间数据挖掘过程中无法充分利用空间信息发现深层的模式。 ( 3 ) 空间数据仓库设计的一般流稃 窄间数据仓库的建设土要包括:确定范罔、分析、设计、丌发、测试和运行等儿个 阶段。是。个在原型的基础上进行不断迭代的过程1 1 3j 。 确定范围的主要任务包括了解方向性分析处理需求,确定信息需求,确定数据覆蔫 查塑兰查里堡主堂笪笙奎 范围。方向性需求包括:决策类型、决策者感兴趣的问题( 或对象) 等。在确定范围时应 该重视的因素是必须用户驱动和数据驱动相结合,同时可以借鉴国内外已有的成功经 验。 分析阶段主要包括两个方面的任务是深入了解数据源和分析数据仓库系统所包含 的主题域及相互之间的关系。分析阶段必须坚持用户参与,并且与原有系统开发或维护 人员进行深入的沟通。 数据仓库设计的主要任务包括与操作型系统接口的设计和数据仓库本身的设计两 个部分的内容。其中与操作型系统接口的设计主要是指数据抽取、清理、转换和刷新策 略的设计。从多个不同的数据源中抽取数据,需要解决数据的不一致性,保证数据的质 量。其中的不一致性主要包含模式冲突和语义冲突。数据仓库本身的设计包括数据仓库 逻辑数据模型的设计、数据仓库物理数据模型的设计。由于目前数据仓库产品尚未形成 一套统一的标准,因此在数据仓库设计阶段必须要有数据仓库专家和数据仓库系统产品 提供商的参与。 开发阶段所要完成的主要内容包括数据仓库建模、数据抽取和加载模块、数据访问 模块以及开发实际应用。 测试是保证系统可靠性的重要手段。数据仓库测试与一般软件系统测试不同的是数 据仓库的测试不仅包括对软件系统的测试,同时包括对数据的测试。在测试阶段必须保 证测试的充分性,同时注意测试数据的覆盖范围。 系统运行主要包括用户培训、数据加载、数据访问及应用等。在数据仓库系统的运 行过程中,不断收集用户新的需求。 222 空间联机分析 空间联机分析属于空间数据仓库的前端展现部分。在数据仓库的体系结构中,联机 分析属于客户端层。联机分析处理o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 技术可以对 存放在数据库中的数据进行分析处理,并以多维视图的形式呈现给数据分析人员、管理 人员等需要对原始数据进行统计分析的用户。这种以“事实”为巾心的多维视图比传统 的一维关系模型更能真实、直观的反映出现实中某一实体与其他相关实体之间的关系。 因此,用户通过o l a p 技术这一快速而又呵靠的途径可以方便的对数据进行更深入的访 问,获取隐藏在海量数据中的重要信息。o l a p 建立在数据多维视图的基础上,它的特征 可以概括为多维性、快速响应性、分析性、信息性和共享性。它的技术核心是”维”这个 概念。 o l a p 服务大多基于关系模型和多维数据模型,所存储和分析处理的数据多为结构化 火系型数据,传统的多维数据模型在处理空间数据( 典型的复杂结构数据) 时有较大的缺 陷,主要表现为【1 4j : 苏立强:空间联机分析系统实现及其在:商管理中的应川 ( 1 ) 无论作为维度还是作为度量,传统模型均不能直接操作空间数据。窄问数据往 往需要泛化为非空间数据,才可以作为维度,此时己失去其几何定义;作为度量,由于 空间数据泛化后不是数值型,或者采用数值型聚集函数无意义而无法聚集。空间数据的 聚集具有特定的算法,且其聚集结果具有特定意义,需要构造特定的空间聚集与检索算 法。 ( 2 ) 传统的o l a p 分析的结果为报表和统计图表,缺乏空问数据的最佳展示手段一 电子地图,凶而无法获得宅问数据的直观整体分布。 在空间多维数据模型中,空间数据往往作为空问维度而出现。空问数据具有层次性, 反映空间维度具有概念层次结构,层问具有空间聚合关系;空问数据也可作为度量出现, 此时它是空间维度上钻取( d r i l l i n gd o w n ) 、钻穿( d r i l l i n gt h r o u g h ) 和回卷( r o lh n g u p ) 、切片( s l i c i n g ) 、切块( d jc n g ) 等操作的结果。 22 3 源系统数据提取 空间e t l 的过程即是空问数据抽取、转换、清洗、装载的过程。这是构建空间数据 仓库的重要一环( 构建传统数据仓库时这也是最重要的一环) 。用户从数据源抽取出所需 的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载剑数据仓库 中去 ”l 。 ( 1 ) 数据抽取 在数据抽取的时候,数据不能被修改。可以抽取的文件如:数据库对象,比如表可 以整个地从源系统中导出。如在m sa q ls e r v e r2 0 0 0 中利片3 数据转换服务i ) t s 来进行 表的导入导出。抽取过平旱是动态拙取的过程,即目标有变化才进行抽取,而4 i 做无谓的 工作来影响效率。 ( 2 ) 数据转化 即将数据从一个系统转移到另外一个系统中。转移顺序为:源系统专s t a g in g d a t a b a s e 数据仓库专数据集市。 ( 3 ) 数据输入 即将清洗完毕符合要求的数据加载到数据仓库中。 如图2 4 所示为e t l 处理过程示意图。 大连理t 大学硕士。位论文 两一 再尊警i ( 童台模兰) i 数据i 7 i 0 3 。“i - - 综台 南剥 一、 数据 f 、i p 鬈* 引阿网, 严据j 7 l 笛瓤琚r l 综合 劂 细节综i 一l 数据 瓣 合数据r i ju 图2 4e t l 处理过群 f i g2 4t h ee t l h a n d l i n gp r o c e s s 空间数据仓库中e t l 的源系统主要包括以下三类:地理信息系统、管理信息系统、 传统数据仓库。 地理信息系统是空间数据仓库构建的常用源系统,如环境数据仓库、水文数据仓库、 道路交通状况数据仓库等都是基于相应的地理信息系统建立的。在源地理信息系统中空 间数据与属性数据通过地理编码模块已经进行了融合,但空间数据的层次结构比较复 杂。可结合空间树索引结构将空间数据组织到空问维中,主题数据组织到事实表中,其 中事实表中的每条沁录都有一个字段指向空间维的对应记录。 管理信息系统是构建空间数据仓库的另外。一个重要的源系统,电是构建传统数据仓 库的主要源系统。在决策支持环境中使用空间数据的可能性实际上是无止境的。大多数 管理信息系统中多包含空间位置信息,如客,地址、经营场所、营业点分布地址、单位 门牌号等,而这些信息在传统数据仓库中都没有充分利用起来。如何把这些信息与空间 信息融合起来,是空间数据仓库e t l 实现的难点。通过在e 1 l l 中嵌入地理编码模块可以 很好地解决这个问题。根据地理编码数据库,通过数据的相应处理与地址匹配,将非空 间信息与空间信息叠加起来,最终实现空间维层次上的分析和决策支持。 传统数据仓库也可以作为构建空间数据仓库的源系统,通常称作是传统数据仓库向 空涮平台的提升。非空间数据仓库的事实表或任何维层次的聚集结果,只要数据粒度足 够小,包含地理编码模块可以匹配的地址信息,都可以作为空间数据仓库的源数据。源 数据仓库的聚集结果通过地理编码模块融合空间信息后,可直接作为新构建空间数据仓 库的对应维层次聚集。 ( 1 ) 空间维表e t l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论