(计算机应用技术专业论文)基于web+gis的数据综合分析系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于web+gis的数据综合分析系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于web+gis的数据综合分析系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于web+gis的数据综合分析系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于web+gis的数据综合分析系统的研究与实现.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕i :论文基于w e bg i s 的数据综台分析系统的研究与实现 摘要 “国土资源综合分析平台”是基于w e bg i s 的综合数据分析系统,它是为国 土资源部能有效分析、预测海量地理信息而设计的数据分析平台。 本文以“国土资源综合分析平台”为项目背景,重点论述了基于数值域划分 的马尔可夫数值预测模型的理论基础和实现方案,并结合理论推导和比较实验发 现马尔可夫数值预测模型在具有大量历史数据进行转移概率统计的情况下对于 波动较大的数据序列有较好的预测效果。为了评价数据环境对预测算法预测效果 的影响,设计了预测算法对于某一数据序列适合程度的性能指标“适应度”。 文中还讨论了构建能够进行“安全分析”的数据分析平台的相关问题,以及 各分析算法分工合作的实现机制,并提出了相应的实现方法,即数据分析算法管 理的层次框架结构和安全分析检测方案。为了直观、灵活地显示地理信息数据和 分析结果,“国土资源综合分析平台”采用w e bg i s 平台作为数据显示的主要工 具,文中对w e bg i s 与分析算法的结合方式以及应用w e bg i s 展现属性数据和 分析结果的方案作了阐述。 关键字:马尔可夫数值预测,数值域划分,数据片,适应度,安全分析,w e b g i s 坝 一论立毕十w e bg i s 的数据综合分析系统的研究与实现 a b s t r a c t t h ep r o j e c t “c o u n t r yr e s o u r c e sc o m p r e h e n s i y ed a t aa n a l y s i ss y s t e m ”, w h i c hi sd e s i g n e df o r m i n i s t r y o f l a n d a n d r e s o u r c e s o f p r ca n a l y z i n g a n de s t i m a t i n gl a r g eq u a n t i t yo fg e o g r a p h i c a ld a t am o r er e a s o n a b l y ,i s ad a t aa n a l y s i ss y s t e mb a s e do nw e bg i sp l a t f o r m t h em a i nc o n t e n t so ft h i sp a p e ra r ed e r i v e df r o mt h ep r o j e c t “c o u n t r y r e s o u r c e sc o m p r e h e n s i v ed a t aa n a l y s i ss y s t e m ”t h i sp a p e rd i s c o u r s eu p o n m a r k o vd a t ae s t i m a t i o nm o d e lb a s e d0 nt h em e c h a n i s mo fn u m e r i c a ld i v i s i o n , t h et h e o r yb a s i so ft h em o d e la n dt h er e a l i z i n gp l a nb e i n go f f e r e di nt h e p a p e r i t i sp r o v e db yt h e o r e t i c a lr e a s o n i n ga n da p p r o v e db yr e s u l t so f c o m p a r a t i v e t e s tt h a tm a r k o v d a t ae s t i m a t i o nm o d e lh a s c o m p a r a t i r e l y p r e c i s er e s u l to ne s t i m a t i n gd a t aw i t ha c u t ef l u c t u a t i o ne s p e c i a l l y i n o r d e rt oe v a l u a t et h ee x t e n tt h a t s p e c i a ld a t ae n v i r o n m e n tm a k i n ga n i n f l u e n c eo np r e c i s i o no fe s t i m a t i o nr e s u l t so fak i n do fe s t i m a t i o n ,t h e c o n c e p t i o n “a d a p t i n gd e g r e e ”i si n t r o d u c e dt oa p p r a i s et ow h i c he x t e n t as p e c i a le s t i m a t i o na d a p t st oe s t i m a t ead a t as e q u e n c e i nt h i s p a p e r i t i ss t i l ld i s c u s s e d t h a ts o m e p r o b l e m s a b o u t c o n s t r u c t i n g ad a t a a n a l y s i ss y s t e m w h i c hc a ne x e c u t e“s a f ed a t a a n a l y s i s ”a n di ti sa l s od i s c o u r s e dt h a tt h em e c h a n i s mt h a ts o m ea n a l y s i s a l g o r i t h i n sc a nc o o p e r a t ew it he a c ho t h e rt or e a l i z eac o m p l e xa n a l y z i n g j o b ,r e a l i z i n gw a yi so f f e r e d ,i n c l u d i n gt h eh i e r a r c h i c a lm a n a g e m e n to f d a t aa n a l y s i sa l g o r i t h m sa n dt h ep l a ne x a m i n i n gt h ep r e c i s i o no fr e s u l t s o fd a t aa n a l y s i s f o rs h o w i n gt h eg e o g r a p h i c a li n f o r m a t i o na n dr e s u l t s o fd a t aa n a l y s i si nv i v i da n ds t r a i g h t f o r w a r df o r m ,w e bg i sp l a t f o r mi s u t i l i z e dt os h o wd a t ai n f o r m a t i o ni nd i r e c ta n dc o n v e n i e n tw a y t h i sp a p e r a l s oe x p a t i a t e su p o nt h em o d et h a ta n a l y s i sa l g o r i t h m sc o o p e r a t i n gw i t h w e bg i sp l a t f o r mf o rs h o w i n ga t t r i b u t ed a t aa n dr e s u l to fd a t aa n a l y s i s k e y w o r d s :m a r k o vd a t ae s tim a t e , a d a p t in gd e g r e e ,s a f e n u m e r i c a ld i v i s i o n ,d a t as 1 i c e d a t aa n a l y s i s ,w e bg i s i i y 6 2 4 2 07 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致诩的 :; 1 j 分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名:d 一4 年,月驴日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借1 | ;j 或上网公布本学位论文的全部或部分内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。剥 于保密论文,按保密的有关规定和程序处理。 研究生签名:,硅未一 如争年z 月p 日 硕士论文 基于w e bg i s 的数据综台分析系统的研究与实现 1 引言 1 1 问题的提出 当今的世界,科学技术同新月异,尤其是计算机和网络技术的迅速发展正在 使各行各业乃至整个人类社会发生着深刻的变革,人们称之为“全球数字化浪 潮”。在这场数字化变革的影响和推动下,社会各个领域的信息化水平大幅度提 高,社会效益和经济效益都十分显著。然而,随着整个社会信息化程度的加深, 各个领域的信息资源也在快速的积累和膨胀,与此同时我们的信息处理手段则 显得相对滞后,数据信息往往不能得到及时有效地分析和应用。信息资源大都具 有时效性,如果任其闲置而不善加利用则必将造成巨大的资源浪费。这种情况将 更加明显地出现在地理信息系统( g i s ) 的应用领域。 地理信息系统是计算机科学、地理学、测量学、地图学等多门学科综合的技 术,它的应用渗透于社会的各个领域,已从传统的自然资源管理、土地规划等领 域扩展到交通、军事、商业等非常广泛的领域,并取得了巨大的经济效益。地理 信息系统是构建在地理信息数据库基础之上的,地理信息库往往是海量数据库, 其信息量动辄达到g b 甚至t b 级。这些地理数据的取得一般都需耗费大量的人 工、时间和资金,是极为珍贵的信息资源。地理信息系统的产生和发展为更加快 捷、高效的利用这些信息资源提供了契机。但是,在实际应用中,地理信息系统 经常会出现数据分析不够充分、建立的数学模型不尽合理等现象。这中间固然有 g i s 和地理学中数学方法合理结合的问题,然而,数学模型的建立和检验机制、 数据分析方法的适用性以及分析结果的正确性检验等问题也不容忽视。 这些问题在一定程度上制约了地理信息系统在数据分析和决策支持这些有 效利用地理数据的领域发挥更大的作用。只有消除这些制约因素,我们才能构建 更为有效、安全的数据分析和决策支持平台。当面对海量地理信息数据库和大量 的应用需求的时候,这种愿望变得更加强烈因为大量的业务数据处理和复杂的 行业应用使得单一的数据分析方法或者数学模型都难以达成预期的目标,有时需 要建立一系列具有分析、模拟、仿真、预测、规划、策划、调控等多种功能的众 多模型所组成的模型系统才能完成。然而这些模型系统的运行不仅需要大量地理 数据所构成的数据库的支持,还需要强有力的计算方法与计算机程序的支持。 那么,这么多计算方法、数据分析方法和应用数学模型。它们如何运作才能使计 算方法有效的支撑数据分析的进行? 数据分析怎样才能更好的支持应用模型发 挥更大的决策支持功能呢? 一方面,我们有必要精心设计和选择合理的数学模型 以及数据分析算法,使它们各尽所能,以便在用户提出不同需要的时候给出相应 倾 论文 筚于w e bg i s 的数据综合分析系统的研究与实现 的合适选择。另一方面,我们很自然地想到数学模型库、数据分析方法集以及一 般数据计算方法的运作机制和合理组织的问题。 本课题是来源于“国土资源综合分析平台”这个项目,该项目是为国土资源 部丌发的。经过调研发现,国土资源部作为国土资源综合管理和规划的主管部门, 几乎每天都有大量的数据从全国各地上报过来。以前这些数据是以报表的形式 到部里汇总分析,由于办公自动化水平低下,数据是以文件形式管理,分析数据 的大量工作主要靠人工完成,工作量巨大,而且,这些数据应用于不同的领域, 数据综合性强,可挖掘的潜力大,因而对数据分析和决策支持提出了较高的要求。 首先,国土资源部的地理信息数据库综合了全国各个应用领域的地理数据,因此 它需要综合分析平台在数据分析方面有相当的通用性。其次,国土资源部有很多 的业务和行业需求需要进行数据分析和决策支持,它们既有共性又有个性,这就 需要我们设计或选择相对灵活的模型和分析算法,以满足复杂的应用需求。另外 数学模型的合理性检验、数据分析的相关检验和监测也是亟待解决的问题。 我们需要使得数学模型库、数据分析方法集以及一般数据计算方法集尽量高 效、安全、可控地运作,就应该研究它们的特性、关系,以便合理地组织它们, 将它们纳入层次框架运作机制之内,而我们对数学模型、数据分析方法、计算方 法的设计实现也将参照这种思路去完成。 1 2 论文组织 本文主要由以下几部分组成: 第一章引言; 第二章g i s 与地理学中数学方法综述: 第三章算法设计考虑和总体结构: 第四章马尔可夫数值预测方法初探; 第五章主要数据分析算法实现: 第六章结束语。 硕士论文 基于w e bg i s 的数据综合分析系统的研究与实现 2 g i s 与地理学中数学方法综述 2 1 现代地理学中数学方法的形成 现代地理学中数学方法的形成与地理学发展史上著名的计量运动紧密相关, 可以说没有地理学的计量运动就没有今天地理学中数学方法的理论积累。 在近代地理学的发展过程中,曾出现了三个主要的学派即:由赫特纳 ( a h e t t n e r ) 首创,哈特向( r h a r t s h o m e ) 继承和发展了的区域学派:由洪堡 ( a l e x a n d e r v o nh u n b o l d t ) 和李特尔( k a r lr i t t e r ) 创建李希霍芬( f r i c h t h o f e n ) 继承和发展拉采尔( f r i e d r i c h r a t z e l ) 等代表的“决定论”,白兰士( p a u l v i d a l d e l a b l a c h e ) 和白吕纳( j b r u n h e s ) 等代表“或然论”的人地关系学派。 进入二十世纪中前叶,上述三个学派都有发展,但是发展程度相差很大。相 比其余两个学派,人地关系学派逐渐落后;景观学派的理论体系尚未完善,因此, 区域学派的发展就倍受人们关注,逐渐发展成当时的主流学派【l l 。 但是,二十世纪中叶以后,区域学派的观点开始受到质疑和批判,以费舍尔 为代表的学者对区域学派的观点进行了批评和否定,从而揭开了地理学发展史上 的计量运动的序幕。这场运动致力于将数学、物理、社会学、经济学的理论和方 法引入地理学,开展地理学的定量化研究,建立定量模式1 1 1 。这就在实质上促进 了地理学中相关数学理论的发展和应用。6 0 年代初,鲍顿( i ,b u r t o n ) 就在他 的著作中使用了“计量革命”【2 l 的说法。 以费舍尔和麦卡尔蒂为代表的“衣阿华经济派”非常重视相关分析和回归分 析并试图从结合的观点出发同时应用这些分析手段去解释地理学中的诸多现象 。以威弗尔( j w e a v e r ) 为代表的威斯康星统计派则以发展统计分析方法在地 理学中的应用而著称。普林斯顿的社会物理学派也是很有特色的学派,他们从普 通物理学中万有引力公式中得到启发创立了引力模型,至今,它仍是研究人口分 布规律及其相关应用的有效理论工具( 1 1 。这些学派为地理学中数学方法的应用奠 定了理论基础,为它的发展注入了活力。 英国地理学家哈格特和乔莱( h a g g e t tp ,c h o r l e yr ) 早在6 0 年代就认为数学 方法对于地理学而言不仅是一种分析的手段,更是地理学理论进一步发展的基 石,因为传统的地理学研究方法更趋向于定性的推断和分析,它在量化的地理理 论研究中往往遇到困难,而数学方法及相关理论就成为有益和必要的补充,他们 在1 9 6 7 年地理模型中进一步研究和发展了地理学中应用数学方法和数学建 模思想的相关理论i 引。 硕士论文 基十w e bg i s 的数据综合分析系统的研究与实现 2 2 现代地理学中数学方法的发展历程 大约在二十世纪五十年代术到六十年代末,现代地理学中的数学方法处于其 发展的初期阶段,这一时期的主要特点是把统计学中的一般方法引入了地理学领 域,以前的许多定性描述被定量计算所取代,这就使得很多地理学概念有了更为 准确的数学意义。地理学中开始普遍采用统计学中的相关理论和规律,概率分布 函数、平均值、方差、标准差、变异系数等统计特征参数得到了广泛的应用l l 】。 这一时期的发展成果对于地理学来说,不仅仅是统计学与地理学的融合,它还为 后来地理学问题的代数化,可计算化奠定了基础,为应用计算机解决地理学问题 刨造了条件”j 。 从二十世纪六十年代末到七十年代末大约十年的时间里,现代地理学中的数 学方法经历了它的第二个发展时期。这一阶段出现了多元统计分析方法:另外, 随着计算机技术的进步,高级语言逐渐取代了艰涩难用的汇编语言和机器语言, 一些复杂的统计计算问题找到了计算机程序解决方案。通过编程解决多元分析统 计问题,地理学中许多复杂的问题得到了定量的解答。 进入二十世纪八十年代,现代地理学中的数学方法已渐趋成熟,在成功的融 入统计学的相关理论后,运筹学中的规划方法、决策方法和网络分析方法也开始 应用于地理学领域。这一时期现代地理学中的数学方法发展到一个新的阶段,那 就是融入现代系统科学,重视系统理论的研究,原来相对孤立的数学方法被严密、 系统的应用数学理论联系起来,系统性、理论性大大增强【l j 。现代地理学中的数 学方法已经完全摆脱了地理学中附属的地位,它的成熟和发展甚至使整个地理学 的系统性和理论性也得到加强i l l 。 到了二十世纪九十年代。现代地理学中的数学方法进入了它的全新发展时期, 计算地理学的概念出现了。在这个发展领域,地理学中的理论体系被转化为系统 的数学理论,并更普遍地采用计算机编程方法解决地理学问题。这一时期出现 了地理计算学的概念( g e o c o m p u t a t i o n ) 1 4 l ,它在数量地理学上进一步发展,已 经对地理学产生了深远的影响。九十年代,已有不少地理学家开始关注地理系统 的复杂性问题,b tw e m e r 在他的著作中论述了地貌的复杂性问题口】;d r i n d 则讨论了气候的复杂性问题【6 】。 2 3 现代地理学中数学方法的主要内容和相关介绍 地理学中的数学方法经过几十年发展,它的内容已经涉及到数学及其相关学 科的各个领域。它一方面继承了现代地理发展史上计量运动的成果,而且还吸收 了数十年以来多学科发展的成果。 4 硕卜论立 牡十w e bg 1 s 的数据综合分析系统的研究与实现 地理学中的数学方法所含的内容比较广泛,其中比较重要的包括:概率论、 抽样调查、相关分析、回归分析、方差分析、时间序列分析、主成分分析、聚类 分析、判别分析、趋势面分析、协方差和变异函数、克里格法、马尔可夫过程、 线性规划、动态规划、网络分析、层次分析法、风险型决策分析法、非确定型决 策分析法、模糊数学法、控制论、信息论、突变论、耗散结构理论、协同学、灰 色系统方法、系统动力学方法、分形理论、小波分析、人工神经网络、遗传算法、 细胞自动机等。下面仅对与论文相关的方法作一些介绍。 2 3 1 相关分析 相关分析方法是运用相关系数作为衡量机制来反映要素之间相关程度的一 种分析方法。我们所研究的问题一般都可以用若干要素来进行描述。要素本质上 是一个数据集合,只是由于这些要素是用来描述某一个特定主题的,所以它们需 要满足一定的关系,这里的数据集合主要是由索引序列数据( 如时间序列) 组成。 因此每一个数据都有索引属性( 如时间属性) 唯一标识,即使数值相同,也被认 为是不同的数据【1 , 7 , 3 1 1 。每个对应于要素的数据集合所包含的数据量是相同的: 要素之间具有固定的对应关系,这种对应由数据集合所组成的主题元素集合来体 现,即每一个要素中的样本值对应唯一确定的主题元素。 两要素之间相关程度根据不同的应用需要,可以通过计算和检验相关系数或 者秩相关系数来确定。 对于两个要素x 与y 。若它们的样本值分别为x 。与y ( i - 1 , 2 ,n ) ,则它 们之间的相关系数【l 】被定义为: 三 ( x 。一i ) ( y 。一歹) 氟i j 在公式( 2 3 1 1 ) 中,i 和歹分别表示两个要素样本值的平均值,即 i :1 s x , n 百歹。宝j = ly 其中r 。为要素x ,y 之间的相关系数,它就是测定两要素之间相关程度的统计 指标,r 。 一1 ,1 ar 。的符号具有意义,当fx y 0 时,表示正相关,或者说 两元素同向相关;当r 。 c ( 1 ,n 一2 ) ,则认为此回归模型方程是有效 的,否则认为是无效的。 对于多元线性回归模型,可以由统计量【l l f = 蒜来考察回归模型的 有效性。其它的显著性检验步骤与一元线性回归模型情况雷同。 硕i 一论立 摹于w e bg i s 的数据综合分析系统的研究与实现 2 3 4 时间序列分析 时间序列,也叫时间数列或动态数列,是要素( 变量) 的数据按时间顺 序动排列而形成的一“种数列,它反映了要素( 变量) 随时间变化的发展过程。 地理过程的时间序列分析是指通过分析地理要素( 变量) 随时间变化的 历史过程,揭示其发展变化规律,并对其未来状态进行预测。 在地理系统的研究过程中,经常要围绕某一研究主题对一系列相关的要素 进行数据采集,这些数据通常是具有时间顺序的。地理变量在不同时期的数值大 小通常受到主导性因素( 经常发挥作用) 和偶然性因素的影响【l 】。为了消除偶然 因素对地理变量的影响,常常采用平滑法对数据进行处理。 移动平均值预测【lj 是平l 滑预测法的一种,它的基本思想是用固定数量的时 间顺序数据的平均值作为下一时刻数据的预测值。假设一时间序列数据为: x ,x2 ,一,x ,则下一时刻数据的预测值为: 贾。= x , ,行( 聆s ,) 其中,n 称为移动时距【l 】a 滑动平均预测法1 是另一种平滑预测方法,它仍然采用求平均值的基本思 想,与移动平均预测不同的是滑动平均预测法采用在参与预测的数据两侧作平滑 的方法。假设一时间序列数据为:x ,z :,一,则下一时刻数据的预测值川为: j 。= ( x n - 1 。+ z 。+ ix 。+ :) ( 2 ”+ 1 ) 铆f ) 一 忙0,= 0, 其中,n 称为单测平滑时距。 指数平滑法【l 】也是一种平滑预测方法,上述的预测方法均采用了相等加权平 均的方法,指数平滑法则给历史数据赋予不同的权值,时间上离预测数据越近的 数据权值越高,相反则越低。这相对于前两种方法更为合理,因为时间序列数据 有一个特点,就是时间上越靠后的数据对于预测就更有意义,因此,指数平滑法 对于前两种方法更利于预测。指数平滑法分为一次指数平滑和高次指数平滑。 假设一时间序列数据为:x ,x2 i 一,x ,口为平滑系数,一次指数平滑的预 测公式为【l j : j 。= 口( 1 一口) x 。 如果要进行跨时间间隔预测,用一次指数平滑就不行了,要采用高次指数平 硕t 论文 基于w e bg i s 的数据综合分析系统的研究与实现 滑预测法。下面以二次指数平滑预测法和三次指数平滑预测法来说明。 设科。1 为一次指数平滑值,即 求得 s p = a x , + ( 1 一盘) s 卫 对其再作指数平滑可得二次指数平滑值【1 1 s = 口s p + ( 1 一口) 5 罾 二次指数平滑的预测公式为: 卫= d 。+ 6 ,丁 式( 2 3 4 6 ) 中,t 为从基数t 到预测时间的期数a ,b ,由下列公式川求得: 口,= 2 s p s j 2 缸2 击( g “一蚋 对二次平滑指数结果再进行指数平滑过程,可以得到三次指数平滑公式 s j 孙= 口s 2 + ( 1 一口) s 墨 三次指数平滑的预测公式“1 为: j ,+ = d r + 6r r + c 。7 2 式( 2 3 4 1 0 ) 中,t 为从基数t 到预测时间的期数,口;,6 ,c ,由下列公式 口,= 3 s _ 一3 研2 + s p 6 ,2 互石备 ( 6 - 5 a ) s f ( ”一2 ( 5 4 口) s j 2 + ( 4 - 3 a ) s ) 鄄】 c r = j 石兰【s j ”一2 耐2 ) + s r 】 时间序列分析方法中还有趋势线预测法、季节性预测、自回归分析等方法 在此不再赘述。 2 3 5 聚类分析 聚类分析i ”,亦称群分析或点群分析,它是研究多要素事物分类问题的数量 硕 论文基于w e bg 1 s 的数据综合分析系统的研究与实现 方法。它的基本思想是根据某种相似性标准确定样本之间的亲疏关系,然后根据 该关系的量化描述对样本进行分类。 在聚类分析中,确定样本之间的相似| 生的衡量标准是重要的一步,它直接决 定了聚类分析的结果。根据不同的应用需要,衡量相似性的标准也是不同的,设 有n 个样品的多元观测数据一= x 。一:,n i = 1 , 2 ,n ,则常用的距离川 有: 欧氏距离 d ( x t , x j ) : 羔( x 扩x m ) : f ,:l ,2 ,n i = l 绝对距离 d ( _ ) :圭k 一“i ,f ,:l 。2 一,” m i n k o w s k i 距离 d ( x i , x j ) :l 抓。,忡,“= 1 2 ,h l = ji c h e b y s h e v 距离 d ( x ,x ,) = m a x i x 。一x 斗i ,f ,j = 1 ,2 ,一,n 方差加权距离 m 户i ;半卜川z ,n 式c 2 3 5 5 m # 击驰一五) 2 = 吉弘l k p 马氏距离 d ( x ,x ,) :【( x ,一x ,) ,s 一一( x ,一x ) ,f ,:l ,2 ,。 式( 2 3 5 6 ) 中,s 是由样品而,x :,x 。得出的协方差矩阵: 拈击善( 矿碱r 式c 2 3 5 7 m = 告参 坝t 论文 綦十w e bg i s 的数据综合分析系统的研究与实现 在对地理系统的研究中经常使用不同的相似性标准进行计算比较它们的 聚类结果并选取一种合适的距离公式进行聚类。在综合分析平台的设计中,为了 方便比较几种相似性标准的聚类结果,并不在算法中指定某一种距离计算公式, 而是将算法与相似性标准分离,使它们处于不同的逻辑层次中。 聚类的方法有很多种,如直接聚类法、最短距离聚类法、最远距离聚类法、 快速聚类法等。 2 3 6 马尔可夫预测 马尔可夫预测法是一种预测事件发生概率的方法,它是基于马尔可夫链, 根据事件的目前状况预测其将来各个时刻变动状况的一种预测方法。马尔可夫预 测法是对地理事件预测的基本方法,它也是地理预测中常用的方法之一。 马尔可夫预测与地理学中用到的其他的预测方法相比有很多特点。首先,它 是基于马尔可夫链的,这就决定了它的适用范围。其次,它是对事件状态的预测, 而这里的状态又来源于马尔可夫链的状态空间,因此马尔可夫预测模型的预测细 致程度在很大程度上决定于马尔可夫链的构造情况。第三,马尔可夫预测是基于 历史数据分布规律和概率理论的预测方法,它比其它的预测算法更倾向于使用统 计的方法。 马尔可夫预测方法中的一个核心概念是状态转移概率它是指在事件的发 展变化过程中,从某一状态出发。下一时刻转移到其它状态的可能性。这一概念 可以用概率理论中条件概率的相关定义来描述,即由状态e 转移到状态e 的状 态转移概率就是条件概率p ( e e ) ,其公式l l j 表述为: p ( e ,斗e ,) = p ( e ,e ) = 0 马尔可夫预测方法的相当一部分工作是完成对状态转移概率矩阵的统计 计算。假定某一事件的发展过程有n 个可能的状态,即e l ,如,乜。用只表示 从状态e ,转移到e ,的状态转移概率,则矩阵【 p = e 。只: b 只: : r 只1只2 鼻。 b 。 : _ 气 称为状态转移概率矩阵。 某一事件在某一时刻只可能处于一种状态e 下,其中, 硕卜论文基于w e bg i s 的数据综合分析系统的研究与实现 e ,( e 1 ,e 2 ,e 。) ( e ,e 2 ,e 。) 表示马尔可夫链的状态空间。下一时刻,该 事件可能转移到状态空间的任意一个状态,并且在马尔可夫预测模型中只能出现 这样的状态转移。因此。状态转移概率矩阵p 必须满足 1 】: f 0 p , j 1 ( f ,= 1 , 2 ,h ) l 三巴= 1 ( ,= l ,2 ,n ) 在马尔可夫预测中用状态概率1 1 描述事件在发展过程中出现某种状态的概 率,引入记号y t ,( k ) 来表示某事件在初始状态( 即k = 0 时) 经过k 个时期的状态 转移后处于e 的状态概率。由马尔可夫预测模型中状态转移的特征以及概率的 性质得f l 】: 石,( 女) = 1 ( 2 3 6 3 ) 1 = 1 由马尔可夫过程没有后效型的性质和条件概率公式,可以得到状态概率的 递推求解公式【l 】: 厅,( t ) = 万,( 一1 ) b ( ,= l ,2 ,h ) i = l 若一马尔可夫链的状态空间为e ,e :,e 。,丌( k ) ,万2 ( k ) ,万。( 七) 表示事件由处始状态在第k 个时刻分别转移到状态e ,e :,e 。的状态概率a 若 记向量石( ) = 防,( 七) ,7 :( 七) ,石。( 女) 】则可得到下列状态概率计算公式” 石( 1 ) = 玎( o ) p 疗( 2 ) = z ( 1 ) p = x ( o ) p 1 万( 女) = 7 ( 七一1 ) p = 一x ( o ) p 马尔可夫预测模型还可以对事件经过无数次状态转移后的状态概率进行预 测,这被称为终极状态概率预测或平衡状态概率预测。设终极状态概率向量为: 7 r = k ,万:,万。】则终极概率应该满足的条件为川: 万= z p 0 万1 ( i = 1 , 2 ,一, ) 坝,i j 论文基于w c bg i s 的数据综合分析系统的研究与实现 e ,r = 1 。 2 3 7 灰预测 灰预测哺j 是基于灰色建模理论的一种预测方法,根据不同的应用需要,灰预 测又被具体分为数列预测、灾变预测、季节灾变预测、拓扑预测、系统综合预测 等。 灰预测数据视其背景、对象的不同而具有不同的特性1 8 。有的时间序列数据 之间没有中间值并且不可任意插补,这类数据被称为无外延数据1 8 l ,比如农产品 年产量、季度产量的数据就属于这种类型;有的时间序列数据在检测时具有可重 复性,对同一检测对象,数据之间可以插补,这类数据被称为复现性数据m j ,如 在机械应用中经常要做一些零件尺寸的测量,这类数据均属于该类型:在电力系 统中,能进行灰预测的数据包括功率、电流、电压等,这些数据通常是通过一个 时间段的连续采样得来的,具有可重复性、可插补性,它们被称为采样数据1 8 】。 经济类型数据通常具有离散性、非采样性、可插补性等特点这类数据被称为无外 延的可插补数据【“。 灰预测是具有较好预测效果的预测方法,它能对一些不平稳的随机序列作 高精度的预测,这是很多预测方法都不能比拟的优势。灰预测数据具有以下特点 1 8 】: 作为一种预测方法,灰预测数据具有时间序列性1 8 j 。这是显而易见 的必要条件,因为只有具备时间序列性的数据才能预测。对于灰预 测而言,并不要求时问序列数据具有等间隔性【9 l ,灰预测可以对非 等间隔的时间序列建立g m ( 1 ,1 ) 模型。 灰预测模型具有少数据特征【踟。这里的少数据特性并不是意味着灰 预测能以少量数据获得高精度的预测值,因为具体的预测情况往往 比较复杂,它主要指灰预测模型的建立不需要大量的历史数据,灰 预测的原始序列可以少到4 个。 灰预测产生的预测数据和原始序列数据在时间上具有传递性【8 j 。 灰预测数据具有全信息性【8 】,灰预测是一种基于数据的预测,它只 考虑数据的数值特性,并不像回归预测一样。考虑某一数据序列与 其它数据序列的相关关系,因为,从灰预测的角度来看,数据本身 已经具有影响它消长的各种因素信息。 灰预测数据具有灰因果性【射,原始序列数据从灰预测的角度看是具 有全信息的确定的数,所以它们是白化的结果,然而,该数据序列 硕1 论文 基于w e bg i s 的数据综合分析系统的母f 究与实现 之所以会确定下来是受多种因素共同作用的结果,其中包括决定因 素和偶然因素,这就是灰覆盖,即灰因。 然而,为了保证灰预测模型的成功建立和预测的精度,被预测的数据需要 满足一定条件。为了方便说明,需要引入序列级比的概念,令x 为一时间序列, x = g i ,x2 ,一,x ,) ,盯,( ) 为x 的级比f 8 1 , 删= 等,m n ( 旧 设占。( 七) = 1 1 一c y x ( ) l 称艿, ) 为序列x 的级比偏差【8 1 。 邓聚龙在他的灰色理论著作中指出:原始序列x 的级比盯,( 七) 必须落在可 行域i t g 中, l t g = ( o 1 3 5 3 ,7 3 8 9 ) , 才能作g m ( 1 ,1 ) 建模,同时,他对这一问题作了详细推导和论证。这只是灰预测 建模的必要条件,它并不能保证高精度的预测,为了获得高精度的g m ( 1 ,1 ) 模型, 序列级比口,( 女) 必须限制在i t g 中靠近1 的子区间i t g m 中, l t g m c l t g , i t g m = ( 1 一s ,l + 占) , 其中,s 是指定的足够小的实数。 如果原始序列不满足上述条件,就需要对其进行变换,然后再进行灰预测。 变换的方法包括方根处理1 8 1 、平移处理【8 1 等。尽管经过变换可以减少原始序列数 据的波动程度并且满足灰预测所需要的建模要求,但是,预钡4 的情况是比较复杂 的,当预钡4 数据还原之后,其精度有时会有较大差异,尤其是预报对于随机波动 较大的数列拟合较差,精度降低【2 5 1 。 2 4g i s 的形成和发展现状 地理信息系统( g e o g r a p h i c a l i n f o r m a t i o ns y s t e m 或g 1 s ) 有时又称为“地 理信息系统”或“资源与环境信息系统”。它是一种特定的十分重要的空间信息 系统。它是在计算机硬件、软件系统支持下,对整个或部分地球表层( 包括大气 层) 空间中的有关地理分布数据进行采集、存储、管理、运算、分析、现实和描 述的技术系统,我们可以从以下几个方面。2 1 来定义它: 碳十论文基于w e bg i s 的数据综合分析系统的研究与实现 基于工具箱的定义,认为g i s 是一个从现实世界采集、存贮、转换、显 示空间数据的工具集合: 数据库定义,认为g i s 是一个数据库系统,在数据库里的大多数数据能 被索引和操作,以回答各种各样的问题; 基于组织机构的定义,认为g i s 是一个功能集合,能够存贮、检索、操 作和显示地理数据,是一个集数据库、专家和持续经济支持的机构团体和组织结 构,提供解决环境问题的各种决策支持。 地理信息系统产生于5 0 年代末6 0 年代初】,这一时期,由于受到计算机软 件和硬件的限制,尤其是相关理论的缺乏,地理信息系统处于初期探索阶段甚 至并不具备一些核心要素。当时主要用计算机存储和处理地图信息,并将地图转 换为计算机可以识别的数字形式。 到了2 0 世纪7 0 年代,计算机硬件制造随着集成电路技术的出现和日趋成熟 而迅速发展,随之而来的是计算机性能的大幅度提升。快速的计算速度和存储容 量的加大使得计算机的图形处理能力大大增强,原来需要长时间的制图分析已经 可以做到实时编辑了l l i l o 进入2 0 世纪8 0 年代,地理信息系统步入了它快速发展的时期,一方面各 国政府和相关的科研机构逐渐认识到地理信息系统的重要性,加大了人力和资源 的投入;另一方面,这一时期数据库管理系统出现了成熟的产品1 1 1 】,而这对于 海量地理信息的存储是极为有利的。此外,地理信息系统开始与其它理论更多地 溶合,如地理学中的数学理论、数学建模理论、智能决策等。这些都极大地扩展 了地理信息系统的应用范围。 到了网络普及的9 0 年代地理信息系统也开始向网络化发展,出现了网络 地理信息系统( w e bg i s ) ,地理信息系统也出现了多元化的发展趋势,主要呈现 以下特征: 地理信息系统已经不是局限在简单的显示地理数据信息,做一些传统的分析 运算,而是更多的倾向于基于地理数据的分析预测和智能决策。要使地理信 息系统做出合理的决策就需要系统与某一特定应用领域紧密联系,这种联系 的方式一般是通过建立数学模型来实现的,这就要求地理信息系统与地理学 中的数学方法以及数学建模理论更合理地融合,这种发展趋势无疑会推动地 理学向定量化的方向发展。 对地理信息系统的实时信息反馈和信息处理的要求越来越高。早期的地理信 息系统主要是单机版的。所处理的数据可以说都是历史数据,这主要是由于 地理信息具有跨地域的特性,如果地理数据的采集基本由人工来完成,其速 度是可想而知的。比如,想对全国的森林资源做普查,如果完全用人力来完 硕士论文摹十w e bg i s 的数据综合分析系统的研究0 实现 成t 大概要2 0 年等查完了,情况怕是早变了,辛辛苦苦得到的无异于历 史数据。依赖于卫星和网络技术,数据的采集和处理全过程只需几周时间。 w e bg i s 的产生和发展为地理信息系统的信息实时处理奠定了坚实的基础。 对地理信息系统中建立的模型提出了更高的要求。由于g i s 的二次开发平台 对于建模的相关机制还不完善,而建模的与特定领域应用的密切联系决定了 它的灵活性,建模的成败又关系着系统设计的成败,因此,与之相关的课题 正处于热烈的探索研究阶段。 2 5w e bg i s 的发展和技术特点 万维网地理信息系统1 1 副( w e b g i s ) 是指基于i n t e r n e t 平台、客户端应用软 件采用w w w 协议运行在万维网上的地理信息系统。严格地来说,w e bg i s 只 是互联网地理信息系统中的一种很可能以后的互联网地理信息系统会构建在全 新的更加适合地理信息数据交互的网络协议上。 w e bg i s 是随着互联网技术迅猛发展以及全球数字化浪潮方兴未艾的大环境 下产生和发展起来的,它将多维虚拟现实技术、计算机技术、遥感技术、地理信 息系统、全球定位系统、网络技术、通讯技术融为一体【l 引。如果说地理信息系 统从本质上是经过处理的地理信息数据的综合展示平台的话,那么万维网地理信 息系统就是它的网络化版。w e bg i s 是由多主机、多数据库和多台终端,通过网 络连接而成的,它提供了方便的g i s 数据信息发布与共享方式【l 副。传统的g i s 系统集成都存在一个g i s 基础软件同专业应用软件的“接缝”问题,而应用组件 技术就能实现高效、无缝的系统集成:同时,具有构件化结构的w e b g i s , 以一组具有某种标准通信接口允许跨语言应用的构件提供g i s 功能。可以被封 装成能实现与具体任务最紧密相关的功能模块,方便地进行组装和嵌入, 有效地支持g i s 在网络上的应用和二次开发【2 6 j 。这也是w e b g i s 的一大发 展趋势。 万维网地理信息系统主要有以下一些特点: w e b ( 3 1 s 依托网络可以连接多个客户端、多个数据库以及w e bg i s 服 务器。而这样的构架有利于进行分布式运算。在地理信息处理中经常 要遇到复杂的计算,为了有效利用计算机和网络资源,提高网络地理 信息系统服务的质量和速度,我们可以构建分布式服务体系【u 】,平衡 服务端和客户端的负载,从而使传统的g i s 运算模式向分布式方向转 变。目前,随着分布式对象技术的成熟基于构件的w e bg i s 出 现了,这种技术使得真正的高性能的网络g i s 成为可能l l 叫。当 然,w e bg i s 的分布式计算仍然需要较大的网络流量,以前的 坝1 二论立拱卡w e bg i s 的数据综合分析系统的研究与实现 w e b g i s 系统受c g i h t t p 的瓶颈限制,应用水平不高。目前,主要有 两种解决方案,一种是j a v a a p p l e t 技术,另一种是“o b j e c t w e b ”技 术1 2 剐的一种实现,即微软公司与1 9 9 6 年提出的d c o m a c t i v e x 技术。 w e b g i s 可以方便地实现地理信息数据的分布式存储。地理数据动辄 拥有g b 级甚至t b 级,这对于数据库服务器来说是不小的压力,为 了信息检索和数据处理的高效,可以利用网络优势将地理信息数据分 散在多台服务器上存储,比如,对于海量地理信息数据就经常将地图 数据与属性数据分在不同的数据库服务器上存储。 2 6g i s 与地理学中数学方法结合的意义 地理信息系统是以计算机为工具,综合运用定位观测数据、统计调查数据、 地图数据、遥感数据等,通过一系列空间操作与分析,对地理学进行综合分析研 究的现代化手段【”。其中。综合分析地理数据没有相关的地理学数学方法是很难 实现的,这就要求地理学数学方法与g i s 技术更好的结合,从而提高g i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论