下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于空间统计学的空间关联规则挖掘方法与应用 基于空间统计学的空间关联规则挖掘方法与应用2011-03-14 09:36 来源: 浏览次数: 关键字: 统计论文摘要:空间关联规则知识的发现是空间数据挖掘一个重要的方面,而把空间统计分析技术应用于空间数据库中的空间关联规则挖掘,是一种不同于传统方法的可用技术。该方法首先建立空间对象之间的空间权重矩阵,然后采用MoransI统计量等来发现全局空间相关关系,利用G统计量等来发现局部空间相关关系,并通过实例分析证明了该方法的有效性。关键字:空间统计学;空间数据挖掘;空间关联规则挖掘0引言空间关联规则知识的发现
2、是空间数据挖掘一个重要的方面,它主要是要找出空间数据库中空间对象间潜在有用的空间相关关系。有关空间关联规则挖掘的算法有许多,比如由R.Agrawal等1994年提出的Apriori算法1,2,J.S.Park等提出的基于Hash表的挖掘方法3,D.Malerba等提出的ILP(InductiveLogicProgramming)方法4,J.W.Han等1995年提出的多层次关联规则挖掘方法8,这些方法和技术都是从数据库的事务集中找出频繁项集而挖掘关联规则,具有规范的规则形式。利用空间统计学挖掘空间关联规则,是一种广义上的空间关联规则,它没有固定的规则形式或格式,一般用自然语言描述。这类空间关联
3、规则在空间决策支持中具有十分重要的意义。目前,空间统计学已广泛应用于农业、地质、土壤、水文、环境、经济、人口统计等领域10。不少学者先后对空间统计的一些基本理论和方法进行了广泛研究,形成了一些新的统计理论和应用方法。基于空间统计学的空间关联规则挖掘包括空间权重矩阵的构建、全局与局部空间自相关、空间关联的度量与检验、空间关联知识的识别与描述等。本文将详细介绍相关的理论和计算方法,并以湖南省14个市州2004-2006年连续三年的GDP增长率数据为研究对象,说1空间统计学基本理论和相关性质1.1空间权重矩阵空间数据库中空间对象间的拓扑关系提供了空间对象彼此间的空间连接或空间邻近的基本度量关系,空间
4、连接或空间邻近关系广泛应用于空间数据分析中。通常我们采用一个二维对称空间权重矩阵W来表达n个空间对象(位置)间的空间邻近关系,一般采用邻接标准或距离标准来度量。空间权重矩阵W的形式如(1-1)所示,空间权重矩阵的定义是空间统计学与传统统计学的重要区别之一。利用空间数据的拓扑关系,可以比较容易地构建空间权重矩阵。 (1-1)根据邻接标准,当空间对象j和对象i相邻时,空间权重矩阵元素wij为1,其它情况均为0。矩阵元素值的表达式形式如(1-2)
5、所示。 (1-2)根据距离标准,当空间对象j和对象i的距离在给定距离阀值d之内时,空间权重矩阵元
6、素wij为1,否则为0。矩阵元素的取值表达式如(1-3)所示。 (1-3)上述两种邻近关系规则可以分别使用,也可以同时使用。如果两个对象客观上空间不相邻,但它们之间在研究的某一方面存在紧密联系时,可以将它们视为一种相邻关系,此时即用到距离规则。所以,基于距离规则建立空间权重矩阵的目的是为了调整合理距离范围内对象间的空间邻接关系。为了便于解释,通常将空间权重矩阵进行标准化处理(Anselin,1
7、988),以使得每个元素值的范围界于01之间,标准化的形式如(1-4)所示。 (1-4)1.2全局空间自相关的测度指标一MoransIMoran,sI统计量是一个应用非常广泛的全局空间自相关统计量,其定义形式如(1-5)所示。 &
8、#160; (1-5)其中,xi表示在位置i处空间对象的观测值,wij是空间权重矩阵的元素。根据空间数据分布状态可以计算MoransI的期望值和方差10。对于正态分布:
9、 (1-6)
10、 (1-7)对于随机分布: (1-8)
11、; (1-9)其中,wi*和w*i分别表示权重矩阵中第i行和第i列之和。利用式(1-10)可以检验n个空间对象间是否存在空间自相关关系。
12、0; (1-10)利用MoransI统计量可以测度空间对象间的自相关性,发现对象观测值的空间分布差异性和相关性。当MoransI为正时,在距离d范围内的观测值之间存在显著的正相关,即大的观测值和大的观测值集聚在一起,小的观测值和小的观测值集聚在一起,呈现“物以类集”的分布特征;当MoransI为负时,在距离d范围内的观测值之间存在显著负相关,即大的观测值倾向于和小的观测值集聚在一起,呈现空间分散格局;当MoransI趋近于零时,观测值之间不存在空间自相
13、关性,属于独立随机分布。1.3局部空间自相关的测度指标G统计量Getis和Ord(1992)研究了用来衡量空间对象间的局部空间关联性的G统计量,在空间位置i的G统计量的表达式定义如下: (1-11)其期望值和方差分别为:
14、0; (1-12)
15、60; (1-13)其中,xi是对象在位置i的观测值,wij是空间权重矩阵的元素,n是观测值的个数。Getis和Ord在1994年定义了Gi的标准化形式: (1-14)其中,当Z(Gi)为正值时,说明位置i被数值大的属性值所包围;当Z(Gi)为负值时,说明位置i被数值小的属性值所包围。Z(Gi)统计可用来判断空间聚类是为大数值型或小数
16、值型。但是,Z(Gi)不能根据其正负号判断空间类型的相似性12。2实例分析下面以湖南省各市州2004-2006年的GDP增长率分析为例,利用空间统计学分析方法挖掘各市州GDP增长率之间存在的空间关联知识的有效性。湖南省各市州2004年、2005年和2006年的GDP增长率见表2-1。 &
17、#160; 表2-1湖南省各市州2004年一2006年GDP增长率一览表 说明:数据来自湖南统计信息网13。根据湖南省各市州的拓扑空间相邻关系建立各市州边界多边形的拓扑关系,我们利用相邻关系图来直观的表达
18、(如图2-1),图上各节点中的数字代表各市州相应的编号,节点间有边相连,说明两市州在空间上具有相邻关系。根据此相邻关系图,建立各市州的空间权重矩阵如表2-2所示。图2-1湖南省各市州空间拓扑关系的相邻关系图(节点上的数字代表各市州编号)
19、 表2-2各市州基于邻接标准的空间权重矩阵 利用湖南省各市州2004年到2006年连续3年的平均GDP增长率(见表2-1)这个指标来进行分析。根
20、据空间权重矩阵,计算所得的各市州全局MoransI和局部G统计值分别见表2-3和表2-4。 表2-3全局空间自相关MoransI及其Z(I)值 &
21、#160; 由表2-4可以得到,由于MoransI为正值,说明各市州的GDP增长率在空间上存在明显的相关性,不是随机分布的,而是存在必然的内在联系,GDP增长率高的区域和GDP增长率高的区域有相互邻接的趋势,低增长率区域与低增长率区域有相互邻接的趋势。
22、 表2-4局部G统计量及其Z(Gi)值 根据表2-5中的G统计量及其Z值,我们可以发现湖南省各市州局部区域之间既存在显著的正的空间关联,又存在显著的负的空间关联。怀化、
23、湘西、常德、郴州、邵阳、张家界和永州市的Z值为负,说明这些市被平均GDP增长率低的市所包围;岳阳、娄底、衡阳、湘潭、株洲、长沙和益阳的Z值为正,说明这些市被平均GDP增长率高的市所包围。通过分析可以发现,长沙、湘潭、娄底、株洲、岳阳五市州平均GDP增长率较高的地区连成一片,形成湖南省东部地区的经济高速发展区域;常德和张家界连成一片,形成湖南省北部地区的经济高速发展区域;从而可以看出,增长率较高的地区有相互邻接的趋势;增长率较低的地区有怀化、湘西、衡阳、郴州、邵阳、永州和益阳,即GDP增长率较低的地区有相互邻接的趋势,它们形成湖南省西南部的经济低速发展区域。作为省会城市的长沙,同时也是湖南省经济
24、发展的中心,其GDP增长率明显高于省内其它城市,而其它增长率较高的城市大部分都与长沙为邻,说明长沙的经济发展对相邻地市的经济发展存在一定的带动作用。我们可以对上述发现的知识进行整理、加工,为进一步分析奠定基础,同时为经济政策决策的制定提供一定的参考和支持。通过上述的例子,说明了空间统计分析方法在确定、量化区域内存在的空间关联关系的正确性和有效性。3结论基于空间统计分析技术进行空间关联规则挖掘的方法,既考虑了空间对象的空间分布特征,又利用了空间对象的属性数据,因此是一种结合空间、属性特征的空间数据挖掘方法。本文的实例证明了该方法所发现的空间关联知识与实际相吻合,说明空间统计学方法的有效性和实用性
25、。但是,对于非数值型数据而言,空间统计学方法还存在一定的局限性。参考文献1AgrawalR,ImielinskiT,SwamiA.Miningassociationrulesbetweensetsofitemsinlargedatabases.InProceedingsofthe1993InternationalConferenceonManagementofData(SIGMOD93),1993:207-216.2AgrawalR,SrikantR.Fastalgorithmforminingassociationrulesinlargedatabases.InVLDB94,1994:487-499.3JongSooPark,Ming-SyanChen,PhilipS.Yu.AneffectiveHash-BasedAlgorithmforMiningAssociationRules.SIGMOD95,1995:175-18
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年贺州市八步区公务员招聘考试参考题库及答案详解
- 2026年天津市红桥区公务员招聘笔试备考题库及答案详解
- 2026年山东省临沂市公务员招聘考试模拟试题及答案详解
- 成本控制在项目预算中体现方法
- xx市健全生态保护保障体系实施方案
- 2025年湖北省当阳市高三生物上册期末考试模拟检测卷及参考答案【考试直接用】
- 2025年河南省舞钢市高三生物上册期末考试模拟考试卷附答案(A卷)
- 2026四川爱众发展集团有限公司第二批次招聘2人考试备考题库及答案详解
- 2026安徽亳州邮政分公司邮政营业岗位招聘1人(邮政标里支局营业厅)考试参考题库及答案详解
- 2026年辽宁省锦州市事业单位人员招聘笔试参考题库及答案详解
- 出纳员职业技能鉴定考试复习题库(附答案)
- 加油站风险辨识与安全管控培训
- 2025年四川省自贡市地理生物会考真题试卷+答案
- GB 26396-2026洗涤用品安全技术规范
- 2026年上海市宝山区中考一模化学试卷
- 2026年郴州思科职业学院《形势与政策》期末考试练习题及答案详解
- 2026年全套安全生产标准化体系文件汇编标准化管理手册
- 2026年科级干部任职资格政治理论考核要点
- 合金丝锥热处理项目可行性研究报告
- 东南大学2024综评数学试卷
- DB31∕T 1545-2025 卫生健康数据分类分级要求
评论
0/150
提交评论