




已阅读5页,还剩69页未读, 继续免费阅读
(摄影测量与遥感专业论文)基于数据挖掘的浙江省陆路交通可达性研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 交通可达性不仅与交通运输条件、经济发展状况有关,而且还受到自然地理 环境的影响。目前,国内外有关可达性方面的研究主要集中于交通网络空间格局 分析,而对地理要素如何影响可达性,即可达性与地理因子之间的相关模式却研 究甚少。针对这种状况,本文以浙江省为研究区,引入数据挖掘技术展开对可达 性与地理因子之间相关模式的研究。主要研究内容及结论如下: ( 1 )在介绍研究区自然地理条件及经济地理条件的基础上,筛选并提取 地理因子,主要包括地形因子( 高程、坡度、粗糙度、曲率) 和土地利用类型( 城 镇用地、水系、林地、草地及农用地) 。 ( 2 ) 构建研究区交通网络数据集,利用平均最短时间、加权平均出行时 间、反幂函数重力模型以及负指数函数重力模型分别度量节点可达性,并对计算 结果进行分析和比较。其中,基于负指数函数的重力模型更能反映节点间可达性 差异。 ( 3 ) 以负指数函数重力模型计算结果为基础,利用l “g i n g 插值技术构造 可达性表面。通过交叉验证分析,发现基于球状模型的l “g i n g 插值预测结果相 对合理。从可达性表面可以看出,浙江的可达性以湖州、嘉兴、杭州、绍兴和宁 波等城市为中心,逐步向外围地区扩散,呈阶梯状的空间分布格局。 ( 4 )采用波段组合方法将地理因子与可达性表面进行有效叠合,并利用 空间采样方法随机获取采样数据,构造关联规则、决策树和模型树方法所需的训 练集。 ( 5 ) 利用a 研o r i 、i d 3 、j 4 8 、c a i 、m 5 p 等数据挖掘算法,提取可达 性与地理因子之间的关联模式,并对挖掘结果进行分析。通过综合比较几组不同 的实验结果,发现相关模式均能对可达性与地理因子之间的关系作出较好解释, 从而对典型统计分析方法只能验证相关性的存在这一局限性进行了有效补充。 关键词:数据挖掘,可达性,地理因子,关联规则,决策树,模型树 a b s t r a c t a b s t r a c t t h ea c c e s s i b i “钾n o to d yr e l a t e st ot 捌n s p o n a t i o na i l de c o n o m i c a 】d e v e l o p m e n t c o n d i t i o i l s ,b u ta l s or e l a t e st oe n v i r o n m e n t a tp r e s e n t ,a c c e s s i b i l i 讨r e s e a r c hm a i n l y c o n c e n 仃a t e si ns p a t i a lp a t t e mo fn e t 、o r l ( ,b 叭r 锄e l ym e m i o n st h ec o r r e l a t i o nm o d e l b 嘶v e e na c c e s s i b i l i t ya i l dg e o 日印h yf a c t o r s a c c o r d i n gt ot h i ss i 似i o n ,w e 讲【e z h e j i a n gp r o v i n c e 勰a i le x 锄p l e ,u s i n gd a _ t am i n i n gt e c h n o l o g yt or e s e a r c ht l l e c o r r e l a t i o nm o d e lb e t w e e na c c e s s i b i l i 竹a n dg e o g r a p h yf a c t o r s t h em a i nc o n t e n t sa 1 1 d r e s u l t so ft 1 1 i sp a p e ra r e 鹤f o i l o 晰n g s : 1 i nt h ef o 岫d a t i o no fo u t l i n i n gt i l en a _ t u r ea 1 1 de c o n o m yc o n d i t i o no fr e s e a r c ha r e 钆 g e o g r a p h yi n n u e n c ef a c t o r sa r es e l e c t e da r l de x t r a c t e dw h i c hm a j n l yi n c l u d e s t e r r a i nf a c t o r s ( e l e v a t i o n ,s i o p e ,r o u g h n e s s ,c u 】a :t u r e ) a n dl a n du s et y p e ( 1 l | b a nl a r l d , r i v e r f o r e s t ,g r a s sa n da g r i c u l n l i el a n d ) 2 t h ea c c e s s i b i l i t vo fn o d e 砌em e a s u _ r e du s i n gm e a ns h o n e s tt i m e ,t i l e 、d g h t e d a v e r a g ei o 哪e yt i m e ,t h eg r a v i t a t i o n a lm o d e lb a s e do nc o u n t e r - p o w e rf h n c t i o n 锄dt h e 删i t a t i o n a lm o d e lb a s e do nn e g a t i v ee x p o n e n t 如n c t i o ns e p 锄t e l y t h r o u g l lc o m p a r i n g 砒l d 锄a l y i n gt i l er e s u l t s ,w ed i s c o v e r e dt h a tm eo s c i l l a t i o no f i e s u l t sc o m p u t e db yn e g a t i v ee x p o n e n t 劬c t i o nm o d e li st l l eb i g g e s t i tc a nr e n e c t t 1 1 ed i f r e r e n c eo fn i d d ea c c e s s i b i l i t v 3 t h ea c c e s s i b i l i t ys u r f a c ei sc o n s t m c t e du s i n g 碰西n gi n t e r p o l a t i o nb a l s e do n r e s u l t so fn e g a t i v ee x p o n e n tm n c t i o nm o d e l t h r o u 曲c r o s s - v a l i d a t i o nc o m p a r i n g , 、ec o n s i d e r e dt l l ef o r e c a s tr e s u l to f “g i n gi n t e r p o l a t i o nb a s e do ns p h e r i c a l m o d e li sm o s tr e a s o n a b l e t h er e 画o na c c e s s i b i l i t ) ,p r e s e n t sas t e p sa n dl a d d e r s d i 妯b u t e dp a n e m 印p r o x i m a t e l ya i l dr e d u c e s 伊a d u a l l yt ot h eo u t l y i n gz o n e t a _ l 【i n gh m m o u ,j i a x i n g ,h a n 擘囊【h o u ,s h a o x i n g 锄dn i n g b oa sa c o r e 4 n eg e o g m p h yf a c t o r s 锄da c c e s s i b i l i t ) ,s u r f a c ea r es t a c k e du s i n gl a y e r - 妣k 劬c t i o n ,m u sp r 0 v i d i n gb a s i cd a t af o ra 1 1 a l y s i s t h es a m p l i n gd a t aa r eo b t a i n e d u s i n gs 锄p l i n gm e t h o di na r c g i s ,觚dt h r o u g hc l a s s i f i e dp r o c e s s i n gt h ed a t aa i e c o n v e r t e d s od i 舵r e n tt r a i l l i n gs e ts u i t a b l ef o rd a t am i n i n ga r ec o n 如r c t e d 5 t h ec o r r e l a t i o nm o d e lb e 似e e na c c e s s i b i l 竹锄dg e o 擎a p h yf i a c t o r sa r ea n a l i s e d b a s e do na s s o c i a t i o nm l e s ,m ed e c i s i o nt r e ea i l dt h em o d e lt r e eu n d e rt h es u p p o r t o fw b k as y s t e m t h r o u g l lc o m p a r i n gd i f f e r e n te x p e r i m e n t a ir e s u l t ss y n t h e s i s l y ,w e d i s c o v e r e dt h a tt h ec o n e l a t i o np 甜e mb e “v e e na c c e s s i b i l i 锣锄dg e o g r a p h yf a c t o r r e l a t i o n sc a nb ee x p l a i n e d 、w 1 1 s oi tc 锄m a k ee f r e c t i v es u p p l e m e mt os t a t i s t i c a j 觚a 1 v s i sm e t l l o dw h i c ho i l l yc o n f i 硼t h ee x i s t e n c eo ft h ec o r r e l a t i o n k e yw o r d s :d a t am i l l i n 岛a c c e s s i b i l i t y ,g e o 聊h yf 砬t o r s ,a s s o c i a t i o nr u l e s , d e c i s i o nt r e e m o d e lt r e e i i 学位论文独创性声明: 本人所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果。与我一同工作的同事对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。如不实,本人负全部责任。 论文作者( 签名) :2 i ,p 占年上月岁f 日 学位论文使用授权说明 河海大学、中国科学技术信息研究所、国家图书馆、中国学术期刊( 光盘 版) 电子杂志社有权保留本人所送交学位论文的复印件或电子文档,可以采用 影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容 相一致。除在保密期内的保密论文外,允许论文被查阅和借阅。论文全部或部 分内容的公布( 包括刊登) 授权河海大学研究生院办理。 论文作者( 签名) :沙蛄年 ,月引日 第一章绪论 1 1 研究背景和意义 第一章绪论 交通网络空间格局演变对区域乃至整个国家的可持续发展具有十分重要的 影响。作为交通网络空间格局的度量因子,可达性在某种程度上也能够反映区域 社会、经济的发展状况。正因为如此,可达性已成为人文地理学、城乡规划、交 通运输经济学等学科的研究热点之一。 区域空间结构的形成与变化受到自然、区位、社会经济等多个因素相互作用 的影响,因此,可以说交通可达性在某种程度上反映了区域社会、经济的发展状 况。反过来,由于宏观的区域经济发展模式以及微观的个体空间行为,又都改变 着区域能流、物流等的空间分布态势,所以区域可持续发展也强烈影响可达性的 分布格局。可见,交通可达性与区域空间结构之间存在相互促进、相互制约的关 系。此外,可达性是一个与交通运输条件紧密相关的概念,除了受现有交通网络 及经济发展状况的影响之外,更大程度上还受到自然地理环境,主要是地形、土 地利用类型等空间要素的影响。 目前,有关交通可达性的研究大体可分为四个方面:第一,交通网络空间格 局演变对区域可持续发展的影响;第二,新建交通基础设施的区域经济效应评价; 第三,区位评价与选址分析;第四,园林与建筑设计、景观规划研究。然而,对 于地理要素( 地形条件、土地利用类型) 如何影响区域交通可达性,即交通可达 性与地理因子之间究竟有何种相关模式,国内外对此方面的研究并不多见。 鉴于此,本文拟在提取地理因子、度量可达性的基础上,尝试引入当前信息 领域较为流行的数据挖掘技术,展开对交通可达性与地理因子之间相关模式的研 究。以期通过分析它们之间的相关性,为区域研究提供新的思路和方法,以便更 充分地解释可达性与区域空间结构相互作用的机理,进一步探索区域空间结构演 变的控制因素和基本驱动力。 河海大学硕士学位论文 1 2 国内外研究现状 近4 0 年来,可达性研究无论是对现实世界的抽象,还是在揭示区域空间结 构的演变机理以及模拟城市的动态演变过程等方面均取得了重大进展。尤其近年 来,随着g i s 技术的迅速发展,可达性研究在国内外备受关注,其模型和技术 方法已经逐渐应用于各种空间规划的可达性分析和评价中。本文主要从可达性概 念与应用及可达性度量方法两方面总结国内外研究进展。 1 2 1 可达性概念及应用 ( 1 ) 可达性概念 可达性( a c c e s s i b i l i 妙) 思想在地理学中的历史渊源久远,韦伯的工业区位论、 杜能的农业区位论中都渗透着可达性概念。早期的可达性主要运用于经济地理 学,是反映交通成本的基本指标。一般认为h a n s e n 在1 9 5 9 年首次正式提出了可 达性概念,将其定义为“交通网络中各节点相互作用的机会大小 【i 】。此后,可 达性研究得到了城市规划、交通地理以及从事区域和空间研究的众多学者长期而 持续的关注,成为了人们熟知的概念【2 1 。 国外关于可达性定义是多视角的,较为复杂。不同学科对于可达性定义有自 己的延伸,使得对于可达性定义产生了多种不同的版本。其中较有代表性的包括: 个人参与活动的自由度( w - e i b u l l ,1 9 7 6 ) 【3 】;到达某一地点的难易程度( k o e n i gj g 1 9 8 0 ) 【4 1 ;选择某种交通设施到达目的地的能力( m o s e l e ymj ,1 9 7 9 ;g e e r t m a i ls cm ,1 9 9 5 ) f 5 6 】;空间分布不同点或区域之间相互影响的潜力【刀;衡量地理事物 之间关系的深度和广度指标( s h e nq ,1 9 9 8 ) 【引。 虽然学者们普遍认为交通系统将可达性的基本含义与个体在空间上移动的 能力联系起来,但是至今学者们在可达性的精确定义上仍然难以达成一致意见。 一般来讲,我们可以做如下定义:可达性是指运用一种给定的交通系统从某一区 位地点到达目的区位地点的便捷程度。 ( 2 ) 可达性应用研究 空间尺度不同,可达性所衡量的具体对象也不相同。基于研究范围及出行目 的,主要分为区域尺度( 国家或区域) 的宏观可达性研究和城市尺度( 都市区内 部) 的微观可达性研究。 2 第一章绪论 近年来,国内外针对区域尺度的可达性研究主要包括:l i i l l l e k e r 和s p e n c e ( 1 9 9 6 ) 有关伦敦m 2 5 环形公路引起的可达性变化对区域经济发展作用的研究 剀。a v i e rg u t i 6 玎e z 和p a l o m au r b a l l o ( 1 9 9 6 ) 在“欧洲道路网络对欧盟区域可达 性的影响 研究中,通过计算起点与终点之间阻抗力的加权平均值,改进了模型 中阻抗力的选取1 1 0 1 。s a s 撕( 1 9 9 7 ) 等有关日本新干线所引起的可达性变化对区 域经济和人口扩散作用的研列j 。c k e m a n ( 1 9 9 6 ) 和g u t i e 玎e z ( 2 0 0 1 ) 分别 采用不同方法对跨欧洲高速铁路网可能引起的欧洲各大城市可达性值的变化进 行了研究,并证实了跨欧洲高速铁路网和公路网均有利于提高边缘区的可达性水 平1 2 13 1 。g u t i e 仃e z 还对西班牙和法国边境高速铁路线对未来区域可达性的影响 进行了评价【1 4 1 5 l 。j e a l l p a u l1 1 1 u 1 1 ( 2 0 0 5 ) 对中心城市的可达性和吸引力进行了 分析和研究,认为可达性受土地利用结构的影响【16 1 。国内陆大道院士( 1 9 9 5 ) 最早以联邦德国为例详尽分析了可达性变化对区域发展的影响【1 1 7 1 。之后,国内 对区域尺度的研究主要集中于交通网络空间格局演变对区域发展的影响,以及新 建交通基础设施的区域经济效应评价。主要包括:珠江三角洲交通基础设施的网 络演变及可达性变化研究( 卢佩莹,1 9 9 9 ) 【1 硼;经济发达地区交通网络演化对通 达性空间格局的影响和穗港走廊通达性及其空间格局分析( 曹小曙等,2 0 0 3 ) 【l9 】; 1 0 0 年来中国铁路交通网络的发展以及由此引起的可达性空间格局的演变过程 ( 金凤君等,2 0 0 4 ) 【2 0 】;近2 0 年来湖南省公路网络变化带来的空间可达性和城镇 体系变化( 张兵等,2 0 0 7 ) 【2 1 1 ;长江三角洲地区公路网络中主要节点城市可达性 空间格局及其演化规律( 张莉、陆玉麒等,2 0 0 6 ;吴威、曹有辉等,2 0 0 6 ) 2 3 】;广 州至香港之间廊道状区域的陆路交通网络潜在可达性及其空间格局的预测分析 ( 徐旭、曹小曙等,2 0 0 7 ) 幽】;针对新建交通基础设施对区域可达性的影响研究 ( 李思铭,2 0 0 1 ;徐昀、陆玉麒,2 0 0 4 ) 【2 52 6 1 。另外,在选址分析与区位评价方面也 有相关学者对其作了研究。曹晓辉等( 2 0 0 8 ) 在经济区的腹地划分中,引进可达 性分析,通过计算到达每个中心城市的可达性,来决定地域的归属【2 7 l 。徐丽丽 等( 2 0 0 7 ) 通过分析城市间的可达性,利用联系作用量计算各城市对较高级中心 城市的绝对经济联系量以及经济隶属度【2 8 】。 国内外关于城市尺度可达性的研究主要有:w 慨i n 曲和g h o n e i m ( 1 9 8 1 ) 等利用时间成本研究了在多点对多点的交通需求下公交站点的最优间隔【2 9 1 。 e b p a r k e r 等( 1 9 9 8 ) 基于g i s 技术评价了医疗服务设施的可达性【姗。e c k 等 3 河海大学硕士学位论文 ( 1 9 9 9 ) 采用g i s 技术,利用可达性扩散表面来确定商店的市场影响范卧引】。 o s u l l i v a i l ( 2 0 0 0 ) 采用传统重力公式和时间地理的研究框架( 时空棱镜) ,探讨 了公共交通的可达性3 引。h a n ,e yj m i j l e r ( 2 0 0 0 ) 开发了一套基于g i s 在交通网 络中获取可达性评价的计算程序,并主要讨论了时空可达性评价方法【3 3 l 。j a r e d h e w l ( 0 等( 2 0 0 2 ) 对城市基础设施的邻域空间可达性进行了评价i 蚓。r o b i nh a y i l e s 和础l d r e wl o v e t t ( 2 0 0 3 ) 采用负指数衰减函数对医疗服务设施的潜在可达性进 行评价,并特别强调了出行选择对地理可达性的重要性【3 5 】。a l e x i sc o m b e r 等 ( 2 0 0 8 ) 使用基于g i s 的网络分析,并结合对社会经济数据的统计分析评价了 城市绿地的可达性f 3 6 】。m i t c h e il a n g f b r d 等( 2 0 0 8 ) 使用两步移动搜寻法验证了 城市人口分布模型对基于g i s 的空间可达性分析的影响【3 7 1 。国内研究主要包括: 城市绿地景观可达性研究( 俞孔坚等,1 9 9 9 ;胡志斌,2 0 0 5 ;秦佩恒,2 0 0 6 ;马林 兵,2 0 0 6 ) 【3 8 4 1 1 ;医疗服务设施的地理可达性研究( 王远飞,2 0 0 6 ;刘钊,2 0 0 7 ;陶海 燕,2 0 0 7 ) 【4 2 单】;商务区可达性研究( 马林兵,曹小曙,2 0 0 8 ) 【4 卯。此外,高贺等( 2 0 0 7 ) 进行了哈尔滨市道路网可达性分析,提出用可动性、易达性和通达性三项指标从 不同方面描述城市道路网的可达性【4 6 1 。尹凌等( 2 0 0 6 ) 利用栅格数据,基于g i s 空间分析功能,即最小成本加权距离函数,分别对规划前后镇区可达性、村中心 可达性和耕作可达性进行分析及规划影响评价m 。 纵观多年来,国内外关于可达性应用方面的研究主要体现在:交通网络空间 格局演变对区域发展的影响研究、新建交通基础设施的区域经济效应评价、选址 分析与区位评价等针对区域尺度的研究,以及土地利用模式与可达性关系、基础 设施的服务性能等城市尺度的研究。 1 2 2 可达性度量方法 随着可达性概念深化与应用领域拓展,其度量方法也不断完善和丰富,主要 包括以下几个方面:拓扑法、距离法、累积机会法、重力模型法、效用法、时空 法等。 ( 1 ) 拓扑法 拓扑法用于网络中各个节点或者整个网络的可达性度量。它将现实中的网络 抽象成图,通常只考虑点与点间的连接性,而不考虑它们之间的实际距离,每一 对互相连接的节点间距离是等值的。连接两点且具有最少线段数的路径是这两个 4 第一章绪论 节点之间的最短路径,它包含的线段数构成了这两点之间的拓扑距离,这就是拓 扑度量法的相对通达性。 该方法是建立在拓扑网络上的可达性度量方法,根据度量因子所采用的运算 方式差异,可划分为基于矩阵的拓扑法和基于空间句法的拓扑法。其中,基于矩 阵的拓扑法通过整体可达性矩阵与最短距离矩阵运算来获取节点和网络的可达 性水平【4 8 ,4 9 1 。基于空间句法的拓扑法是利用空间句法理论中的形态分析变量来 衡量可达性水平。该方法通过空间分割,以分割形成的子空间为图节点,将整个 网络转换成为空间连接图,运用图论的方法推导出一系列形态分析变量,如连接 值、控制值、节点深度、局部集成度与整体集成度等,以描述空间在不同水平上 的结构特征f 5 0 1 。 ( 2 ) 距离度量法 距离度量法是所有度量方法中最基本的一种5 1 ,5 2 1 。它使用空间距离、时间 距离( 跨越空间距离所需的时间) 或经济距离( 为跨越空间距离所支付的费用) 度量可达性。i n 髓珊提出了相对可达性和总体可达性两种度量方式,前者采用 两点之间的距离来度量它们之间的可达性水平,后者采用某点到其兴趣点集的距 离之和来度量该点的可达性水平( i l l g r 锄,1 9 7 1 ) 【5 3 j 。 距离度量法的常用指标包括:进入经济中心的成本( 某节点与经济中心之间 的交通成本) 、交通成本的平均值( 即某节点与网络中所有经济中心之间交通成 本时间的平均值) 以及交通成本的加权平均值( 即某节点与网络中所有经济中 心之间的平均交通成本时间) 。 距离度量法固然简洁,但却过于简单。它只考虑了个体在交通网络中流动的 耗费,但没有考虑距离的衰减以及各点的作用力规模等因素,因而在实际应用中 具有很多局限性。 ( 3 ) 累积机会法 累积机会法是在距离法的基础上发展而成的。它是指在设定某一出行成本 ( 距离、时间、费用) 的前提下,将从某地点出发能接近的机会的多少作为可达 性指标( w a c h sa i l dn l i t l a g a i ,1 9 7 3 ;b r e h e n y 1 9 7 8 ) 【5 45 5 1 。机会越多,可达性水平 越高。累积机会模型可以表示如下: 河海大学硕士学位论文 f m ,吒组 么。= j ( 1 1 ) io吒 三 其中,彳,表示源点f 的可达性,够表示目的地,的吸引力,西表示源点与目 的点之间的距离( 时间或成本) ,三表示给定的距离限值。 该方法本质上是通过评价某点交通出行的便捷程度来衡量可达性水平。它并 没有考虑度量点和吸引点之间的相互作用及其距离衰减效应,故可能掩盖不同地 点的可达性差异。 ( 4 ) 重力模型法 h a j l s e n 在1 9 5 9 年根据空间相关性提出了基于重力的评价模型 ( h a i l s e n ,1 9 5 9 ) 。该模型认为两点之间潜在机会的大小与吸引力成正比,与两点 间通行阻抗力成反比,也被称为潜能模型( g e e r t m a n 趾dv a l le c k ,1 9 9 5 ;黜c h ,1 9 7 8 ) 【5 6 5 7 1 。通常用来评价不同地点之间社会或经济相互关系的强度,或一个地方对 另一个地方影响力的大小,或作为评价不同地方相互可达性的指标。通用的重力 模型表示如下: 4 = m 朋,j , f - 1 ,2 ,聊j 歹= 1 ,2 ,以 ( 1 - 2 ) 其中m 表示源点个数,刀表示目的地个数,乃彬表示距离衰减函数,它带有 一个或多个需标定的参数,表示引力值随出行距离或成本的增加而减少。常用形 式包括指数函数、幂函数、线性函数、对数函数等,衰减函数的选择视实际计算 的需要并结合研究区域的情况而定【5 引。 重力模型法将空间上各吸引点的空间效应随距离而衰减与各吸引点自身的 引力模型结合起来衡量可达性水平。故该模型考虑的要素更为全面,成为目前最 为通用的方法。国内外许多学者都是针对h a n s e n 提出的重力模型进行相应改进, 从而达到研究的目的。如:g e e n i l l a j l 和v a i le c k ( g e e r t m a l l 锄dv 锄e c k ,1 9 9 5 ) 提出了一种改进的潜力模型,以便得到量化后的可达性值5 9 1 。s h e n ( 1 9 9 8 ) 在 分析就业可达性时,将每个点的需求潜力引入到重力模型,进而形成了双限制潜 力模型( d o u b l ec o n s t r a i n e dp o t e n t i a lm o d e l ) ,该模型适用于某点可达性受需求潜 力影响的情况【删。 ( 5 ) 效用法 效用法是在当时已有的可达性度量方法均不同程度带有主观或者经验主义 6 第一章绪论 色彩、缺乏理论支撑的背景下,借用微观经济学中消费者理论发展而来的1 6 n 。 效用法使用随机效用理论进行建模( b e n a “v aa 1 1 dl e 咖a i l ,1 9 8 5 ) 【6 2 1 。该方法从 经济学角度考虑,将个体的出行行为看作一种消费行为,并将这种消费行为在交 通土地系统中获得的最终效益作为该个体可达性水平的评价标准。 这种方法缺乏对比较不同效用函数的解释性,并且可达性的效用概念在实际 应用中很少使用。 ( 6 ) 时空模型法 在2 0 世纪6 0 年代,h a g e r s t 啪d s ( 1 9 7 0 ) 倡导提出的时间地理学为可达性 研究提供了一个新的视角,在时空地理模型的基础上,提出了一种有效的约束一 一限制模型,时空框架是分析个体行为的基本出发剧6 3 1 。随后,结合具体应用 学者们对该模型进行了相应改进。p r e d ( 1 9 7 7 ) 、b u m s ( 1 9 7 9 ) 、l a n d a u 等( 1 9 8 1 ) 通过对约束限制模型实际应用的分析指出,在计算可达性时引入时间约束提 高了预测的准确性【6 4 侧。1 1 1 i u 等( 1 9 9 7 ) 提出了一种基于时空框架的两步约束 限制模型【6 7 】。m i l l e r ( 1 9 9 1 ) 在地理信息系统的支撑下对基于网络的约束一 一限制可达性进行了计算,地理信息系统的引入极大地提高了可达性计算的准确 性、可操作性和可达性模型的应用范剧6 8 】。 总的来说,上述方法各有优缺点,目前并没有任何一个明确的标准来衡量它 们的优越性。在实际运用中,选择哪一种方法,主要的依据是该方法与实际研究 目标的切合度以及计算方法缺陷对于研究目标的影响程度。从已有研究来看,针 对交通网络空间格局演变对城镇体系发展的影响研究常运用距离法、累积机会 法、重力模型法;针对新建交通基础设施的区域经济效应评价常运用距离法、累 积机会法、重力模型法、效用法:选址分析与区位评价常运用距离法、累积机会 法、重力模型法;针对城市园林与建筑设计、景观规划常运用重力模型法。可以 看出,在这些方法中,重力模型的应用领域最广泛。 1 3 研究内容与技术路线 1 3 1 研究内容 本文以浙江省为研究区,在筛选并提取地理因子,计算研究区可达性的基础 上,基于数据挖掘理论与方法探究交通可达性与地理因子之间的相关模式。主要 7 河海大学硕士学位论文 研究内容如下: ( 1 ) 数据挖掘技术的相关理论 首先概述数据挖掘的基本概念,然后从数据准备、数据挖掘以及结果表达和 解释三个阶段阐述数据挖掘的过程,最后重点研究本文预采用的数据挖掘方法 ( 关联规则、决策树分类、模型树预测) 。并对每种方法中较为典型的几种算法 进行详细研究,主要包括a p r i o r i 、i d 3 、j 4 8 、c m 盯和m 5 p 算法。 ( 2 ) 地理因子提取 在介绍研究区自然地理条件和经济地理条件的基础上,筛选出影响交通可达 性的主要地理因子,包括高程、坡度、粗糙度、曲率和土地利用类型,并结合地 理信息系统与遥感技术提取这些因子。 ( 3 ) 交通可达性度量与分析 根据现有可达性度量方法,选取适合本研究的评价模型,主要包括平均最短 时间、加权平均出行时间、基于反幂函数的重力模型以及基于负指数函数的重力 模型。将研究区主要城市抽象为节点,高速公路、国道、省道及县乡道抽象为边, 来构建网络数据集。采用网络分析方法搜索两节点间的最短路径( 最短通行时 间) ,获得节点间o d 矩阵,从而确定重要的模型因子。利用v b a 编程语言, 分别对四种模型进行计算来获取节点可达性,并通过对结果的比较和分析选择最 优模型作为进步分析的基础。基于此,利用蹦g i n g 技术进行空间插值,生成 区域可达性扩散表面,从而得到研究区连续可达性值,并对其分布格局进行分析。 ( 4 ) 交通可达性空间模式挖掘 首先利用区域统计分析研究交通可达性与地理因子之间的统计特性,并用 s p s s 计算它们之间的相关系数,分析相关性。然后通过对可达性与地理因子进 行数据层叠合、数据采样及数据转换等一系列处理,构造满足数据挖掘要求的训 练集。针对不同的数据挖掘方法设计几组实验,实现关联规则、决策树及模型树 在交通可达性空间模式挖掘中的应用。通过对实验结果进行分析,从而挖掘出地 理因子与可达性之间的相关模式。 1 3 2 技术路线 本研究在完成基础资料收集后,首先进行地理信息提取:基于d e m 提取主 要地形因子,根据遥感图像提取主要的土地利用类型;然后利用可达性度量方法 8 第一章绪论 计算研究区节点可达性,并采用空间插值技术构造可达性表面;最后将地理因子 和可达性综合成满足数据挖掘格式的训练集,分别利用关联规则、决策树和模型 树对训练集进行模式挖掘,对每种挖掘结果进行详细分析。其技术路线如图1 1 所示。 图1 1 技术路线图 9 河海大学硕士学位论文 第二章数据挖掘技术相关理论 2 1 数据挖掘概述 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程。简单地说,数据挖掘是从大量数据中提取或“挖掘 知识【6 9 1 。它 是数据库中知识发现的核心。 数据挖掘有广义和狭义之分,广义的数据挖掘,指从大量的数据中发现隐藏 的、内在的和有用的知识或信息的过程。狭义的数据挖掘是指知识发现中的一个 关键步骤,是抽取有用模式或建立模型的重要环节。 数据挖掘作为知识发现过程的一个特定步骤,是一系列技术及应用,或者说 是对大容量数据及数据间关系进行考察和建模的方法集。它的目标是将大容量数 据转化为有用的知识和信息。一般情况下,数据挖掘的对象定义为数据库,而更 广义的说法是,数据挖掘意味着在一些事实或观察数据的集合中寻找模式,数据 挖掘的对象不仅是数据库,也可以是文件系统或其他任何组织在一起的数据集 合。 2 2 数据挖掘过程 数据挖掘是一个多阶段的过程。一般情况下,它可以分为三个主要阶段。即: 数据准备、数据挖掘、结果表达和解释。 数据源数据库特定数据集模式知识 图2 1 数据挖掘的主要过程 ( 1 ) 数据准备阶段 数据准备在整个数据挖掘过程中占的比例最大,通常达到6 0 左右。这个 阶段又可以进一步划分成三个子步骤:数据选择、数据预处理和数据简化。数据 l o 第二章数据挖掘技术相关理论 选择是指根据需要从大量的数据中选择出与挖掘相关的数据,这些数据可能来自 同一数据源,也可能来自不同的数据源。数据预处理是对选择好的数据进行一定 的处理使之满足挖掘算法的需要。常见的预处理包括:数据清洗消除噪声, 填补不完整的数据,处理不一致情况;数据转换对数据类型进行转换,例如 连续属性的离散化处理。数据简化是指在不影响或少影响挖掘效果的前提下对数 据进行降维处理。 ( 2 ) 数据挖掘阶段 这一阶段进行实际的挖掘工作。首先是算法规划,即决定采用何种类型的数 据挖掘方法,如数据总结、分类、聚类、关联规则发现或序列模式发现等。然后, 针对该挖掘方法选择一种算法,而算法的选择直接影响所挖掘模式的质量。完成 了上述的准备工作后,就可以运行数据挖掘算法了。这个阶段是数据挖掘分析者 和相关领域专家最关心的阶段,也称为真正意义上的数据挖掘。 ( 3 ) 结果表达和解释阶段 根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出 来。对于数据挖掘阶段发现的模式还要经过用户或机器的评估,对于存在冗余或 无关的模式要将其删除;对于不能满足用户要求的模式,则需要退回到上一阶段, 如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至采用其他的数 据挖掘算法。另外,数据挖掘面对的最终用户是人,因此要对发现的模式进行可 视化,或者把结果转换为用户易懂的其他方式。 2 3 常用数据挖掘算法 2 3 1关联规则 ( 1 ) 基本概念 关联规则挖掘是数据挖掘中最活跃的研究方法之一。最早由a 舯w a l 等人提 出( 1 9 9 3 ) ,用来处理事务型数据库,后来又推广到关系型数据库,现已成为数 据挖掘领域中一个非常重要的研究课题。所谓关联规则挖掘是从大量的、有噪声 的、模糊的实际数据中,抽取隐含在其中的、人们事先不知道的、但又潜在有用 的关联信息和知识的过程。它反映一个事物与其他事物之间的相互依赖性或相互 关联性。如果两个或多个事物之间存在关联,那么,其中一个事物就能从其他已 河海大学硕士学位论文 知事物中预测得到。 关联规则的支持度和置信度分别反映了所发现规则在整个数据库中的统计 重要性和可靠程度。一般来说,只有支持度和置信度均较高的关联规则才是用户 感兴趣的、有用的关联规则。最小支持度阈值( m i n s u p ) 描述了关联规则的最低 重要程度,最小置信度阈值( m i n c o n f ) 规定了关联规则必须满足的最低可靠性。 生成关联规则的最直接方法,就是计算每个可能规则的支持度和置信度,然 后保留满足支持度和置信度要求的规则。由于有支持度和置信度的约束,大部分 规则是无用的。因此,在生成规则之前,为了不必要的计算,事先根据支持度和 置信度进行剪枝是提高算法性能的关键。 ( 2 ) a p r i o r i 算法 单层、单维、布尔关联规则挖掘是最简单形式的关联规则挖掘,其中最著名 最有影响的是由a 伊a w a l 等人提出的a 面o r i 算法。该算法是挖掘产生布尔关联 规则频繁项目集的经典算法,从其产生到现在对关联规则挖掘方面的研究有着很 大的影响。a 两o r i 算法的基本思想是:对事务数据库进行多遍扫描,利用“在 给定的事务数据库d 中任意频繁项目集的子集都是频繁项目集;任意非频繁项 目集的超集都是非频繁项目集 这一原理对事务数据库进行多遍扫描。a p r i o r i 算法就是根据有关频繁项集特性的先验知识而命名的。 该算法采用逐层搜索的迭代方法,通过重复扫描数据库来发现所有的频繁项 集。它基于两阶段求频繁项集的思想,将关联规则挖掘算法分解为两个子问题: 发现频繁项目集找到所有满足用户给定的最小支持度的项集,这些项 集称为频繁项集( 舶q u e n ti t e m s e t ) ; 生成关联规则在频繁项集的基础上生成所有满足用户给定的最小置 信度的关联规则,这些规则称为强规则( s 仃0 n gm l e ) 。 其中子问题2 的解决方法较为简单,对每个频繁项目集x ,对x 的每个非 空子集a ,考察规则。aj ( x a ) ,如果该规则满足最小支持度和最小信任度 则输出此规则。子问题l 的求解是关联规则发现的关键部分。 为了描述a 研o r i 算法,先引入两个a p r i o r i 性质: 如果项目集x 是频繁项目集,则x 的任一非空子集也必定是频繁项目集; 如果项目集x 不是频繁项目集,则x 的任何超集也必定不是频繁项目集。 a 州嘶算法的主要步骤为: 1 2 第二章数据挖掘技术相关理论 产生所有的频繁1 项集的集合l l ; 扫描数据库d ,对每个事务的数据项进行处理。若该数据项第1 次出现,则 将其加入候选1 项集的集合c 1 中,并将它的计数值设为1 ;若该数据项已在c l 中,则将它的计数值加上1 。数据库事务扫描完毕,得到所有的候选1 项集。将 c 1 中所有计数值小于最小支持度的项集删除,就得到了频繁1 项集的集合l l 。 通过l k 1 与自己连接产生候选k 项集的集合c k ; 若p ,q l k l ,p2 p l ,p 2 ,p k 一2 ,p k 一1 ,q2 q l ,q 2 ,q k 一2 ,q k 1 ) ,并且当 l i k 一1 时,p i2q i ,当i = k 1 时,p k 1 q k 1 ,贝l jp u q5 p l ,p 2 ,p k 2 ,p k 1 ,q k 1 是潜在频繁k 项集的集合c k 中的元素。 对c k 进行剪枝,从c k 中删除所有( k - 1 ) 子集不全包含在l k 1 中的项集。 扫描数据库事务d ,对于其中的每一个事务,若它包含c k 中的候选项集 c ,则将c 的计数值加1 ( 初始值为0 ) 。扫描c l 【,将所有计数值小于最小支持度 的候选项集删除,得到频繁k 项集的集合l k 。 通过迭代循环,重复上述步骤2 0 ,直到不能产生新的频繁项集的集合( 非 空集合) 时为止。 对l l 到l k 取并集得到全部频繁集l 。 2 3 2决策树分类 ( 1 ) 基本概念 分类是数据挖掘中应用得最多的任务。它的目的是分析输入数据,通过训练 集中数据所表现出来的特性,为每一个类找到一种准确的描述或者模型。在数据 挖掘分类技术中,有决策树法、贝叶斯法、神经网络法和粗糙集等方法。这里只 对决策树分类法进行介绍。 决策树起源于概念学习系统c l s ,它是一种类似于二叉树或多叉树的树结 构。决策树是以实例为基础的归纳学习算法,着眼于从一组无次序、无规则的实 例中推理出决策树表示形式的分类规则。它采用自顶向下递归的贪心算法,在决 策树的内部节点进行属性值的比较并根据不同的属性值判断从该节点向下的分 支,在决策树的叶节点得到结论。从根节点到叶节点的一条路径就对应着一条分 类规则,整棵决策树就对应着一组析取表达式规则。其中,树的每个内部节点代 表对一个属性的测试,其分支对应属性的一个测试结果,而树的每个叶子节点代 1 3 河海大学硕士学位论文 表一个类别,树的最高层节点作为根节点是整个决策树的开始。测试属性的选择 和如何划分样本集是构建决策树的关键环节。不同的决策树算法使用的技术不相 同。 在实际应用中,由于训练样本集的规模一般较大,相应生成的决策树的分枝 和层数也较多,另外,训练样本集中存在的异常和噪声也会导致一些异常分枝的 产生,这就需要对生成好的决策树进行剪枝。剪枝按其实施的时间可分为事前修 剪( p r e p 九m i n g ) 和事后修剪( p o s t - p m i n g ) 。事前修剪是在决策树的构建过程 中对每一个预生成分枝的节点进行判断,若可能生成异常分枝,则停止此分枝的 生成,即将此预生成的分枝剪去;事后修剪则是待决策树完全生成后运用特定的 剪枝算法对整棵树进行修剪。树剪枝的目的是生成一棵分类准确率较高而规模相 对较小,即分枝和层数较少的决策树。 下面对典
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025武术馆教练合同
- 2024秋四年级英语上册 Module 7 Unit 1 There is a horse in this photo说课稿 外研版(三起)
- 野生药材资源保护管理说课稿-2025-2026学年中职专业课-药事法规-药剂-医药卫生大类
- 关于态度的演讲稿
- 中医期末考试试题及答案
- 公司行政文员工作总结15篇
- 智能制造企业并购工业互联网平台建设合同
- 城市公园围墙建造与景观美化合同
- 出租车驾驶员劳动合同履行期限与续签
- 战略合作伙伴股权并购合同书
- 2025年防跌倒、坠床安全管理考核试题及答案
- 2025年河北石家庄交通投资发展集团有限责任公司公开招聘操作类工作人员336人考试参考题库及答案解析
- 2025年疫苗上岗证考试题及答案
- 航空科普课件
- 小学语文教师职称考试试题及答案
- 第5章 绩效评价(《绩效管理》第3版)
- 2025-2026学年人教版(2024)初中地理八年级上册教学计划及进度表
- 2025年上半年黑龙江省嫩江铁路有限责任公司校招笔试题带答案
- 机电设备安装与维护方案
- 2025存量房买卖合同协议书范本
- 肿瘤科诊疗体系构建与运营管理
评论
0/150
提交评论