(计算机应用技术专业论文)决策树在土地规划中的应用研究.pdf_第1页
(计算机应用技术专业论文)决策树在土地规划中的应用研究.pdf_第2页
(计算机应用技术专业论文)决策树在土地规划中的应用研究.pdf_第3页
(计算机应用技术专业论文)决策树在土地规划中的应用研究.pdf_第4页
(计算机应用技术专业论文)决策树在土地规划中的应用研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机应用技术专业论文)决策树在土地规划中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 当前,我国正处在快速工业化和城市化的发展阶段,资源、环境与发展的问 题尤为突出,土地利用规划作为一种重要的宏观调控手段,对协调人地关系具有 举足轻重的作用。土地适宜性评价是土地利用总体规划的一个重要研究专题,通 过评价可以为土地利用现状分析、土地利用规划及土地开发和充分、合理利用土 地资源提供科学依据。 通过对土地适宜性评价方法的研究,分析了传统的评价方法的不足之处:大 多依赖于经验知识,也不具有自学习能力。本文应用了分类算法理论与土地规划 中的土地适宜性评价理论相结合,。得出了土地适宜性决策树评价方法。 该方法是把土地适宜性评价看成一个分类问题,首先要确定某种适宜类型, 本文采用的是贵州省贵阳市修文县周围9 个乡镇的宜耕类土地。其次要对分类的 土地因子属性进行选取,主要选取有:根层、有机质、p h 值、灌溉保证、抗旱 能力、坡度6 个主要属性。再次拆分数据集为训练数据和测试数据。最后训练生 成分类器。 通过对已生成的决策树分类器进行测试,研究结果表明,将计算机决策树理 论与土地适宜性评价相结合是科学的,可行的,即为成熟的决策树分类技术开辟 了新的应用领域,同时也为土地适宜性评价方法提供了新的思路。 关键词:分类,决策树,土地适宜性,评价 中图分类号:t p 3 0 1 6 3 a b s t ra c t a b s t r a c t c h i n ai s i nt h ea c c e l e r a t i n gp r o c e s so fi n d u s t r i a li z a t i o na n d u r b a n i z a t i o nn o w ,t h ep r o b l e m sh a v eb e c o m eo u t s t a n d i n ga n dp r o m i n e n to n t h er e s o u r c e s ,e n v i r o n m e n ta n dd e v e l o p m e n t l a n du s ep l a n n i n g ,a sa s i g n i f ic a n tm a c r o r e g u l a ti o nm e a n s ,h a sp l a y e da ni m p o r t a n tr o l ei n h a r m o n i z i n gt h er e l a t i o n s h i pb e t w e e nt h eh u m a na n dl a n dr e s o u r c e t h e l a n ds u i t a b i l i t ye v a l u a t i o ni sa ni m p o r t a n tr e s e a r c ht o p i ca b o u tt h e o v e r a l lp l a no fl a n du s e t h ee v a l u a t i o nc a np r o v i d es c i e n t i f i ce v i d e n c e f o rt h ea n a l y s i so ft h ep r e s e n tc o n d i t i o n 、t h ep l a n n i n go ft h el a n du s i n g 、 t h el a n de x p l o i t a t i o na n dl a n dr e s o u r c er e a s o n a b l eu s i n g t h r o u g hr e s e a r c ho ft h el a n ds u i t a b i l i t ye v a l u a t i o nm e t h o d ,i th a s a n a l y z e dt h a td e f i c i e n c yo ft r a d i t i o n a le v a l u a t i o nm e t h o d :m o s to ft h e m r e l i e so nt h ee x p e r i e n c ek n o w l e d g e ,a n di th a v en o tt h el e a r n i n g c a p a b i l i t yi t s e l f t h i sa r t i c l e h a sa p p l i e du n i f i c a t i o nb e t w e e n t h e c l a s s i f i e da l g o r i t h mt h e o r ya n dt h el a n ds u i t a b i l i t ya p p r a i s a lt h e o r y , a n di to b t a i n e dm e t h o dt h el a n ds u i t a b i l i t ye v a l u a t i o no fd e c i s i o nt r e e i nt h i sa r t i c l e ,t h er e s u l ti n d i c a t e du n i f i c a t i o nb e t w e e n t h e c o m p u t e rd e c i s i o nt r e et h e o r ya n d t h el a n ds u i t a b i l i t ya p p r a i s a li s s c i e n t i f i ct h r o u g ht h ed e c i s i o nt r e es o r t e rw h i c hp r o d u c e sh a sc a r r i e d o nt h et e s t i to p e n e dt h en e wa p p l i c a t i o nd o m a i nf o rt h em a t u r ed e c i s i o n t r e ec l a s s i f i c a t i o nt e c h n o l o g y ,s i m u l t a n e o u s l yi th a sp r o v i d e dt h en e w m e n t a l i t yf o rt h el a n ds u i t a b i l i t ya s s e s s m e n tm e t h o d k e yw o r d :c l a s s i f i c a t i o n ;d e c i s i o nt r e e ;l a n ds u i t a b i l i t y ;e v a l u a t i o n 4 原创性声明 f f l :学位论文原创性声明和关于学位论文使用授权的声明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究在做出重要贡献的个人和集体,均已在文中以明确 方式标明。本人完全意识到本声明的法律责任由本人承担。 论文作者签名:尘苎:! :鲞 e l 期: 2q q 垄生篁旦 关于学位论文使用授权的声明 本人完全了解贵州大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权贵州大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:但:! :趣导师签名:噬日期:至q q 呈生至旦 6 l 第一章绪论 第一章绪论 1 1 研究的背景 土地是财富之母,又是人类社会历史发展长河中的政治之源、文化之本。人 类依赖土地生存而繁衍,人类社会依存土地而发展。随着经济和社会的发展,人 类对土地的需求量越来越大,土地面积的有限性和土地需求的增长性之间的矛盾 己成为当今世界令人瞩目的重大社会经济问题,为了研究解决这一关系人类生存 与发展的问题,世界各国都非常重视土地利用规划。土地利用规划被公认为是实 现土地资源优化配置和社会经济可持续发展的必要技术工具。但长期以来,土地 利用规划一直是作为一项社会实践活动和政府的政治行为而进行的,因此有关土 地利用规划的研究,尤其是基础理论研究十分缺乏。同时由于我国土地利用规划 的历史较短,与城市规划和区域规划相比,在理论和方法的研究方面尚有一定的 差距,在我国前两轮土地利用规划的实践中,虽然我国进行了艰辛的探索,土地 利用规划编制的技术和手段也取得长足的进展,但规划的实效性却普遍很差,大 多未能在实践中发挥其应有的指导作用。对具体某个地区某次规划的失效究竟缘 自哪些原因,在下一次规划编制和实施中该如何避免重蹈覆辙,都离不开规划实 施情况的系统评价。通过对规划实施结果和过程进行评价,可以有效地检查特定 规划的具体运行过程,并形成相关信息的反馈,为新一轮规划的编制提供改进意 见和依据,使土地利用规划的运作过程进入良性循环,从一定程度上降低新一轮 规划所可能遭遇的风险,以便更好的发挥规划的绩效,因此对土地利用规划实施 评价进行深入研究意义重大。在评价体系中,土地适宜性评价是综合考虑土地自 然、社会经济条件的_ 种针对土地用途适宜性的评价,可以看成是对土地某种用 途适宜性产生影响的各类因素因子量化后的混合空间数据的分类问题,其分类 结果就是土地某种用途适宜性等级划分结果。 而计算机方面,数据,为经济建设和社会发展提供服务。在此背景下,数据 库知识发现( k d d ) 及其核心技术一数据挖掘( d m ) 便应运而生了。k d d 的研究内容 是,能自动的去处理数据库中大量的原始数据,从中挖掘搜索出具有规律、富有 意义的模式。它的发现过程主要有三个步骤:定义要发现的问题:根据问题进行数 据搜索、模式抽取:评价所发现的知识的好坏。三者之中,核心技术是第二步, 5 第一章绪论 即数据搜索及模式抽取的方法。k d d = 问题处理+ d m + 解释评价。由于问题处理和解 释评价的研究比较成熟,所以目前k d d 的研究和实现难点重点都集中在核心的 d m 上 唐华松2 0 0 1 。 分类技术是数据挖掘的重要分支,它能够对各个行业提供良好的决策支持, 对整个社会的发展产生重要而深远的影响。用于分类挖掘技术的方法有很多,如 决策树方法、遗传算法、贝叶斯网络、k 一最临近方法等等。在这其中,决策树 方法以其算法容易被人理解、易转换成i f - t h e n 分类规则、效率较高等优点被广 泛研究与应用,使得它在数据挖掘领域中有着重要的地位。目前决策树方法中比 较流行的算法有i d 3 ,c 4 5 ,c a r t ,s l i q ,p u b l i c 等。这些算法都是对训练数 据样本集建立一棵决策树,利用建好的决策树,对数据进行预测。决策树的建立 过程可以看成是数据分类规则的生成过程,因此可以认为,决策树实现了数据分 类规则的可视化,其输出结果也容易理解。在这些算法中以i d 3 算法最为经典, 其它很多算法都是从i d 3 算法演变而来的。 我们深入研究了土地规划中的适宜性评价方法,发现了其等级分类的复杂 度。然后尝试把决策树方法应用于土地适宜性评价,克服传统评价方法过于依赖 经验知识的缺陷,从而为土地适宜性研究提供一种新的思路和方法。 1 2 决策树分类算法在土地规划中的应用研究动态 1 2 1 国际应用和研究动态 国际上,利用决策树技术进行分类方法尽管时间不长,但是由于各种数据量 不断增加,建立在知识基础上的规则判断也越来越引起同行专家的注意,并已得 到成功应用。 。 d e f r ie s 等人应用研究开发的决策树分类器,通过对a v h r r 全球遥感数据的 分类处理,得到了全球土壤覆盖分类地图。之后,f r i e d l 等人又利用决策树方 法和a v h r r 全球影像,对全球土地覆盖分类的精度进行了最优化研究。 w i l i n s o n 等在1 9 9 0 年使用最大似然法分类结果,结合知识库以及其他辅助 数据,进行遥感图像分类。 1 9 9 3 ,k n o t e s 发展了w i l i n s o n 的方法,利用光谱和纹理信息进行土地覆盖 6 第一章绪论 高一层次的分类。 h a n s o n 等人利用n o 从a v h r r 全球l o x l 数据进行了决策树与最大似然法的 土地覆盖分类,显示分类树法的精度优于最大似然法。 f r i e d l 等人在1 9 9 7 年采用单变量决策树、多变量决策树和混合决策树三种 决策树分别进行土地覆盖分类。通过比较分析,得出决策树比最大似然法和线性 法的精度都要高,尤其是采用混合决策树得到了最高的精度。 马里兰大学全球8 k m 的土地覆盖产品也采用了二元决策树分类算法进行监 督分类。 、 b o r a k 等人运用决策树从大量数据中进行分类特征选择,取得较好效果。 , m u c h o n e y 等人利用m o oi s 数据对美国中部进行土地覆盖分类,比较了决策 树、神经网络、最大似然法3 种分类方法的效果,结果显示决策树分类精度最高。 2 0 0 1 年,r i c kl a n da n d r e a 建立了c a r t ( c l a s s i f i c a t i o na n dr e g r e s s i o n t r e e ) 分析系统,利用遥感,l m 数据、遥感数据间的处理结果以及一些辅助数据, 将地物类型划分为三级类,主要方法是利用遥感数据和经过一定处理变换的影像 以及d e m 数据,设计了变化规则用于土地分类,评价结果最终显示:一级类精确 率达到9 0 ,二级类达到7 9 ,三级类6 5 。 j o y 等人利用,i m 影像,采用决策树方法对森林类型进行识别,也取得了较 好的效果。 1 2 2 国内的应用和研究动态 国内学者在利用决策树进行土地利用分类的研究也有一定程度的开展。李爽 等探讨了三种决策树算法( u d t ,m d t 和h d t ) 在土地覆盖分类中的优劣性,研究表 明,决策树分类法有诸多优势,优于人工神经网络分类法、模糊逻辑分类法及混 合聚类法,如:相对简单、明确、分类结构直观。另外,以假定数据源呈固定概 率分布,然后在此基础上进行参数估计的常规分类方法相比,决策树属于严格“非 参,对于输入数据空间特征和分类标识具有更好的弹性和鲁棒性( r o b u s t ) 。 李飞雪等将决策树与k o h o n e n 网络相结合,对低山丘陵、河网密集地区的遥 感图像进行分类,提高了精度。 赵萍等基于决策树方法,研究了s p o t 卫星影像居民地信息的自动提取方法。 李彤等,以1 i l 卜7 多波段影像为数据源,采用决策树分类技术对北京市土地 7 第一章绪论 覆盖现状进行研究。探讨如何使用决策树方法逐层区分草地、林地、水体、裸地、 居民地和道路等基本地物类型,并进一步研究了如何区分城市裸地与乡村裸地的 方法,分类精度达到9 3 3 。 邓劲松等用决策树方法,对s p o t 5 卫星影像进行水体信息提取的研究。研究 表明基于决策树自动提取的精度与常规的监督分类方法相比有了较大的提高。经 检验发现其误判的象元主要是位于水体和其他地物的交界处。 吴非权等引入n d v i 植被指数、亮度阈值法、d i m 、空间结构、纹理、和其它 一些地貌特征,采用决策树与监督分类、非监督分类相结合的方法来对t m 影像 进行地物分类。结果表明该方法能有效地提高影像分类的精度。 王建等基于光谱特征、几何特征和纹理特征,利用决策树分层提取法分别对 非荒漠化土地和荒漠化土地进行分类。结果表明该方法可以有效地排除和避免提 取地物时所有多余信息的干扰及影响,精度较高。 赵萍等利用光谱特征和形状特征的简单决策树模型,对s p o t 影像进行了居 民点信息提取。结果表明其提取精度与通常的监督分类方法相比有很大的提高。 都金康等用决策树分类方法,利用水体的光谱信息和不同类型的水体其面 积、周长、形状、位置等不同的几何空间特征信息,在各节点设计不同的分类器, 对s p o t 影像进行水体提取研究。研究表明,该方法可以有效地提取山区中的水 体,分类结果令人满意。 1 3 本文的主要研究内容及意义 1 3 1 研究内容 首先本文对土地规划中土地适宜性评价系统进行了介绍,描述了土地适宜性 评价方法。其次,对数据挖掘的分类基本技术进行了详细的讨论,介绍了决策树 算法,对现有的几种决策树算法进行了研究和比较。文章创新点是实现了决策树 分类算法应用在土地适宜性评价中,并对决策树算法所产生的分类树进行分析, 进而产生了决策规则。此外本章还提出了综合训练集的方法。 1 3 2 研究意义 本文的研究意义在于运用了计算机的分类技术对土地规划中的土地适宜性 进行评价。把计算机的理论与土地规划学相结合,为成熟的分类技术开辟了新的 8 第一章绪论 应用领域,同时也为土地适宜性评价方法提供了新的思路。 1 4 论文组织结构 本文主要分为六部分: 第一部分概述,介绍决策树分类算法在土地规划中的研究背景与研究动态, 说明了本文的主要研究内容和意义。 第二部分土地规划中适宜性评价,对土地适宜性评价的各个方面进行了介 绍,主要有研究动向,目的和重要性,评价单元的划分,评价体系结构。最后指 出了其评价方法不足之处。4 第三部分数据挖掘分类基本理论及应用,阐述了数据挖掘的基本理论与分 类算法,并举例分类算法在土地适宜性评价中的应用。 第四部分决策树分类算法的分析及应用研究,对决策树算法进行了分析, 提出了综合训练集的方法,并详细说明了土地适宜性决策树评价方法。 第五部分基于决策树的土地适宜性评价的研究,针对贵州省贵阳市修文县 等9 个乡镇的宜耕类土地数据进行决策树训练与测试,最后得出决策规则。 9 第二章土地规划中适宜性评价 第二章土地规划中适宜性评价 2 1 土地适宜性评价 土地评价是以不同土地利用为目的,评估土地潜力和土地适宜性的过程, 它的实质是对土地生产力高低的鉴定。土地评价的基本特征是比较土地利用的要 求和土地质量的供给。土地是自然本身的产物,当它被用于社会生产之后,不仅 具有自然属性所固有的生产力,而且还有人类活动所赋予的劳动生产力。同时, 土地生产力的大小还取决于社会生产力发展,人类经营活动的手段和方法。人们 一方面要充分地利用土地的自然生产力,另一方面还要有目的地补充土地的营养 物质,改良它的自然特征。因此,土地评价是对土地的自然属性和社会经济要素 的综合鉴定,是对土地生物生产能力及其他生产能力的鉴定,是对土地功能的综 合评价。根据土地评价的目的和任务的不同,土地评价可分为土地潜力评价、土 地适宜性评价和土地经济评价。 土地适宜性评价 土地适宜性评价是评价土地对特定利用类型的适宜性的过程。土地的适宜性 程度和限制性的强度通常作为土地适宜性评价的主要依据。土地适宜性是一定土 地类型对一种指定用途的合适程度。可以按土地的现状或按改良后的状况加以考 虑。土地适宜性评价过程就是对按照指定用途的适宜性,将特定地区的土地进行 评价和归类。土地限制性是指在一定条件下,构成土地质量的某种因素的优劣、 多少,限制了土地的某些用途,或影响了用途的适宜程度,甚至影响了周围土地 的进一步改造和利用,在诸限制因素中的主导因素是指它对土地生产力的抑制和 障碍起着主导作用。土地适宜性评价根据其利用方式分为单项土地评价和综合土 地评价,单项土地评价是根据某一种具体目的和土地利用的具体要求评价土地。 综合土地适宜性评价也称多目标土地适宜性评价,是针对每一个评价单元,选择 不同的土地利用类型为评价目标,根据土地质量的差异以及土地利用方式的生 态、社会的要求,分析土地适应性的过程。对于特定区域内的不同的土地利用类 型,都可以找出影响其土地自然适宜性的主导因素,这些主导因素反映了土地的 特性或土地的质量,从而决定了某种土地类型的适宜性。 i 0 第二章土地规划中适宜性评价 2 2 土地适宜性评价研究动向 国外研究动向: 联合国粮农组织( f a o ) 总部在1 9 7 6 年正式公布了t - l - 地评价纲要 梁朝仪 1 9 9 1 从此,国际土地评价研究有了很大发展,以联合国粮农组织的土地评价纲 要为代表,明确提出了土地评价为土地利用规划服务的目的。土地评价从一般目 的的土地评价转向特殊目的的土地评价,评价结果不仅揭示了土地的生产潜力, 更重要的是针对某种土地利用方式来进行,并进行经济分析和效益比较,反映了 土地的最佳利用方式、适宜性程度及改良利用的可能性。 进入2 1 世纪,土地评价结果作为土地利用和规划的主要决策依据,伴随着 理论体系完善和研究方法的革新,重要性日趋重视,应用领域日趋广泛,也将朝 着更好的方向发展。 国内研究动向: 在我国的土地评价研究中,土地适宜性评价是从上世纪5 0 年代开始的,而 比较综合的土地适宜性评价始于7 0 年代后期。从那开始,我国不少学者对土地 适宜性评价研究给予充分关注。参考给了关于综合性土地适宜性和单项性适宜性 评价等内容的具体介绍,这里就不在重复。通过近十多年的迅速发展,从整体上 看,与当前国际上的发展状况相比,土地适宜性评价理论是比较系统的、完整的。 但在成果制图手段上还有明显的差距,因而成图周期相对要长的多。近年通过计 算机技术的应用,地理信息系统( g i s ) 、遥感( r s ) 、全球定位系统( g p s ) 的开发与 引进,为提高我国的制图技术水平创造了良好的条件。当前的关键是如何迅速促 进地学专业人员与计算机技术专家的融合,相互促进,提高设备利用率及扩大服 务领域。 2 3 土地适宜性评价的目的和重要性 土地适宜性评价是合理利用土地和优化土地利用结构的重要依据,是进行土 地整理规划的基础性工作。它的基本目的是查清土地质量状况,为合理开发整理 土地服务。土地整理规划是在一定的地域范围内组织合理的土地利用结构的一种 综合性措施。它的作用在于把用地需要的土地质量协调起来。安排好各种土地用 途的数量和空间布局,取得最好的土地利用效果。这种规划要以对选定的土地利 第二苹土地规划中适宜性评价 用各类和土地质量特征的分析研究为基础。土地适宜性评价的作用就是根据土地 利用要求与土地质量比较的结果来确定土地适宜性等级,从而提供合理的土地利 用各类比较,以建立合理的土地利用结构和土地利用系统,形成科学的土地利用 决策。所以土地评价是土地整理规划的基础,它为土地整理规划决策提供了最客 观的依据。从这个意义上讲,土地适宜评价是土地整理规划过程中的一部分。土 地适宜性评价的任务是由评价的目的决定的。总的说来,土地适宜性评价工作应 当阐明:当一个具体的土地单元作某种利用时,需要何种物质投入,能得到何种 产出,土地质量会有何种变化和其他可能的影响,也就是要对未来的土地利用系 统的性能做出预测。具体讲,土地适宜性评价的任务应当包括以下几个方面:对 目前的土地利用和管理状况做出质量鉴定。包括查清目前的土地利用水平,土地 生态环境等等:综合分析土地的特性,根据特定的土地利用方式。进行土地适宜 性评价和每种利用方式的效益分析:分析目前土地利用的限制因素都有哪些以及 采取改良措施的可能性及实施效益。 2 4 土地适宜性评价单元的划分 评价单元是按照土地质量均匀一致的原则划分的土地适宜性评价的最基本 单位。各评价单元要尽可能保证单元内土地质量、土地属性和利用方式的相对一 致性。目前土地适宜性评价单元划分的方法很多,常用的方法有如下几种 朱德举 1 9 9 6 : ( 1 ) 以土壤图为基础确定土地评价单元,即把基本制图单元如土种、土系、 土相等按其土地利用性能组合归类来确定评价单元。这种方法能充分反映土壤在 土地综合体中的主要矛盾,并可以充分利用土壤普查资料;主要问题是在地面上 没有明显界限,常常与自然田块和行政界限不一致。 ( 2 ) 以土地利用现状图为基础确定土地评价单元,即按土地利用图的基础制 图单元来划分评价单元。这种方法有利于科学规划和合理利用土地,缺点是对土 地要素考虑不够 姚建昆1 9 9 4 。 ( 3 ) 以土地类型图为基础确定土地评价单元,即以不同土地类型作为划分评 价单元的依据。这种方法较为直观,缺点是单元划分不够细 赵需生1 9 9 8 。 ( 4 ) 利用地理信息系统确定土地评价单元,即以每一栅格像元为一个评价单 元,这种方法比较简单,但评价单元土地性质的获取难度较大 张红旗1 9 9 8 。 1 2 第二章土地规划中适宜性评价 2 5 土地适宜性评价体方法的研究 土地适宜性评价是以不同土地利用为目的,评价土地适宜性的过程,是利用 相关的自然、经济、社会和技术数据,对土地进行最佳土地利用评价,它是特殊 目的的土地评价,揭示了土地的生产潜力,也针对某种土地利用反映出土地适宜 性的程度及改良利用的可能性。土地适宜性评价的主要内容有:参评因子的确定、 评价单元的产生、评价方法的选择、评价系统的建立、评价指标的确定。 评价步骤如图2 1 所示: 图2 一l 土地适宜性评价步骤 1 3 第二章土地规划中适宜性评价 2 5 1 因子的选择 由于影响适应性评价的因素很多,如果全面而具体地考虑所有的因素,会使 土地适宜性评价变得繁琐而很难,进行评价因子的选择应尽量选取影响最显著、 最稳定的数据,对土地利用有直接影响的因子作为评价因子 宋如华1 9 9 7 戴旭 1 9 9 5 刘黎明1 9 9 4 。一般只选择几个或多个因素。因子筛选的两个原则:( 1 ) 主导 因子原则:在众多的土地因素中,选择对土地自然适宜性影响大的主导因子,着 重分析它们与土地自然适宜性之间的关系:( 2 ) 因子稳定性原则:可以根据因子的 变异特性,找出持续影响土地自然适宜性的稳定性因子,主要应用这些因子作评 价,而尽量避免选用易变的因子,一般来说,气候、地形、土壤质地、土层厚度 等稳定性因子,而土壤有效养分、生物因子为易变因子。 2 5 2 权重确定方法 权重确定 詹庆明1 9 9 6 1 有主要有以下几种: ( 1 ) 等权重法 这一方法将各个评价因子的权重看作是相等的。如果用w 表示权重,有n 个 1 评价因子,那么第i 个评价因子的权重w t - 三一般来说,采用等权重法即可忽略 刀 评价因子的权重,直接进行地适宜性的综合分析。 实际上,由于i 个因子的权重很难相等,因此等权重法适用范围很窄,一般 只用于非常粗略的评价。 ( 2 ) 经验法( 专家法) 经验法是评价工作者( 或特邀的评价专家) 根据己占有的各专业调查资料和 实践经验,在经过科学的分析和连贯的思索的基础上给评价因子直接分配权重。 经验法的正确性主要依赖于评价者的经验,为了避免评价者经验的局限性或 偏见,一般应有多位专家参与,并采用如下的步骤( 1 ) 评价所需要的资料及评价 要求分发给各位专家,让他们分别提出自己的意见并陈述理由( 2 ) 评价工作者 将专家们的意见加以综合、整理、归纳,再反馈给各个专家( 3 ) 每一位专家根 据反馈的资料进一步分析判断,提出新的结构( 4 ) 评价工作者再将各个专家的 意见收集后进行整理、归纳,以期获得一致的意见,如果意见不统一,可以重复 第( 2 ) ,( 3 ) 步,直到获得一致的意见。 ( 3 ) 回归系数法 1 4 第二章 土地规划中适宜性评价 回归系数法是应用统计原理确定评价因子权重的一种精确方法。其实质在土 地自然适宜性等级( 有时用产量表示) 与评价因子之间建立回归方程,将评价因子 的回归系数作为其权重。 ( 4 ) 层次分析法 层次分析法( a n a l y t i ch i e r a r c h yp r o c e s s ) ,简称d i p 法。它是基于系统 论中的一个重要原理,系统的层次性原理建立起来的,它遵循认识事物的规律, 有意识地将复杂问题分解成若干层次,逐步分析比较,把人的主观判断用数量的 形式表达和处理是一种比较新的定性分析和定量分析相结合的多因素评价方法。 2 6 存在的不足 传统的评价方法大多依赖于经验知识,不能够对知识的不完整性做出调整, 不准确的知识往往带来较大偏差,也不具有自学习能力,计算效率不高。如极限 条件法、经验指数和法、模糊综合评判法、灰色系统法等,评价方法各有优缺点, 无综合性。用依赖于经验知识的方法进行一次土地适宜性评价需要诸多专家的亲 临。故引用数据挖掘分类算法到土地适宜性评价中去,为土地适宜性评价找到了 新的方法。 2 7 本章小结 本章对土地适宜性评价做了介绍,评价方法在国内外的研究现状与动向,描 述了土地适宜性评价体系结构,评价步骤:首先确定因子,然后确定各个因子的 权重,计算得到分级指标,通过计算其综合指数得到适宜等级。最后本章提出了 土地适宜性评价的不足之处。 1 5 第三章数据挖掘分类基本理论及应用 第三章数据挖掘分类基本理论及应用 3 1 数据挖掘 数据挖掘( d a t am i n i n g ) u i c h a l s k i1 9 9 2 就是从大量的、不完全的、有噪声 的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数 据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、 含噪声的:发现的是用户感兴趣的知识:发现的知识要可接受、可理解、可运用: 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 何为知识? 从广义上理解,数据、信息也是知识的表现形式,但是人们更把 概念、规则、模式、规律和约束等看作知识,通常把数据看作是形成知识的源泉, 好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数 据:也可以是半结构化的,如文本、图形和图像数据:甚至是分布在网络上的异构 型数据。发现知识的方法可以是数学的,也可以是非数学的:可以是演绎的,也 可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控 制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们 对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。 在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技 术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数 据挖掘这一新兴的研究领域,形成新的技术热点。 这里所说的知识发现 史忠植2 0 0 2 ,不是要求发现放之四海而皆准的真理, 也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。 实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域 的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。 研究知识发现( k d d ) 和数据挖掘( d m ) 技术的重大意义己经被人们广泛的认 识,并且被列为数据库研究领域中最重要的课题之一。例如,美国政府开发 s e q u o i a2 0 0 0 项目作为大规模数据库中先进的数据分析工具。许多商业公司也 充分认识到了深层次地分析本公司业务数据库中的数据能够带来更多的商业机 会,例如银行和零售商店通过分析它们的业务数据,进一步掌握和了解顾客的信 1 6 第三章数据挖掘分类基本理论及应用 誉、习惯和消费心理,从而相应地调整它们的市场策略,以拓宽更广泛的市场。 国际上第一次关于数据挖掘与知识发现的研讨会于1 9 8 9 年8 月在美国底特 律召开,知识发现一词是在此学术会议上正式形成的,当时仅有数十人参加,此 后发展很快,1 9 9 5 年提升为国际学术大会( i n t e r n a t i o n a lc o n f e r e n c eo n d a t a m i n i n g k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) ,即在加拿大召开的第一届 知识发现和数据挖掘国际学术会议。这次会议上明确定义了知识发现的概念,并 确定了知识发现过程和数据挖掘的关系。此后,数据挖掘开始流行,它是知识发 现概念的深化,知识发现与数据挖掘是人工智能、机器学习与数据库技术相结合 的产物。此外,还有这一主题的地区性国际大会,包括相关的学科领域,特别是 机器学习、归纳逻辑程序设计( i l p ) 、医药数据处理、分布式人工智能、基于实 例的推理( c b r ) 等。 那么在数据挖掘中的决策树方面,计算机科学采用树形结构描述数据集已有 不短的时间了,但它一直是一个不受重视的知识发现过程。随着数据挖掘技术的 产生,决策树得到了很快的发展。决策树的算法己有很多。1 9 8 6 年j r o s sq u i n l a n 引入了i d 3 算法后,引起了很大的反响。在此基础上,他又于1 9 9 3 年,在其 “p r o g r a mf o rm a c h i n el e a r n i n g 一一书中,对i d 3 算法进行了补充和改进,提 出了后来非常流行的c 4 5 q u i n l a n j r1 9 9 3 算法。后来又出现了c 4 5 的商业改进 版c 5 0 算法,在大数据量情况下的效率和生成规则的数量与正确性方面有了显 著的提高。此外,c h a i d 算法也有相当广泛的应用。1 9 9 6 年又提出了s l i q 姚建 昆1 9 9 4 和s p r i n t j c s h a f e r1 9 9 6 算法,r a i n f o r e s t 框架结构,它们强调算法 的可伸缩性。由于数据挖掘的对象是规模庞大的数据,已有的分类算法在数据量 小时能够准确、高效的分类,效果很好。但当用于处理大量数据时;已有的算法 都会不同程度的出现各种问题,分类效果不理想。因此,研究数据挖掘中准确、 有效的分类算法,虽然是一个传统的问题,但仍具有挑战性。 1 7 第三章数据挖掘分类基本理论及应用 3 2 数据挖掘的主要任务和方法 数据挖掘的任务和方法 崔宝灵1 9 9 7 主要有以下几点 1 、数据抽取 数据抽取目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的 数据抽取方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值, 或者用直方图、饼状图等图形方式表示。数据挖掘主要从数据泛化的角度来讨论 数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过 程。数据库上的数据或对象所包含的信息总是最原始、基本的信息( 这是为了不 遗漏任何可能有用的数据信息) 。人们有时希望能从较高层次的视图上处理或浏 览数据,因此需要对数据进行不同层次上的泛化以适应各种查询要求。数据泛化 目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 多维数据分析方法是一种数据仓库技术,也称作联机分析处理( 0 l a p ) 。数 据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合,决策的 前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小 等汇集操作,这类操作的计算量特别大。因此,把汇集操作结果预先计算并存储 起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多 维数据分析技术己经在决策支持系统中获得了成功的应用,如著名的s a s 数据分 析软件包、b u s i n e s so b j e c t 公司的决策支持系统b u s i n e s so b j e c t ,以及i 删 公司的决策分析工具都使用了多维数据分析技术。 采用多维数据分析方法进行数据抽取,它针对的是数据仓库,数据仓库存储 的是脱机的历史数据。采用面向属性的归纳方法,直接对用户感兴趣的数据视图 ( 用一般的s q l 查询语言即可获得) 进行泛化,而不是像多维数据分析方法那样预 先就存储好了泛化数据。原始关系经过泛化操作后得到的是一个泛化关系,它从 较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行 各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规 则、判别规则、分类规则,以及关联规则等。 2 、分类发现 它发现同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。 最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是 1 8 第三章数据挖掘分类基本理论及应用 种有指导的学习方法。该方法先根据训练子集( 又称为窗口) 形成决策树。如果 该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该 过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点 是带有分枝的属性,该分枝对应该属性的某一可能值。最为典型的决策树学习系 统是i d 3 ,它采用自顶向下不回溯策略,能保证找到一个简单的树。算法c 4 5 和c 5 o 都是1 0 3 的扩展,它们将分类领域从类别属性扩展到数值型属性。 数据分类还有统计、粗糙集( r o u g hs e t ) 等方法。线性回归和线性辨别分析 是典型的统计模型。为降低决策树生成代价,人们还提出了一种区间分类器。最 近也有人研究使用神经网络方法在数据库中进行分类和规则提取。 3 、聚类 聚类是把一组个体按照相似性归成若干类别,即“物以类聚刀。它的目的是 使属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可 能大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方 法。 在统计方法中,聚类称聚类分析,它是多元数据分析的三大方法之一( 其它 两种是回归分析和判别分析) 。它主要研究基于几何距离的聚类,如欧式距离、 明考斯基距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、 动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。聚类方法是一种基于全 局比较的聚类,它需要考察所有的个体才能决定类的划分:因此它要求所有的数 据必须预先给定,而不能动态增加新的数据对象。聚类分析方法不具有线性的计 算复杂度,难以适用于数据库非常大的情况。 在机器学习中,聚类称作无监督或无教师归纳:和分类学习相比,分类学习 的例子或数据对象有类别标记,而要聚类的例子则没有标记,需要由聚类学习算 法来自动确定。 在神经网络中,有一类无监督学习方法:自组织神经网络方法:如k o h o n e n 自 组织特征映射网络、竞争学习网络等等。在数据挖掘领域里,神经网络聚类方法 主要是自组织特征映射方法,i b m 在其发布的数据挖掘白皮书中就特别提到了使 用此方法进行数据库聚类分割。 1 9 第三章数据挖掘分类基本理论及应用 4 关联分析 数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值 之间存在某种规律性。 关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度 或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数,即使知道 也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规 则的强度。 利用数据挖掘工具来协助其业务活动,国内在这方面的应用还处于起步阶 段。 3 3 数据挖掘中的分类方法 分类( c l a s s i f i c a t i o n ) 发现 刘红岩2 0 0 2 的目的是构造一个分类函数或分 类模型( 也称分类器) ,通过分类模型,把数据库中的元组映射到给定类别中的某 一个,即要发现一些指定的数据对象是否以属于某一特定的数据子集的规则。一 般把分类器的输入叫做“训练集,它的每一元组的属性和数据库的元组的属性 相同,并且每个元组都有一个类别标志。训练集的样本个体的类别属性标志是己 知的,分类发现的任务就是根据从训练样本数据的属性中发现个体或对象的一般 分类规则,从而根据该规则对非样本数据进行分类。分类发现的处理过程分为分 类模型的建立和分类模型的应用两个阶段: 分类模型的建立:就是要建立一个模型,描述预定的数据类或概念集在该阶 段中,通过分析训练样本数据来完成分类模型的建立。训练样本数据中的每一个 样本属于一个事先定义好的类,这个事先定义好的类是由一个特定属性来标识 的,称该属性为类别标识属性( c l a s sl a b e la t t r i b u t e ) 。由于提供了每一个训 练样本的类别标号,这个阶段也称为有指导的学习( 即在被告知每个训练样本属 于哪个类的指导下进行模型的学习) 。与无指导的学习不同( 如聚类) ,在那里, 每个训练样本的类标号是未知的,要学习的类集合和数量也可能事先不知道。一 般情况下,分类模型以分类规则、决策树或数学公式的方式给出,该规则可以用 来为以后的数据样本分类,也能对数据库的内容提供更好的解释。 使用模型进行分类:在使用建立的分类模型进行分类前,要首先对建立的模 第三章数据挖掘分类基本理论及应用 型进行评估,在确保分类模型的准确性和精确度的情况下,才能使用该模型对未 知类别的数据样本进行分类处理。 3 4 决策树分类算法 从特殊的训练样例中归纳出一般函数是机器学习的中心问题。概念学习是指 从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。决策树学习也可 以看作是一个搜索问题的过程,它在预定义的假设空间中搜索假设,使其与训练 样例有最佳的拟合度。其中这种概念的描述用决策树的方法表示,也可以以规则 的形式表示。 在解决分类问题的各种方法中,决策树方法是运用最广泛的一种。它是一种 逼近离散值函数的方法,对噪声数据有很好的适应性,而且能够学习析取表达式。 决策树学习算法也是一种归纳算法,它采用“自顶向下、分而治之 的方法将搜 索空间分为若干个互不相交的子集,通常用来形成分类器和预测模型,可以对未 知数据进行分类、预测和数据预处理等。 应用这种方法需要首先构建一棵决策树对分类过程进行建模,一旦树的模型 建好了,就可以将其应用于数据集中的元组,并得到分类结果。人们的研究通常 都集中在如何有效地构建一棵决策树,使它规模最小,分类精度较高。 决策树算法具有以下特点: ( 1 ) 决策树分类方法思想简单而淳朴,建立的分析模型直观、易于接受,获 取的知识以规则描述,清晰、无二义性。 ( 2 ) 决策树具有较高的运算效率,适合于较大的训练集。 ( 3 ) 决策树分类是从预分类实例中获取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论