(森林经理学专业论文)数据挖掘在森林资源管理中的应用.pdf_第1页
(森林经理学专业论文)数据挖掘在森林资源管理中的应用.pdf_第2页
(森林经理学专业论文)数据挖掘在森林资源管理中的应用.pdf_第3页
(森林经理学专业论文)数据挖掘在森林资源管理中的应用.pdf_第4页
(森林经理学专业论文)数据挖掘在森林资源管理中的应用.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(森林经理学专业论文)数据挖掘在森林资源管理中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要:数据挖掘技术是近年来从无到有,发展迅速的新兴技术,在理论研究逐步深入 的同时,许多行业也开始在应用方面进行探索。数据挖掘作为知识发现过程的重要步 骤,是从大型数据库及数据仓库中提取未知的、有价值的和潜在关系、模式和趋势用 于决策支持的过程。利用该技术来分析森林资源数据,在关系复杂的海量数据中找到 隐含的深层次信息,对后期的森林经营和资源管理意义重大,并有助于形成以知识管 理和知识发现来辅助森林资源管理,并提高森林资源决策管理的科技水平。 由于数据挖掘技术本身发展时间不长,在很多行业中的应用也是刚刚兴起,目前 国内森林资料管理中结合数据挖掘技术的文献目前还比较缺乏。本文利用一平浪林场 二类调查数据,以云南松小班为研究对象,研究和探讨了数据挖掘技术在提取林业知 识及隐含的有价值的信息方面的有效性和可行性,并分析了聚类、决策树、关联规则 三种数据挖掘算法对林业数据进行知识挖掘的具体应用。 由于现实数据的不完整性、冗余性和模糊性,以及各个数据挖掘算法对数据类型 有不同要求,数据预处理是数据挖掘过程中重要的部分。在数据预处理阶段,本文对 初始数据进行了预备数据集的提取及数据类型的转换。在预备数据集提取中对缺失值 过多的小班和属性进行了删除;在数据类型的转换中实现了通过等宽装箱法将连续型 属性转化为离散型及结合林业专业知识将离散型属性量化为数值型两种转换。 林地立地分类与评价是森林经营管理的重要内容,是林业决策的依据和基础。 本文应用聚类算法中的层次聚类分析法对云南松三龄级的量化数据进行了聚类分析, 聚类为三类的小班在同树种同龄级的条件下,树木的树高和胸径生长量出现了数据上 的分化,说明不同类别的小班林地生产力存在差异,立地质量具有梯度性的变化。根 据林地定级的概念,可将三类中的小班林地分别划分为第1 立地等级、第1 i 立地等级 和第立地等级。根据聚类的结果计算类别中心后,计算一平浪地区无林地小班与各 个聚类中心的距离,将无林地小班划分为距离最近的类,即可得到对无林地小班的立 地等级评价。其结果可作为林业经营的辅助决策支持。 本文采用数据挖掘中的决策树c 4 5 算法建立了云南松单株材积的区间估值模 型。通过将单株材积量等宽离散为5 个取值区间,为不同云南松小班建立了所属的单 株材积区间,即不同的类。以年龄、树高、直径、疏密度及小班环境因子作为条件属 性,以单株材积区间为决策属性建立决策树模型。决策树算法利用自身的性能选择自 动选择贡献率最大的属性,消除噪声数据的影响。决策树的运行结果显示算法在剪枝 过程中剪去了年龄、疏密度、所有的环境因子条件属性,仅保留了直径与树高两个属 性作为分类属性,说明在一平浪地区云南松小班中,没有对单株材积影响较大的环境 l 因子。用十折交叉验证法对决策树验证的结果,决策树的分类准确度达到了9 3 。由 决策树中提取的规则对训练数据进行统计,得到了云南松的以直径、树高为因变量的 单株材积区间预测模型。 本文应用关联规则挖掘a p r i o r i 算法在云南松三龄级小班中进行规则提取。根 据规则集建立了由规则推导得出的直径模型。由模型的拟合结果分析看出,假如规则 评价较高,则由规则推导的模型分类正确度也较高;如规则评价较低,则模型性能较 差。本文又根据所提取规则的评估指标作为自变量,建立了云南松三龄级直径与环境 地理因子的回归模型。在预测变量为离散型变量的情况下,通常不能直接采用传统的 统计回归方法建模。利用数据挖掘的关联规则算法可以解决这一问题。经过比较采用 数据挖掘技术建立的线性模型与直接采用量化的环境因子建立的模型,前者的误差明 显小于后者,具有更好的拟合效果。 本文最后对全文进行了总结,并对有待进一步研究的问题进行了展望。 关键词:数据挖掘,聚类,决策树分析,关联规则分析,单株材积模型 i i a b s t r a c t :d a t am i m n gi san e wt e c h n o l o g yt h a tr a p i d l yd e v e l o p e di nr e c e n ty e a r s r e s e a r c h a n da p p l i c a t i o ni nd a t am i m n gf i e l da r ed e v e l o p i n gf a s t l y a st h ev i t a ls t e po fk n o w l e d g e d i s c o v e r y , d a t am i m n gi s t h e p r o c e s so fg e t t i n gt h eu n k w o n ,v a l u a b l e a n do p e r a b l e i n f o r m a t i o nf o rd e c i d i o n m a k i n gs u p p o a a p p l y i n gt e c h n i q u e so fd a t am i n i n gi na n a l y z i n g c o m p l e xf o r e s tr e s o u r c ed a t aw i l lp r o m o t et h el e v e lo fi n f o r m a t i o nm a n a g e m e n ta n d b e n e f i tt h ef o r e s tm a n a g e m e nf o ral o n gt i m ei nf u t u r e d a t am i n i n gt e c h n o l o g yh a s n td e v e l o p e df o ral o n gt i m e t h ea p p l i c a t i o nr e s e a r c ho f d a t am i n i n gi nm a n ys e c t o r si sj u s te m e r g i n g t h ed o c u m e n t a t i o n so ff o r e s tr e s o u r c e m a n a g e m e n tr a l a t i v e dt od a t am i n i n gt e c h e n o l o g yi ss t i l lv e r yl a c ki nc h i n an o w b a s i n go n t h ei n s p e c t i o nd a t ao fp i n u sy u n n a n e n s i sf r a n c hl o c a t e da ty i p i n g l a n ga r e a , t h i sp a p e r s t u d y o nt h es u b c o m p a r t m e n td a t ao fy u n a np i n e ,r e s e a r c h i n ga n de x p l o r i n gt h ee f f e c t i v e n e s sa n d f e a s i b i l i t yo ft h ee x t r a c t i o no ff o r e s t r yk n o w l e d g ea n dv a l u a b l ei n f o r m a t i o n 、衍t 1 1d a t a m i n i n g t h es p e c i f i ca p p l i c a t i o no fc l u s t e r i n g ,d e c i s i o nt r e ea n da s s o c i a t i o nr u l e sh a sa l s o b e e na n a l y s i s e d d a t ag e r e df r o mt h ep r a c t i c a la p p l i c a t i o ns y s t e m si so f t e nr e d u n d a n c y , f u z z ya n dn o t i n t e g r i t y , m o s tc a n n td i r e c t l ym e e tt h er e q u i r e m e n t so fd a t am i n i n ga l g o r i t h m s t h e r e f o r e , t h ed a t ap r e - p r o c e s s i n go fd a t am i n i n gi sa ni n d i s p e n s a b l ep r e r e q u i s i t e b a s e do nt h e c h a r a c t e r i s t i c so fy i p i n g l a n gs u r v e yd a t a ,c a m b i n i n g 谢t l lr e q u i r e m e n t so fd a t am i n i n g a l g o r i t h m ,t h i sp a p e rg e tt h ee x t r a c t i v ed a t as e t sf r o mt h ei n i t i a ld a t a , d i s c r e t ec o n t i n u o u s a t t r i b u t e sa n dt r a n s t o r m a t ed i s t r e t ea t t r i b u t e st oq u a n t i t a t i v ed a t a w o o d l a n ds i t ec l a s s i f i c a t i o na n de v a l u a t i o ni sa n i m p o r t a n tp a r t o ff o r e s t a d m i n i s t r a t i o na n dm a n a g e m e n t a n di ti sa l s ot h eb a s i sa n df o u n d a t i o no ff o r e s t r yp o l i c y t h i sp a p e ru s et h es i t ea t t r i b u t e so ft h ey u n n a np i n u sa sc l u s t e r i n gp r o p e r t i e s ,a c c o r d i n gt o d a t am i n i n ga l r o r i t h m si nt h eh i e r a r c h i c a lc l u s t e r i n gm e t h o d ,p r e t r e a t i n gf a c t o r so fy u n n a n p i n e t h e nw i mt h ew e i f h e de u c l i d e a nd i s t a n c e - b a s e dm e t h o d sc l u s t e rt h eg e o g r a p h i c a l e n v k o u m e n to fy u n n a np i n er e c o r d s t h er e s u l to fc l u s t e r i n gs h o w st h a tc l a s s e si nd i f f e r e n t s i t eh a v eal a r g eg a po na v e r a g eh e i g h ta n dd i a m e t e ro fy u n a np i n e t h eg a pb e t w e e nt h e q u a l i t yo fg r a d i e n to f d i f f e r e n ts i t ei ss i g n i f i c a n t a c c o r d i n gt ot h ec o n c e p to ff o r e s tl a n d c l a s s i f i c a t i o n , t h ec a t e g o r i e so ff o r e s tl a n dc a nb ed i v i d e di n t ot h r e eg r a d i n g t h e nc a l c u l a t e t h ed i s t a n c eo fn o n f o r e s ts u b c o m p a r t m e n tt oe a c hs i t e ,t h eq u a l i t yc a n b ea s s e s s e d t h e r e s u l tc a l lb eu s e da st h ea u x i l i a r yb a s e so fs i t eg r a d i n g i i i i nt h i s p a p e r , c 4 5d e c i s i o nt r e ea l g o r i t h mi sa p p l i e do nt h ee s t a b l i s h m e n to ft h e s i n g l ev o l u m ev a l u a t i o nm o d e l b yd i s c r e t i n gv a l u e so fy u n n a np i n er e s e r v e sf o rf i v es a m e n u m e r i c a li n t e r v a l s ,a n ds e t i n ga g e ,h e i g h t ,d i a m e t e r , d e n s i t ya n de n v i r i o u m e n t a lf a c t o r sa s i n d e p e n d e n tv a r i a b l e s ,t h ed e c i s i o nt r e em o d e li se s t a b l i s h e d d e c i s i o nt r e ea l g o r i t h mu s e i t so w n p e r f o r m a n c ea u t o m a t i c l ys e l e c tt h ep r o p e r t i e st h a th a v et h el a r g e s tc o n t r i b u t i o na n d e l i m i n a t en o i s ed a t a c 4 5d e c i s i o nt r e ea l g o r i t h mc u ta g e ,d e n s i t ya n da l le n v i r o n m e n t c o n d i t i o n sp r o p e r t i e sd u r i n gt h ep r u n i n gp r o c e d u r e ,l e a v e so n l yh e i g h ta n dd i a m e t e ra s c a t e g o r ya t t r i b u t e s t h i sm e a n sn oe n v i r o n m e n tf a c t o rs h o w sag r e a ti m p a c to ny u n a n p i n e sv o l u m e v e r i f yt h er e s u l tb y10 c r o s sv a l i d a t i o n ,w ec a nf i n dt h a tt h ea c c u r a c yo f t h ed e c i s i o nt r e er e a c h e d9 3p e r c e n t t h ed e c i s i o nt r e es h o w st h a tt h eo p e r a t i o nh a sag o o d f i te f f e c t a c c o r d i n gt ot h ed e c i s i o nt r e ed r a w nb yt h er u l e s ,t h ey u n n a np i n eg r o w i n gs t o c k v a l u a t i o nm o d e lc a nb er e d u c t e d t h er e s u l t so f a p r i o r ia l g o r i t h m sg e tt h ea s s o c i o a t i o nr u l e si nt h i r t ya g ey u n a np i n e d a t a t h ea n a l y s i so ft h ef i t t i n gr e s u l t so ft h em o d e ls h o w st h a tt h em o d e ld e d u c e db y h i g h e rr a t i n gr u l e so f t e nb e t t e rt h a nl o w e rr a t i n gr u l e s t h i sp a p e ra l s oe s t a b l i s h e dt h e d i a m e t e rm o d e lr e d u c e df o r mr u l e s b a s e do nt h ea p r i o r ia l g o r i t h m ,t h i sp a p e ru s i n gt h e a s s e s s m e n to fi n d i c a t o r sa sv a r i a b l e se s t a b l i s h e dt h er e g r e s s i o nm o d e lb e t w e e nl i m b e r d i a m e t e ra n de n v i r o n m e n tg e o g r a p h i c a lf a c t o r s i ft h ev a r i a b l e sf o rt h ef o r e c a s ta r ed i s c r e t e v a r i a b l e s ,u s u a l l yc a nn o td i r e c t l yu s i n gt r a d i t i o n a ls t a t i s t i c a lr e g r e s s i o nm o d e l i n gm e t h o d s o fs t a t i s t i c a lr e g r e s s i o nm o d e l i n g u s i n gd a t am i n i n ga s s o c i a t i o nr u l e sa l g o r i t h mc a n s o l v et h i sp r o b l e m c o m p a r i n gt h et w ol i n e a rr e g r e s s i o nm o d e l sb u i l d e db yt w od i f f e r e n t m e t h o r d s o n ei sp i c k i n gu pt h ec o r r e s p o n d i n gc o n n e c t i o nb e t w e e nt h ed e c i s i o na t t r i b u t e a n dc o n d i t i o na t t r i b u t eb yt h ea p r i o r ia s s e s s m e n ti n d i c a t o r s a n o t h e ri st h em e t h o do fl i n e a r r e g r e s s w ef i n dt h a tt h em o d e l sb u i l tb yd a t am i n i n g i sb e t t e rt h a nt h a to fl i n e a rr e g r e s s f i n a l l y , t h ec o n c l u s i o ni sm a d e ,a n dt h ep r o b l e m sf o rf u r t h e rs t u d ya r er e v i e w e d k e y w o r d s :d a t am i n i n g ,c l u s t i n g ,d e c i s i o nt r e e ,a s s o c i a t i o na n a l y s i s ,v o l u m em o d e l i v 声明尸明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含他人已经发表 或撰写过的研究成果,也不包含为获得西南林学院或其它教育机构的学位或证书而使 用过的材料,与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示了谢意。 签名:日期:捌点2 关于论文使用授权的说明 本人同意:西南林学院有权保留论文的复印件,可以采用影印、缩印或其他复制 手段保存论文;提交论文一年后,允许论文被查阅和借阅,学校可以公布论文的全部 或部分内容。 ( 保密的论文在解密后应遵守此规定) 日期:;翌多二j , - f 2 , 1 绪论 1 绪论 1 1 研究的目的与意义 林业是生态建设的主体,经济社会可持续发展的基础。而森林系统的复杂性和价 值的多样性,使得森林经营管理的思想、方法必须在林业生产实践活动中,不断创新, 不断完善。林业的现代化经营管理模式的发展,先进的科学技术的应用是实现的关键。 林业的跨越式发展,需要加快林业信息化进程,实现“数字林业”。近年来,我国林业 信息化工作逐渐走向深入,开始在林业建设事业中发挥重大作用,成为新时期推动林 业事业发展的重要科技手段和载体。 在如今被称为信息爆炸的时代,运用计算机与信息技术,对林业统计数据进行处 理,是从海量数据中准确、高效地获得有用知识和具有决策意义信息的必要条件。目 前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中 存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐 藏知识的手段,导致了“数据爆炸、知识贫乏”的现象。利用数据挖掘技术来分析森林 资源数据,在关系复杂的海量数据中找到隐含的深层次信息,对后期的森林经营和资 源管理意义重大,并有助于形成以知识管理和知识发现来辅助森林资源管理,与提高 森林资源决策管理的科技水平,是实现林业跨越式发展的重要手段。数据挖掘能够从 大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含不能预知 的、但具有潜在价值的信息和知识。其原理和技术克服传统作业方法过份依赖手工操 作和专家工作的缺陷,实现智能化、自动化,提高效率和质量;能够解决很难用精确 的数学语言描述的问题。应用专家知识和数据挖掘技术,能够用于预测和模拟森林系 统中非线性行为和复杂的问题【1 1 。 1 2 研究主要内容 本文进行的研究,目标在于将知识发现与林业信息系统想结合,将数据挖掘的算 法应用于具体的林业数据,以期发现数据中隐藏的各种规律、模式和模型,并解决对 数据挖掘算法运行结果的应用和解释问题。对于不同数据挖掘算法在林业数据知识发 现中的应用,进行了系统的研究。主要包括以下三个方面的研究:数据挖掘的数据 预处理问题,主要为缺失数据的处理、数据离散化、数据的选样和规约等;聚类、 决策树、关联规则等数据挖掘算法在林业现实数据中的具体应用;从数据挖掘的结 数据挖掘在森林资源管理中的应用 果中提取有价值的规则和模式,对算法所得出结果的解释、评价与应用。 本文利用的实际数据为森林资源二类调查数据,以云南松小班数据为研究对象, 分析数据中潜在的模式和模型,侧重于云南松测树因子之间、测树因子与立地环境、 立地因子之间的模式挖掘。论文的结构如下:( 1 ) 绪论部分,介绍论文的研究目的与 意义及研究的主要内容;( 2 ) 分析了数据挖掘技术的国内外研究现状,以及将数据挖 掘技术在林业上已有的应用成果;( 3 ) 数据挖掘技术及各个算法的介绍,包括数据挖 掘的概念、任务、算法体系,分别介绍了聚类、决策树、关联规则算法的理论基础及 实现过程,及本研究所用的数据挖掘软件;( 4 ) 根据数据挖掘算法对数据的要求,对 本文所用数据进行数据提取、连续型属性的离散化及离散型属性的量化处理;( 5 ) 将 聚类算法应用于一平浪地区云南松三龄级的小班数据,根据立地条件因子对小班进行 聚类,得到不同的立地类型;根据聚类结果的分析将三龄级小班划分为不同立地等级, 在聚类的基础上对无林地进行分类;( 6 ) 运用决策树算法,建立云南松单株材积量估 值模型,对决策树的分类精度进行分析,对决策树运行结果进行解释与评估;( 7 ) 对 云南松三龄级小班进行关联规则挖掘,分析云南松直径与环境因子之间的关联,根据 数据挖掘结果分别建立了基于规则推导的直径模型与规则评价指标建立的直径回归 模型,对模型的精度进行评价,并比较了数据挖掘方法建立的回归模型与传统回归方 法建立的直径模型的性能;( 8 ) 概要总结全文的主要研究内容及取得的成果,并对有 待进一步研究的问题进行展望。 2 2 国内外研究现状 2 国内外研究现状 2 1 数据挖掘的发展 在信息技术与信息产业迅猛发展的时代,数据库技术及数据库管理系统在各个行 业和领域得到了越来越广泛的应用。大型数据库系统在各行各业普及的结果,是数据 库中存储的数据量急剧增大,其中存储的数据量成指数级增长。这种海量数据中隐含 着丰富的信息和知识,但原有的数据查询和检索方式不能充分发掘和利用数据库中隐 藏的丰富知识,数据库的急剧增长与人们对数据库处理能力的相对落后形成了强烈的 反差。这种情况被形容为“数据丰富,知识贫乏”。面对这种情况,人们迫切需要一种 能够及时得到科学决策所必须的可靠知识的技术,运用更加有效的数据分析和处理工 具,来帮助人们提取出隐含在数据库中的、可用于决策的规律和规则,以提高数据的 利用率。数据挖掘和知识发现( d a t am i n i n ga n dk n o w l e d g ed i s c o v e r y ,简称d m k d ) 应运而生。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对数据查询和 遍历,而且能找出数据中的潜在联系和规律,将数据转化为信息。由于d m k d 具有 诱人的前景和巨大的难度,正成为计算机信息处理领域的研究热点和前沿技术。 从数据库中发现知识( i d ) 一词首次出现在1 9 8 9 年举行的第十一届国际联合 人工智能学术会议上。在1 9 9 5 年之前,由美国人工智能协会主办的k d d 专题讨论 会,会举办了三次,汇集了人工智能各个领域的研究成果。从1 9 9 5 年开始,规模由 原来的专题讨论会发展到一年一度的国际学术大会,研究重点也逐渐从发现方法转向 系统应用。1 9 9 9 年,亚太地区在北京召开的第三届k d d 会议收到1 5 8 篇论文,空前 热烈。i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术 专刊。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷 开辟了k d d 专题或专刊【2 】。一些关系数据库产品也加入了相关的数据挖掘功能和支 持数据挖掘的接口,用户可以通过构造数据仓库来实现数据挖掘功能,或者进行二次 开发,来建立专门的数据挖掘系统,如m i c r o s o f t s q l s e r v e r 2 0 0 0 、o r a c l e 9 i 、i n f o r m i x 等数据库产品。 目前一些世界著名的厂商已纷纷致力于数据挖掘工具的开发。如i b m 公司的 i n t e l l i g e n tm i n e r ,能自动实现数据选择、数据转换、数据挖掘和结果的可视化呈现这 一整套的数据挖掘操作;s a s 公司的e n t e r p r i s em i n e r ,s a s 的数据挖掘方法论称作 数据挖掘在森林资源管理中的应用 s e m m a ( 抽样、探索、修改、建模、评估) ,评估工具将数据挖掘结果转换为商业 术语,结果能通过w e b 共享;o r a c l ec o r p o r a t i o n 公司的d a r w i n ,是全面的数据挖掘 工具,实现了神经网络、决策树、回归分析、网络推理、贝叶斯学习、聚类方法、自 组织映射等多种算法,能自动产生c + + 和j a v a 的商业模型代码;i n f o r m a t i o nd i s c o v e r y 的d a t am i n i n gs u i t e ,产品包含采样过程,自动嵌套s q l 语言,采用的技术包括关联 规则等,主要用于预测,应用领域为银行及金融业,为商业用户获得模式如客户行为 和生命周期等。另外有较大影响力的还有用于数据挖掘研究用的开源软件,如新西兰 w a i k a t o 大学的w e k a ,美国耶鲁大学的y a l e 等。这些数据挖掘系统所使用的算法 各有不同,各个系统之间也没有提供互操作接口。数据挖掘行业的各个公司和研究机 构独立开发各自的数据挖掘系统和平台,没有形成开放性的标准。 国内对知识发现和数据挖掘的研究起步略晚,但正在赶上国际步伐。计算机世 界报技术专题版于1 9 9 5 发表了三期知识发现与数据挖掘算法的专题;在软件开发 方面,国内的大部分研究还处于科研阶段,各个大学和科研机构正在从事数据挖掘算 法的研究,在各个行业的具体数据挖掘应用软件还未见报道,但已有一些在国外产品 基础上开发的特定的应用。具体的成果有中科院计算技术研究所开发的m s m i n e r , 哈工大基于w e k a 内核开发的a l p h a m i n e r 等;国内著作中关于数据挖掘的书较少, 多为国外著作的翻译本。但国内的许多科研单位和高等院校如清华大学、中科院计算 技术研究所等已竞相开展知识发现和数据挖掘的基础理论和应用研究。 目前,对于数据挖掘系统理论方面的研究已经具备一定的基础。在未来一段时间 内,数据挖掘的研究还会深入下去,研究的焦点可能会集中到以下几个方面:数据挖 掘技术在各个领域的具体应用研究;数据挖掘与背景知识的结合,即用研究领域的信 息来指导发现过程,并使得发现的模型以简介的形式表示,并对数据挖掘模式进行评 估;数据挖掘与数据库系统、数据仓库系统和w e b 数据库系统的集成;数据挖掘语 言的标准化,即专门用于知识发现和数据挖掘的语言;对数据挖掘结果的可视化方法, 使知识发现的过程能被用户理解,便于挖掘过程中的人机交互;对各种非结构化数据 的开采;数据挖掘算法的有效性、可伸缩性和并行处理性能等问题【3 j 。 2 2 数据挖掘在林业中的应用研究现状 数据挖掘技术从一开始就是面向应用的。目前,随着算法的完善,挖掘过程的系 统化、规范化,以及数据挖掘工具的推陈出新,数据挖掘技术已显示了它广泛的应用 4 2 国内外研究现状 前景。数据挖掘应用的范围集合设计社会的所有领域,在商界尤其受到重视。在商业, 许多企业利用数据挖掘技术分析客户生命周期的各个阶段,根据客户行为特征制定销 售方案;保险、电讯和信用卡公司采用数据挖掘技术检测欺诈行为;在医疗中数据挖 掘可用于预测外科手术、医疗实现和药物质量效果等。数据挖掘在各行业的成功应用 案例有很多。在林业中的应用研究尚处于初级阶段,但已有一些研究成果。 2 2 1 分类模式在林业中的应用 分类模式能根据一个分类函数( 分类器) ,将数据集中的项映射到给定类中的某 一类。分类模式目前在林业中应用较多的分析是对于林相图等空间数据的分类。 a n d r e wk s 在分析了前人将遥感数据应用与林业方面的工作和对林业制图精度作了 评价之后,对澳大利亚南部的一个复杂的原始桉树林生成了一个自动绘制森林类型图 的专家系统 4 1 ;c a m p e l l 等人( 1 9 8 9 ) ,m c c l e l l a n d 等人( 1 9 8 9 ) ,h e p n e r 等人( 1 9 9 0 ) 和d o w n e y 等人( 1 9 9 2 ) 都报道了他们应用人工神经网络( a n n ) 技术和l t m ( l a n d s a t t h e m a t i cm a p p e r ) 数据在土地分类方面的研究,他们发现a n n 在不同的程度上都要 比传统的统计分类方法精确【5 1 ;李天宏( 2 0 0 0 ) 对基于k d d 和g i s 的遥感图像专题 分类的方法进行了探讨,对遥感图像中知识发现、规则生成及处理过程中的人机交互 系统进行了设计,指出基于k d d 的思想,能把规则生成的繁重任务从地学专家和知 识工程师的紧密配合转移的解译人员和g i s 的交互分析1 6 1 ;黄家荣( 2 0 0 6 ) 等人利用 人工神经网络技术构建立地因子与地位指数关系的模型,对无林地立地质量进行评 价,结果反映所建的b p 神经网络模型能较好的对无林地的立地质量进行评价,得到 了比多元回归模型更好的结果【7 j 。 2 2 2 关联模式在林业中的应用 关联模式是数据项之间的关联规则。关联分析可以从繁多属性中找出用户所关心 的一个或几个属性之间的关联关系。匡霞( 1 9 8 9 ) 等设计并实现了一个能够综合多种 信息源,利用基于规则的专家系统对t m 图像进行土地利用分类的系统【8 j ;白黍娜、 李增元( 2 0 0 2 ) 利用o p s 8 3 语言和c 语言建立了基于规划的产生式专家系统对e r s 1 s a r 图像中的果园、阔叶林、针叶林、针阔混交林、农地、草地、水体和居民点及 裸岩等类型做出分类【9 】【1 0 】;陈薇,李健( 2 0 0 7 ) 将关联规则算法应用于森林资源二类 调查数据,应用a p r i o r i 算法分析了权属、起源、年龄、平均胸径、树高、郁闭度之 间的关联,由得到的关联规则结果表分析出森林生长情况的一些规律,如在该地区的 数据挖掘在森林资源管理中的应用 林木,胸径和郁闭度变化相对余树高变化,要显得大一些等结论,与实际情况相符, 能够为林业决策支持提供参剖1 1 】;王傧,余光辉( 2 0 0 7 ) 将决策树c 4 5 算法应用于 森林资源二类调查的数据分析,得到一颗由面积属性、火险等级、郁闭度、林种构成 的修建后的决策树,由决策树中提取的规则,对规则进行了解释和描述:松树的典型 特征是易燃性,栎树具有防火的特性,天然林防火等级较高且美学评价较高。作者认 为对调查数据分析的结果表明,数据挖掘在森林资源调查数据分析中具有广泛的应用 前景【1 2 】。 2 2 3 回归模式在林业中的应用 回归模式的函数定义与分类模式相似,不同的是分类模式将数据集的项映射到离 散的某个类别上,而回归模式的预测值是连续型。数据挖掘的回归模式与传统统计方 法的区别在于数据挖掘回归方法不基于任何假设,并且决策属性( 自变量) 可为离散 型变量。目前的研究多将回归模式用于林木生长模型的建立,以期得到优于传统统计 学模型的结果。g u a n 和g a r t n e r ( 1 9 9 1 ) 应用人工神经网络模型模拟树木残存率,把 人工神经网络模型的模拟结果与由逻辑斯蒂回归模型模拟的死亡率和有指数模型得 到的存活率进行比较,其结果表明基于人工神经网络的模型不仅比统计模型有较好的 数据拟合性,而且对新数据的预测也表现出优越性。同时,该模型对幼树以及生长缓 慢的红松也表现出相当的灵活性【l4 1 。此外,g u a n ( 1 9 9 7 ) 首次提出了基于人工神经网 络的技术框架,并用于评价林木生长机理预测模型效果。这种方法包括4 个主要步骤: ( 1 ) 假定参数值的分布;( 2 ) 投影参数;( 3 ) 根据取样,描述模型的行为;( 4 ) 在所取 的样点近似模型的行为。这一方法已被用于v a l e n t i n e ( 1 9 9 8 ) 开发的碳平衡基础上的 树木生长模型,而且结果证实该方法在分析复杂的生长模型中有较高的效率【i5 1 。 在国内,洪伟,吴承祯,何东进( 1 9 9 8 ) 将人工神经网络用于森林资源管理模型 研究,采用人工神经网络方法拟合杉木林分蓄积量与立地质量、林龄、林分密度直接 的非线性关系,分密度之间的非线性关系,建立了杉木可变密度蓄积量收获预估b p 网络模型,并对所建立的模型进行精度检验,该预测模型可应用于森林经理调查、数 据更新与经营决策优化,以及编制可变密度收获表【l 刚。黄家荣,孟宪宇,关敏秀( 2 0 0 4 ) 以马尾松人工林间伐试验林为研究对象,用林分内单木相对直径、林分年龄、地位指 数和单株地积作为输入变量,以单木直径生长量作为输出变量,构建了马尾松人工林 单木生长神经网络模型,与常规模型的拟合精度8 3 - 9 3 相比,神经网络模型取得 了较好的拟合效果。网络模型的仿真结果显示,随相对直径和单株地积的增大,单木 6 2 国内外研究现状 胸径定期生长量逐浙增大,其变化细节与林木在林分中所处的空间位置相符合,说明 所建的单木生长神经网络模型能有效地描述林木生长随相对直径和林分密度指数的 变化规律。模型可供同类条件的林分在进行经营设计时进行有关的分析、计算、模拟、 预测等使用【l 7 1 。孙华( 2 0 0 7 ) 等利用人工神经网络( a n n ) 模拟了天鹅山林场景观 格局与森林景观类型所占面积百分比的关系,并对各景观类型面积所占百分比对景观 格局的影响进行了预测,为景观优化对策提供了一条新的思路。结果表明人工神经网 络方法非常适于研究森林景观格局驱动因素和森林景观格局的非线性对应关系,模型 体现了较高的可靠性和操作性1 1 8 】。 数据挖掘在森林资源管理中的应用 3 数据挖掘技术综述 3 1 数据挖掘概述 3 1 1 数据挖掘概念 数据挖掘是一个处理过程,它利用一种或多种计算机学习技术,从数据库的数据 中自动分析并提取知识。这种定义把数据挖掘的对象定义为数据库,而更广泛的说法 认为数据挖掘指在一些事实或观察数据的集合中寻找模式的决策支持过程。数据挖掘 的对象不仅是数据库,也可以文件系统或其他任何组织在一起的集合。简单的说,数 据挖掘是指从大量数据中提取或“挖掘”知识。因此,数据挖掘被大部分学者认为与另 一个常用术语知识发现( k d d ) 是等价的概念,人工智能领域( a i ) 习惯称知识发 现,而数据库领域习惯称数据挖掘。也有学者吧k d d 看作知识发现的完整过程,而 数据挖掘知识这个过程中的一个部分。本文更倾向于前一种观点,认为数据挖掘着眼 与从信息源的大量数据中提取人们感兴趣的知识。它是随着数据库技术的成熟和数据 应用的普及,人类积累的数据量高速增长,面对这种“数据丰富,但信息贫乏”的局面 应用而生的将数据中的重要模式进行提取的有效技术【l 9 1 。 数据挖掘与传统的数据分析( 如杳询、报表、联机应用分析) 的本质区别是数据挖 掘是在没有明确假设的前提下去挖掘信息并发现知识。数据挖掘所得到的信息应具有 先前未知、有效和应用三个特征。数据挖掘本质上是建模,这里的建模是广义的,例 如包括描述式建模。但区别是,数据挖掘的建模是自动化( 例如依靠机器学习) 或半 自动化的( 例如使用反复数据挖掘算法试验) ,而传统建模是“手工”式的,即需要科 技人员根据自己在各自领域的知识,根据专业知识去简历模型。 数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机 器学习、可视化和信息科学。此外,依赖于所用的数据挖掘方法,可以使用其他学科 的技术,如神经网络、模糊论、粗糙集合论、知识表示、归纳逻辑程序设计或高性能 计算。依赖于所挖掘的数据类型或给定的数据挖掘应用,数据挖掘系统也可以表示成 空间数据分析、信息检索、模式识别、图像分析、信号处理、计算机图形学、w e b 技术、商业、经济学或信息学的技术【2 0 1 。 3 1 2 数据挖掘的任务 数据挖掘的主要任务是对数据库中的海量业务数据进行抽取、转换、分析和模型 8 3 数据挖掘技术综述 化处理,从中提取辅助决策的关键性数据和隐藏的预测性信息。它能发掘数据间潜在 的模式,找出人们可能忽视的信息,以便于理解和观察的形式反映给用户,并给出基 于知识的决策分析意见和结论。数据挖掘最常见的任务主要包括一下几个方面:分类 及回归、聚类、关联分析、离群值检测及时间序列分析。按其作用不同又可归为两类: 预测性模式和描述型模式。分类和回归属于预测型模式,从数据中提取的知识能对未 知数据的某些性质进行预测;关联分析、聚类、离群值检验及时间序列分析属于描述 型模式,是对数据中隐含的规律通过模式形式描述出来【2 l 】【2 2 】。 分类与回归。分类与回归可以说是目前研究得最为充分的问题,数据挖掘的研 究主要集中在这类问题。分类的目的是提出一个分类函数或分类模型,该模型能把数 据库中的数据项映射到给定类别中的某一个。分类是找出一个类别的概念描述,它代 表了这类数据的整体信息,即该类的内涵描述,一般用规则或决策树模式表示。回归 方法与分类不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。 聚类。聚类将数据库中的数据根据相似度归纳为若干类别,即“物以类聚”

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论