




已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)ODM数据挖掘技术在塔河数字营林中的探索与研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
擅要 目前,数据挖掘各项技术的应用是国内外学术界的研究热点数据挖掘技术在许多 商业应用中都取得了十分理想的效果,但是在林业生产过程中,应用数据挖掘成功的例 子还不多见本论文以塔河数字林业信息化建设的项目为依托,以塔河= 类数据库为数 据源,以预测营林立地质量为挖掘目标,以0 f l c 提供的o d m 为数据挖掘工具,将数 据挖掘的各项技术与营林科学理论相结合,清晰的阐释了林业数据挖掘的流程,并比较 了当前数据挖掘的两类重点技7 卜一决策树分类技术和支持向量机分类技术在林业数据 挖掘中的应用,通过对两种分类技术所得预测结果准确度的对比分析,证明了本研究方 案应用决策树分类技术建立适地适树规则的可行性和准确性,同时通过对生成的决策树 进行优化处理、析取规则,建立了塔河林业局马林林场的适地适树规则集,为塔河林业 局开展科学营林工作提供决策数据挖掘的部分技术在林业数据挖掘流程中的具体应用 是本论文的着眼点和主要研究内容,本论主要包括以下几部分内容: 首先,本文介绍了数据挖掘的任务、原理、数据挖掘的基本流程以及各项挖掘技术 在林业中的应用现状 其次,本文介绍了应用在本次林业数据挖掘流程中各主要技术的原理,本次研究所 使用的数据挖掘技术主要包括主成分分析原理、最小描述长度( m d l ) 原理,决策树分类 技术和支持向量机分类技术 最后本文运用o r a c l e 提供的数据挖掘工具o d m ,以通过挖掘塔河林业局马林林场 立她因子吸取适地适树规则为倒,详细介绍了文中各项数据挖掘技术在林业数据挖掘中 的应用。并通过对两种应用结果准确度的对比分析证明了本文所采用的技术路线的可行 性和生成结果的准确性+ 美词数据挖掘;决策树;支持向量机# 最小描述长度 a b s t r a c t n o wt h ea p p l i c a t i o no fv a r i o u sd a t am i n i n gt e c h n o l o g i e si sb e c o m i n gt h eh o t i s s u ei nt h ea c a d e m i cf i e l dh o m ea n da b r o a d a p p l i c a t i o nd a t am i n i n gi nb u s i n e s s f i e l dh a sg a i n e dp e r f e c ts u c c e s s h o w e v e r , t h es u c c e s s f u la p p l i c a t i o ni nf o r e s t p r o d u c t i o nh a sr a r e l yb e e ns e e n t h i st h e s i sr e l i e so nt h ep r o j e c to fi n f o r m a t i o n a l c o n s t r u c t i o no fd i g i t a lf o r e s t r yi nt a h e b a s e so nt h es e c o n d d e g r e ed a t ab a s ei n t a h e ,t a k e st h ed e c i s i o no ff o r e s tm a n a g e m e n ta st h em i n i n go b j e c t i v ea n dt a k e s o d mp r o v i d e db yo r a c l ea st h et 0 0 1f o rd a t am i n i n g c o m b i n e dv a r i o u sd a t a m i n i n gt e c h n o l o g i e sw i mt h es c i e n t i f i ct h e o r yo ff o r e s tm a n a g e m e n t t h i st h e s i s c l e a r l ye x p l a i n st h ep r o c e s s i o no fd a t am i n i n go ff o r e s t r y , m a k e sac o m p e r i s o no n t h ea p p l i c a t i o no ft w oi m p o r t a n tt e c h n o l o g i e so fd a t am i n i n g - c l a s s i f i e ro f d e c i s i o nt r e ea n dc l a s s i f i e ro fs u p p o r tv e c t o rm a c h i n e t h r o u g ht h ec o m p a r i s o n a n a l y s i so ft h ee x a c tr e s u l t so ft h et w oc l a s s i f i e rt e c h n o l o g i e s t h i sm e i st e s t i f i e s t h ef e a s i b i l i t ya n dv e r a c i t yo f a p p l i c a t i o nt h ec l a s s i f i e ro f d e c i s i o nt r e et of o r e s t m e a n w h i l e ,t h r o u g ht h eo p t i c a lp r o c e s s i n ga n da b s t r a c t i n gp r i n c i p l eo fg e n e r a t i n g d e c i s i o n t r e e ,i t c o n s t r u c t sap r i n c i p l ec o l l e c t i o no fm a l i nf o r e s tf a r mi n t a h e ,w h i c hi ss u i t a b l ef o rl a n da n dt r e e ,a n dp r o v i d e sd e c i s i o nf o rs c i e n t i f i c f o r e s tm a n a g e m e n ti nt a h e t h ek e yp o i n t sa n dr e s e a r c hc e n t e ro ft h i st h e s i sa r e t h ea p p l i c a t i o no fv a r i o u sd a t am i n i n gt e c h n o l o g i e st ot h ep r o c e s s i o no fd a t a m i n i n go ff o r e s t r y i ti sm a i n l yc o n s i s t e do f t h ef o l l o w i n gp a r t s : f i r s t ,i ti n t r o d u c e st h et a s k 。t h e o r y , m a i np r o c e s s i o na n dp r e s e n ts i t u a t i o no f a p p l i c a t i o no f v a r i o u sd a t am i n i n gt e c h n o l o g i e si nf o r e s t r y s e c o n d , i ti n t r o d u c e st h em a i nt h e o r i e si nt h i sd a t am i n i n gp r o c e s s i o n i t c o n t a i n st h et h e o r yo fp r i n c i p a lc o m p o n e n ta n a l y s i s ,m d l ,d a t ad i s c r e t i z a t i o n , d e c i s i o nt r e ea n ds u p p o r tv e c t o rm a c h i n e a tl a s t ,u s i n gt h ed a t ai i l i n i n gt o o lo fo d mp r o v i d e db yo r a c l e ,t h i st h e s i s t a k e st h ed a t am i n i n gm o d e lo fm a l i nf a r mi nt a h ef o r e s tb u r e a ua sa ne x a m p l e a n di n t r o d u c e sd e l i b e r a t e l yt h ea p p l i c a t i o no fv a r i o u sd a t am i n i n gt e c h n o l o g i e si n f o r e s t r yd a t am i n i n g t h r o u g ht h ec o m p a r i s o na n a l y s i so ft h ev e r a c i t yo ft h et w o a p p l i c a t i o nr e s u l t s ,t e s t i f i e st h ef e a s i b i l i t yo ft h et e c h n o l o g i e sa n dt h ev e r a c i t yo f t h er e s u l t s k e y w o r d sf o r e s t r yd a t am i n i n g ;d a t am i n i n g ;d e c i s i o nt r e e ;s u p p o r t v e c t o rm a c h i n e ;m d l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得塞j 垦盎业大堂或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:髭请 签字目期:2 唧年叮月2 2 日 学位论文版权使用授权书 本学位论文作者完全了解盔宴垦盎些盘鲎有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查 阅和借阅,。本人授权盔当垦盎些盘堂可以将学位论文的全部或部分内容编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 礅涛 导师签名: 签字日期:夏t 嘲年口占月z z 日 学位论文作者毕业后去向:读礴 工作单位:咳1 缱爝 通讯地址:z l 臂如3 吕吕甚c l i c 【气 钐。,叭 多缸 签字醐叩“月夕目 电话: 邮编: l 绪论 1 绪论 1 1 课题研究的来源及背景 数字林业p 盈是对林业资源及其工程建设等相关现象统一的数字化表达与认识,它 是以林业数据为依托,用宽带网络连接数个分布式数据库,以虚拟现实技术为特征,实 现具有三维显示和无边无缝多级分辨率浏览的开放林业信息系统,用户可以根据自己的 需要实时的调用和获取自己有用的信息。 塔河林业局的数字林业示范工程是数字林业的一个子系统,在黑龙江省科技攻关计 划项目“面向数字林业应用软件技术的研究”中,数字营林又是数字塔河的一个重要的 组成部分。 当今,数据挖掘技术在各个领域都得到了飞速的发展,它是一门包含了统计学、人 工智能、数据库技术、机器学习和模式识别等多项技术的交叉学科,数据挖掘技术是指 从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的,人们 事先不知道的,但又是潜在有用的信息和知识的过程。拥有大量林业数据和信息资源的 塔河数字营林迫切的需要数据挖掘技术的进入,一方面塔河林业局经过长期的发展,已 经积累了海量的原始数据,这为数据挖掘技术的引入提供了坚实的基础。另一方面,由 于以往技术的落后使这些海量数据和资料分散在众多数据库中,由于没有人意识到这些 数据的潜在价值,这些数据的利用率很低,造成了数据的闲置。引入数据挖掘技术增强 科学营林的能力,支持塔河营林数字化信息的应用,积极为塔河林业局的营林工作提供 辅助决策成为亟待解决的问题。 1 2 论文研究的主要内容 本论文在对塔河营林规划进行深入地分析研究后,实施以下数据挖掘步骤:首先通 过陈述问题和设立目标来提出需要研究解决的具体问题,然后对塔河的营林数据进行收 集,从塔河林业局的二类数据库中抽取相关属性数据组建原始数据集,通过应用各种数 据挖掘的数据预处理技术对原始数据集中的属性数据进行预处理,采用数据标准化、去 除异常点、转换数据等方法来改进数据的可用性,经过以上各种数据转换服务得到一个 塔河营林的数据集市。在数据集市中选取特定年龄的优势树种的各项属性数据建立挖掘 目标数据集,然后针对组建的数据集选用决策树分类数据挖掘技术和支持向量机分类数 据挖掘技术,运用o r a c l e 数据库的数据挖掘组件o r a c l ed a t am i n i n g ( o d m ) 对塔河林业 局马林林场的立地因子进行实例挖掘、建立适地适树规则的集合,并通过对两种应用结 果准确度的对比分析证明了本文所采用的技术路线的可行性和生成结果的准确性。 1 3 论文研究的意义 黑龙江省是我国的林业大省,拥有丰富的森林资源,素有林海之称,因此在我省建 东北林业丈学母! 士学位论文 立“数字林业”具有特别重要的意义。 建设数字林业系统,可以将林业数据和应用领域数据有机地结合在一起,提供的数 据和信息将在政府的科学管理和宏观决策、林业资源利用、生态环境规划及建设、灾害 监测、全球变化、生态系统以及水文循环系统等方面得到广泛的应用,实现林业资源的 永续合理利用,实现社会、经济高速发展和自然、生态环境的有效保护,保证可持续发 展,可以产生巨大的社会效益和经济效益。 在造林树种和方案的选择上,传统的作法主要是根据专业知识和相关经验,对立地 条件进行定性分析后提出设计方案,有较大的主观经验性,并受到设计人员专业知识和 经验的限制,而且用这种手工方法进行造林设计费时费力,效率低下,难以对各种方案 进行快速反复比较。近年来,计算机在林业上的应用日益普及,但计算机辅助造林方案 的研究为数不多。【3 j 俞新妥等( 1 9 8 6 ) 应用b a s i c 语言开发出福建省闽北地区5 个主要用材 树种造林辅助设计系统:李芸生等( 1 9 9 0 ) 开发的以渭北黄土高原地区造林规划设计为内 容的计算机系统。这些软件受当时条件限制,适用范围比较狭窄,树种也十分有限。随 着计算机软件水平的提高,特别是数据挖掘、面向对象和可视化编程技术的成熟,使得 开发功能强大、简便易用的专家系统成为可能。将数据挖掘技术与营林技术相结合,在 对营林局数据库中的大量数据进行挖掘的帮助下,详细地研究树种数据和立地因子数据 之间的关系,挖掘隐藏的有价值的营林规则,并在总结林业生产经验和数学模型的基础 上,可以为营林技术决策提供高效的支持,能够大大提高造林设计的效率和决策的科学 性,为促进塔河营林、大力发展数字林业注入新的活力。 综上所述,本课题的研究具有很重要的理论意义和现实意义,具有较为广阔的应 用前景,同时具有较高的社会经济效益。 1 4 数据挖掘的现状 首先出现的术语是知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 而不是数据挖掘,数 据库中的知识发现( k d d ) - - 词首次出现在1 9 8 9 年8 月的第1 1 届国际联合人工智能学术 会议上。后来的相关学术会议也都以k d d 命名,个别使用“数据挖掘和知识发现”,但 是在数据库和工业领域一直都在使用“数据挖掘”一词。知识发现和数据挖掘是人工智 能、机器学习与数据库技术相结合的产物。1 4 】迄今为止,由美国人工智能协会主办的 k d d 国际研讨会已经召开了7 次,规模逐渐扩大,研究重点也逐渐从发现方法转向系 统应用,并且注重多种发现策略和技术的集成,以及多学科之间的相互渗透。 近年来,数据挖掘在研究和应用方面发展迅速,尤其是在商业和银行领域的应用与 研究得到了迅速的发展。从总体上,国外在数据挖掘领域中的研究内容十分广泛,在进 一步深化对知识发现方法的研究上已经取得了很多显著的成果,如h a n ,j a n df u ,y ( 1 9 9 5 ) 嘲等人对定量关联规则以及其他种类的关联规则的研究,m e h t a ,m ( 1 9 9 6 ) 嘲等人 针对大型数据库快速分类算法的研究,o w e n ,a b ( 1 9 9 9 ) 1 对分类与回归的管状邻域 的研究,f r i e d m a n ,j h ( 1 9 9 7 ) 哺1 对最邻近分类方法的改进等。在应用方面,数据挖掘 i 绪论 工具软件不断产生和完善,注意力集中在建立解决问题的整体方案上,而不是孤立的挖 掘过程。 在国内,许多科研单位和高等院校也在竞相开展数据挖掘的基础理论及其应用研 究,例如:模糊方法在知识发现中的应用;对数据立方体代数的研究;对关联规则挖掘 算法的优化和改造;非结构化数据的知识发现以及w e b 数据挖掘。但是在目前,数据 挖掘技术在林业中的应用研究基本上还处于起步状态。 东北林业大学硕t :学位论文 2 数据挖掘理论 2 1 数据挖掘的定义及原理 2 1 1 数据挖掘的定义 数据挖掘( d a t am i n i n g ) t 9 i 就是从大量的、不完全的、有噪声的、模糊的、随机的实 际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识 的过程。 数据库挖掘这一概念具有两个方面的含义:在技术上,它是从大量的、模糊的、随 机的实际数据中提取隐含在其中的,人们不可能直观地看到的重要信息和知识。应用 上,人们可以利用数据挖掘从数据库中提取辅助决策的关键知识,即从一个数据库中自 动发现相关的应用模式。数据挖掘是一类深层次的数据分析,它吸引人的地方就是能够 建立预测型而并非回顾型的模型。数据挖掘的结果必须是事先未知的,并且对决策有潜 在的价值。例如,从超市的大量交易数据中发现,购买啤酒的顾客通常会同时购买小孩 的尿布,如果将这两种商品放在同一销售区域,则可为客户提供便利,肯定会提高两者 的销售量。通过数据挖掘能够从数据库中抽取出来有价值的知识,并从不同角度以不同 形式表现出来,从而能使大型数据库这种丰富可靠的资源真正为人们所用。数据挖掘还 有一些其他中文译名,例如:数据开采、知识采掘、知识抽取、知识考察和资料挖掘 等。 据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索、查询 调用,同时还要对这些数据进行微观或宏观的统计、分析、综合和推理,用以指导实际 问题的求解,使企图发现事件问的相互交联,甚至利用已有的数据对未来的活动进行预 测。数据挖掘所依赖的数据来源多种多样,可以是常用的关系数据库、事务数据库、文 本数据库、多媒体数据库等,这主要取决于用户的目的及所处的具体环境。目前,数据 挖掘的数据主要取自关系数据库与数据仓库。 与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个包括好几层含 义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的、可接受、可理 解、可运用的知识,并不要求发现放之四海皆准的、仅支持特定发现问题的知识。实际 上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还 要能够易于被用户理解,最好能用自然语言表达所发现的结果。 2 1 2 数据挖掘的工作原理 数据挖掘是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,能 自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘 出潜在的、对信息预测和决策行为起着十分重要作用的模式,从而建立新的应用模型, 2 数据挖掘理论 以达到帮助决策者制定策略、做出正确决策的目的。数据挖掘技术涉及数据库、人工智 能、机器学习、模式识别、知识库系统、数据可视化、高性能计算、神经计算和统计分 析等多种技术,它使决策支持工具跨入了一个崭新的阶段。 2 2 数据挖掘的目标、任务及流程 2 2 1 数据挖掘的主要目标和任务 数据挖掘技术的目标是利用大型数据集中的未知模式和关系获得对所分析系统的理 解。在生产实践中,数据挖掘的两个基本目标往往是预测和描述。所谓预测是指通过分 析涉及到所使用数据集中的一些变量或域来预测其它被人们关心的变量的未知或未来 值,而描述所关注的是通过数据挖掘活动找出可以描述由人类解释的数据模式。由上所 述可将数据挖掘活动分为两类1 1 0 1 :预测性数据描述通过数据挖掘生成由己知数据集 描述的系统模型:描述性数据挖掘在可用数据集上生成新的,非同寻常的信息。 通过对预测性信息的描述建立预测型模型可预测未来数据的状态,预测型模型能 够完成的数据挖掘任务包括分类、回归、时间序列分析等。描述性数据挖掘建立的描述 型模型主要是对数据中的模式或关系进行辨识。与预测模型不同,描述型模型提供了一 种分析数据的性质的方法,而不是预溺新的性质。聚类、汇总、关联规则和序列发现在 本质上都通常被视为是描述型的数据挖掘。 数据挖掘的主要任务是从数据中发现潜在的模式。模式是一个用语言l 来表示的 表达式e ,它可用来描述数据集f 中数据的特性。e 所描述的数据是集合f 的一个子集 f e 。e 作为一个模式,要求自身比它列举数据子集f e 中所有元素的描述方法简单。例 如,“若某些林分的郁闭度在0 。5 o 6 之阅,则适合进彳亍预备伐”可称为一个模式,而 “若某些林分的郁闭度为0 5 l 、o 5 2 、0 5 3 、0 5 4 、0 5 5 、0 5 6 、o 5 7 、o 5 8 或o 5 9 则可 进行预备伐”就不能称之为一个模式l l l 】。数据挖掘的基本任务如下1 1 2 1 : 1 、分类 分类是一种具有预测学习功能的发现,此功能通过分类模式将一个数据项分到几个 预定义类中的一个中。分类模式是一个分类函数r 或称分类器) ,能够把数据集中的数据 项映射到某个给定的类上。因为在分析测试数据之前,类别就已经被确定下来,所以分 类通常被称作有指导学习。分类算法要求基于属性值来定义类别,通过观察己知属性类 别的数据特征来描述类别,其往往表现为一棵分类树,根据数据的值从树根开始搜索, 沿着数据满足的分支往下走,走到树叶就能确定该数据所属的类别。 分类模式经常被应用到处理森林资源数据中,例如分类模式可以对比不同地区、不 同林种的生长数据,从而得到这些地区分别属于哪些类别的自然区域、判定这些树种在 这些地区的适应性和所属范围等。 2 、回归 回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散 的,而回归模式的预测值是连续的。回归是指将一个数据项映射到一个具有真实值的预 东北林业大学硕f 。学位论文 测变量上。事实上,回归涉及学习一个可以完成该映射的函数。回归首先假设一些己知 类型的函数( 例如线形函数、l o g i s t i c 函数等) 可以拟合目标数据,然后利用某种误差 分析确定一个与目标函数拟合度最好的函数。 在应用回归方法时,其所含的变量组合越简单、数量越少,方程的稳定性就越好。 当摸不清变量之间是什么关系时,可多选几项,次要的变量可通过逐步回归的计算被剔 除。如用回归模式判定某树种树高的年增长量所属范围类别,是在0 5m 以下,还是在 o 5m 到1 0m 之间,还是在1 01 1 1 以上,这些类别就是根据这个方法得出的结论。 3 、聚类 聚类是一种普遍的描述性任务,通过寻求确定有限的一种类别来描述数据。除了类 别没有预先定义而由数据决定之外,聚类与分类很相似。聚类模式与分类模式是一个互 逆的过程。聚类模式把数据划分到不同的组中,组之间的差别尽可能大,而组内差别尽 可能小。与分类模式不同,在进行聚类操作前并不知道数据集将要被划分成几个组和什 么样的组,也不知道根据哪一个或哪几个数据项来定义组。一般来说,业务知识越丰富 的人越能理解这些组的含义,如果产生的模式无法理解或不可使用,则该模式可能是无 意义的,需要回到上阶段重新组织数据。 聚类模式分析通过分析记录数据,根据一定的分类规则,划分记录集合,确定每个 记录所在的类别。常用的方法有系统聚类法、分解法、加入法、动态聚类法、模糊聚类 法、运筹法等。 4 、关联建模 关联规则也称连接分析、亲和力分析或关联分析,是指揭示数据之间互相联系的一 项数据挖掘任务,而这种联系在数据中没有直接表示。关联模式是建立数据项之间的关 联规则。目前对定量关联规则以及其他种类的关联规则【1 3 1 的研究比较深入,通过关联分 析,可以从繁多的属性中找出分析者所关心的一个或多个属性之间的关联关系。例如: 通过历史数据找出在某地区与特定树种的生长密切相关的自然因素或人为管理措施,从 而帮助改进培育或抚育措施。 5 、序列分析 序列分析与关联模式相仿。它把数据之间的关联性与时间联系起来。序列分析或发 现用于确定数据之间的序列模式,这些模式与在数据中发现的相关的关联规则十分相 似,只是这些序列模式是与时间有关的。为了发现序列模式,不仅需要知道事件是否发 生,而且需要确定事件发生的时问。 在解决实际问题时,对于具有不同特点的数据,要选择最适合的数据挖掘模式,或 者同时使用多种模式。分类模式、回归模式、时间序列模式常被认为是有指导的知识学 习,因为在建立模式前数据的结果是己知的,可以直接用已知结果来检测模式的准确 性,模式的产生是在受监督的情况下进行的。聚类模式、关联模式、序列模式则是无指 导知识学习,因为在模式建立前结果是未知的,模式的产生不受任何监督。一般在建立 这些模式时,使用一部分数据作为样本,另一部分数据用来检验、校正模式。 2 数据挖掘理论 2 2 2 数据挖掘的流程简介 1 数据挖掘系统的组成 数据挖掘是指一个完整的知识学习过程,该过程从大型数据库中挖掘先前未知的, 有效的,可实用的信息,并使用这些信息做出决策或丰富知识。一个完整的数据挖掘系 统是由数据挖掘人员通过可视化接口运用数据挖掘工具操作于某个类型的数据库上而形 成的,数据挖掘系统的组成用下图2 1 表示: 圈2 1 数据挖掘系统 2 数据挖掘流程简介 数据挖掘过程中各流程的大体内容如下: ( 1 ) 选择挖掘目标,确定挖掘对象 通过对应用环境进行深入的研究和分析,详尽的了解现实需求,清晰地定义数据挖 掘需要解决的问题,认清数据挖掘的目的是数据挖掘的一个重要环节。挖掘结果的最后 结构可能是不可预测的,但要探索的问题应是可以总结预见的,为了数据挖掘而数据挖 掘带有一定的盲目性,是不会获得成功的。 ( 2 ) 数据准备 1 ) 数据的选择 对所有与挖掘目标对象有关的内部和外部数据信息进行搜集汇总,将其按一定规则 组织在一起并从中选择出适用于数据挖掘应用的数据。这一步是数据产生和收集的过 程。通常会有两种截然不同的可能。第一种是当数据产生过程在专家( 建模者) 的控制 之下时:这种方法被认为是“设计试验”。第二种情况是专家不能影响数据产生过程 时;这种方法被认为是“观察法”。观察设置,也就是数据随机产生,在大多数数据挖 掘应用中都被采用。具有代表性的是数据收集完成后取样的分布也是完全未知的,或者 说其分布是在数据收集过程中部分或者不明确给出的。但是,我们要理解数据收集是怎 样影响它的理论分布的,这一点相当重要。这样的先验知识对以前的建模以及后来对结 果的最终解释都是十分重要的。同样对于评估模型的数据以及后面用于测试和应用于模 型的数据,要确定它们来自同样的未知的样本分布也是很重要的。如果分布不同,那么 评估的模型就不能在最终的结果应用中成功地使用。 2 ) 数据的预处理 深入细致地研究所获得数据的质量,为进一步的数据分析做准备。同时确定将要进 行的挖掘操作的类型、所使用的挖掘技术,以及评价挖掘结果的方法。在观察设置中, 数据常常采集于已存在的数据库、数据仓库和数据集市中。数据预处理通常包括至少两 东北林业人学硕f 1 学位论文 个常见的任务: 异常点的检测( 和去除) 。异常点是与众不同的数值,这些数值和大多数观察值 不一致。一般来讲,异常点是由测量误差、编码和记录误差产生的,有时也来自于自然 的异常值。这种不具代表性的样本以后会严重影响模型的产生。对异常点一般有两种处 理方法一把检测并最终去除异常点作为预处理阶段的一部分或是寻找不受异常点影响 的健壮性建模方法。 比例缩放、编码和选择特征。 数据预处理步骤不应与数据挖掘的其他阶段完全独立起来考虑,在数据挖掘过程的 每一次迭代中,所有的活动加在一起都能为后面的迭代定义新的和改进的数据集,一种 好的预处理方法能为数据挖掘技术提供最佳陈述。 3 ) 数据的转换 数据转换的主要目的是消减数据维数或降维,即从特征集中得到真正有用的特征以 减少数据开采时要考虑的特征和变量数。这个过程将数据转换成一个分析模型,这个分 析模型是针对具体挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘 成功的关键。 ( 3 ) 数据挖掘 数据挖掘阶段的主要工作是确定挖掘的任务,如数据的总结、分类、聚类、关联规 则发现或序列模式发现等。确定挖掘任务后,就要决定使用什么样的挖掘方法。实现算 法的选择有两个需要考虑的因素:一是不同的数据有不同的特点,需要用与之相应的算 法来实现:二是要考虑用户或实际运行系统的具体要求,有的用户可能希望获取描述性 的、容易理解的知识,而有的用户或系统的目的是获取预测准确度尽可能高的预测型知 识。除了完善选择合适的挖掘算法外,其余一切工作都能自动地完成。 ( 4 ) 结果分析 数据挖掘阶段发现的模式,经过用户和机器的评价,可能存在冗余或无关的模式, 这时需要将其剔出。如果有的模式不满足用户的要求,需要将整个发现过程退回到发现 阶段之前,最终结果是要面向用户的,产生用户易懂的模式,一个模型的优劣决定着整 个挖掘过程的成败,其使用的分析方法一般应以具体数据挖掘操作而定,通常会用到可 视化技术。 ( 5 ) 知识的同化 从所得模型中提取规则,将分析所得到的知识集成到业务信息系统的组织结构中 去。 下图2 - 2 描述了数据挖掘的基本过程和主要步骤,在数据挖掘过程中被研究的业务 对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人 员完成数据挖掘的依据和顾问。在图2 2 中各步骤是按一定顺序完成的,当然整个过程 中还会存在步骤间的反馈。数据挖掘的过程并不是自动的,绝大多数的工作需要人工完 成,如:确定业务对象、数据准备、数据处理结果分析和知识的同化等过程。 2 数据挖掘理论 图2 - 2 数据挖掘过程 3 数据挖掘需要的人员 数据挖掘的过程是分步实现,不同的步骤需要具有不同专长人员的参与,他们大体 可以分为三类。 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于 数据定义和挖掘算法的业务需求。 数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需 求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。 数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。 由上可见,数据挖掘是一个多类专家合作的过程,也是一个在资金上和技术上高投 入的过程。这一过程要反复进行,在反复过程中不断地趋近事物的本质,不断地优化问 题的解决方案。 2 3 数据挖掘的功能和特点 2 3 1 数据挖掘的主要功能 数据挖掘能够通过预测未来趋势及行为,做出具有前摄的、基于知识的决策。数据 挖掘技术主要有以下五类功能: 1 预测趋势和判断行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题 如今可以直接迅速地由数据本身得出结论。一个典型的例子便是市场预测问题,数据挖 掘使用有关促销的历史数据来寻找未来投资中回报最大的用户,其它可预测的问题包括 预报破产以及认定对指定事件最可能做出反应的群体等。 2 关联分析 数据关联是数据库中存在的一类重要的、可被发现的知识。若两个或多个变量的取 值之间存在某种规律性,便称之为关联。关联可分为简单关联、时序关联、因果关联。 东北林业大学钡l 学位论文 关联分析的目的是在数据库中找出隐藏的关联网。有时并不知道数据库中数据的关联函 数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 3 聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观 现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方 法和数学分类学。近年来,聚类开始在大型数据库中得到研究,n g ,r 。和h a r t ,j b 4 1 基于随机搜索以及统计学中的两个聚类算法p a m 和c l a i 认,给出了一个适用于大型应 用的聚类c l a r a n s 算法。e s t e r ,m ( 1 9 9 6 ) 等人针对c l a r a n s 算法的缺点。提出了 改进技术,通过引入更为有效的空间数据库存取算法( 如b 树) 来提升c l a r a n s 算 法的性能。z h a n g ,t ( 1 9 9 6 ) 【i5 l 等人则提出了另一种聚类算法b i r c h ,这是一种很 好的聚类算法,具有很好的聚类品质以及对阶数的不敏感性。 4 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述 可以分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述了不同类 型对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成 区别性描述的方法很多,如有决策树方法、遗传算法等。 5 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括 很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的 偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意 义的差别。 2 3 2 数据挖掘的特点 从数据挖掘目前发展的现状中我们可以清楚地看到数据挖掘所关心的是从数据中得 到推论,该推论的目的可以是对相关模型的理解和数值之间因果关系的理解,或者是对 未来数值的预测和归纳,尽管数据挖掘所采用的一些处理方法与其他技术的处理方法相 同,但是数据挖掘仍然具有自己的特点f l 研: 1 模型的复杂性。在建模上数据挖掘的重点大多都放在“学习”上,对模型的复 杂性和需要的计算量较为关注,而很少放在大样本的渐进推论上【1 7 】。有一些问题涉及到 变量之间的相互作用,数据中并没有一目了然的简单关系,数据挖掘技术应有能力对复 杂的数据关系进行处理建模且更适合用于解决复杂的问题。 2 问题大型性。数据挖掘所涉及的数据集合远远大于统计分析等其他技术分析研 究的对象。数据挖掘是从实际的海量数据源中抽取知识,这些海量数据源通常是一些大 型数据库。由于数据挖掘使用的数据直接来自于大型数据库,数据的组织形式、数据规 模都具有依赖数据库的特点。特别的,数据挖掘处理的数据量特别巨大,数据的完整 性、一致性和正确性都难以得到保证。所以,数据挖掘算法的效率、有效性和可扩充性 2 数据挖掘理论 都显得至关重要。所以,充分利用现代数据库技术的优势成为提高数据挖掘算法效率的 有效途径。 3 变量的离散性。在实践中,涉及到连续和离散变量的数据集是非常普遍的,其 它数据处理技术大多数变量的分析方法是针对连续型变量模型的,但许多数据挖掘技术 只适合离散变量的分析,实际中些基于规则的方法只能使用离散型变量,这就需要将 连续变量离散化。 4 评价标准的有效性。在传统的数据分析方法中,评价一个方法的好坏的标准是 优良性分析,即在什么范围内,按什么标准,可以证明它是最优的。在一些情况下最优 解还有一些表达式,然而面对数据挖掘算法,想要论证什么算法是最优的,它的难度非 常大,因此评价的标准从优良性转变为有效性。一种算法所得的结果可在实践中被证明 是有效的。有时会用随机模拟来代替实践,这样有效性结果更能经得起实际的考验。 2 4 实施数据挖掘项目需考虑的问题 应用数据挖掘技术处理实际问题应从以下三方面加以考虑:一是数据挖掘的动机是 什么,即要用数据挖掘解决什么样的应用问题;二是如何为进行数据挖掘做数据准备工 作;三是要具体应用数据挖掘的哪种算法来解决实际问题,如何才能求解出最优答案。 数据挖掘的分析算法主要来自于以下两个方面:统计分析和人工智能( 机器学习、 模式识别等) 。数据挖掘研究人员和数据挖掘软件供应商,在这一方面所做的主要工作 是优化现有的一些算法,以适应庞大的数据量。另外需要强调的是,任何一种数据挖掘 的算法,不管是统计分析方法、神经元网络、各种树分析方法,还是遗传算法,没有一 种算法是万能的。不同的应用问题,需要用不同的方法去解决。即使对于同一个应用问 题,可能也会有多种解决方法,这个时候就需要评估对于这一特定问题和特定数据哪一 种算法表现的更好。 数据挖掘的研究人员,往往把主要的精力用于改进现有算法和研究新算法上。人们 都知道数据准备是必不可少的一步,但很少有人真正去花费时间和精力研究如何做好数 据准备工作。其实数据挖掘最后成功与失败,是否有经济效益,数据准备起到了至关重 要的作用。数据准备包含很多方面:一是扶多种数据源去综合数据挖掘所需要的数据, 保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的 思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据 挖掘者的分析经验和工具的方便性。 还需要强调的一点是,人们通常把数据挖掘工具看得过分神秘,认为只要有了一个 数据挖掘工具,就能自动挖掘出所需要的信息,就能更好地进行企业运作,这是认识上 的一个误区。其实要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,同时还 需要具有对具体业务的深入了解和数据分析经验。 具体地说,实施数据挖掘项目应考虑以下八个问题: 1 超大规模数据库和高维数据问题: 东北林业大学坝 :学位论文 2 数据丢失问题: 3 变化的数据和知识问题; 4 模式的易理解性问题; 5 非标准格式的数据、多媒体数据、面向对象数据处理问题; 6 与其他系统的集成问题; 7 网络与分布式环境下的k d d 问题; 8 个人隐私问题。 3 研究中应用的关键技术 3 研究中应用的关键技术 3 1 生成分分析原理 主成分估计【”l ( p r i n c i p a lc o m p o n e n te s t i m a t e ) 的本质是将以向量样本表示的初始数据 集转换为一个具有新的导出维度的向量样本集。转换的目标是将不同的样本中的信息集 中在较小的维度当中。其基本概念可描述如下:一个n 维向量样本集x = x l , x 2 ,x m 应 转换成另外一个相同维度的集y = y l y 2 ,y m ) ,但是y 将大部分信息内容存在前几维 中,这样就可以降低信息损失,将数据集减小到较小的维度。 这种变换的前提是高信息等于高方差。因此如果想要把输入集维度文规约为只有 一个维度y ,应通过矩阵计算将x 转换为y 。 y = a x ( 3 - 1 ) 选择一个矩阵a 使得y 对已知数据集的方差最大,在此转化中获得一维的y 叫做 第一主成分。第一主成分是最大方差方向的轴。它使数据点之间的距离平方和以及它们 在成分轴上的投影最小。如图3 - 1 所示,两维空间被转化为一维空自j ,一维空间中数据 集的方差最大。 图3 - 1 第一主成分是在最大方向上的轴 实际上矩阵a 不可能被直接确定,所以在特征转化中的第一步是计算协方差矩阵 s ,矩阵s 的定义为: 如南 喜( x ,- - x 九x , - x ) 】其中z = e ) 喜巧b z , 已知数据的协方差矩阵s 的特征应当在下一步中计算。最后,与m 个最大的特征 值相对应的m 个特征向量定义了n 维空间向m 维空间的线性转换。在转换后的m 维 空间中,特征彼此之间是不相关的。要说明主成分分析还需要在下面附带解释矩阵s 中 的一些符号: 一 东北林业大学坝上学位论文 1 & 。的特征值是h ,k ,k ,其中九j 2 九之执2 0 2 特征向量e l e 2 ,e n 对应的特征值x l ,k ,k ,它们叫做主轴。 主轴是新的转换后的n 维空间轴,新变量是互不相关的,第i 个成分的方差等于第 i 个成分的特征值,因为k 要经过分类,数据集中的大多数信息都集中在少数主成分 中,因此,数据集的有效维度应有多大就成为急需解决的问题,通常解决的方法是分析 方差的比例。用前m 个特征值之和除以所有方差( 特征值) 之和,得到了一个基于前 m 个主成分的表述质量的度量标准。结果以百分数的形式表示,比如,如果投影超过方 差的9 0 ,就可以认为是合适的。用下面的方式可提供一个正式的表示比率。特征选择 的标准是根据s 的m 个最大特征值之和与s 的交点的比率来确定的,它是保留在m 维 空间中的方差的一部分。如果特征值被标明h ,k ,k ,比率可写成: r = 匹划a d i = lt = l 。 当比率r 足够大时( 大于某个阔值) ,m 个特征的子集的所有分析都是一个n 维空 问的合适的初步的估计,这种方法计算上的开销不大,但是需要用协方差矩阵s 来描述 数据的特性。 3 2 最小描述长度原理1 1 9 l 最小描述长度原理是j r i s s a n e n 2 0 i1 9 7 8 年提出的统计推断原理,随后在j r i s s a n e n 的指导下,e g n m w a l d l 2 1 1 和a b a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全支付协议设计-洞察及研究
- 中学美术课堂教学设计方案
- 家庭绿植养护协议
- 制造业标准化生产管理方案
- 会议酒店合同协议样板解读
- 中医药馆服务质量提升方案
- 互联网服务合同范本与条款解析
- 物业服务合同条款详解及签订注意
- 新技术专利应用与合同违约责任
- 田径赛跑心理辅导指导方案
- 教师选聘笔试题目及答案
- 装修公司工长管理制度
- 2023中国铁建投资集团有限公司公开招聘笔试参考题库附带答案详解
- 云南省怒江傈僳族自治州本年度(2025)小学一年级数学部编版质量测试(下学期)试卷及答案
- 监理文件档案资料整编及管理细则
- 小学二年级家庭教育指导
- CJJ1-2025城镇道路工程施工与质量验收规范
- 室内装饰装修安全技术交底模板
- 班会课件:逆风飞翔破茧成蝶-从《哪吒之魔童闹海》看青春期的成长与责任
- 2025年“雄鹰杯”小动物医师技能大赛备考试题库(含答案)
- 2025年恒丰理财有限责任公司招聘笔试参考题库含答案解析
评论
0/150
提交评论