




已阅读5页,还剩65页未读, 继续免费阅读
(计算机应用技术专业论文)基于粗糙集与神经网络方法结合的知识发现应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于粗糙集与神经网络方法结合的知识发现应用研究 摘要 粗糙集理论是p a w l a k 教授在2 0 世纪8 0 年代提出的一种处理不确定性和 含糊性知识的数学处理工具。知识约简是其中的核心内容,是在保持分类能力 基本不变的情况下,获得系统的约简属性和分类规则。 人工神经网络通过模拟神经元进行学习,使建立的模型具备智能。它的学 习过程主要通过调节权值和域值,达到学习的目的。人工神经网络可以实现分 布式信息存储及并行协同信息处理,使信息处理和存储相结合,对信息的处理 具备自组织的特点。 粗糙集和神经网络在现实中都已得到广泛的应用。但是,粗糙集对数据中 出现噪声比较敏感,而神经网络对于在数据中存在过量冗余信息时将导致训i 练 过度。本文融合粗糙集和神经网络各自的优势,将粗糙集理论和神经网络方法 相结合进行研究。 本文主要工作如下: ( 1 ) 对信息系统的约简问题进行了阐述,介绍了属性约简的分辨矩阵方 法和基于信息量的方法。提出基于分支限界思想的属性约简方法,并运用u c i 数据实现了约简属性获取。 ( 2 ) 介绍了b p 神经网络的学习训练方法,探讨了b p 算法的改进方法, 并在m a t l a b7 0 环境下,使用l m ( 1 e v e n b e r g m a r q u a r d t ) 算法实现了神经网络 模型的建立。 ( 3 ) 本文将粗糙集和神经网络方法相结合,首先用粗糙集获取信息系统的 约简规则,再把规则送神经网络,建立r o u g h s e t n n 模型。运用实验数据实现 了一个r o u g h s e t n n 模型,并应用该模型对给定立地条件的杨树生长状况进行 了预测。 关键词:知识发现,粗糙集,属性约简,神经网络,规则约简 s t u d yo nk n o w l e d g ed i s c o v e r ya n d i t sa p p l i c a t i o n s b a s e do nt h er o u g hs e ta n dn e u r a ln e t w o r k a b s t r a c t r o u g hs e tt h e o r y ,w h i c hw a sp r o p o s e db yp a w l a k i n e a r l y1 9 8 0 s ,i s a m a t h e m a t i c a lt o o lo fd e a l i n gw i t hu n c e r t a i na n dv a g u ei n f o r m a t i o n k n o w l e d g e r e d u c t i o ni st h ec o r eo fr o u g hs e t i to b t a i n st h er e d u c t i o na t t r i b u t ea n d c l a s s i f i c a t i o nr u l e sw h i l eh o l d i n gt h ea b i l i t yo fc l a s s i f i c a t i o nu n c h a n g e d n e u r a ln e t w o r ko b t a i n sk n o w l e d g eb ys i m u l a t i n gn e u r o na n dt h ee s t a b l i s h e d m o d e li si n t e l l i g e n t t h em a i nl e a r n i n gp r o c e s si sa d j u s t i n gt h ew e i g h ta n db i a so f t h en e u r o nn o d e n e u r a ln e t w o r kc a nb e a p p l i e d t or e s t o r et h ed i s t r i b u t e d i n f o r m a t i o na n d p r o c e s s t h e p a r a l l e l a n d c o o p e r a t i n g i n f o r m a t i o n i ti s s e l f o r g a n i z e da n dc o m b i n e sm e s s a g ep r o c e s s i n ga n di n f o r m a t i o ns t o r a g e r o u g hs e tt h e o r ya n dn e u r a ln e t w o r ka r ew i d e l yu s e d h o w e v e r ,r o u g hs e ti s s e n s i t i v ew i t hn o i s ed a t a ,a n dn e u r a ln e t w o r ki so v e r t r a i n e dw h e nt h e r ea r em a n y r e d u n d a n td a t ai nd a t as e t t h i st h e s i sc o m b i n e st h et w om e t h o d s m e r i t ,s t u d i e s r o u g hs e tt h e o r ya n dn e u r a ln e t w o r kj o i n t l y t h em a i nw o r ko ft h i st h e s i si n c l u d e s : ( 1 ) t h er e d u c t i o nm e t h o d so fk n o w l e d g ea r ei n t r o d u c e d ,t h em e t h o db a s e do n e x c l u s i v e o rm a t r i xa n dt h em e t h o db a s e do ni n f o r m a t i o nc o n t e n ta r ep r e s e n t e d t h er e d u c t i o nm e t h o db a s e do nt h eb r a n c hb o u n d i n gi d e ai s p r o p o s e d i t i s i m p l e m e n t e db yu s i n gt h eu c id a t a s ( 2 ) t h el e a r n i n ga n dt r a i n i n gm e t h o dw i t hb pn e u r a ln e t w o r ki si n t r o d u c e d t h e i m p r o v e da l g o r i t h mo fb pn e t w o r ki sp r e s e n t e d t h em o d e lo fn e u r a ln e t w o r ki s e s t a b l i s h e db yu s i n gt h el ma l g o r i t h mi nm a t l a b7 , 0 ( 3 ) t h i st h e s i sc o m b i n e sr o u g hs e tt h e o r ya n dn e u r a ln e t w o r kp e r f e c t l y f i r s t l y , t h er e d u c t i o nr u l ei sg a i n e db yr o u g hs e tt h e o r y t h e n ,t h er u l e sa r es e n tt on e u r a l n e t w o r k ,a n dt h em o d e lo fr o u g h s e t - n ni se s t a b l i s h e d t h es t a t i s t i c a ld a t ao f p o p l a rt r e e sg r o w t hi sh a n d l e dw i t ht h i sm o d e l ,a n dt h ep r e d i c t i o no fp o p l a rt r e e s g r o w t hc a nb eo b t a i n e dw i t hi t k e yw o r d s :k n o w l e d g ed i s c o v e r y ,r o u g hs e t ,a t t r i b u t er e d u c t i o n ,n e u r a l n e t w o r k s ,r e d u c t i o nr u l e 插图目录 图2 。1k d d 的处理过程9 图3 1 信息系统的解空间树2 6 图4 1 神经数据网络模型| 3 3 图4 2 人工神经元模型3 3 图4 3 三层b p 网络的拓扑结构一3 5 图4 4b p 算法流程3 6 图4 5 误差反向传播的图形解释。4 0 图4 6 神经网络收敛曲线图4 5 图4 7 神经网络收敛曲线图4 6 图5 1r o u g h s e t n n 模型框架4 9 图5 2 神经网络训练收敛图5 5 国5 。3 神经网络浏试误差图5 5 图5 4r o u g h s e t n n 模型系统进入界面5 6 图5 5 数据录入模块5 6 图5 6 数据预处理模块一5 6 图5 7 属性约简图5 7 图5 8 规则约简图5 7 图5 9 神经网络处理模块5 7 图5 1 0 误差曲线图5 8 表格目录 表3 1 信息系统决策表2 0 表3 2 信息系统约简表2 1 表3 3u c i 数据约简2 8 表5 1 杨树生长情况统计表5 2 表5 2 部分约简规则表5 4 表5 3 部分神经网络测试用例5 4 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究j 二作及取得的研究成果。据我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得 金目b 王些太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:关亥者、签字日期:“年历盯日 学位论文版权使用授权书 本学位论文作者完全了解盒罂王些盔堂有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权盒照王些太堂可 以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名关云乏导师签名 签字日期:6 9 年g 月厅日 签字日期 学位论文作者毕业后去向 工作单位: 通讯地址: 电话: 邮编: 致谢 本文是在我的导师胡学钢教授的悉心指导下完成的,衷心感谢胡老师在整 个论文阶段给予的指导和帮助。胡老师不仅学识渊博,治学严谨。而且思想开 明,实事求是。在胡老师的关怀和教导下,我不仅学到了知识,更重要的是学 到了思想,领悟到了许多为学的道理,促进了我学业上的进步,促成了本论文 的完成。在此,向胡老师表示崇高的敬意和衷心的感谢。 感谢合肥工业大学计算机与信息学院人工智能实验室的各位老师和同学。 在本论文选题阶段,我多次参加了胡学钢老师和王浩老师共同组织的研究生交 流学习讲座,使我深受启发,并由此最终确定了选题方向。与他们的讨论使我受 益匪浅。感谢安徽农业大学信息与计算机学院各位领导及同事的关心和帮助。 在此,我也感谢我的家人,是他们的鼓励、支持与奉献,使我能够顺利完成 本文的研究。 最后,感谢所有对论文提出宝贵意见的老师和同学,感谢在百忙之中评阅 论文和参加论文答辩的各位专家。 谨以此文献给所有关心和支持我的人们。 第一章绪论 随着林业的规模化发展,传统的植树造林技术很难满足目前的要求。信息 技术水平的提高,使得运用计算机知识实现林业领域方面的决策判断成为可能。 本章首先介绍问题的研究背景,探讨课题涉及的课题来源、应用领域和林业立 地条件问题,然后阐述本文的主要研究内容和研究目标,最后介绍本文的结构 安排。 1 1问题提出 现代社会,人类越来越意识到了环境对人的重要性,随着现代技术的发展, 人类在发展自身的同时也付出了极大的代价,生态环境发生了很大的变化极大 的恶化,臭氧漏洞的扩大、全球气温的升高、气候的异常、龙卷风沙尘的出现 都对人类社会产生了极大的不利影响。森林作为空气的有效净化工具越来越受 到人们的重视。林业是国民经济的重要组成部分,绿地面积的减少、沙漠面积 的扩大受到了人类的普遍关注,积极发展造林事业,增加森林资源,不仅能够 生成大量的木材和林副产品,还可以涵养水源、净化空气,保持水土、防风固 沙、调节气候、防止污染,保障和促进农、牧业发展,保持人类生活环境,具 有多种直接和间接的效益,对于我国高速度发展国民经济具有重要的意义。围 湖造林、湿地造林、荒山植树,是我们所能够使用的增加森林面积的最有效的 办法。 造林学是论述营造和培育森林的理论和技术的一门学科。在无林或原来不 属于林业用地的地方造林,称为人工造林;在原来生长森林的迹地( 采伐迹地、 火烧迹地等) 造林,称为人工更新。两者都属于造林的范畴。造林研究的内容 包括:良种壮苗的生长、在无林地造林、人工林和天然林的主伐更新、幼林及 成林的抚育采伐等的理论和技术。但是究竟什么样的土地、什么样的气候、什 么样的环境适合什么类型的森林、以及在造林的过程中如何安排树木的距离、 层次关系以适合树木生长,提高土地的利用率却是需要认真加以研究的,否则, 环境的不适可能造成树木生存的不适,进而就不能够起到真正要造林改变环境 的作用。 另外,由于有些地区只重视栽培速生树种,如杉木、马尾松等,强调速生 丰产林的生产作用,致使部分地区的人工林组成和结构单一,松材线虫病、马尾 松毛虫等病虫害频繁发生。结合乡土树种造林,不仅可发挥本地资源优势,有 利于生物资源多样性的保护,防止病虫害的发生和蔓延,改善生态环境,是生 态环境保护的重要内容之一。 目前计算机技术已经被广泛地运用在土地资源管理、治沙科学、以及造林 等各个方面中,如沙地资源开发和土地利用规划中利用电子计算机可以进行多 种规划方案的比较,获得最优方案,从而可以合理分配土地,节约人力、物力、 财力和其它有限资源,以最小的投人,获得最大的产出。另外,应用数理统计 学的回归方法找出环境因子中影响造林成活率的主导因素,从而得出造林保存 率与影响因素的回归方程,为提高造林保存率提供科学依据。 运用计算机知识,可以结合林业科学,实现工程造林施工设计,提供园林 设计规划方案,可以在造林过程中结合已有经验进行设计具体的施工流程、对 施工进行指导;可以以遥感技术、地理信息系统及全球定位系统为基础实现森 林精准检测,进行森林信息查询,获知其中的如面积、分布特征、质量、长势、 蓄积、生产量等等信息;可以实现林业资源信息的快速采集和处理,为林业决 策提供强有力的基础信息资料和决策支持;可以实现森林和农业、草原、水域 等生态系统的综合控制和管理;可以对森林树木病虫害进行统计,通过计算机 技术和已有经验结合建立专家系统,实现对病虫害的诊断和治疗。 在农业信息化的今天,农业已经发展为集约化、规模化,对于造林来说, 已经变成了规模工程,造林人可能对造林的认识并不深刻、不够了解,他们常 常缺乏这方面的专业知识,很难做出决策判断。利用现代化的科学技术( 例如 遥感技术) 可以获取大量的林业信息,但是需要分析的数据量和数据的属性量 都是很巨大的,对此,造林人往往无法很好的利用信息技术带来的这一巨大信 息量,我们需要运用机器学习技术方法对获得的信息进行处理,找到其中隐含 的信息规律,为农业信息化提供良好的技术支持。 针对上述问题,本文结合江淮流域的杨树生长的调查统计情况进行分析, 把机器学习方法与传统林业信息决策相结合。运用粗糙集理论和神经网络知识 来研究在江淮流域杨树的适地生长情况,建立模型,对今后江淮流域的杨树造 林提供决策结果,作为参考依据。 1 2 林业立地条件 造林学【3 “4 0 j 是论述营造和培育森林的理论和技术的学科。造林要进行立地 条件分析和立地条件类型划分,进行造林树种的选择,进行适地适树以及如何 进行的途径、标准,密度安排及种植点的配置,种间关系及相互作用形式,造 林整地,造林方法,人工林抚育采伐。抚育采伐的种类和方法,人工林抚育采 伐的技术要素,抚育间伐的效果,低产林分的改造及森林的主伐更新。造林要 结合植物学、土壤学、生理学、气象学、树木学、林木病理、昆虫学、测树学、 林木遗传育种学及林木种苗学等为论域知识。 1 立地条件:又称立地,是指林业用地上体现气候、地质、地貌、土壤、 2 水文、植被、生物等对林木生存、生长有重大意义的生态环境因子的综合。立 地条件涉及到多方面的因素,比如:地形( 如海拔、坡向、坡形和部位、坡度、 小地形等) ,土壤( 如土壤种类、土层厚度、酸碱度、结构、土壤养分组成、含 盐量等) ,水文( 如地下水位深度及季节变换、地下水的矿物度及其盐分组成、 地表水侧方浸润情况等) 、生物( 如造林地上的植物群落名称、结构、盖度、病 虫害情况、微生物情况等) ,人为活动等等系列的诸多因素。 立地条件类型指具有相同或相似的气候、土壤、生物条件的各个地段的总 称。把立地条件及其生长效果相似的造林地归并成为类型即立地条件类型。简 称为立地类型,是立地分类中最基本的单位。 立地分类是指对林业用地的立地条件、宜林性质及其生产力的划分。然后 在此基础上,科学地确定造林营林措施,以期达到造林营林的生态、经济目的。 林业区划根据当地国民经济发展的需要和林业所占地位,合理确定当地的 林种区划。比如,防护林、用材林、经济林、薪炭林、特用林等地划分、区 划。 造林区划是在林业区划的基础上,根据实施林种的需要,科学地确定造林 所用的乔灌木树种以及与之相关的一系列造林、营林技术措施。 2 立地条件划分 ( 1 ) 森林植物带的划分 森林植物带:在较大的地理范围内,由于降水和热量的地带性分布,导致 了士壤、植被也有相似的地带性分布。这种气候、土壤、植被的规律性分布按 其同异性划分为带,即为森林植物地带。它综合反映了环境条件与森林植物之 间的关系。 ( 2 ) 立地条件类型划分 1 ) 立地条件分析与评价: 造林地的主要立地因子重要包括: 地形:海拔、坡向、坡位、坡度、坡形、小地形; 土壤:种类、厚度、性质、母质、发育程度、侵蚀程度、腐殖质含量; 水文:地下水位高低、矿化度、季节变化,积水状况,土层含水量及变化; 生物:植被状况,病虫害,微生物: 人为活动:土地利用历史、现状。 特殊因素考虑;风口;土壤、地下水、大气污染:特殊小地形;特殊元素 含量:冲淤状况。 根据合理确定的指标对立地质量作出判断。立地评价包括四个方面的内容: 用什么指标来评价立地质量;如何估计评价指标:评价要求达到怎样的精度: 如何直观地表达评价结果。 各生态因子独立及相互影响形成现有的综合环境条件:要考虑极端限制因 3 素的作用;地形对环境因素有极强的再分配作用,要予以充分注意。如:坡向 水分,海拔温度,坡位土层厚度 需要主导环境因子情况分析,逐个分析各环境因子与植物必需的生活因子 之间的关系,找出造林地上对林木生长影响最大的因素。光照,热量,水分, 养分,土壤通气:找出对林木生长有极端限制作用的因子,如干旱,严寒,强 风,盐碱化,高紧实度,污染。 对立地质量也要进行分析,使用直接指标进行评价;材积量、生长量、生 物量;立地指数或平均高生长;年、季、月的土壤含水量( 干旱地区) :分析生 长指标与立地因素之间的数量关系,预测不同立地的生长。植物或植物群落的 指示意义。人为干扰频繁的地区受限制。 2 ) 立地类型划分的依据: 林木一环境之间有着一定的关系:环境相对稳定,起决定性的作用;植物 的指示意义不大,以非生物的环境因子作为划分的依据:地形与土壤占有突出 地位;划分的类型要反映主导因子的异同性i 在植被较好的地区可以把植被作 为划分立地的补充依据;林木生长状况应作为检验划分结果的主要依据。 立地类型划分过程中要结合一定的依据:多因子综合;主要依据地形和土 壤:植被作为参考,林木生长作为验证。 在一块造林地上作用于林木生长的因素如此之多,如果一个一个并列起来, 似乎很难理清头绪,我们可以考虑借助计算机的帮助,通过对已有知识统计建 立模型,为今后的分析提供依据。 1 3 本文的课题来源及研究内容 本课题来源于安徽省教育厅自然科学研究项目( 2 0 0 3 k j l l 4 ) “面向农业的 空间数据挖掘研究”。在林业中,运用知识发现中机器学习有关方法可以进行森 林资源与环境空间信息系统开发:研究森林资源调查与检测中的空问数据质量、 信息系统开发、信息共享、信息更新与维护,知识发现和数据挖掘技术等技术 和方法,逐步建立完接的信息系统平台,实现森林资源与环境检测、管理的自 动化,并以此为基础建立智能的空间决策支持系统。 在人工林进行造林选种中,相比其他林种,杨树生长快,成材期短,繁殖 容易,用途广泛,它的经济价值较高,是我国平原及圩区的主要造林树种,杨 树人工林面积目前已经占全国人工林面积的1 5 之上,而我国杨树人工林面积 又是世界各国杨树人工林总面积的4 倍。但是,杨树在不同的立地条件下,生 长情况却有着较大的差别,如果盲目造林,势必造成达不到预期目的的损失。 本文主要结合实例探讨机器学习技术方法在林业系统的造林中的应用。针 对我们所获取的江淮流域地区杨树的生长调查分析情况数据,运用计算机技术, 4 使用粗糙集理论和神经网络理论来对数据进行分析和处理,建立完整的杨树信 息知识发现模型r o u g h s e t n e u r a ln e t w o r k ( r o u g h s e t ,n n ) 模型:先对初 始数值数据进行定性化分析形成初始决策表,利用规则约简技术得到该决策表 的约简规则,最终把规则送神经网络进行学习训练得到神经网络模型,并对运 用该模型实现测试和预测。 在神经网络的实际应用中,8 0 9 0 的神经网络模型都是采用b p 网络及其 变化形式。 b p 网络采用误差反向传播算法( e r r o rb a c k p r o p a g a t i o n ) ,是神经网络 中最有效、最活跃的一种方法。由实践证明,对于任意闭合区间连续函数都可以 用含有一个隐含层的b p 网络来逼近。因而采用三层b p 网络对杨树生长情况进 行预测可以有效的刻画其具有的不确定、多输入、复杂的非线性特征。m a t l a b 神经网络工具箱就是以人工神经网络为理论基础,用m a t l a b 构造出神经网络 所涉及的公式计算、矩阵操作等大部分子程序,用于设计和训练,使用户从繁杂 的程序设计工作中解脱出来。 1 4 本文的结构安排 本文共分六个章节,按照先基本理论后介绍系统的顺序介绍了运用粗糙集与 神经网络方法结合生成的智能林业决策系统。本文的整体结构安排如下: 第一章介绍了课题的来源及林业决策的立地条件,然后介绍了全文的研究目 标及结构安排。 第二章主要讨论了知识发现有关概念和知识发现中常用的枕器学习方法和 技术。结合传统林业决策系统的特点及不足,分析了采用机器学习的方法及技术 实现智能林业决策系统的必要性,运用智能林业决策系统可以有效的降低因为专 业知识不足或主观方面的原因所造成的决策失误。 第三章介绍了数据预处理概念和技术以及粗糙集约简的相关知识。对于原始 数据,杂乱、不完全、存在噪声、不完整,需要进行集成、清理、变换和简化。 粗糙集方法不仅能够在缺少数据先验知识的情况下,仅仅以对观测数据的分类能 力为基础,解决模糊或不确定数据的分析和处理,而且算法简单,易于操作。本 文主要探讨了粗糙集中的等价关系、不可分辨关系、上下近似、属性的依赖度、 属性重要性、以及利用分辨矩阵约筒和利用信息量约简。本文把分支限界的思想 与属性约简相结合,提出了基于分支限界方法的属性约简技术,该方法是一种在 问题的求髂空闻进行约简获取的算法技术,可以实现获取所有约简,保证知识的 完备性, 第四章先介绍了神经网络的工作原理,运用人工神经网络可以实现模型建 立,实现函数逼近、决策分析、模式识别等方面。神经网络通过模拟生物神经元 组织处理多输入数据,进行线性和非线性的计算产生输出数据,本章节主要介绍 了b p 神经网络进行前向计算以及误差反馈原理和具体的学习算法。并运用u c i 数据进行了实验,把约简前后数据分别送神经网络建立了模型。 第五章比较了粗糙集理论与神经网络理论进行学习的相同与相异之处,分析 两者结合的可行性。将粗糙集与神经网络方法相结合,利用r o u g h s e t n n 算法 首先用粗糙集获取信息系统的约简规则,再把规则送神经网络建立林业决策的 r o u g h s e t n n 模型。本章使用了“江淮地区杨树生长情况统计数据”结合 r o u g h s e t n n 算法实现了r o u g h s e t n n 模型的建立,运用该模型可以实现给定 立地条件的杨树生长情况预测。 最后在第六章总结全文。对本文所作工作进行了总结,并提出今后工作的方 向。 第二章知识发现概述 本章主要介绍知识发现理论的产生和发展。首先简介知识发现的提出背景、 研究对象及研究现状;接着探讨知识发现过程中机器学习的基本方法、技术及 常见问题,最后分析运用机器学习方法实现林业智能决策的优点。 2 1知识发现的起源和发展 知识发现是从数据集中抽取和精化新的模式。知识发现的范围涉及到很多 方面,如经济、工业、农业、军事、社会、商业、科学的数据或卫星观测到的 数据。知识发现的结果可以表示为法则、规则、科学规律、方程和概念网等。 数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 是近年来随着数据 库和人工智能技术的发展而出现的,是针对目前应用广泛的关系型数据库的知 识发现,关系数据库具有统一的组织结构,一体化的查询语言,关系之问及属 性之间具有平等性等优点。1 9 8 9 年,f a y y a d 首先提出了k d d ,他把k d d 定义 为“k d d 是从数据集中识别出有效的、新颖的、潜在可用的,以及最终可以理 解的模式的非平凡过程”。【“2 9 】 k d d 主要采用机器学习算法或统计方法进行知识学习,一般将k d d 中进 行知识学习的阶段称为数据挖掘( d a t am i n i n g ) 。数据挖掘是k d d 中的一个非常 重要的处理步骤。人们往往不加区分地使用两者。一般来说,在工程应用领域 多称数据挖掘,而在研究领域人们则多称为数据库中的知识发现。数据挖掘 ( d a t am i n i n g ) 就是就是对观察到海量数据集合进行分析,目的是发现未知的 关系和以数据拥有者可以理解并对其有价值的新颖方式进行数据总结【7 。8 】。数据 挖掘经常被置于更广阔的数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 也就是k d d 的大背景下。 机器学习是用计算机模拟人类学习的一门科学,始于六十年代末,真正发 展是在七十年代末。1 9 8 0 年,在美国召开了第一届国际机器学习研讨会,1 9 8 4 年,机器学习杂志问世。我国也很快跟上了国际步伐,在1 9 8 7 年召开了第 一届全国机器学习研讨会,1 9 8 9 年成立了全国机器学习理事会。机器学习通过 对数据对象之间关系的分析可以提取出隐含在数据中的模式,即知识。正是 由于实际工作的需要以及相关技术的发展,将机器学习应用于大型数据库中, 即数据库中的知识发现( k d d ) 逐渐发展起来。 k d d 是数据库与人工智能相结合地产物。有关k d d 的问题和术语是在 1 9 8 9 年召开的第1 1 届国际人工智能联合学术会议( i j c a i ) 上首次提出。在这 届学术会议上举行了以k d d 为主题的学术研究会,在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年相继举行了k d d 专题研究会。随着k d d 在学术界和工业界的影响越来越大, k d d 组委会于1 9 9 5 年把专题讨论会更名为国际会议,并在加拿大召开了第一 届知识发现和数据挖掘国际学术会议,此后每年召开一次。 美国人工智能协会主办的k d d 国际研讨会已召开了7 次,人数由二三十 人发展到七八百人,论文收录比例从2 :1 到6 :1 ,研究重点也逐渐从发现方 法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的 相互渗透。其他内容的专题会议也将数据挖掘和知识发现列为议题之一。目前, 数据挖掘不仅被许多研究人员看作是数据库系统和机器学习方面一个重要的研 究课题,而且被许多工商界人士看作是一个能带来巨大回报的重要领域1 1 0 】。从 数据库中发现知识可以用在信息管理、查询响应、决策支持、过程控制等许多 方面。k d d 是从大量数据中提取可信的、新颖的、有效的并能够被人理解的模 式的处理过程,这种处理是一种高级的处理过程。 知识发现既包括对数据、模式、方法等研究,也包括处理过程、知识的有 效性、可信度研究。知识发现的研究对象包括: 数据:数据是指一个有关事实f 的集合( 如学生档案数据库中有关学生基 本情况的各条记录) ,它是用来描述事物有关方面的信息,一般来说这种数据都 是准确无误的。 模式:对于f 中的数据,可以使用语言l 来描述其中数据的特性。表达式 e c l ,e 所描述的数据是集合f 的一个子集f e 。只有当表达式f 比列举所有f e 中元素的描述方法更为简单时,才可称之为模式。模式应该是新颖的,并且可 能是有用的,即对用户和任务有某些收获,模式应该是可以理解的。 处理过程:k d d 的处理过程是一个多步骤的处理过程,包括数据预处理、 模式提取、知识评估及过程优化。 可信度:通过k d d 从当前数据所发现的模式必须有一定的正确程度,否 则k d d 就毫无作用,可以通过新增数据来检验模式的正确性。 新颖:见过k d d 提取的模式必须是新颖的,至少对于系统来说应该如此。 通常可以使用一个函数来表示模式的新颖程度n ( e ,f ) ,该函数的返回值是逻辑 值或是对模式e 的新颖程度的一个判断数值。 潜在作用:提取出的模式应该是有意义的,这可以通过某些函数的值来衡 量。用“表示模式e 的有作用程度,“= u 佤州。 可被人理解:k d d 的一个目标就是将数据库中隐含的模式以容易被人理解 的形式表示出来,从而帮助人们更好地了解数据库中所包含的信息。在某些情 况下,可理解性可用简化度s ( e ,f ) 来估价。兴趣程度常常被作为模式价值的整 体度量,其中结合了有效性、新颖性、有用性和简化等指标。 数据挖掘是k d d 过程中的一个阶段,由应用数据分析和发现算法在可接 收的计算效率内产生数据的一个特别模式序列组成。 2 2k d d 的处理过程 k d d 的处理过程【3 0 1 包括数据准备、数据选择、数据预处理、数据约简、 确定k d d 目标、确定知识发现算法、数据挖掘、模式解释、知识评价等阶段。 k d d 的具体处理的过程见图2 1 图2 1k d d 的处理过程 k d d 的每个阶段工作如下: ( 1 ) 数据准备了解k d d 相关领域的有关情况,熟悉有关的背景知识,并 弄清楚用户的要求。 ( 2 ) 数据选择根据用户的要求从数据库中提取与k d d 相关的数据,k d d 将主要从这些数据中进行知识提取,在此过程中,会利用一些数据库操作对数 据进行处理。 ( 3 ) 数据预处理主要是对阶段( 2 ) 产生的数据进行再加工,检查数据的完整 性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据可以利用统计 方法进行填补。 ( 4 ) 数据约简对经过预处理的数据,根据知识发现的任务对数据进行再处 理,主要通过投影或数据库中的其他操作减少数据量。 ( 5 ) 确定k d d 的目标根据用户的要求,确定k d d 是发现何种类型的知识, 因为对k d d 的不同要求会在具体的知识发现过程中采用不同的知识发现算法。 ( 6 ) 确定知识发现算法根据阶段5 所确定的任务,选择合适的知识发现算 9 法,这包括选取合适的模型和参数,并使得知识发现算法与整个k d d 的评判 标准相一致。 ( 7 ) 数据挖掘( d a t am i n i n g ) 运用选定的知识发现算法,从数据中提取出用 户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示 方式,如产生式规则等等。 f 8 ) 模式解释对发现的模式进行解释,在此过程中,为了取得更为有效的 知识,可能会返回前面处理步骤中的某些步以反复提取,从而提取出更有效的 知识。 ( 9 ) 知识评价 将发现的知识以用户能了解的方式呈现给用户。这期间也包 含对知识的一致性的检查,以确信本次发现的知识不与以前发现的知识相抵触。 在上述的每个处理阶段k d d 系统会提供处理工具完成相应的工作。在对 挖掘的知识进行评测后,根据结果可以决定是否重新进行某些处理过程,在处 理的任意阶段都可以返回以前的阶段进行再处理。 2 3 机器学习的方法和技术 知识发现的过程中,需要使用一定的方法技术机器学习方法技术 去对数据加以处理,本节对机器学习的方法进行介绍,机器学习方法包括: 1 粗糙集方法 在数据库中,将行元素看成对象,列元素是属性( 分为条件属性和决策属 性) 。等价关系r 定义为不同对象在某个( 或几个) 属性上取值相同,这些满 足等价关系的对象组成的集合称为等价关系r 的等价类。条件属性上的等价类 e 与决策属性上的等价类y 之间有三种情况:下近似:y 包含e ;上近似: y 和e 的交非空;无关:y 和b 的交为空。对下近似建立确定性规则,对上 近似建立不确定性规则( 含可信度) ,对无关情况不存在规则。 2 人工神经网络 人工神经网络提供了一种普遍而实用的方法从样例中学习值为实数、离散 值或向量的函数。人工神经网络仿照生理神经网络结构的非线形预测模型,通 过学习进行模式识别。它以m p 模型和h e b b 学习规则为基础,建立了前馈式 网络、反馈式网络、自组织网络三大类多种神经网络模型。它们分别用于分类、 聚类、特征发现、预测和模式识别。神经网络的知识体现在网络连接的权值上, 是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步调整上, 包括反复迭代或累加计算。文【2 】运用粗糙集约简神经网络训练样本数据集,在 保留重要信息的前提下消除了冗余属性,使训练速度得到了提高,文 3 ,4 将 粗糙集和人工神经网络结合,充分利用了粗糙集处理不确定性的特长来增强人 工神经网络的信息处理能力。 1 0 3 概念学习 概念学习是指给定某一类别的若干正例和反例,从中获得该类别的一般定 义。概念学习可以看作是一个搜索问题的过程,它在预定义的假设空间搜索假设, 使其与训练样例有最佳的拟和度。多种情况下,为了高效的搜索,可以利用假设 空间中一种自然形成的结构即一般到特殊偏序结构。概念学习的任务可以描 述为:实例的集合、实例集合上的目标函数、候选假设的集合以及训练样例的集 合。 4 决策树学习 决策树学习是应用广泛的归纳推理算法之一。它是一种逼近离散值函数的 方法,对噪声数据有很好的健壮性且能够学习析取表达式。决策树通过把实例 从根结点排序到某个叶子结点来分类实例,叶子结点即为实例所属的分类。利 用信息论中的信息增益寻找数据库中具有最大信息量的字段,建立决策树的一 个结点,再根据字段的不同取值建立树的分支;在每个分支子集中重复建立树 的下层结点和分支的过程,可建立决策树。树的生长过程是不断的把数据进行 切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求 分成的组之间的“差异”最大。 在知识工程领域,决策树是一种简单的知识表示方法,它可将事例逐步分 成不同类别,直观、易于理解。决策树可以用于分析数据,同样也可以用来做 预测。国际上最有影响和最早的决策树方法是q u i n l a n 研究的1 d 3 方法,数据 库越大,它的效果越好。在i d 3 方法的基础上,后人又发展了各种决策树方法。 5 贝叶斯学习 贝叶斯推理提供了推理的一种概率手段。它基于待考查的量遵循某概率分 布、且可以根据这些概率及已经观察到的数据进行推理、以作出最优决策这样 一种假定。贝叶斯推理对机器学习很重要,因为它为衡量多个假设的置信度提 供了定量的方法。贝叶斯推理为直接操作概率的学习算法提供了基础,而且也 为其他算法的分析提供了理论框架。贝叶斯学习算法可以计算显式的假设概率, 如朴素贝叶斯分类器,它是解决相应学习问题的最实际的方法之一。它为解释 多数学习算法提供了一种有效的手段,而这些算法不一定直接操纵概率数据。 6 基于实例的学习 基于实例的学习方法只是简单的将训练样例存储,而不是像许多方法那样 为目标函数建立明确的一般化描述。从实例中泛化的工作被推迟到必须分类新 的实例的时候。基于实例的学习方法包括最近邻,局部加权回归法,以及基于 案例的推理。基于实例的方法因为把处理工作延迟到必须分类新的实例的时候, 所以有时被称为消极学习法。 2 3 7 其它方法 除了以上方法之外,机器学习还有遗传算法、公式发现、模糊论方法、归 纳与分析结合方法、可视化技术等基本方法和技术。 其中,遗传算法是一种基于模拟生物进化的学习方法,该方法可起到产生 优良后代的作用。常被应用在优化计算和分类机器学习方法中。遗传算法由繁 殖( 选择) 、交叉( 重组) 、变异( 突变) 三个基本算子组成。公式发现指在工程和科 学数据库( 由试验数据组成) 中,对若干数据项( 变量) 进行一定的数学运算,求得 相应的数学公式。模糊论方法是利用模糊集合理论对实际问题进行模糊评判、 模糊决策、模糊模式识别和模糊聚类分析。可视化数据分析技术拓宽了传统的 图表功能,使用户对数据的剖析更清楚。 2 4 机器学习研究中存在的问题 机器学习从出现至今,已经获得了很大的发展,但是仍然存在很多研究难题、 面临着挑战,如数据的噪声性、动态性、缺值和稀疏性,发现模式的可理解性、 兴趣或价值性,应用系统的集成,用户的交互操作,知识的更新管理,复杂数据 的处理等等。目前机器学习的研究和应用主要面临的挑战是: 1 属性之间关系复杂 属性值之间的关系变的更加复杂,比如表现为层次结构,对此传统技术已经 很难适用。种种因素造成搜索的代价极高。为解决这些问题而使用并行处理、抽 样的方法处理大规模数据,获得了较高的计算效率。根据问题的定义或相关知识 可以选择出需要的属性从而对维数消减。处理属性之间的复杂关系,往往需要增 加背景知识,比如不同层次的概念树。 2 应用对象多样 从数据库看机器学习的应用对象,主要使面向关系型数据库( 也有事务型数 据库) ,其它类型的数据库,如面向对象的数据库、空间数据库、时间数据库等 等。在数据库中可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时 间数据或事务数据。由于机器学习的目标不同以及数据类型的多样性,一个系统 就无法对所有类型的数据进行学习。另外,当把机器学习方法技术应用于网络时, 由于局域网和广域网连接了许多数据源,形成大量庞大的、分布式的和异种的数 据库。以上的问题涉及到机器学习的方方面面,有待于人们去深入的开展研究工 作。 3 用户参与和领域知识缺乏 有效的决策过程往往是需要多次交互和反复应用的,但是现有的机器学习系 统很少能够真正让用户参与到学习过程中来。将相关领域知识融入数据挖掘系统 中将是一个很重要的问题,它将会加快学习的过程,保证发现知识的有效性。 4 噪声和缺值处理 商业数据中噪声、异常情况或不完全的数据是常见现象。如美国人口普查数 据错误率达到2 0 ,噪声或错误可能来自于数据录入的误操作或实际中不可避 免的一些主观因素。数据遗失可能是某些字段缺值,也可能就是初始实际的时候 没有考虑到某些重要属性或字段。这些现象可能使分析过程混乱,导致数据与所 构造的知识模型过分适应。从而造成所发现的模式的精确性很差。处理数据噪声 的方法有:数据清理方法和数据分析方法,以及发现和分析异常情况的孤立点挖 掘方法。 5 数据动态变化和知识需更新维护 数据的动态变化常常会使得以前发现的模式不可继续使用,特别使数据库可 能增加、删除或改变变量,发生这些情况时要求设计机器学习系统的过程中必须 考虑知识的更新维护以及知识冲突解决。数据的动态性也提出了新的机器学习问 题:趋势或变化模式发现任务以及主动数据库挖掘研究。 6 模式评估兴趣度问题 机器学习系统可能发现数以千计的模式。对于给定的用户,许多模式不是有 趣的,它们表示公共知识或缺乏新颖性。关于开发模式兴趣度的评估技术,特别 是对于给定用户类,取决于用户的信赖或期望,评估模式价值的主观度量,仍然 存在一些挑战。 7 机器学习方法的有效性、可伸缩性和并行处理 为了有效地从数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国护留任申请书
- 商品房网签预售合同5篇
- 特殊转专业申请书
- 实习组长申请书
- 困难小学生补助申请书
- 农村医疗报销申请书
- 调查涵申请书
- 融资租赁业务申请书
- 入团申请书00后
- 农村低保申请书个人
- GB/T 21073-2007环氧涂层七丝预应力钢绞线
- 压力管道特性表
- 胸痛的诊断和鉴别诊断课件整理
- 高级会计师评审个人业绩报告(精选9篇)
- DB45-T 679-2017城镇生活用水定额-(高清可复制)
- 储能型虚拟电厂的建设与思考分析报告
- 楼地面装饰构造(史上最全面)
- 五四制青岛版2022-2023四年级科学上册第二单元第6课《测量距离和时间》课件(定稿)
- 海关AEO管理体系高级认证企业名录
- 《国家自然科学基金申请经验交流》PPT共30页课件
- 高聚物材料的阻燃PPT
评论
0/150
提交评论