(化学工程专业论文)基于决策树的数据挖掘方法在化学模式分类中的应用.pdf_第1页
(化学工程专业论文)基于决策树的数据挖掘方法在化学模式分类中的应用.pdf_第2页
(化学工程专业论文)基于决策树的数据挖掘方法在化学模式分类中的应用.pdf_第3页
(化学工程专业论文)基于决策树的数据挖掘方法在化学模式分类中的应用.pdf_第4页
(化学工程专业论文)基于决策树的数据挖掘方法在化学模式分类中的应用.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(化学工程专业论文)基于决策树的数据挖掘方法在化学模式分类中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着计算机技术和现代测试分析技术的发展,舀:化学化i :领域移 祟了人f l i 的 数折:。数据挖掘技术的产,e 和发展为从这些数掂获以有用知订l 提供了f ,j 的1 具。数据挖掘1 具的有敞性,总是与各个领域的数据特点紧密的结合在一起。本 文针对化学模式分类i ,的数据具有高维、复苁线性和带t - j 噪爵的特j _ ,利川决策 树及其预处理过程,对连续属性的离散化、属陀筛选、规则抉取、化学梭,分炎 建模等进行了研究,爿介绍了各种数据挖掘方法和决策树的基本理论,以及化。学 化工数据挖掘所面临的问题。全文主要内容如卜: ( 1 ) 山于化学分类数据集人多为连续型数据集,若要提高决策树分类器的 性能,须先将连续型数据离散化,以方便进步的处理过程。本文系统闸述了连 续属性离散化的原理、方法以及固内外的研究现状。通过分析各种算法的特点和 适用性,针对实际化学数据特点,选择最小描述长度划分法( m d l p ) 对数捌上韭 行离散化。与其它方法相比,m d l p 算法稳定、离散化效果令人满意。 ( 2 ) 大多数数掘集都包含冗余属性,这些冗余属性的存存不仪增加数就i :处 理的工作量和复杂程度,而且会干扰最终的分类结果,影响分类的准确程度。本 文将属性选择的概念引入化学数据分析中,介绍了属陀选择的基本原理,特j i 以 及各种方法。通过考虑各种方法的使用条件和化学分类数据的特点,使川i j a s v e g a sf i l t e r ( l v f ) 算法对离散邗数据进行选择。结粜证h j j :该过程能够从原属 性集中筛选出与分类联系最紧密的属性子集,简化了计算过程,i 刊时也赴定千l 度上提高了分类准确性。 ( 3 ) 介绍了决策树方法的基本原理和几种常用决策树算法。洋自lj 讨论了c 4 5 算法特点并针对其体的实例建立c 4 5 决策树。结果证明该方法分类性能良女r 。 与常用的神经网络方法相比,由决策树发现的分类规则表达方式直观,便- j :理解, 7 卜成速度也非常快。和统计分析方法相比,决策树不依赖属r 陀值的分嘶,或属,r i :独 立性的假设,在实际应用中也比般的统计分析方法更健壮。 ( 4 ) 决策树方法可从大鼍数摒 ,挖掘m 潜存的分类j = 【1 识,并县订沾“观 的表达形式,易为专业人员理解和分析。对于较难处理的连续属性小义捉丁 基于预处弹的决策树模型。先埘迮续属性离散化,并作筛选,剔除? t l 余数缸r :后, 再 1c 4 5 方法构建决策树,其分类模型具有良好的颅报。r :能,适j jj :化学分炎 模式的挖掘,两个实例表明应用效果令人满意。 关键词:数据挖掘,决策树,离散化,属性选择,化乒模,= i = 分类 a b s t r a c t a st h ec o m p u t e rt e c h n o l o g ya n dm o d e r na n a l y t i c a l t e c h n o l o g yd e v e l o p t h e a m o u n to l d a t ai n c h e m i s t r ya n dc h e m i c a le n g i n e e r i n gh a si n c r e a s e df a s t 1 1 1 c a p p e a r a n c ea n dd e v e l o p m e n to fd a t am i n i n gs u p p i e si i sap o w e r f i dt o o li ng a i nu s e f u l i n f o r n m t i o nh i d d e ni l la lik i n d so fd a t a b u tt h ee f f e c to i 、t h e s em e t h o d sh a sc l o s e c o n n e c t i o nw i t ht h ec h a r a c t e li s t i co fd a t aj nv a r i a b l ef i e l d s t h ed a t a ( 1 i 、c h e m i c a l c l a s s i f i c a t i o no f t e nh a st h el i g a t u r eo fh i g l l e r d 油c n s i o l l ln o i s ea n dc o m p o u n dl i n e a r i nt h i sp a p e r , w ef o c u so i lt h ed i s c r e t i z a t i o n ,i k a t u r es e l e c t i o n r u l eg e n e r a t i o n a n d c h e m i c a lp a t t e r nm o d e l i n g s o m ed a t am i n i n gm e t h o d sa n dt h et h e o r y + o l d e c i s i o nw e e a l s oh a y eb c c ni n t r o d u c e d f h em a i nc o n t r i b u t i o n si nt h i sd i s s e r t a t i o na r cu sl b l l ) w s : 【1 ) b e c a u s et h ed a t as e t sf o rc h e m i c a lc l a s s i f i c a t i o na r em o s t l y , c o n t i n u o u s t h e p r o c e s so l d i s c r e t i z a t i o ni sn e c e s s a r y t oi m p r o v et h ep e r t b m l a n c c0 1 1d e c i s i o nt r e e c l a s s i t i e r i nt h i sp a p e r , w ea d o p tm i n i m a d e s c r i p t i o n1 e n g t hp r i n c i p l e ( m d i ,f ) 】l o d i s c r e t i z et h ec o n t i n u o u sd a t aa f t e ra n a l y z i n gt h ec h a r a c t e r i s t i co ft h ed a t a ( 1 t m l p a r c d w i t ho t h e rd i s c r e t i z a t i o nm e t h o d s ,m d l pi sm o r es t a b l ea n dn l o r ec f l ) c tj v e ( 2 ) g e n e r a l l ys p e a k i n g ,m o s td a t as e t sc o n t a i nr e d u n d a n ta t t r i b u t e s w j t 1t h e p r e s e n c eo l 、t h e s ea t t r i b u t e s t i l ew o r k l o a da n dc o m p l e x i t yo f d a t ap r o c e s s i n gw i l l i n c r e a s ea tt h es a m et i m e ,i tw i l li m p a i rt h ee l e c i e n c yo fc l a s s i t i e r ,i nt h i s p a p er w e u s el e a t u r es e l e c l i o na sp r e l r e a t m e n tl b rd a t ac l a s s i l i c a t i o n b e s i d e si m r o d u c i n gt h e p r i n c i p l ea n dt i l em e t h o d so l 、1 ) a t u r es e l e c t i o n w ec h o o s el 。a sv e g a sl :i l t c rt os c i c e t t h ep r o p e rs u b s e tf r o mt h ed i s c r e t i z c dd a t as e t t h eg o o dr e s u l ts h o w st h a t f e a t u r e s e l e c t i o nc a l lf i n dt h es u b s e tt h a th a st h e t i g h t c o m l c c l i o nw i t ht h ej - e s u ho j c l a s s i f i c a t i o na n di ta l s op r o v e st h a tf e a t u r es e l e c t i o nc a ni m p r o v et h ec x a c t r l c s s 【) 1 c l a s s if i c a t i o nt os o m ee x t e n t ( 3 ) i n t r o d u c et h ep r i n c i p l ea n ds e v e r a la l g o r i t h mo l 、d e c i s i o nt r e ee s p e c i a l l y ( 1 45 ad e c i s i o nt r e eh a sb e e nb u i l tf o ras p e c i f i ci n s t a n c eb yu s i n g ( 7 4 5a l g o l 。i t h m ( ;o o d r e s u hh a sb e e ng a i n e d c o m p a r e dw i t ha r t i l i c i a ln e u r a ln e t w o r ka n ds t a t i s t i c a l m e t h o d s d e c i s i o nt r e ed o e s n td e p e n do nt i l ed i s t r i b u t i o no l 、d a t as e t s ,a n dn 1 ,l k c st t l c c l a s s i f i c a t i o nr u l e st h a ta r ee x p l i c i ta n de a s y t ou n d e r s t a n d ( 4 ) c o n s i d e r i n gl h ec l a s s i f i c a t i o no f c o n t i n u o u sc h e m i c a ld a t as e t s k v cp r o p o s e da d e c i s i t ) nt r c cm e t h o db a s e do rp r e t r e a t m c n tp r o c e s si n c l u d i n gd i s c r e t i z a t i u na n d t ) a t u r es e l c c t i o n t h es a t i s l 了i n gr e s u l to ft w oe x a m p l e si m p r o v c st h a it h i sm e t h o dh a s g o o dp r e d i c t i v ec a p a c i t ya n di sf i tl b rd a t am i n i n gi nc h c m i c a lp a t t e r nc l a s s i l i c a t i o n i j虬m蚶do g m 蛐 胁 k | 耄 川 w 叫 浙江人学坝i :学他| 亡殳 第一章绪论 1 1 前言 随着计算机技术、数据采集技术和数掘存储技术的不断发展,人们获得了人 量有片j 信息,这螳海量数据被存放在大型和火量的数掘库r h 理解他们所包含的 知识已经远远超出了人们的认知能力,这些数据j 车 ! :罕成为“数据坟繁”。i 川此 数据的丰富也带来了对强有力的数据分析一l :具的需求,如何从这些快速埔【= := 的数 据中获取有用知i _ ,已经成为人们f fd h 所面临的巨大挑战。而数据挖拥f 就足要住 数据和有用信息的鸿沟之间建筑桥梁,将数据转化为人们所需要的,易 :理解的 知uj 1 1 2 。 在现代分析测试技术的支持i - ,化学化工领域的数据信息也在e 速地私 累 着,数据的数量和种类都在迅猛增长。目时已建立起各种内容丰富、姚模龙人的 化学数据库( 各类化学物性数据库、化学谱图数据库等) 。择科研单位、人- i ,型 企业也积累了大量的科学试验数据与尘,“过程监挎数据。冈此,充分利j 1 j 这螳数 据,把它们转变成为。k 贵的知识,并用于指导试验工作的进步r 腱,就成为| | 前最值得关注的问题。 在化学化工数据处理方面,信息工作肯做出了l :多相关探索和研究,j :山此 发展了化学计量学1 3 引,以及基于数据的化工过程建模、优化和控制的各种数引 处理方法9 1 ”。但是这些处理方法通常仅依赖于存特定目的卜- 通过试验所收集的 数据,数掘量相对较小,对已有的大量的相天数据库,特别对高维数掂、噪音数 据、混合类型的数据缺乏有效的处理手段。另外这些方法的分析能力有限,埘数 据内含舰律( 知 1 ! 模式) 的探索尚依赖于研究者对问题的认识程度,还玎:能超越 这种认识,从大量已有的数据资源中自动地获耿更为“泛的有用知以。 【小j 。化学反应莉j 化工过程的复杂性,其一 1 存在高度的非线性行为,十肫的化 学化1 :数据往 l 具有自身的特j _ ,如高维模式,属性m j 相荚性强等,而数训挖舫f 技术的有效性总。j 处理数掘的特点紧密十h 连。月 j h 数掘挖掘6 的研究h 。兴术业,针 埘化学化工数据的挖掘技术远末形成与成熟,急待研究与j i :发。 1 2 数据挖掘的基本概念 数据挖掘就足从存放在数据库、数摒仓库或者j e 它信息库巾的人最数掘l - 挖 掘提取有趣知u 的过程。人们通常也把数据挖铡视为另一个常用术语数j j l | :h 二 中的知u 5 发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 的一个皋本步骤。f f l 越花。o b 研究文献一h 把数掘预处理等也看作数据挖掘的一部分,因此,数抛挖掘川知u ! 发现的含义看成是一致的,并不f “格区分【l l 。知u 发现过程包括以f 七个步骤 i a 2 1 ,分别是:数掘清理、数据集成、数据选择、数据变换、数据挖铡、梭盯f 估和知识表示。通过这些步骤,可以与用户或知识库变土:,把有趣的模,提供给 用户,也可以作为新知识存放存知识库巾。数据挖掘涉及数据厍技术、统计。、 机器学j j 、高性能计算、模式识别、数据可视化、信息检索、图像j 信号处理等 领域,是门多学科多领域集成的技术。通过数据挖掘可以从f i 同角度对原 始数据进行知识提取,把所发现的知u 用于决策、过程控制、信息管删查询等_ ,j 面。冈此,数掘挖掘被信息产业界认为足最重要的前沿学科之 也是最有6 u 途 的交叉学科。 1 3 数据挖掘过程 1 3 1 数据清理 数据清理也称为数据清洗,是在数据中消除错误和不一致,以刖孤立t i ,以 及消除噪卢的过程。数据清理包括空值处理、噪声数据处理以及不。致数 l :处理 等。数据清理上要针对多个数据源中数据的、规范r l :、二义性、重复和小完整1 r 1 : 等问题,对有问题的数据进行相应的清洗操作,去除噪声和干扰数掂。 1 3 2 数据集成 在数据挖掘r r l 对数掘进行集成,也就是将多个数据源中的数掘合并存放在 个统一的数据存储t p 。数据集成将多个数据源巾的数据进行合并处理,解决语义 模糊性并整合成一致的数据存储。数据集成涉及模式集成、冗余、数据值冲突f 门 检测7 处理二个方面。模式集成就是从多个异构数据库、文件或遗尉系统提取并 集成数据,解决语义二义性,统一不同格式的数据,消除兀余、i e 复存放数般_ :的 现象。数据集成往往导致数据冗余,对于这种现象可以使川相关分析愉测到,然 后将其消除。m 于表示、比例、编码等不同,现。史| = 界 ,的同一实体,神:小m 数 掘源中的属性值可能不同,这种数据语义上的歧义性足数抛集成的最大难点。 浙7r 人学删! f 。学位沦文 1 3 3 数据选择 数拂:挖_ 执f | 通常并不需要使用所| h 仃f j 伞部数抓,仃些数据对象干数抓属陀刈 建立模,世获得模式是没有影响的,这些数据的加入会z l :一定程度上影u l i 4 数抓挖 】:i 的效率,融至还会导致挖捌结果的偏差,冈此有效地选择数据是微仃必要的。 数瓠r :选择是存选择f i 的和数据内容本身特点的基础卜,寻找依赖j 二发现i | ,j i 的有,| 特征,以缩减数据规模,从l f i i :住尽可能保持数据塌i 貌的前提卜最人限度地 精简数槲最。通过数据选择可以使得数掘的舰律性和潜在特性更加i j 】显。 1 3 4 数据变换 数捌变换是把原始数据通过某种变换,转化成为适合挖掘的表达形,。数扒 变换包括数据离散化、转换变量、拆分数据、格式变换等内容。通过数抓变换u j 以把原有的、难以处理或者难以理解的数据变化成为易j :处理,易j :挖扣i 的彤 为进步的挖掘工作带来方便。 1 3 5 数据挖掘 数据挖掘算法具体的执行阶段足整个数据挖掘过秤的核心环节。它是通过缱 市模型使用智能的方法提取数据的有趣模式。数据挖掘巾的建模实际f :就足利 用已知的数据和知识建立种模型,这种模型可以柯效地描述已知的数拱j 干j 川, 包含的知以。因此,数据挖掘步骤就是按照人们预先设计的模型对数掘进行处理、 分析、预测的过程。 1 3 6 模式评估 数据挖捌发现的模式应该是有用的,可理解的。凶此需要解释发现的梭, 去除多余的或者没有应用价值的模式,把结果转化成某个订刚的、便于川户娜解 的形式。模式评估就是以某种兴趣度为量度,识别表示知以的真i f - f t 趣的午;: ,。 其。p种评估方法是使用实际运i j :环境【| j 的当前数据进行检验,另种址俐安使 用原先建立的数据库。f ,的数据) | 乏进行检验,也j 叮另找新的测试数拟束进仃验。 凶此整个挖扣 过程实际上是一个小断反馈的过程。 1 3 7 知识表示 在挖掘有用的模式i 彳,通过使用j - 视化平| i 知u = 捉示技术,向川户提供挖扣i 的知识。数据挖掘中的,叮视化方法使数槲挖掘的过程能够被用j 、理解,也便j i 九: 数据挖掘的过程 j 进7j :人机交且,使用,、- 能够参i 并指导挖捌过程。数槲挖扣 的 可视化包括数掘的町视化、数扒挖掘过样的可视化、数辑t :挖拥辫i 粜的一u i 视化。将 可视化技术融入数据挖掘的各个步骤当中,可使j j 尸一r f 观地的看到数抓处州的个 过程,检测爿:控制数据挖掘的整个过程。这0 i 仅自助j 数据挖掘结果表1 , j l 仃 助于数据挖掘本身的成功进行。 1 4 数据挖掘的任务和功能 数据挖掘功能用j i 指定数据挖掘任务中要寻找的模式类型。根槲小川的角 度,数据挖掘的任务可以分为描述性挖掘和预测性挖掘两类,描述性挖拥 址 将数据中蕴含的信息以用户叫。理解的方式,对数据进行总结,即亥l j i l , j 数槲的 般 特性。预测性挖掘则足在已有的数据上进行推断,预测未来情况。 根据需要发现的模式类型4 i 同,数据挖掘具何以卜功能: 1 ,1 1 概念描述 从数据分析的角度,数据挖掘可以分为描述式数据挖掘和预测式数槲挖拥 。 概念描述足描述式数据挖掘的最基本形式。它以简洁汇总的形式描述给定f s j l i :务 相关数据集,提供数据的散特性【i i 。这种经过归纳的抽象描述能够概括人 的 关于数据集的有趣信息。概念描述由特征描述和判刖描述组成1 1 3 , 1 4 1 。特征拙述足 从与学习任务相关的组数据中提取出数据的总体特征,是对给定数据集的简沽 汇总,也成为特征化;而判别描述则描述了两个或多个数抓集之n i j 有何差片。 概念描述的具体方法有面向属性的归纳方法、统计学。”的描述性统计等。 1 4 2 关联分析 关联分析的目的是发现特自f 之问或数据之间的相吒依赖关系。对依赖天系定 义如下:一个依赖关系存在1 :两个几紊之问,如果从个元素a 的位一叮以推,j 个元素b 的值( 一b ) ,则称r 依赖于a 。这1 f j 的所谓元素可以足数捌的橱r f :, 也川以足数据的属r l :值。笑联分析有广泛的应i h _ j ,多出现在购物篮或肯扣物数引 分析1 1 j 。 关联分析常用力法囱+ 统计学。 | 的腆型州关分析i ”i 、关联分析1 1 6 17 、贝叶斯信 念网络i ”i 、卡h 糙集中的属性依赖关系i 1 分析等 1 4 3 分类与预测 分类和预测是数据分析的两种基本形式,可以用于提取描述重要数j :l :类n 勺模 型或预测数据的未来趋势。分类可以找出描述并f x 分数掘类或概念的l = ; ;7 弘,以便 能够区分并判断类标记未知的对象类别。而预测则是针对数值类型缱、,连续f l i 【 函数模,儿埘具体数据进行预测。 建模的方法有统计方法1 2 0 , 2 1 】、机器学习方i , kr 2 2 , 2 3 、神经网络方法2 4 , 2 5 i 等。统 计方法包括贝叶斯法、非参数法( 近邻浊或基j 二范例的学习) 、偏最小二乘 等,对应的知u 形式为线性或1 f 线性函数利原型事例:机器学习方法包括决策树 和规则9 二i 纳方法,对应的知识形式为决策树* l l j 。生式规则:神经网络方法上要足 多层前馈神经网络模型,采用洪差反向传播( b p ) 算法训练网络,对应的知u 形式为网络结构和连接权值。 1 4 4 聚类分析 与分类和预测小同,聚类分析在处理数据对象时并不考虑已知的类标u 。聚 类对象根据最大化类内相似性,最小化类i j 相似性的原则进行聚类或分组。聚类 分析就是将数据刈象分组成为多个类或簇,在同一个类中的对象之问具有较l 岛的 相似度,而不同类中的对象差别较大。 在机器学习领域,聚类属于无指导或无监督学刊。它不依赖预先定义的炎和 带类标号的训练样本集。凼此,聚类是一种观察式学刿,而不足示例式学爿。在 一些文献中,聚类也被称作概念聚类,因为这早的距离不再是统计方法中的儿 距离,而是根据概念的描述来确定的。当聚类对象可以动态增加时概念聚炎 l ! i j 称为概念形成。 聚类方法包括统计方法、机器学习方法、神经刚络方法和面向数据库f | 勺疗法, 根掘数捌刈象f u j 相似i f 和相异度度最以及聚类策略的1 i 同,可分为划分力 :i 1 2 6 , 2 7 1 、层次的方法”1 、基于密度的方法【2 8 1 、基_ j 网格的,j 法1 2 引、堪j i 模,弘的力+ 法1 3 0 】等。 1 d 5 孤立点分析 数据库中可能包含一些数据对象,它们与数据的一般行为或模型不致。这 些数据埘缘称为孤立点。人部分数据挖掘方法将孤立点视为噪声或行异常数引m 丢弃。似在u b 应用中,罕见的事件可能比i t 常。j i l l - 更有意义。孤j r ,i 分析通常 被称为孤立点挖掘1 13 0 i 。 孤立点i i 丁以使川统计试验检测。它刈给定的数j :【l :集合假殴一个分们或概:簪十娆 型,然后根掘模型采用1 ;一致性检验来确定孤立t k 山可以采用基于口l ! 离的,j 法 进行孤立点榆测,把到其它聚类距离比较人的对象视为孤立点。丛】:偏差的孤、, 点检测则,1 ;采用统汁检验或基于距离的度量值水确定异常对象。它通过检查 纠【 对象的主要特征来确定孤立点,与给出的描述“偏离”的对象被认为址孤0 :点。 1 ,1 6 演变分析 演变分析是描述某些随州日j 变化的对象的变化规律或趋势,并对j e 建模。 演变分析主要是对时序数据库和序列数据库进行数抓分析,它包括趋势分析、十 似性搜索、o 时间有关数据的序列模式挖掘以及周期模式挖掘等方向。 1 5 数据挖掘的基本方法 数据挖掘是一门跨学科的技术,统计学、数据库技术、机器学爿、模式u ! 刖、 人工智能、可视化技术等都在数据挖掘中起着重要作j 。 1 5 1 统计分析方法 统计分析是一门收集、组织数掘并从这些数据集中得出结沦的科学。数扒集 的一般性的描述和组织是描述性统计学的主题领域。统计学为数据挖掘提供了人 量1 i 同的分析方法,如常用的统汁方法i 有主成分分析法、回归分析、判别分 析等。 ( 1 ) 主成分分析 住实际问题中,能够获取观测值的变量为显式变餐。当显式变量太多,十j 问又存在相笑父系时,就要设法从中组合变换产卜新的变量,这些变b 小。定订 确切的专业意义,但它们的个数较少,相互问独:, :且尽可能多保留了原仃变 最的有用信息。用它们代替显式变景,将会使问题的求解变得简便。l :成分分析 的目标就是刑多变盛的数据集进行最佳综合。诅;力保数据信息丢火最,, i j 原| j ! | j 卜 对高维变量审问进行降维处理。 ( 2 ) 山归分析 回归分析是利t 非常重要又i 。分有用的统汁分析办法,旧7 1 分析的f l 的址川 浙江人学坝i 学位沦殳 统计方法根据观测数据找h 因变疑和自变氐之叫的关联方程,即网! 山秘。i l i 观 测数据得到回归方程的方法也称为观测数抓的方程拟合,简称拟合。川1 分 i 包 括线性回归分析,最小_ 乘法、多元网归分析,非线。阡回归分析等,j j 法。 ( 3 ) 判别分析 从概率统计的观点出发,判别分析就是判断分类未定的个体属于那个总体。 判别分析是根据己知对象的分类属性,从中找m 一定的统计规律,并由此削断其 它分类属性未知的对象的属性类别。判别分析足种有监督的学习过程。判别分 析主要有贝叶斯判别、费歇判别、距离判别法、一m 参数判别法等。 1 5 2 机器学习方法 机器学习作为一个人! l 智能和统计学的结合物,已被证明是一个富自成效的 研究领域,它产生了许多4 i 同的问题和这些问题解决方案的算法。机器学习的 个最基本的任务是归纳机器学习。它从样本集中获得概括结果,用不同的技术年 模型来定型。机器学习在数摒挖捌巾也有非常广泛的应用,比较常见的有以i - - j l , 种方法: ( 1 ) 规则归纳 机器学爿的。个最基本任务就是归纳学习,归纳学爿的过程就是寻找舭化 描述的过程。这种一般化的描述可以解释给定的数掘集,并可以用j i 预测新的数 据。归纳学习由于依赖于经验数据,因此也称作经验学习。而规则反映了数越j t 某些属性或数据集中某些数据项之间的统计相关性。通过规则归纳的方法,j 以 从数据样本集中得到概括结果,发现数据之间的联系和相关性,并用 i 对新数抛 的推理和预测【1 2 i 。 ( 2 ) 示例学习 基_ j 二示例的学习是把历史的样例作为过去的经验去指导当前问题的求解,j e 实质是一种类比的学习方法。基于示例的学习也可以处理新问题,即搜索和修改 相似问题的处理并作为一个新| e 勺样例保存进样例库,以供系统检索并作为处理新 问题的例了。因此,该方法具有学习功能,可以处理与已有知讨 小一致的新知u ! 。 基于示例学习的主要算法是最近邻算法和基于样例推理等r ”i 。 ( 3 ) 贝叶斯信念网络 贝叶斯信念网络也称为凼果网络或概率网络,自川也卣接称为贝1 1 l 斯m 络。 浙江人学坝l :学位论殳 贝叶斯信念网络r i i o w a r d 和jm a t h e s o n 于1 9 8 11 i 提出。它足种概:钲推胖 方法,它能从不完令、1 i 精确和不确定的知让 平【i 信息巾做m 推理,川以处胖小完 整和带有噪音的数抛集,从而解决了数据n u 不致甚争相互独点的问题。叭叶斯 信念网络是概率分御的图表示。= 市点表示属性变最,边表示属性变最之m i i 的概二仁 依赖关系。与每个节点相关的是条件概率分m ,描述陔节点与它的父1 ,t l 之 f e t j 的关系。贝叶斯信念网络将不确定事件以i 删络的形式连接起来,实现对菜 tj 其它事件有关的事件的预测。 ( 4 ) 决策树 决策树也称为判定树。在决策树方法中,首先从实例集c f j 构造决策树,返址 一种有指导的学爿方法。该方法先根据训练样奉集数钳形成决策树。整个决策埘 由根节点j 】:始,每个分支代表一种划分,每个内部竹点代表一个对象的属性。f 王 个叶节_ i 代表种可能的分类结果。在决策树从i :到下遍历的过程巾,在母个1 7 点都会进行个测试,对每个节点h 问题的不同的测试输出导致4 i 同的分支,们 最后都会到达各个叶节点。这个过程就是利用决策树进行分类的过程。 目前应用的决策树方法很多,卜要有i d 3 、c 4 5 、s p r i n t 、s l i q 、r a i n f o r e s t 等。决策树方法具有计:多优点,如可以生成可理解的规则,模型建立比较r 【脱, 计算量小、速度快。但它也存在若干缺点,如不适合处理具有连续值的属惟,对 缺值数据的处理也存在+ 定困难。 1 5 3 神经网络方法 人:i :神经网络是,+ 理学上的真实人脑神经网络的结构和功能,以及若i 。小 特征的某种理论抽象、简化和模拟而构成的种信息处理系统。人工卒| | 经州络jl 有自身的特点和优越性1 3 2 1 ,主要表现在以下几个方面: ( 1 ) f l 学习功能。神经网络f 叮以根据外界环境修改自身的彳j 二为。因为人1 神终 网络采用自f :而下的方法,所需的经验知识较少,岁 要有数据就可以埘它进fj :u i 练。 ( 2 ) 分柿和联想存储功能。神经叫络的信息处理神经,i 之m f 内棚f j f l :川求吱 现,知识j 信息存储表现为神经,讪j 分布式联系与存储 ( 3 ) 并行分布处理功能。传统的计算模式只用 个i 算巾元水进行引竹,】m 人 工神经蚓络叫使用分和,并行计算代辛卒原来集- f ,的汁算力法。 ( 4 ) 鲁棒性和容错能力。神经网络的适应性很强。存训练学爿后,神经删络的 响应能存某种程度上对外界输入信息的少量云失或神经网络组织的肘部缺损小 再敏感。 f e l 神经网络白身也存在着难以克服的缺j 7 i 和不足,神经网络j l ;要很长的】j 训练,因而对于有足够长训练时问的应用更合适。它需要根据经验或试验来确定 m 络的结构,在训练时,容易产生过拟合现象,i 司时,人们很难解释蕴含在连接 权值中的簪i k 含义,所得知谚 的可解释性差,这些使神经刚络在数挤挖掘w 门应 用受到限制。冈此,在数据挖掘领域,对神经网络的研究集中两个方丽:( 1 ) 缩 短训练时m ;( 2 ) 结果的j 解释性,研究重点是基丁神经m 络的舰则提取。 1 5 4 粗糙集力。法 基于粗糙集理论提的智能数据处理方法,无需先验专业知识,可从数扭l i f 】 发现蕴含的知识模式,已成为数据分析领域重要的删论和力法。它将找出数扒属 性问的依赖性,并在保持分类能力的前提下,通过约简,消除j c 余的属性及心陀 值,获得最小的产生式分类决策规则集川】。 在粗糙集理论中,将样本集和样本属性集以及属性的值域所组成的体系称为 信息系统。其中属性集分为条件属性集和决策属性,称为决策系统,并以表的形 式组织样本数据,行代表样本,列代表属性,形成决策表这是决策系统的表格 表达方式。对于模式分类叫题,丰1 :! 本的判别因子为条件属一陀,样本类别为决策心 性,半 【糙集根据在条件属性和决策属性上的不可分辩哭系,可将样本划分为) f i 川 的若十类,对条f t 二属性称为条件类,对决策属。p 生j , j 决策类,每类住给定的腻性 集上的所有属性值都相同,由此可发现属。l 峰f i 的依赖关系,将条件属性对决策槭 性的映射关系表示为组分类决策规则。 为了衡量决策属性对条件槿性的依赖性,通过上下近似( 条件类的) f 集) 说 明对决策类的描述精度,卜下近似之差为边界域,若条件类的样本个体1 t - fj 十l ,1 的类别,为下近似中的元素,反之,则为某个决策类的上近似,显然,铂i 卜近似 中所形成的规则是确定性的,而边界域中所彤成的规则是可能性的规| j ! j ,若i :f 近似干h 等,则该类别是可粘确定义的,反之,则足半糙可定义的。所j j 决策类的 下近似之和为决策系统的正域,其所含样木个数与样本总数之l l u j - 以衡爨决策系 统的分类能力,称为决策系统的近似度。若考察每个属性对决策系统近似度的影 响,则j 得各个属一阽的重要。陀。存不改变决策系统n 近似度的i j “提卜,潲上j c 余 的属性和属性值,称为约简,可得到保持系统分类能力的最小舰则集。 芈h 糙集在数据挖掘中的应用,卜要集中住知识约简 1 1 规o 1 i ls “生,已经成为数 据挖掘领域一个重要的方法。 1 5 5 聚类。法 聚类分析的摹本思想就是把相近似的对象聚成一类。这需要确切地捕述干瞍 量有火属性,并从中比较刈织i l h 的拥似程度,把最接近的对象合j f :成类。采刚聚 类分析l u 以把无标识的数据对象自动划分为不同的类,并且可以不受先聆知砂 的 约束和t 扰,从而获耿属于数据集合中原本存在的信息”1 。 按照聚类的标准,聚类方法可以分为以下两种。统计聚类方法和概念聚类方 法口5 1 。统汁聚类法基丁相似性测量。包括系统聚类法、分解法、加入法、动态 聚类法、有序样品聚类法等。这种聚类方法足一种基j 伞局比较的聚类,它;艏要 考察所有的个体j 能决定类的划分。冈此它要求所有的数掘必须预先给定,m i 能新增数据坩象。概念聚类方法是基于对象具有的概念。这单的距离1 ;再是统h 方法中的几何距离,而是根据概念的描述来确定的。典型的概念聚类方法自 c o b w e b 、o l o c 和基于列联表等。 1 5 6 遗传算法 遗传算法是基于进化理论,并采j j 遗传组合、遗传变异、自然选择等设汁方 法的优化技术3 6 j 。遗传算法模拟尘物进化、适者生存的过程,以随机的) f ;x g :t e r 最适合于特定f j 标函数的种群通过重组产生新的一代,在进化过私圳1 通过选择、 重组和突变逐渐产生优化的问题的解决方案。它通过选择、交叉和变异等进化概 念,产 t - 山解决问题的办法和策略。 遗传算法在处理优化问题时,需将所有的自变量进行编码。常月j 定比特数 的二进制编码代表一个臼变量的各种取值。将各自变最的二进码连成。f _ j ,衣j 到 的二进制代码串代表了白变量的一组取值决定的一个解。若将每个解霸成赴牛 物群体 ,的个个体,那么代码串则相当于表示该个体遗传特一陆的染色体。 遗传算法主要包含i 个基本操作,或称为基本算- f 1 3 7 l 。 ( 1 ) 选择:选择算子是从个旧群体( 父代) 中选 j l 合适的个体,产乍新耕1 木 ( 后代) 的过程。 o ( 2 ) 交义:交叉算了选择两个f i 川个体的染色体的部分丛因进 r 交换,形成新 个体。该算子确定和扩充解窄问,是一个随机化的重组算子。在很人稚艘f :遗 传算法的性能取决于所使 j 的交换算了的性能。 ( 3 ) 变异:变异算子足对某些个体的桀些基凶进行变异。 遗传算法是并行搜索方法,它能在并行处, ! 机卜执行,这叮极人的提高它们 的运 j :速度。遗传算法r ,j 应用于连续型优化问题,也jj , v j 于离敞化优化刚题中。 遗传算法的灵活性既方便了复杂模型中的结构识别,也方便了其中的参数u ) j | j 。 1 5 7 其它方法 ( 1 ) 支持向量秽1 支持向量机( $ v m ) 是在统计学习理论基础j :发展起来的一种新方法,支 持向量机又称为支持向量刚络。s v m 算法1 3 8 i 是从线性可分情况下的最优分类超 甲面发展而柬的。s v m 算法的出发点就是寻找最优分类超半面。最优分类衄、卜 面4 i 但能将所有样本币确分丌,而且能够使两类问的边际最大。最优分类超 y :l f j j 意味着对测试数据甲均分类误差摄小。支持向量机具有理论完备、适应性强、个 局优化、训练时问短、泛化性能好等优点,但各种参数的选择缺乏理论指导,对 j :大规模的数据集训练速度相对较慢等问题。凶此支持向量机仍然是个需嘤继 续深入研究的热门领域。 ( 2 ) 模糊集 模糊集,顾名思义就是没自+ 明确边界的集合。就是从“属于某个集合”到小 “不属于某个集合”,这个转变足渐变的。与一般的集合概念不同,模糊集表,j 的是某个元素隶属于某个集合的程度3 9 】。模糊集用特征阑数束1 表给定集合t , 元素的求属度,特征函数取值在0 和l 之问。 模糊集经常和其它方法联合使用,如模糊神经网络、模糊决策树、模糊剐糙 集等。 ( 3 ) 复杂类型数掘挖掘 随着数掂处理工l 、数据库技术和力维网技术的迅速发蜒,大量的彤行片 的复杂类型的数摒小断涌现。【h 此数掘挖掘砌的个重要曝题就是钊刈复杂i 类 型数圳的挖捌。这包括多媒体数据、窄问数据库、时问序列数掘、文本数、 w e b 数据等i 2 ,3 0 ,确i 。 i o i tr 人。1 # 坝j 。学位论文 1 6 数据挖掘的应川及发展趋势 尽管数据挖掘足门新兴学科,但是它已经得剑了1 + 泛的关注1 f i l 应j i i 。如 零售业中的数据挖掘,它町以帮助商家识刖顾客的购买行为,发现顺客的购必模 式和趋势,提高货物的销最,设计货物运输和分销策略,以及减少商业成本。数 据挖扣f 也被应用于电 f b l k g , ,如对r 乜信数据的多维分析,盗用模式分析 1 1 异常模 式识别等。随着【戈学和基圳工程的发展,数据挖掘作为个强有力的数掘处理一 具,在d n a 数据分析、疾病诊断、新药物和新的治疗方法的发现等方l f i i 鄙订i 人的贡献。此外,数据挖掘在金融q k 、网络挖掘、 业制造等领域都订人肌的 尝试和广泛的应_ l j i l i 。 签于数据、数据挖掘任务和数据挖掘方法的多样性,给数掘挖掘捉了i :多 挑战性的课题。例如应用范围的进一步拓展,高效而有用的数掂挖拥i 算法和系统 的jj :发,交土:和集成的数据挖掘环境的建立,数据挖掘语言的设计和标准化,以 及数据挖掘中的信息安全等。 数掘挖掘最初的商业应用主要集中在企业和零售业方玎,但随着科技的发 展,数掘挖掘也逐渐渗入到其它领域,如生物医学、化学物质的结构分析、金融 分析、w e b 挖掘等方面。应用领域的不断扩张也要求数据挖掘4 i 断克服 i 身的 限性,适应更多更复杂的数据资源。 j 传统的数据方法十h 比较,数据挖掘必须能够有效地处理大量数据。r j :数 据量不断增长,数掘库容量的不断增大,这就要求所设计的数据挖掘算法j 7 i 定的i i j 伸缩性,不仅能够处理数据量较小的数掘集,也要能够针对人容 的数扒 库,对其进行有效的处理和挖掘。 r 旧数据库、数抓仓库和j 维刚( w w w ) 已经成为信息存储系统的j 二流, 而数据挖拥 作为- - , f t 数据分析模块必须能够顺利的集成到此类信息信息处理环 境中。数捌挖掘系统的最理想体系结构就是。j 数据阼的紧耦合方,。_ j 务锊删、 查询处理、联机分析处理和联机分析挖掘集成在一个统一的框架c l ,。这将f ! f 证数 抓的t j 获得性,数据挖掘的可移植性、可伸缩,陀、高效一f :。 标准的数据挖掘语言或数据挖掘的标准化l i f t 将有助于数据挖捌的系统化 丌发,改进多个数掘挖掘系统和功6 1 1 , nf i j 的相互操作,这将会促进数捌挖捌系统n : 企业和社会中的使用和外发。 随菥数谢挖掘i 具和 u 信与汁算机网络的r 益普及,数据挖捌篮| f i l 时的个 重要问题是隐私保护和信息安全。、叫以往不川的f j 度和小i 刊层次1 :行剑数拭坪 巾的数据时将自可能与保护数抓的安全性和保护私人数掘的f i 标十抵制! 。所以 研究人员需要进步丌发有关方法,以便住适当的信息访问和挖抓j 过稚l f l 确保隐 私保护与信息安令。 1 7 本文研究内容 化学分析测试技术的小断发腱给我们提供了大量的实验数拼,这螳数据中包 含了丰富的有j = | 知识。但这些知识往往小是以显而易见的形式呈现出术,而址j i 要通过数折:分析的方法甜其进 j 发掘,建立各种模必,使其能够直观的表达 i j 来。 因此寻找钉效的数据处理方法就具仃扑常重要的意义,研究人员也这方面展丌了 大量的探索和研究工作。 作为一项新兴的数据处理技术,数据挖掘可从海量数据中提取蕴减其中的f i 用知识。 h 于在现实中无法得到绝对完整准确的样本数据集,这些数据j 能足存 在噪声,或者含有冗余和缺损的数掘。挖掘化学分类知识模式常j 1 的 。法仃舭代 统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论