



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精品文档基于粗糙集和遗传算法的数据挖掘方法摘要: 运用粗糙集和遗传算法的理论,为大型的数据挖掘提供了一种新的方法。首先通过粗糙集理论对数据进行预处理, 然后对属性简约, 最后通过遗传算法进行规则提取, 寻找最优解。关键词: 粗糙集;遗传算法;数据挖掘;知识发现Data Extraction Based on Rough Set and Genetic AlgorithmAbstract: A new approach for data mining by using rough set and genetic algorithm is introduced in this article. First of all we pretreat our data with rough set, and then reduce attributes, finally we extract the best rule through genetic algorithm.Key Words: Rough Set; Genetic Algorithm; Data Extration; Knowledge Discovery0 引言数据挖掘1又称知识发现, 是从大量的、不完全的、有躁声的、模糊的实际数据中, 提取隐含在其中的、人们事先不知道的、但又很有用的知识和信息的过程。它的一般步骤如下: 提出问题数据准备数据整理建立模型评价和解释。它是数据库研究、开发和应用最活跃的一个分支, 是多学科的交叉领域, 涉及数据库技术、人工智能、机器学习、神经网络、数学、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算、并行计算、数据可视化等多方面的知识。1 粗糙集与遗传算法的基本概念粗糙集( Rough Set, RS)2作为一种全新的数学概念,为处理具有不完整、不一致及不确定性特征的信息提供了新的有效工具, 它的主要特点之一是无须提供问题所需处理的数据集合之外的任何先验信息。相对于许多其他处理不确定知识的方法来说更具客观性, 并且和其他分析方法有机结合, 进一步增强对不确定问题的处理能力。遗传算法( Genetic Algorithm, GA )3起源于对生物系统进行的计算机模拟研究, 是模拟生物在环境中的遗传和进化过程而形成的一种自适应优化概率搜索算法。它的流程主要模仿的是生物遗传进化过程中的选择、交叉和变异操作, 从而完成对问题最优解的自适应搜索过程。流程主要包括染色体编码、产生初始群体、计算适应度、进化操作等几大部分。遗传算法的搜索过程是从一群初始节点开始搜索, 而不是从单一的初始点开始搜索, 这种机制意味着搜索过程可以有效地跳出局部极值点。既可以完成极值点领域内解的求精, 也可以在整个问题空间实施探索, 得到问题全局最优解的概率大大提高。2 粗糙集与遗传算法在数据挖掘中的应用粗糙集算法与遗传算法结合, 能有效地提高挖掘效果,具有实际应用的可行性。其基本思想是:首先通过粗糙集对信息表中的数据缺损进行处理;然后对于信息表中的数据,根据已定义的可辩识距阵,通过属性简约算法进行属性简约和知识发现;最后对知识发现的规则通过遗传算法进行优化,找出最主要的规则。主要包括以下几个方面:2.1 数据预处理数据预处理用于对原始数据的采样、收集、整理, 对于不同途径获取来的数据不一定能够得到有效的信息, 所以数据的预处理是非常必要的。包括连续属性的离散化和不完备数据的填补, 由于粗糙集只能处理离散的数据,所以还必须对连续的数据离散化, 而属性离散化的关键在于选取合适的断点对条件属性进行划分4,如可采用基于属性重要性的离散化算法。由于数据采集的不完整性,使数据库中很大一部分数据都存在缺失, 因此对输入的数据必须进行必要的处理如采用均值法、频率统计法等对数据进行补齐。2.2 属性简约粗糙集处理决策表时, 数据约简是核心内容,一般是约去过剩的条件属性, 用最少的属性区分不同的决策,提供同样多的信息,使决策表的决策属性和条件属性的依赖关系不发生变化。简约后的属性集称为属性的约简集,约简集通常不唯一,找到一个信息表中的约简集不是在一个多项式时间里能够解决的问题,求最小约简集(含属性个数最少的约简集)同样是一个困难的问题,实际上它是一个NP-hard问题,因此根据已定义的可辩识距阵,有如下的属性简约算法:(1) 计算属性表的可辩识距阵。(2) 对于可辩识距阵中的所有取值为非空集合的元素Cij建立相应的析取逻辑表达式。(3) 将所有析取逻辑表达式进行合取运算, 得到一个合取范式。(4) 将合取范式转换为析取范式形式。(5) 输出属性约简结果,其中析取范式中的每个合取项对应一个属性约简的结果, 每个合取项中所包含的属性组成的约简后的条件属性集合。2.3 决策规则提取经过第二步属性简约后, 属性个数减少了, 但是得出的规则数量依然可能过多, 不利于得到用户最想要、最重要的规则, 因此, 我们会更希望关心具有较多共同特性的规则,必须把简约后生成的规则集里那些具有大量共同特征的规则再次提取出来, 面对这种优化问题, 遗传算法是个强有力的工具。其步骤是编码,产生原始种群, 计算个体适应度, 选择个体, 交叉, 变异操作, 然后一代一代进化最后找出最优解。(1) 编码。是进行遗传算法的重要步骤, 编码方案的选取很大程度上决定于问题的性质和求, 同时也决定了对随后的遗传算子的设计如可以将数据离散化后的属性值定义在2的n次方之间5,采用二进制编码方法对每个数字编码, 像属性值3用编码表示就是0011。(2) 产生初始种群。随机选取一些个体作为初始种群。(3) 确定评价函数。数据挖掘的目的是挖掘出具有最多相同特征的规则, 因此, 评价数的选取时应当把能够匹配简约表中最多的属性的规则评价为最优规则。(4)遗传操作。交叉操作是将规则编码的某几位互相置换, 变异操作是将规则编码的一些二进制位按位取反。这样通过规则集中任意的两两组合会形成新的规则集。然后经过每个规则的评价函数确定当前的最优规则, 这样经历数代遗传之后就可得到相对最优的规则。3 公司录取情况数据挖掘应用实例下面用一个实例来说明使用的数据挖掘方法。某公司每年都会收到大量的求职信息表, 并从中雇用一定数量的员工, 对于员工的雇用, 公司以往都是通过面试及给领导的感觉来雇用的, 因此, 公司希望能够从以前的录用中找出一个大体的评判标准以便于以后录用时作为参考, 由于以往几年累计求职的员工太多, 情况比较复杂, 因此, 公司希望这个标准能够简单明了。通过本文提出的方法, 可以很好的解决该公司的需求, 以下以该公司求职人员的原始求职表中的一部分作为演示, “?”代表求职表中该属性没有写明情况, 如图1所示:表1 原始求职表学历(d)经验(e)法语(f)仪表(a)结论(c)X1MBA一般会优秀雇佣X2MBA少?一般不雇佣X3无学历无经验会差不雇佣X4MSC多会?雇佣X5MSC?会一般不雇佣X6?多会优秀雇佣X7MBA多不会良好雇佣X8MCE少不会优秀不雇佣经过数据预处理后, 对缺失数据进行了填补及属性离散化后得到了表2表2 信息表学历(d)经验(e)法语(f)仪表(a)结论(c)X101101X202120X333130X420121X521120X620101X720011X812000按属性简约的算法, 通过决策表的可辩识距阵, 我们可以得到算法第3步后的合取范式为: 其中每一个析取项对应于可辩识距阵中的一个元素,d, e, f, a 分别对应属性学历、经验、法语、仪表, 按算法第4 步简化后可以得。由此可见, 在原始决策表给出的这部分信息中与决策有关的是d,e,a。通过粗糙集的属性约简, 可以得到以往公司录用时真正看重的一些属性, 通过这些属性, 再用遗传算法找出其中最主要的规则。例如约简表中某一行在学历、经验、仪表上的值为201, 则编码就是10, 00, 01。随机选取8个个体作为初始种群, 评价函数以能够匹配约简表中最多行属性的规则成为当代的最优规则。算法定义为一个8元组:表示对个体采用二进制编码; 表示个体适应度评价函数; 表示初始种群随机选取的8个规则;表示采用轮盘赌按比例选择算子; 表示中间位单点交叉算子; 表示基本位变异算子; 表示执行20代上述遗传算法后停止。最后得到最佳个体00, 01, 01, 即学历MBA, 经验水平一般, 仪表良好的评判标准, 凡在此标准附近或高于此标准的, 可以考虑录用。4 结语在数据挖掘中应用粗糙集和遗传算法, 粗糙集可以解决数据不精确、不完整的问题, 并进行属性简约, 遗传算法可以从大量规则中提取出最优的规则, 提高了分析系统的效率。将粗糙集和遗传算法在数据挖掘中相结合, 给出实例说明该方法的可行性。在今后的研究中还将继续结合其他的方法进行研究, 提高对知识的发现能力。参考文献:1 Dav id H e ikkiM ann ila, Padhra ic Smy th. 数据挖掘原理M . 北京: 机械工业出版社, 2003.2 Paw lak Z. Rough Set J. Internationa l Journa l of Inform a tion and Computer Sc ience
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保洁开荒协议书
- 合股开店协议书
- 债务重组协议书
- 安全协议书离婚
- 充电桩物业四方协议书
- 一年级语文上册 汉语拼音 10 ɑo ou iu说课稿 新人教版
- 股东一致行动协议书
- 协议书套餐过户
- 七年级语文下册 第三单元 第11课《台阶》说课稿2 新人教版
- 安全知识培训化工厂课件
- 体力活动金字塔
- 铜仁市大学生乡村医生专项计划招聘考试真题
- 土地综合整治投标方案(技术方案)
- JJF(皖) 174-2024 重点用能单位能源资源计量在线审查规范
- JGJ-T+141-2017通风管道技术规程
- 历年全国《宪法》知识竞赛试题库完整版及答案【历年真题】
- 基本乐理(师范教育专业)全套教学课件
- JJG 270-2008血压计和血压表
- 《解剖学基础》课件-上肢骨及其连接
- 轻质燃料油安全技术说明书样本
- 小米全屋智能方案
评论
0/150
提交评论