




已阅读5页,还剩62页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
工程硕士学位论文算法研究石凯 基王狸鳖篡堡诠的鹰丝终煎皇迭筮挝佥耋篡这婴:。除论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和学位论文版权使用授权书中国学位论论文作者签名:臼刁导师签名: 翻嘲日期:谥衲;月 入属性约简与决策树生成系统,实现对数据集的约简和分类。 疛疘甌 目目第滦髀邸粗糙集理论本章小结 目基于粗糙集的多变量决策树分类算法算法在冠心病数据集上的结果分析本章小结 目本文主要贡献下一步研究工作参考文献攻读学位期间公开发表的论文致谢 研究背景现如今,移动互联网正在改变我们生活的方方面面。人们的生产、生活、科学研究等一系列活动受到其很深的影响。比如越来越多的人选择网上购物、电子缴费。最近火热的互联网金融理财产品余额宝和可以手机叫车的嘀嘀打车软件更是对传统行业产生了巨大的变革。在移动互联网背后,有着海量的用户群体,他们每时每刻都在产生海量的数据。我们正处于一个称之为“大数据究的热点问题。在此背景下知识发现琄算等新的数据分析与处理技术应运而生。数据库中知识发现是将未处理的数据转换成有价值信息的整个过程。这其中数据 树进行决策的过程就是从根结点开始,测试待分类对象相应的特征属性,并按照其值选择输出分支,直到到达叶子结点。最后将叶子结点存放的类别作为最终的决策结果。如何确定分裂标准得到一棵比较“纯”的决策树是决策树分类的重要步骤。分裂标准就是在某个结点处按照某一特征属性的不同划分构造不同的分支。在现实的世界中,存在着大量高维度的数据集,所谓高维度是指数据集中的对象有很多的属性,这为选择分裂属性带来了很大困难,且最终生成的决策树规模很大。实际上,很多属性都是冗余的,它们对最终的决策并不产生影响。如何删除冗余属性,构造出一棵结点数目较少,深度较小的决策树是一个研究的热点问题。粗糙集的引入较好的解决了上述问题。是一种新颖的处理决策系统的不确定性、模糊 析。文献提出了基于分形维的约简算法。文献属性约简。不需要计算核属性就可以得到 分类问题一直是数据挖掘方法中的一个热点研究问题。它是一种预测式的数据分析方法。首先通过对输入的数据进行分析,针对数据的不同特点进行归纳总结,得出一系列分类规则并构建分类模型掷嗥。然后将得到的分类器用于对未知的数据集进行训练,即确定数据集中的对象分别属于哪一个类。根据分类算法的效率和准确率来对分类算法的性能进行评价。 基于粗糙集理论的属性约简与决策树分类算法研究算法。其他的处理多值多类标的算法有:惴】、算法等。算法的基础上,将建立决策树和剪枝过程同时完成。除此之外还有算澍】 】提出的算法能处理多个决策类的情况。第五章将本文提出的简化决策表算法、属性约简算法和决策树分类算法以模块第六章总结与展望。对本文工作进行全面总结,并为后续的研究指明了方向。 基于粗糙集理论的属性约简与决策树分类算法研究数据挖掘相关介绍发现知识。数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩、尿布和啤酒之间有着惊人的联系。数据挖掘的过程分为信息收集、数据规约、数据清理、数据变换、数据挖掘实施 图数据挖掘流程图 基于粗糙集理论的属性约筒与决策树分类算法研究分类算法有广泛的应用:在金融领域,根据用户的贷款还款记录,将用户分为有风险和无风险;在互联网领域,根据衿魅罩厩钟没梦屎蛍机器人访问,从而得到网站的真实访问量。 决了生物划分问题。粗糙集理论属性约简算法就是保证系统对知识在分类能力不变的情况下,删除冗余属性的方法。通常情况下属性约简有两种方法:前向选择和后向删除。前向选择是令初始集合为空集,采用某种启发式算法将属性依次加入集合,当满足一定条件下算法结束。后向删除是初始时将所有属性都加入集合,按照一定规则依次删除属性,判断该属性删除后系统对分类结果是否有影响。 基于粗糙集理论的属性约简与决策树分类算法研究张文宇【岢龌诒平炔问乃惴髁粜园粗匾P杂纱驨依次加 决策树分类理论分裂标准生成决策树。一 基于粗糙集理论的属性约简与决策树分类算法研究且【煅椴舛取、卡方检验【】等作为属性选择标准。如果直接将得到的决策树分类器用于对现实的数据集进行分类,效率和精度往往不高。这是因为生成的决策树规模很大鞯纳疃群艽螅蹲咏岬愫芏,存在严重的过拟合。大量文献表明生成结点数最少的决策树是一个难题。为了提高分类速度和准确率,增强树的泛化能力。要采用合适的方法对决策树进行剪枝。普遍采用先剪枝和后剪枝两种方法。本章小结 简化决策表算法与求核属性算法因此,与其他处理该类问题的理论互相补充、融合,这也是粗糙集理论的研究热点之一。属性约简,高效算法,规则提取等也是粗糙集理论研究的重点。经过多年的发展,粗糙集理论已经在数据挖掘与机器学习、自然语言处理、模式识别与人工智能、故障诊断和图形处理等领域有着广泛的应用。在很多行业,如航空、航天、环境科学、交通运输也都取得了很多成果。悦恳桓龆韵髗赋予,蔝,有琣蔏。定义:在决策表校杂诿恳桓鍪粜宰蛹疨定义了一个二元不 基于粗糙集理论的属性约简与决策树分类算法研究 文献刻岢觥个定理:定义:在决策系统且緐骸縂,瑃毫铌汀!,唬海瑄,眨印一一。,定义:在决策表訡,琕表;对于存在蔆,定义襵嘭一定理:在决策表訥,琕中,珻,琕是其简化决策定理:在决策表證,琕中,珼,是其简化的决策 基于粗糙集理论的属性约简与决策树分类算法研究输入:决策表珼,唇幢恚扛龆韵舐,。按顺序存入链表,表头指针指向指向第一个非空链表,每一个非空链表的头指针,指向下一个非空链表的 鼠中,均不相同 一 简化决策表算法与求核属性算法为了说明算法,将上面的决策表属性数值化。在属性中,令, 基于粗糙集理论的属性约简与决策树分类算法研究表:耎耎弧耎耎一 耎新组成的链表为:耎籜第四次分配的结果为:得到的最终结果为:一 基于粗糙集理论的属性约简与决策树分类算法研究幽耎叉凡一叉徊虏卜疌琗瑊,瑊瑊,瑊,琗瑊。在策值相同,的决策值与它们都不同,选择并入咄。,并入畋。同理最琣如为决策函数。如表示为决策函数被限制狢,对划分,的唤凭任猺 协叫 基于粗糙集理论的属性约简与决策树分类算法研究郑,蚝,騊,趗上的分布列为:于属性奶跫亍渲校琍蒊五蒼琲,琻,琺。中任意属性鉎貶一 得的核为。现将表增加一行数据得到表,对于表我 基于粗糙集理论的属性约简与决策树分类算法研究以得到如下结论: 基于粗糙集理论的属性约简与决策树分类算法研究策表的核属性。本算法是对和叶算法的一个扩展和修正。输出:信息熵定义下的核属性 基于粗糙集理论的属性约简与决策树分类算法研究表智蠛耸粜运惴鯱数据集上的实验结果本章小结 上一章对不相容决策表进行了深入的研究,在保留不一致对象的基础上,根据简疪且 篩且的等价类,记为,躰調。 基于粗糙集理论的属性约简与决策树分类算法研究成立。最后通过后项删除的方式确保所有属性都是不可约简的,得到最终的约简结果。算法:属性约简算法一 组成,其中前鑫L跫粜裕俏獅琣琣琣,最后一个为决策屙俏狣。根据算法第一步首先计算此数据集的核属性为琣。得到,蛭狪琷。分别计算 基于粗糙集理论的属性约简与决策树分类算法研究因此选择属性加入琑琣琣。重新计算疪和,。根据基于粗糙集的多变量决策树分类算法决策树算法因其简单高效,在分类问题中一直被广泛采用。决策树将数据集细分为更小的数据集,直到最终的结点都完全属于同一个类或结点中不同的类的比例低于设定的阈值。这样就得到了一棵具有决策分类能力的树。通过判断满足不同条件的分类结点自顶向下进行测试,我们就能确定一个对象属于哪一个类。如何得到分类效率高,且规模相对较小的决策树是专家学者研究的重点。但是由于现实中采集的数据量很大,数据所含属性较多,且数据中存在错误和无效的数据。这样会导致生成的决策树分类准确率很低且树的规模很庞大。一 琣。因为核属性不为空,令。根据相对泛化的定义,可以求出根 基于粗糙集理论的属性约简与决策树分类算法研究算法:算法输入:决策表訡,琕用于划分的属性为空,求治猄海用于划分的属性为空 图一 基于粗糙集理论的属性约简与决策树分类算法研究图算法生成的决策树 算法生成的决策树 算法与多变量决策树算法南住克惴相比较。通过最终生成的决策树可 通常情况下,确定一个对象属于哪个类的方法是以决策树的根为起点出发,自顶向下的选择满足条件的属性,最终到达叶子结点,该结点所属的类就是该对象应该划分的类,并产生一条分类规则。一棵决策树能得到一个分类集合。但是规则集一般隋况下不能满足所有的样本,为了更准确的预测对象所属类标,采用基于匹配度的方式进行类标预测。将决策树从根结点开始到一个叶子结点为止定义为一条规则,每个分裂节点为规则前件,叶子结点为规则后件。设未知类标对象为霾吖嬖蛭猺,则对象刖霾吖嬖騬的匹配度为 基于粗糙集理论的属性约简与决策树分类算法研究 表五种算法的分类结果比较 基于粗糙集理论的属性约简与决策树分类算法研究表五种算法的分类结果比较 数据集 基于租糙集理论的属性约简与决策树分类算法研究示。图砻鳎疚牡乃惴诜掷嘧既仿史矫嬗庞谄渌种决策树算法,其中和 趍址掷嗨惴贑数据集上的分析结果 狣 本章小结本章首先提出了一种渐进式的求正区域的算法。在此基础上,提出了一种基于属性重要度的完备属性约简算法,该算法保证了一定能求得约简结果。将简化后的决策表用于构造决策树,通过相对泛化和确定性程度的引入,提出了改进的多变量决策树算法。通过菁种决策树算法算法、惴 操作系统:一 基于粗糙集理论的属性约简与决策树分类算法研究据集有龆韵螅个条件属性为萼片宽度,萼片长度,花瓣长度,花瓣宽度。记 图基于简化决策表的属性约简 本章小结 决策表删除了大量的冗余数据。并证明系统的有效性。下一步研究工作 基于粗糙集理论的属性约简与决策树分类算法研究 参考文献甀 ,瓼 基于粗糙集理论的属性约简与决策树分类算法研究学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 分布式光伏产业建设项目投资计划书
- 2025年重庆市政务服务中心(综合窗口)人员招聘笔试备考题库及答案解析
- 副校长选拔考试笔试试题及答案
- 古代公务员真题及答案
- 2025年耳鼻喉科学临床技术实践考察答案及解析
- 2025年疼痛科慢性疼痛治疗方案选择模拟测试卷答案及解析
- 2025年t检查技术试题颅脑试题及答案
- 医美机构面试题及答案
- 2025年整形外科美容手术术前术后管理考核及答案解析
- 纹绣师基础理论知识测试题及答案
- 《中国尖锐湿疣临床诊疗指南(2021版)》解读
- 租金费用收取管理制度
- 建筑垃圾处理技术标准(CJJT 134-2019)
- 五年级美术素养测评模拟测试
- 木工课堂安全管理制度
- 【《基于Matlab的电力系统电压稳定L指标计算与灵敏度分析》18000字】
- 小班语言活动《笑嘻嘻》
- 《AIGC应用实战:写作、绘图、视频制作、直播》-课件 第七章 即梦的使用方法;第八章 AI直播
- NHSS系列钢丝绳手扳葫芦
- 运动康复项目介绍
- 2025中国地中海贫血祛铁治疗指南解读
评论
0/150
提交评论