




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、分类算法的研究进展分类是数据挖掘、机器学习和模式识别中一个重要的研究领域,分类的目的是根据数据集的特点构造一个分类函数或分类模型,该分类模型能把未知类别的样本映射到给定类别中的某一个。分类和回归都可以用于预测,和回归方法不同的是,分类的输出是离散的类别值,而回归的输出是连续或有序值。一、分类算法概述为了提高分类的准确性、有效性和可伸缩性,在进行分类之前,通常要对数据进行预处理,包括:(1)数据清理,其目的是消除或减少数据噪声处理空缺值。(2)相关性分析,由于数据集中的许多属性可能与分类任务不相关,若包含这些属性将减慢和可能误导分析过程,所以相关性分析的目的就是删除这些不相关的或兀余性。(3)数
2、据变换,数据可以概化到较高层概念,比如连续值属为离散值:低、可概化到高层概念“省”此外,数据也可以规范化,规范化将给定的值按比例缩放,落入较小的区间,比如0,1等。的属性“收入”的数值可以概化中、高。又比如,标称值属性“市”二、常见分类算法2.1决策树决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。
3、2.2贝叶斯分类贝叶斯分类是统计学分类方法,它足一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(NaiveBayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。为此,就出现了许多降低独立性假设的贝叶斯分类算法,TAN(treeaugmentedBayesnetwork)算法。2.3神经网络神经网络是大量的简单神经元按一定规则连接构成的网络系统。它能够模拟人类大脑的结构和功能,采用某种学习
4、算法从训练样本中学习,并将获取的知识存储在网络各单元之间的连接权中。神经网络主要有前向神经网络、后向神经网络和自组织网络。在数据挖掘领域,主要采用前向神经网络提取分类规则。包括替换的误差函数、网络拓扑的动态调整、学习率和要素参数的动态调整。近年来,从神经网络中提取规则受到越来越多的关注。这主要有以下二种倾向:(1)网络结构分解的规则提取;(2)由神经网络的非未来神经网络的发展可向进一步降低算法线性映射关系提取规则。的复杂度、提高所提取规则的可理解性及算法的适用性方向发展。2.4遗传算法遗传算法是模拟生物进化过程的全局优化方法,将较劣的初始解通过一组遗传算子(繁殖一一即选择、交叉一一即重组、变异
5、间按一定的随机规则迭代搜索,直到求得问题的最优解。遗传即突变),在求解空算法在数据挖掘领域的主要应用有:(1)用它和BP算法结合训练神经网络,然后从网络提取规则;(2)分类系统的设计,如编码方式、信任分配函数的设计以及遗传算法的改进等。遗传算法用于数据挖掘存在的问题是:(1)算法较复杂,(2)收敛于局部极小的过早收敛等难题未得到解决。2.5KNN算法最临近分类KNN是基于要求的或懒散的学习法,即它存放所有的训练样本,并且直到新的(未标记)的样本需要分类时才建立分类。这与诸如决策树和神经网络这样的急切学习法形成鲜明对比。懒散学习法在训练时比急切学习法快,但在分类时慢,特别是当与给定的无标号样本比较的可能的临近者(即存放的训练样本)数量很大时,懒散学习可能引起很高的计算开销。参考文献.1QuinlanJR.Inductionofdecisiontrees.MachineLearning.1986:1一356._2QuinlanJR.C4.5Programsformachinelearning.MorganKauffman.1993:81106.3毛国君,段立娟,王实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 奥氏体不锈钢T型焊缝相控阵超声检测技术研究
- 邯郸市人民医院在线培训管理考核
- 2025年医院安全生产检查自查报告
- 基于深度元学习的滚动轴承故障诊断方法研究
- 预热段静压箱参数优化研究
- 双面卸荷应力下不同煤阶煤破坏规律研究
- 木质素改性制备单分散胶体球及其应用研究
- 2025年汽车租赁服务合同协议
- 2025年美容院员工劳动合同
- 2025年文化艺术交流活动合同
- 2020年成人高考专升本大学语文考试真题及答案解析
- 无人机飞防作业合同范本
- 医院感染病例登记报告制度课件
- 行测5000题电子版2025
- 《接触网的维修管理》课件
- 高中学校三年发展规划
- 云南省2024-2025学年高二上学期11月期中考试数学试题含答案
- 前列腺癌内分泌治疗
- 历史常识单选题100道及答案解析
- 《中医基础理论》课程教案
- 风电场道路及风机基础工程冬季施工方案
评论
0/150
提交评论