数据挖掘常用分类算法探究_第1页
数据挖掘常用分类算法探究_第2页
数据挖掘常用分类算法探究_第3页
数据挖掘常用分类算法探究_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘常用分类算法探究摘要:数据库、数据仓库以及其他存储信息库中 潜藏着很多与商业、科学研究等活动的决策有关的数据和知 识。对于数据挖掘中的数据分析,通常有两种常见的方法, 即分类和预测,首先对数据库中的数据进行分类归纳,然后 根据分类规则可以得到比较有价值的数据,然后我们可以根 据这个数据来预测得到一些包含未来趋势的信息。在常见的 分类算法中,决策树算法是一个有着很好扩展性的算法,可 以应用到大型数据库中,可以对多种数据类型进行处理,分 类模式容易转化为分类规则,结果也十分的浅显易懂易于理 解。该文主要先介绍了几种常用的分类算法,然后具体介绍 决策树算法的过程以及在分类算法实际应用中的优缺

2、点。关键词:数据挖掘;分类算法;人工智能;决策树 中图分类号:tp311文献标识码:a文章编号: 1009-3044 (2013) 34-7667-031数据挖掘基本分类算法简要介绍数据分类技术在日常很多领域都有过应用,譬如银行经 常要使用分类模型来进行相应的商业评估;学校的教务系统 要使用分类模型对学生的成绩以及各种评价来进行评估;研 究生、博士生等发表论文,使用数据挖掘分类模型来对各种 期刊进行细致的分类,这样才能有效的评价科研能力的好 坏;还有例如百度、谷歌这样的大型搜索引擎,提供的推荐 功能,分类技术已经融入了我们日常生活的方方面面,各个 领域也提出了很多分类算法理论。最开始的数据挖掘

3、分类算法都是基于内存的算法。经过长时间的发展,数据挖掘算法也由使用内存开始逐步地使用 外存以获得处理大数据的能力,以下对一些经典的分类算法 进行介绍。1)决策树分类算法决策树分类算法是数据挖掘十分经典的分类算法。它使 用自顶向下递归的方式构造决策树模型。决策树上的每一个 结点都采用信息增益度量来选择所要测试的属性。也可以从 已经生成的决策树上提取出分类规则。2)向量空间模型vsm算法vsm的概念十分简单,就是把对文本内容的处理转化为对空间向量中的向量运算,而且可以使用空间中的相似度参数来表示文本中语义的相似度,非常的直观简单。在向量空间模型中,文本包含 了各种机器可以读取的记录信息。不妨用d表

4、示,文本的特 征集合可以表示为d (tl, t2,,tn),其中tk是特征项, 10.1),我们认为数据应该按照这个节点进行分裂,也就是 说这个属性(house)构成了我们的一次决策过程。2)再按照house分裂的每个数据集上,针对其他属性(house除外)进行与1)相同的过程,直到信息增益不足 以满足数据分裂的条件。这样,我们就得到了一个关于属性 数据划分的一棵树。可以作为class字段未知的数据的决策 依据。3)经过编码运行后得到实验结果如下图:根据该决策树的输出,我们可以得到如下的挖掘规则: 首先根据house属性判断,当house属性为1时,走到索引 为2的节点,此时该节点是叶子节点,

5、预测值class为1.4)决策树算法的评价根据上面实验的分析,我们可以发现决策树的一些优缺 点:决策树算法所产生的分类规则十分的易于人理解,准确 率很高;但是在构建决策树的过程中,需要对数据集进行多 次的扫描排序,效率还有待进一步提高。3总结本文主要先详细介绍了数据挖掘分类技术目前的常用经典算法,后面部分主要描述了决策树算法的实现,决策树 算法是一个基于信息炳理论的具有良好性能的分类算法。该 文通过对数据的分析,然后通过编程实现决策树算法对该数据进行处理,得到一个决策树的结构,根据该树可以归纳得到分类规则,最后可以得到评价结果。决策树算法对数据无任何前置要求,应用在金融和教育产业中效果也比较好,故 发展前景十分良好,可以继续深入研究。参考文献:1 郭超峰,李梅莲基于id3算法的决策树研究与应 用j许昌学院学报,2007 (2).2 pang-ning tan, stein

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论