数据仓库与数据挖掘-决策树实验_第1页
数据仓库与数据挖掘-决策树实验_第2页
数据仓库与数据挖掘-决策树实验_第3页
数据仓库与数据挖掘-决策树实验_第4页
数据仓库与数据挖掘-决策树实验_第5页
已阅读5页,还剩9页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、。实验 3 决策树一、实验目的了解决策树的基本概念。掌握决策树挖掘分析的操作步骤。二、实验内容对 三国志 4 武将数据 .xls 中的数据进行决策树分析。三、实验仪、设备计算机、 visual studio 2008、分析用数据、数据库服务四、实验步骤准备工作:三国志4 武将数据 .xls数据导入数据库中。(1)打开 visual studio 2008,新建项目,选择商业智能项目, analysis services项目图 1新建项目(2)在解决方案资源管理器中,右键单击数据源 ,选择 新建数据源图 2 数据源向导精选资料,欢迎下载。(3)在该界面中选择新建 ,进行数据源具体设置图 3 新建

2、数据源4) 在服务器名 中填写要连接的数据库服务器名称,或者单击服务器名右方下拉按钮进行选择; 勾选使用 windows 身份验证 ;选择或输入一个数据库名 中填写将要分析数据所在的数据库或者单击右方下拉按钮进行选择图 4 数据源具体设置精选资料,欢迎下载。(5)确定后配置完的数据源已显示在窗口上,继续下一步图 5 完成数据源具体设置(6)勾选 使用服务账户,继续下一步图 6 模拟信息设置(7)数据源名称 保持默认, 完成精选资料,欢迎下载。图 7 完成数据源设置向导(8)在解决方案资源管理器中,右键单击数据源视图 ,选择 新建数据源视图图 8 数据源视图向导(9)下一步图 9 选择数据源(1

3、0) 在可用对象 中,将要分析数据所在表添加到包含的对象 中,继续 下一步精选资料,欢迎下载。图 11 选择包含对象(11) 默认 名称 ,完成图 12 完成数据源视图向导(12) 在解决方案资源管理器中,右键单击挖掘结构 ,选择 新建挖掘结构图 13 数据挖掘向导(13) 勾选 从现有关系数据库或数据仓库,继续 下一步精选资料,欢迎下载。图 14 选择定义方法(14) 选择 microsoft决策树 ,继续 下一步图 15 创建数据挖掘模型结构(15) 下一步图 16 选择数据源视图(16) 勾选 事例 ,继续 下一步精选资料,欢迎下载。图 17 指定表类型17) 在键列勾选 序号码 ,在

4、输入 列勾选 出身、国别、魅力、统御、武力、政治、智慧、忠诚 ,在 可预测 列勾选 身份 ,继续 下一步图 18 指定定型数据(18) 下一步精选资料,欢迎下载。图 19 指定内容和数据类型(19) 勾选 允许钻取 ,完成图 21 完成数据挖掘向导(20) 单击 挖掘模型查看器精选资料,欢迎下载。图 22 完成设置(21) 询问是否部署项目,是图 23 部署项目(22) 询问是否继续,是图 24 处理模型(23) 单击 运行精选资料,欢迎下载。图 25 运行挖掘项目(24) 待处理完成后,关闭图 26 处理结果25) 关闭处理窗口后,就可在 挖掘模型查看器 的决策树 中看到系统经过分析得出的结

5、果图 27 分类关系图精选资料,欢迎下载。依赖关系网络:图 27 分类剖面图26) 在挖掘模型 中,右键单击挖掘模型可以 设置算法参数图 28 算法参数(27) 算法参数的意义COMPLEXITY_PENALTY:禁止决策树生长。减少此值会增加拆解的可能性,而增加此值则会减少拆解的可能性。FORCE_REGRESSOR:强制算法使用的数据行作为回归公式的回归输入变量,而不考虑其在算法计算中的重要性为何。MAXIMUM_INPUT_ATTRIBUTES:指定在叫用功能选项之前,算法可以处理输入属性的最大数目。MAXIMUM_OUTPUT_ATTRIBUTES:指定在叫用功能选项之前,算法可以处理

6、输出属性的最大数目。MINIMUM_SUPPORT:指定分叶节点必须包含的最小个例数目SCORE_METHOD:指定用来计算分割准则的方法。精选资料,欢迎下载。SPLIT_METHOD:指定用来节点分杈的模式。图 29 设置算法参数28) 设定完算法后,再次点击 挖掘模型查看器 进行数据处理,处理完成后所得出的结果就是设置算法后的结果。五、实验心得体会通过这次关于决策树的实验, 让我对决策树的应用有了相对具体的理解, 并且为决策树的学习提供了一个好的铺垫, 在学习过程中, 决策树中的算法由于利用系统本身, 所以精选资料,欢迎下载。并没有具体理解 ID3 这个算法的具体运转环节, 但是有了这次实

7、验的铺垫, 使自己能够更加容易之后的 ID3 算法的学习。六、思考题决策树对数据分类的正确率是否可以达到100%?答:不可以达到100%决策树一般都是自上而下来生成的。决策树由一个决策图和可能的结果( 包括资源成本和风险 ) 组成,用来创建到达目标的规划。每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,所以称作决策树。对于那些各类别样本数量不一致的数据,在决策树当中信息增益的结果偏向于那些具有更多数值的特征。决策树的这种明确性可能带来误导。决策树分类准确率极限理论:定理 1:有经验风险和结构风险时,决策树分类准确率的极限不存在。定理 2:无经验风险、有结构风险时,决策树分类准确率的极限不存在。定理 3:有经验风险、无结构风险时,决策树分类准确率的极限存在。定理 4:无经验风险和结构风险时,决策树分类准确率的极限存在。以上定理都认可 100%是决策树分类准确率的上边界, 0%是其

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论