数据仓库与数据挖掘--决策树实验_第1页
数据仓库与数据挖掘--决策树实验_第2页
数据仓库与数据挖掘--决策树实验_第3页
数据仓库与数据挖掘--决策树实验_第4页
数据仓库与数据挖掘--决策树实验_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实验3决策树一、实验目的1 .理解决策树的基本概念。2 .掌握决策树挖掘分析的操作步骤。二、实验内容三国志4武将数据. xls的数据进行决策树分析。三、实验仪器、设备计算机、visual studio 2008、分析用数据、数据库服务四、实验程序准备工作:把三国志4武将数据. xls数据读入数据库。(打开visual studio 2008,创建新项目,然后选择业务智能项目analysis services项目图1新项目(2)在解决方案资源管理器中,右键单击数据源,然后选择“新建数据源”图2数据源向导(3)在该接口上选择“新建”,进行数据源的具体设定图3新数据源(4)连接服务器名填写数据库服务器名,或点击服务器名右侧的下拉按钮选择使用windows认证选中,选择或输入数据库名,输入要分析数据的数据库,或从右侧的下拉列表中选择图4数据源的具体设置(5)确认后构成的数据源显示在窗口中,进入下一步骤完成图5数据源的具体设置(6)检查服务帐户的使用,然后继续下一步图6模拟信息设定(7)数据源名称保留默认,完成图7数据源设置向导完成(8)在解决方案资源管理器中,右键单击数据源视图,然后选择“新建数据源视图”图8数据源视图向导。(9)下一步骤图9数据源的选择(10 )在可用对象中,添加包含要分析的数据的表的对象,进入下一步骤.图11包含对象的选择(11 )默认名称、完成图12数据源视图向导完成(12 )在解决方案资源管理器中,右键单击挖掘结构,然后选择“新建挖掘结构”图13数据挖掘向导(13 )从现有的关系数据库或数据仓库中选中,进入下一步骤图14定义方法的选择(14 )选择Microsoft决策树,进入下一步图15数据挖掘模型结构的建立(15 )下一步骤图16数据源视图的选择(16 )检查事例,进入下一步骤图17表类型的指定(17 )用键列检查号码,用输入列检查出身、国家、魅力、统制、武力、政治、智慧、忠诚,用可预测列检查身份,进入下一步图18指定定型数据(18 )下一步骤在图19中,指定了内容和数据类型(19 )允许钻头,检查是否完成图21数据挖掘向导完成(20 )单击挖掘模型查看器图22 :设定完成(21 )询问是否展开项目。 是图23引入项目(22 )询问是否继续。 是图24的处理模型(23 )点击执行图25挖掘项目的执行(24 )关闭直到处理完成图26处理结果(25 )关闭处理窗口后,系统分析的结果显示在挖掘模型查看器的决策树中图27分类关系图依赖网络:图27分类剖视图(26 )在挖掘模型上,在挖掘模型上单击鼠标右键,以设定算法参数图28算法参数(27 )算法参数的含义COMPLEXITY_PENALTY:禁止决策树的生长。 减小该值会提高分解的可能性,增大该值会降低分解的可能性。FORCE_REGRESSOR:强制算法用作回归表达式的回归输入变量,而不管算法计算的重要性。MAXIMUM_INPUT_ATTRIBUTES:指定算法在调用功能选项之前可以处理输入属性的最大数量。MAXIMUM_OUTPUT_ATTRIBUTES:指定算法在调用功能选项之前可以处理输出属性的最大数量。MINIMUM_SUPPORT:指定叶节点必须包括的最小实例数SCORE_METHOD:指定如何计算分割标准。SPLIT_METHOD:指定用于节点分支的模式。图29算法参数的设定(28 )在设定了算法后,再次点击挖掘模型查看器进行数据处理,处理完成的结果是设定算法的结果。五、实验体会通过对这次决策树的实验,比较具体地理解了决策树的应用,为决策树的学习提供了很好的楼层。 由于在学习过程中决策树的算法利用了系统本身,所以虽然不具体理解ID3这一算法的具体运营过程,但有了这次实验的楼层,自己就能更容易地学习以后的ID3算法了。六、思考问题决策树对数据分类的正解率是否达到100%?不能百分之百地做决策树一般由上而下地生成。 决策树由决策图和可能的结果(包括资源成本和风险)组成,并制定实现目标的计划。 各个决策和事件有可能引起2个以上的事件,结果有时会不同,把这个决策分支变成像树枝一样的图形,称为决策树。这些类别的样本数不一致的数据偏向于决策树中信息增益的结果具有更多数值的特征。 决策树的这种明确性可能会引起误解。决策树分类精度极限理论:定理1 :有经验风险和结构风险时,决策树分类精度不存在界限。定理2 :没有经验风险,有结构风险时,决策树分类精度的界限不存在。定理3 :有经验风险、没有结构风险时,决策树分类精度存在界限。定理4 :没有经验风险和结构风险

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论