数据仓库与数据挖掘技术六决策树_第1页
数据仓库与数据挖掘技术六决策树_第2页
数据仓库与数据挖掘技术六决策树_第3页
数据仓库与数据挖掘技术六决策树_第4页
数据仓库与数据挖掘技术六决策树_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2.2.主算法2.2.主算法1.1.基本思想第6章决策树方法6.1信息论的基本原理6.1.1信息论原理6.1.2互信息的计算定义出现概率条件概率子集概率子集条件概率信息熵互信息2常用决策树算法6.2.1ID3算法

表6TID3算法训练样本集编号属性类别天气气温湿度风力1晴热高无风N2晴热适中无风N3多云热高无风P4雨适中高无风P5雨冷正常无风P6雨冷正常有风N7多云冷正常有风P8喑适中高无风N9晴冷正常无风P10雨适中正常无风P11晴适中正常有风P12多云适中高有风P13多云热正常无风P14雨适中高有风N天气图6-1ID3决策树NE存在判断的PE”和NE"吗扩展窗口PE'=PE'+PE"NE'=NE'+NE”NE存在判断的PE”和NE"吗扩展窗口PE'=PE'+PE"NE'=NE'+NE”测试PE、NE生成决策树此决策树是最后结果训练集PE、NE取子集建窗口图6-2ID3算法流程建树算法实例计算6.2.2C4.5算法信息增益比例的概念连续属性值的处理未知属性值的处理规则的产生案例计算

表6-2C4.5算法训练样本集编号属性类别天气气温湿度风1晴热85无风N2晴熬90无风N3多云热78无风P4雨适中96无风P5雨冷80无风P6冷70有风N7多云冷65有风P8适中95无风N9冷70无风P10适中80无风F11适中70有风P12多云适中90有风P13多云热75无风P14适中80有风N温度湿度风类别执八%、温度湿度风类别执八%、>75无适合执八>75有不适合适中>75无适合冷75无适合温度湿度风类别执>75无适合冷75有适合适中>75仃适合热75无适合温度湿度风类别适中>75无适合冷>75无适合冷75有不适合适中>75无适合适中>75有不适合图6-3天气结点及其分支图6-4C4.5算法形成的决策树图图6-6选择数据挖掘技术6.3决策树剪枝6.3.1先剪枝6.3.2后剪枝6.4由决策树提取分类规则6.4.1获得简单规则图6-5决策树6.4.2精简规则属性表6-3规则IT覆盖实例表ClassC其他类满足条件AY1E1满足条件A-,但不满足XY2E26.5利用SQLServer2005进行决策树挖掘6.5.1数据准备6.5.2挖掘模型设置表6-4列的用法字段名称列的用法字段名称列的用法ID键列客户状态输入列客户名称输入列重点标志输入列客户类型输入列可疑预测列经济性质输入列次级预测列隶属关系输入列正常预测列关注输入列余额预测列法人资格输入列损失预测列6.5.3挖掘流程图6-7选择数据源视图图6-8指定表类型图图6-11完成数据挖掘结构的创建图图6-11完成数据挖掘结构的创建图6-9指定定型数据图6-10指定列的内容和数据类型用数据挖掘向导完成向导为挖掘结构提供名称』从而完成数据捻掘向导.挖掘结构名称(由:tDml花掘模型名称值):匕口巾” ―□允许钻取.ffi格质型太资性类什级人注济疑户口ID次法关经可客看ml列窗司司福铝洞剧后tD©Aijil下一步⑼ 完成㈤|取消<上一步也)图图6-13挖掘得到的依赖关系图图图6-13挖掘得到的依赖关系图6.5.4挖掘结果分析图6-12挖掘得到的“次级”决策树图图6-15与“余额”结点链接强度最强结点示意图图图6-15与“余额”结点链接强度最强结点示意图图6-14“余额”结点的依赖关系图表6-5“余额”结点依赖关系表预测结点决策结点依赖关系强弱顺序余额重要标志1隶属关系2客户类型3经济性质4客户状态5法人资格66.5.5挖掘性能分析斑AnalysisServices项目2-MicrosoftVisualStudio|文件《日|编辑视图(由项目生成(电调试数据库挖掘膜型(由测试(分工具窗口(比社区仁)帮助《由:窗区电,我曾就■的口|文件《日|编辑视图(由项目生成(电调试数据库挖掘膜型(由测试(分工具窗口(比社区仁)帮助《由:窗区电,我曾就■的口[设计以挖掘结构|大挖掘模型|由挖掘模型查看器|囱检掘惟确性图表|▼挖掘模型预测楚射事提升图分类矩阵删除表… 选择事例表.修改联接.选择要在提升图中显示的可预测的拾掘模型列:而同步预测列和值显示挖掘模型必居可预测的列名预测值口数据成方数据源视图⑥潘多维数据集白维度⑦检掘结构(默认值)基本图6-16列映射图图6-17属性“次级”的预测提升图习题6概率分布[0:0625;0:0625;0:125;0:5]的熵是多少?汽车保险例子。假定训练数据库具有两个属性:年龄和汽车的类型。年龄——序数分类。汽车类型——分类属性。类一一L:低(风险),H:高(风险)。年龄汽车类型类>21MarutiL>21HyundaiH<21MarutiH

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论