




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
决策树方法在数据挖掘中的应用 1KnowledgeSEEKER简介2数据准备3定义研究对象4建立模型5理解模型6预测 1KnowledgeSEEKER简介 KnowledgeSEEKER是一个由Angoss公司开发的基于决策树的数据分析程序 该程序具有相当完整的分类树分析功能 KnowledgeSEEKER采用了两种著名的决策树分析算法 CHAID和CART算法 CHAID算法可以用来对于分类性数据进行挖掘 CART算法则可以对连续型因变量进行处理 Angoss公司在增强这些算法的用户友好性方面作了大量的工作 优点 响应快 模型 文档易于理解 决策树分析直观 性能良好缺点 决策树不能编辑打印 缺乏数据预处理阶段的函数 没有示例代码 1KnowledgeSEEKER简介 应用行业案例 FrostNational银行CRM收益率 客户满意度 产品功效SASI公司利用其开发行业数据挖掘应用软件 零售行业 Montreal银行客户分片 越区销售模型 市场站的准备 抵押支付的预测 信用风险的分析 2数据准备 使用的样例数据集是从一个团体健康检查中有关高血压的研究项目中得到的 Angoss公司已将这一数据集包括在产品演示中 有关高血压研究方面的数据 表中给出数据集中各个数据列的取值范围及其含义说明 2数据准备 数据预处理 1 对数据域中所含的整数值进行标注 Hypertension 高血压 域中可以出现整数值1 2 3 这几个值将分别被标注为低 正常 高 TypeOfMilk域中包含整数值1 5 将分别标注为纯牛奶 2 脱脂牛奶 奶粉及根本不喝牛奶2 处理导出型的数据域字段Age中包含的值1 2 3分别表示32 50岁 51 62岁及63 73岁 然而 字段Age中通常包含的都是某个人的实际年龄而非整数值1 2 3 因此 字段Age中的值是在数据挖掘开始之前就已经导出了 即按照实际年龄的范围32 50岁 51 62岁及63 73岁对该字段选择适当的值 3定义研究对象 1 定义挖掘目标在开始使用KnowledgeSEEKER之前 有必要定义出挖掘的目标 在给定的数据集的例子中展示了哪些饮食因素会对人的血压高低有关键性的影响 其挖掘的目标可以明确地描述为 分析出饮食因素对血压偏低 正常及偏高所产生的影响 3定义研究对象 2 启动 3定义研究对象 3 设置因变量一开始 字段Hypertension就已经被自动设置为因变量 稍后 还将改变因变量的设置 打开bpress数据集之后将出现如图所示的屏幕 3定义研究对象 图中的根结点对应的是因变量 在根节点中血压已经分别被分为3类 偏低 正常和偏高 我们现在要了解的是血压偏低 正常和偏高的人都分别具有哪些特征 从图中可以看出 研究对象中有18 的人 即66个人 血压偏低研究对象中有60 的人 即217个人 血压正常研究对象中有21 的人 即77个人 血压偏高 4建立模型 目前KnowledgeSEEKER已经构造出模型树的下一层分支 当然 模型树还可以自动生成出多层分支 图中的模型树的下一层分支表明上一层的双亲节点是按年龄 age 进行分叉的 年龄只是影响血压的一个变量 但是在目前这个例子中 年龄似乎是导致一个人的血压是否偏高的最重要因素 如图所示 研究对象按年龄分为以下3组 32 50岁 51 62岁 63 73岁它们分别对应于模型树的三个叶节点 此外 还可以用除Age以外的其他字段为模型树创建新的叶节点 在模型树上通过指定其它字段以创建新的叶节点称为分叉 对于当前这个数据集 系统会自动发现12个分叉 5理解模型 1 观察其分叉观察其分叉将使我们可以看到除年龄以外对血压还有影响的其他重要变量的作用 KnowledgeSEEKER可以计算出所有变量对血压影响的大小并将使它们按顺序排列起来 用另一个变量直接在根节点下面构造叶节点即可进入模型树的另一个分叉 这样 我们就可以很容易地观察到其他数据元素对血压的影响 对于自动生成的每一个分叉所作的概述将为我们考虑下一步的研究方向提供有益的线索 很明显 所获得的信息中有一些符合我们的预先估计 然而 我们从数据集中也发现了一些预先没有估计到的结果 如人的身高与其高血压之间的关系就是我们预先没有估计到的 5理解模型 2 进入特定分叉3 扩展模型树以smoking为分叉变量构造的模型树目前还只有一层 我们可以对这棵模型树作进一步扩展 在模型树的第二层中选择经常吸烟者相对应的节点 然后 在Grow下拉菜单中选择FindSplit 即可以看到如图所示的屏幕 5理解模型 KnowledgeSEEKER发现对于描述经常吸烟者特征最为有效的分组变量就是年龄 也就是说 对于经常吸烟的人而言 年龄将是确定其是否患高血压的最关键的指标 数据表明年龄在63 73岁之间经常吸烟的人当中有56 7 患有高血压 而年龄在32 51岁之间且经常吸烟的人当中患有高血压的比例仅为4 8 为进一步描述经常吸烟者的特征 KnowledgeSEEKER总共发现了6个分叉变量 分别是Age Height PorkLastWeek DrinkPattern Gender以及SaltConsumption 其中以年龄最为有效 5理解模型 4 强制分叉有时我们还想观察一下那些没有自动发现的变量的作用 例如 我们可能想知道PoultryLastWeek对人们患有高血压有什么影响 为此 我们可以在模型树上作强制分叉 5理解模型 5 对模型进行验证当我们从一个数据集中发现某些结果之后 总是希望能够用另外一个数据集再对其进行验证 Angoss将那些用于验证的数据集又称为测试分区 TestPartition KnowledgeSEEKER允许我们用另一个数据集 即测试分区 对新发现的结果进行验证 5理解模型 6 重新定义挖掘对象假如我们想要改变所研究的内容 例如 想要研究饮酒数量不同的人之间的差别 那么就需要重新定义研究对象 改变模型树的根节点为DrinkPattern 即新的模型树的根节点对应的因变量为DrinkPattern 其中可以含有下列值 Regular 经常饮酒 Occasional 偶然饮酒 Former 以前曾经饮酒 Never 从不饮酒 可以对这棵以DrinkPattern为因变量的模型树作进一步的扩展 虽然这期间使用KnowledgeSEEKER的工作方式与前面是一样的 但所要研究的内容与前面完全不同了 即现在要研究的是人们的饮酒方式及其影响 5理解模型 7 模型树的自动扩展前面所演示的都是如何一个一个节点地扩展模型树 此外 还可以让系统对模型树作自动扩展 8 数据分布KnowledgeSEEKER提供了若干种方法以便我们能够对正在挖掘的数据的状态进行观察 首先 我们能够通过KnowledgeSEEKER对正在挖掘的原始数据进行详细观察 另外 还可以通过KnowledgeSEEKER对数据几种不同数据项的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 养殖水产品智能保鲜技术创新创业项目商业计划书
- 智能能源智能调度创新创业项目商业计划书
- 脑机接口意念控制轮椅创新创业项目商业计划书
- 自动化版权管理创新创业项目商业计划书
- 2025年盖州市消防员考试笔试试题(含答案)
- 电商SaaS平台多站点管理创新创业项目商业计划书
- 艺术交流社交场创新创业项目商业计划书
- 园林生态环保教育活动创新创业项目商业计划书
- 移动设备远程控制技术创新创业项目商业计划书
- 2025年社交媒体平台舆情监控与危机公关应对策略优化报告
- 2025年湖南湘西自治州州直事业单位招聘考试笔试试卷附答案
- 幼儿园安全责任书及后勤管理制度
- 消防车辆事故课件
- 2026届四川省宜宾市普通高中高一化学第一学期期末统考试题含解析
- 《2型糖尿病中医防治指南(2024版)》解读课件
- 剑阁县普安镇污水处理厂扩容建设项目环评报告
- 商务楼宇管理办法
- 肺炎护理试题填空及答案
- 社用手机管理办法
- 心电监护操作常见并发症预防及处理
- 学校食堂各种检查记录表格表册11
评论
0/150
提交评论