版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 KnowledgeSEEKER是一个由Angoss公司开发的基于决策树的数据分析程序。该程序具有相当完好的分类树分析功能。 KnowledgeSEEKER采用了两种著名的决策树分析算法:CHAID和CART算法。CHAID算法可以用来对于分类性数据进展发掘。CART算法那么可以对延续型因变量进展处置。Angoss公司在加强这些算法的用户友好性方面作了大量的任务。优点:呼应快,模型,文档易于了解,决策树分析直观,性能良好缺陷:决策树不能编辑打印,缺乏数据预处置阶段的函数,没有例如代码运用行业案例:Frost National银行CRM收益率、客户称心度、产品效果SASI公司利用其开发行业数据发
2、掘运用软件零售行业Montreal银行客户分片、越区销售模型、市场站的预备、抵押支付的预测、信誉风险的分析 运用的样例数据集是从一个团体安康检查中有关高血压的研讨工程中得到的。Angoss公司已将这一数据集包括在产品演示中。 有关高血压研讨方面的数据表中给出数据集中各个数据列的取值范围及其含义阐明数据预处置:需求标注的区域:Hypertension域中可以出现整数值1,2,3,这几个值将分别被标注为低,正常,高。TypeOfMilk域中包含整数值15,将分别标注为纯牛奶、2%,脱脂牛奶,奶粉及根本不喝牛奶处置导出型的数据域 字段Age中包含的值1,2,3分别表示3250岁、5162岁及6373
3、岁。然而,字段Age中通常包含的都是某个人的实践年龄而非整数值1,2,3,因此,字段Age中的值是在数据发掘开场之前就曾经导出了,即按照实践年龄的范围3250岁、5162岁及6373岁对该字段选择适当的值。1、定义发掘目的 在开场运用KnowledgeSEEKER之前,有必要定义出发掘的目的。在给定的数据集的例子中展现了哪些饮食要素会对人的血压高低有关键性的影响。其发掘的目的可以明确地描画为:分析出饮食要素对血压偏低、正常及偏高所产生的影响。2、启动3、设置因变量 一开场,字段Hypertension就曾经被自动设置为因变量。稍后,还将改动因变量的设置。翻开bpress数据集之后将出现如下图的
4、屏幕 图中的根结点对应的是因变量。在根节点中血压曾经分别被分为3类:偏低、正常和偏高。我们如今要了解的是血压偏低、正常和偏高的人都分别具有哪些特征。从图中可以看出:研讨对象中有18%的人即66个人血压偏低研讨对象中有60%的人即217个人血压正常研讨对象中有21%的人即77个人血压偏高 目前KnowledgeSEEKER曾经构造出模型树的下一层分支。当然,模型树还可以自动生成出多层分支。 图中的模型树的下一层分支阐明上一层的双亲节点是按年龄age进展分叉的。年龄只是影响血压的一个变量,但是在目前这个例子中,年龄似乎是导致一个人的血压能否偏高的最重要要素。 如下图,研讨对象按年龄分为以下3组:
5、3250岁,5162岁,6373岁 它们分别对应于模型树的三个叶节点。 此外,还可以用除Age以外的其他字段为模型树创建新的叶节点。在模型树上经过指定其它字段以创建新的叶节点称为分叉。对于当前这个数据集,系统会自动发现12个分叉。1、察看其分叉 察看其分叉将使我们可以看到除年龄以外对血压还有影响的其他重要变量的作用。KnowledgeSEEKER可以计算出一切变量对血压影响的大小并将使它们按顺序陈列起来。用另一个变量直接在根节点下面构造叶节点即可进入模型树的另一个分叉。这样,我们就可以很容易地察看到其他数据元素对血压的影响。 对于自动生成的每一个分叉所作的概述将为我们思索下一步的研讨方向提供有
6、益的线索。很明显,上面所获得的信息中有一些符合我们的预先估计。例如,一个人年龄越大,患高血压的能够性也就越高;一个人参与体育活动越多,换高血压的能够性也就越低。这些都是我们预先估计到的。然而,我们从数据集中也发现了一些预先没有估计到的结果,如人的身高与其高血压之间的关系就是我们预先没有估计到的。2、进入特定分叉3、扩展模型树 以smoking为分叉变量构造的模型树目前还只需一层。我们可以对这棵模型树作进一步扩展。在模型树的第二层中选择经常吸烟者相对应的节点,然后,在Grow下拉菜单中选择Find Split,既可以看到如下图的屏幕。 KnowledgeSEEKER发现对于描画经常吸烟者特征最为
7、有效的分组变量就是年龄。也就是说,对于经常吸烟的人而言,年龄将是确定其能否患高血压的最关键的目的,数听阐明年龄在6373岁之间经常吸烟的人当中有56.7%患有高血压,而年龄在3251岁之间且经常吸烟的人当中患有高血压的比例仅为4.8%。 为进一步描画经常吸烟者的特征,KnowledgeSEEKER总共发现了6个分叉变量,分别是Age,Height,PorkLastWeek,DrinkPattern,Gender以及SaltConsumption。其中以年龄最为有效。4、强迫分叉 有时我们还想察看一下那些没有自动发现的变量的作用。例如,我们能够想知道PoultryLastWeek对人们患有高血压
8、有什么影响。为此,我们可以在模型树上作强迫分叉。5、对模型进展验证 当我们从一个数据集中发现某些结果之后,总是希望可以用另外一个数据计再对其进展验证。Angoss将那些用于验证的数据集又称为测试分区Test Partition。 KnowledgeSEEKER允许我们用另一个数据集即测试分区对新发现的结果进展验证。6、重新定义发掘对象 前面所作的演示都是有关“高血压这一研讨对象的,即都是以Hypertension为模型树的因变量。假设我们想要改动所研讨的内容例如,想要研讨饮酒数量不同的人之间的差别,那么就需求重新定义研讨对象。 改动模型树的根节点为DrinkPattern,即新的模型树的根节点
9、对应的因变量为DrinkPattern,其中可以含有以下值:Regular经常饮酒Occasional偶尔饮酒Former以前曾经饮酒Never从不饮酒 同前面一样,可以对这棵以DrinkPattern为因变量的模型树作进一步的扩展。虽然这期间运用KnowledgeSEEKER的任务方式与前面是一样的,但所要研讨的内容与前面完全不同了。即如今要研讨的是人们的饮酒方式及其影响,而前面的研讨对象是高血压。7、模型树的自动扩展 前面所演示的都是如何一个一个节点地扩展模型树。此外,还可以让系统对模型树作自动扩展。8、数据分布 KnowledgeSEEKER提供了假设干种方法以便我们可以对正在发掘的数据的形状进展察看。首先,我们可以经过KnowledgeSEEKER对正在发掘的原始数据进展详细察看。 另外,还可以经过KnowledgeSEEKER对数据几种不同数据项的交叉列
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- AI智能分析《红楼梦》服饰文化专题讲座
- 2025年工业元宇宙服务网格技术应用实践
- 黑龙江省哈尔滨市第三中学2025-2026学年度下学期高二学年期中考试 历史答案
- 高中学校高二上学期班主任工作计划
- 2025年人工智能教育文化适应案例
- 气管食管瘘的护理经验分享与交流
- 大堰河 - 我的保姆(教学课件) -高中语文人教统编版
- 精神科护理学
- 焦虑症患者的紧急应对措施
- 新型冠状病毒疫情下的医疗资源调配
- 2024年西北工业大学附中丘成桐少年班初试数学试题真题(含答案详解)
- 垃圾清运服务投标方案技术方案
- 海运公司船员合同
- JT-GQB-008-1996公路桥涵标准图整体式钢筋混凝土连续板桥上部构造
- 跳远 教案(大学体育专业)
- 23悬挑花架梁悬挑支模架专项施工方案
- (高清版)DZT 0279.32-2016 区域地球化学样品分析方法 第32部分:镧、铈等15个稀土元素量测定 封闭酸溶-电感耦合等离子体质谱法
- 工程管理的前沿研究方向
- 脑机接口在医疗中的应用
- ISO27001-2022信息安全管理体系内审全套记录表格
- NY/T 388-1999畜禽场环境质量标准
评论
0/150
提交评论