




免费预览已结束,剩余30页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
决策树模型 QUEST 报告人 李福娟指导教师 谢邦昌时间 2007年11月20日 Clementine的决策树模型 决策树 DecisionTree 模型 也称规则推理模型通过对训练样本的学习 建立分类规则依据分类规则 实现对新样本的分类属于有指导 监督 式的学习方法 有两类变量 目标变量 输出变量 属性变量 输入变量 决策树模型与一般统计分类模型的主要区别决策树的分类是基于逻辑的 一般统计分类模型是基于非逻辑的基于逻辑是指通过对属性变量值的布尔比较来实现分类判断 Clementine的决策树模型 决策树模型的特点优势 推理过程容易理解 决策推理过程可以表示成IF THEN的形式推理过程完全依据属性变量的取值特点可自动忽略对目标变量没有贡献的属性变量 也为判断属性变量的重要性 减少变量数目提供参考 Clementine的决策树模型 决策树模型的主要算法 C RTC5 0CHAIDQUEST QUEST算法 QUEST QuickUnbiasedEfficientStatisticalTree它是Loh和Shih1997年提出的建立决策树的一种二元分类方法 QUEST算法也主要涉及分支变量和分割值的确定问题 但它将分支变量选择和分割点选择以不同的策略进行处理它的运算过程比C R更简单有效 要求 属性变量 输入变量 分类型变量 数值型变量目标变量 输出变量 必须是二值分类型变量 如果是多值的转化成二值的 建立二叉树模型中涉及到的顺序变量必须存储为数值型该模型中不可以应用权数变量 确定分支变量 分别检验各属性变量对目标变量的独立性 如果属性变量为定类的 则采用卡方检验如果属性变量为定距 则采用F检验选择P 值最小且小于显著性水平 的属性变量作为当前的最佳分支变量 确定分支变量 如果最小的P 值尚未小于显著性水平 在F检验检验中 意味着在 水平下目标变量不同分类下属性变量的均值不存在显著 此时 应利用Levene F检验其方差 选择方差齐性最不显著的变量可作为当前的分支变量否则 该树节点无法再分支 当前分支变量是定距的如果目标变量有两个以上的分类水平 则应首先将其合并为两个超类 目标变量的预处理 分别计算目标变量不同分类下当前分支变量的均值如果各均值没有显著差异 则将权重最大 该组包含的样本个数最多 组所对应的属性变量值作为一组 其余为另一组如果各均值存在显著差异 则利用2 Means聚类将样本聚成2类 初始类中心为两个极均值 从而使将目标变量值合并成两类 多分类问题转换为二分类问题 确定分割值 确定分割值 当前分支变量是定类的先将定类分支变量转化为定矩变量 将该分支变量转换为哑变量组 依据目标变量 建立若干个判别函数 并取第一个典型判别函数 特征根最大 计算各样本在第一个判别函数坐标上的值 作为 值再依据前述定距分支变量的方法处理 Clementine11 0中的应用 市场研究案例一个有限电视公司做了一项市场调查以了解哪些用户会订阅某种交互式的新闻服务 选择的变量有 年龄 age 性别 gender 受教育程度 educate 收入水平 inc 每天看电视时间 tvday 家庭拥有孩子个数 childs NewsChan sav Clementine11 0中的应用 Clementine11 0中的应用 可以通过连接并执行输出节点Table查看数据源数据 Clementine11 0中的应用 设置变量类型 输入变量 输出变量 Clementine11 0中的应用 建立QUEST决策树模型 Modeling QUEST 建立一个QUEST结点与源数据相连 然后右击对QUEST结点进行编辑 Clementine11 0中的应用 QUEST节点的Model选项分割数据集训练样本检验样本模式Generatemodel直接给出最终模型 LaunchInteractivesession可以逐层建立 修改和删除节点 Usetreedirectives指定任意层节点的分割方式或子节点数最大树深自定义判别树的最大层数 Clementine11 0中的应用 QUEST节点的高级 expert 选项框最大替代数 当某记录有缺失值时 QUEST会根据与其相似的记录所归入节点的取值进行替代分裂的显著性水平 设定分裂标准 越小 则树的分叉越少终止条件修剪树 usestandarderrorrule删除分类不纯的节点先验概率 Clementine11 0中的应用 分类回归树节点终止选项终止法则决定何时终止分割树的具体分支设置最小分支数目以避免分割出过小的子群使用百分数 按照占整个训练集的百分比来指定大小使用绝对值 用绝对记录数来指定大小 Clementine11 0中的应用 先验概率 priors 选项在根本不知道预测值前对每个可能的目标域值所做的概率估计 Basedontrainingdata先验概率基于各类在训练集中的相对次数Equalforallclasses各类的先验概率指定为1 k k为目标类数Custom自定义 要求 所有类的先验概率总和为1 Clementine11 0中的应用 QUEST节点的成本 cost 选项错误归类矩阵显示预测类和实际类每一个可能组合的损失 所有预设为1选择Usemisclassificationcosts可以自定义损失值 Clementine11 0中的应用 执行QUEST节点 Clementine11 0中的应用 决策树的生长和修剪 显示标签值 生长并修剪树 Clementine11 0中的应用 通过统计检验确定的分支变量根据Adj Prob确定最佳分支变量 概率值越小 则根据该分支变量所确定两个类的异质性越强 分支越有效 Clementine11 0中的应用 确定的最佳分支变量为年龄节点2在年龄大于44 142的人群中 确定一个人订阅的概率已经达到67 143 Clementine11 0中的应用 Clementine11 0中的应用 Gains选项卡选择Targetcategory 1 0索引值大于100 的节点所确定的人群接受的概率明显大于随机选择的人群 Clementine11 0中的应用 Chart横坐标通常为分位点纵坐标是累计Lift值理想的Lift图应在较高的累计Lift上保持较长一段 然后迅速下降到1 Clementine11 0中的应用 生成模型 GenerateModel 根据建立的决策树可以生成或输出决策结果 Clementine11 0中的应用 风险 risk 选项在某些情况下 特定类型的错误比其他类错误所引起的损失更大 例如 把高风险信用卡申请者归入低风险信用类 一种错误 比把低风险信用卡申请者归入高风险类 另一种错误 损失要大 错误归类代价提供用户在识别不同的预测误差的相对重要性 Clementine11 0中的应用 Clementine11 0中的应用 生成的模型显示在流编辑窗口 与Type节点连接 然后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江导游知识题库及答案
- 地理教学设计真题及答案
- 池州护士笔试题目及答案
- 化学与航天强国整合能力测评试题
- 化学模型认知能力提升试题
- 古代书院考试题及答案
- 2025年高考物理“专注度提升”抗干扰试题
- 教室招聘笔试题目及答案
- 劳研教育平台模拟考试试题及答案
- 工学怎样分类考试题及答案
- 浙江省浙南名校联盟2025-2026学年高三上学期10月联考化学试题
- 2025广西送变电建设有限责任公司第二批项目制用工招聘89人备考考试题库附答案解析
- 2025北京门头沟区招聘社区工作者21人考试参考题库及答案解析
- 2025-2030高等教育就业指导市场全面分析及未来发展与投资机会评估报告
- 2025年甘肃省武威市凉州区清源镇选聘专业化管理的大学生村文书考前自测高频考点模拟试题及答案详解(名师系列)
- 2025浙江杭州市发展和改革委员会所属事业单位招聘高层次、紧缺人才4人笔试模拟试题及答案解析
- 2026届高三语文9月联考诗歌鉴赏试题汇编含答案
- 2026中车广东轨道交通车辆有限公司校园招聘笔试模拟试题及答案解析
- 养殖业危险废物处理方案
- 2025年新高考英语作文模板大全
- 江苏苏州高铁枢纽投资开发有限公司招聘笔试题库2025
评论
0/150
提交评论