




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物数据信息挖掘 第6节 组合方法第五章 分类:其它技术组合方法6.1 装袋(bagging)(重点)6.2 提升(boosting)6.3 随机森林(random forest)(重点)6.4 组合决策(ensemble decision)(难点)独木难支!categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80K训练数据模型: 决策树随机森林基本算法一、抽样从某固定概率分布抽样,创建多个训练数据集。 二、构建分类器随机选择F个特征来构建决策树。 三、投票使用
2、多数表决的方法来组合预测。一、抽样27131461010103223146789第1次第2次。原始训练数据抽样N次27131461010103223146789二、构建分类器最佳划分的度量Gini熵(entropy)分类错误(classification error) 属性测试方法标称(nominal)序数(ordinal)连续(continuous)categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80K训练数据模型: 决策树D2。DND3原始训练数据一、抽
3、样二、构建分类器D1RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80K测试数据Start from the root of tree.RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80K测试数据RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80K测试数据RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80K测试数据RefundMarS
4、tTaxIncYESNONONOYesNoMarried Single, Divorced 80K测试数据RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80K测试数据Assign Cheat to “No”三、投票Yes使用多数表决的方法来组合预测。D2。DND3原始训练数据一、抽样二、构建分类器三、投票D1Yes随机森林算法一、抽样从某固定概率分布抽样,创建多个训练数据集。 二、构建分类器随机选择F个输入特征来对决策树的结点进行分裂。不是考察所有可用的特征来决定。树完全增长而不进行任何修剪。三、投票使用多数表决的方法来组合预测
5、。组合方法6.1 装袋(bagging)(重点)6.2 提升(boosting)6.3 随机森林(random forest)(重点)6.4 组合决策(ensemble decision)(难点)结肠癌表达谱数据组合决策基本算法一、抽样M倍交叉验证抽样。 二、构建分类器考察所有可用的特征来构建决策树。三、投票提取每棵决策树上的基因,构建打分矩阵。 使用组合加权表决方法预测疾病基因的强度。 TestSetTraining SetModelLearn Classifier第1次第2次。判断结果:D1一、抽样M倍交叉验证抽样。一、抽样所有样本按照类别分成两个样本集(癌症和正常)。对每类样本集继续(近
6、似)均分成m个样本集。在两类样本集(癌症和正常)中,各取1个样本集作为检验集,其余作为训练集,用作训练分类器。这样共有mm个训练集产生。原始训练数据一、抽样D1D2D340癌症样本22正常样本55=25二、构建分类器最佳划分的度量Gini熵(entropy)分类错误(classification error) 属性测试方法标称(nominal)序数(ordinal)连续(continuous)二、构建分类器gene1gene2gene3YESNONONO25 70训练数据决策树1 20D1二、构建分类器当一个结点 p 分割成 k 个部分 (孩子), 划分的质量可由下面公式计算二、构建分类器得到
7、的GINI值越小,这种划分越可行.gene1?25Node N1Node N2Gini split= 2/3 * 0.5 +1/3 * 0 = 0.333二、构建分类器划分点排序。原始训练数据一、抽样二、构建分类器0.90.80.6D1D2D3三、投票gene1gene3gene5YESNONONO15 70 20树1gene2gene3gene4YESNONONO17 60 40树2。原始训练数据一、抽样二、构建分类器三、投票0.90.80.6D1D2D3三、投票Score(Gene1)=(0.9+0.6)/(0.9+0.8+0.6)=0.6520.90.80.6分类正确率:Score(Ge
8、ne2)=(0.8+0.6)/(0.9+0.8+0.6)=0.608Score(Gene3)=(0.9+0.8)/(0.9+0.8+0.6)=0.739。原始训练数据一、抽样二、构建分类器三、投票基因得分0.90.80.6D1D2D3组合决策算法一、抽样M倍交叉验证抽样。 二、构建分类器考察所有可用的特征来构建决策树。树完全增长而不进行任何修剪。计算每个基分类器的正确率。三、投票提取每棵决策树上的基因,构建打分矩阵。 使用组合加权表决方法预测疾病基因的强度。 M26383,Human monocyte-derived neutrophil-activating protein (MONAP)T51849, tyrosine-protein kinase receptor ELKprecursor组合决策与随机森林不同目的不同。特征优化vs分类。抽样方法不同。构建决策树使用的属性不同。投票方式不同。创新
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园与生活关联的数学题目及答案
- 文化与娱乐:2025年KOL内容营销策略与效果评估报告
- 2025南航招聘面试题及答案
- 2025妇幼护士笔试题目及答案
- 虚拟现实教育产品在物理力学实验课中的应用效果与教学策略分析
- 露营经济背景下的户外运动装备行业市场细分研究报告
- 深化小学教师反思与教育实践的研究试题及答案
- 建筑施工安全风险识别与管理试题及答案
- 新能源商用车辆在石材加工厂运输中的应用场景分析报告
- 广东初三一模试题及答案
- 2024年上海市中考数学真题试卷及答案解析
- 统编版2023-2024学年语文三年级下册第五单元导读课教学设计
- 2024年陕西延长石油(集团)有限责任公司校园招聘考试试题参考答案
- 地籍测量成果报告
- 2024年苏州资产管理有限公司招聘笔试冲刺题(带答案解析)
- 客车防雨密封性要求及试验方法
- 农贸市场经营管理方案
- 新生儿胸腔穿刺术
- 液气胸病人护理-查房
- 错颌畸形预防课件
- 培训行业用户思维分析
评论
0/150
提交评论