




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘模型选择,模型评估与选择,数据挖掘模型选择,泛化误差vs经验误差,泛化误差:在“未来”样本上的误差经验误差:在训练集上的误差,亦称“训练误差”,训练数据,模型,新样本数据,新样本属于什么类别?,数据挖掘模型选择,过拟合vs欠拟合,数据挖掘模型选择,模型选择,三个关键问题:如何获得测试结果评估方法如何评估性能优劣性能度量如何判断实质差别比较检验,数据挖掘模型选择,评估方法,关键:怎么获得“测试集”?原则:测试集与训练集“互斥”常见方法:留出法(hold-out)交叉验证法(crossvalidation)自助法(bootstrap),数据挖掘模型选择,留出法,保持数据分布一致性(例如:分层采样)多次重复划分(例如:100次随机划分)测试集不能太大、不能太小(例如:1/51/3),数据挖掘模型选择,K-折交叉验证法,当K=m时,则得到“留一法”(leave-one-out,LOO),数据挖掘模型选择,自助法,基于“自助采样”(bootstrapsampling)Pullupbyyourownbootstraps有放回采样、可重复采样训练集与原样本集同规模数据分布有所改变约有36.8%的样本不出现,包外估计:out-of-bagestimation,数据挖掘模型选择,模型选择,三个关键问题:如何获得测试结果评估方法如何评估性能优劣性能度量如何判断实质差别比较检验,数据挖掘模型选择,性能度量,性能度量(performancemeasure)是衡量模型泛化能力的评价标准,反映了任务需求使用不同的性能度量往往会导致不同的评判结果什么样的模型是“好”的,不仅取决于算法和数据,还取决于任务需求。,数据挖掘模型选择,性能度量,回归任务分类任务错误率与精度查准率、查全率与F1,数据挖掘模型选择,性能度量错误率与精度,错误率精度,数据挖掘模型选择,性能度量查准率与查全率,查准率:precision,准确率,P预测结果中是正例的比率查全率:recall,sensitivity,召回率,R所有的正例中被正确预测出的比列,数据挖掘模型选择,TruePositiveRate,TPR,(Sensitivity)TrueNegativeRate,TNR,(Specificity)PositivePredictiveValue,PPVFalsePositiveRate,FPRFalseNegativeRate,FNRFalseDiscoveryRate,FDR,数据挖掘模型选择,PR图:学习器A优于学习器C学习器B优于学习器C学习器A?学习器B,平衡点(BEP)(Break-EvenPoint,)学习器A优于学习器B学习器A优于学习器C学习器B优于学习器C,数据挖掘模型选择,性能度量F1度量,数据挖掘模型选择,性能度量ROC与AUC,数据挖掘模型选择,集成学习,定义:通过构建并结合多个学习器来完成学习任务,又称为:多分类学习器系统、基于委员会的学习等。两大类个体学习器间存在强依赖关系,必须串行生产的序列化方法:Boosting个体学习器间不存在强依赖关系,可同时生成的并行化方法:BaggingandRandomForest,数据挖掘模型选择,集成学习随机森林,Bagging策略bootstrapaggregation从样本集中重采样(有重复的)选出n个样本在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等)重复以上两步m次,即获得了m个分类器将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定数据属于哪一类,数据挖掘模型选择,数据挖掘模型选择,随机森林在bagging基础上做了修改。从样本集中用Bootstrap采样选出n个样本;从所有属性中随机选择k个属性,选择最佳分割属性作为节点建立CART决策树;重复以上两步m次,即建立了m棵CART决策树这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类,数据挖掘模型选择,投票机制,简单投票机制一票否决(一致表决)少数服从多数有效多数(加权)阈值表决贝叶斯投票机制,数据挖掘模型选择,但也可以使用SVM
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 龙江物流面试题及答案
- 高考疫情测试题及答案
- java中垃圾回收面试题及答案
- 导图揭秘文言文难题
- 家电公司客户服务管理细则
- 贵州省贵阳市清镇北大培文学校2026届高三化学第一学期期末复习检测模拟试题含解析
- springboot教学管理自动化系统设计与实现
- 21.2.2解一元二次方程-公式法(第1课时)(教学课件)数学人教版九年级上册
- 保安队安全知识培训课件
- 保安灭火器知识培训课件
- 特种设备安全管理课件-电梯安全知识
- 车辆转让合同电子版下载可打印
- 深圳填海工程施工实施方案
- BB/T 0023-2017纸护角
- 建设集团有限公司安全生产管理制度汇编
- 行为习惯养成教育校本教材
- 疫苗运输温度记录表
- 医院定岗定编要点
- logopress3培训视频教程整套模具大纲
- DB32-T 2945-2016硬质合金刀具PVD涂层测试方法-(高清现行)
- TB∕T 3526-2018 机车车辆电气设备 接触器
评论
0/150
提交评论