已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘模型选择,模型评估与选择,数据挖掘模型选择,泛化误差vs经验误差,泛化误差:在“未来”样本上的误差经验误差:在训练集上的误差,亦称“训练误差”,训练数据,模型,新样本数据,新样本属于什么类别?,数据挖掘模型选择,过拟合vs欠拟合,数据挖掘模型选择,模型选择,三个关键问题:如何获得测试结果评估方法如何评估性能优劣性能度量如何判断实质差别比较检验,数据挖掘模型选择,评估方法,关键:怎么获得“测试集”?原则:测试集与训练集“互斥”常见方法:留出法(hold-out)交叉验证法(crossvalidation)自助法(bootstrap),数据挖掘模型选择,留出法,保持数据分布一致性(例如:分层采样)多次重复划分(例如:100次随机划分)测试集不能太大、不能太小(例如:1/51/3),数据挖掘模型选择,K-折交叉验证法,当K=m时,则得到“留一法”(leave-one-out,LOO),数据挖掘模型选择,自助法,基于“自助采样”(bootstrapsampling)Pullupbyyourownbootstraps有放回采样、可重复采样训练集与原样本集同规模数据分布有所改变约有36.8%的样本不出现,包外估计:out-of-bagestimation,数据挖掘模型选择,模型选择,三个关键问题:如何获得测试结果评估方法如何评估性能优劣性能度量如何判断实质差别比较检验,数据挖掘模型选择,性能度量,性能度量(performancemeasure)是衡量模型泛化能力的评价标准,反映了任务需求使用不同的性能度量往往会导致不同的评判结果什么样的模型是“好”的,不仅取决于算法和数据,还取决于任务需求。,数据挖掘模型选择,性能度量,回归任务分类任务错误率与精度查准率、查全率与F1,数据挖掘模型选择,性能度量错误率与精度,错误率精度,数据挖掘模型选择,性能度量查准率与查全率,查准率:precision,准确率,P预测结果中是正例的比率查全率:recall,sensitivity,召回率,R所有的正例中被正确预测出的比列,数据挖掘模型选择,TruePositiveRate,TPR,(Sensitivity)TrueNegativeRate,TNR,(Specificity)PositivePredictiveValue,PPVFalsePositiveRate,FPRFalseNegativeRate,FNRFalseDiscoveryRate,FDR,数据挖掘模型选择,PR图:学习器A优于学习器C学习器B优于学习器C学习器A?学习器B,平衡点(BEP)(Break-EvenPoint,)学习器A优于学习器B学习器A优于学习器C学习器B优于学习器C,数据挖掘模型选择,性能度量F1度量,数据挖掘模型选择,性能度量ROC与AUC,数据挖掘模型选择,集成学习,定义:通过构建并结合多个学习器来完成学习任务,又称为:多分类学习器系统、基于委员会的学习等。两大类个体学习器间存在强依赖关系,必须串行生产的序列化方法:Boosting个体学习器间不存在强依赖关系,可同时生成的并行化方法:BaggingandRandomForest,数据挖掘模型选择,集成学习随机森林,Bagging策略bootstrapaggregation从样本集中重采样(有重复的)选出n个样本在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等)重复以上两步m次,即获得了m个分类器将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定数据属于哪一类,数据挖掘模型选择,数据挖掘模型选择,随机森林在bagging基础上做了修改。从样本集中用Bootstrap采样选出n个样本;从所有属性中随机选择k个属性,选择最佳分割属性作为节点建立CART决策树;重复以上两步m次,即建立了m棵CART决策树这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类,数据挖掘模型选择,投票机制,简单投票机制一票否决(一致表决)少数服从多数有效多数(加权)阈值表决贝叶斯投票机制,数据挖掘模型选择,但也可以使用SVM
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 低学历就业协议书
- 风扇租赁委托协议书
- 财政业务委托协议书
- 购买服务保障协议书
- 供电合同背书协议
- 代订升房协议合同
- 购买顶帐房合同范本
- 供暖合同解除协议
- 购买旧设备合同范本
- 宜城小学考试试卷及答案
- 六年级上册科学全册知识点(新改版苏教版)
- 大力弘扬新时代斗争精神PPT怎样弘扬新时代斗争精神PPT课件(带内容)
- 数据库应用与开发知到章节答案智慧树2023年华侨大学
- (23春)国家开放大学《政府经济学》形考任务1-4参考答案
- 河北省单招九类职业适应性测试考试试题
- 松花江水污染事件工程伦理案例分析
- 黑龙江省佳木斯市桦南县化工园区污水处理厂建设项目环评报告书
- GB/T 8570.5-2010液体无水氨的测定方法第5部分:水分卡尔·费休法
- GB/T 39337-2020综合机械化超高水材料袋式充填采煤技术要求
- GB/T 39145-2020硅片表面金属元素含量的测定电感耦合等离子体质谱法
- GB/T 15138-1994膜集成电路和混合集成电路外形尺寸
评论
0/150
提交评论