




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习的模型评估与选择,1,2,泛化误差vs经验误差,泛化误差:在“未来”样本上的误差经验误差:在训练集上的误差,亦称“训练误差”,训练数据,模型,新样本数据,新样本属于什么类别?,2,2020/4/26,过拟合vs欠拟合,3,2020/4/26,模型选择,三个关键问题:如何获得测试结果评估方法如何评估性能优劣性能度量如何判断实质差别比较检验,4,2020/4/26,评估方法,关键:怎么获得“测试集”?原则:测试集与训练集“互斥”常见方法:留出法(hold-out)交叉验证法(crossvalidation)自助法(bootstrap),5,2020/4/26,留出法,保持数据分布一致性(例如:分层采样)多次重复划分(例如:100次随机划分)测试集不能太大、不能太小(例如:1/51/3),6,2020/4/26,K-折交叉验证法,当K=m时,则得到“留一法”(leave-one-out,LOO),7,2020/4/26,自助法,基于“自助采样”(bootstrapsampling)Pullupbyyourownbootstraps有放回采样、可重复采样训练集与原样本集同规模数据分布有所改变约有36.8%的样本不出现,包外估计:out-of-bagestimation,8,2020/4/26,模型选择,三个关键问题:如何获得测试结果评估方法如何评估性能优劣性能度量如何判断实质差别比较检验,9,2020/4/26,性能度量,性能度量(performancemeasure)是衡量模型泛化能力的评价标准,反映了任务需求使用不同的性能度量往往会导致不同的评判结果什么样的模型是“好”的,不仅取决于算法和数据,还取决于任务需求。,10,2020/4/26,性能度量,回归任务分类任务错误率与精度查准率、查全率与F1,11,2020/4/26,回归模型评估有三种方法,分别是:平均绝对值误差、均方误差和R平方值(1)平均绝对误差(MAE)就是指预测值与真实值之间平均相差多大(2)均方误差是指参数估计值与参数真值之差平方的期望值,记为MSE。值越小,说明预测模型描述实验数据具有更好的精确度。(3)R平方值,表征回归方程在多大程度上解释了因变量的变化,或者说方程对观测值的拟合程度如何,12,2020/4/26,性能度量错误率与精度,错误率精度,13,2020/4/26,性能度量查准率与查全率,查准率:precision,准确率,P预测结果中是正例的比率查全率:recall,sensitivity,召回率,R所有的正例中被正确预测出的比列,14,2020/4/26,TruePositiveRate,TPR,(Sensitivity)TrueNegativeRate,TNR,(Specificity)PositivePredictiveValue,PPVFalsePositiveRate,FPRFalseNegativeRate,FNRFalseDiscoveryRate,FDR,15,2020/4/26,PR图:学习器A优于学习器C学习器B优于学习器C学习器A?学习器B,平衡点(BEP)(Break-EvenPoint,)学习器A优于学习器B学习器A优于学习器C学习器B优于学习器C,16,2020/4/26,性能度量F1度量,17,2020/4/26,性能度量ROC与AUC,18,2020/4/26,19,2020/4/26,集成学习,定义:通过构建并结合多个学习器来完成学习任务,又称为:多分类学习器系统、基于委员会的学习等。两大类个体学习器间存在强依赖关系,必须串行生产的序列化方法:Boosting个体学习器间不存在强依赖关系,可同时生成的并行化方法:BaggingandRandomForest,20,2020/4/26,集成学习随机森林,Bagging策略bootstrapaggregation从样本集中重采样(有重复的)选出n个样本在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等)重复以上两步m次,即获得了m个分类器将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定数据属于哪一类,21,2020/4/26,22,2020/4/26,随机森林在bagging基础上做了修改。从样本集中用Bootstrap采样选出n个样本;从所有属性中随机选择k个属性,选择最佳分割属性作为节点建立CART决策树;重复以上两步m次,即建立了m棵CART决策树这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类,23,2020/4/26,投票机制,简单投票机制一票否决(一致表决)少数服从多数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课件显示卡屏问题
- 课件时间的变化
- 课件时间利用的好处
- 高压水射流清洗工协同作业考核试卷及答案
- 有色金属熔池熔炼炉工岗位操作技能考核试卷及答案
- 近代科技考试题及答案
- 金属学考试题及答案
- 蒸发浓缩结晶工适应性考核试卷及答案
- 三聚氰胺装置操作工基础知识考核试卷及答案
- 交通安全设施工测试考核试卷及答案
- 2025深圳劳动合同下载
- 政治理论应知应会100题
- 2024年工业机器人系统操作员(高级工)职业技能鉴定考试题库(含答案)
- 2024年宁德监狱囚犯心理咨询服务合同
- 副总经理招聘面试题与参考回答(某大型国企)2024年
- 学校弱电项目施工组织设计方案
- 高中语文语法简略
- 输变电工程测量施工方案
- DBJ33T 1320-2024 建设工程质量检测技术管理标准
- 2023年成人高等考试《民法》(专升本)真题及答案
- 幼教培训课件:《学前儿童常见心理及行为问题的诊断与矫治》
评论
0/150
提交评论