




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,机器学习导论,(2016春季学期),二、模型评估与选择,机器学习Chap模型评估与选择,权,学,机,16,南,京,大,保,20,器,学,习,导,论,课,程,专,用,所,有,留,典型的机器学习过程什么模型好?,能很好地适用于unseeninstance,泛化能力强!,例如,错误率低、精度高然而,我们手上没有unseeninstance,,机器学习Chap模型评估与选择,权,所,有,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,保,留,泛化误差vs.经验误差,泛化误差:在“未来”样本上的误差,经验误差:在训练集上的误差,亦称“训练误差”,泛化误差越小越好,经验误差是否越小越好?,NO!因为会出现“过拟合”(overfitting),机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,过拟合,(overfitting),vs.欠拟合,(underfitting),机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,用,专,所,有,权,保,留,模型选择,(modelselection),三个关键问题:,如何获得测试结果?如何评估性能优劣?如何判断实质差别?,评估方法性能度量比较检验,机器学习Chap模型评估与选择,权,专,用,20,16,南,京,大,学,机,器,学,习,导,论,课,程,所,有,保,留,评估方法,关键:怎么获得“测试集”(testset)?,测试集应该与训练集“互斥”,常见方法:,留出法(hold-out),交叉验证法(crossvalidation)自助法(bootstrap),机器学习Chap模型评估与选择,权,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,保,留,训练集,测试集,留出法拥有的数据集,注意:保持数据分布一致性(例如:分层采样)多次重复划分(例如:100次随机划分)测试集不能太大、不能太小(例如:1/51/3),机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,k-折交叉验证法,若k=m,则得到“留一法”,(leave-one-out,LOO),机器学习Chap模型评估与选择,权,保,器,学,习,导,论,课,学,机,20,16,南,京,大,程,专,用,所,有,留,自助法基于“自助采样”(bootsrapsampling)亦称“有放回采样”、“可重复采样”,约有36.8%的样本不出现,训练集与原样本集同规模,数据分布有所改变“包外估计”(out-of-bagestimation),机器学习Chap模型评估与选择,权,专,用,20,16,南,京,大,学,机,器,学,习,导,论,课,程,所,有,保,留,“调参”与最终模型,算法的参数:一般由人工设定,亦称“超参数”模型的参数:一般由学习确定,参数调得好不好对性能往往对最终性能有关键影响,调参过程相似:先产生若干模型,然后基于某种评估方法进行选择,区别:训练集vs.测试集vs.验证集(validationset),算法参数选定后,要用“训练集+验证集”重新训练最终模型,机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,用,专,所,有,权,保,留,模型选择,(modelselection),三个关键问题:,如何获得测试结果?如何评估性能优劣?如何判断实质差别?,评估方法性能度量比较检验,机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,性能度量,性能度量(performancemeasure)是衡量模型泛化能力的评价标准,反映了任务需求,使用不同的性能度量往往会导致不同的评判结果,什么样的模型是“好”的,不仅取决于算法和数据,,还取决于任务需求,回归(regression)任务常用均方误差:,机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,错误率vs.精度,错误率:,精度:,机器学习Chap模型评估与选择,权,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,保,留,查准率:,查准率vs.查全率,查全率:,机器学习Chap模型评估与选择,权,所,用,专,有,程,课,机,器,学,习,导,论,大,学,20,16,南,京,保,留,(BEP),PR图:学习器A优于学习器C学习器B优于学习器C学习器A?学习器BBEP:学习器A优于学习器B学习器A优于学习器C学习器B优于学习器C,PR图,BEP根据学习器的预测结果按正例可能性大小对样例进行排序,并逐个把样本作为正例进行预测,机器学习Chap模型评估与选择,权,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,保,留,F1,若对查准率/查全率有不同偏好:,比BEP更常用的F1度量:,机器学习Chap模型评估与选择,权,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,保,留,宏xxvs.微xx若能得到多个混淆矩阵:(例如多次训练/测试的结果,多分类的两两混淆矩阵),宏(macro-)查准率、查全率、F1,微(micro-)查准率、查全率、F1,机器学习Chap模型评估与选择,权,保,用,导,论,课,程,20,16,南,京,大,学,机,器,学,习,专,所,有,留,ROCCurve,ROC,AUCAUC:AreaUndertheROCCurveROC(ReceiverOperatingCharacteristic)CurveGreenSpackman,IWML89AreaUnder,Thebigger,thebetter,机器学习Chap模型评估与选择,权,用,程,专,所,有,20,16,南,京,大,学,机,器,学,习,导,论,课,保,留,非均等代价,犯不同的错误往往会造成不同的损失,此时需考虑“非均等代价”,(unequalcost),代价敏感(cost-sensitive)错误率:,机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,用,专,所,有,权,保,留,模型选择,(modelselection),三个关键问题:,如何获得测试结果?如何评估性能优劣?如何判断实质差别?,评估方法性能度量比较检验,机器学习Chap模型评估与选择,权,20,16,南,京,学,机,器,学,习,导,大,论,课,程,专,用,所,有,保,留,比较检验在某种度量下取得评估结果后,是否可以直接比较以评判优劣?NO!因为:测试性能不等于泛化性能测试性能随着测试集的变化而变化很多机器学习算法本身有一定的随机性,机器学习,“概率近似正确”,机器学习Chap模型评估与选择,程,专,用,所,有,课,权,学,习,20,16,南,京,大,学,机,器,导,论,保,留,(莱斯利维利昂特)(1949-)2010年图灵奖,机器学习的理论基础计算学习理论ComputationallearningtheoryLeslieValiant,PAC(ProbablyApproximatelyCorrect),learningmodel,Valiant,1984,机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,所,用,有,权,保,留,两学习器比较,交叉验证t检验(基于成对t检验)k折交叉验证;5x2交叉验证McNemar检验(基于列联表,卡方检验)多学习器比较Friedman+NemenyiFriedman检验(基于序值,F检验;判断”是否都相同”)Nemenyi后续检验(基于序值,进一步判断两两差别),常用方法统计假设检验(hypothesistest)为学习器性能比较提供了重要依据,统计显著性,机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,Friedman检验图,横轴为平均序值,每个算法圆点为其平均序值,线段为临界阈值的大小,若两个算法有交叠(A和B),则说明没有显著差别;否则有显著差别(A和C),算法A显著优于算法C,机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,“误差”包含了哪些因素?,换言之,从机器学习的角度看,,“误差”从何而来?,机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,偏差-方差分解,(bias-variancedecomposition),对回归任务,泛化误差可通过“偏差-方差分解”拆解为:期望输出与真实输出的差别同样大小的训练集的变动,所导致的,性能变化,训练样本的标记与,真实标记有区别表达了当前任务上任何学习算法所能达到的期望泛化误差下界泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度共同决定,机器学习Chap模型评估与选择,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,偏差-方差窘境,(bias-variancedi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年预防与控制医院感染测试题及答案
- 2025年江西教师招聘考试真题及答案合集
- 2025年康复专业康复康复技术操作规范卷答案及解析
- 2025年急救抢救常见伤病考核答案及解析
- 2025年儿科常见病症诊断与治疗试卷答案及解析
- 2025年临床药理学综合知识考试答案及解析
- 2025年食品安全及检测知识考试题与答案
- 2025年泌尿外科手术并发症防治考察答案及解析
- 2025年扬州网格员考试题及答案
- 郯城国企考试题型及答案
- 2024年03月黑龙江省绥化市2024年度“市委书记进校园”引才活动引进1523名人才(第一阶段)笔试历年典型考题及考点研判与答案解析
- 《电力建设施工企业安全生产标准化实施规范》
- 糖尿病周围神经病变知多少课件
- 新概念英语青少版入门 A-Unit-1课件(共98张)
- 儿童肺炎支原体肺炎诊疗指南(2023年版)解读
- 个人履职考核情况表
- 中小学消防安全、交通安全、食品安全、防溺水、防欺凌系统安全教育主题课件
- 建筑垃圾减量化专项方案
- 关于农民工工资催付告知函
- GB/T 6426-1999铁电陶瓷材料电滞回线的准静态测试方法
- 广西版建筑装饰装修工程消耗量定额说明及计算规则
评论
0/150
提交评论