模型评估与方法ppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-01-25 格式：PPT 页数：24 大小：1.71MB 积分：25 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第2章模型评估与选择 2 1经验误差与过拟合2 2评估方法2 3性能度量2 4比较检验2 5偏差与方差 2 1经验误差与过拟合经验误差VS泛化误差过拟合VS欠拟合 2 2评估方法 2 2 1 留出法 hold out 直接将数据集D划分为两个互斥的集合 2 2 2交叉验证法 crossvalidation 将数据集D划分为K个大小相似的互斥子集每次用K 1个子集的并集作为训练集余下的子集作为测试集缺点比较我们希望评估的是用D训练的模型但在留出法和交叉验证法中由于保留了一部分样本用于测试因此实际评估的模型所使用的训练集比D小这必然会引入一些因训练样本规模不同而导致的估计偏差 2 2 3自助法自助法是针对上述缺点的一个比较好的解决方案它直接以自助采样法为基础给定包含m个样本的数据集D 我们对它进行采样产生数据集D 每次随机从D中挑选一个样本将其拷贝放入D 然后再将该样本放回初始数据集D中使得该样本在下次采样时仍有可能被采到这个过程重复执行m次后我们就得到了包含m个样本的数据集D 这就是自助采样的结果于是我们可将D 用作训练集 D D 用作测试集这样实际评估的模型与期望评估的模型都使用m个训练样本而我们仍有数据总量约1 3的没在训练集中出现的样本用于测试 2 2 4调参与最终模型现实中常见的做法是对每个参数选择一个范围和变化步长例如在 0 0 2 范围内以0 05为步长则实际要评估的候选参数值是5个最终从这5个值中产生选定值 2 3性能度量衡量模型泛化能力的评价标准2 3 1错误率与精度错误率是分类错误的样本数占样本总数的比例精度是分类正确的样本数占样本总数的比例平衡点 Break EventPoint 简称BEP 就是查准率与查全率时的取值 2 3 3ROC和AUC 根据实值或概率预测结果我们可以将测试样本进行排序最可能是正例的排在前面最不可能是正例的排在最后面分类过程相当于在这个排序中以某个截断点将样本分为两个部分前一部分判做正例后一部分则判作反例在不同的应用任务中我们可根据任务需求来采用不同的截断点排序本身质量的好坏体现了综合考虑学习器在不同任务下的期望泛化性能的好坏或者说一般情况下泛化性能的好坏 ROC曲线则是从排序本身质量的好坏的角度来研究学习器泛化性能 ROC全名受试者工作特征曲线以真正例率为纵轴以假正例率为横轴真正例率TPR 真正例样本数真实情况是正例的样本数查全率假正例率FPR 假正例样本数真实情况是是反例的样本数基于ROC曲线的学习器性能评价规则1 当曲线没有交叉的时候外侧曲线的学习器性能优于内侧 2 当曲线有交叉的时候比较ROC曲线下的面积即AUC AreaUnderROCCurve 2 3 4代价敏感错误率与代价曲线在现实任务汇总常会遇到这样的情况不同类型的错误所造成的后果不同为权衡不同类型错误所造成的的不同损失可为错误赋予非均等代价 unequalcost 如下图所示正确判断的代价显然应该为0 错误判断的代价之间的比值会影响我们对学习器的改造可令costij为把i类样本错判为j类样本的代价对所有类型错误的数量与其错误代价的乘积求和再除以样本总数量就得到代价敏感 cost sensitive 错误率在非均等代价下 ROC曲线不能直接反映出学习器的期望总体代价而代价曲线则可以达到目的代价曲线的横轴是正例概率代价P cost 纵轴是归一化代价cost norm p是样例为正例的概率 FPR是假正例率 FNR 1 TPR 2 4比较检验2 4 1假设检验假设检验的基本思想是小概率反证法思想小概率思想是指小概率事件 P 0 01或P 0 05 在一次试验中基本上不会发生反证法思想是先提出假设检验假设H0 再用适当的统计方法确定假设成立的可能性大小如可能性小则认为假设不成立若可能性大则还不能认为不假设成立 2 4 2交叉验证t检验基本思想若两个学习器的性能相同则使用相同的训练测试集得到的测试错误率应相同假设检验的前提测试错误率均为泛化错误率的独立采样 k折交叉验证产生的K对测试错误率先对每对结果求差若两个学习器性能相同则差值均值应为0 因此根据差值对学习器AB性能相同做t检验计算差值的均值和方差在显著度确定条件下判断变量是否小于临界值若小于则无显著差别否则可判断平均错误率较小的学习器性能较优因样本有限加查验证不同轮次训练集有重叠测试错误率实际上不独立会导致过高估计假设成立的概率 2 4 3McNemar检验McNemar主要用于二分类问题与成对t检验一样也是用于比较两个学习器的性能大小主要思想是若两学习器的性能相同则A预测正确B预测错误数应等于B预测错误A预测正确数即e01 e10 且 e01 e10 服从N 1 e01 e10 分布 2 4 4Friedman检验和Nemenyi后续检验上述的三种检验都只能在一组数据集上 F检验则可以在多组数据集进行多个学习器性能的比较基本思想是在同一组数据集上根据测试结果例测试错误率对学习器的性能进行排序赋予序值1 2 3 相同则平分序值如下图所示若学习器的性能相同则它们的平均序值应该相同且第i个算法的平均序值ri服从正态分布N k 1 2 k 1 k 1 12 则有 2 5偏差与方差偏差方差分解 bias variancedecomposition 是解释学习算法泛化性能的一种重要工具算法的期望泛化误差进行分解得到E f D bias 2 x var x 2泛化误差可分解为偏差

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

模型评估与方法ppt课件.ppt

文档简介

温馨提示

最新文档

评论

模型评估与方法ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档