模型评估与方法.pptx_第1页
模型评估与方法.pptx_第2页
模型评估与方法.pptx_第3页
模型评估与方法.pptx_第4页
模型评估与方法.pptx_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章 模型评估与选择 2.1 经验误 差与过拟 合 2.2 评估方法 2.3 性能度量 2.4 比较检验 2.5 偏差与方差 2.1 经验误 差与过拟 合 经验误 差 VS 泛化误差过拟 合 VS 欠拟合 2.2 评估方法 2.2.1、留出法(hold-out) 直接将数据集D划分为两个互斥的集合。 2.2.2交叉验证法(cross validation) 将数据集D划分为K个大小相似的互斥子集,每次用K-1个子集的并集作为训练 集,余下的子集作为测试 集。 缺点比较:我们希望评估的是用D训练的模型。但在留出法和交叉验证法中, 由于保留了一部分样本用于测试,因此实际评 估的模型所使用的训练集比D小 ,这必然会引入一些因训练样 本规模不同而导致的估计偏差。 2.2.3 自助法 “自助法”是针对上述缺点的一个比较好的解决方案,它直接以自 助采样法为基础。给定包含m个样本的数据集D,我们对它进行 采样产生数据集D:每次随机从D中挑选一个样本,将其拷贝放入 D,然后再将该样本放回初始数据集D中,使得该样本在下次采样 时仍有可能被采到;这个过程重复执行m次后,我们就得到了包 含m个样本的数据集D,这就是自助采样的结果。 于是我们可将D用作训练集,DD用作测试集;这样,实际评 估 的模型与期望评估的模型都使用m个训练样 本,而我们仍有数据 总量约1/3的、没在训练集中出现的样本用于测试。 2.2.4 调参与最终模型 现实中常见的做法,是对每个参数选择一个范围和变化 步长,例如在0,0.2范围内以0.05为步长,则实际 要评估 的候选参数值是5个,最终从这5个值中产生选定值。 2.3 性能度量 衡量模型泛化能力的评价标准 2.3.1 错误率与精度 错误率是分类错误 的样本数占样本总数的比例 精度是分类正确的样本数占样本总数的比例 真实实情况预测结预测结 果 正例反例 正例TP(真正例)FN(假反例) 反例FP(假正例)TN(真反例) “平衡点”(Break- Event Point,简 称BEP),就是查 准率与查全率时 的取值。 2.3.3 ROC和AUC 根据实值实值 或概率预测结预测结 果,我们们可以将测试样测试样 本进进行排序,“最可能”是正例的 排在前面“最不可能”是正例的排在最后面。分类过程相当于在这个排序中以某个“截断 点”将样本分为两个部分,前一部分判做正例,后一部分则判作反例。 在不同的应用任务中,我们可根据任务需求来采用不同的截断点。 排序本身质质量的好坏,体现了综合考虑学习器在不同任务下的“期望泛化性能”的 好坏,或者说“一般情况下”泛化性能的好坏。ROC曲线则是从排序本身质质量的好坏的角 度来研究学习器泛化性能。 ROC全名“受试者工作特征”曲线 ,以“真正例率”为纵轴 ,以“假 正例率”为横轴。 真正例率TPR:真正例样本数/ 真实情况是正例的样本数(查 全率) 假正例率FPR:假正例样本数/ 真实情况是是反例的样本数 基于ROC曲线线的学习习器性能评评价规则规则 1. 当曲线线没有交叉的时时候:外侧曲线的学习器性能优于内侧; 2. 当曲线线有交叉的时时候:比较ROC曲线下的面积即 AUC (Area Under ROC Curve) 2.3.4 代价敏感错误 率与代价曲线 在现实任务汇总 常会遇到这样的情况:不同类型的错误所造成的后 果不同。为权衡不同类型错误所造成的的不同损失,可为错误赋 予“非 均等代价”(unequal cost)。如下图所示,正确判断的代价显然应该为 0, 错误判断的代价之间的比值会影响我们对学习器的改造。 可令cost ij为把i类样本错判为j 类样本的代价,对所有类型错 误的数量与其错误代价的乘积 求和,再除以样本总数量,就 得到代价敏感(cost-sensitive) 错误率。 在非均等代价下,ROC曲线不能直接反映出学习器的期望总体 代价,而“代价曲线”则可以达到目的。代价曲线的横轴是正例 概率代价P(+)cost,纵轴是归一化代价cost norm p是样例为正例的概率 FPR是假正例率,FNR = 1 - TPR 2.4 比较检验 2.4.1假设检验 假设检验 的基本思想是小概率反证法思想。小概率思想是指小概率 事件(P0.01或P0.05)在一次试验中基本上不会发生。反证法思想是 先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性 大小,如可能性小,则认为 假设不成立,若可能性大,则还不能认为不 假设成立。 2.4.2 交叉验证 t检验 基本思想:若两个学习器的性能相同,则使用相同的训练/测试集得到的测试错 误率应相同。 假设检验设检验 的前提:测试错误 率均为泛化错误率的独立采样。 k折交叉验证产验证产 生的K对测试错误对测试错误 率:先对每对结果求差,若两个学习器性能相 同则差值均值应为 0。因此根据差值对“学习器AB性能相同”做t检验,计算差值的 均值和方差,在显著度确定条件下,判断变量是否小于临界值,若小于则无显著 差别,否则可判断平均错误率较小的学习器性能较优。 因样本有限,加查验证 不同轮次训练集有重叠,测试错误 率实际上不独立,会 导致过高估计假设成立的概率。 2.4.3McNemar检验 McNemar主要用于二分类问题 ,与成对t检验一样也是用于比较两个学习器 的性能大小。主要思想是:若两学习器的性能相同,则A预测正确B预测错误 数 应等于B预测错误 A预测正确数,即e01=e10,且|e01-e10|服从N(1,e01+e10) 分布。 2.4.4 Friedman检验 和Nemenyi后续检验 上述的三种检验都只能在一组数据集上,F检验则 可以在多组数据集进 行多个学习器性能的比较,基本思想是在同一组数据集上,根据测试结 果 (例:测试错误 率)对学习器的性能进行排序,赋予序值1,2,3,相同则 平分序值,如下图所示: 若学习器的性能相同,则它们的平均序值应该 相同,且第i个算法的 平均序值ri服从正态分布N(k+1)/2,(k+1)(k-1)/12),则有: 2.5偏差与方差 偏差-方差分解(bias-variance decomposition)是解释学习算法 泛化性能的一种重要工具。 算法的期望泛化误差进行分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论