机器学习算法与实践 课件 第四章 模型评估与选择_第1页
机器学习算法与实践 课件 第四章 模型评估与选择_第2页
机器学习算法与实践 课件 第四章 模型评估与选择_第3页
机器学习算法与实践 课件 第四章 模型评估与选择_第4页
机器学习算法与实践 课件 第四章 模型评估与选择_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章模型评估与选择机器学习算法与实践分类评估聚类评估数据划分本章概览分类模型评估指标准确率(Accuracy)精确率(Precision)召回率(Recall)F1分数(F1Score)ROC曲线与AUC聚类模型评估指标内部评估指标轮廓系数Calinski-Harabasz指数Davies-Bouldin指数Dunn指数外部评估指标调整兰德系数(ARI)互信息指数(MI)数据集划分数据集类型训练集(TrainingSet)验证集(ValidationSet)测试集(TestSet)划分方法保持法随机子抽样K-折交叉验证4.1分类模型评估指标为什么需要模型评估?确定模型优劣了解模型在特定任务上的表现指导模型改进发现问题并优化模型参数避免过拟合确保模型泛化能力分类问题的基本假设+正类PositiveVS−负类Negative四种分类情况TP真正类TruePositive实际为正类,预测为正类TN真负类TrueNegative实际为负类,预测为负类FP假正类FalsePositive实际为负类,预测为正类FN假负类FalseNegative实际为正类,预测为负类混淆矩阵(ConfusionMatrix)二分类问题的混淆矩阵正确预测TP-真正类TruePositive实际为正类,预测为正类TN-真负类TrueNegative实际为负类,预测为负类错误预测FP-假正类FalsePositive实际为负类,预测为正类FN-假负类FalseNegative实际为正类,预测为负类实际类预测类Yes(正类)No(负类)Yes(正类)TPFNNo(负类)FPTN1.准确率(Accuracy)定义准确率也称为精度,是评估分类模型性能的重要指标之一,反映了模型在分类任务中的整体表现。准确率是被模型正确预测的样本数占总样本数的比例。计算公式正确预测TP+TN真正类+真负类总样本数TP+TN+FP+FN所有样本的总和性能评价准确率越高模型性能越好

准确率的局限性样本不平衡情况下的缺陷核心问题在正负样本不平衡的情况下,准确率作为评价指标有很大缺陷。解决方案需要结合精确率、召回率和F1分数等其他指标来更全面地评估模型性能。案例:罕见疾病预测总患者数1000人患病人数10人占比1%未患病人数990人占比99%模型预测策略将所有患者预测为未患病计算结果正确预测:990人准确率:99%

重要警示:虽然准确率高达99%,但模型没有识别出任何真正的病例,对临床应用毫无价值!2.

精确率(Precision)定义精确率又称为查准率,用于衡量模型预测为正类的样本中,实际为正类的比例。精确率能够直接反映模型对于正类预测的准确性。计算公式正确预测的正类TP:真正类错误预测的正类FP:假正类(误报)适用场景适用于正类样本珍贵或者错误地将负类预测为正类会带来较大损失的场景,如疾病预测、垃圾邮件分类等。

3.召回率(Recall)定义召回率又称为查全率,衡量了模型能够识别出多少真正的正类样本。召回率越高,表示模型对正类样本的识别能力越强。计算公式正确识别的正类TP:真正类漏报的正类FN:假负类(漏报)适用场景适用于漏报(错过正类样本)有较高成本的场景,如疾病筛查、地震预测、欺诈检测等。

精确率与召回率的矛盾关系矛盾性精确率与召回率是一对矛盾的性能指标。一般而言,精确率高,召回率往往偏低;反之亦然。P-R曲线案例:地震预测总天数100天预测地震5天实际地震3天TP=2天TP=2天,FN=1天平衡点(BEP)平衡点是精确率等于召回率的点,其值越高,说明模型性能越好。

图4.1P-R曲线与平衡点

定义

计算公式真正类TP:正确预测的正类样本错误预测FP:假正类;FN:假负类调和平均P:精确率;R:召回率应用场景

例题4.2:疾病诊断模型评估混淆矩阵TP=50FN=5FP=10TN=35评估指标计算准确率85%精确率83.3%召回率90.9%F1分数86.7%假设研究人员正在开发一个医学诊断模型,目标是根据患者的症状预测他们是否患有某种疾病,只有下述两种分类结果。正类(Positive):患者患有疾病。负类(Negative):患者未患疾病。已知100名患者的实际诊断结果和模型预测结果,其混淆矩阵见表4.2。

类别预测患病预测未患病真实患病50人5人真实未患病10人35人表4.2100名患者的混淆矩阵4.1.2ROC曲线与AUCROC曲线概述

全称:ReceiverOperatingCharacteristicCurve

起源:最初应用于军事领域,通过侦测战场上的敌军载具,区分敌军信号和背景噪声

现用途:常应用于医学诊断和机器学习领域,评估分类模型性能的图形工具核心作用通过描绘不同分类阈值下模型的真正类率(TPR)与假正类率(FPR)之间的关系,直观展示模型的分类性能。核心指标真正类率(TPR)真正类率=真正类/(真正类+假负类)假正类率(FPR)假正类率=假正类/(假正类+真负类)TPR正类识别能力FPR负类误判率

ROC曲线绘制步骤绘制步骤详解1样本预测使用分类模型对数据进行预测,得到每个样本属于正类的概率P2样本排序根据概率P对样本进行从高到低排序3阈值设置与计算设置一系列阈值,计算每个阈值对应的TPR和FPR4曲线绘制以FPR为横轴、TPR为纵轴,绘制并连接各坐标点关键公式真正类率(TPR)假正类率(FPR)重要提示ROC曲线上的每个点都代表一个分类模型在特定阈值下的性能

例题4.3:ROC曲线绘制示例样本数据(按概率降序排列)正类样本:5个负类样本:5个不同阈值对应的TPR和FPR样本ID概率P真实类别10.95+20.93+30.87-40.85-50.85-60.85+70.76-80.53+90.43-100.25+阈值TPFPTNFNTPRFPR0.2555001.01.00.4345010.81.00.5344110.80.80.7634120.60.80.8533220.60.60.8532320.60.40.8531420.60.20.8721430.40.20.9320530.40.00.9510540.20.0>0.9500550.00.0ROC曲线示意图ROC曲线图形四个极端点点(0,0)所有样本预测为负类。TPR=0,FPR=0。模型过于保守,没有任何区分能力。点(0,1)理论上所有样本预测为正类。TPR=1,但FPR无法计算。实际不存在。点(1,0)所有样本预测为负类。FPR=0,TPR=0。模型过于激进,但完全错误。点(1,1)完美分类器。TPR=1,FPR=1。所有样本都被正确分类。理想但难以实现。理想的ROC曲线应尽可能靠近左上角,曲线越陡峭,模型性能越好图4.2ROC曲线AUC定义与意义AUC定义ROC曲线下与坐标轴围成的面积AUC取值范围AUC值越接近1分类性能越好,完美分类0.5<AUC<1.0具有一定判别能力AUC=0.5无判别能力,等同随机猜测AUC示意图AUC值高表示模型分类能力强,AUC=0.5无应用价值图4.3AUC示意图

ROC曲线比较比较规则曲线完全包住若一个模型的ROC曲线被另一个完全包住,则后者性能更优。曲线越靠近左上角,模型性能越好。曲线交叉若两个模型的ROC曲线交叉,则比较AUC值。AUC值更高的模型性能更好。AUC值判断标准0.9-1.0优秀0.7-0.9良好0.5-0.7较差ROC曲线比较示意图模型A的ROC曲线完全包住模型B,且AUC值更高,因此模型A性能更优4.2聚类模型评估指标聚类评估的复杂性核心挑战聚类模型的评估是一个复杂问题,因为不像分类模型有一个明确的"正确"答案。聚类的目标是发现数据的自然分组结构,而什么是"正确"的聚类结果往往取决于具体的应用场景和任务需求。两类评估指标内部评估指标评估依据分析数据的内在结构关键要素簇内紧密度、簇间分离度适用场景无监督学习,无真实标签代表指标:轮廓系数、Calinski-Harabasz指数外部评估指标评估依据基于预先已知的样本标签比较对象聚类结果与真实类别的对应关系适用场景有监督学习,存在真实标签代表指标:调整兰德系数、互信息指数1.轮廓系数(SilhouetteCoefficient)定义与意义同时衡量样本与其所属簇内其他样本的相似度(紧密度)以及样本与其他簇内样本的差异度(分离度)取值范围-1聚类效果极差0边界重叠+1聚类效果极好值越接近1,聚类效果越好计算步骤1

样本到同簇其他样本的平均距离2

样本到其他簇的最小平均距离3

整体轮廓系数为所有样本的均值

特性说明适用性适用于任意距离度量(欧氏距离、曼哈顿距离等)计算复杂度O(N²),不适用于大规模数据集2.Calinski-Harabasz指数定义与意义通过类内离散度与类间离散度的比值来评估聚类质量,其值越大,表明聚类效果越好核心公式Calinski-Harabasz指数计算公式Tr表示矩阵的迹(Trace),对角线元素之和

类间离散度矩阵

类内离散度矩阵判断标准类内方差小Tr(W_K)小样本点在簇内分布紧密类间方差大Tr(B_K)大不同簇之间分离度明显CH指数常用于选择最佳聚类数K,CH值最高时对应的K值即为最优聚类数

Calinski-Harabasz指数公式详解类间离散度矩阵衡量不同簇之间的分离程度类内离散度矩阵衡量簇内样本的紧密程度符号说明

μ数据集整体均值向量

判断标准

簇内方差小,样本点在簇内分布紧密

簇间方差大,不同簇分离度明显当簇内方差小、簇间方差大时,CH值高,聚类效果好。常用于选择最佳聚类数K。

3.Davies-Bouldin指数定义与意义通过簇内距离与簇间距离的比值来评估聚类质量,其值越小,表明聚类效果越好核心公式Davies-Bouldin指数计算公式关键符号说明

簇的平均距离(簇内紧密度)

簇间距离(簇间分离度)K聚类簇的数量判断标准DB值越小簇内距离小且簇间距离大,聚类效果好DB值越大簇内距离大或簇间距离小,聚类效果差DB指数越小越好,理想情况下应接近0

4.Dunn指数定义与意义用于衡量最小簇间距离与最大簇内距离的比值,其值越大,表明聚类效果越好核心公式Dunn指数计算公式关键符号说明

簇间距离(簇间分离度)

簇内距离(簇内紧密度)min/max最小簇间距离/最大簇内距离判断标准Dunn值越大簇间距离大且簇内距离小,聚类效果好Dunn值越小簇间距离小或簇内距离大,聚类效果差Dunn指数越大越好,理想的聚类结果应具有较高的Dunn指数

4.2.2外部评估指标定义与特点基于预先已知的样本标签来评估聚类结果,通过比较聚类结果与真实类别之间的对应关系来衡量算法性能核心要求真实标签需要已知样本的真实类别标签对应关系比较聚类结果与真实类别主要指标调整兰德系数(ARI)评估聚类结果与真实标签的相似度对随机聚类结果进行校正取值范围:[-1,1]互信息指数(MI)基于信息论评估一致性衡量聚类结果与真实标签共享的信息量值越高,聚类质量越好外部评估指标适用于有监督学习场景,但实践中真实标签往往不可用或需人工标注1.调整兰德系数(ARI)定义与意义用于评估聚类结果与真实标签之间相似度的指标,基于兰德系数(RI)并对随机聚类的结果进行校正兰德系数(RI)公式样本对分类说明a真实标签和聚类结果中都为同一类b真实标签中为同一类,聚类结果中为不同类c真实标签中为不同类,聚类结果中为同一类d真实标签和聚类结果中都为不同类调整兰德系数(ARI)1聚类结果与真实标签完全一致0聚类结果与随机聚类结果相当-1聚类结果与真实标签完全相反ARI对随机聚类进行校正,取值范围[-1,1],适用于任意数量的聚类中心和样本数

2.互信息指数(MI)定义与意义基于信息论中的互信息概念,用于评估聚类结果与真实标签之间的一致性程度核心概念信息量度表示一个随机变量包含关于另一个随机变量的信息量不确定性减少一个随机变量由于已知另一个随机变量而减少的不确定性计算公式符号说明X,Y聚类结果和真实标签的随机变量p(x,y)联合概率分布p(x),p(y)边际概率分布评估标准MI值越高聚类结果与真实标签越相似,聚类质量越好MI值越低聚类结果与真实标签相似度越低,聚类效果越差互信息可用于比较不同聚类算法的性能,值越高表示聚类结果越好

4.3数据集划分为什么要划分数据集?确保评估准确性提供对模型性能的客观评价,避免使用训练数据本身评估模型避免过拟合防止模型过度适应训练数据,确保模型在未见过的数据上也能表现良好确保泛化能力使模型能够适应新数据,提高模型在实际应用中的可靠性三种数据集及其作用训练集用于模型的初步学习通过训练集调整模型参数,学习特征和规律验证集用于调整超参数在训练过程中调整模型超参数,选择最佳配置测试集评估最终性能在模型训练完成后评估最终性能,模拟实际应用常用划分技术保持法简单直接的划分方法随机子抽样多次迭代的抽样方法K-折交叉验证充分利用数据的方法科学的数据集划分是构建准确且可靠机器学习模型的关键步骤训练集、验证集与测试集三种数据集对比训练集作用模型初步学习功能调整模型参数,学习特征和规律数据量通常最大(60%-80%)验证集作用超参数调整功能比较不同模型,选择最佳配置数据量中等(10%-20%)测试集作用最终性能评估功能模拟实际应用,评估泛化能力数据量较小(10%-20%)使用流程训练集学习阶段验证集调优阶段测试集评估阶段部署实际应用完全独立训练阶段从未见过测试集数据中间评估验证集提供调参的评估平台客观评价测试集提供泛化能力的客观评价科学划分数据集是构建可靠机器学习模型的关键1.训练集核心功能:模型初步学习调整模型参数权重(Weights)和偏置(Bias)最小化损失函数(如均方误差)从训练数据中学习特征和规律重要提醒仅使用训练集评估模型性能是不够的模型可能对训练数据产生过拟合需要验证集帮助调整超参数应用示例:猫狗图像分类器训练集内容大量猫和狗的图片学习特征边缘、颜色、形状等识别目标区分猫和狗训练过程1输入训练数据2调整模型参数3学习特征规律4最小化损失函数训练集是模型学习的基础,为后续的验证和测试提供起点2.验证集核心功能:超参数调整与模型选择调整超参数学习率(LearningRate)网络层数和节点数正则化参数批大小(BatchSize)模型选择比较不同算法性能支持向量机、决策树、神经网络等选出最适合当前问题的模型提供中间评估平台调整流程设置超参数初始配置训练模型使用训练集验证性能使用验证集调整参数迭代优化中间评估平台提供模型调优的评估依据最佳配置找到最优超参数设置数据量较小通常小于训练集规模验证集是模型调优的关键,帮助选择最佳模型和参数配置3.测试集核心功能:最终性能评估完全独立训练和验证阶段从未见过测试集数据模拟实际模拟实际应用中可能遇到的新数据客观评价提供对模型泛化能力的客观评价过拟合检测示例典型过拟合现象99%训练集准确率模型在训练数据上表现很好60%测试集准确率模型在新数据上表现很差测试集的意义及时发现过拟合通过测试集性能发现模型是否真正学会了识别特征提高实际应用价值确保模型在新数据上也能保持较高准确性和可靠性测试集是模型部署前的最后一道关卡,提供泛化能力的客观评价例题4.4:数据集划分示例猫狗图像分类任务训练集TrainingSet700张图片用途:训练模型学习猫狗的特征和规律验证集ValidationSet150张图片用途:模型选择和调参调整超参数,选择最佳模型测试集TestSet150张图片用途:最终性能评估评估模型泛化能力数据预处理步骤数据预处理去除噪声、异常值随机打乱确保数据随机性数据划分按比例分割数据质量保障预处理确保数据质量,归一化和编码类别变量比例分配合理70%训练、15%验证、15%测试,确保各部分数据量充足科学的数据集划分确保模型不仅在训练数据上表现良好,在新数据上也能保持可靠性保持法(HoldoutMethod)定义与特点以无放回抽样方式把原始数据集划分为两个相互独立的子集,分别作为训练集和测试集划分示意图原始数据集100%训练集70%构建分类器测试集30%评估性能简单直接操作简单,易于理解和实现独立性强训练集和测试集相互独立适用范围适用于数据量较大的场景优点:计算成本低,易于实现缺点:结果受数据划分影响较大4.4保持法示意图随机子抽样(RandomSubsampling)定义与特点随机子抽样可看作保持法的多次迭代,通过多次随机划分获得更可靠的性能评估三个步骤1随机抽取•按确定比例无放回随机抽取样本•形成训练集Data1•其余样本形成测试集Data22训练评估•用Data1训练分类器•用Data2评估准确率•记录当前迭代的性能指标3循环迭代•循环M次,M越大越好•最终准确率取M次均值•提供更稳定的评估结果常见比例分配方案一:70%+30%训练集70%,测试集30%方案二:70%+15%+15%训练集70%,验证集15%,测试集15%随机子抽样通过多次迭代获得更可靠的评估结果,M值越大结果越稳定K-折交叉验证(K-FoldCross-Validation)定义与核心思想将原始数据集分成K个互不相交的大小相同的子集,每次用K-1个子集作为训练集,剩下的1个子集作为测试集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论