版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
性能度量《机器学习算法思想》
分类的性能度量准确率以二分类问题为例,假设只有两类样本,即:正例(positive)和负例(negative),通常以关注的类为正类,其它的类为负类。例如垃圾短信识别可以视为二分类问题(见图3-1),图中一共有30个短信,其中有21个正常短信,9个垃圾短信,某人从中识别出了垃圾短信如图3-2(a)所示,剩下的就被认为是正常短信如图3-2(b)。从图3-2中可见,被识别出的垃圾短信集合中有正常短信,正常短信集合中也可能会有垃圾短信,这说明识别垃圾短信的结果可能没有达到100%准确,这体现了表达准确率的重要性。准
确
率
由于任务的侧重点是识别出垃圾短信进而删除它们,因此,垃圾短信一般就是被关注的类,可以定义为正类。通常会有4种可能性(见表3-1),正类表示实际类别是垃圾短信的样本,有P个。此时,假设模型从中正确的判断出了TP个,错误的判断了FN个,实际类别是非垃圾短信的样本总共有N个,假设模型从中错误的判断了FP个,正确的判断了TN个。注意:T和F表示预测结果是对还是错,P和N表示正类还是负类。准
确
率准
确
率案例3-1:在图3-1和图3-2中,测试集包含30个样本,其中有9个是垃圾短信(正例P),21个是非垃圾短信(负例N)。假设分类器正确地将6个垃圾短信判断为垃圾短信(TP),但错误地将3个垃圾短信判断为非垃圾短信(FP)。同时,分类器正确地将19个非垃圾短信判断为非垃圾短信(TN),但错误地将2个非垃圾短信判断为垃圾短信(FN)。因此,该垃圾短信分类器的准确率为83.3%。准
确
率若类别的比例在样本中严重失调,准确率可能难以衡量真正关注的正类的分类效果,请看案例3-2。案例3-2:图3-3所示的短信集合,测试集包含31个样本,其中有2个是垃圾短信(正例P),29个是非垃圾短信(负例N)。分类器判别出的垃圾短信集合如图3-4(a)所示,剩下的短信被认为是正常短信,如图3-4(b)所示。准
确
率
假设分类器正确地将1个垃圾短信判断为垃圾短信(TP),但错误地将1个垃圾短信判断为非垃圾短信(FP)。同时,分类器正确地将25个非垃圾短信判断为非垃圾短信(TN),但错误地将4个非垃圾短信判断为垃圾短信(FN)。
看起来,案例3-2的准确率更高,然而,无论是案例3-1还是案例3-2,没有将用户最关心的真正的垃圾短信全部识别出来,且案例3-2仅仅识别出了一半的垃圾短信,案例3-1却识别出了三分之一的垃圾短信,可能更青睐于案例3-1,可见,仅仅用准确率来衡量视乎不够。准
确
率与准确率不同,精确率和召回率重点关注正类的分类结果,是二类分类问题的评价指标。精确率定义为模型判断的正例中真正正例的比重:
在垃圾短信分类器中,是指预测出的垃圾短信中真正垃圾短信的比例,可以直观地理解精确率为被正确判定的正例的比例。召回率反映了总正例中被模型正确判断为正例的比重:在垃圾短信分类器中,指所有垃圾短信被分类器正确找出来的比例。精
确
率
和
召
回
率案例3-3:分别用案例3-1和哪里3-2中的垃圾邮件案例,计算精确率和召回率。精
确
率
和
召
回
率分类性能度量——P-R曲线
从精确率和召回率的定义可知,精确率和召回率这两个指标通常很难做到都很高,例如:渔民们撒网打鱼时,如果网比较大,则打上的鱼通常会很多,但同时也可能会打上来一些其它的东西,比如石头等,使得精确率下降。
如图3-5所示,如果想办法提高了召回率,精确率有可能会受到影响,从而下降。
图3-5描述了精确率和召回率的关系,该条曲线被称为P-R曲线,要绘制PR曲线需要一系列的精确率(precision)和召回率(recall)的值,这些值是通过阈值来形成的,对每个测试样本,分类器通常都会给出分值,即:“Score”值,表示该样本在多大概率上属于正例。其中,AUC是ROC(ReceiverOperatingCharacteristic)曲线与横坐标围成的面积,取值范围为0.5到1。当AUC=0.5时,模型无区分能力;越接近1,模型性能越好。P-R曲
线绘制PR曲线的步骤为:步骤1:从高到低将“Score”值排序并依次作为阈值threshold;步骤2:对于每个阈值,“Score”值大于或等于threshold的测试样本被认为是正例,其它为负例,从而形成一组预测数据。步骤3:将预测的结果和真实的结果进行比较得到表中的数值,进而可以计算出PR曲线的上面的一组值,从而形成PR曲线的一个点,阈值不同点的位置一般也不同,多个类似的点连起来就成了曲线。P-R曲
线案例3-4:假设存在一个二分类问题,其中有10个样本,每个样本有一个"Score"值和一个真实的标签(负类0或正类1),数据集见表3-2。P-R曲
线现在按照步骤进行PR曲线的绘制:步骤1:从高到低将“Score”值排序并依次作为阈值threshold,排序后的阈值列表:[0.9,0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1,0.05]步骤2:对于每个阈值,根据阈值将样本分为正例和负例。以阈值0.9为例,大于等于0.9的样本被认为是正类(标签1),小于0.9的样本被认为是负类(标签0)。根据阈值得到表3-3的预测结果。计算得到每个阈值下的召回率和精确率为:
阈值:0.90召回率:0.2000精确率:1.0000阈值:0.80召回率:0.4000精确率:1.0000阈值:0.70召回率:0.4000精确率:0.6667阈值:0.60召回率:0.6000精确率:0.7500阈值:0.50召回率:0.6000精确率:0.6000阈值:0.40召回率:0.6000精确率:0.5000阈值:0.30召回率:0.8000精确率:0.5714阈值:0.20召回率:0.8000精确率:0.5000阈值:0.10召回率:0.8000精确率:0.4444阈值:0.05召回率:1.0000精确率:0.5000步骤3:计算每个阈值下的召回率和精确率,可以得到PR曲线的所有点,曲线如图3-6所示。P-R曲
线指标area的含义是P-R曲线下面的面积,它有助于弥补P-R曲线的单点值的局限性,可以反映全局的性能,Area(areaundercurve,简称AUC)的定义为:Area分类性能度量——F值(Fβ-score)
有精确率又有召回率,能否进行一个统一的指标,将二者综合起来呢,当然有,这就是F值,F值是精确率和召回率的调和平均,定义为公式(3-5)。其中,β是权重,用于表示精确率和召回率中更加侧重于哪个指标,一般大于0,当β=1时,表示精确率和召回率同样重要。退化为F1:Fβ-score分类性能度量——ROC及ROC-AUCROC(receiveroperatingcharacteristiccurve)是另外一种分类的评价指标,称之为受试者工作特征曲线,据说在二战时候雷达兵观察雷达显示器以判断是否有敌机来袭,但飞鸟如果出现在雷达的扫描区域时屏幕上也会出现类似的信号,如果凡是有信号就确定是敌机来袭会增加误报的风险,如果凡是有信号都认为是飞鸟,又会增加漏报的风险,ROC曲线可用于评价每个雷达兵的预报情况。ROC曲线
受试者工作特征曲线简称为ROC曲线,如图3-7所示,横轴表示假的正例率fprate,或称之为误诊率、虚惊概率,如:将飞鸟误报为敌机的概率,纵轴表示真的正例率tprate,即:命中概率,表示来的是敌机且正确预报的概率。ROC曲线描绘了分类器在tprate和fprate间的权衡。与P-R曲线的绘制类似,要得到ROC曲线也需要一系列的值,不过此时横轴和纵轴的定义有所不同而已。ROC曲线案例3-5:假设有一个雷达检测敌军的数据集如表3-4所示。使用ROC曲线来评价雷达的预报情况。ROC曲线现在按照步骤进行ROC曲线的绘制:步骤1:从高到低将“信号强度”值排序并依次作为阈值threshold;步骤2:“信号强度”值大于或等于threshold的样本是正例,其它为负例,从而形成一组预测数据。步骤3:将预测的结果和真实的结果进行比较,计算得到每个阈值下的假正例率和真正例率值,形成ROC曲线的一个点,绘制出的
ROC曲线如图3-8所示。图3-8
ROC曲线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026新疆人才集团总部及二级企业面向内外部公开招聘(12人)笔试备考试题及答案解析
- 2026山东威海市乳山市人民医院招聘急需紧缺专业人才6人考试参考题库及答案解析
- 2026年安徽某国企地铁维保人员招聘50名笔试模拟试题及答案解析
- 中国建筑内部管理制度
- 小学校园内部巡逻制度
- 宝洁内部提拔用人制度
- 县林业局内部管理制度
- 企业内部巡察工作制度
- 律师事务所内部风控制度
- 微小企业内部管理制度
- 第一章 组织工程学-概述
- 211和985工程大学简介PPT
- 【基于7P理论的汉庭酒店服务营销策略14000字(论文)】
- 初中数学:《二次根式》大单元教学设计
- 分清轻重缓急
- 山东大学核心期刊目录(文科)
- 2023年医技类-康复医学治疗技术(中级)代码:381历年考试真题(易错、难点与常考点摘编)有答案
- 噪声及振动环境课件
- GB/T 37140-2018检验检测实验室技术要求验收规范
- 复测分坑作业指导书
- 一二次深度融合成套柱上断路器汇报课件
评论
0/150
提交评论