下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。ROC曲线的例子考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类
2、并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True negative),正类被预测成负类则为假负类(false negative)。TP:正确肯定的数目;FN:漏报,没有正确找到的匹配的数目;FP:误报,给出的匹配是不正确的;TN:正确拒绝的非匹配对数;列联表如下表所示,1代表正类,0代表负类。 预测10合计实际1True Positive(TP)False Negative(FN)Actual Positive(TP+FN)0False Posit
3、ive(FP)True Negative(TN)Actual Negative(FP+TN)合计Predicted Positive(TP+FP)Predicted Negative(FN+TN)TP+FP+FN+TN从列联表引入两个新名词。其一是真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+FN),刻画的是分类器所识别出的 正实例占所有正实例的比例。另外一个是负正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN),计算的是分类器错认为正类的负实例占所有负实例的比例。还有一个真负类率(Tr
4、ue Negative Rate,TNR),也称为specificity,计算公式为TNR=TN/ (FP+TN) = 1-FPR。其中,两列True matches和True non-match分别代表应该匹配上和不应该匹配上的两行Pred matches和Pred non-match分别代表预测匹配上和预测不匹配上的在一个二分类模型中,对于所得到的连续结果,假设已确定一个阀值,比如说 0.6,大于这个值的实例划归为正类,小于这个值则划到负类中。如果减小阀值,减到0.5,固然能识别出更多的正类,也就是提高了识别出的正例占所有正例 的比类,即TPR,但同时也将更多的负实例当作了正实例,即提高了
5、FPR。为了形象化这一变化,在此引入ROC,ROC曲线可以用于评价一个分类器。ROC曲线和它相关的比率(a)理想情况下,TPR应该接近1,FPR应该接近0。ROC曲线上的每一个点对应于一个threshold,对于一个分类器,每个threshold下会有一个TPR和FPR。比如Threshold最大时,TP=FP=0,对应于原点;Threshold最小时,TN=FN=0,对应于右上角的点(1,1)(b)P和N得分不作为特征间距离d的一个函数,随着阈值theta增加,TP和FP都增加Receiver Operating Characteristic,翻译为接受者操作特性曲线,够拗口的。曲线由两个变
6、量1-specificity 和 Sensitivity绘制. 1-specificity=FPR,即负正类率。Sensitivity即是真正类率,TPR(True positive rate),反映了正类覆盖程度。这个组合以1-specificity对sensitivity,即是以代价(costs)对收益(benefits)。 此外,ROC曲线还可以用来计算“均值平均精度”(mean average precision),这是当你通过改变阈值来选择最好的结果时所得到的平均精度(PPV).下表是一个逻辑回归得到的结果。将得到的实数值按大到小划分成10个个数 相同的部分。 Percentile实
7、例数正例数1-特异度(%)敏感度(%)10618048792.7334.6420618028049.8054.55306180216518.2269.92406180150628.0180.6250618098738.9087.6260618052950.7491.3870618036562.9393.9780618029475.2696.0690618029787.5998.171006177258100.00100.00其正例数为此部分里实际的正类数。也就是说,将逻辑回归得到的结 果按从大到小排列,倘若以前10%的数值作为阀值,即将前10%的实例都划归为正类,6180个。其中,正确的个数为4879个,占所有正类的 4879/1408
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年联邦学习多机构监护数据联合训练不共享原始数据
- 江苏省无锡市天一实验学校2026年初三5月校际联合考试化学试题含解析
- 2026届山东省莒县重点名校下学期初三生物试题中考仿真模拟考试试卷(四)含解析
- 浙江省宁波市余姚市2025-2026学年初三中考模拟试题含解析
- 西藏自治区日喀则市南木林县重点达标名校2026年初三下学期考前最后一次模拟化学试题含解析
- 2026届湖北省武汉为明校初三下学期第三次考试生物试题含解析
- 2025-2026学年浙江省天台县初三第二次(5月)过关检测试题生物试题含解析
- 广西壮族自治区梧州市岑溪市2026届初三二诊考试化学试题试卷含解析
- 福建省龙文区市级名校2025-2026学年全国普通高中初三二月大联考生物试题含解析
- 2026年宁波市镇海区初三下学期第一次月考考试生物试题试卷含解析
- 2025贵州省考申论A卷真题及答案
- DB35∕T 1897-2020 白茶 茶树栽培管理技术规范
- 高三化学专题复习有机反应机理解析
- 涉案财物管理系统演示
- 消防员主要职责
- 加气站安全生产费用提取和使用管理制度
- 2026年枣庄职业学院单招职业适应性测试必刷测试卷及答案1套
- 农副食品醋创新创业项目商业计划书
- 天津警务通系统应用培训
- 机械加工标准作业指导书范本
- 村文书考试题及答案甘肃
评论
0/150
提交评论