版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章ROC曲线分析概要本文先介绍了ROC理论的一些基础知识如特异度和灵敏度等,然后简要介绍了非参数ROC分析方法,并建立了ROC模型。最后介绍了R0C曲线及在R软件中的绘制。2.1ROC分析的基本要素ROC分析的基本要素包括真阳性和假阳性也称灵敏度和特异度,以及“金标准”“金标准”划分被测试者的真实状态为对照组和病例组两类。常见的金标准有跟踪随访、活组织检查、尸体解剖、手术探查等。虽然“金标准”没有必要是十全十美的,但“金标准”应与评价的诊断系统无关,而且比要评价的诊断系统更可靠。“金标准”不够完美时,可用采用Bayesian、模糊金标准、EM估计等方法解决。对按照“金标准”确定的二分类总体
2、,对照组和病例组分别用阴性和阳性表示诊断试验结果。假定总体样本量是N,诊断试验的可能结果总共有四种:被测试者患病且被正确诊断为患病者,被测试者无病且被错误诊断为患病者,被测试者无病且被正确诊断为无病者,被测试者无病且被错误诊断为患病者。我们可以用一个2X2的列联表来表示它们之间的关系。诊断结果“金标准”合计,中-F/.患、炳者健康者阳性a(真阳性)b(假阳性)a+b阴性c(假阴性)d(真阴性)c+d合计a+cb+da+b+c+d二NabTPR=FPR=-a+cb+d在医学研究中,诊断试验准确度指标最常用的是灵敏度与特异度。灵敏度(sensitivity),也叫真阳率(truepositiver
3、ate,即TPR)是被测试者患病且被正确诊断为患病者的样本量在阳性总体中占的比例。灵敏度值越大,假阴率越小。据表2-1其计算公式是:灵敏度(sensitivity)=真阳率(TPR)=1假阴率(FNR)二亠a+c标准误为:SEtpr=Jac/(a+c)3特异度(specificity),也叫真阴率(truenon-positiverate,即TNPR),是受试者无病且被正确诊断为无病者的样本量占阴性总体的比例。假阳率(falsepositiverate,即FPR)=1-特异度特异度值越大,假阳率越小。据表2-1其计算公式是:特异度(specificity)=真阴率(TNPR)=1-假阳率(FP
4、R)=b+d标准误为:SEFPr=Jbd/(b+d)3假设二分类总体均服从正态分布,TPR、FPR、TNPR和FNPR之间的关系可以用图2-1来描述。图中x=c为截断点(诊断阈值),a为假阳率(FPR),B为假阴率(FNPR)。断点特异度冋灵敏度邛)无病组有病组2.2ROC准确性评价指标的优越性诊断试验的准确性评价指标有正确率、灵敏度和特异度等。它们虽然都可以反映诊断的准确性,但评价的效果不是很理想。正确率是被测试者被正确诊断的例数和所占总体的百分数。其计算公式是:a+d正确百分率=x100%标准误是:SE=J(a+d)(b+c)/N3正确百分率正确百分率的不足之处:1很大程度上依赖患病率。例
5、如,虽然患病率是5%,如果判定所有样本为健康者,也有可能有95%的正确百分率;2受诊断阈值的限制;3没有表示出假阳性和假阴性错误诊断所占的比例,没有唯一性表示,即使有相同的正确百分率的两个总体,也可能有十分不同的假阳性和假阴性。基于此,单独计算灵敏度和特异度,以弥补正确率的不足,如果两个指标的值越高,诊断评价效果也就越好,其实不然。在对诊断系统做出比较时,如果单独使用灵敏度与特异度,就会存在很大的不足:这两个指标依赖于诊断阈值(或截断点),改变诊断阈值可以增加诊断的灵敏度,但同时也减少了特异度;反之,如果增加诊断的特异度,则需要以减少灵敏度为代价。另外,有人提出的Youden指数、阳性似然比、
6、:真阳率与假阳率之比)和阴性似然比等等。Youden指数是指真阳性率与假阳性率之差,计算公式为:Youden指数=灵敏度+特异度-1=真阳性率-假阳性率=TPR-FPR=a+cbb+d其标准误为:SEYouden指数ac+bd(a+c)3(b+d)3阳性似然比(positivelikelihoodratio简写为:LR+)是真阳性率与假阳性率之比,即灵敏度与(1-特异度)的比值,它是ROC曲线某工作点对应的斜率。阴性似然比(negativelikelihoodratio简写为:LR-)是假阴性率与真阴性率之比,即(1-敏感度)与特异度的比值。这些诊断指标综合考虑了灵敏度和特异度,但一个指标只对
7、应于一个诊断阈值。当诊断阈值改变时,会得到不同的指标值,给诊断准确度的比较带来不便。所以一般选择阳性似然比或Youden指数最大者为最佳工作点。在评价整个诊断方法的准确性时用ROC分析,当改变诊断阈值时,可同时获得灵敏度和特异度,也就可以获得TPR和FPR值。ROC曲线是以FPR为横坐标和以TPR为纵坐标绘制而成,并且ROC曲线下的面积大小衡量了诊断系统的判别能力。2.3ROC曲线的构建0.00.20.40.60.81.DFRP以假阳性率(FPR)为横坐标、真阳性率(TRP)为纵坐标,形成正方形,在图上将ROC工作点标出,并用线条将这些低昂依序连接起来构建不光滑的ROC曲线。构建光滑的曲线需要
8、交涉对照组和病例组服从于某一分布(如正态分布、Gamma分布等),用曲线拟合技术估计其参数,直接用参数产生曲线。无论资料类型如何,曲线一定通过(0,0)和(1,1)两点,这两个点对应着灵敏度=0,特异度=1和灵敏度=1,特异度=0理论上诊断实验都有TPR=1,FPR=0。完全无价值的诊断为TPR=FPR,这条线条称为几率线(guessingline或chanceline),也称为无信息线(lineofnoinformation);ROC曲线对诊断的准确性采用同一尺度直观地体现出来,描述了诊断实验对正反两种状态的判别能力。曲线上每一个点通过改变其诊断阀值(截断点)而得,是灵敏度和特异度的折衷结果
9、。提高诊断标准则产生较低的灵敏度和较高的特异度;降低诊断标准则产生较高的灵敏度和较低的特异度。如果比较两个诊断方法的效果,则较高的ROC曲线具有较好的诊断性能,如果曲线交叉,则通过计算曲线下面积进行进一步比较。用ROC曲线下面积(记为A)反映诊断试验的准确度,它可以被看成是正确Z决策的概率。该面积的取值范围为(0.5,1),完全无价值的诊断A=0.5;完美的Z诊断A=1。习惯上认为ROC曲线下面积为0.500.70,表示诊断的准确度较低;Z在0.700.90之间表示诊断的准确度中等;面积达到0.90以上则表示诊断的准确度较高。2.4ROC曲线的拟合方法ROC曲线的获得是通过两个不同的总体(正常
10、组和异常组),它的横轴和纵轴(假阳性率和真阳性率)存在相关关系,因此不能假定它们来自单一的总体,不能用一般非线性模型拟合。ROC曲线拟合方法主要有双正态模型参数法和非参数法。除了主要的ROC分析方法外,有序回归模型(包括位置尺度模型、比例优势模型、GEE法)、COX比例风险模型等也可以拟合ROC曲线、计算ROC曲线下面积以及标准误。这些模型还考虑了协变量的混杂效应。2.4.1双正态模型参数法双正态模型假定正常组和异常组都服从正态分布。当前该模型在ROC分析上比较完善,可以处理不同的ROC资料,获得光滑的ROC曲线。当样本量较大时,有序分类数大于5时,该模型获得的结果是比较可靠的。但是当样本量较
11、少时,双正态模型拟合会产生退化资料,ML估计会迭代不收敛。按“金标准”将实验对象划分为正常组和异常组,假设它们分别服从总体均值为卩0、|11(0t|正常=1一()0ao真阳性率为:TPR=Pmt|异常=1一(!一!)1ai其中、叫分别表示正常组和异常组的实验测量值或有序分类之;t为截断点,实验测量值xt,诊断为阳性,xWt诊断为阴性;()为标准正态累积分布函数。令t=p0+a-11FPR,则有: HYPERLINK l bookmark32 o Current Document p一pa HYPERLINK l bookmark34 o Current Document TPR=Q_+-1FP
12、Raiai令a=3,b=%,则上式可写为:a1a1TPR=a+b-1FPR,0FPR1j=11jj=x0ix0ix0ij=1i=11x屮(xo.,xi.)=0.5xij0 xAZ的标准误为:SE(AZ)=Z|AZ(1-AZ)+帆-1)(Qj-AZ2)+(n0-1)(Q2-AZ2)nn10其中Q是两个随机随着的异常组观测值比一个随机选择的正常组观察值都更大可能分类为异常的概率。Q2是一个随机随着的异常组观测值比两个随机选择的正常组观察值都更大可能分类为异常的概率。25基于非参数法的ROC分析基于本文实证分析采用的是非参数方法的ROC模型,因此将在本小结着重介绍下非参数法的ROC分析。2.51等级
13、变量的非参数ROC分析通常情况下,诊断系统获得的原始资料的记录有离散型和连续型两种形式。许多生物医学诊断试验的测量工具是连续型的,如血清抗原和酶浓度;医学影像诊断试验的诊断结果是离散型的。对于不同的形式,ROC曲线估计方法是相同的,我们以离散型诊断结果为例。如果将诊断指标以有序分类的方式分成k类,k=1,K。其中1类别表示完全没患病,K类别表示肯定患病。假设对于每一个分类类别Y,有一个隐藏的连续决策变量X,将结果划分到第k类中,如果决策变量X在区间(Tk-1,Tk)中,k=1,K;T0=8,Tk=+8;即当Tk-1XTk,则Y=k。第k类中,N表示第k类中的正常个体数,N表示第k类中的异常个体
14、数,N为正k0k10常总个体数,N表示异常总个体数,N表示总个体数。一般可划分为5(或6)1等级,即肯定不正常、可能不正常、异常可疑、可能正常、肯定正常,分别以1、2、3、4、5标记。如表表示:诊断结果诊断分类合计12345正常N10N20N30N40N50N0异常N11N21N31N41N51N1合计N每个分类可以作为诊断阈值(通常从第二个分类开始,因为若以第一个分类为阈值,其实是没有什么意义的),阳性和阴性的判断标准是:该类及以上类别的样本为阳性;该类以下样本为阴性,对于每一个诊断阈值,都可以整理出类似于表2-1的2X2的列联表。例如,以表2-2中的分类3为诊断阈值时,正常组阳性个体数为N
15、+N+NTOC o 1-5 h z304050其假阳率为N+N+NFPR304050N0异常组阳性个体数为N+N+N,其真阳率为314151N+N+NTPR314151N1同样可以以表中的分类5、4、2为诊断阈值来计算的ROC的坐标点,并得到相应的FPR和TPR。图描述了不同诊断阈值下的分类:此时,我们假设正常组和异常组的总体都满足正态分布。图中采用4个诊断阈值将正常组和异常组分2.5.2实例分析在放射学诊断试验中,有109份CT影像,正常影像为58份,异常影像为51份,有位影像工作者将这些CT影像分类为如表2-3所示:诊断结果诊断分类合计12345正常336611558异常322113351
16、合计109根据2.5.1节的结论,我们可以得到以类别2、3、4、5为诊断阈值的2X2的列联表,从而得到相应的ROC工作点。以类别2为诊断阈值:诊断结果金标准合计患者健康者阳性482573阴性33336合计5158109TPR=4851FPR-2558正常组阳性个体数为25,其假阳性率为FPR=25=0.431058异常组阳性个体数为48,其真阳性率为TPR=48=0.942051同理可得到分类3、4、5这四个诊断阈值所对应的ROC工作点。故FPR,TPR=(0.4310,0.9420),(0.3296,0.9020),(0.2241,0.8627),(0.0345,0.6471)从图可以看出,
17、诊断阈值越严格(分类类别越高),将试验结果决策为阳性的可信度越高;诊断阈值越宽松(分类类别越低),将试验结果决策为阳性的可信度也相应地越低。oo00CJc时为阳性,当yWc时为阴性。那么,若设“金标准”为(,贝V对于每一个阈值c,我们就能推断出相应的真阳率TPR(灵敏度)和假阳率FPR(1特异度),设灵敏度为Sen(c),特异度为Spe(c),则有:/、Snii(y.c|k=1)TPR(c)=Sen(c)=i=ini/、Snoi(yc|k=0)FPR(c)=1-Spe(c)=i=ilno其中,n为金标准K=0时的样本量,同理,n为金标准K=1时的样本量。01如上述所示,当变量为连续型时,每个C
18、都有对应的灵敏度和特异度,把c取遍此连续型变量在样本中的所有互异的观测值,把这些点对FPR(c),TPR(c)连成曲线便构成ROC曲线。26R0C曲线间差异的显著性检验ROC曲线提供了直观比较两个诊断方法准确性的方法,较高的ROC曲线具有较好的诊断性能,但是如果曲线交叉,则无法直观地看出来,同时,直观上看两条曲线有差异,但是不一定是统计显著的,所以需要通过统计检验的方法进一步检验两种诊断方法的准确性是否有显著差别。采用参数法非参数法拟合ROC曲线有不同的检验方法。对于双正态模型方法拟合的ROC曲线,可以采用双变量参数卡方检验(bivariateChi-squaretest)、真阳性率z检验(T
19、PRZ-scoretest)、面积z检验(areaz-scoretest)。双变量参数卡方检验检验两诊断实验的双正态参数间有无差异。假设两个ROC曲线的参数分别是(a1,b1)、(a2,b2)。原假设:两条双正态ROC曲线相同,即a1=a2,b1=b2。如果原假设成立,且参数估计值a1,bi,a2,b2为联合正态分布。则检验统计量为:X2=Sw-i(5服从自由度为2的卡方分布,其中6为行向量(a1-a2,bi-b2),3是2X2协方差矩阵,矩阵元素:311=Var(ai)+Var(a2)一2Cov(ai,a2)3=Var(b)+Var(b)一2Cov(b,b)221212312=321=Cox
20、(ai,bi)+Cox(a2,b2)-Cox(ai,b2)-Cox(a2,bi)真阳性z检验有时候想要研究的是在特定的假阳性率条件下,两条ROC曲线上的真阳性率是否相同。此时并不关心两诊断实验是否产生完全相同的ROC曲线。此时,原假设为:在特定的FPR下,两条ROC曲线的TPR相等,即0TPR=TPR=TPR。120当原假设成立,且a1,b1,a2,b2为多变量正态,则V=(FPR2)-(FPRJ=a2+b2t(FPR0)-ai+bi-i(FPR0)服从均值为0,标准差av=V311-2t312+t2322的随机正态分布。其中t二-1(1一FPR0)。面积z检验该方法对ROC曲线下面积间的差值
21、做z检验来判断两个诊断实验方法的准确性。原假设为:两条ROC曲线下面积相等,即A=A。如果原假设成立,且样z1z2本量较大,则两诊断ROC曲线下面积的差值:aav=AA=12z1z2r(厶+b/)(厶+b22)CT2=v近似服从均值为0,方差为:Cov(0i,0j)的正态分布,其中片:i=1,2,3,4=a1,a2,bl,b2,为ROC曲线的四个参数。当两个比较的诊断实验相互独立时,对应的所有交叉曲线协方差项等于0.Metz等的研究表明,当正常组和异常组的样本量都超过50时,以上检验的结果都是可靠的。2.6.3非参数拟合ROC曲线时,曲线下面积的比较利用Hanley和McNe订非参数法拟合ROC曲线时,比较两个ROC曲线下面积间是否有显著差异时,可用检验统计量z=|Az1-Az2|7SE1+SE2-2rSEiSE2z是标准正态的离差值,SE1和SE2是两个实验的标准误,分别有上文计算公式得到。R是两个ROC曲线下面积间的相关系数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 歌尔股份校招笔试题及答案
- 2026年上海中医药大学单招职业适应性考试题库汇编
- 甘李药业校招题库及答案
- 2025广西壮族自治区农业农村厅直属事业单位第二批招聘189人参考题库含答案详解(能力提升)
- 2025广西柳州市残疾人康复中心招聘编外聘用人员1人参考题库含答案详解(考试直接用)
- 2025年黑龙江省省直事业单位招聘考试真题试卷 公共基础知识完整参考答案详解
- 2026年阿拉善职业技术学院单招综合素质考试必刷测试卷含答案
- 2026年南京科技职业学院单招职业倾向性考试必刷测试卷必考题
- 2026年通化医药健康职业学院单招职业适应性测试题库汇编
- 2026年武汉警官职业学院单招综合素质考试题库新版
- 老年失能护理学教案(供参考)
- 零售行业新媒体营销策划方案从线上到线下以用户为中心的全渠道营销策略范稿
- 整本书阅读《平凡的世界》:悲欢喜怒交织是人生-【中职专用】高一语文同步课件(高教版2023·基础模块上册)
- 非公司企业改制登记(备案)申请书-样表
- 温湿度计内部校准操作规程
- 01SS105给排水常用仪表及特种阀门安装图集
- 基于核心素养视角下的小学数学方程教学策略研究
- 高速公路机电养护技术要求
- 向榜样学习 争做新时代好少年主题班会
- 药敏试验结果解读及临床应用
- 中石油英语900句
评论
0/150
提交评论