SAS软件应用之典型相关分析_第1页
SAS软件应用之典型相关分析_第2页
SAS软件应用之典型相关分析_第3页
SAS软件应用之典型相关分析_第4页
SAS软件应用之典型相关分析_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第20章章 典型相关分析典型相关分析 SAS软件应用之典型相关 分析 学习目标 了解典型相关分析的数学表达方式,假定 条件; 熟悉典型相关系数的数学含义; 掌握典型变量系数的数学含义; 掌握简单相关,复相关和典型相关的意义; 掌握典型相关分析的SAS过程步: CANCORR过程步。 SAS软件应用之典型相关 分析 概述 对于两个变量,是用它们的相关系数来衡量它们 之间的线性相关关系的。当考虑一个变量与一组 变量的线性相关关系时,是用它们的多重相关系 数来衡量。但是,许多医学实际问题中,常常会 碰到两组变量之间的线性相关性研究问题。例如, 教育研究者想了解3个学术能力指标与5个在校成 绩表现之

2、间的相关性;对于这类问题的研究引进 了典型相关系数的概念,从而找到了揭示两组变 量之间线性相关关系的一种统计分析方法典 型相关分析。 SAS软件应用之典型相关 分析 典型相关 典型关系分析是分析两组变量之间相关性的一种 统计分析方法,它包含了简单的Pearson相关分 析(两个组均含一个变量)和复相关分析(一个 组含有一个变量,而另一组含有多个变量)这两 种特殊情况。典型相关分析的基本思想和主成分 分析的基本思想相似,它将一组变量与另一组变 量之间单变量的多重线性相关性研究转化为对少 数几对综合变量之间的简单线性相关性的研究, 并且这少数几对变量所包含的线性相关性的信息 几乎覆盖了原变量组所包

3、含的全部相应信息。 SAS软件应用之典型相关 分析 典型相关 典型相关分析方法的基本原理是:所有研 究的两组变量为x组和y组,x 组有p个变 量 , y 组有q个变量 , 则分别对这两组变量各做线性组合后,再 计算此两加权和的简单相关系数,然后以 这个简单相关系数当做这两组变数之间相 关性的衡量指标。即 ),( 21p xxx),( 21q yyy pp xxx 2211 qq yyy 2211 SAS软件应用之典型相关 分析 典型相关 对于任意一组系数 和 都 可以通过上式求出一对典型变量,典型相 关分析中称之为典型变量。进而可以求出 典型变量的简单相关系数,称之为典型相 关系数。 x 组的

4、p个变量组合成一个,y组的q个变量 也组合成一个,然后计算简单相关来衡量 两组之间的相关性。问题是如何组合? ),( 21p ),( 21q SAS软件应用之典型相关 分析 典型相关 设两组变量分别为x组有p个变量 , 而y组有q个变量 ,我们先分别把 x组和y组的变量组合起来(当然是用线性 组合),也就是 其中这些系数都是一些常数,就是组合的 比例,由于是线性组合,所以 且 。 T p xxx),( 21 T q yyy),( 21 pp xxxx 1212111 * 1 qq ybybyby 1212111 * 1 1 11211 p 1 11211 q bbb SAS软件应用之典型相关

5、分析 典型相关 有两个问题需要解决: 给定不同组合比例 以及 , 都可以算出不一样的简单相关系数,这使得这个 方法非常的不科学,每个人都可以依照自己的喜 好来决定组合比例,并且在衡量两组变量之间相 关性的问题上,也没有一个统一的标准。 各组内变量之间的尺度不太相同,例如身高的尺 度跟脚掌长度的尺度就不相同,显然前者的变异 数会大于后者,这种情况是不合理的。 p11211 , q bbb 11211 , SAS软件应用之典型相关 分析 典型相关 针对第一个问题,“在所有的组合中,寻 找一个组合使得简单相关系数为最大”, 可能是个好想法;另外,寻找一个组合使 得简单相关系数为最小,此简单相关系数

6、就是典型相关系数,而典型相关系数的平 方称为典型根。 SAS软件应用之典型相关 分析 典型相关 对于第二个问题,解决的方法就是对资料 进行标准化。 典型相关分析的第一步是估计组合系数, 使得对应的典型变量和的相关系数达到最 大。这个最大的相关系数是第一典型相关 系数,且称具有最大相关系数的这对典型 变量为第一典型变量。 SAS软件应用之典型相关 分析 典型相关 典型相关分析的第二步是再次估计组合系数,使 得对应的典型变量相关系数达到第二大,且第二 对典型变量中的第一次变量与第一对典型变量中 的每一个变量不相关。这个最二大的相关系数是 第二典型相关系数,且称具有最二大相关系数的 这对典型变量和为

7、第二典型变量。 如果两个组中变量的个数为p,q,pq,那么寻 求典型变量的过程可以一直连续进行下去,直到 得到p对典型变量为止。 SAS软件应用之典型相关 分析 典型相关 从上述分析的过程可以看出,第一对典型 变量的第一典型相关系数描述了两个组中 变量之间的相关程度,且它提取的有关这 两组变量相关性的信息量最多。第二对典 型变量的第二典型相关系数也描述了两个 组中变量之间的相关程度,但它提取的有 关这两组变量相关性的信息量次多。以此 类推, SAS软件应用之典型相关 分析 典型相关 可以得知,由上述方法得到的一系列典型 变量的典型相关系数所包含的有关原变量 组之间相关程度的信息一个比一个少。如

8、 果少数几对典型变量就能够解释原数据的 主要信息,特别是如果一对典型变量就能 够反映出原数据的主要信息,那么,对两 个变量组之间相关程度的分析就可以转化 为对少数几对或者是一对典型变量的简单 相关分析。这就是典型相关分析的主要目 的。 SAS软件应用之典型相关 分析 典型相关分析的理论架构 设两组变量分别为x组有p个变量 , 而y组有q个变量 ,典型相关分析是 找x组的线性组合 与y组 的线性组合 ,使得简单 相关系数为最大,其中 T p xxx),( 21 T q yyy),( 21 ppx xxx 1212111 * 1 qqy bybyby 1212111 * 1 p1 12 11 1

9、q b b b b 1 12 11 1 SAS软件应用之典型相关 分析 典型相关分析的理论架构 设x组的共变异数矩阵为 , y组的共变异 数矩阵为 ,x与y的共变异数矩阵为 , 则 的变异数为 的变异数为 共变异数为 xx yy xy * 1 x 111 * 1 )()( xx xVarxVar * 1 y 111 * 1 )()(bbybVaryVar yy 1111 * 1 * 1 ),(),(bybxCovyxCov xy SAS软件应用之典型相关 分析 典型相关分析的理论架构 典型变量的系数称为典型权重,权重愈大 表示此变量对此典型变量的贡献愈大。在 以上的计算中,此权重为标准化后的资

10、料 所得的,故k个资料的第i 典型变量得点为 j jjk ij s xx a )( SAS软件应用之典型相关 分析 冗余分析 冗余分析是通过原始变量与典型变量间的相关性, 分析引起原始变量变异的原因。以原始变量为因 变量,以典型变量为自变量,建立线性回归模型, 则相应的确定系数等于因变量与典型变量间的相 关系数的平方,它描述了由于因变量与典型变量 的线性关系引起的因变量变异在因变量的总变异 中的比例。 典型负荷为变量与典型变量的相关系数,可由相 关系数的平方了解此典型变量解释了此变量多少 比例的变异数。 SAS软件应用之典型相关 分析 CANCORR过程 SAS系统中利用CANCORR过程步进

11、行典型相关 分析。 CANCORR过程的语法格式如下: PROC CANCORR DATA= OUTSTAT= OUT= ALL ; VAR 一组变量; WITH 另一组变量; PARTIAL 变量; RUN; SAS软件应用之典型相关 分析 CANCORR过程 DATA语句指定要分析的数据集名及一些选 项,它可以是原SAS数据集,也可以是corr、 cov、ucorr、ucov等矩阵。 ALL选择项指令输出所有结果。 CORR选择项指令输出原始变量间的相关系 数矩阵。 VP选择项用来为VAR语句中变量的典型变 量命名前缀,名字不超过40个字符串长。 SAS软件应用之典型相关 分析 CANCO

12、RR过程 WP选择项用来为WITH语句中变量的典型变量命 名前缀,名字不超过40个字符串长。 EDF选择项用来指定该回归分析的残差自由度。 VAR语句列出两组变量中的第一组变量。若缺省, 则所有不出现在其它语句中的数值变量均将列在 第一组内。 WITH语句列出两组变量中的第二组变量。该语句 不能省略。 PARTIAL语句用来指定协变量。系统以此协变量 来计算偏相关系数矩阵,然后进行典型相关分析。 另外,freq语句、weight语句、by语句等也实用。 SAS软件应用之典型相关 分析 本章小节 典型相关分析的基本思想和主成分分析的基本思 想相似,它将一组变量与另一组变量之间单变量 的多重线性相

13、关性研究转化为对少数几对综合变 量之间的简单线性相关性的研究,并且这少数几 对变量所包含的线性相关性的信息几乎覆盖了原 变量组所包含的全部相应信息。典型相关分析方 法的基本原理是:所有研究的两组变量为x组和y 组,x 组有p个变量 , y 组有q个变 量 ,则分别对这两组变量各做线性 组合后,再计算此两加权和的简单相关系数,然 后以这个简单相关系数当做这两组变数之间相关 性的衡量指标。 ),( 21p xxx ),( 21q yyy SAS软件应用之典型相关 分析 本章小节 有典型相关分析得到的一系列典型变量的 典型相关系数所包含的有关原变量组之间 相关程度的信息一个比一个少。如果少数 几对典

14、型变量就能够解释原数据的主要信 息,特别是如果一对典型变量就能够反映 出原数据的主要信息,那么,对两个变量 组之间相关程度的分析就可以转化为对少 数几对或者是一对典型变量的简单相关分 析。这就是典型相关分析的主要目的。 SAS软件应用之典型相关 分析 本章小节 冗余分析是通过原始变量与典型变量间的相关性, 分析引起原始变量变异的原因。以原始变量为因 变量,以典型变量为自变量,建立线性回归模型, 则相应的确定系数等于因变量与典型变量间的相 关系数的平方,它描述了由于因变量与典型变量 的线性关系引起的因变量变异在因变量的总变异 中的比例。 通过实例详细介绍了CANCORR过程步的语法及 基本格式,

15、并阐述了如何利用此SAS过程步进行 典型相关分析以及进行结果解释。 SAS软件应用之典型相关 分析 SAS软件应用之典型相关 分析 第第21章章 诊断试验的诊断试验的ROC分析分析 SAS软件应用之典型相关 分析 学习目标 熟悉诊断试验的常用评价指标; 熟悉ROC曲线的含义以及构建; 通过SAS实例掌握进行ROC分析的SAS程 序; SAS软件应用之典型相关 分析 概述 诊断性试验是对疾病进行诊断的试验方法,它不 仅包括实验室检查,还包括各种影像诊断,如X- 诊断、CT、核磁共振(MRI) 、超声波诊断以及同 位素检查、纤维内诊镜、电镜等诊断方法。诊断 性试验(diagnostic test)

16、 的质量通常用敏感度和特 异度来衡量。在同一试验中,如果取不同的临界 值,则可得到不同的敏感度和特异度,将这些点 在以敏感度为Y轴,以(1-特异度) 为X轴的坐标上 标出并连成线,就可得到一条ROC曲线。 SAS软件应用之典型相关 分析 概述 曲线上最接近左上角的一点的坐标就表示这一试 验的敏感度和特异度。对同一检测指标的多个不 同试验进行Meta 分析,可根据它们的比值比的权 重,用一条ROC曲线表示出来,这条曲线称为 SROC 曲线,从这条SROC 曲线得到该组研究的 敏感度和特异度,这样的方法称SROC法或集成 ROC法。自从八十年代起该方法广泛用于医学诊 断性能的评价,如用于诊断放射学

17、实验室医学癌 症的筛选和精神病的诊断尤其是医学影像诊断准 确性的评价。 SAS软件应用之典型相关 分析 诊断试验 对于诊断试验的评价,首先应知道受试者 (人、动物或影像等)的真实类别,即哪 些属于对照组(或无病组,正常组,噪声组 等),哪些属于病例组(或有病组,异常组, 信号组等)。划分病例与对照这两个组的标 准就是金标准。医学研究中常见的金标准 有:活组织检查、尸体解剖、手术探查和 跟踪随访结果等。尽管金标准不需要十全 十美,但是它们应比评价的诊断试验更加 可靠,且与评价的诊断试验无关。 SAS软件应用之典型相关 分析 诊断试验 对于按金标准确定的二项分类总体,如病 例与对照(分别记为D+与

18、D-),采用诊断试 验检测的结果可分别写成阳性与阴性(记 为T+与T-),资料可列成表21-1的四格表 形式。表中有四个可能结果,其中两个是 正确的,即病例被诊断为阳性(真阳性, TP)和对照被诊断为阴性(真阴性,TN); 两个是错误的,即病例被诊断为阴性(假 阴性,FN)和对照被诊断为阳性(假阳性, FP)。 SAS软件应用之典型相关 分析 诊断试验 诊 断 结 果(T) 金标准(D) 合计 病例(D+)对照(D-) 阳 性(T+)TP(真阳性)FP(假阳性)TP+FP 阴 性(T-) FN(假阴性)TN(真阴性) FN+TN 合计 TP+FNFP+TNN SAS软件应用之典型相关 分析 诊

19、断试验评价指标 评价诊断试验的常用指标有一致百分率、 灵敏度、特异度、Youden指数、阳性似然 比、阴性似然比、阳性预报值和阴性预报 值。 SAS软件应用之典型相关 分析 一致百分率 一致百分率是病例正确诊断为阳性与对照 正确诊断为阴性的例数之和占总例数的百 分率。计算公式为: 其标准误为 一致百分率100 N TNTP 3 / )(NFNFPTNTPSE)( 一致百分率 SAS软件应用之典型相关 分析 一致百分率 一致百分率很大程度上依赖于患病率,如 某病的患病率为5%,即使不采用诊断试验, 且将所有研究个体划归为阴性,也可得到 一致百分率为95%;其次,它没有利用假 阴性和假阳性的信息,

20、相同的一致百分率 可能有十分不同的假阴性和假阳性;第三, 它还受诊断界点的限制。因此,诊断试验 评价只用该指标粗略地表达诊断试验的一 致性,更常用的诊断试验评价指标是灵敏 度、特异度等。 SAS软件应用之典型相关 分析 灵敏度 实际患病且被诊断为阳性的概率就是灵敏 度,也称为真阳性率,即: 其标准误为: 该指标只与病例组有关,反映了诊断试验 检出病例的能力。 TPR FNTP TP sen )/()1 ()/( 3 FNTPSenSenFNTPFNTPSE sen SAS软件应用之典型相关 分析 特异度 实际未患病且被诊断为阴性的概率就是特 异度,即: 其标准误为: 该指标只与对照组有关,反映

21、了诊断试验 排除非病例的能力。 )/(FPTNTNSpe )/()1 ()/( 3 TNFPspespeTNFPTNFPSEspe SAS软件应用之典型相关 分析 灵敏度与特异度 灵敏度与特异度具有不受患病率影响的优点,其 取值范围均在(0,1)之间,其值越接近于1,说明 其诊断试验的价值越好。 当比较两个诊断试验时,单独使用灵敏度或特异 度,可能出现一个诊断试验的灵敏度高、特异度 低,而另一个诊断试验的灵敏度低、特异度高, 无法判断哪一个诊断试验更好。由此,有人提出 了将灵敏度和特异度结合的诊断试验评价指标, 如Youden指数、阳性似然比、阴性似然比等。 SAS软件应用之典型相关 分析 Y

22、ouden指数 真阳性率与假阳性率之差就是Youden指数, 即: 其标准误为 Youden指数的取值范围在(-1, +1)之间,其 值越接近于+1,诊断准确性越好。 FPRTPRSpeSenJ1 )/()1 ()/()1 ( )/()/( 33 TNFPSpeSpeFNTPSenSen TNFPTNFPFNTPFNTPSE J SAS软件应用之典型相关 分析 阳性似然比 真阳性率与假阳性率之比,即灵敏度与误 诊率之比就是阳性似然比 (LR+), 的取值范围为(0, ),其值越大,检测 方法证实疾病的能力越强。 的标准误涉及到对数变换,这里不予给 出;以下几个指标的标准误计算也较复杂, 也不予

23、给出。 )1/(/SpeSenFPRTPRLR LR LR SAS软件应用之典型相关 分析 阴性似然比 假阴性率与真阴性率之比,即漏诊率与特 异度之比为阴性似然比 的取值范围为(0, ),其值越小,检测 方法排除疾病的能力越好。 SpeSenFPRTPRLR/ )1 ()1/()1 ( LR SAS软件应用之典型相关 分析 阳性预报值 在通常的情况下,当要对某疾病作出诊断 时,并不知道金标准的结果,只知道诊断 试验是阳性或阴性。而临床医生更想知道 的是:当诊断试验阳性时,受试者真正有 病的概率有多大;阴性时又有多大把握排 除此病。这就需要引入阳性预报值(PV+) 与阴性预报值(PV_)的概念。

24、 SAS软件应用之典型相关 分析 阳性预报值 试验结果阳性时,受试者实际为病例的概 率就是阳性预报值,即 由上式可以看出,当灵敏度与特异度为常 数时,增加患病率,将降低 , 增加 的值,从而整个分母的值减少,阳 性预报值增加。 )1)(1 ( )/( 00 0 PSpeSenP SenP FPTPTPPV )1)(1 ( 0 PSpe 0 SenP SAS软件应用之典型相关 分析 阴性预报值 诊断试验结果阴性时,受试者实际为非病 例的概率就是阴性预报值(PV_),即 上式中符号的意义与前面相同。当灵敏度 与特异度为常数时,增加患病率将降低阴 性预报值。PV+和PV_的取值范围在(0,1) 之间

25、;对于相同的患病率,其值越接近1, 检测方法的诊断价值越高。 )1)(1 ( )/( 00 0 PSenSpeP SpeP FNTNTNPV SAS软件应用之典型相关 分析 正确百分率 是病例正确诊断为阳性与对照正确诊断为阴性的 例数和占总例数的百分比,它很大程度上依赖患 病率,如患病率为5%,完全无价值地诊断所有样 本为阴性也可有95%的正确百分率;其次,它没 有揭示假阴性和假阳性错误诊断的频率,相同的 正确百分率可能有完全不同的假阴性和假阳性。 第三 它也受诊断阈值的限制,更好的方法是计算 灵敏度和特异度,它们的值越高诊断性能越好。 灵敏度和特异度等指标均可不同程度反映了诊断 的准确性和特

26、异性。 SAS软件应用之典型相关 分析 ROC曲线 应用这对指标最明显的问题是比较两个诊 断系统时可能出现一个诊断系统的灵敏度 高而另一个特异度高,无法判断哪一个诊 断系统更好,此时可将灵敏度和特异度结 合改变诊断阈值获得多对灵敏度和(1-特异 度)即TPR和FPR值,绘制ROC曲线,作 ROC分析来解决这一问题。 SAS软件应用之典型相关 分析 ROC曲线 以假阳性率FPR为横轴,真阳性率TPR为纵轴, 横轴与纵轴长度相等形成正方形。在图中将ROC 工作点标出用直线连接各相邻两点构建非光滑 ROC 曲线。构建光滑曲线需要假设对照组和病例 组服从某种分布,用一曲线拟合技术估计参数, 直接用参数

27、产生。也可采用肉眼目测构建光滑曲 线。注意无论资料类型如何曲线一定通过(0,0) 和(1,1)这两点,这两点分别相当于灵敏度为0而 特异度为1和灵敏度为1而特异度为0。 SAS软件应用之典型相关 分析 ROC曲线 理论上,完善的诊断有TPF=1,FPF=0, 图中表现为ROC曲线从原点垂直上升到图 的左上角,然后水平到达右上角;完全无 价值的诊断有TPF=FPF,是一条从原点到 右上角的对角线;一般ROC曲线位于正方 形的上三角。图20-1就是ROC曲线的一个 示例。 SAS软件应用之典型相关 分析 ROC曲线 SAS软件应用之典型相关 分析 ROC曲线 ROC曲线对诊断的准确性提供了直观的视觉印象, 描述了相反两种状态间诊断系统的判别能力。曲 线上的每一点代表了随着病例诊断阈值或置信阈 变化的灵敏度与特异度的折衷。严格的标准产生 较低的灵敏度和较高的特异度,ROC点位于曲线 的左下方;宽松的标准产生较高的灵敏度和较低 的特异度,ROC点位于曲线的右上方。如果比较 的诊断系统曲线不交叉,则较高的ROC曲线具有 较好的诊断性能。如果曲线交叉可在考虑费用与 效益的前提下结合统计学检验判断其诊断性能。 SAS软件应用之典型相关 分析 ROC曲线 一般用ROC曲线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论