直线相关与回归.doc_第1页
直线相关与回归.doc_第2页
直线相关与回归.doc_第3页
直线相关与回归.doc_第4页
直线相关与回归.doc_第5页
免费预览已结束,剩余10页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

直线相关与回归前面几章已经介绍了定量变量的常见分布、统计描述和相应的统计检验方法。所涉及的数据除分组标志外,仅涉及到单个变量。在医学研究中,为了认识医学现象的本质要从不同的侧面进行观测,获得多个变量的观测结果,这些变量之间相互联系。本章介绍用于研究两个定量变量间线性关联程度和线性数值关联关系的直线相关分析和直线回归分析方法。第一节 直线相关直线相关(linear correlation)又称简单相关(simple correlation)用于描述两个变量之间线性关联程度。如生长发育研究中身高与体重的关系,糖尿病研究中的胰岛素水平与血糖的关系等。一、直线相关的意义为了使读者能较好地了解直线相关在实际应用中的意义和相关概念,我们将借用身高X与体重Y之间线性相关的一个实例资料(见例9.1)引入有关直线相关的一些概念。为了考察身高X和体重Y之间的直线相关情况,我们把例9.1中的15例样本观测值(X,Y)描点到平面直角坐标系上,形成15点(图9.1),这种图形称为散点图(scatter plot)。身高体重图9.1显示,虽然不是每个身材较高的对象必有较重的体重,但大多数对象的体重Y与其身高X的变化呈一种伴随增大或减小的直线变化趋势。即大多数X与Y同时增大或同时减小,并且X和Y呈直线变化趋势。我们把这种伴随同时增大或同时减小的直线变化趋势称为线性正相关(linear positive correlation),简称正相关。当然有些研究指标之间的变化关系是相反的,如对50岁至70岁的成人进行记忆力测试,大多数的观察对象随着年龄X增大而记忆力Y下降并且呈直线变化趋势,这种X与Y的反方向伴随直线变化趋势称为线性负相关(linear negative correlation),简称负相关。我们把线性正相关和线性负相关总称为线性相关(linear correlation)。如果X和Y无任何直线伴随变化趋势,则称为零相关(零线性相关)。二、直线相关系数的意义和计算直线相关系数(linear correlation coeffiecient)又称积差相关系数(coefficient of product moment correlation),简称相关系数(correlation coeffiecient),是描述两个变量之间线性相关的程度和相关方向的统计指标。描述全体研究对象的两个变量之间线性相关性(即相关程度和相关方向)的相关系数称为总体相关系数,用符号r(读作ru)表示;描述样本资料的两个变量之间的线性相关性的相关系数为样本相关系数,用符号r表示。在实际研究中,总体相关系数r是未知的,通常用样本相关系数r进行估计。相关系数r按下式计算: (9.1)上式称为Pearson相关系数,其中 (9.2)是离均差积和,简称离差积和。分别是变量X、Y的离均差平方和。r的符号由确定,相关系数r是一个没有单位的统计指标,其取值范围为1 r 1,同样,总体相关系数r也是没有单位的,并且取值范围也为1 r 1。相关系数大于0表示正相关;小于0表示负相关;等于0表示零相关。相关系数的绝对值越接近1,两个变量的线性相关程度越密切;相关系数越接近0,两个变量的线性相关越不密切。如图9.2中,图a和图e中的X和Y同时增大或同时减小,变化方向相同,并呈线性变化趋势故为正相关,相应的相关系数r0;反之,在图b和图f中的X与Y之间呈反方向伴随线性变化趋势,故为负相关,相应的相关系数r0。在图c、图g和图h中,X和Y没有任何伴随变化趋势,故为零相关或不相关,相应的相关系数r0;图d的散点呈函数曲线状的伴随变化,但不是呈直线伴随变化,故也为零相关(即零线性相关),相应的相关系数r0。比较图a,图b,图c和图d,我们可以发现图e和图f中的X与Y线性相关密切程度远高于图a和图b,故图e和图f的相关系数分别接近1和-1。图9.2 相关系数示意图a: 0r1b: -1r0c: r0d: r0h: r0g: r0f: r -1e: r 1零相关正相关负相关例9.1测得某地15名正常成年男子的身高X(cm)、体重Y(kg)如表9.1,试计算X和Y之间的直线相关系数。先将数据绘制成散点图(见图9.1),再计算、和,附于表9.1下端。代入公式(9.1)计算得表9.1 某地正常成年男子的身高X(cm)、体重Y(kg)编号XYXY1171.058.0 9918.02176.069.012144.03175.074.012950.04172.068.011696.05170.064.010880.06173.068.511850.57168.056.09408.08172.054.09288.09170.062.010540.010172.063.010836.011173.067.011591.012168.060.010080.013171.068.011628.014172.076.013072.015173.065.011245.0合计 2576.0 972.5=167126.5 =171.7333 =64.8333442454.063592.2568.9333 541.8333115.8333三、直线相关系数假设检验由样本计算出的相关系数r是总体相关系数的估计。由于存在抽样误差,即使=0,r一般也不等于0。因此有必要根据r检验总体相关系数是否等于0,从而推断两变量间是否存在相关关系。检验方法如下:检验假设 H0:总体相关系数=0; H1:总体相关系数;检验统计量 (9.3)服从自由度为n-2的t分布。如果在水平上拒绝H0(接受H1)则认为两变量间有线性相关关系存在,否则不能认为两变量间存在线性相关关系。将例9.1数据代入公式(9.3)得tr=2.70,自由度,查双测t检验界值表(附表2)得t0.05/2,13=2.16,P0.05。因此在的水平上认为某地正常成年男子身高和体重之间存在线性相关关系。四、总体相关系数的可信区间如果经检验认为两变量间存在相关关系,即,可用r估计之。通常还需要构造的可信区间,由于r0的样本相关系数r呈偏态分布,故需作z变换,计算过程如下。1 对r做z变换: (9.4)z近似服从,其中。根据正态分布原理,mzr的1-可信区间为(,);2 对mzr的1-可信区间的两端点zL、zU做如下变换(逆z变换), (9.5)得到的1-可信区间(,)。例9.1中的95%可信区间为(0.1257,0.8505)。五、用Stata软件计算相关系数(以例9.1为例,数据文件为ex9-1.dta)graph x y 绘散点图计算Pearson相关系数,假设检验P值,并用*表示P0时,大多数的Y随着X增大而增大;b0时,大多数的Y随着X增大而减小;对于Y是随机变量,其均数mY|X满足公式(9.6)的回归方程并且b0,则称Y与X有直线回归关系。若b0,则称X与Y没有直线回归关系。由于在大多数情况下,a和b是未知的,所以需要用样本进行估计的,用样本估计的回归方程记为 (9.7)二、直线回归方程的建立实际应用中要根据样本数据建立直线回归方程,即给出a、b的估计。常用的估计方法是最小二乘法,其基本原理是:对于任一X,根据直线回归方程得到相应的估计值(预测值)记为,使得与观测值Y差值的平方和 (9.8)达到最小的a、b称为a、b的最小二乘估计(least square estimate)。运用导数法对公式(9.8)求极值,不难解得: (9.9)由公式(9.9)确定的直线回归方程有两个特点:1 回归方程通过点();2 平方和达到最小。例9.2 为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,8岁,每个层抽3名男孩,共抽18名男孩。资料列于表9.2。表9.2 某地男童身高与年龄的观测结果年龄X身高YXYX2预测值残差392.5277.59.094.1349-1.63493397.0291.09.094.13492.86507396.0288.09.094.13491.865074100.0400.016.0100.3920-0.39207496.5386.016.0100.3920-3.892074101.0404.016.0100.39200.607935106.0530.025.0106.6490-0.649225104.0520.025.0106.6490-2.649225107.0535.025.0106.64900.350786115.5693.036.0112.90602.593646115.5693.036.0112.90602.593646110.0660.036.0112.9060-2.906367125.5878.549.0119.16406.336507117.5822.549.0119.1640-1.663507118.0826.049.0119.1640-1.163508121.5972.064.0125.4210-3.920648128.51028.064.0125.42103.079368124.0992.064.0125.4210-1.42064991976.0=11196.5597.0328.552.5将数据绘制成散点图(见图9.3),根据散点图和前面所述,可以假定儿童身高的总体均数与年龄呈直线关系。根据表9.2下端给出的中间计算结果,代入公式(9.9)得:, 。直线回归方程为:。并计算各例的及列于表9.2。根据回归方程绘制直线得到图9.5,图形显示回归方程基本上反应了身高随体重的变化规律。图9.5 某地男童身高与年龄的直线回归三、直线回归方程的假设检验获得了直线回归方程系数的最小二乘估计后,回归方程是否有意义呢?也就是说X对Y有无解释作用?如果公式(9.6)中总体回归系数 b=0,X的任何变化都不会对Y产生影响,也就失去建立回归方程的意义了。由于b的最小二乘估计b是用随机抽样样本进行估计的,(即b是一个样本统计量)。既使总体回归系数b=0,由于抽样误差的原因也可能使样本回归系数b0。如果b接近于0但不等于0,就应考虑可能是b0而由于抽样误差引起b0,也可能b确实不为0的问题?这个问题可以从两个方面回答。1 回归系数b的t检验。如果b0,那么Y扣除X影响后就是记做并称为残差(residual,又称为误差,error),不难验证:,即:残差的均数,因此残差的方差为其中v是自由度。由于计算要用到和,故v=n2,所以有 (9.10)我们称为Y的样本残差方差,也可以记为。可以证明b的标准误为 (9.11)据此,构造检验统计量tb检验: H0:回归系数b=0;H1:回归系数b0。 (9.12)若H0为真,则tb服从自由度的t分布。对例9.2中的回归系数检验如下:表9.2 下端列出了和LXX的计算结果,于是=8.1650,=0.3944,。自由度,查双测t检验界值表(附表2)得t0.05/2,16=2.12,P0.05。因此在的水平上认为b0,说明男童的平均身高与年龄之间有直线回归关系。可以证明相关系数的检验统计量tr与回归系数的检验统计量tb完全等价(留做习题),道理也很简单,X、Y间存在线性相关等价于X与Y之间有直线回归关系。相关系数的检验统计量的计算相对而言简单一些,实际应用中常用tr检验结果推得回归系数b是否为0。2 方差分析法。我们也可以从变异分解的角度,用方差分析的方法对回归系数进行检验。建立回归方程后,就得到Y的预测值和残差(error,又称为剩余差,residual),Y的离差平方和LYY被分解成两个部分: (9.13)第一部分称为回归平方和记为SSR,自由度为1;第二部分前面已出现过,称为残差平方和记为SSE,自由度为n-2。SSR描述了由X的变化所引起的Y变异部分,而SSE描述了扣除了X对Y变异作用后的Y自身变异部分。除以各自的自由度,得到相应的回归均方MSR和残差均方MSE(即),F统计量的计算公式为。 (9.14)显然X对Y的作用越大,MSR就越大并且MSE就越小,对应的F就越大,反之F就越小。可以证明:当H0:回归系数b=0成立时,F服从自由度为,的F分布。因此可用F作为检验统计量来检验H0。为方便计算,将代入SSR得: (9.15)根据例9.2的数据计算得SSR=(6.2571)252.5=2055.44 SSE=。列方差分析表,如表9.3。 表9.3 方差分析表变异来源SSvMSF回归2055.4712055.47251.74残差130.64168.165总变异2186.1117 查F值表(附表4)得F0.05,1,13=4.67,P F = 0.0000 Residual | 130.639683 16 8.16498016 R-squared = 0.9402-+- Adj R-squared = 0.9365 Total | 2186.11111 17 128.594771 Root MSE = 2.8574- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- x | 6.257143 .3943646 15.87 0.000 5.421127 7.093158 _cons | 75.36349 2.271166 33.18 0.000 70.54884 80.17815-第三节 Spearman秩相关第一节中介绍了直线相关系数r,当X、Y服从双变量正态分布(见本章第五节)的时候,r可以较好地估计和检验总体相关系数。但实际应用中有些情况下X、Y并不服从双变量正态分布,这个时候r就不能正确地反应X、Y间的相关性了。为此Spearman提出对数据做秩变换后再计算直线相关系数,为了有别于r,用rS记之。rS可间接反应X、Y间的相关性而且不依赖于X、Y的分布。rS称为Spearman秩相关系数。所谓秩变换是指将变量值按大小关系排列后的顺序编号,某一变量值对应的编号称为其秩次或秩(rank)。如果有几个变量值相等,取其对应的秩次的平均为其最终秩次,这种现象称为同秩(ties)。假定一个有n例的样本,将观察值X、Y分别作秩变换后用V、W表示,根据公式(9.1)有 (9.20),如果n个X值互不相等(不同秩),n个Y值也互不相等,可以证明公式(9.20)可简化为公式(9.21) (9.21)其中d为各对X和Y的秩次的差V-W。因此公式(9.21)是公式(9.20)的特例。如果X或Y的变量值存在同秩,公式(9.21)是公式(9.20)的近似,需要做校正。校正公式比较复杂,相比较而言,直接用公式(9.20)计算要简单一些。计算出后,需检验总体相关系数是否为零。对于n50,检验总体相关系数是否为零可以查附表15(rs界值表);对于n50时(附表15查不到),用第一节的公式(9.3)进行双侧t检验。例9.3 调查了某地区10个乡的钉螺密度与血吸虫感染率(%)数据如表9.4。试分析该地区钉螺密度与感染率之间有无相关关系?表9.4 10个乡的钉螺密度与血吸虫感染率乡编号螺密度X感染率YX的秩VY的秩Wd133173.021.02522410.08.51.5322131.010.0442276.010-4.0535194.05-1.0649239.072.0731182.03.5-1.5839185.03.51.5945248.08.5-.51043207.061.0=82.5=81.5=30.0=67.0由于本例数据涉及感染率,而率一般不服从正态分布,故计算Spearman秩相关。将表9.3中数据代入公式(9.20)得。代入公式(9.21)得。由于数据存在同秩,采用公式(9.20)得计算结果。公式(9.21)的计算结果稍大,在此仅做演示。检验假设 H0:总体相关系数=0; H1:总体相关系数;将代入公式(9.3)得 查双测t检验界值表(附表2)得t0.01,8=3.355,P |t| = 0.0039输出结果与笔算相同,结果解释同上。第四节 曲线回归简介第二节我们介绍了直线回归,但医学科研中X、Y简除直线关系外更多的是曲线关系。曲线方程的形式不胜枚举,常用的有20多种。具体到各个科研领域又有许多特殊的曲线,如酶动力学研究、药动、药代研究中的一些著名曲线。下面具体列出4种曲线的函数形式:a1a2b1b2c1c2d1d2d4d3a1、a2 logistic曲线b1、b2 指数曲线c1、c2 抛物线d1、d2、d3、d4 幂曲线图9.7 常用的几种曲线形式1Logistic曲线 ;2指数曲线 ;3抛物线 ;4幂曲线 。图9.7中绘制了以上4种常见的曲线的图像。根据获得的数据建立相应曲线关系的过程称为曲线回归(non-linear regression)或曲线拟合(curve fitting)。曲线回归的步骤大体为:1 绘制X、Y的散点图;2 根据散点图上显示的X、Y间的关系,选择曲线形式,或根据实际工作经验确定曲线形式,如根据背景知识导出的方程等。3 用最小二乘法估计曲线的参数,即使达到最小。与直线回归不同的是,直线回归能直接按公式(9.9)解出a、b,而曲线回归只能用迭代算法给出曲线参数的数值解。随着计算技术发展,寻求这种数值解是比较简单的了。许多统计软件如SAS、SPSS、STATA、NoSA都能做到。4 回归结果的评价。(1)回归结果优劣的有效的评价方法是图示法。将拟合的曲线重叠绘制到散点图上,目测曲线是否充分反映散点的走势。绘制残差图观察散点是否仍然存在明显趋势。(2)拟合优度(goodness of fitting)评价。拟合优度一般从两个方面评价:(a)相关指数和确定系数。相关指数即Y和的简单相关系数记为。相关指数越接近1拟合效果越好。由于曲线拟合的数据较少,一般要求相关指数达0.9以上。(b)确定系数,同样越接近1拟合效果越好。第五节 相关和回归应用注意事项相关和回归是最常用的统计方法,但也存在误用的情况。现列出以下几点,应用时须加以关注。1 相关或回归有意义并不表示X、Y间存在因果关系,因果关系应从机理上验证,而不能仅凭统计分析。2 线性相关分析一般要求X、Y服从二元正态分布(binormal distribution),又称为双变量正态分布。双变量正态分布共有5个参数,分别是两个变量各自的均数、标准差和相关系数r,用一个正态分布曲面描述双变量正态分布。曲面越高的地方,(X,Y)出现的概率就越大,即样本点出现越多的地方。图9.8显示=0,r0.6,r0.8和r-0.8的4种双变量正态分布图形并对应其样本散点图。读者可以发现样本散点图的变化趋势与双变量正态分布的曲面特征是一致的。图9.8双变量正态分布及其样本散点图3 如果X、Y不能满足双变量正态分布,最好计算Spearman秩相关。4 利用资料拟合直线回归方程后,若对回归系数进行检验,则要求残差服从正态分布。5 回归分析的资料分为两种类型:型回归资料X、Y皆为随机变量取值,如例9.1中的身高和体重;型回归资料Y为随机变量取值,X为非随机变量取值。如在某种溶液设定浓度(X)下测其光密度值(Y),此时X是事先确定的,是非随机的。型回归资料既可建立由X预测Y的回归方程,又可以建立由Y预测X的方程,视具体需要而定。此时两个方程不是反函数关系,绘制图像可见是两条直线方向一致,在交叉。型回归资料只能建立由X预测Y的回归方程,应用中若要(往往如此)由Y预测X,直接利用反函数预测即可。6 用回归方程做预测时,不能过分外延。理由是过分外延,(1)使得预测值的稳定性降低;(2)有可能X、Y的关系已发生本质变化,不是业已建立的关系。7 绘制散点图和残差图是相关与回归正确应用的保证,不能仅做计算。散点图还可以用来衡量是否需要做合理的分组与并组。如建立体重关于身高的直线方程要不要考虑性别。有时还可以排除分析结果的谬误,如分组后回归无意义而并组后回归有意义,或者反之,都必须引起注意。8 所建立的回归方程是否有意义,仅凭借假设检验的结论或R2的大小还不能充分说明问题。残差的大小直接反应回归方程的优劣,经常采用图示的方法,以做纵轴,为横轴作图来考察残差的变化,如果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论