




已阅读5页,还剩96页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章 回归和相关,直线相关分析 一元线性回归分析,学习目的和要求,掌握线性相关系数的计算和相关显著性检验方法、一元回归方程的求法及显著性检验方法; 熟悉相关分析与回归分析的基本思想和基本概念; 了解一元拟线性回归方程的计算方法等。,在医药科学研究中,常要分析变量间的关系,如年龄与 血压、维生素片的含水量与贮存期、吸烟与肺癌、药物 剂量与动物死亡率、环境介质中污染物浓度与污染源的 距离等,回归与相关(regression and correlation)就是研究 这种关系的统计方法。,1两变量之间的关系: 函数关系确定性关系:因果关系,为一对一的关系。 eg: 、 。 相关关系非确定性关系:包括因果关系和伴随关系, 为一对多的关系, 。 eg: 年龄与血压的关系。,2线性回归与相关是研究两个变量间呈直线关系的最简单、最基本的分析方法。 回归分析:定量研究一个变量依赖另一个变量的关系。 子高 父高 相关分析:定性研究两个变量互相依赖的关系。 身高 体重,第一节 直线相关分析,1、散点图(scatter diagram/scatter chart):以直角坐标系中各 点的密集程度和趋势来表示两现象间的相关关系。 适用于连续性双变量资料。 相关分析的第一步工作:根据点的散布情况,推测两种事 物或现象有无相关 。 制图要求:一般横轴代表自变量或可进行精确测量、严格控制的变量,纵轴则代表与自变量有依存关系的因变量(图9.1)。,一、散 点 图,图9.1 某地区饮水氟含量与氟骨症患病率散点图,2、散点图可直观地说明、分析两变量的相关关系(定性描述)(图9.2)。,(a)0r 1 (b)-1r 0 (c)r =1 (d)r =-1,图9.2 散点与相关系数示意图,(e)r =0 (f)r =0 (g)r =0 (h)r =0,图a 正线性相关或正相关:散点呈椭圆形分布,两变量X、 Y 变化趋势是同向的 (0r1);图b 负线性相关或负相关:X、Y 呈反向变化 (-1r0);图c 完全正相关:散点在一条直线上、且X、Y 是同向变 化的 (perfect positive correlation, r=1);图d 完全负相关:X、Y 呈反向变化 (perfect negative correlation, r=-1);e-h图 零相关:两变量间毫无联系或可能存在一定程度的 曲线联系而没有直线相关关系 (zero correlation, r=0)。,: 正相关或负相关并不一定表示一个变量的改变一定是另一个变量变化的原因,有可能同受第三个因素的影响,即伴随关系。,(一)相关关系(1inear correlation):即直线相关1定义:又称简单相关(simple correlation),如果两个随机变 量中,一个变量X 由小到大变化时,另一个变量Y 也相应 地由小到大(或由大到小)地变化;并且两变量的散点图呈直 线趋势,则称这两个变量存在直线相关关系(correlation)。,二、相关关系与样本相关系数,2分析内容:描述两变量间是否有直线关系以及直线关系的方 向和密切程度,两变量间的直线相关关系用相关系数描述 (定量描述) 。3适用条件:用于双变量正态分布(bivariate normal distribution) 资料,一般说来,两个变量都是随机变动的,不分主次,处 于同等地位。,(二)相关系数的意义及计算1.相关系数(correlation coefficient):积差相关系数(coefficient of product-moment correlation),是反映有直线关系的两变量 间,相关关系密切程度和相关方向的统计指标。用r 表示样本 相关系数, 表示总体相关系数。 其中, 是随机变量X、Y 的协方差。,2 .总体相关系数:是参数,取值-11 ,没有单位。0 1正相关,表示两变量呈同向变化;-10 负相关,表示两变量呈反向变化;0 零相关,表示两变量无直线相关关系,但并一定表示两变量是相互独立的;|1 完全相关(函数关系),表示两变量呈同向或反向变化且点子分布在一条直线上。 完全相关属相关分析中的特例,医药学研究中影响因素众多,个体变异不可避免,很少呈现完全相关。,3、样本相关系数:又称皮尔森(Pearson)相关系数,没有单 位,取值-1r1。,其中, 、 分别为随机变量 X 和 Y 的样本标准差,为 X 和 Y 的样本协方差。,(三)相关系数的假设检验,r1,r2,r4,r3,由于抽样误差的存在,不一定为0,抽样,抽样,抽样,抽样,(四)总体相关系数 的区间估计:1先对相关系数r作z变换 或 式中,tanh为双曲正切函数;tanh-1为反双曲正切函数。,2z 的分布符合近似正态分布,按正态近似原理,z 的1- 可信区间可按下式计算:,(五)直线相关分析时的注意事项1、并非任何有联系的两个变量都属于线性联系,可能的话在 计算相关系数之前首先利用散点图判断两变量间是否具有 线性联系,曲线联系时是不能用直线相关分析的。,2、有些研究中,一个变量的数值随机变动,另一个变量的数 值却是认为选定的。如研究药物的剂量-反应关系时,一般 是选定 n 种剂量,然后观察每种剂量下动物的反应,此时 得到的观察值就不是随机样本,算得的相关系数 r 会因剂 量的选择方案不同而不同。故一个变量的数值为人为选定 时不应作相关分析。,3、作相关分析时,必须剔除异常点。异常点即为一些特大特 小的离群值,相关系数的数值受这些点的影响较大,有此 点时两变量相关,无此点时可能就不相关了。所以,应及 时复核检查,对由于测定、记录或计算机录入的错误数据, 应予以修正和剔除。,4、 相关分析要有实际意义,两变量相关并不代表两变量间一 定存在内在联系(因果关系),也可能是相互伴随关系。如 根据儿童身高与小树树高资料算得的相关系数,即是由于 时间变量与二者的潜在联系,造成了儿童身高与树高相关 的假象。,5、分层资料不要盲目合并作直线相关分析,否则可能得到 错误结论。6、适用于双变量正态分布资料。7、判断两事物有无相关关系及相关的密切程度必须进行假 设检验。: 相关分析仅提供线索,要证明因果关系,应凭专业知识加以阐明。,第二节 一元线性回归分析,如果某一个变量随着另一个变量的变化而变化,并且它们 的变化在直角坐标系中呈直线趋势,就可以用一个直线方 程来定量地描述它们之间的数量依存关系,这就是直线回 归分析。 线性回归(linear regression):是用函数(直线方程)的形式 定量描述两变量的线性依存关系,即用直线回归方程定量 分析两个数值变量之间线性依存关系的统计分析方法。,(一)一元线性回归模型( regression equation ):是最简单 地线性回归模型,假设因变量仅受一个自变量的影响 其中,Y 分解为两部分,一部分是由 x 变化所确定的Y 线性变化部分,另一部分是由其他随机因素引起的影响部分,即随机误差,用表示。,一、回归的统计模型,1、总体线性回归方程:由于是不可控制的随机误差,假设 N(0, ),而Y N( , ),并且, 可直接用 Y 的数学期望EY 作为Y 的估计,记为 ,则理论线性回归 方程为:2、样本线性回归方程:由于 、 未知,故通常直接用 x 变化 所引起的Y线性变化部分作为Y 的估计值,即用样本观察值 估计Y 值,简称线性回归方程:,直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为: 因变量(dependent variable) ,又称响应变量,习惯上用Y 表示,是随机变化的,除受自变量x的影响外,还有一系 列其它因素对Y起作用。自变量(independent variable) ,又称解释变量,习惯上用x表示,是能够精确测量和严密控制的量,即可以是规律变化的或人为选定的一些数值(非随机变量),也可以是随机变量,前者称为I型回归,后者称为II型回归。,(二)直线回归分析的应用条件1两变量的变化呈直线趋势(linear);2因变量 y 属于正态随机变量(normal distribution);3I 型回归要求对于每个选定的x ,y 都有一个正态分布 的总体,并且这些总体的方差都相等 ( equal variance ); II 型回归要求x、y 服从双变量正态分布。,(三)直线回归分析的一般步骤1将n个观察单位的变量对(x,y)在直角坐标系中绘制散点 图,若呈直线趋势,则可拟合直线回归方程。2求回归方程的回归系数和截矩。3写出回归方程, ,画出回归直线(由回归方程绘 制的直线,又称标准直线 regression line)。4对回归方程进行假设检验。,(一)方程的形式及意义:直线回归方程的一般形式为b:为回归系数(coefficient of regression),即回归直线的斜率,含义为“在 x 的取值范围内,当 x 每变化1个单位时,因变量 Y 平均变化(增加或减少)的单位数”;a:为截矩( intercept ),为回归直线或其延长线与 y 轴交点的纵坐标,即常数项,- a 。,二、用最小二乘法建立回归方程,图9.3 剂量与日数的散点图与回归直线,(二)直线回归方程的求法: 方程 中的 a 和 b 是两个待定常数,根据样本实测点 (x, y) 计算 a 和 b 的过程就是求回归方程的过程。 原理:为使回归方程能较好地反映各点的分布规律,使各 实测点到回归直线的纵向距离最小,即平方和 最小,即最小二乘法(least square method)原理; a 和b称为、的最小二乘估计( least squares estimate)。,计算公式:1 b: 式中,lxy 为X、Y 的离均差积和,lxx 为X 的离均差平方 和;,2a: 因此,直线回归方程也可用如下形式表示:,回归系数的检验亦即是回归关系的检验,又称回归方程的检验,其目的是检验求得的回归方程在总体中是否成立,是否样本代表的总体也有直线回归关系。即使X、Y 的总体回归系数为零,由于抽样误差的原因,其样本回归系数b 也不一定为零,因此,需作是否为零的假设检验,方法有以下三种:,三、回归方程的假设检验,(一)方差分析法F 检验法: 1基本思想:将因变量Y 的总变异SS总分解为两部分SS回归 和SS剩余,然后利用F 检验来判断回归方程是否成立。2总的离均差平方和:SS总即 ,为Y 的总离均差平 方和(总变差,total sum of squares),反映未考虑 X 与 Y 的回归关系时Y 的总变异,其意义可通过图 9.4 加以说 明。,任一点P 的纵坐标被回归直线与均数 截成三段:第一段 :表示实测点 P 与回归直线的纵向距离,即实际值Y 与估计值 之差,称为剩余或残差(residual)。,P(X,Y),X,Y,图9.4 应变量Y 的平方和划分示意图,第二段 :即Y 估计值 与均数之差,它与回归系数的 大小有关。| b | ,反之亦然;当b= 0 时, =0,则 = ,也就是回归直线不能使残差 减小。第三段 ,是因变量Y 的均数。 所以,上述三段的代数和为: Y = + + 移项: Y - = +,P点是散点图中任取的一点,将所有点都按上法处理,并将等式两端平方后再求和,则有: 上式用符号表示为: SS总=SS回+SS剩 SS总:,3回归平方和 (regression sum of squares): SS回 即 反映在Y 的总变异SS总中由于X与Y 的直线关系而使Y 变异 减小的部分,即总平方和中可以用X 解释的部分。SS回越 大,说明回归效果越好,即SS总中可用 X 与 Y 线性关系解 释的变异越多,用U 表示 U =,4剩余平方和 (residual sum of squares):SS剩即 , 反映扣除X 对Y 的线性影响之外的一切因素(非线性影响、随 机误差等)对Y 变异的作用,即在总平方和SS总中无法用X 解 释的部分,用Q 表示。 在散点图中,各实测点离回归直线越近, 也就越 小,说明直线回归的估计误差越小。 Q=SS剩= SS总-SS回 所以,总变异SS总是由回归关系引起的SS回和与回归无关的其它各种因素产生的SS剩所构成。,若回归直线与各实测点十分吻合,则 SS回将明显大于 SS剩, 当全部实测值都在回归直线上时,SS总 = SS回,SS剩= 0; 若回归直线拟合不好,SS回相对较小,SS剩则相对增大。 可见SS回/SS剩反映了回归的效果。,5自由度:上述三个平方和,各有其相应的自由度df,并有 如下的关系: df总= df回 + df剩 = n-1 df回=1 df剩=n-2 式中,n为样本含量。,6统计量F 的计算 : 回归方程的假设检验均采用单侧检验,故查附表时用单侧上限界值。,(二)t 检验法:1基本思想:利用样本回归系数b与总体均数回归系数 进 行比较来判断回归方程是否成立。2统计量t的计算公式为: df=n-2,式中, Sb :样本回归系数的标准误,反映样本回归系数 b 与总体 回归系数 之间的抽样误差; SY.X :剩余标准差(residual standard deviation),它是指 扣除了X 对Y 的线性影响后,Y 的变异,可用以说明估计 值 的精确性;表示因变量Y 值对于回归直线的离散程度, 即Y 对回归方程估计所得 值的离散程度;反映整个回归 方程估计的可靠性,即 SY.X 越小,表示回归方程的估计精 度越高。:上述两种检验方法是完全等价的,F = t 2 。,(三)相关系数 r 的假设检验:实际应用中因为回归系数 b 的检验过程较为复杂,而相关系数r的检验过程简单并与之等价,故一般用相关系数r的检验来代替回归系数b的检验。 两者假设检验是完全等价的。:r-test 仅适用于一元回归方程的假设检验,而F 检验法可推广到多元线性回归的更一般情形。,eg1: 某医生研究儿童体重与心脏横径的关系,测得13名8岁正常男童的体重与心脏横径,数据见表9.2。试作回归分析。 解:(1) 以体重作为自变量,心脏横径作为因变量,作散点图9.5,发现呈直线趋势,可拟合直线回归方程。,表9.2 13名8岁健康男童体重与心脏横径的关系,(2) 求回归方程:,故 回归方程为:,(3) 回归方程的检验:A方差分析法:H0:总体回归系数 = 0,即8岁男童心脏横径与体重之间 不存在直线关系H1:总体回归系数 0,即8岁男童心脏横径与体重之间 存在直线关系 = 0.05,表9.3 方差分析表,查方差分析用的F界值表,得P0.01,按 =0.05水准,拒绝H0,接受H1,认为8岁健康男童心脏横径与体重之间存在直线关系。Bt 检验:H0:总体回归系数 =0,即8岁男童心脏横径与体重之间不存 在直线关系H1:总体回归系数 0,即8岁男童心脏横径与体重之间存在直 线关系 = 0.05,按df =11,查 t 界值表,得P0.01,按 =0.05水准拒绝H0, 接受H1,认为8岁健康男童心脏横径与体重之间存在直线关系。,(一)总体回归系数的区间估计 根据参数估计原理,回归系数 b 是总体回归系数 的点估计,需要通过式对总体回归系数进行区间估计。 式中,Sb 为回归系数的标准误;n-2 为自由度。,四、直线回归的区间估计,eg2: 根据上例资料的样本回归系数 b =0.2141估计总体回归系数的95%可信区间。解:已知 b=0.2141, sb=0.03098, t0.05(11)=2.201 则总体回归系数的95%可信区间为: (0.2141-2.2010.03098, 0.2041+2.2010.03098)= (0.1359,0.2723),(二) 的区间估计 是指总体中自变量X 为某一定值X0时, 的总体均数。对 的估计可计算置信区间: 式中, 即 的标准误,可按下式计算: 式中,SY.X为剩余标准差。当 时, , 此时,可信区间的范围最窄,预测精度相对较高。,eg3: 根据上例资料,试计算当X0=25.0kg 时, 的95%可信区间。解:已知 , = 4.2121+0.204125.0=9.3151 t0.05(6)=2.201,当 X0 =1.00时, 的95%可信区间为: (9.3151-2.2010.0952, 9.3151+2.2010.0952) = (9.106,9.525) 即: 体重为25.0kg的8岁男童,估计其心脏横径的总体均数 在(9.106,9.525)范围内的可能性为95%。,(三)个体Y 值的容许区间 总体中,X 为一定值时,个体Y 值的波动范围,可按下式求出: 式中SY为X 取一定值时,个体Y 值的标准差,其计算公式为:,(一) 定量描述两变量之间的依存关系 对回归系数b进行假设检验时,若 , 可认为两变量间存在直线回归关系,则直线回归方程即为两个变量间依存关系的定量表达式。(二) 利用回归方程进行预测(forecast)1、点预测值(point forecast value):把预报因子(即自变量x) 代入回归方程对预报量(即因变量Y)进行估计。,五、直线回归方程的应用,2、预测区间(forecast interval):以一定的置信度(精度)估 计“当 x 取某值时 y 值的波动范围”,即个体 Y 值的容许区 间。 式中,SY 为X 取一定值时,个体Y 值的标准差,其计 算公式为:,eg4: 根据eg1资料,试计算当X0=25.0时,个体Y 值的95%容许区间。解: 已知 =9.3151,t0.05(11)=2.201,SY.X = 0.2776,故当X0=1.00时,个体Y值的95%容许区间为: (9.3151-2.2010.2935,9.3151+2.2010.2935) = (8.6692,9.9610)即: 当X0=25.0kg时,总体中有95%的个体Y值波动在(8.6692,9.9610)的范围内。,(三)利用回归方程进行统计控制 规定Y值的变化,通过控制X的范围来实现统计控制的目标,所以统计控制是利用回归方程进行的逆估计(用回归方程逆运算,通过控制x取值来限定y在一定范围内波动)。,eg5: 某市环境监测站在某交通点连续测定30天,每天定采样3次,发现大气中NO2浓度Y(mg/m3)与当时的汽车流量X(辆/小时)呈直线关系,根据90对观测数据求得回归方程 ,剩余标准差 。若NO2最大容许浓度为0.15mg/m3,则汽车流量应如何控制?设=0.05。,解: = 0.05,df =90-2=88,查表得单侧t0.025(88)=1.6624。 由于本例未给出每小时汽车流量的均数及 ,且样本含量较大,故以 代替 ,计算个体Y值单侧95%容许区间的上限:,当 时,解得X=1209,即:只要把汽车流量控制在1209辆/小时以下,那么就有95%可能使NO2不超过最大容许浓度0.15mg/m3。,1作回归分析要有实际意义(只有将两个内在有联系的变量放在一起进行回归分析才有意义),不能把毫无关联的两种现象,随意进行回归分析,忽视事物现象间的内在联系和规律。eg:对儿童身高与小树的生长数据进行回归分析既无道理也无用途。另外,即使两个变量间存在回归关系时,也不一定是因果关系,必须结合专业知识作出合理解释和结论。,六、应用直线回归的注意事项,2直线回归分析的资料,一般要求因变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量(当x为随机变量时,x、y服从正态分布),也可以是精确测量和严密控制的值(当x为给定的量时,y服从正态分布)。若稍偏离要求时,一般对回归方程中参数的估计影响不大,但可能影响到标准差的估计,也会影响假设检验时P值的真实性。,3进行回归分析时,应先绘制散点图(scatter plot)。若提示有直线趋势存在时,可作直线回归分析;若提示无明显线性趋势,则应根据散点分布类型,选择合适的曲线模型(curvilinear modal),经数据变换后,化为线性回归来解决。一般说,不满足线性条件的情形下去计算回归方程会毫无意义,最好采用非线性回归方程的方法进行分析。,4绘制散点图后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。否则,异常点的存在会对回归方程中的系数a、b的估计产生较大影响。,5回归直线不要随意外延。直线回归的适用范围一般以自变量取值范围为限,在此范围内求出的估计值 称为内插(interpolation);超过自变量取值范围所计算的 称为外延(extrapolation)。若无充足理由证明,超出自变量取值范围后直线回归关系仍成立时,应该避免随意外延。,6x、y的确定方法: 因果关系中的“因” x 易测值 较稳定值 y 因果关系中的“果”。7回归方程建立后必须作假设检验。,: 直线回归方程的应用范围:在x 的取值范围内;只能从x预测 值;有一定的时间和地点的限制。,一区别1. 资料要求不同 相关两个变量是双变量正态分布; 回归因变量Y服从正态分布,而自变量X是能精确测量和严格控制的变量(型回归)或X服从正态分布的随机变量(型回归)。,七、线性相关与回归的区别与联系,2. 统计意义不同 相关定性反映两变量间的伴随关系,这种关系是相互的,对等的,不一定有因果关系; 回归则定量反映两变量间的依存关系,有自变量与因变量之分,一般将“因”或较易测定、变异较小者定为自变量。这种依存关系可能是因果关系或从属关系。,3. 分析目的不同 相关分析目的是把两变量间直线关系的密切程度及方向用一统计指标表示出来; 回归分析目的则是把自变量与应变量间的关系用函数公式定量表达出来。4. X、Y相互关系 相关分析X、Y是双向的; 回归分析X、Y是单向的。,二联系1. 变量间关系的方向一致:对同一资料,其r与b的正负号一致(是否为0也一致)。2. 假设检验等价:对同一样本,tr=tb,由于tb计算较复杂,实际中常以r的假设检验代替对b的检验。3. r与b值可相互换算,4. 用回归解释相关:相关系数的平方r2称为决定系数(coefficient of determination): r2是回归平方和与总的离均差平方和之比,反映回归平方和在总平方和中所占比重,故回归平方和是引入相关变量后总平方和减少的部分,其大小取决于r2。 回归平方和越接近总平方和,则r2越接近1,说明引入相关的效果越好,反之,则说明引入相关的效果不好或意义不大。,实际工作中,变量间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年数据要素价值形成规范研究报告
- 2025上海对外经贸大学金融管理学院教学秘书招聘考试笔试试卷【附答案】
- 天津安全培训老师名单课件
- 2025年2.5D玻璃行业研究报告及未来行业发展趋势预测
- 2025年POE行业研究报告及未来行业发展趋势预测
- 汽车产业园施工组织与进度管理方案
- 社区体育公园2025年智能化服务用户体验优化报告
- 基于机器视觉的刀板架磨损状态实时监测与预测性维护体系设计
- 基于数字孪生的凸轮标定系统全生命周期精度衰减预测模型构建
- 智能矿山装备生产线项目投标书
- 生物●广东卷丨2023年广东省普通高中学业水平选择性考试生物试卷及答案
- CJ/T 338-2010生活垃圾转运站压缩机
- 电价合同补充协议书
- 2025年4月自考04184线性代数(经管类)试题及答案含评分标准
- 2024年全国工会财务知识大赛备赛试题库500(含答案)
- 儿童人工智能科普小课堂教学课件
- 景区用电安全培训课件
- 国内外美育研究现状
- 中山文化课件
- 团餐合同协议模板
- 社会稳定风险评估协议模板合同8篇
评论
0/150
提交评论