讲相关与回归分析_第1页
讲相关与回归分析_第2页
讲相关与回归分析_第3页
讲相关与回归分析_第4页
讲相关与回归分析_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

讲相关与回归分析第2页,共116页,2024年2月25日,星期天变量间的关系确定性关系—

函数关系

圆的面积与半径的关系:

S=

r2

华氏温度与摄氏温度的关系非确定性关系身高和体重HW健康人的凝血酶浓度与凝血时间XY血压与年龄XY第3页,共116页,2024年2月25日,星期天2.散点图(scatterplot)

例1为了研究凝血酶浓度与凝血时间之间的关系,测量了15名健康人凝血酶浓度(X)与凝血时间(Y),其结果如下表:No.123456789101112131415X1.11.21.00.91.21.10.90.61.00.91.10.91.11.00.7Y141315151314161714161516141517想直观地了解一下X与Y之间的关系.第4页,共116页,2024年2月25日,星期天2.散点图(scatterplot)datachap9ex1;InputXY@@;cards;1.1141.2131.0150.9151.2131.1140.9160.6171.0140.9161.1150.9161.1141.0150.717;symbol1v=dotcv=redh=1;procgplot;plotY*X=1/c=blue;run;第5页,共116页,2024年2月25日,星期天2.散点图(scatterplot)第6页,共116页,2024年2月25日,星期天2.散点图(scatterplot)第7页,共116页,2024年2月25日,星期天例2从10只狗抽取的血样本中,分别测其填充的细胞体X(单位:mm)与相应的血红细胞数Y(单位:百万)。两个不同的连续变量(xi,yi)(x5,y5)第8页,共116页,2024年2月25日,星期天2.散点图(scatterplot)datachap9ex2;InputXY@@;cards;45 6.5342 6.3056 9.5248 7.5042 6.9935 5.9058 9.4940 6.2039 6.5550 8.72;procgplot;symbol1v=dotcv=redh=1;plotY*X=1/c=blue;run;第9页,共116页,2024年2月25日,星期天2.散点图(scatterplot)第10页,共116页,2024年2月25日,星期天线性相关的种类正相关(positivecorrelation):Y有随着X增大而线性上升的趋势。第11页,共116页,2024年2月25日,星期天相关的种类负相关(negativecorrelation):Y有随着X增大而线性下降的趋势。第12页,共116页,2024年2月25日,星期天相关的种类零相关(zerocorrelation):Y或X不随着另一变量的改变而(线性地)改变。第13页,共116页,2024年2月25日,星期天相关的种类非线性相关(nonlinearcorrelation)第14页,共116页,2024年2月25日,星期天线性相关强度的衡量第15页,共116页,2024年2月25日,星期天1.样本协方差第16页,共116页,2024年2月25日,星期天协方差>0第17页,共116页,2024年2月25日,星期天协方差<0第18页,共116页,2024年2月25日,星期天协方差≈0第19页,共116页,2024年2月25日,星期天协方差—“协同”的趋势第20页,共116页,2024年2月25日,星期天2.总体协方差(P69)第21页,共116页,2024年2月25日,星期天(1)样本(或总体)协方差接近于0时协方差第22页,共116页,2024年2月25日,星期天(2)量纲发生变化时X1:身高(m),Y1:体重(kg)X2:身高(cm),Y2:体重(g)协方差第23页,共116页,2024年2月25日,星期天三、(线性)pearson相关系数1.总体相关系数—描述两随机变量之间线性关系密切程度的数量指标-1≤ρ≤1相关系数不受尺度、量纲的影响.第24页,共116页,2024年2月25日,星期天YX

=0YX

=-.8YX

=.8YX

=0YXr=-1YXr=1相关的图例第25页,共116页,2024年2月25日,星期天第26页,共116页,2024年2月25日,星期天第27页,共116页,2024年2月25日,星期天第28页,共116页,2024年2月25日,星期天例2(续)

第29页,共116页,2024年2月25日,星期天四、相关系数的假设检验第30页,共116页,2024年2月25日,星期天0.01水平上拒绝原假设,认为填充的细胞体与相应的血红细胞数的相关有统计学意义。H0:ρ=0例2(续)第31页,共116页,2024年2月25日,星期天datachap9ex2;InputXY@@;cards;1.1141.2131.0150.9151.2131.1140.9160.6171.0140.9161.1150.9161.1141.0150.717;proccorr;varXY;run;例1(续)datachap9ex2;InputXY@@;cards;45 6.5342 6.3056 9.5248 7.5042 6.9935 5.9058 9.4940 6.2039 6.5550 8.72;proccorr;varXY;run;例2(续)第32页,共116页,2024年2月25日,星期天corr过程proccorr选择项;var变量s;by变量s;freq变量s;weight变量s;with变量s;partial变量s;run;第33页,共116页,2024年2月25日,星期天proccorr语句的选择项pearson计算通常的皮尔逊相关系数Kendall计算肯德尔系数Spearman计算斯皮尔曼等级相关系数Nosimple取消打印每个变量的简单描述统计量当分析变量中两两变量之间的简单相关分析,可用corr过程;当两变量都服从正态分布时,计算pearson相关系数;当变量不服从正态分布或为等级数据时,应采用Kendall或Spearman相关系数;可以做固定一些变量的偏相关分析。第34页,共116页,2024年2月25日,星期天例3智商IQ某学校随机抽取18名学生,测定其智商(IQ)值,连同当年数学和语文成绩,数据见下表。编号数学X语文Y智商Z编号数学X语文Y智商Z178839510737592284761001148536136170100124543604525875136770885938210514757896689789715959712579889110168892113898951201799921259656176188188102第35页,共116页,2024年2月25日,星期天datachap9ex3;InputmathchineseIQ@@;cards;78 83 9584 76 10061 70 10052 58 7593 82 10589 78 9798 89 11098 95 1206561 7673 75 9248 53 6145 43 6067 70 8875 78 9695 97 12588 92 11399 92 12581 88 102;run;例3第36页,共116页,2024年2月25日,星期天散点图symbol1

v=dotcv=redh=1;proc

gplotdata=chap9ex3;

plotmath*chinese=1

chinese*IQ=1math*IQ=1;run;第37页,共116页,2024年2月25日,星期天相关系数proc

corr;

varmathchineseIQ;run;相关系数H0:ρ=0第38页,共116页,2024年2月25日,星期天datachap9ex3;InputmathchineseIQ@@;cards;78 83 9584 76 10061 70 10052 58 7593 82 10589 78 9798 89 11098 95 1206561 7673 75 9248 53 6145 43 6067 70 8875 78 9695 97 12588 92 11399 92 12581 88 102;proccorr;/*求偏相关系数*/varchinese;withmath;partialIQ;run;例3

偏相关系数设有三个变量X1,X2,X3,扣除X3的线性影响后X1和X2的相关系数称为偏相关系数第39页,共116页,2024年2月25日,星期天pearson相关系数的要求随机变量X、Y服从正态分布衡量线性关系的强弱相关等价于独立第40页,共116页,2024年2月25日,星期天当变量不服从正态分布或分布未知数据本身为等级资料采用秩相关(等级相关,spearman)来分析变量间的线性联系程度与方向。秩相关—spearman秩相关系数第41页,共116页,2024年2月25日,星期天问题一:两个变量间有关系吗?问题二:线性关系的强弱程度?问题三:变量在总体中的关系如何?问题四:变量间是因果关系吗散点图相关系数相关系数的检验相关小结第42页,共116页,2024年2月25日,星期天相关与因果不能将统计推断得到的事物之间的相关关系解释为因果关系。统计仅是对两个变量的数字特征进行了分析,并没有对两变量发生时间的先后及生物学上的联系进行分析。相关有可能仅是伴随关系。例孩子的身高与树高第43页,共116页,2024年2月25日,星期天第44页,共116页,2024年2月25日,星期天XY第45页,共116页,2024年2月25日,星期天第46页,共116页,2024年2月25日,星期天12名妇女的年龄x(单位:岁)和收缩压y(单位:kPa)的数据如下:例4第47页,共116页,2024年2月25日,星期天散点图例收缩压与年龄的变化趋势是基本一致的。散点沿一条直线周围分布。收缩压与年龄之间的对应并不是精确对应在直线上.直线只是提供了对应关系的平均趋势.回归分析的目的:建立关系的数量形式。第48页,共116页,2024年2月25日,星期天“回归(regression)”的由来维多利亚时代的英格兰统计学家们受到将遗传定量化这一思想的强烈吸引,并为追寻此目的收集了大量数据。英国统计学家Galton(1822-1911)和他的学生、现代统计学奠基者Pearson进行了家庭成员间相似性的研究。第49页,共116页,2024年2月25日,星期天1078对父亲及成年儿子的身高父辈身高增加一个单位,儿子身高仅增加半个单位左右;父辈身高减少一个单位,儿子身高仅减少半个单位左右;即子代的平均高度向中心靠近—回归效应.第50页,共116页,2024年2月25日,星期天第51页,共116页,2024年2月25日,星期天第52页,共116页,2024年2月25日,星期天XY第53页,共116页,2024年2月25日,星期天提供建立变量之间数学关系式(通常称之为回归方程)的一般方法;判别所建立的回归方程是否有效;利用所得的回归方程进行预测和控制。第54页,共116页,2024年2月25日,星期天残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。

原则:最小二乘法(leastsumofsquares),即可保证各实测点至直线的纵向距离的平方和最小2.回归参数的估计

——最小二乘原则

第55页,共116页,2024年2月25日,星期天第56页,共116页,2024年2月25日,星期天记各实测点至直线的纵向距离的平方和第57页,共116页,2024年2月25日,星期天第58页,共116页,2024年2月25日,星期天第59页,共116页,2024年2月25日,星期天方程的解为第60页,共116页,2024年2月25日,星期天第61页,共116页,2024年2月25日,星期天第62页,共116页,2024年2月25日,星期天例4(续)-回归方程的建立回归方程为第63页,共116页,2024年2月25日,星期天例4-方程的解释斜率(0.147)-年龄每增加1岁,收缩压平均增加0.147kPa;直线的意义-年龄为x时,收缩压的平均值为:第64页,共116页,2024年2月25日,星期天第65页,共116页,2024年2月25日,星期天第66页,共116页,2024年2月25日,星期天第67页,共116页,2024年2月25日,星期天SS总SS残SS

回思想:总离差平方和的分解第68页,共116页,2024年2月25日,星期天思想:总离差平方和的分解yi

YX第69页,共116页,2024年2月25日,星期天第70页,共116页,2024年2月25日,星期天第71页,共116页,2024年2月25日,星期天上述三个平方和,各有其相应的自由度,并有如下的关系:

第72页,共116页,2024年2月25日,星期天

如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:第73页,共116页,2024年2月25日,星期天式中第74页,共116页,2024年2月25日,星期天第75页,共116页,2024年2月25日,星期天第76页,共116页,2024年2月25日,星期天

决定系数(确定系数)R2(RSquare)决定系数R2:在y的总变异中,由X变量建立的线性回归方程所能解释的比例。即

R2=SS回归

/SS总例:R2=0.775,则说明变量y变异中有77.5%是由变量

X引起的。R2=1时,表示所有的观察点全部落在回归直线上。R2=0时,表示自变量与因变量无线性关系。决定系数是反映一个线性回归模型拟合好坏的一个重要指标。第77页,共116页,2024年2月25日,星期天例4(续)回归分析datachap9ex4;inputxy@@;cards;59 19.60 42 16.67 72 21.28 36 15.73 63 19.86 47 17.07 55 19.93 49 19.93 38 15.33 42 18.67 68 20.19 60 20.59

;procreg;modely=x;run;第78页,共116页,2024年2月25日,星期天第79页,共116页,2024年2月25日,星期天reg过程procreg;var变量s;by变量s;freq变量s;weight变量s;model因变量=自变量s/选项;test;run;第80页,共116页,2024年2月25日,星期天model语句的选项noint拟合无截矩模型stb打印标准化系数corrb打印估计的相关阵p计算出数据集中每个观测值y的期望值及其标准误r请求残差分析clm输出每个观测值y的期望值μY的95%置信区间cli输出每个观测值y的95%预测区间collin要求进行多元共线性分析influence要求详细分析每个观测值对参数估计和模型预测值的影响第81页,共116页,2024年2月25日,星期天第82页,共116页,2024年2月25日,星期天预测(估计)例4(续)第83页,共116页,2024年2月25日,星期天第84页,共116页,2024年2月25日,星期天μY

(x0)的估计第85页,共116页,2024年2月25日,星期天μY(x0)的估计μY的95%置信区间μY的90%置信区间第86页,共116页,2024年2月25日,星期天第87页,共116页,2024年2月25日,星期天Y的预测区间第88页,共116页,2024年2月25日,星期天μY的95%置信区间Y的95%预测区间第89页,共116页,2024年2月25日,星期天4.残差分析

残差(residual)是指观测值Yi与回归模型拟合值之差残差分析(residualanalysis)旨在通过残差深入了解数据与模型之间的关系,评价实际资料是否符合回归模型假设,识别异常点等。例如,第一数据点的残差e1=19.6000-19.6824=-0.0824,如此类推,计算出各数据点的残差值将残差减去其均数,除以其标准差,便得标准化残差。第90页,共116页,2024年2月25日,星期天若以反应变量取值Yi为横坐标,以标准化残差为纵坐标,构成的散点图如图1所示。类似地,也可以自变量取值Xi为横坐标,以标准化残差为纵坐标,构成的散点图。这类散点图统称为标准化残差图。

第91页,共116页,2024年2月25日,星期天图给出的是以自变量取值为纵坐标,以残差为横坐标的残差图的常见类型。其中,图(e)显示残差呈随机分布;图(a)、(b)和(f)表示残差不满足方差齐性条件;图(c)显示存在非线性关系;图(d)显示有的点处于

2倍标准差以外,可能是异常点。第92页,共116页,2024年2月25日,星期天第93页,共116页,2024年2月25日,星期天datachap9ex4;inputxy@@;cards;59 19.60 42 16.67 72 21.28 36 15.73 63 19.86 47 17.07 55 19.93 49 19.93 38 15.33 42 18.67 68 20.19 60 20.59

;procreg;modely=x/cliclmrp;run;例4(续)回归分析第94页,共116页,2024年2月25日,星期天

五、直线回归应用的注意事项直线回归用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析。1.根据分析目的选择变量及统计方法第95页,共116页,2024年2月25日,星期天2.进行回归分析前应绘制散点图(1)

散点图可考察两变量是否有直线趋势;(2)

可发现异常点(outlier)。

散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。第96页,共116页,2024年2月25日,星期天3.数据资料的要求

直线回归要求至少对于每个X相应的Y要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;*对于双变量正态分布资料,根据研究目的可选择由X估计Y或者由Y估计X,一般情况下两个回归方程不相同)。第97页,共116页,2024年2月25日,星期天

反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。

P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。4.结果解释及正确应用

第98页,共116页,2024年2月25日,星期天六、相关与回归的区别1.意义相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。第99页,共116页,2024年2月25日,星期天2.应用研究两个变量的相互关系用相关分析。研究两个变量的数量依存关系用回归分析。第100页,共116页,2024年2月25日,星期天3.性质相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。第101页,共116页,2024年2月25日,星期天r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,的平均变化就越大。反之也是一样。4.相关系数r与回归系数b第102页,共116页,2024年2月25日,星期天七、相关与回归的联系1.关系能进行回归分析的变量之间存在相关关系。所以,对于两组新数据(两个变量)可先做散点图,求出它们的相关系数,对于确有相关关系的变量再进行回归分析,求出回归方程。第103页,共116页,2024年2月25日,星期天2.相关系数r与回归系数br与b的符号一致。r为正时,b也为正,表示两变量是正相关,是同向变化。r为负时,b也为负,表示两变量是负相关,是反向变化。第104页,共116页,2024年2月25日,星期天r与b的假设检验结果一致。对同一资料,可以证明r与b假设检验的统计量t值的大小相等,因而结果总是相同的。由于对r进行假设检验的统计量t值计算公式比较简便,而且还可以直接查表。所以,可用r的显著检验代替b的显著性检验。第105页,共116页,2024年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论