双变量回归与相关_第1页
双变量回归与相关_第2页
双变量回归与相关_第3页
双变量回归与相关_第4页
双变量回归与相关_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第10章,两个变量之间关系的分析和回归以及相关的线性回归和相关,2。这个问题引出了对两个变量之间关系的研究,例如,糖尿病患者的血糖和胰岛素水平之间的关系是什么?分析数据包括每个患者的两个变量值(血糖和胰岛素水平),称为双变量数据,记录为:(x1,y1)、(x2,y2)、(xn,yn)。目的:研究x和y的定量关系:简单线性回归和简单线性相关。第一节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归第

2、四节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归第四节简单线性回归起初,高尔顿把后代的身高趋于种族稳定的自然现象称为“回归平均”。目前,“回归”已成为一个统计术语,用来表示变量之间的某种数量依赖关系,并衍生出“回归方程”和“回归系数”等统计概念。例如,研究糖尿病患者的血糖和胰岛素水平之间的关系,以及研究儿童的年龄和体重之间的关系。1.线性回归的概念:如果将一个变量X作为自变量,那么研究另一个变量y(因变量)对自变量X的数量依赖性就是线性回归。特征:线性回归是一种统计关系,不同于一般的X和y的数学函数关系,例7,例9-1在地方病研究所对8名正常儿童的尿肌酐含量(mmol/2

3、4h)进行了调查,如表9-1所示。估计尿肌酐含量(y)与其年龄(x)的回归方程。表9-1、8、8正常儿童的年龄和尿肌酐含量(mmol/24h),102、9、10。在描述儿童年龄与尿肌酐含量之间的定量相关性时,年龄被称为自变量,用X表示;尿肌酐含量称为因变量,用y,11表示,从图9-1可以看出,尿肌酐含量y随年龄x的增加而增加,并呈直线趋势,但并非所有的八个离散点都在一条直线上,这不同于两个变量之间严格的线性函数关系,称为线性回归,其方程称为线性回归方程,从而区别于严格的线性方程。二元线性回归是回归分析中最基本、最简单的一种,因此也称为简单回归。线性回归方程的一般表达式是,它是每个x处y的总体平

4、均值的估计,13,1a是y轴上回归线的截距。0表示直线和纵轴的交点在原点的上方;A 0,交点低于原点;A=0,回归线穿过原点。a=0,a 0,a 0,x,y,14,B0,直线从左下角到右上角,y随着x的增加而增加;B0,直线从左上角到右下角,y随着x的增加而减小;B=0表示直线平行于X轴,X和Y之间没有直线关系。b是回归系数,即直线的斜率。*b的统计显著性是:x每增加(或减少)一个单位,y、B0、B0、b=0、15、102、16、17改变的平均单位数。2.线性回归方程的解,残差或剩余值,即假设回归线上测量值y和估计值之间的纵向距离。事实上,求解A和B就是“合理地”找到一条最能代表数据点分布趋势

5、的直线。最小平方和原则是确保每个测点与直线之间纵向距离的最小平方和。(x,y),(18),(19),(20),实施例9-1在当地疾病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h),如表9-1所示。估计尿肌酐含量(y)与其年龄(x)的回归方程。21,表9-1,8名正常儿童的年龄(岁)和尿肌酐含量(mmol/24h),22,问题解决步骤,23,24,25,该直线必须通过点(,),并在截距a处与纵轴相交。如果散点图未通过坐标系原点,则可将易于读取的x值代入回归方程、102、26、27、3。线性回归中的统计推断,28。(1)回归方程的假设检验,建立样本线性回归方程,只完成了统计分析中两个变量

6、之间关系的统计描述,研究者还必须回答它所来源的整体的线性回归关系是否真的存在,即它是否为整体而存在?102,29,30,31,1方差分析,102,32,(x,Y),33,数理统计可以证明:34,上述公式是用符号表示的,其中,35,36,上述三个平方之和,每个都有其相应的自由度,并有以下,38,其中:39,2。测试40,实施例9-2通过检查实施例9-1的数据得到的线性回归方程有效吗?(1)方差分析,41,42,表9-2方差分析,列出的方差分析表见表9-2。43,(2)t检验,44,注意:45,(2)总体回归系数的置信区间。利用上述回归系数的t检验,我们可以得到1个46的双边置信区间。实施例9-3

7、根据在实施例9-1中获得的b=0.1392估计总回归系数的双边95%置信区间。47,(0.1392-2.4470.0304,0.1392 2.4470.0304)=(0.0648,0.2136),48,(3)回归方程的估计和预测,49,(9-15),(9)两条虚曲线的个别Y值的预测区间较宽。两者中间窄,两端宽;它们在X=处最窄。52,实施例9-4当X0=12时,使用在实施例9-1中获得的线性回归方程来计算相应个体值的95%置信区间和95%预测区间。53,计算步骤,实例9-1和9-2已经计算出,54,线性回归汇总,56,确定系数,定义为回归平方和与总平方和的比值,计算公式为:(9-23),该值在

8、0和1之间且没有单位,其数值反映,57,线性回归的应用条件,4。SPSS软件实现,线性过程:用于单变量或多变量线性回归分析,包括自变量的筛选。SPSS的操作和界面描述:P344 1)图表、散点图、简单散点图,2)分析、回归、线性、例及SPSS过程,例10.1:医生测量了21例肝癌患者的血清胆固醇(mmol/L),肝癌患者的血清胆固醇与甘油三酯之间是否存在线性回归关系?实例及SPSS过程、界面描述、界面描述、界面描述、界面描述、界面描述、界面描述、界面描述、界面描述、界面描述、SPSS分析结果、拟合过程中变量进出模型的记录、SPSS分析结果、拟合模型简表、SPSS分析结果、回归模型检验的方差分析

9、结果,74,第2节简单线性相关,75,线性相关,也称为简单相关,用于二元正态分布数据。它的特性可以通过图9-6中的散点图直观地说明。目的:研究两个变量x和y的数量依赖(或相关性)。特征:统计关系,一,线性相关的概念,76,二,相关系数的含义和计算,1。显著性:相关系数,也称为皮尔逊积矩相关系数,用于解释两个变量之间线性关系的密切程度和相关方向。相关系数没有单位,其值为-1 r 1。R的正值表示正相关,R的负值表示负相关,R的绝对值等于1表示完全相关,r=0表示零相关。102,77,78,2。计算:样本相关系数的公式为(9-18),79,由例9-1计算得出。根据公式(9-18)、实施例9-5至实

10、施例9-1的数据(见表9-1),计算8名儿童的尿肌酐含量及其年龄。80,3。相关系数的统计推断,(1)相关系数的假设检验,(9-19),81,9-6至9-5,检查尿肌酐含量与年龄之间是否存在线性相关。82,测试步骤:在这个例子中,n=8,r=0.8818,根据公式(9-19),83,(2)总体相关系数的置信区间,102,84,具体步骤如下,85,例如9-7,估计总体相关系数的95%置信区间。然后,根据公式(9-22),z被逆变换,年龄和尿肌酐含量之间的总体相关系数的95%置信区间为(0.4678,0.9971)。86,IV .线性回归和相关应用的注意事项,87,1根据分析目的选择变量和统计方法

11、。线性相关用于解释两个变量之间线性关系的方向和紧密程度。X和Y之间没有主要或次要的区别;线性回归进一步用于定量描述因变量Y对自变量X的数值依赖性,其中因变量的确定主要取决于专业要求,容易精确测量的变量可以认为是X,另一个随机变量为Y,例如体表面积可以通过身高来估计。两个变量的选择必须结合专业背景,两个不相关的现象不能勉强回归或相关。88,89,2在相关和回归分析之前,应绘制散点图。步骤1: (1)散点图可以检验两个变量是否有线性趋势;(2)可以发现异常值。散点图异常值的识别和处理应从专业知识和现有数据两个方面考虑。结果可能是现有回归模型的假设误差,需要改变模型形式,也可能是抽样误差导致的偶然结

12、果甚至疏忽误差。必须仔细检查原始数据,检查其生产过程是否被认为是过失误差,或者是重复测量的抽样误差造成的偶然结果,以便仔细排除或采用其他估计方法。90,3数据,线性相关分析要求x和y服从二元正态分布;线性回归要求每个x对应的至少y服从正态分布,x可以是服从正态分布的随机变量,也可以是可以精确测量和严格控制的非随机变量;*对于二元正态分布数据,可以根据研究目的选择用X估计Y或用Y估计X。一般来说,这两个回归方程是不同的。91,反映两个变量之间关系的密切程度或影响量的统计量应该是回归系数或相关系数的绝对值,而不是假设检验的P值。P值越小,可以说变量之间的线性关系越合理,但不能说这种关系更密切或更“显著”。此外,当线性回归用于预测时,其应用范围不应超过样本中自变量的取值范围。4、结果说明和正确应用。SPSS软件实现,二元过程:用于两个或多个变量之间的参数或非参数相关分析。SPSS的操作和界面描述:P332 1)图形,散点图,简单图,2)分析,相关和双变量相关系数:皮尔逊,和SPSS过程,例10.2:一个医生确定了2 1个肝癌。肝癌患者血清胆固醇和甘油三酯之间有线性关系吗?实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论