第9章 双变量回归与相关(改).ppt_第1页
第9章 双变量回归与相关(改).ppt_第2页
第9章 双变量回归与相关(改).ppt_第3页
第9章 双变量回归与相关(改).ppt_第4页
第9章 双变量回归与相关(改).ppt_第5页
免费预览已结束,剩余90页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章二变量回归与相关,函数关系与相关关系1,函数关系(确定关系):二变量之间呈一对一的关系。 2、相关关系(非确定性关系):两变量之间有数量上的关系,但没有一对一的对应关系。 年龄和血压,孩子的年龄和体重等。 1、相关和回归分析不是一对一对应的函数关系,而是依赖于处于相关关系的两个以上变量的数量的统计学方法。 2、用于相关和回归分析的样本数据是来自整个研究的随机样本。 9个正方形边长X(cm )和周长Y(cm )的关系,正方形边长x和周长y的散点图,为讨论父子身高的线性关系,从南方某地方随机抽取20名毕业生名册中分别测定他们和父亲的身高(cm ),得到以下资料。 变量y变量x反应变量y解释变量x结果变量y研究元素(dependentvariable)Y ) 第一节的线性回归LinearRegression简单的线性回归分析,用线性回归方程描述依赖于两变量数量的统计方法,简称为线性回归。 回归分析解决的问题确定变量(自变量和原因变量)之间是否存在线性统计学关系,并且确定该关系存在的概率的大小,如果存在则应找到该关系的公式。 线性回归分析,原因变量:连续变量变量:通常是连续变量,但在实际应用中,变量的目的描述了几个变量和一个因素变量之间关联的程度、方向、范围。 原因变量:基准变量、结果变量:回归变量、预测变量、独立变量1、失真变量2、参数3、线性回归线性回归方程式的模型为yi=a bxi ei,(1)a为截距(整数) b是回归系数(回归直线的斜率)回归系数的统计意义是,按自变量变化的每单位,失真量平均变化的单位数(3)ei是残差,因此直线回归方程式的一般形式是失真量y的预测值或估计值4、多线性回归多线性回归方程式模型是yi=b0 b1x1i b2x2i bnxni ei中的(1)b0是常数项,是各变量都等于0时的失真量的估计值。 在某些情况下,它有时被称为基础值。 (2)b1、b-2、bn是偏回归系数,其中,bn是在所有其它参数都不变的情况下,当某个参数每变化1个单位时,失真量平均变化的单位数。 如果参加分析的变量都是规范化的变量,那么b是0、b1、b2、bn,并且用符号b1、B2、bn表示。 因为bi=bi * sxi/sy在bi中没有维度,所以可以互相比较大小,反映自变量的相对作用的大小。 (3)ei是残差,多元线性回归式的一般形式,其中符号的意义相同。 直线回归系数的最小二乘估计,基本思想:使从样品点到回归直线的纵向距离的平方和最小。 将e(residual )设为残差平方和,将q设为残差平方和,定义关于残差的一次偏导数为0,直线回归系数和截距计算式,例9-1某地方病研究所如表9-1所示调查了8名正常儿童的尿肌酐含量(mmol/24h ),尿肌酐含量(y )的年龄(x表9-18名正常儿童的年龄x (岁)和尿肌酐含量(y ),从原始数据和散布图的观察来看,两变量之间有线性的倾向,假设检定1,方差分析:整体上存在回归关系,还是回归方程式成立,回归分析中各平均差平方和的意思, SS总: y的总平均差平方和SS次: SS总中的可以解释x变量的部分SS剩馀: SS总中的不能解释x变量的部分,根据例9-2检查例9-1数据得到的直线回归方程式成立吗? (1)方差分析、假设检验2、t检验: H0:=0,H1:0,(2)t检验,例9-3基于例9-1中得到的b=0.1392,估计了其整体回归系数的两侧95%置信区间。 使用回归式进行估计和预测,个体y值的预测区间,在例9-4用例9-1中得到的直线回归式计算了X0=12时的95%置信区间和该个体y值的95%预测区间。 由于线性回归条件、线性独立正规等方差、线性、量化、回归分析查找用数量表示的参数和因素变量之间的统计规则,所以要分析的变量必须用数量表示。 因此,用于进行线性回归分析的模型变量必须是数量型变量。 一般指标的量化方法是0-1法。 评价回归模型的指标,决定系数R01之间,越接近1,模型越接近复相关系数(R2)R的平方01之间,模型越接近1,残差角度:残差基准误差预测残差平方和,R2最大R2=SS回归/SS总adjR2最大: adjR2=1-SS残差/SS 分析是否满足线性回归条件的残差度数分布图(检验正规性)将残差x或y散布图(检验等的分散性)残差Durbin-Watsontest (检验残差自相关性)统计量在0-4之间,越接近0越成为正的相关,越接近4越成为负的相关观察可疑值和异常值。 Residual残差Std.Residual标准化残差Stud.Residual学生化残差,线性回归的应用,定量地记述两变量的数量关系病因学研究,寻找危险因素和相关分析的区别统计预测中常用的预测手段/身高预测标准工作曲(直线)线等化学分析的指标难以求出, 测定容易测定的指标,推定难以测定的指标,建立统计控制、统计控制的想法、回归方程式,确定知道相应的要素的控制目的,将y代入取y值的一侧1-a置信区间的上限或下限y的回归式,求出x,得到x的控制值。 为了获得y,必须知道x0,但是如果x0不能事先确定,那么可给出x0的初始值,如x0=平均值,代入新计算的x0,并且可重复多次直到满足。 第二节线性相关线性correlation相关分析:描述两个随机变量x和y之间数量上的紧密度和方向的统计方法。 一般的说明指标是相关系数。 医学上,身高和体重、体温和脉搏、产前检查和婴儿体重、乙肝病毒和乙肝等多种现象相互关联。 在这些有关系的现象中,它们的关系的程度和性质也各不相同。 关系:乙肝病毒感染是前件,乙肝是结果,虽然可以说乙肝病毒和乙肝之间有因果关系,但也有因果关系不明确的现象,只是伴随着关系,例如不能说丈夫的身高和妻子的身高之间有因果关系。 为了研究父亲和大人儿子身高的关系,卡尔皮尔逊测量了1078对父子的身高。 在坐标上显示1078对数字。 其形状像橄榄状的云,中间的点密集,边缘的点稀疏,其主要部分是椭圆。 二、相关系数、用于采样的相关系数的r(correlationcoefficient)相关系数r的值处于-1和1之间。 对于正相关,r值处于0与1之间,在这种情况下,对其中一个变量增加并且另一个变量增加的负相关,r值处于-1与0之间,其中一个变量增加,而另一个变量减少。 r的绝对值越接近1,两变量的关联度越强,r的绝对值越接近0,两变量的关联度越弱。典型的散布图,注意:相关系数的大小反映了两个变量之间的线性相关的程度。 虽然两个变量密切相关,但是如果它们处于非线性关系,则它们也不能相关(整体相关系数为零),如果整体相关系数大于零,则为正相关。 如果小于零,则成为负相关。 如果等于零,则为零相关性。 在实际问题中,采用样本相关系数估计整体相关系数。 这需要从整个研究中提取随机样本,计算样本相关系数r。 样品相关系数计算表,例9-5对例9-1数据(表9-1 ),计算了8名正常儿童尿肌酐含量和年龄的相关系数。 根据例9-1计算,例9-6验证尿肌酐含量与年龄是否相对于例9-5中得到的r值具有线性相关关系,例9-7对例9-5中得到的r值估计整体相关系数的95%置信区间。相关分析注意事项,皮尔逊相关系数x,y按照二变量正态分布分布图的作用层次资料的相关说明,慎重使用相关时,(a )异常值(b )层次资料,慎重使用相关时,(c )、(d )层次资料,深入理解相关,统计的相关估计只是事物间的附带关系。 从统计关系到专业因果关系的确认需要更多的证据。 选择孩子的身高和小树的高度鞋的大小和儿童读书水平的教育程度和失业脂肪摄入量和结肠癌,用不同的方法计算相关系数,皮尔逊:二变量正态分布资料,连续变量Kendall :资料不遵循二变量正态分布或整体分布未知,等级资料。 Spearman :类数据(非检查)。 线性相关的应用、相关通过研究两个变量之间的相互关系,该相互关系以相关系数作出反应。 r的绝对值越大,表示2个变量间的关联度越强。 我知道一个变量有助于预测另一个变量。r的绝对值越小,两个变量之间的关系就越弱,一个变量的信息对推测另一个变量的值不太有用。 一般来说,样本量大(n100 )时,对r进行假设验证,有统计学意义时,r的绝对值大于0.7时,表示两个变量的高度相关的r的绝对值大于0.4,0.7以下时,表示两个变量间的中度相关的r的绝对值大于0.2 第三节秩关联也被称为秩关联,是一种非参数统计方法。 1、不服从二变量的正态分布,不应建立积差关系2,整体分布类型未知3,原始数据是类数据,Spearman秩关系用类相关系数表示两变量间的直线相关关系的紧密度和相关方向。 分析过程: 1,n对观察值Xi和Yi分别以从小到大的等级2,两组等级用积差相关关系进行分析,得到等级相关系数3,进行整体等级相关系数零的假设检查,等级相关,Spearman等级相关,例9-8某省为1995年至1999 以死因构成为x,WYPLL构成为y,进行了等级相关分析。 应用相关注意事项,1 .在实际意义上进行相关回归分析有实际意义。 不要把两个无关的东西和现象用于相关回归分析。 2 .相关关系的相关关系不一定是因果关系,而是附带关系,不能证明事物之间有内在关系。 3 .利用散布图,对性质不明确的两组数据,首先制作散布图,看有无关系,关系的密切,是正相关还是负相关,再进行相关分析。 4 .变量范围的相关分析和回归方程只适用于样本的原始数据范围内,由于超出了该范围,我们无法得到两变量的相关关系和原回归关系。 第四节加权直线回归,一,加权最小二乘估计,例9-9儿科医生测定的10名婴儿的年龄(岁)及其丝状血红蛋白的lgG水平如表9-4所示。 估计抗体水平(y )和年龄(x )的线性回归方程。表9-410名婴儿的年龄及其线性血红蛋白的lgG抗体水平,首先用最小二乘法从y和x的散点图求出直线回归方程式,在绘制了该回归方程式的残差和自变量的散点图(图9-8 )中,残差的分散和x的取法有系统变化的由于常数k可以通过式(9-28 )和(9-29 )消去,所以实际计算时的权重代入式(9-28 )和(9-29 )的计算过程并示于表9-4中,最后:的加权直线回归方程式通过例9-10在例9-9中求出的加权最小二乘估计回归方程式前已知:第五节两条回归直线的比较,一、两个回归系数的比较,(一) f检定,(一) f检定,(一) f检定,(一) f检定,(二) t检定,例9-11某地方病研究所有正常儿童8人和大骨节病患儿10人的年龄和尿肌酐含量(mmol/24h ) 推测两组尿肌酐含量(y )对年龄(x )的回归直线是否平行,用表9-710名大骨节病患儿的年龄(x )和尿肌酐(y )的含量观察两组数据的散布图都有直线的倾向,两个回归式分别为: f检定、(一) f检定、(二) t检定、(二) t检定、例9-12验证了两条整体回归直线的截距是否相等,因为例9-11的两条整体回归直线平行。 第六节曲线拟合,第一,曲线拟合的一般步骤,1 .选择合适的曲线2 .求出回归式3 .求出决定系数,例9-13用不同剂量的标准肾上腺皮质激素释放因子CRF(nmol/L )刺激体外培养的大鼠垂体前叶细胞,通过垂体合成刺激肾上腺皮质激素根据表9-10测量的5对数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论