多因素线性回归_第1页
多因素线性回归_第2页
多因素线性回归_第3页
多因素线性回归_第4页
多因素线性回归_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1多重线性回归分析复旦大学生物统计学教研室2线性回归模型单因素线性回归模型(复习)多重线性回归方程多重线性回归模型模型的参数估计多重线性回归对资料的要求多重线性回归举例应用3单因素线性回归的复习4举例复习单因素回归模型例为了研究3岁至8岁男孩人群平均身高(cm)与年龄(year)的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽3名男孩,共抽18名男孩。资料如下:5本例的研究目的和实现方法研究目的:了解年龄与儿童人群的平均身高对应关系。方法1:可以做普查,得到每个年龄组所有儿童的身高,并且计算每个年龄组的儿童人群的平均身高。方法2:作抽样调查,本例就是通过按年龄组分层抽样调查,获得样本后用回归分析的方法得到每个年龄组儿童人群的平均身高估计值和相应的统计推断。6儿童身高的分布特征一般而言,儿童身高满足同一年龄x的儿童身高y近似服从正态分布,因此对于每个年龄x,均有一个身高y的总体均数。不同年龄x的儿童身高分别近似服从对应不同身高总体均数的正态分布。身高的总体均数是年龄x的一个函数7画散点图考查身高与年龄的分布关系Y的离散程度与X没有关系,并且散点呈直线带8画散点图考查身高总体均数与年龄的关系

年龄组的身高样本均数与年龄的散点图9由散点图确定身高总体均数与年龄

可能是直线关系年龄组的身高样本均数与年龄的散点图显示年龄组的身高样本均数与年龄几乎在一条直线上,略有些偏离直线的点可以理解为样本均数的抽样误差所致(因为样本均数一般不等于总体均数),因此可以假定固定年龄的身高总体均数与年龄x的关系可能是直线关系,即假定:10回归方程并且称上述直线方程为(总体)回归方程。回归方程中,为未知参数,需要用样本资料通过拟合曲线后得到其估计值,并分别记为a和b,相应得到样本估计的回归方程通常称为Y的预测值,其意义为固定x,Y的总体均数的估计值。11Y与x的直线回归关系由总体回归方程可知:当

=0时,。即:对于x的任何值,总体均数没有任何改变,因此建立Y与x的直线回归方程就没有任何意义了,所以称

0时,Y与x

之间存在直线回归关系,反之

=0Y与x

之间称不存在直线回归关系。12回归模型根据正态分布性质,可以得到:固定年龄X,身高Y服从总体均数为,方差为

2的正态分布由散点图可以假定总体均数故令,即:,并称为直线回归模型13误差与残差

称为随机误差称为残差(residual)根据上述,直线回归分析要求资料满足固定X,Y服从正态分布等价于残差服从正态分布。14直线回归原理示意图所以如果固定x,Y服从正态分布,其散点图呈直线带分布15直线回归系数的估计用最小二乘法拟合直线,选择a和b使其残差(样本点到直线的垂直距离)平方和达到最小。即使下列的SSE达到最小值。由此得到16回归系数的意义由总体回归方程可知回归系数表示:x增加一个单位,总体均数增加个单位由于是的估计表达式,所以(样本)回归系数b表示x增加一个单位,估计y平均增加b个单位。

17回归系数

假设检验的必要性由于样本回归系数b与总体回归系数

存在抽样误差,即:一般情况下,b

,因此需要考虑抽样误差对统计推断是否存在重大影响。由于

=0时,,Y与x之间不存在直线回归关系,因此是否为0,涉及到所建立的回归方程是否有意义的重大问题,然而即使=0,样本回归系数b一般不为0,因此需要对回归系数

是否等于0进行假设检验。18回归系数的假设检验H0:

=0vs.H1:

0=0.05回归系数的标准误为其中s为残差的标准差则回归系数的检验统计量为

19回归系数的假设检验残差的标准差s还可以表示为可以证明:H0:

=0成立时,检验统计量tb服从自由度为n-2的t分布。即:当出现,

=0而言这是小概率事件,故可以拒绝H0:

=0,认为0。20回归系数检验统计量t的分布示意图当|t|>t0.05,1,n-2时,对=0而言是小概率事件,对>0而言并非是小概率事件21成组t检验由单因素线性回归实现下列将举例证实成组t检验可以用单因素线性回归实现,以此进一步理解线性回归的意义。举例:在2型糖尿病患者人群和健康人群中分别随机抽取15个年龄在50岁~60岁男性对象,测量其体重指数BMI,分析这两个人群的平均BMI是否不同。22成组t检验由单因素线性回归实现先做成组t检验,借助Stata软件得到下列t检验结果糖尿病组的BMI均数-健康组的BMI均数=1.74,t=4.2754,P=0.0002,95%CI为(0.9063416,2.573658)23成组t检验由单因素线性回归实现定义因变量Y为BMI,糖尿病组定义自变量x=1,健康组定义自变量x=0,数据格式如下借助Stata软件实现线性回归:regyx24成组t检验由单因素线性回归实现Stata输出结果为回归系数=糖尿病组均数-健康组均数=1.74t=4.28,P<0.001,95%可信区间为(0.9063416,2.573658),与t检验结果完全相同25成组t检验由单因素线性回归实现原理因为回归方程为

Y是固定X时的Y总体均数,所以X=0时,健康人群的总体均数为,X=1时,糖尿病人群的总体均数为因此糖尿病人群总体均数与健康人群的总体均数之差为,因此检验两个总体均数相等的问题就是检验回归系数的问题。26成组t检验由单因素线性回归实现原理由于预测值是总体均数的估计值,所以x=0,X=1,所以事实上,样本回归方程就是成组t检验由单因素线性回归实现原理27成组t检验由单因素线性回归实现原理由于线性回归模型为X=0时,X=1时即:对于成组t检验资料而言,用X=1和X=0定义分组变量,其资料满足线性回归对资料的要求,故其结果与成组t检验相同。28多重线性回归模型介绍29多重线性回归方程设有m个自变量为,亦称协变量,应变量为Y,则描述Y的总体均数与m个自变量之间的线性关系可以用下列的多重线性回归方程

其中

0为常数项,亦称截距,

1,

2,…,

m称为偏回归系数。30多重线性回归模型刻画观察变量Y与自变量之间的对应关系为下列多重线性回归模型

i表示除Xi以外的其它自变量固定的情况下,Xi变化一个单位,相应Y的平均变化值,即Y总体均数的相应变化值。31多重线性回归模型

0,

1,

2,…,

m

一般是未知的,但可根据样本资料拟合回归方程得到其估计值,,由此可写出相应的样本回归方程称样本偏回归系数,简称偏回归系数。32多重线性回归模型由于多重线性回归方程的参数估计方法采用最小二乘法,对于多个自变量的情况,计算量相对比较烦琐,一般需用计算机完成计算,故以下将通过实例介绍多重线性回归方程的基本分析步骤和分析策略。33多重线性回归举例1欲研究糖尿病患者的总胆固醇(X1)和甘油三酯(X2)对空腹血糖(Y)的影响,某研究者调查40名糖尿病患者的总胆固醇、甘油三酯和空腹血糖的测量值如下,试根据上述研究问题作统计分析。34举例1的数据

总胆固醇X1,和甘油三酯X2对空腹血糖Y35参数估计根据上述研究问题,考虑用多重线性回归进行统计分析,其回归方程为寻找

0,

1和

2

使下列和式SS达到最小,称为最小二乘法。36参数估计结果故借助统计软件,得到下列参数估计由此得到回归方程的估计表达式37线性回归的模型检验借助线性回归的方差分析可以进行模型检验。首先线性回归方程可以把因变量的总变异SS总分解为回归平方和SS回归和残差平方和SS残差。对应的自由度为38线性回归的模型检验模型检验的检验假设H0:

1=

2=…=

m=0H1:

1,

2,…,

m

不全为0=0.05检验统计量39线性回归的模型检验当H0:

1=

2=…=

m=0为真时,即:如果,可以拒绝H0,推断

1,

2,…,

m

不全为0。40线性回归的模型检验本例借助Stata软件输出结果得到:拒绝H0,故可以推断

1,2不全为041线性回归模型的单个参数检验单个回归系数

i的检验表示其它m-1个自变量均在当前回归模型中的条件下,Xi的回归系数

i是否为0的统计检验,具体方法如下:H0:

i=0H1:

i

0

=0.05检验统计量42线性回归模型的单个参数检验其中bi是

i的最小二乘估计(而且是无偏估计),是bi的标准误,n为样本量,m为模型中的自变量个数。可以证明:当H0:

i=0成立时,统计量服从自由度为n-m-1的t分布。即:

i=0为真时,对于1次随机抽样而言:出现的概率为0.05,故可拒绝无效假设H0:

i=0,并可以认为

i

0。43线性回归模型的单个参数检验本例单个参数检验结果总胆固醇(X1)上升1mmol/L,估计空腹血糖平均上升0.172mmol/L,差异有统计学意义。甘油三酯(X2)上升1mmol/L,估计空腹血糖平均上升0.318mmol/L,差异有统计学意义。44线性回归模型举例2为了研究0岁至8岁儿童身高增长的规律,在某社区随机抽样,调查了20名男孩和20女孩的年龄和身高,男性取值为1,女性取值为0。试找出儿童身高的一般规律。定义身高为因变量Y,年龄为X1,性别为X245线性回归模型举例2的数据46线性回归模型举例2对于同一性别而言,儿童的平均身高与年龄通常呈线性增长关系,但不同性别的儿童身高及其增长速度有一定的差异,因此试图用下列回归方程表示不同性别的儿童身高与年龄的关系。47线性回归模型举例2方程对于女孩,代入方程,得到下列回归方程

1表示女孩的每年的平均身高增长量,

0表示女孩出生时的平均身高。对于男孩,代入方程,得到下列回归方程48线性回归模型举例2男孩的每年的平均身高增长量为

1+3男孩出生时的平均身长为

0+2如果3=0,则男孩与女孩的每年的平均身高增长量相同。如果2=0,则男孩与女孩出生时的平均身长相同。49线性回归模型举例2借助Stata软件输入命令genx1x2=x1*x2产生x1*x2变量regyx1x2x1x2线性回归分析50线性回归模型2举例由线性回归的方差分析结果可以推断:

1,2,3不全为0,故可以认为拟合该回归模型是有统计学意义的。拟合回归方程的主要评价指标是决定系数R2R2表示因变量Y与自变量X1,┄,Xm

伴随变化的变异成分占Y总变异的比例。51线性回归模型2举例本例的Stata输出结果如下R2=0.9972,即:Y的99.72%的变异是与X1和X2伴随变化的52线性回归模型举例2由此得到样本估计的回归方程女孩(X2=0)的身高回归方程为女孩在出生时(X1=0)的平均身高约为64.6cm,身高平均每年增长约为8cm,由

1的P<0.0001,推断差异有统计学意义。53线性回归模型举例2男孩(X2=1代入方程)的身高回归方程为其中

1+3的估计值为8.279,还应检验总体回归系数之和1+3是否为0借助Stata软件:testx1+x1x2=0,得到(1)x1+x1x2=0F(1,36)=6379.64Prob>F=0.0000,故有统计学意义。54线性回归模型对资料的要求线性回归要求资料满足:残差变异程度与任何一个自变量Xi没有关联性残差变化与任何一个自变量Xi没有任何伴随趋势。因变量观察值之间独立(从抽样背景上考察)其中第1条和第2条要求是通过分别作残差与每个自变量的散点图进行判别的。55线性回归模型对资料的要求本例:用Stata命令计算残差predicte,residualgraphex1,xlabelylabel散点图显示残差与X1之间没有明显的伴随趋势56线性回归模型对资料的要求graphex2,xlabelylabel残差与x2的散点图显示没有明显的伴随趋势57举例介绍应用线性回归进行协方差分析例:为了评价缺铁性贫血的两种不同的疗效,某研究者在预试验中收集了40名患者,随机分为A组和B组,两组的治疗方案分别称为A方案和B方案,A方案用分组变量X1=0表示,B方案用X1=1表示。经过一个月治疗后,治疗前红细胞数(万/

l)和治疗后的红细胞增加数等如表20-8,记治疗后的红细胞增加数为Y,治疗前的红细胞数为X2,试评价两种治疗方案的疗效差异。58协方差分析举例数据59协方差分析举例记治疗后的红细胞增加数Y的总体均数为,若不考虑治疗前红细胞数(称为基线)对疗效的影响,则可用下列回归方程刻画两种治疗方案的疗效。A方案对应X1=0方程,得到用A方案治疗前后的红细胞数改变量的总体均数为

0,B方案对应X1=1

代入方程,得到用B方案治疗前后的红细胞数改变量的总体均数为

0+

1,因此两种方案的疗效差异的总体均数为

1,本质上就是一个成组t检验。60协方差分析举例由于治疗后的红细胞增加数往往与治疗前的红细胞数水平X2有关,一般需要校正治疗前红细胞数水平X2对治疗后的红细胞增加数的影响(称为校正基线对结果的影响),故可用下列回归方程61协方差分析举例由方程A方案(X1=0)的红细胞增加数的总体均数为B方案(X1=1)的红细胞增加数的总体均数为两种治疗方案的红细胞增加数的总体均数差值为62协方差分析举例所以称协方差模型中的

1的估计和检验是校正了基线后的两种治疗方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论