中国医科大学医学统计学 直线回归分析_第1页
中国医科大学医学统计学 直线回归分析_第2页
中国医科大学医学统计学 直线回归分析_第3页
中国医科大学医学统计学 直线回归分析_第4页
中国医科大学医学统计学 直线回归分析_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十四章直线回归分析上一章我们学习了对每个研究对象同时观察两个指标的成对数据进行关联性分析方法。本章将讨论成对观察数据中变量间的数量依存关系。“回归”一词最早由Golton在一项有关父亲与儿子身高的研究中提出。后来人们借用“回归”这个词来描述通过自变量的数值预测反应变量的平均水平。为了通过可测或易测的变量对未知或难测或不可测变量的状态进行估计,可以借助于回归分析。

为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。例如儿子的身高与父亲的身高有着某种依存关系,可以用回归分析的方法去研究这种关系,即把两个变量间的数量依存关系用函数形式表示出来,用一个或多个变量去推测另一个变量的估计值和波动范围,这就是回归分析。例如,我们可以用身高、体重、肺活量的这些容易测量的指标来估计心室输出量、体循环总血量等相对难测的指标。我们把被估计或预测的变量称为因变量(dependentvariable),或称反应变量(responsevariable),常用

y表示;y所依存的变量称为自变量(independentvariable),或称解释变量(explanatoryvariable),或称预测因子(predictor),常用x表示。

第一节直线回归方程的建立

一、直线回归的概念本章重点介绍两个连续性变量之间的线性依存关系的统计方法,简称线性回归(linearregression)。例14.1某研究欲探讨男性腰围与腹腔内脂肪面积的关系,对20名男性志愿受试者测量其腰围(cm),并采用磁共振成像法测量其腹腔内脂肪面积(cm2),结果如表14.1所示。试建立腹腔内脂肪面积(y)和腰围(x)的直线回归方程。表20名男性志愿受试者腰围和腹腔内脂肪面积的测量值为直观理解男性腰围与腹腔内脂肪面积的关系,以腰围为横轴,腹腔内脂肪面积为纵轴,描出20对数据散点图如图14.1。腰围(cm)图14.1两变量直线回归关系散点图

腹腔内脂肪面积

(cm2)如上图所示,可见散点大致呈直线趋势。即假设有一条潜在的直线可用来刻画两变量之间的关系,这样的直线称为回归直线。通常用来表示回归直线上各点的纵坐标,其数值是当x取某一值时因变量y的总体均数的估计值。

在数学上,描述因变量(y)依赖于另一自变量(x)的变化而变化的方程称为直线回归方程,也称为直线回归模型,表述为:其中,y为个体的因变量值,x为其自变量值,为回归直线的截距参数,为回归直线的斜率参数,又称回归系数。

通常情况下,研究者只能获取一定数量的样本数据,用该样本数据建立的有关y依x变化的线性表达式称为回归方程,记为:直线回归参数的含义:回归直线在轴上的截距。

>0,表示直线与纵轴的交点在原点的上方;

<0,则交点在原点的下方;

=0,则回归直线通过原点;:回归系数,即直线的斜率。

>0,表示y

随x

增大而增大;

<0,表示y

随x

增大而减小;

=0,表示直线与轴平行,即y

与x

无直线关系。a>0a=0a<0b的统计学意义x增(减)一个单位,y

平均改变b个单位。说明存在回归关系的两变量间依存变化的数量关系。二、回归方程的估计(一)回归方程估计的最小二乘原则参数α和β一般只能通过用样本数据来估计。当x取值为xi时,y的平均值的估计值应为而实际观察值是yi。两者之差为残差,即:其中,(xi,yi),i=1,2,,n为已知的样本数据。根据数学上的最小二乘法原理,导出a和b的算式如下:

的意义

残差绝对值:实测点到直线的纵向距离。1112131415165.05.56.06.5回归直线的有关性质直线通过点各实测点到该回归线的纵向距离平方和较到其它任何直线者为小。(二)回归系数的估计方法

例现以例14.1资料说明建立直线回归方程的具体步骤。1.绘制两变量间的散点图,如图14.1所示,观察到二者存在直线趋势,故可进行直线回归分析。2.由样本数据计算如下统计量3.求回归系数b。4.求回归截距α。5.最小二乘原则下的回归方程。第二节直线回归的统计推断一、总体回归系数β的假设检验在简单回归模型中,参数β的意义是:若自变量x增加一个单位,反应变量y的平均值便增加β。如果β=0,说明y与x之间并不存在线性关系;反之,β≠0,说明y与x之间存在线性关系。从β=0的总体中抽样,计算出的样本回归系数b很可能不为零。所以需对样本回归系数b进行假设检验。

例试对例14.1资料的样本回归方程进行假设检验。Ⅰ.建立假设H0:β=0H1:β≠0Ⅱ.确定检验水准

α=0.05Ⅲ.计算统计量

(一)方差分析(1)lyy的分析。如图P点的纵坐标被回归直线与均数截成三个线段:第一段,表示P点与回归直线的纵向距离,为实际值y与估计值之差,即残差。第二段,即估计值与均数之差,它与回归系数的大小有关。

b

值越大,的差值也越大,反之亦然。当b=0时,亦为零,则,也就是回归直线并不能使残差减少。

应变量y的平方和划分示意xP(x,y)

y第三段,是因变量y的均数。上述三个线段的代数和为:移项这里P点是散点图中任取的一点,若将全部点子都按上法处理,并将等式两端平方后再求和,则有上式用符号表示为:SS总=SS回+SS残式中SS总,即,为y的离均差平方和lyy,又称总平方和,说明未考虑x与y的回归关系时y的变异。SS回,即,它反映在y的总变异中由于x与y的直线关系而使y变异减少的部分,也就是在总平方和中可以用x解释的部分。SS回越大,说明回归效果越好。SS残,即,为残差平方和,它反映x对y的线性影响之外的一切因素对y的变异的影响,也就是总平方和中无法用x解释的部分。在散点图中,各实测点与回归直线越近,也就越小,说明直线回归的残差越小。上述三个平方和各自的自由度

及相互关系如下:

总=

回+

总=n-1,

回=1,

残=n-2在H0为β=0的假设下,统计量F服从自由度为

回、

残的F分布。SS残=SS总-SS回

因为SS总=SS回+SS残所以SS残=SS总-SS回

=7293.650-4235.086=3058.564(2)方差分析这里的方差分析的基本思想是:将SS总分解为SS回与SS残两个部分,然后按下式计算F统计量。式中MS回为回归均方,MS残为残差均方,

回为直线回归的自由度,

残为残差变异的自由度。求得F值后,查F界值表,按所取检验水准

作出推断结论。

上面已算得SS总,SS回,SS残列方差分析表,如下表:表直线回归的方差分析表

1=1,

2=18,查F界值表,得P<0.01,按

=0.05水准拒绝H0,接受H1,差异有统计学意义,故可认为腹腔内脂肪面积与腰围之间存在直线回归关系,总体回归系数不等于零。

(二)t检验这里t检验的基本思想与定量变量中样本均数与总体均数比较的t检验类似,统计量t计算如下式:

Sb为样本回归系数b的标准误,Syx为回归残差的标准误。求得t值后查t界值表得到P值,按水准作出推断结论。Ⅳ.确定概率P值

v=n-2=20-2=18,tb=4.9924,查t界值表,得p<0.001。

Ⅴ.下结论因为p<0.01,按=0.05水准,拒绝H0,接受H1,差异有统计学意义。即故可认为腹腔

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论