版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十四章直线回归分析上一章我们学习了对每个研究对象同时观察两个指标的成对数据进行关联性分析方法。本章将讨论成对观察数据中变量间的数量依存关系。“回归”一词最早由Golton在一项有关父亲与儿子身高的研究中提出。后来人们借用“回归”这个词来描述通过自变量的数值预测反应变量的平均水平。为了通过可测或易测的变量对未知或难测或不可测变量的状态进行估计,可以借助于回归分析。
为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。例如儿子的身高与父亲的身高有着某种依存关系,可以用回归分析的方法去研究这种关系,即把两个变量间的数量依存关系用函数形式表示出来,用一个或多个变量去推测另一个变量的估计值和波动范围,这就是回归分析。例如,我们可以用身高、体重、肺活量的这些容易测量的指标来估计心室输出量、体循环总血量等相对难测的指标。我们把被估计或预测的变量称为因变量(dependentvariable),或称反应变量(responsevariable),常用
y表示;y所依存的变量称为自变量(independentvariable),或称解释变量(explanatoryvariable),或称预测因子(predictor),常用x表示。
第一节直线回归方程的建立
一、直线回归的概念本章重点介绍两个连续性变量之间的线性依存关系的统计方法,简称线性回归(linearregression)。例14.1某研究欲探讨男性腰围与腹腔内脂肪面积的关系,对20名男性志愿受试者测量其腰围(cm),并采用磁共振成像法测量其腹腔内脂肪面积(cm2),结果如表14.1所示。试建立腹腔内脂肪面积(y)和腰围(x)的直线回归方程。表20名男性志愿受试者腰围和腹腔内脂肪面积的测量值为直观理解男性腰围与腹腔内脂肪面积的关系,以腰围为横轴,腹腔内脂肪面积为纵轴,描出20对数据散点图如图14.1。腰围(cm)图14.1两变量直线回归关系散点图
腹腔内脂肪面积
(cm2)如上图所示,可见散点大致呈直线趋势。即假设有一条潜在的直线可用来刻画两变量之间的关系,这样的直线称为回归直线。通常用来表示回归直线上各点的纵坐标,其数值是当x取某一值时因变量y的总体均数的估计值。
在数学上,描述因变量(y)依赖于另一自变量(x)的变化而变化的方程称为直线回归方程,也称为直线回归模型,表述为:其中,y为个体的因变量值,x为其自变量值,为回归直线的截距参数,为回归直线的斜率参数,又称回归系数。
通常情况下,研究者只能获取一定数量的样本数据,用该样本数据建立的有关y依x变化的线性表达式称为回归方程,记为:直线回归参数的含义:回归直线在轴上的截距。
>0,表示直线与纵轴的交点在原点的上方;
<0,则交点在原点的下方;
=0,则回归直线通过原点;:回归系数,即直线的斜率。
>0,表示y
随x
增大而增大;
<0,表示y
随x
增大而减小;
=0,表示直线与轴平行,即y
与x
无直线关系。a>0a=0a<0b的统计学意义x增(减)一个单位,y
平均改变b个单位。说明存在回归关系的两变量间依存变化的数量关系。二、回归方程的估计(一)回归方程估计的最小二乘原则参数α和β一般只能通过用样本数据来估计。当x取值为xi时,y的平均值的估计值应为而实际观察值是yi。两者之差为残差,即:其中,(xi,yi),i=1,2,,n为已知的样本数据。根据数学上的最小二乘法原理,导出a和b的算式如下:
的意义
残差绝对值:实测点到直线的纵向距离。1112131415165.05.56.06.5回归直线的有关性质直线通过点各实测点到该回归线的纵向距离平方和较到其它任何直线者为小。(二)回归系数的估计方法
例现以例14.1资料说明建立直线回归方程的具体步骤。1.绘制两变量间的散点图,如图14.1所示,观察到二者存在直线趋势,故可进行直线回归分析。2.由样本数据计算如下统计量3.求回归系数b。4.求回归截距α。5.最小二乘原则下的回归方程。第二节直线回归的统计推断一、总体回归系数β的假设检验在简单回归模型中,参数β的意义是:若自变量x增加一个单位,反应变量y的平均值便增加β。如果β=0,说明y与x之间并不存在线性关系;反之,β≠0,说明y与x之间存在线性关系。从β=0的总体中抽样,计算出的样本回归系数b很可能不为零。所以需对样本回归系数b进行假设检验。
例试对例14.1资料的样本回归方程进行假设检验。Ⅰ.建立假设H0:β=0H1:β≠0Ⅱ.确定检验水准
α=0.05Ⅲ.计算统计量
(一)方差分析(1)lyy的分析。如图P点的纵坐标被回归直线与均数截成三个线段:第一段,表示P点与回归直线的纵向距离,为实际值y与估计值之差,即残差。第二段,即估计值与均数之差,它与回归系数的大小有关。
b
值越大,的差值也越大,反之亦然。当b=0时,亦为零,则,也就是回归直线并不能使残差减少。
应变量y的平方和划分示意xP(x,y)
y第三段,是因变量y的均数。上述三个线段的代数和为:移项这里P点是散点图中任取的一点,若将全部点子都按上法处理,并将等式两端平方后再求和,则有上式用符号表示为:SS总=SS回+SS残式中SS总,即,为y的离均差平方和lyy,又称总平方和,说明未考虑x与y的回归关系时y的变异。SS回,即,它反映在y的总变异中由于x与y的直线关系而使y变异减少的部分,也就是在总平方和中可以用x解释的部分。SS回越大,说明回归效果越好。SS残,即,为残差平方和,它反映x对y的线性影响之外的一切因素对y的变异的影响,也就是总平方和中无法用x解释的部分。在散点图中,各实测点与回归直线越近,也就越小,说明直线回归的残差越小。上述三个平方和各自的自由度
及相互关系如下:
总=
回+
残
总=n-1,
回=1,
残=n-2在H0为β=0的假设下,统计量F服从自由度为
回、
残的F分布。SS残=SS总-SS回
因为SS总=SS回+SS残所以SS残=SS总-SS回
=7293.650-4235.086=3058.564(2)方差分析这里的方差分析的基本思想是:将SS总分解为SS回与SS残两个部分,然后按下式计算F统计量。式中MS回为回归均方,MS残为残差均方,
回为直线回归的自由度,
残为残差变异的自由度。求得F值后,查F界值表,按所取检验水准
作出推断结论。
上面已算得SS总,SS回,SS残列方差分析表,如下表:表直线回归的方差分析表
现
1=1,
2=18,查F界值表,得P<0.01,按
=0.05水准拒绝H0,接受H1,差异有统计学意义,故可认为腹腔内脂肪面积与腰围之间存在直线回归关系,总体回归系数不等于零。
(二)t检验这里t检验的基本思想与定量变量中样本均数与总体均数比较的t检验类似,统计量t计算如下式:
Sb为样本回归系数b的标准误,Syx为回归残差的标准误。求得t值后查t界值表得到P值,按水准作出推断结论。Ⅳ.确定概率P值
v=n-2=20-2=18,tb=4.9924,查t界值表,得p<0.001。
Ⅴ.下结论因为p<0.01,按=0.05水准,拒绝H0,接受H1,差异有统计学意义。即故可认为腹腔
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 危大工程安全管理培训要点
- 2026届河北承德强基联盟高三下学期一模化学试题含答案
- 文科生职业发展路径
- 英语职业规划框架模板
- 翻译就业前景
- 2026上海华东师范大学精密光谱科学与技术高等研究院王少伟教授团队博士后、专职科研人员招聘考试备考题库及答案解析
- 2026年蚌埠学院公开招聘专职辅导员和管理岗位16名笔试模拟试题及答案解析
- 2026四川成都市金牛国投人力资源服务有限公司招聘编外人员5人考试参考题库及答案解析
- 2026江苏省港口集团有限公司招聘笔试参考题库及答案解析
- 停滞 20 年、被教条牢牢困住!免疫组化凭这项核心技术实现跨越式突破
- 第4章 光谱表型分析技术
- 山西2026届高三天一小高考五(素质评价)地理+答案
- 2026年上海对外经贸大学辅导员招聘笔试模拟试题及答案解析
- 2026年劳务派遣管理员三级模拟通关提分题库含完整答案详解【必刷】
- 《数智化零售品类管理实务》课件-情境三 仓储会员店:人货场重构与价值逻辑
- AI赋能地理教学的应用实践研究-初中-地理-论文
- 浙江省杭州山海联盟2024-2025学年度七年级英语下册期中试题卷(含答案)
- 2026山东青岛海上综合试验场有限公司招聘38人备考题库含完整答案详解(历年真题)
- 护理团队建设与沟通技巧
- 芯片销售培训内容
- 耳石症手法复位治疗课件
评论
0/150
提交评论