简单回归分析-沈晓丽_第1页
简单回归分析-沈晓丽_第2页
简单回归分析-沈晓丽_第3页
简单回归分析-沈晓丽_第4页
简单回归分析-沈晓丽_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章

简单回归分析线性相关分析

linearcorrelationanalysis

回归〔regression〕和相关〔correlation〕分析:研究两个或多个变量间相互关系的统计方法。简单线性回归分析

simplelinearregressionanalysis:研究两个变量间的数量依存关系的统计方法。:研究两个或多个变量之间关联性或关联程度的一种统计分析方法。1.是否有线性联系?

2.正向的还是负向的?

3.联系的程度?矮个子的父代:64英寸而它子代:67英寸1.父代的总均数=68英寸子代的总均数=69英寸2.高个子的父代:72英寸而它子代:71英寸调查了1087对父子:1.1线性回归的概念高个子父子矮个子父子简单回归分析1.1线性回归的概念1.2线性回归模型的适用条件1.3

回归参数的估计1.4总体回归系数β的统计推断1.5线性回归的应用线性回归〔linearregression〕又称简单回归〔simpleregression〕:讨论两个变量间的数量依存关系的统计方法,即研究一个变量如何随另一个变量变化的常用方法。因变量dependentvariable反响变量responsevariable:非独立的、受其它变量影响的变量,常用“Y〞表示。自变量independentvariable或预测因子predictor或解释变量explanatoryvariable:能独立自由变化的变量,常用“X〞表示。两个变量:例10-1:对14名40-60岁健康妇女的根底代谢〔Y〕与体重〔X〕的相关系数r=0.964,现问根底代谢〔Y〕是如何依存体重〔X〕变化而变化的?编号基础代谢(kj/d)体重(kg)编号基础代谢(kj/d)体重(kg)14175.650.783970.648.624435.053.793983.244.633460.237.1105050.158.644020.851.7115355.571.053987.447.8124560.659.764970.662.8134874.462.175359.767.3145029.261.5表10-114名健康中年妇女的根底代谢与体重的测量值图10-114名健康中年妇女的根底代谢与体重的散点图由散点图看根底代谢与体重可能是直线关系μ

Y∣X=α+βX上述直线方程称为线性回归模型

linearregressionmodel可以假定固定根底代谢的总体均数μY∣X与体重X的关系可能是直线关系,即有:回归直线的截距参数(intercept),即X取0时,根据方程估算出的Y的平均水平。回归直线的斜率参数(slope),又称回归系数(regressioncoefficient),即X每增加一个单位,Y平均改变β个单位。通常情况下,研究者只能获得一定数量的样本数据,用样本数据建立的有关Y依从X变化的线性表达式称为回归方程〔regressionequation〕,记为:称为Y的预测值;其意义为固定x时,Y的总体均数μ

Y∣X的估计值。a与b分别为回归模型参数α和β的估计值。利用回归方程,只要给定一个40-60岁的健康妇女的体重值,就可估计出该体重个体的根底代谢值的平均值。以样本数据,可算出α和β的估计值a和b。后在直角坐标系以X为横坐标,Y为纵坐标作图,图形是一条直线,斜率为b,截距为a。线性回归关系的特点:一个变量的取值不能由另一个变量唯一确定。当变量X取某个值时,变量Y取值可能有几个。各观测点分布在直线周围线性回归的分类:I型回归:因变量〔Y〕是随机变化的,但自变量〔X〕可以不随机,当它是能够精确测量和严密控制的量时,叫Y关于X的I型回归。II型回归:因变量〔Y〕和自变量〔X〕都是随机变化的,叫Y关于X的II型回归。表12-1不同IgG浓度下的沉淀环数据IgG浓度(IU/ml)X12345沉淀环直径(mm)Y4.05.56.27.78.5小结:回归分析〔Regressionanalysis〕从一组样本数据出发,确定变量之间的数学关系式;对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出具有统计学意义的变量;利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。1.2线性回归模型的适用条件linenormal正态性equalvariance等方差性因变量Y的总体平均值与自变量X呈线性关系在一定范围内任意给定X值,那么对应的随机变量Y服从正态分布在一定范围内,不同X值所对应的随机变量Y的方差相同linear线性independent独立性指任意两个观察值互相独立误差

与残差称为随机误差〔总体〕称为残差(residual)〔样本〕根据上述,直线回归分析要求资料满足固定X,那么Y服从正态分布等价于残差服从正态分布。直线回归原理示意图:所以如果固定X,Y服从正态分布,其散点图呈直线带状分布回归分析的主要步骤绘制散点图回归参数的估计:求回归系数β和常数项α回归系数β和常数项α的假设检验列出回归方程,并进行假设检验回归方程的解释〔一〕绘制散点图:从散点图可见:根底代谢〔Y〕和体重〔X〕有线性关系,可以考虑做线性回归分析。图11-114名健康中年妇女的根底代谢与体重的散点图1.3回归参数的估计〔二〕回归参数的估计:让所有点的的平方和最小用最小二乘法拟合直线,选择a和b使其残差〔样本点到直线的竖直距离)平方和到达最小。最小二乘法原那么的文字描述:回归参数的估计方法:按照最小二乘法原那么,可得到:回归方程:例10-1:对14名40-60岁健康妇女的根底代谢〔Y〕与体重〔X〕的相关系数r=0.964,现问根底代谢〔Y〕是如何依存体重〔X〕变化而变化的?编号基础代谢(kg/d)体重(kg)编号基础代谢(kg/d)体重(kg)14175.650.783970.648.624435.053.793983.244.633460.237.1105050.158.644020.851.7115355.571.053987.447.8124560.659.764970.662.8134874.462.175359.767.3145029.261.5表10-114名健康中年妇女的根底代谢与体重的测量值解:回归方程的两个参数分别为得回归方程:作回归直线图回归系数β的意义:1.由总体回归方程可知μY∣X=α+x,参数β的意义:假设自变量X增加1个单位,反响变量Y的平均值便增加β个单位。。2.由于是μY∣X=α+βX的估计表达式,所以〔样本〕回归系数b表示X增加一个单位,样本观察值Y平均增加b个单位。假设检验回归模型的假设检验〔modeltest〕:回归系数的假设检验:目的:检验求得的回归方程在总体中是否成立;方法:单因素方差分析。目的:即检验总体回归体系数β是否为0〔β=0〕;方法:t检验。1.4总体回归系数β的统计推断:1〕回归模型的假设检验—方差分析SS总SS残SS回SS总=SS回归+SS残差SS总(总平方和)v总=n-1{SS回归(回归平方和)v回归=1{SS残差(残差平方和)v残差=n-2{v总=v回归+v残差lyyblxy=lxy2/lxxlyy-lxy2/lxx变异的分解:变异的种类产生原因解释SS总:Y的离均差平方和没有利用X的信息时,Y观察值的变异反映因变量Y的总变异SS回归:(回归平方和)当自变量X引入模型后所引起的变异反映在Y的总变异中,可用Y与X的线性关系解释的那部分变异。SS回归越大,说明回归效果越好。SS残差:(残差平方和)总变异中无法用X和Y的回归关系解释的那部分变异反应自变量X以外因素对Y的变异的影响。表示考虑回归之后,Y的随机误差。回归方程假设检验的根本思想:如果总体中自变量X对因变量Y没有奉献,那么由样本所得的回归均方与残差均方应相近;反之,如果总体中自变量X对因变量Y有奉献,回归平方和反响的就不仅仅是随机误差,即回归均方必然要远大于残差均方;依此,可计算检验统计量F值作出判断。问:所求得的回归方程在总体中是否成立?查F界值表〔P572〕,确定单侧临界值Fa(v回归,v残差),求概率值P,下结论均方:MS=SS/v回归均方:MS回归=SS回归/v回归残差均方:

MS残差=SS残差/v残差检验统计量:1.建立假设,确定检验水准H0:总体回归方程不成立,即总体中自变量X对因变量Y没有奉献;H1:总体回归方程成立,即总体中自变量X对因变量Y有奉献。=0.05〔单侧〕查F界值表〔P468〕:a=0.05,v回归=1、v残差=n-2=12得:F(k-1,n-k)=F(1,12)=4.753.确定P值,作出推断结论:由于F=158.36>4.75,那么P<0.05,故拒绝H0,接受H1,可认为体重与根底代谢之间有线性回归关系。2.计算检验统计量F值:2〕回归系数的假设检验—t检验

β=0,说明Y与X之间并不存在线性关系

β≠0,说明Y与X之间存在线性关系由总体回归方程μ

Y∣X=α+

x

=0时,μ

Y∣X=α

即:对于X的任何值,总体均数μ

Y∣X没有任何改变,故建立Y与X的直线回归方程就没有任何意义了故

是否为0,涉及到所建立的回归方程是否有意义的问题。然而从β=0的总体抽得样本,计算出的回归系数b很可能不为零,需要对

是否等于0进行假设检验—t检验t检验:检验过程:注意:1.在简单线性回归模型中,对回归模型的方差分析等价于对回归系数的t检验,即有:2.对于服从双变量正态分布的同样一组资料,同时作相关分析和回归分析,那么相关系数的t检验与回归系数的t检验等价,即有:3〕总体回归系数β的区间估计:b为回归系数的样本估计值,Sb为样本回归系数的标准误,那么总体回归系数β的双侧1-α置信区间为:上例题中b=61.4229,Sb=4.8810,v=12,查t界值表得:t0.05/2,12=2.179;那么其总体回归系数β的双侧95置信区间为:b±tα/2,vSb61.4229±2.179×4.881=(50.787,72.059)4〕回归方程的解释:

——体重对根底代谢的影响有多大?决定系数:回归平方和与总平方和之比。0≤R2≤1反映了自变量X对回归效果的奉献,即Y的总变异中回归关系所能解释的百分比〔varianceaccountformula,VAF〕;反映了回归模型的拟合效果,可作为反响拟合优度〔goodnessoffit〕的指标。上例题:SS总=4645447.0121,SS回归=4318227.7159R2=SS回归/SS总=0.964=96.4%解释:说明根底代谢总变异的96.4%与体重有关。1.5回归方程的统计应用:定量描述两变量之间的依存关系。利用回归方程进行统计预测。利用回归方程进行统计控制。1)统计预测:将X值作预报因子,固定总体中X为某定值Xi时,估计个体Y值的容许区间,即Y值的波动范围。例:第一观测点数据〔X1=50.7〕为例,预测第一数据点Y值的95%预测区间答:回归方程故根底代谢的95%容许区间为:均数置信区间:当X值为某定值,并给定置信度1-α,考察Y的总体均数的分布时,可估计Y的总体均数μ

Y∣X的1-α置信区间。答:回归方程故根底代谢的95%容许区间为:例:第一观测点数据〔X1=50.7〕为例,预测Y的总体均数值的95%预测区间。2)统计控制:例:在硝酸钠的溶解试验中,测得在不同温度X下,溶解于100份水中的硝酸钠份数Y的数据见表。假设要求溶解于100份水中的硝酸钠份数在80份以上,温度应如何控制?由原始数据得方程对应于个体Y值的95%预测区间单侧下限值为:X=16.5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论