版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
简单回归分析第一页,共74页。实例例:为探讨某地饮水中氟含量与氟骨症的关系,试对测量得到的下列8对数据进行直线回归分析。氟含量(mg/L)X:0.48,0.64,1.00,1.47,1.60,2.86,3.21,4.71患病率(%)Y:22.37,23.31,25.32,22.29,28.57,35.00,46.07,46.08第二页,共74页。第三页,共74页。
由上图可以看出:氟含量与氟骨症患病率之间存在着一种依存变化的关系,氟骨症患病率随氟含量的增长而增高,并且呈直线趋势,但各点并非恰好都在直线上。强调这一区别,统计上称这是氟骨症患病率在氟含量上的回归,即线性回归,也称简单回归(simpleregression)。线性回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程(linearequation)。第四页,共74页。一元线性回归模型
(概念要点)
对于只涉及一个自变量的简单线性回归模型可表示为
y=b0+b1x+e模型中,y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项
是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性
0和
1称为模型的参数第五页,共74页。由样本得到的一元回归模型第六页,共74页。线性回归分析目的;在因变量和自变量之间建立一个数学模型,根据这个模型可以根据自变量的变动预测因变量的变动。应注意的问题:1.建立模型的目的2.谁将用这个模型3.建立模型用的资料是否合适4.如何利用模型(放后边讲)第七页,共74页。三、回归参数的估计(一)直线回归方程的概念:一般形式是:式中:
(Yhat)为由X推算得来的Y值,即Y的估计值;a称为截距(intercept),它是当X=0时的值,即回归直线与纵轴的交点;b称为回归系数(regressioncoefficient),即回归直线的斜率(slope),其含意是当X每增加一个单位时,Y相应增(或减)b个单位。第八页,共74页。(二)直线回归方程的求法
求直线回归方程就是确定一条直线,使各点与该直线纵向距离的平方和为最小,即Σ[Yi-(a+bX)]最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法(leastsquaremethod)。而且,该直线必须通过坐标点()。第九页,共74页。残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。原则:最小二乘法(leastsumofsquares),即可保证各实测点至直线的纵向距离的平方和最小。回归参数的估计——最小二乘原则
第十页,共74页。最小二乘法
(图示)xy(xn,yn)(x1,y1)
(x2,y2)(xi,yi)}ei=yi-yi^第十一页,共74页。第十二页,共74页。1.画散点图,由散点图可看出:1).两个变量间关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);2).两个变量间关系的类型,是直线型还是曲线型;3).是否有异常观测值的干扰。第十三页,共74页。2.用最小二乘法原理确定两个系数a,b,得到:当a与b求得后,直线回归方程就确定了。第十四页,共74页。实例例:为探讨某地饮水中氟含量与氟骨症的关系,试对测量得到的下列8对数据进行直线回归分析。氟含量(mg/L)X:0.48,0.64,1.00,1.47,1.60,2.86,3.21,4.71患病率(%)Y:22.37,23.31,25.32,22.29,28.57,35.00,46.07,46.08第十五页,共74页。求直线回归方程:1.由原始数据绘制散点图,观察两变量间是否有直线趋势;2.求∑X、∑Y、∑X2、∑Y2、∑XY
∑X=15.97、∑Y=249.01∑X2=47.03、∑Y2=8468.78、∑XY=594.483.第十六页,共74页。4.求b,a:b=lXY/lXX=97.39/15.15=6.43a=31.13-6.43×2.00=18.27故所求直线回归方程为:5.画回归直线:在自变量范围内取两点不能太近第十七页,共74页。直线回归方程的图示第十八页,共74页。四、总体回归系数β的显著性检验
回归系数的检验即回归方程的检验,其目的是推断总体中X、Y两变量间是否存在直线回归关系。因为,即使总体回归系数β=0,由于抽样误差的影响,b也可能不等于0,因此,需进行总体回归系数β是否为0的假设检验。有2种方法:方差分析和t检验。第十九页,共74页。直线回归的变异来源
p(x,y)
的分解图(一)F检验第二十页,共74页。(一)F检验应变量y的总变异,由y与x间存在直线关系所引起的变异,与偏差两部分构成,即:上式两端平方,然后对所有的n点求和,则有第二十一页,共74页。离差平方和的分解
(三个平方和的关系)2.两端平方后求和有从图上看有SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){第二十二页,共74页。直线回归的变异来源
p(x,y)
的分解图(一)F检验第二十三页,共74页。离差平方和的分解
(三个平方和的意义)总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和第二十四页,共74页。表明y的总平方和剖分为回归平方和与剩余平方和两部分。要比较必需考虑自由度,上述3个平方和的自由度的关系为:总=n-1
=1
=n-2
回剩第二十五页,共74页。回归方程的显著性检验
(线性关系的检验
)
检验自变量和因变量之间的线性关系是否显著.
具体方法是将平均回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著性意义.如果有显著性意义,两个变量之间存在线性关系如果无显著性意义,两个变量之间不存在线性关系第二十六页,共74页。回归方程的显著性检验
(检验的步骤)1.提出假设H0:线性关系不显著2.计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F
作出决策:若F
F
,拒绝H0;若F<F
,接受H0第二十七页,共74页。第二十八页,共74页。例:医生为了探讨缺碘地区母婴TSH(促甲状腺激素)水平的关系,随机抽取10对数据如下:母血TSH水平脐带血TSH水平1.211.301.391.421.471.561.681.721.982.103.904.504.204.834.164.934.324.994.705.20第二十九页,共74页。①由原始数据绘散点图第三十页,共74页。
将母血TSH水平作为自变量(independentvariable),用X表示,脐带血中TSH水平作为应变量(dependentvariable),用Y表示。脐带血TSH水平有随母血TSH水平增加而增大且呈直线趋势,但并非10个点子恰好全都在一直线上。第三十一页,共74页。②计算回归方程由前面已知:b=0.7474/0.7494=0.9973a=4.573-(0.9973)(1.583)=2.9943③直线回归方程第三十二页,共74页。假设检验例:用上例资料检验脐带血TSH水平对母血TSH水平的直线关系是否成立?
Ho:β=0即母血TSH水平与脐带血TSH水平之间无线性关系H1:β≠0即母血TSH水平与脐带血TSH水平之间有线性关系α
=0.05第三十三页,共74页。方差分析表第三十四页,共74页。已知υ1=1,υ2=8,查F界值表,得P<0.05,按α=0.05水准拒绝Ho,接受H1,故可以认为脐带血TSH水平与母血TSH水平之间有线性关系第三十五页,共74页。(二)t检验第三十六页,共74页。例:检验饮用水氟含量与氟骨症关系求得的直线回归方程是否成立?
H0:β=0H1:β≠0α=0.05
由υ=6,查t界值表,得P<0.001,按α=0.05水准拒绝H0,接受H1,可以认为某地饮水中氟含量与氟骨症之间有线性回归关系。第三十七页,共74页。
如我们求得回归方为。这里回归系数b=6.43是由样本求出的,根据参数原理,回归系数b是总体回归系数β的点值估计,象样本均数不一定恰好等于总体均数µ一样,需要对总体回归系数β的区间估计,回归系数b得误差可以用标准误表示之。计算公式为:(三)总体回归系数β的置信区间第三十八页,共74页。例:检验饮用水氟含量与氟骨症关系b=6.43,现估计总体回归系数β的95%可信区间。已知b=6.43,Sb=1.01,t0.05/2,(6)=2.447,则总体回归系数β的95%可信区间(6.43-2.447×1.01,6.43+2.447×1.01)=(3.96~8.90)第三十九页,共74页。第二节预测及应用第四十页,共74页。(一)总体回归线置信区间估计
y的的点估计利用估计的回归方程,对于自变量x的一个给定值xp
,求出因变量y
的平均值的一个估计值,就是平均值的点估计第四十一页,共74页。(一)总体回归线置信区间估计
y的总体均数的置信区间估计当x=xp
,y
的总体均数的1-
置信区间式中:Sy.x为估计标准误差第四十二页,共74页。(一)总体回归线置信区间估计一次抽样研究50岁年龄组舒张压得总体均数估计值82mmHg另一次抽样研究50岁年龄组舒张压得总体均数估计值83mmHg考虑到抽样误差所以要用总体均数的区间估计30岁、40岁、60岁、70岁年龄组舒张压得总体均数的区间估计是什么样,年龄为x,把不同年龄的区间估计的值连起来,将是怎样?第四十三页,共74页。置信区间、预测区间、回归方程xpyx
x预测上限置信上限预测下限置信下限第四十四页,共74页。(二)个体y预测区间估计
y的个别值的点估计当x=xp
时,y的一个个别值的估计值就是个别值的点估计第四十五页,共74页。(二)个体y预测区间估计
y的个别值的预测区间估计当x=xp
,y
的一个个别值的估计区间,这一区间称为预测区间
在1-
置信水平下的预测区间为注意!第四十六页,共74页。(二)个体y的预测区间带一次抽样研究同样是50岁年龄组,他们的舒张压是不同的,如82mmHg,83mmHg,75mmHg,78mmHg,…要了解包括95%的50岁年龄组的人的舒张压得区间有多大,(与95%的正常值范围意义相同)30岁、40岁、60岁、70岁年龄组舒张压的个体y值的区间估计是什么样,年龄为x,把不同年龄的个体y值的区间估计的值连起来,将是怎样?第四十七页,共74页。置信区间、预测区间、回归方程xpyx
x预测上限置信上限预测下限置信下限第四十八页,共74页。影响区间宽度的因素1. 置信水平(1-
)区间宽度随置信水平的增大而增大2. 数据的离散程度(s)区间宽度随离散程度的增大而增大3. 样本容量区间宽度随样本容量的增大而减小4. 用于预测的xp与
x的差异程度区间宽度随xp与
x的差异程度的增大而增大第四十九页,共74页。置信区间、预测区间、回归方程xpyx
x预测上限置信上限预测下限置信下限第五十页,共74页。二、线性回归模型的前提条件线性(linear)独立(independent)正态(normal)等方差(equalvariance)第五十一页,共74页。回归模型的前提条件(基本假定)
LINE1.线性(linear):用散点图判断是否呈线性2.独立independent):任意两个观察值互相独立,独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关3.正态(normal):线性模型的误差项服从正态分布,可用正态性检验,误差项ε是一个服从正态分布的随机变量4.等方差(equalvariance):在自变量取值范围内,不论x取什么值,y都有相同的方差,对于所有的x值,ε的方差σ2都相同第五十二页,共74页。..x1x2一个自变量情况下,同方差正态分布f(y|x)正态分布µ1µ2第五十三页,共74页。线性回归的应用(一)、定量描述两个变量之间的依存关系。通过回归系数的假设检验,若认为两变量之间存在线性回归关系,则可用线性回归来描述。(二)、利用回归方程进行预测(forecast)把自变量代入回归方程,对应变量进行估计,可求出应变量的波动范围。第五十四页,共74页。(三)、利用回归方程进行统计控制(statisticalcontrol):规定Y值的变化,通过控制X的范围实现统计控制的目标第五十五页,共74页。
1.作回归分析要有实际意义。不要把毫无关联的两个事物或现象用来作回归分析。如儿童身高的增长与小树的增长,作相关分析是没有实际意义的,如果计算由儿童身高推算小树高的回归方程则更无实际意义。也许算得的b是显著的,也是没有意义的。应用线性回归的注意事项第五十六页,共74页。
2.直线回归分析的资料有两种情况
(1)一个变量X是选定的和严格控制的值,另一个变Y是从正态分布的总体中随机抽取的,宜作回归分析。(2)两变量X、Y都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。这时,若需要由一个变量推算另一个变量可作回归分析;若只需说明两变量间的相互关系可作相关分析。第五十七页,共74页。
3.在进行直线回归或相关分析前,应绘制散点图
(1)当观察点的分布有直线趋势时,才适宜作直线回归或相关分析。如果不是线性趋势,应采用曲线直线化处理,或者非线性回归方程的方法进行分析。
(2)散点图还能提示资料有无异常点(outlier),即对应于残差绝对值特别大的观测数据。异常点的存在往往对回归方程中的系数及相关系数r的估计产生较大的影响。因此,需要复查此异常点,若是测定、记录或计算机录入错误,应予修正或删除。第五十八页,共74页。
4.直线回归的适用范围一般以自变量的取值范围为限,在此范围内求出的估计值,一般称为内插(interpolation)。超过自变量取值范围所计算的值称为外延(extrapolation)。若无充分理由证明超过自变量取值范围还是直线,应该避免外延。第五十九页,共74页。
5.在回归分析中,由X推算Y与由Y推算X的回归方程是不同的,不可混淆。回归系数截距由X推Y由Y推X第六十页,共74页。相关与回归分析的联系与区别
1.区别:1)资料要求不同:相关分析要求两个变量是双变量正态分布,回归分析要求因变量Y是服从正态分布的随机变量,而自变量X可以是服从正态分布的随机变量(II型回归),也可以是能精确测量和严格控制的变量(I型回归)。2)意义:相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。第六十一页,共74页。3)应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。4)研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年社会工作高级考试试题及答案解析
- 通道装饰装修施工方案及技术措施
- 2026年建筑焊工(建筑特殊工种)操作证考试试题及答案(完整版)
- 2026机修钳工考试题库及模拟考试试题及答案(中级)
- 2026年心理咨询师考试卷及答案
- 2025年二级建造师施工管理真题及答案(完整版)
- 护理不良事件相关知识考核试题及答案
- 化工反应釜安装调试施工方案及技术措施
- 产房多器官功能障碍应急疏散预案演练脚本
- 2026江苏旅游职业学院招聘人事代理、合同制工作人员7人笔试题库含完整答案详解(夺冠系列)
- 施工组织设计示范方案范文
- 2025四川省人力资源和社会保障厅制劳动合同书
- 外贸业务员培训知识内容课件
- (正式版)XJJ 109-2019 《自保温砌块应用技术标准》
- 村级信访工作培训课件
- 美团电动车租车协议合同
- 二年级上册数学乘法口算专项练习题(每日一练共37份)
- 中班健康课件眼睛的秘密
- JG/T 410-2013飞机库门
- 国开心理学试题及答案
- 浙江省杭州市小升初分班考科学卷(二)及答案
评论
0/150
提交评论