




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
薅衿膈薈蒁羈芀莁螀羇羀薆蚅羆肂荿蚁羅芄蚅薇羄莇蒇袆羄肆芀螂羃膈蒆蚈羂芁艿薄肁羀蒄蒀肀肃芇蝿聿膅蒂螅肈莇芅蚁肈肇薁薇肇腿莃袅肆节蕿螁肅莄莂蚇膄肄薇薃螁膆莀葿螀芈薅袈蝿肈蒈螄螈膀蚄蚀螇芃蒇薆螆莅艿袄螆肄蒅螀袅膇芈蚆袄艿蒃薂袃罿芆薈袂膁薁袇袁芃莄螃袀莆薀虿袀肅莃薅衿膈薈蒁羈芀莁螀羇羀薆蚅羆肂荿蚁羅芄蚅薇羄莇蒇袆羄肆芀螂羃膈蒆蚈羂芁艿薄肁羀蒄蒀肀肃芇蝿聿膅蒂螅肈莇芅蚁肈肇薁薇肇腿莃袅肆节蕿螁肅莄莂蚇膄肄薇薃螁膆莀葿螀芈薅袈蝿肈蒈螄螈膀蚄蚀螇芃蒇薆螆莅艿袄螆肄蒅螀袅膇芈蚆袄艿蒃薂袃罿芆薈袂膁薁袇袁芃莄螃袀莆薀虿袀肅莃薅衿膈薈蒁羈芀莁螀羇羀薆蚅羆肂荿蚁羅芄蚅薇羄莇蒇袆羄肆芀螂羃膈蒆蚈羂芁艿薄肁羀蒄蒀肀肃芇蝿聿膅蒂螅肈莇芅蚁肈肇薁薇肇腿莃袅肆节蕿螁肅莄莂蚇膄肄薇薃螁膆莀葿螀芈薅袈蝿肈蒈螄螈膀蚄蚀螇芃蒇薆螆莅艿袄螆肄蒅螀袅膇芈蚆袄艿蒃薂袃罿芆薈袂膁薁袇袁芃莄螃袀莆薀虿袀肅莃薅衿膈薈蒁羈芀莁螀羇羀薆蚅羆肂荿蚁羅芄蚅薇羄莇蒇袆羄肆芀螂羃膈蒆蚈羂芁 第九章 线性回归 上一章讨论的线性相关用于描述两个随机变量X与Y之间线性联系的程度,结论所反映的是它们相互之间的关系,两变量并无主次之分。 随着所探索问题的深入,研究者通常更感兴趣于其中的一个变量如何定量地影响另一变量的取值,如医学研究中常需要从某项指标估算另一项指标,如果这指标分别是测量变量X和Y,我们希望由X推算Y的值。我们称X为自变量,Y则称为依赖于X的因变量。如果Y与X的关系呈线性时,我们可以用线性回归(linear regression)描述两者的关系。一 回归的概念:100多年前,有位英国遗传学家(Galton)注意到当父亲身高很高时,他的儿子的身高一般不会比父亲身高更高。同样如果父亲很矮,他的儿子也一般不会比父亲矮,而会向一般人的均值靠拢。当时这位英国遗传学家将这现象称为回归,现在将这概念引伸到随机变量有向回归线集中的趋势。即观察值不是全落在回归线上,而是散布在回归线周围。但离回归线越近,观察值越多,偏离较远的观察值极少,这种不完全呈函数关系,但又有一定数量的关系的现象称回归。二线性回归的统计描述:(一)线性回归的方程:=a + bX(二)线性回归的参数估计:线性方程:Y=a+bX回归方程:=a+bX式中a,b是决定回归直线的两个系数。a为截距,b为回归系数,即直线的斜率。b的统计学意义是X每增加(减)一个单位,Y平均改变b个单位。怎样的最好地代表了所有的Y,需要有个标准。经典的标准是最小二乘(least squares)原则:每个观察点距离回归线的纵向距离的平方和最小。得: 用例8.1,示范线性回归的计算过程:=74.17+0.5698X三回归系数的统计推断:(一)回归系数的假设检验(t检验):1. 建立检验假设:H0:=0,H1:0,=0.052. 计算统计量t: =n-2先计算剩余标准差s:已知: b=0.5698s为剩余标准差:即去除X对Y的作用后,Y的变异。回归系数的标准误为: ()3. 确定概率和判断结果:=n-2=20-2=18,P0.01,拒绝H0,可认为回归系数有统计学意义。(二)回归方程的假设检验(方差分析,ANOVA):1. 建立检验假设: H0:回归无贡献 H1:回归有贡献 =0.052. 计算统计量F:方差分析的基本思想:将总的变异分离成各个部分,确定各部分变异的来源,然后将处理因素的变异与随机变异(误差)比较。如果比值接近1,说明都是随机变异,如果比值远大于1,说明处理变异中除随机变异外还有效应变异存在。在Y的总变异(总离均差平方和)中,包含回归离均差平方和和残差离均差平方和。 即:SST = SSr + SSe 总SST是:回归SSr是:残差SSe是:698.55-603.63=94.92方差分析的统计量是F值:变异 来源 离均差平方和(SS)自由度()均方 (MS) F值回归603.631603.63114.54残差94.92185.27总698.55193. 确定概率和判断结果:查1=1和2=18的F界值(附表6.1), 得F=4.41,P0.05,可以认为回归有贡献。( 分子的自由度为1时,)(三)确定系数:相关系数的平方称为确定系数,它反映回归贡献的程度。相当于在总离均差平方和中回归能解释的百分比。即说明回归贡献占Y的总变异中的比例。 本例r=0.9296,R2=0.8641,即由父亲的身高信息大约可解释儿子身高变异性的86%。四几种置信区间估计:1. 的置信区间: 意义:估计X对Y的效应有多大,如例9.1:回归系数为0.5698,置信区间是(0.48, 0.68),说明儿子身高起码有一半是受父亲影响的。2. 的置信区间:意义:当估计出Y的值(),根据置信区间可以知道误差有多大。如例9.1:某父亲身高165.8cm,估计他儿子的身高是168.64cm,置信区间是167.51169.77cm,误差不大。3. 个体Y值的预测区间:意义:在X取值为x*时,Y的参考值范围(Reference range)。如例9.1:某父亲身高165.8cm,估计他儿子的身高是168.64cm,Y的参考值范围是163.68173.59cm。如:建立年龄与血压的线性回归方程后,可估计每个年龄的血压参考值范围。五回归的应用:1. 预测:由X预测Y的值。例:由父亲身高预测儿子成人后身高。2. 控制:由Y值控制X的取值范围。 已知空气氮氧化物(Y)的污染与汽车流量(X)的回归关系,当确定Y的标准后,控制X的值。3. 减少变异(标准差),更准确地估计参考值范围。 例:制定不同年龄的血压正常值范围。六线性回归的类型与条件:(一)线性回归的类型:1 Y随机变量,服从正态分布,X人为取值, 称型回归。 (浓度与光密度)2 Y随机变量,服从正态分布,X也为随机变量,服从正态分布,称型回归。(父高与子高)(二)线性回归的条件:1. 线性(linear):2. 独立(independent)3. 正态(normal) :Y值服从正态分布。 4. 等方差(equal variance):x2=2“LINE”七线性回归与相关的区别和联系:1 区别:资料上: 相关要求X与Y为随机变量,且X和Y服从正态分布(双变量正态分布)。回归要求Y为随机变量,服从正态分布;X可人为取值,称型回归。X与Y为随机变量,均服从正态分布;称型回归。应用上: 说明变量间的依存变化关系用回归;说明变量间的相关变化关系用相关。2 联系:(1) 同一组资料,r与b正负号一致。(2) 同一样本,tr=tb。(3) 用回归解释相关。 薅袀芇芇螀螆芆荿薃肅芆蒁蝿羁莅薄薁袇莄芃螇螃莃莆薀肁莂薈螅肇莁蚀蚈羃莀莀袃衿羇蒂蚆螅羆薄袂肄羅芄蚅羀肄莆袀袆肃葿蚃螂肃蚁蒆膁肂莁螁肇肁蒃薄羃肀薅蝿衿聿芅薂螅肈莇螈肃膇蒀薀罿膇薂螆袅膆莂蕿袁膅蒄袄螇膄薆蚇肆膃芆袃羂膂莈蚅袈节蒀袁螄芁薃蚄肂芀节蒆羈艿蒅蚂羄芈薇薅袀芇芇螀螆芆荿薃肅芆蒁蝿羁莅薄薁袇莄芃螇螃莃莆薀肁莂薈螅肇莁蚀蚈羃莀莀袃衿羇蒂蚆螅羆薄袂肄羅芄蚅羀肄莆袀袆肃葿蚃螂肃蚁蒆膁肂莁螁肇肁蒃薄羃肀薅蝿衿聿芅薂螅肈莇螈肃膇蒀薀罿膇薂螆袅膆莂蕿袁膅蒄袄螇膄薆蚇肆膃芆袃羂膂莈蚅袈节蒀袁螄芁薃蚄肂芀节蒆羈艿蒅蚂羄芈薇薅袀芇芇螀螆芆
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025网络安全行业劳动合同模板
- 2025采购销售货物合同书
- 租赁园区大棚合同范本
- 2025携手共进合作开发土地合同模板
- 2025风电场EMC合同模板
- 民间抵押汽车合同范本
- 车辆采购合同范本
- 爷孙房屋购买合同范本
- 道闸租赁合同范本
- 定制车库维修合同范本
- 福建省福州市联盟校2023-2024学年高一下学期期末考试英语试题(解析版)
- 2025文化和旅游部直属事业单位招聘社会人员29人模拟试卷附答案详解
- 2024-2025学年重庆市万州区八年级(下)期末语文试卷
- 2025年乒乓球二级裁判考试题及答案
- 血标本采集考试试题附有答案
- 2025年公共安全生产试题及答案
- 员工工资及考勤管理制度
- 浙江省温州市龙湾区2024-2025学年七年级下学期学业水平期末检测数学试题
- 废料出售管理办法
- 企业干部退出管理办法
- 河南选调生管理暂行办法
评论
0/150
提交评论