




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
直线回归与相关 linear regression and correlation 回归分析与相关分析 双变量间关系:年龄身高、肺活量体重、药物 剂量与动物死亡率等。 (1)依存关系:应变量(dependent variable)Y随自变量 (independent variable)X变化而变化。 回归分析 互依关系: 应变量Y与自变量 X间的彼此关系 相关分析 双变量计量资料:每个个体有两个变量值 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), , (Xn,Yn) 目的:研究X和Y的数量关系 方法:回归与相关 简单、基本直线回归、直线相关 “一因一果”,即一个自变量与一个依变量一元回 归分析; 研究“多因一果”,即多个自变量与一个依变量 的回归分析称为多元回归分析。 一元回归分析又分为直线回归分析与曲线回归 分析两种; 多元回归分析又分为多元线性回归分析与多元 非线性回归分析两种。 第一节第一节 直线回归直线回归 ( linear regression 线性回归) 1直线回归的概念: 直线回归是分析两变量间线性依存变化的 数量关系。 2.“回归”的由来 3. 3. 英国统计学家英国统计学家FGaltonFGalton 和和他的学生、现代统计学他的学生、现代统计学 的奠基者之一的奠基者之一KPearson KPearson 在研究父母身高与其子女身高在研究父母身高与其子女身高 的遗传问题时,观察了的遗传问题时,观察了1078 1078 对夫妇,以每对夫妇中父对夫妇,以每对夫妇中父 亲的身高作为自变量亲的身高作为自变量X X,而取他们的一个成年儿子的而取他们的一个成年儿子的 身高作为应变量身高作为应变量Y Y,将结果在平面直角坐标系上绘成,将结果在平面直角坐标系上绘成 散点图,发现趋势近乎一条直线。计算出的回归直线散点图,发现趋势近乎一条直线。计算出的回归直线 方程为方程为 : 儿子身高(Y,英寸)与父亲身高(X,英寸 )存在线性关系: 。 也即高个子父代的子代在成年之后的 身高平均来说不是更高,而是稍矮于其父代 水平,而矮个子父代的子代的平均身高不是 更矮,而是稍高于其父代水平。Galton将这 种趋向于种族稳定的现象称之“回归”。 目前,“回归”已成为表示变量之间某种数 量依存关系的统计学术语,并且衍生出“ 回归方程”“回归系数”等统计学概念。如 研究糖尿病人血糖与其胰岛素水平的关系 ,研究儿童年龄与体重的关系等。 3.函数关系与回归关系函数关系与回归关系 函数关系函数关系: 确定。例如 园周长与半径: y=2r 回归关系回归关系:不确定。例如血压和年龄的关系 ,直线回归的任务就是找出一条最能描述变 量间非确定性数量关系的一条直线,此直线 为回归直线,相应的直线方程称为 直线回归方程( linear regression equation)。 对资料的要求:自变量 x :正态总体中的随机变量或指定变 量 因变量 y :服从正态分布的随机变量 体重(kg),x 肺活量( ) , Y L 十名女中学生体重与肺活量散点图 a a 为回归直线在 y 轴上的截距 0 0 y y x x a 0 a = 0 a 0 b = 0 b 0,Y随X的增大而增大(减少 而减少) 斜上; b0,Y随X的增大而减小(减少 而增加) 斜下; b=0,Y与X无直线关系 水平。 b越大,表示Y随X变化越快,直线越陡峭。 5直线回归方程参数的计算 y = a + bx 最小二乘法原则 (least square method):使各实际 散点(Y)到直线( )的纵向距离的平方和最小。即 使 (残差或剩余值)最小。 Yi (Y的估计值) = a + bXi Yi 估计值i 残差i = Yi 估计值i 残差(residual)或剩余值,即实测值Y与假定回归线 上的估计值的纵向距离 。 求解a、b实际上就是“合理地”找到一条能最好地代 表数据点分布趋势的直线。 因为直线一定经过因为直线一定经过 “ “均数均数” ”点点 例:用某饲料喂养12只大白鼠,得出大白鼠的进 食量与体重增加量结果,试作直线回归分析。 (1).由原始数据作散点图,观察两变量间的趋势 12只大白鼠的进食量(g)与体重增加量(g)测量结果 (2).计算X、Y的均数X、Y,离均差平方 和lXX、lYY与离均差积和lXY ab (3). (4). Y = 2 + 0.0648X (5).按求得的直线回归方程,在X实际范围内任意取两点 (X1,Y1),(X2,Y2), 相连即得回归直线。 Y = Y +b (x - x) 6. 回归系数的假设检验 建立样本直线回归方程,只是完成了统计分析两变量 关系的统计描述,研究者还须回答它所来自的总体 的直线回归关系是否确实存在,即是否对总体有 ? X 目的:目的:推断总体回归系数 是否为0, 确定所求得的回归方程是否成 立。 | b - 0 | b t = = , = n - 2 S b S b S yx S b = , _ ( x - x ) 2 _ S b 为样本回归系数标准误 S yx 为剩余标准差 方差分析法 t检验法 r - 0 r t r= = , S r 1 - r 2 n - 2 _ = n - 2 ( y - y ) 2 Syx = n-2 =l yy - b l xy ( y - ) 2 = ( y - y ) 2 - ( x x )( y y )2 ( x x )2 同一组资料作直线相关与回归时 tb 与 tr 等值 t b= 回归系数的标准误 b为总体回归系数 的估计值,其误差为Sb 的95的可信区间为 S yx S b = , _ ( x - x ) 2 _ 决定系数:回归平方和与总平方和之比,大小反映 了回归贡献的相对程度,也就是在Y的总变异中回归 关系所能解释的百分比。 1.总体回归线的95%置信带 即 的可信区间 第二节 直线回归的应用 标准估计误差 各实际值Y与估计值 有一定的误差,称为估 计误差,即各实际点与回归线纵轴方向的离 散程度,即标准估计误差 2.个体Yi 值的范围预测 i i i i i i ii i 95 的可信区间与 个体 Yi 的预测范围有关数据 编编 号 XYY_hat均数 标标准误误 个值值 标标准误误 均数 下限 均数 上限 个值值 下限 个值值 上限 113 3.543.471 0.1271 0.2344 3.1602 3.7824 2.8977 4.0449 211 3.013.193 0.0832 0.2138 2.9892 3.3966 2.6697 3.7161 39 3.092.915 0.0713 0.2095 2.7401 3.0889 2.4020 3.4270 46 2.482.497 0.1271 0.2344 2.1858 2.8080 1.9233 3.0705 58 2.562.775 0.0832 0.2138 2.5716 2.9790 2.2521 3.2985 610 3.363.054 0.0713 0.2095 2.8793 3.2281 2.5412 3.5662 712 3.183.332 0.1031 0.2223 3.0799 3.5843 2.7882 3.8760 87 2.652.636 0.1031 0.2223 2.3839 2.8883 2.0922 3.1800 直线回归方程的应用 * 描述两变量的依存数量关系; * 利用回归方程进行预测:由易测的变量值估 算难算的变量值(由 x 估计 y); X:汽车流量 ( 辆/小时 ) , y: NOx ( mg/M3) y = -1.674 + 0.0001838 x *利用回归方程进行控制:即利用回归方程进行 逆估计(由 y 估计 x)。 第三节第三节 直线相关直线相关 ( linear correlation ) 简单相关(simple correlation),用于双变量正 态分布资料。 进行直线相关分析的基本任务在于根据x、y 的实际观测值计算表示两个相关变量x与y线 性相关程度和性质的统计指标相关系数r, 并进行显著性检验。 1 1直线相关的概念直线相关的概念 直线相关是研究两变量 x、y 之间协同变 化的线性关系 的分析方法。 体重(kg),x 肺活量( ) , Y L 十名女中学生体重与肺活量散点图 2对资料的要求 x、y 都是正态分布资料的随机变量。 3相关系数 (correlation coefficient ,r ) * *表示方法表示方法: -1 r 1 * * 意义:意义:描述两个变量直线相关的方向与 密切程度的指标。 正相关 负相关 0 r 1 -1 r 0 * * 相关系数示意:相关系数示意: r = 1 r = - 1 完全正相关 完全负相关 相关系数示意相关系数示意 r 0 r 0 r 0 零相关 零相关 零相关 * * 计算方法:计算方法: _ ( x - x )( y - y ) l xy r = = _ _ ( x - x ) 2 ( y - y ) 2 l xx l yy _ ( x )( y ) l xy = ( x - x )( y - y ) = xy - n _ ( x ) 2 l xx = ( x - x ) 2 = x 2 - n _ ( y ) 2 l yy = ( y - y ) 2 = y 2 - n _ 10名女中学生的体重(x)与肺活量(y)的直线相关计算 编号 X Y X2 Y2 XY (1) (2) (3) (4) (5) (6) 1 35 1.60 1225 2.5600 56.00 2 37 1.60 1369 2.5600 59.20 3 37 2.40 1369 5.7600 88.80 4 40 2.10 1600 4.4100 84.00 5 40 2.60 1600 6.7600 104.00 6 42 2.50 1764 6.2500 105.00 7 42 2.65 1764 7.0225 111.30 8 43 2.75 1849 7.5625 118.25 9 44 2.75 1936 7.5625 121.00 10 45 2.20 2025 4.8400 99.00 405 23.15 16501 55.2875 946.55 _ _ ( x - x ) 2 ( y - y ) 2 l xx l yy 计算: _ ( x - x )( y - y ) l xy r = = _ ( x )( y ) l xy = ( x - x )( y - y ) = xy - n _ _ 8.975 ( x ) 2 l xx = ( x - x ) 2 = x 2 - n _ 98.5 ( y ) 2 l yy = ( y - y ) 2 = y 2 - n _ 1.69525 r = 8.975 98.5 1.69525 = 0.6945 4相关系数的假设检验 * *目的:目的:检验 r 是否来自总体相关系数 = 0 的 总体,推断两变量的相关关系是否成立 。 r - 0 rr - 0 r t = = t = = , S S r r 1 - r1 - r 2 2 n - 2 n - 2 _ = n - 2= n - 2 S r 为相关系数的标准误 * *公式:公式: 检验假设:H0 : 0, H1: 0, =0.05 r - 0 r t = = , S r 1 - r 2 n - 2 _ = n - 2 t = 0.6945 (1-0.69452 ) / (10-2) = 2.730 = n 2 = 10 2 = 8 P 0.05 结论:可认为该地女中学生的体重与肺活量 有正相关关系 区别: 1)意义 直线回归反映两变量的依存关系; 直线相关反映两变量的相互关系。 5 5、直线回归与直线相关的联系与区别、直线回归与直线相关的联系与区别 2)对资料的要求 直线回归:自变量是正态总体的随机变量 或指定变量,y 一定是正态总体的随机变量; 直线相关:两变量均为正态总体的随机变量 。 联系: 1)同一组资料的 r 与 b 的正负符号是一致 的; 2)同一组资料的 r 和 b 的假设检验结果是 一致的,即 t r = t b。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 财务部门月度工作汇报范本
- 酒店服务质量提升培训教材及考核题
- 高校机房智能化升级方案
- 酒店安全管理岗位职责说明
- 仓储货物安全管理操作规程
- 银行网点风险管理与合规操作指南
- 广播电台暖心治愈节目稿件模版
- 2026淘天集团秋季应届生招聘备考考试题库附答案解析
- 2025山东烟台幼儿师范高等专科学校第二批招聘工作人员5人考试参考题库及答案解析
- 房地产租赁合同规范及注意事项
- 《人工智能发展史》课件
- 环境保护负面舆情应急处理方案
- 肺结核课件教学课件
- 医学教程 《精神卫生法》解读
- DB53-T 1285-2024 学校集体用餐配送服务规程
- 图书馆消防安全应急预案
- 《春》课后习题参考答案
- 推拿学课程教案
- 教学计划(教学计划)-2024-2025学年大象版五年级科学上册
- 品酒师(黄酒)理论知识考核要素细目表四级
- 一年级尊师礼仪
评论
0/150
提交评论