




已阅读5页,还剩50页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 医学统计学福医卫生统计系林征2013 11第九章 线性回归ChapterX LinearRegression FrancisGalton SirFrancisGalton 1822 1911 thesize heights ofdescendantsoflargepeas tallancestors tendtoregressdowntowardsanormalaverage 一 直线回归 linearregression 直线回归 它们呈直线关系 但所有的点并非都在直线上 它们间的关系并非下列严格的函数关系根据散点图所反映出的两变量线性趋势 我们可以假定 相对x各个取值相应的y的总体均数位于一条直线上 与x间在数量上的依存关系就称为直线回归 linearregression 用以下公式表示y的条件总体均数依赖于x的数值变化 直线回归 一般情况下回归方程只能从样本得到 称为样本回归方程或经验回归方程如果以表示的一个样本估计值 即x确定时y的样本均数 则样本回归方程可以表达如下 上式中的读作 yhat 直线回归 linearregression y 因变量 响应变量 尿肌酐含量 mmol 24h dependentvariable responsevariable x 自变量 解释变量 体重 kg independentvariable explanatoryvariable b 回归系数 斜率 mmol 24h kg regressioncoefficient slope a 截距 mmol 24h intercept 直线回归假定了一条回归直线 该直线表达了自变量X与对应的因变量Y的总体均数间的数量关系 my x a bxY的实际观察值y并不总在该回归线上 而是与其所对应的总体均数间 my x 存在差别 这部分的差别称为残差e 表示y的随机抽样误差 y my x a bx X Y my x a x 回归直线 直线回归 0 简单线性回归 由于涉及的自变量只有一个 所以这种线性回归又称为简单线性回归模型 simplelinearregressionmodel LINE假定 二 回归模型的前提假设 线性 linear 因变量均数 y x与自变量x间呈直线关系 y x x独立 independent 任意观察值之间彼此独立正态 normal 对于任何给定的x y服从正态分布 均数为 y x 标准差为 y x方差齐性 equalvariance 对于任何x值 随机变量y的方差 y x2相等 N my x sy x2 三 回归参数的估计 根据一个给定的包含n对X和Y观测数据的样本 可以建立样本回归直线但是并非所有实际测量值y都在该回归线上 即实测值与直线估计值间存在误差 残差求解a b实际上就是 合理地 找到一条能最好地代表数据点分布趋势的直线 使估计值尽可能接近观测值 使得残差尽量小最小二乘法 leastsumofsquares 原则 各实测点至直线的纵向距离 残差 的平方和最小 最小二乘估计 回归参数的估计方法 依据最小二乘法的估计原则 利用微积分中求极值的方法可以求得直线的斜率 回归系数 与截距 回归参数的估计方法 散点图提示x y间呈现直线关系任意不同个体间两个指标均独立根据医学常识 同龄人的尿肌酐含量满足正态分布不同年龄人群的尿肌酐含量离散程度接近 回归参数的估计方法 代入上述公式得 计算器可直接得到a与b 故回归方程为 回归直线的特征 回归直线通过样本均值 估计值的均值 实测值的均值 残差之和为0 四 总体回归系数b的统计推断 求得a b建立样本直线回归方程 只是完成了统计分析中两变量关系的统计描述研究者还须回答它所来自的总体的直线回归关系是否确实存在 b也有抽样误差 即是否对总体有b 0 总体回归系数b的统计推断 我们所见的Y值的变异 Sy2 不考虑x的作用 沿着回归线看去 Y的变异情况 Sy x2 扣除回归作用后还剩余的 估计误差 errorofestimate 与估计误差的标准误 standarderrorofestimate 如上图中所表示 将各实际值y与由回归方程计算的估计值yhat之间的差值称为估计误差 即残差 如何评价这种估计误差的大小 类似于之前介绍的反映数据变异程度的指标 标准差 将残差的标准差Sy x standarderrorofestimate 作为估计误差大小的反映由于yhat决定于均数与回归系数 所以自由度为n 2 公式如下 它反映了散点围绕回归直线的分散程度 体现了回归直线估计误差的大小 如果回归模型越好则估计值的标准误也越小 样本回归系数b的标准误 对于某一总体资料 可以从中作抽样研究 分别计算各样本的回归系数b 则样本回归系数不一定等于总体回归系数b 而且不同的样本回归系数间也不一定相同类似于前面的样本均数的标准误 我们将样本回归系数的标准差称为回归系数的标准误 用公式表示如下 样本回归系数b的标准误 如果直接计算Sy x是较为麻烦的 可以考虑使用如下公式 计算较为方便 样本回归系数b的标准误 以课文9 1数据为例 计算过程如下 总体回归系数b的假设检验 t检验 在回归条件满足的情况下 LINE假定 使用最小二乘法计算的样本回归系数b满足正态分布 记为 满足正态分布 就可以作u转换 但是由于通常只作一次抽样 回归系数的总体标准误未知 在样本含量n较小的情况下 只能求得回归系数标准误的估计值Sb 对其作t转换如下 总体回归系数b的假设检验 H0 总体回归系数为0 b 0 H1 总体回归系数不为0 b 0 a 0 05 双侧 将b与Sb代入上述公式得 故在a 0 05的水准上 拒绝H0 认为总体回归系数不为0注意tb tr 总体回归系数b的置信区间 类似与总体均数与总体率的可信区间 总体回归系数的可信区间同样可以用t分布的曲线下面积规律导出 上述例题中 回归系数的95 的可信区间为 总体回归系数b的假设检验 方差分析 SS总 SS残 SS回 V总 n 1 V回 1 V残 n 2 总体回归系数b的假设检验 方差分析 可见不考虑回归时 Y的总变异SS总 归结于随机误差 而考虑回归后 由于回归的贡献使得随机误差减小为SS残如果两个变量间的回归关系的确存在 则变异度减少将十分之 显著 即SS回归大于SS残 大到何种程度才认为具有统计学意义 计算以下统计量 对于简单线性回归 有tb2 F 总体回归系数b的假设检验 方差分析 决定系数 Coefficientofdetermination R2 SS回 SS总取值介于0 1 表示回归解释了因变量变异的比例 其值越大表示回归预测效果越好在实际应用中 通常需要用决定系数反映回归的实际效果对于简单线性回归 有r2 决定系数 五 总体回归线的95 置信带 通过样本资料得到的回归直线为 其中yhat为相应的总体条件均数my x的估计值 会随样本而异 为了考虑抽样误差的影响 在估计总体参数my x时采用区间估计yhat满足正态分布 但是由于通常只有一次抽样无法得到yhat的总体方差 故只能通过t统计量计算其可信区间 Xp 总体回归线的95 置信带 yphat的变异不仅决定于y的均数 同时也取决于回归系数的作用 根据方差的特性 总体回归线的95 置信带 所以对于给定xp时 yp的总体均数myp xp相应的可信区间为 可以看出 当xp x的均数时 yhat的标准误是最小的 相应的可信区间是最窄的而当xp偏离其均数时 myp xp的可信区间将变得越来越宽 总体回归线的95 置信带 将样本中的每个xp代入上述公式就可求得相应的y的条件均数 my x 的可信区间 confidenceintervalofconditionalmeanofy 由于上述可信区间的特点 当所有可信区间的上下限相连接后就会形成一个弧形的区带 称为my x的置信带 confidenceband 总体回归线的95 置信带 例如年龄为12时 其所对应的尿肌酐均值为3 332 yhat 总体均值 my x 的95 可信区间为3 080 3 584mmol 24h总体回归线置信带的意义 在满足LINE假定的情况下 利用最小二乘原则估计的总体回归线被两条弧线所组成的置信带所包含 其可信度为 1 a 六 y预测值的区间估计 在回归分析中 假设x取某一数值时 变量y的取值围绕a bx波动 呈正态分布 其均数为my x 标准差为sy x Sy x是的sy x估计值 因而如果能够求得a与b 就可以利用正态分布的原理估计个体值y的预测值范围在抽样研究中 我们得到的是总体回归线的估计线 yhat a bx 因此可估计约有95 的观察值在yhat 1 96Sy x内 但是yhat又是总体均数my x的估计值 会随样本而改变 其变异程度如前所述用Syhat表示因此 我们要预测某次实验中x取一定值时 y的相应取值范围 就要同时考虑这两种误差 Xp Xp y预测值的区间估计 如上所述 个体值y的变异程度因该表达为 由前述公式得到其具体计算式如下 y预测值的区间估计 所以根据正态分布的理论 在xp时以下范围内包含了95 的yp值 y预测值的区间估计 与预测值的标准误Syhat类似的是 个体值的变异度Sy也取决于xp和x均值间的距离 如果这个距离越大 则个体值的变异程度也相应越大如果样本含量很大 则公式根号中的1 n将趋近于0 同时根号中的第三项由于lxx的增大也将趋近于0 此时个体值的变异程度就近似用Sy x表达 而在样本含量很大的情况下 Sy x sy x也就是说 如果n很大 则个体值的变异度就是接近Sy x 此时t0 05 2 n 2也约等于u0 05 2 以上公式近似为 y预测值的区间估计 将样本中的每个xp代入上述公式就可求得相应的y的预测值区间 predictedintervalforindividualy 由于上述预测值区间的特点 当所有预测范围的上下限相连接后就会形成一个弧形的区带 称为y预测带 predictionband 根据前述公式 该预测带包含置信带 y预测值的区间估计 例如年龄为12岁时 尿肌酐含量的95 预测值范围为 2 788 3 876mmol 24h个体值y的预测带的意义 如果两个变量间回归关系没有改变的话 在两条弧线所组成的预测带中包含了1 a的y值 七 残差分析 残差分析 残差分析具有深入了解数据是否满足LINE假定 资料中是否存在异常点等功效在上图中 横坐标为因变量Y 纵坐标为经过标准化后的残差 可见几乎所有数据的标准化残差均分布在 2以内 残差并未随自变量的而改变 残差并未随着自变量的增大而逐渐增大或减小 因此该资料满足线性回归的条件 残差分析 八 线性回归的注意事项 作回归分析要有实际意义 不能把毫无关联的两种现象 随意进行回归分析 如对儿童身高与小树的生长数据进行回归分析既无道理也无用途 另外 即使两个变量间存在回归关系时 也不一定是因果关系 兄弟间的身高关系 必须结合专业知识作出合理解释和结论 线性回归的注意事项 进行回归分析时 应先绘制散点图 scatterplot 若提示有直线趋势存在时 可作直线回归分析一般说 不满足线性条件的情形 最好采用非线性回归方程的方法进行分析 线性回归的注意事项 绘制散点图后 若出现一些特大特小的离群值 异常点 则应及时复核检查 对由于测定 记录或计算机录入的错误数据 应予以修正 否则 异常点的存在会对回归方程中的系数a b的估计产生较大影响 线性回归的注意事项 直线回归分析的资料 一般要求应变量Y是来自正态总体的随机变量 自变量X可以是正态随机变量 II型回归 也可以是精确测量和严密控制的值 I型回归 若Y仅有稍许偏离正态时 一般对回归方程中参数的估计影响不大 但可能影响到标准差的估计 也会影响假设检验时P值的真实性 线性回归的注意事项 直线回归的适用范围一般以自变量取值范围为限 在此范围内求出的估计值称为内插 interpolation 超过自变量取值范围所计算的称为外延 extrapolation 若无充足理由证明 超出自变量取值范围后直线回归关系仍成立时 应该避免随意外延以免预测错误 九 相关与回归的联系与区别 二者的联系 变量间关系的方向一致 对同一资料 其r与b的正负号一致假设检验等价 对同一样本 tr tb 由于tb计算较复杂 实际中常以r的假设检验代替对b的检验r与b值可相互换算 相关与回归的联系与区别 二者的区别 资料要求不同 相关要求两个变量是双变量正态分布 回归要求应变量Y服从正态分布 而自变量X则并不要求一定满足正态统计意义不同 相关反映两变量间的伴随关系这种关系是相互的 对等的 不一定有因果关系 回归则反映两变量间的依存关系 有自变量与应变量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 创新安全培训观念课件
- 创客你我他课件
- 耐药机制阻断策略-洞察及研究
- 统编版语文三年级上册第二单元习作写日记 +公开课一等奖创新教案
- 脑机接口与行为认知的虚拟现实研究-洞察及研究
- 化妆品安全知识培训方案课件
- 兆驰入职安全培训课件
- 软件无线电加密-洞察及研究
- 世界遗产标准-洞察及研究
- 元音组合air发音课件
- 财务预算培训课件
- 高桩码头施工培训课件
- 砂石加工现场管理制度
- it部门考核方案(3篇)
- 山东C类人员安全考核模拟练习题及参考答案解析
- 中通规章管理制度
- 茶山管理协议书
- 代办土地证协议书
- 创意美术课程教学大纲
- 2025年生物性污染对人体健康的危害与生物安全防控措施
- 现代文献检索与利用3-文献检索技术
评论
0/150
提交评论