第十二章--简单回归分析-卫生统计学》第五版课件目录(五年制预防医学用)教学课件.ppt_第1页
第十二章--简单回归分析-卫生统计学》第五版课件目录(五年制预防医学用)教学课件.ppt_第2页
第十二章--简单回归分析-卫生统计学》第五版课件目录(五年制预防医学用)教学课件.ppt_第3页
第十二章--简单回归分析-卫生统计学》第五版课件目录(五年制预防医学用)教学课件.ppt_第4页
第十二章--简单回归分析-卫生统计学》第五版课件目录(五年制预防医学用)教学课件.ppt_第5页
免费预览已结束,剩余73页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第12章 简单回归分析Simplelinearregressionanalysis 本章内容第一节简单线性回归第二节线性回归的应用第三节残差分析第四节非线性回归 双变量计量资料 每个个体有两个变量值总体 无限或有限对变量值样本 从总体随机抽取的n对变量值 X1 Y1 X2 Y2 Xn Yn 目的 研究X和Y的数量关系方法 回归与相关简单 基本 直线回归 直线相关 第一节简单线性回归 英国人类学家F Galton首次在 自然遗传 一书中 提出并阐明了 相关 和 相关系数 两个概念 为相关论奠定了基础 其后 他和英国统计学家KarlPearson对上千个家庭的身高 臂长 拃长 伸开大拇指与中指两端的最大长度 做了测量 发现 历史背景 儿子身高 Y 英寸 与父亲身高 X 英寸 存在线性关系 也即高个子父代的子代在成年之后的身高平均来说不是更高 而是稍矮于其父代水平 而矮个子父代的子代的平均身高不是更矮 而是稍高于其父代水平 Galton将这种趋向于种族稳定的现象称之 回归 回归 已成为表示变量之间某种数量依存关系的统计学术语 相关并且衍生出 回归方程 回归系数 等统计学概念 如研究糖尿病人血糖与其胰岛素水平的关系 研究儿童年龄与体重的关系等 线性回归的概念及其统计描述 直线回归的概念 目的 研究应变量Y对自变量X的数量依存关系 特点 统计关系 X值和Y的均数的关系 不同于一般数学上的X和Y的函数关系 为了直观地说明直线回归的概念 以15名健康人凝血酶浓度 X 与凝血时间 Y 数据 表12 1 进行回归分析 得到图12 1所示散点图 scatterplot 在定量描述健康人凝血酶浓度 X 与凝血时间 Y 数据的数量上的依存关系时 将凝血酶浓度称为自变量 independentvariable 用X表示 凝血时间称为应变量 dependentvariable 用Y表示 由图12 1可见 凝血时间随凝血酶浓度的增加而减低且呈直线趋势 但并非所有点子恰好全都在一直线上 此与两变量间严格的直线函数关系不同 称为直线回归 linearregression 其方程叫直线回归方程 以区别严格意义的直线方程 回归是回归分析中最基本 最简单的一种 故又称简单回归 样本线回归方程 为各X处Y的总体均数的估计 简单线性回归模型 1 a为回归直线在Y轴上的截距 a 0 表示直线与纵轴的交点在原点的上方a 0 则交点在原点的下方a 0 则回归直线通过原点 2 b为回归系数 即直线的斜率 b 0 直线从左下方走向右上方 Y随X增大而增大 b 0 直线从左上方走向右下方 Y随X增大而减小 b 0 表示直线与X轴平行 X与Y无直线关系 b的统计学意义是 X每增加 减 一个单位 Y平均改变b个单位 回归模型的前提假设 线性回归模型的前提条件是 线性 linear 独立 independent 正态 normal 等方差 equalvariance 残差 residual 或剩余值 即实测值Y与假定回归线上的估计值的纵向距离 求解a b实际上就是 合理地 找到一条能最好地代表数据点分布趋势的直线 原则 最小二乘法 leastsumofsquares 即可保证各实测点至直线的纵向距离的平方和最小 回归参数的估计 最小二乘原则 回归参数的估计方法 本例 n 15 X 14 7 X2 14 81 Y 224 XY 216 7 Y2 3368 解题步骤 3 计算有关指标的值4 计算回归系数和截距5 列出回归方程 此直线必然通过点 且与纵坐标轴相交于截距a 如果散点图没有从坐标系原点开始 可在自变量实测范围内远端取易于读数的值代入回归方程得到一个点的坐标 连接此点与点 也可绘出回归直线 绘制回归直线 总体回归系数 的的统计推断 样本回归系数b的标准误 回归方程的假设检验 建立样本直线回归方程 只是完成了统计分析中两变量关系的统计描述 研究者还须回答它所来自的总体的直线回归关系是否确实存在 即是否对总体有 1 方差分析 Y的离均差 总变异 残差 回归的变异 数理统计可证明 上式用符号表示为 式中 上述三个平方和 各有其相应的自由度 并有如下的关系 如果两变量间总体回归关系确实存在 回归的贡献就要大于随机误差 大到何种程度时可以认为具有统计意义 可计算统计量F 式中 t检验 检验例12 1数据得到的直线回归方程是否成立 1 方差分析 方差分析表 2 t检验 参数 的意义是 若自变量X增加一个单位 反应变量Y的平均值便增加 注意 总体回归系数的可信区间 利用上述对回归系数的t检验 可以得到 的1 双侧可信区间为 本例b 6 9802 自由度 13 t0 05 13 2 16 Sb 0 78655 代入公式 12 7 得参数 的95 置信区间为 8 6791 5 2813 第二节线性回归的应用 估计和预测 反映其抽样误差大小的标准误为 例12 1中 第一观测值X1 1 1 0 4994 0 404 代入 12 8 式获得第一观测点X1对应的的标准误为0 1599Y的总体均数的95 置信区间为14 0957 2 16 0 1599 13 7502 14 4412 实测值 实测值 预测Y的均值 Y的均值的标准误 Y的均值的95 置信区间 Y值的95 预测区间 残差 以上是给定某一X值时所对应的总体均数的置信区间 当同时考虑X的所有可能取值时 总体均数的点估计就是根据样本算得的回归直线 1 置信区间的上下限连起来形成一个弧形区带 称为回归直线的 1 置信带 confidenceband 同样 因为其标准误是X的函数 所以在均数 点处置信带宽度最小 越远离该均数点 置信带宽度越大 图12 4中 左图显示位于最小二乘回归线上下两侧的两条弧形虚线为总体回归线的 1 置信区带 右图的实线表示可能的总体回归线 它们落在弧形虚线所确定的置信带内 1 置信带的意义是 在满足线性回归的假设条件下 可以认为真实的回归直线落在两条弧形曲线所形成的区带内 置信度为 1 以第一观测点数据 X1 1 1 点为例 该点预测值的标准差为 0 52489182第一数据点的预测区间为 14 0957 2 16 0 0 5249 12 9618 15 2297当同时考虑X的所有可能取值时 个体Y值的95 预测区间形成一个带子 称为Y值的95 预测带 它比总体回归线95 置信带更宽 图12 5和图12 6同时显示个体Y值的预测带与总体回归线的置信带 可见 在相同信度下 个体值预测带的曲线要比回归线置信带的曲线离回归直线更远 PI CI 决定系数 coefficientofdetermination 定义为回归平方和与总平方和之比 计算公式为 取值在0到1之间且无单位 其数值大小反映了回归贡献的相对程度 也就是在Y的总变异中回归关系所能解释的百分比 第三节残差分析 残差 residual 是指观测值Yi与回归模型拟合值之差残差分析 residualanalysis 旨在通过残差深入了解数据与模型之间的关系 评价实际资料是否符合回归模型假设 识别异常点等 例如 第一数据点的残差e1 14 14 0957 0 0957 如此类推 计算出各数据点的残差值示于表12 2的第10列中 将第10列的残差减去其均数 除以其标准差 便得标准化残差 若以反应变量取值Yi为横坐标 以标准化残差为纵坐标 构成的散点图如图12 7所示 类似地 也可以自变量取值Xi为横坐标 以标准化残差为纵坐标 构成的散点图 这类散点图统称为标准化残差图 图12 8给出的是以自变量取值为纵坐标 以残差为横坐标的残差图的常见类型 其中 图 e 显示残差呈随机分布 图 a b 和 f 表示残差不满足方差齐性条件 图 c 显示存在非线性关系 图 d 显示有的点处于 2倍标准差以外 可能是异常点 第四节非线性回归 非线性回归要比线性回归更能充分地表达变量间的关系 当今线性回归之所以比非线性回归应用甚多 原因在于无论从数学理论还是计算方法 线性回归都比非线性回归模型简单得多 通过自变量的变换实现线性化实践中有两类非线性关系 一类是通过自变量X的适当变换可线性化的 另一类是不可能通过自变量X的变换实现线性化的 X数据变换 不能线性化的关系 变换自变量实现线性回归步骤 1 将观测数据 Xi Yi i 1 2 n作散点图 观察散点分布特征类似于何种函数类型 2 按照所选定的函数进行相应的变量变换 3 对变换后的数据用常规最小二乘法 OLS 作线性模型的参数估计 4 一般拟合多个相近的模型 然后通过对各个模型的拟合优度评价挑选较为合适的模型 例12 2为了研究某药物浓度与肾上腺素释放的量关系 选取10个给药物浓度水平 每种药物剂量水平上重复5次试验 观测结果如表12 3所示 欲用合适的回归模型描述该药品剂量与反应的规律 由结果可见 在所拟合的三种模型中 以x对数函数回归的效果最佳 该模型拟合的残差均方最小 决定系数最大 值得一提的是 本节只涉及对自变量X进行变换 然后以变换后的数据用标准最小二乘 OLS 法求解模型的参数估计与模型评价 当涉及到对反应变量y实施非线性变换 如Z ln Y 时 因为OLS只保证变换后的Z 即ln Y 的残差平方和最小 并不能保证原变量Y的残差平方和也最小 所以在此情况下 我们建议用统计软件来完成非线性拟合 例如 用SAS系统中的PROCNLIN程序产生非线性模型参数的最小二乘估计 直线回归应用的注意事项 直线回归用于定量刻画应变量Y对自变量X在数值上的依存关系 其中应变量的定夺主要依专业要求而定 可以考虑把易于精确测量的变量作为X 另一个随机变量作Y 例如用身高估计体表面积 两个变量的选择一定要结合专业背景 不能把毫无关联的两种现象勉强作回归分析 1 根据分析目的选择变量及统计方法 2 进行回归分析前应绘制散点图 1 散点图可考察两变量是否有直线趋势 2 可发现异常点 outlier 散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑 结果可能是现有回归模型的假设错误需要改变模型形式 也可能是抽样误差造成的一次偶然结果甚至过失误差 需要认真核对原始数据并检查其产生过程认定是过失误差 或者通过重复测定确定是抽样误差造成的偶然结果 才可以谨慎地剔除或采用其它估计方法 3 资料的要求 直线回归要求至少对于每个X相应的Y要服从正态分布 X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量 对于双变量正态分布资料 根据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论