第9章 双变量回归与相关改ppt课件.ppt_第1页
第9章 双变量回归与相关改ppt课件.ppt_第2页
第9章 双变量回归与相关改ppt课件.ppt_第3页
第9章 双变量回归与相关改ppt课件.ppt_第4页
第9章 双变量回归与相关改ppt课件.ppt_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章双变量回归与相关 函数关系与相关关系1 函数关系 确定性关系 两变量间呈一一对应的关系 2 相关关系 非确定性关系 两变量间数量上存在联系 但非一一对应关系 如年龄与血压 儿童年龄与体重等 1 相关与回归分析是描述两个或多个呈相关关系 而非一一对应的函数关系 的变量数量上相互依存的统计学方法 2 相关与回归分析所用的样本数据应是来自研究总体的一份随机样本 9个正方形其边长X cm 与周长Y cm 的关系 正方形边长X与周长Y的散点图 为讨论父子身高间的线性关系 南方某地在应届毕业生花名册中随机抽取了20名男生 分别测量他们和他们父亲的身高 cm 得如下资料 父子身高散点图 双变量的名称种种 因变量 dependentvariable Y自变量 independentvariable X反应变量 responsevariable Y解释变量 explanatoryvariable X结局变量 outcome Y研究因素 designfactor X 第一节直线回归LinearRegression简单线性回归分析是用线性回归方程描述两变量数量上相互依存的统计方法 简称直线回归 回归分析解决的问题 确定变量 自变量与因变量 之间是否存在某种线性的统计学关系 存在则应找出这种关系的表达式 确定这种关系存在的概率的大小 线性回归分析 因变量 连续变量自变量 典型的是连续变量 但是在实际应用中 任何类型的变量目的 描述一些自变量与一个因变量之间关联的程度 方向和范围 因变量 准则变量 结果变量自变量 回归变量 预测变量 独立变量 1 应变量 dependentvariable 2 自变量 independentvariable 3 一元线性回归直线回归方程的模型是 yi a bxi ei其中 a是截距 b是回归系数 regressioncoefficient 回归直线的斜率 回归系数的统计学意义是 自变量每变化一个单位 应变量平均变化的单位数 ei是残差 因此直线回归方程的一般形式是 其中是应变量y的预测值或称估计值 4 多元线性回归多元线性回归方程模型为 yi b0 b1x1i b2x2i bnxni ei其中 1 b0是常数项 是各自变量都等于0时 应变量的估计值 有时 人们称它为本底值 2 b1 b2 bn是偏回归系数 partialregressioncoefficient 其统计学意义是在其它所有自变量不变的情况下 某一自变量每变化一个单位 应变量平均变化的单位数 如果所有参加分析的变量都是标准化的变量 这时b就等于0 b1 b2 bn就变成了标准化偏回归系数 用符号b1 b2 bn 表示 bi bi sxi sy由于bi 没有量纲 因此可以相互比较大小 反映自变量的相对作用大小 3 ei是残差 多元线性回归方程的一般形式是 其中的符号含义同前 直线回归系数的最小二乘估计 基本思想 使样本点到回归直线的纵向距离的平方和最小 定义e residual 为残差 Q为残差平方和使关于残差的一阶偏导数为0 直线回归系数和截距计算公式 例9 1某地方病研究所调查了8名正常儿童的尿肌酐含量 mmol 24h 如表9 1 估计尿肌酐含量 Y 对其年龄 X 的回归方程 表9 18名正常儿童的年龄X 岁 与尿肌酐含量 Y 由原始数据及散点图的观察 两变量间呈直线趋势 故作下列计算 假设检验1 方差分析 就总体而言 回归关系是否存在 或回归方程是否成立 回归分析中各离均差平方和的含义 SS总 Y的总离均差平方和SS回 SS总中X变量可解释的部分SS残 SS总中X变量不能解释的部分 例9 2检验例9 1数据得到的直线回归方程是否成立 1 方差分析 假设检验2 t检验 H0 0 H1 0 2 t检验 例9 3根据例9 1中所得b 0 1392 估计其总体回归系数的双侧95 可信区间 利用回归方程进行估计和预测 个体Y值的预测区间 例9 4用例9 1所得直线回归方程 计算当X0 12时 的95 可信区间和相应个体Y值的95 预测区间 线性回归的条件 线性 linear 独立 independent 正态 normal 等方差 equalvariance LINE 数量化 回归分析是寻找以数量表示的自变量与因变量之间统计规律 因此 进行分析的变量必须用数量表示 因此 用于进行线性回归分析模型的变量必须是数量型变量 常用的指标数量化方法是0 1法 评价回归模型的指标 决定系数R0 1之间 越接近1 模型越好复相关系数 R2 R的平方0 1之间 越接近1 模型越好残差角度 残差标准误预测残差平方和 R2最大R2 SS回归 SS总adjR2最大 adjR2 1 SS残 SS总 回归方程的评价指标 残差分析 分析线性回归条件是否满足 残差频数分布图 检验正态性 残差对x或y作散点图 检验等方差性 残差Durbin Watsontest 检验残差自相关性 统计量取值在0 4之间 越接近0 则可能为正相关 越接近4 则可能为负相关 观察可疑值或异常值 Residual残差Std Residual标准化残差Stud Residual学生化残差 线性回归的应用 定量描述两变量的数量关系病因学研究 寻找危险因素和相关分析的区别统计预测常用的预测手段 如身高预测标准工作曲 直 线 化学分析一些指标难以求得 测量易测得的指标 估计难测量的指标 统计控制 统计控制的思路 已经建立回归方程 并知道相应的要素 确定控制目的 取y值的单侧1 a置信区间的上限或下限y 将y 代入回归方程 求出x 得x的控制值 求y 需要知道x0 而x0不能事先确定 不妨给x0个初始值 比如x0 均数 然后再用新算出的x0代入 可以反复多次 直到满意为止 第二节直线相关LinearCorrelation相关分析 描述两个随机变量X和Y之间数量上联系密切程度与方向的统计学方法 常用的描述指标为相关系数 医学上 许多现象之间也都有相互联系 例如 身高与体重 体温与脉搏 产前检查与婴儿体重 乙肝病毒与乙肝等 在这些有关系的现象中 它们之间联系的程度和性质也各不相同 关系 可以说乙肝病毒感染是前因 得了乙肝是后果 乙肝病毒和乙肝之间是因果关系 但是 有的现象之间因果不清 只是伴随关系 例如丈夫的身高和妻子的身高之间 就不能说有因果关系 为了研究父亲与成年儿子身高之间的关系 卡尔 皮尔逊测量了1078对父子的身高 把1078对数字表示在坐标上 如图 它的形状象一块橄榄状的云 中间的点密集 边沿的点稀少 其主要部分是一个椭圆 二 相关系数 样本的相关系数用r correlationcoefficient 相关系数r的值在 1和1之间 正相关时 r值在0和1之间 这时一个变量增加 另一个变量也增加 负相关时 r值在 1和0之间 此时一个变量增加 另一个变量将减少 r的绝对值越接近1 两变量的关联程度越强 r的绝对值越接近0 两变量的关联程度越弱 典型的散点图 注意 相关系数的大小反映的是两个变量间线性相关的程度 若两变量联系密切 但它们呈非线性关系 它们也不可能相关 总体相关系数为零 若总体相关系数大于零 为正相关 若小于零 为负相关 若等于零 为零相关 实际问题中 我们是用样本相关系数来估计总体相关系数 这就需要从研究总体中随机抽取一份随机样本 计算样本相关系数r 样本相关系数计算表 例9 5对例9 1数据 表9 1 计算8名正常儿童的尿肌酐含量与年龄的相关系数 由例9 1算得 例9 6对例9 5所得r值 检验尿肌酐含量与年龄是否有直线相关关系 例9 7对例9 5所得r值 估计总体相关系数的95 可信区间 相关分析的注意事项 Pearson相关系数X Y服从双变量正态分布散点图的作用分层资料对相关的解释 慎用相关的情形 a 异常值 b 分层资料 慎用相关的情形 c d 分层资料 深入理解相关性 统计上的相关推断只是事物间的伴随关系 从统计相关到专业上因果关系的确认需要更多证据 小孩的身高和小树的高度鞋子的大小和儿童阅读水平受教育程度与失业脂肪摄入量和结肠癌 选择不同的方法计算相关系数 Pearson 双变量正态分布资料 连续变量Kendall 资料不服从双变量正态分布或总体分布未知 等级资料 Spearman 等级资料 非参检验 直线相关的应用 相关是研究两个变量间的相互关系 这种相互关系用相关系数反应 如果r的绝对值越大 说明两个变量之间的关联程度越强 那么 已知一个变量对预测另一个变量越有帮助 如果r绝对值越小 则说明两个变量之间的关系越弱 一个变量的信息对猜测另一个变量的值无多大帮助 一般说来 当样本量较大 n 100 并对r进行假设检验 有统计学意义时 r的绝对值大于0 7 则表示两个变量高度相关 r的绝对值大于0 4 小于等于0 7时 则表示两个变量之间中度相关 r的绝对值大于0 2 小于等于0 4时 则两个变量低度相关 第三节秩相关又称等级相关 属于非参数统计方法 1 不服从双变量正态分布而不宜作积差相关2 总体分布类型未知3 原始数据是等级资料 Spearman秩相关用等级相关系数来表示两变量间直线相关关系的密切程度和相关方向 分析过程 1 将n对观察值Xi和Yi分别由小至大编秩2 对两组秩作积差相关系分析 即得秩相关系数3 进行总体秩相关系数为零的假设检验 秩相关 Spearman等级相关 例9 8某省调查了1995 1999年当地居民18类死因的构成以及每种死因导致的潜在工作损失年数WYPLL的构成 结果见表9 3 以死因构成为X WYPLL构成为Y 作等级相关分析 应用相关注意事项 1 实际意义进行相关回归分析要有实际意义 不可把毫无关系的两个事物或现象用来作相关回归分析 2 相关关系相关关系不一定是因果关系 也可能是伴随关系 并不能证明事物间有内在联系 3 利用散点图对于性质不明确的两组数据 可先做散点图 在图上看它们有无关系 关系的密切程度 是正相关还是负相关 然后再进行相关分析 4 变量范围相关分析和回归方程仅适用于样本的原始数据范围之内 出了这个范围 我们不能得出两变量的相关关系和原来的回归关系 第四节加权直线回归 一 加权最小二乘估计 例9 9某儿科医师测得10名婴儿的年龄 岁 与其丝状血红细胞凝集素的lgG水平见表9 4 估计抗体水平 Y 与年龄 X 的直线回归方程 表9 410名婴儿的年龄与其丝状血红细胞凝集素的lgG抗体水平 首先根据Y与X的散点图 采用最小二乘法得到直线回归方程为绘制此回归方程的残差与自变量的散点图 图9 8 图中显示出残差的方差与X的取值具有某种系统变化的趋势 可以假定 即残差方差与自变量的平方成正比 故而取 由于在式 9 28 和 9 29 中常数k可以消去 所以实际计算时权重取为 将其代入公式 9 28 和 9 29 计算过程列在表9 4中 最后得 加权直线回归方程为 例9 10对例9 9求得的加权最小二乘估计回归方程作假设检验 前面计算已知 第五节两条回归直线的比较 一 两个回归系数的比较 一 F检验 一 F检验 一 F检验 一 F检验 二 t检验 例9 11某地方病研究所调查了8名正常儿童和10名大骨节病患儿的年龄与其尿肌酐含量 mmol 24h 正常儿童数据见例9 1的表9 1 大骨节病患儿数据见表9 7 推断两总体尿肌酐含量 Y 对其年龄 X 的回归直线是否平行 表9 710名大骨节病患儿的年龄 X 与尿肌酐 Y 含量观察两组数据的散点图均有直线趋势 得到两个回归方程分别为 二 两个截距的比较 一 F检验 一 F检验 二 t检验 二 t检验 例9 12由于例9 11中两条总体回归直线平行 现检验两条总体回归直线的截距是否相等 第六节曲线拟合 一 曲线拟合的一般步骤 1 选择合适曲线2 求回归方程3 求决定系数 例9 13以不同剂量的标准促肾上腺皮质激素释放因子CRF nmol L 刺激离体培养的大鼠垂体前叶细胞 监测其垂体合成分泌肾上腺皮质激素ACTH的量 pmol L 根据表9 10中测得的5对数据建立ACTH CRF工作曲线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论