《回归与相关》PPT课件.ppt_第1页
《回归与相关》PPT课件.ppt_第2页
《回归与相关》PPT课件.ppt_第3页
《回归与相关》PPT课件.ppt_第4页
《回归与相关》PPT课件.ppt_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

直线回归与相关linearregressionandcorrelation 回归分析与相关分析 双变量间关系 年龄 身高 肺活量 体重 药物剂量与动物死亡率等 依存关系 应变量 dependentvariable Y随自变量 independentvariable X变化而变化 回归分析互依关系 应变量Y与自变量X间的彼此关系 相关分析 双变量计量资料 每个个体有两个变量值总体 无限或有限对变量值样本 从总体随机抽取的n对变量值 X1 Y1 X2 Y2 Xn Yn 目的 研究X和Y的数量关系方法 回归与相关简单 基本 直线回归 直线相关 一因一果 即一个自变量与一个依变量一元回归分析 研究 多因一果 即多个自变量与一个依变量的回归分析称为多元回归分析 一元回归分析又分为直线回归分析与曲线回归分析两种 多元回归分析又分为多元线性回归分析与多元非线性回归分析两种 第一节直线回归 linearregression线性回归 1 直线回归的概念 直线回归是分析两变量间线性依存变化的数量关系 回归 的由来英国统计学家F Galton和他的学生 现代统计学的奠基者之一K Pearson在研究父母身高与其子女身高的遗传问题时 观察了1078对夫妇 以每对夫妇中父亲的身高作为自变量X 而取他们的一个成年儿子的身高作为应变量Y 将结果在平面直角坐标系上绘成散点图 发现趋势近乎一条直线 计算出的回归直线方程为 儿子身高 Y 英寸 与父亲身高 X 英寸 存在线性关系 也即高个子父代的子代在成年之后的身高平均来说不是更高 而是稍矮于其父代水平 而矮个子父代的子代的平均身高不是更矮 而是稍高于其父代水平 Galton将这种趋向于种族稳定的现象称之 回归 目前 回归 已成为表示变量之间某种数量依存关系的统计学术语 并且衍生出 回归方程 回归系数 等统计学概念 如研究糖尿病人血糖与其胰岛素水平的关系 研究儿童年龄与体重的关系等 3 函数关系与回归关系函数关系 确定 例如园周长与半径 y 2 r回归关系 不确定 例如血压和年龄的关系 直线回归的任务就是找出一条最能描述变量间非确定性数量关系的一条直线 此直线为回归直线 相应的直线方程称为直线回归方程 linearregressionequation 十名女中学生体重与肺活量散点图 a为回归直线在y轴上的截距 a 0 a 0 a 0 a b 0 b 0 b 0 b为回归系数 即回归直线的斜率 其统计学意义是x增加 减 一个单位 y平均变动b个单位 b 0 a 截距 intercept 直线与Y轴交点的纵坐标 X 0 b 斜率 slope 回归系数 regressioncoefficient 意义 X每改变一个单位 Y平均改变b个单位 b 0 Y随X的增大而增大 减少而减少 斜上 b 0 Y随X的增大而减小 减少而增加 斜下 b 0 Y与X无直线关系 水平 b 越大 表示Y随X变化越快 直线越陡峭 5 直线回归方程参数的计算 最小二乘法原则 leastsquaremethod 使各实际散点 Y 到直线 的纵向距离的平方和最小 即使 残差或剩余值 最小 残差 residual 或剩余值 即实测值Y与假定回归线上的估计值的纵向距离 求解a b实际上就是 合理地 找到一条能最好地代表数据点分布趋势的直线 因为直线一定经过 均数 点 例 用某饲料喂养12只大白鼠 得出大白鼠的进食量与体重增加量结果 试作直线回归分析 1 由原始数据作散点图 观察两变量间的趋势 12只大白鼠的进食量 g 与体重增加量 g 测量结果 2 计算X Y的均数X Y 离均差平方和lXX lYY与离均差积和lXY a b 3 4 Y 2 0 0648X 5 按求得的直线回归方程 在X实际范围内任意取两点 X1 Y1 X2 Y2 相连即得回归直线 Y Y b x x 6 回归系数的假设检验建立样本直线回归方程 只是完成了统计分析两变量关系的统计描述 研究者还须回答它所来自的总体的直线回归关系是否确实存在 即是否对总体有 X 目的 推断总体回归系数 是否为0 确定所求得的回归方程是否成立 b 0 bt n 2SbSb Sb为样本回归系数标准误Syx为剩余标准差 方差分析法 t检验法 lyy blxy 同一组资料作直线相关与回归时tb与tr等值 tb 回归系数的标准误b为总体回归系数 的估计值 其误差为Sb 的95 的可信区间为 决定系数 回归平方和与总平方和之比 大小反映了回归贡献的相对程度 也就是在Y的总变异中回归关系所能解释的百分比 1 总体回归线的95 置信带即 的可信区间 第二节直线回归的应用 标准估计误差各实际值Y与估计值有一定的误差 称为估计误差 即各实际点与回归线纵轴方向的离散程度 即标准估计误差 2 个体Yi值的范围预测 i i i i i i i i i 95 的可信区间与个体Yi的预测范围有关数据 直线回归方程的应用描述两变量的依存数量关系 利用回归方程进行预测 由易测的变量值估算难算的变量值 由x估计y 利用回归方程进行控制 即利用回归方程进行逆估计 由y估计x 第三节直线相关 linearcorrelation 简单相关 simplecorrelation 用于双变量正态分布资料 进行直线相关分析的基本任务在于根据x y的实际观测值计算表示两个相关变量x与y线性相关程度和性质的统计指标 相关系数r 并进行显著性检验 1 直线相关的概念直线相关是研究两变量x y之间协同变化的线性关系的分析方法 2 对资料的要求x y都是正态分布资料的随机变量 3 相关系数 correlationcoefficient r 表示方法 1 r 1 意义 描述两个变量直线相关的方向与密切程度的指标 正相关负相关 0 r 1 1 r 0 相关系数示意 r 1r 1 完全正相关完全负相关 相关系数示意 r 0r 0r 0 零相关零相关零相关 计算方法 8 975 98 5 1 69525 r 0 6945 4 相关系数的假设检验目的 检验r是否来自总体相关系数 0的总体 推断两变量的相关关系是否成立 Sr为相关系数的标准误 公式 检验假设 H0 0 H1 0 0 05 t 2 730 n 2 10 2 8 P 0 05 结论 可认为该地女中学生的体重与肺活量有正相关关系 区别 1 意义直线回归反映两变量的依存关系 直线相关反映两变量的相互关系 5 直线回归与直线相关的联系与区别 2 对资料的要求直线回归 自变量是正态总体的随机变量或指定变量 y一定是正态总体的随机变量 直线相关 两变量均为正态总体的随机变量 联系 1 同一组资料的r与b的正负符号是一致的 2 同一组资料的r和b的假设检验结果是一致的 即tr tb 3 两变量间有相关关系 不一定有因果关系 但两变量间有因果关系 一定有相关关系 四 应用注意事项1 进行相关与回归时先绘制散点图 还要观察有无异常点 2 回归与相关的应用仅限

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论