




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学基础 第八章 相关与回归分析 教学目的 1 掌握相关系数的测定和性质 2 明确相关分析与回归分析的特点 3 建立回归直线方程 掌握估计标准误差的计算 教学重点 1 相关关系 相关分析和回归分析的概念 2 相关系数计算 3 回归方程的建立和依此进行估计和预测 教学难点 1 相关分析和回归分析的区别 2 相关系数的计算 3 回归系数的计算 4 估计标准误的计算 教学时数 教学学时为 8 课时 教学内容参考 第一节 相关关系 一 相关关系的含义 宇宙中任何现象都不是孤立地存在的 而是普遍联系和相互制约的 这种现象间的相互联系 相互制约的关系即为相关关系 相关关系因其依存程度的不同而表现出相关程度的差别 有些现象间存在着严格的数据依存 关系 比如 在价格不变的条件下销售额量之间的关系 圆的面积与半径之间的关系等等 均具 有显著的一一对应关系 这些关系可由数学中的函数关系来确切的描述 因而也可以认为是一种 完全相关关系 有些现象间的依存关系则没有那么严格 当一种现象的数量发生变化时 另一种 现象的数量却在一定的范围内发生变化 比如身高与体重的关系就是如此 一般来说 身高越高 体重越重 但二者之间的关系并非严格意义上的对应关系 身高 1 75 米的人 对应的体重会有 多个数值 因为影响体重的因素不只身高而已 它还会受遗传 饮食习惯等因素的制约和影响 社会经济现象中大多存在这种非确定的相关关系 在统计学中 这些在社会经济现象之间普遍存在的数量依存关系 都成为相关关系 在本章 我们主要介绍那些能用函数关系来描述的具有经济统计意义的相关关系 二 相关关系的特点 1 现象之间确实存在数量上的依存关系 如果一个现象发生数量上的变化 则另一个现象也会发生数量上的变化 在相互依存的两个 变量中 可以根据研究目的 把其中的一个变量确定为自变量 把另一个对应变量确定为因变量 例如 把身高作为自变量 则体重就是因变量 2 现象之间数量上的关系是不确定的 相关关系的全称是统计相关关系 它属于变量之间的一种不完全确定的关系 这意味着一个 变量虽然受另一个 或一组 变量的影响 却并不由这一个 或一组 变量完全确定 例如 前 面提到的身高和体重之间的关系就是这样一种关系 三 相关关系的种类 现象之间的相互关系很复杂 它们涉及的变动因素多少不同 作用方向不同 表现出来的形 态也不同 相关关系大体有以下几种分类 一 正相关与负相关 按相关关系的方向分 可分为正相关和负相关 当两个因素 或变量 的变动方向相同时 即自变量值增加 或减少 因变量值也相应地增加 或减少 这样的关系就是正相关 如xy 家庭消费支出随收入增加而增加就属于正相关 如果两个因素 或变量 变动的方向相反 即自 变量值增大 或减小 因变量值随之减小 或增大 则称为负相关 如商品流通费用率随xy 商品经营的规模增大而逐渐降低就属于负相关 二 单相关与复相关 按自变量的多少分 可分为单相关和复相关 单相关是指两个变量之间的相关关系 即所研 究的问题只涉及到一个自变量和一个因变量 如职工的生活水平与工资之间的关系就是单相关 复相关是指三个或三个以上变量之间的相关关系 即所研究的问题涉及到若干个自变量与一个因 变量 如同时研究成本 市场供求状况 消费倾向对利润的影响时 这几个因素之间的关系是复 相关 三 线性相关与非线性相关 按相关关系的表现形态分 可分为线性相关与非线性相关 线性相关是指在两个变量之间 当自变量值发生变动时 因变量值发生大致均等的变动 在相关图的分布上 近似地表现为xy 直线形式 比如 商品销售额与销售量即为线性相关 非线性相关是指在两个变量之间 当自变 量值发生变动时 因变量值发生不均等的变动 在相关图的分布上 表现为抛物线 双曲线 xy 指数曲线等非直线形式 比如 从人的生命全过程来看 年龄与医疗费支出呈非线性相关 四 完全相关 不完全相关与不相关 按相关程度分 可分为完全相关 不完全相关和不相关 完全相关是指两个变量之间具有完 全确定的关系 即因变量值完全随自变量值的变动而变动 它在相关图上表现为所有的观察yx 点都落在同一条直线上 这时 相关关系就转化为函数关系 不相关是指两个变量之间不存在相 关关系 即两个变量变动彼此互不影响 自变量值变动时 因变量值不随之作相应变动 比xy 如 家庭收入多少与孩子多少之间不存在相关关系 不完全相关是指介于完全相关和不相关之间 的一种相关关系 比如 农作物产量与播种面积之间的关系 不完全相关关系是统计研究的主要 对象 第二节 相关分析 一 相关分析的主要内容 相关分析是指对客观现象的相互依存关系进行分析 研究 这种分析方法叫相关分析法 相 关分析的目的在于研究相互关系的密切程度及其变化规律 以便作出判断 进行必要的预测和控 制 相关分析的主要内容包括 一 确定现象之间有无相关关系 这是相关与回归分析的起点 只有存在相互依存关系 才有必要进行进一步的分析 二 确定相关关系的密切程度和方向 确定相关关系密切程度主要是通过绘制相关图表和计算相关系数 只有对达到一定密切程度 的相关关系 才可配合具有一定意义的回归方程 三 确定相关关系的数学表达式 为确定现象之间变化上的一般关系 我们必须使用函数关系的数学公式作为相关关系的数学 表达式 如果现象之间表现为直线相关 我们可采用配合直线方程的方法 如果现象之间表现为 曲线相关 我们可采用配合曲线方程的方法 四 确定因变量估计值误差程度 使用配合直线或曲线的方法可以找到现象之间一般的变化关系 也就是自变量变化时 因x 变量将会发生多大的变化 根据得出的直线方程或曲线方程我们可以给出自变量的若干数值 y 球的因变量的若干个估计值 估计值与实际值是有出入的 确定因变量估计值误差大小的指标是 估计标准误差 估计标准误差大 表明估计不太精确 估计标准误差小 表明估计较精确 二 相关关系的测定 相关分析的主要方法有相关表 相关图和相关系数三种 现将这三种方法分述如下 一 相关表 在统计中 制作相关表或相关图 可以直观地判断现象之间大致存在的相关关系的方向 形 式和密切程度 在对现象总体中两种相关变量作相关分析 以研究其相互依存关系时 如果将实际调查取得 的一系列成对变量值的资料顺序地排列在一张表格上 这张表格就是相关表 相关表仍然是统计 表的一种 根据资料是否分组 相关表可以分为简单相关表和分组相关表 1 简单相关表 简单相关表是资料未经分组的相关表 它是把自变量按从小到大的顺序并配合因变量一一对 应平行排列起来的统计表 案例 为研究分析产量 与单位产品成本 之间的关系 从 30 个同类型企业调查得到的原始xy 资料并将产量按从小到大的顺序排列 可编制简单相关表 结果见表 8 2 所示 表 8 2 产量和单位产品成本原始资料 产量 件 202020202020202020303030303040 单位产品成本 元 151616161618181818151516161614 产量 件 404040405050505050506060606060 单位产品成本 元 151515161414151515161414141415 从表 8 2 中可以看出 随着产量的提高 单位产品成本却有相应降低的趋势 尽管在同样产 量的情况下 单位产品成本存在差异 但是两者之间仍然存在一定的依存关系 2 分组相关表 在大量观察的情况下 原始资料很多 运用简单相关表表示就很难使用 这时就要将原始资 料进行分组 然后编制相关表 这种相关表称为分组相关表 分组相关表包括单变量分组相关表 和双变量分组相关表两种 1 单变量分组表 在原始资料很多时 对自变量数值进行分组 而对应的因变量不分组 只计算其平均值 根据资料具体情况 自变量可以是单项式 也可以是组距式 案例 以上例原始资料为例 将同类型 30 个企业的产量 与单位产品成本 原始资料 按产xy 量分组编制单变量分组表 结果见表 8 3 表 8 3 产量和单位产品成本简单相关表 产量 件 企业数 个 单位产品成本 元 20916 8 30515 6 40515 0 50614 8 60514 2 从表 8 3 中可以较明显地看出二者之间存在正相关关系 2 双变量分组表 对两种有关变量都进行分组 交叉排列 并列出两种变量各组间的共同 次数 这种统计表称为双变量分组相关表 这种表格形似棋盘 故又称棋盘式相关表 案例 仍以原始资料为例 将同类型 30 个企业的产量 与单位产品成本 原始资料 编制双xy 变量分组相关表 结果见表 8 4 xyn 表 8 4 产量和单位产品成本双变量分组相关表 产量 件 单位产品成本 元 2030405060 合计 184 4 164311 9 151233110 14 1247 合计 9556530 从表 8 4 看出 产量集中在左上角到右下角的对角斜线上 表明产量与单位产品成本是负相 关关系 制作双变量分组相关表 须注意自变量为纵栏标题 按变量值从小到大自左向右排列 因变 量为横行标题 按变量值从大到小自上而下排列 这样做的目的是将相关表与相关图结合起来 便于一致性判断相关关系的性质 二 相关图 相关图又称散点图 它是以直角坐标系的横轴代表自变量 纵轴代表因变量 将两个变xy 量间相对应的变量值用坐标点的形式描绘出来 用来反映两变量之间相关关系的图形 相关图可以按未经分组的原始资料来编制 也可以按分组的资料 包括按单变量分组相关表 和双变量分组相关表来编制 通过相关图将会发现 当对是函数关系时 所有的相关点都会yx 分布在某一条线上 在相关关系的情况下 由于其他因素的影响 这些点并非处在一条线上 但 所有相关点的分布也会显示出某种趋势 所以相关图会很直观地显示现象之间相关的方向和密切 程度 案例 以上例原始资料中编制的产量与单位产品成本单变量分组相关表为例 绘制相关图 结果见 图 8 1 从图 8 1 中可以看出 单位产品成本随着产量增加而降低 并且散布点的分布近似地表现为 一条直线 由此可以判断产量与单位产品成本两个变量之间存在着直线负相关关系 三 相关系数 相关表和相关图大体说明变量之间有无关系 但它们的相关关系的紧密程度却无法表达 因 此 需运用数学解析方法 构建一个恰当的数学模型来显示相关关系及其密切程度 对现象之间 的相关关系的紧密程度做出确切的数量说明 就需要计算相关系数 1 相关系数的计算 相关系数是在直线相关条件下 说明两个现象之间关系密切程度的统计分析指标 记为 x y 相关系数的计算公式为 22 2 11 1 yy n xx n yyxx n yx xy 式中 资料项数 n 变量的算术平均数 xx 变量的算术平均数yy 变量的标准差 x x 变量的标准差 y y 变量的协方差 xy xy 在实际问题中 如果根据原始资料计算相关系数 可运用相关系数的简捷法计算 其计算公 式为 2 2 2 2 yynxxn yxxyn 案例 根据教材中表 8 5 中的资料 已知居民家庭月收入与消费支出之间为直线相关 计算居民家 庭月收入与消费支出的相关系数 见表 8 6 表 8 3 编 号 月收入 x 百元 消费支出 y 百元 x2y2xy 11512225144180 21815324225270 32018400324360 42520625400500 53028900784840 64036160012961440 76242384417642604 87553562528093975 98860774436005280 109265846442255980 合计 465349297511557121429 99 0 34915571104652975110 3494652142910 22 2 相关系数的分析 明晰相关系数的性质是进行相关系数分析的前提 现将相关系数的性质总结如下 1 相关系数的数值范围 是在 1 和 1 之间 即 1 1 2 计算结果 当 0 时 表示与为正相关 当 0 时 与为负相关 xy xy 3 相关系数的绝对值越接近于 1 表示相关关系越强 越接近于 0 表示相关关系越弱 如果 1 则表示两个现象完全直线相关 如果 0 则表示两个现象完全不相关 不是直 线相关 4 相关系数的绝对值在 0 3 以下是无直线相关 0 3 以上是有直线相关 0 3 0 5 是低 度直线相关 0 5 0 8 是显著相关 0 8 以上是高度相关 案例 上例中计算的相关系数为 0 99 说明消费支出与居民家庭月收入呈高度正相关 也就是家 庭收入越高 消费支出也越高 第三节 回归分析 一 回归分析的含义 就一般意义而言 相关分析包括回归和相关两方面内容 因为回归与相关都是研究两变量相 互关系的分析方法 但就具体方法而言 回归分析和相关分析是有明显差别的 相关图表 相关 系数能判定两变量之间相关的方向和密切程度 但不能指出两变量相互关系的具体表现形式 也 无法从一个变量的变化来推测另一个变量的变化情况 回归分析就是对具有相关关系的两个或两 个以上变量的数量变化规律进行测定 确立一个相应的数学表达式 并进行估算和预测的一种统 计方法 回归分析和相关分析是互相补充 密切联系的 相关分析需要回归分析来表明数量关系的具 体表现形式 而回归分析则应该建立在相关分析的基础上 只有依靠相关分析 对现象的数量变 化规律判明具有密切相关关系后 再进行回归分析 求其相关的具体表现形式 这样才具有实际 意义 回归分析建立的数学表达式称为回归方程 或回归模型 回归方程为线性方程的 称为线 性回归 回归方程为非线性方程的称为非线性回归 两个变量之间的回归称为一元回归 简单回 归 三个或三个以上变量之间的回归称为多元回归 本章只介绍一元线性回归 即简单线性回 归分析方法 二 回归分析的主要内容 一 建立相关关系的回归方程 利用回归分析方法 配合一个表明变量之间数量上相关的方程式 而且根据自变量的变动 x 来预测因变量的变动 y 二 测定因变量的估计值与实际值的误差程度 通过计算估计标准误差指标 可以反映因变量估计值的准确程度 从而将误差控制在一定范 围内 三 回归分析的特点 回归分析与相关分析比较具有以下特点 1 在相关分析中 各变量都是随机变量 而回归分析中 因变量是随机变量 自变量不是随 机的 而是给定的数值 2 在相关分析中 各变量之间是对等关系 调换变量的位置 不影响计算的结果 而在回归 分析中 自变量与因变量之间不是对等的关系 调换其位置 将得到不同的回归方程 因此 在 进行回归分析时 必须根据研究目的 先确定哪一个是自变量 哪一个是因变量 3 相关分析计算的相关系数是一个绝对值在 0 与 1 之间的抽象系数 其数值的大小反映变量 之间相关关系的程度 而回归分析建立的回归方程反映的是变量之间的具体变动关系 不是抽象 的系数 根据回归方程 利用自变量的给定值可以估计或推算出因变量的数值 四 一元线性回归方程的拟合 回归分析中 最简单 最基本的形式就是一元线性回归 也就是通常所说的配合直线方程式 的问题 若通过观察或实验 得到对数据的相关图上的散布点接近分n nn yxyxyx 221 1 布在一条直线上 就可以认为变量与之间存在着线性关系 可设经验公式为xy bxay 式中 与为待定参数 也就是需要根据实际资料求解的数值 为直线的截距 为直线的abab 斜率 也称回归系数 表示自变量每变动一个单位时 因变量的平均变动量 值确定xyba 了直线的位置 一旦确定 这条直线就被惟一确定了 但用于描述这组数据的直线有许ba n 多条 究竟用哪条直线来代表两个变量之间的关系 需要一个明确的原则 我们希望选择距离各 散布点最近的一条直线来代表与之间的关系 以便更好地反映变量之间的关系 根据这一思xy 想确定未知参数的方法 称为最小二乘法 也就是通过使得ba 为最小值来确定的方法 可见 用最小二乘法得到的直 22 bxayyyQba 线与所有数据的离差平方和为最小 ii yx 要使为最小值 就要用数学中对二元函数求极值的原理 求关于和的偏导数 并QQab 令其等于 0 整理得出直线回归方程中求解参数的标准方程组为ba 2 xbxaxy xbnay 解方程组得 2 2 2 xxn yxxyn xx yyxx b 案例 根据表 8 2 中的数据 拟合某社区居民家庭月收入水平 x 与消费支出 y 的回归直线方 程 根据表 8 3 中的计算结果 得 6398 0 4652975110 3494652142910 2 b 1493 5 10 465 6398 0 10 349 a 将 a 和 b 代入回归方程式得 xy6398 0 1493 5 式中代表消费支出 x 代表家庭月收入 回归系数 b 0 6398 表示家庭月收入每提高 1 个 y 单位 百元 消费支出平均增加 0 6398 个单位 百元 a 5 1493 代表即使月收入为 0 的情况 下 消费支出也需要 5 1493 百元 利用直线方程可以进行预测 如某家庭月收入为 150 百 元 在其他条件相对稳定时 可以预测其消费支出为 93 10111 1193 1011506398 0 1493 5 元百元 y 五 估计标准误差 一 估计标准误差的意义 回归方程的一个重要作用在于根据自变量的已知值推算因变量的可能值 这个可能值或称 y 估计值 理论值 平均值 它和真正的实际值可能一致 也可能不一致 因而就产生了估计值y 的代表性问题 当值与值一致时 表明推断准确 当值与值不一致时 表明推断不够准 y y y y 确 显而易见 将一系列值与值加以比较 可以发现其中存在着一系列离差 有的是正差 y y 有的是负差 还有的为零 而回归方程的代表性如何 一般是通过计算估计标准误差指标来加以 检验的 估计标准误差指标是用来说明回归方程代表性大小的统计分析指标 也简称为估计标准 差或估计标准误差 其计算原理与标准差基本相同 估计标准误差说明理论值 回归直线 的代 表性 若估计标准误差小 说明回归方程准确性高 代表性大 反之 估计不够准确 代表性小 二 估计标准误差的计算 估计标准误差 是指因变量实际值与理论值离差的平均数 其计算公式为 2 2 n yy Syx 式中 估计标准差 其下标代表依而回归的方程 yx Syxyx 根据回归方程推算出来的因变量的估计值 y 因变量的实际值 y 数据的项数 n 估计标准误差的简化计算公式为 2 2 n xybyay Syx 案例 依据表 8 6 的资料 计算估计标准误差 82 2 210 214296398 03491493 515571 2 2 元 n xybyay Syx 三 估计标准误差与相关系数的关系 二者在数量上具有如下的关系 2 2 1 y yx S 2 1 yyx S 式中 相关系数 因变量数列的标准差 y 估计标准误差 yx S 从上面的计算公式中可以看出和的变化方向是相反的 当越大时 越小 这时 yx S yx S 相关密切程度较高 回归直线的代表性较大 当越小时 越大 这时相关密切程度较低 yx S 回归直线的代表性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024春七年级数学下册 第5章 分式5.5分式方程(1)说课稿(新版)浙教版
- 第二课 学会组装计算机 -认识计算机的各个部件(说课稿)2024-2025学年浙教版(广西、宁波)初中信息技术七年级上册
- 2024秋七年级数学上册 第5章 一元一次方程5.5 应用一元一次方程-希望工程义演 2积分问题与计费问题(利用一元一次方程解计费问题)说课稿(新版)北师大版
- 优化国际供应链管理与物流布局
- 各种段位考试题及答案大全
- 2025财务管理学堂公司员工劳动合同模板
- 产业园供水老旧管网及设施改造工程风险评估报告
- 银粉生产线项目节能评估报告
- 美工基础笔试题及答案
- 磷酸铁锂锂电正极材料生产线项目经济效益和社会效益分析报告
- 大学食品安全主题教育
- 入院患者接待暂空床讲解
- 常用护理质量管理工具
- 中学物理实验室安全管理制度
- 沂沭泗河洪水东调南下续建工程南四湖湖东堤工程施工组织设计
- 制鞋工艺流程
- 土石方工程运输合同
- 国际伤口治疗师汇报
- 《电工基础(第2版)》中职全套教学课件
- 河道清淤与水生态恢复方案
- 2024-2025大学英语考试六级汉译英中英对照
评论
0/150
提交评论