管理统计学第6章 相关与回归.ppt_第1页
管理统计学第6章 相关与回归.ppt_第2页
管理统计学第6章 相关与回归.ppt_第3页
管理统计学第6章 相关与回归.ppt_第4页
管理统计学第6章 相关与回归.ppt_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 1 16 1 第六章相关与回归分析 2020 1 16 2 第一节相关分析第二节一元线性回归分析 2020 1 16 3 相关分析和回归分析有什么用 一个国家香烟的消费量与癌症的发病率有关系吗 父母的身高是否影响其子女的身高 公司股票的市盈率与老总的薪酬有关联吗 接受高学历教育的人是否比低学历的人有更高的薪水 现实世界中存在着大量诸如此类的问题 用统计语言来概况 就是两个或者更多个变量之间 是否存在相互关联 进而 存在相关关系的变量间又是如何相互影响的 相关分析和回归分析可以用来回答这类问题 它们是研究现象之间相互关系的两种基本方法 本章介绍这两种方法的理论与应用 2020 1 16 4 实例1 中国妇女生育水平的决定因素是什么 妇女生育水平除了受计划生育政策影响以外 还可能与社会 经济 文化等多种因素有关 1 影响中国妇女生育率变动的因素有哪些 2 各种因素对生育率的作用方向和作用程度如何 3 哪些因素是影响妇女生育率主要的决定性因素 4 如何评价计划生育政策在生育水平变动中的作用 5 计划生育政策与经济因素比较 什么是影响生育率的决定因素 6 如果某些地区的计划生育政策及社会 经济 文化等因素发生重大变化 预期对这些地区的妇女生育水平会产生怎样的影响 2020 1 16 5 据世界卫生组织统计 全球肥胖症患者达3亿人 其中儿童占2200万人 11亿人体重过重 肥胖症和体重超常早已不是发达国家的 专利 已遍及五大洲 目前 全球因 吃 致病乃至死亡的人数已高于因饥饿死亡的人数 引自 光明日报 刘军 文 问题 肥胖症和体重超常与死亡人数真有显著的数量关系吗 这些类型的问题可以运用相关分析与回归分析的方法去解决 实例2 全球吃死的人比饿死的人多 2020 1 16 6 6 1相关分析 7 1 1相关关系的概念 客观现象之间的数量依存关系 可以分为 一种是函数关系 一种是相关关系 1 函数关系与相关关系 7 1 1相关关系的概念 7 1 1相关关系的概念 6 1 1相关关系的概念 2020 1 16 7 1 函数关系 是一一对应的确定关系 当一个或几个变量取一定的值时 另一个变量有确定值与之相对应 我们称这种关系为确定性的函数关系 可以用数学分析的方法去研究一般情况下确定性函数关系可表示为 y f x 其中x称为自变量 y称为因变量一个自变量 各观测点落在一条线上 2020 1 16 8 函数关系的例子某种商品的销售额 y 与销售量 x 之间的关系可表示为y px p为单价 圆的面积 S 与半径之间的关系可表示为S R2企业的原材料消耗额 y 与产量 x1 单位产量消耗 x2 原材料价格 x3 之间的关系可表示为y x1x2x3 2020 1 16 9 2 相关关系 correlation 当一个或几个相互联系的变量取一定数值时 与之相对应的另一变量的值虽然不确定 但它仍按某种规律在一定的范围内变化 变量间的这种相互关系 称为具有不确定性的相关关系 用相关与回归分析方法研究这种关系有二个明显特点 1 现象之间确实存在数量上的依存关系 即某一社会经济现象变化要引起另一社会经济现象的变化 2 现象之间的这种依存关系是不严格的 即无法用数学公式严格表示 2020 1 16 10 一般可表示为Y f X u u为随机变量 当变量x取某个值时 变量y的取值可能有几个各观测点分布在直线周围 一个自变量 2020 1 16 11 相关关系的例子父亲身高 y 与子女身高 x 之间的关系收入水平 y 与受教育程度 x 之间的关系粮食亩产量 y 与施肥量 x1 降雨量 x2 温度 x3 之间的关系商品的消费量 y 与居民收入 x 之间的关系商品销售额 y 与广告费支出 x 之间的关系 2020 1 16 12 函数关系和相关关系 在一定条件下是可以互相转化的 函数关系 存在观测误差 相关关系 规律性认识 2020 1 16 13 2 相关关系的种类 1 从涉及的变量数量看简单相关 两个现象的相关多重相关 复相关 三个或三个以上 2 从变量相关关系的表现形式看线性相关 散布图接近一条直线非线性相关 散布图接近一条曲线 2020 1 16 14 3 从变量相关关系变化的方向看正相关 两个变量同方向变化同增同减负相关 两个变量反方向变化一增一减 2020 1 16 15 4 从变量相关的程度看完全相关不相关不完全相关 2020 1 16 16 3 相关关系的描述 对现象变量之间是否存在相关关系以及存在怎样的相关关系进行分析 作出判断 这是进行相关分析的前提 通过编制相关表和相关图 可以直观地 大致地判断现象变量之间是否存在相关关系以及关系的类型 2020 1 16 17 相关表是表现现象变量之间相关关系的表格 是根据自变量大小的顺序进行排列所编制的表 1 相关表 2020 1 16 18 简单相关表 自变量的值从小到大顺序排列 因变量的值一一对应平行排列编制 为研究商店人均月销售额和利润率的关系 调查10家商店取得10对数据 以人均销售额为自变量 利润率为因变量 编制简单相关表 2020 1 16 19 所谓相关图 是把相关的两个变量之间的关系在平面直角坐标 第一象限 中反映出来 通常将自变量 x 置于横轴上 因变量 y 置于纵轴上 而将两个变量相对应的变量值用坐标点形式描绘出来 相关图就是用相关点的分布状况来描述相关关系的 所以又称为散点图 根据相关图 可以直观地看出变量之间相关关系的模式 2 相关图 2020 1 16 20 例如 前述人均月销售额与利润率的关系 可用相关图表示如下 2020 1 16 21 x与y的一些可能关系的散点图 2020 1 16 22 相关分析的作用 1 确定现象之间是否确有依存关系 这是相关分析的前提 2 确定相关关系的表现形式 是直线相关 还是曲线相关 这是相关分析的出发点 3 研究现象之间关系的密切程度和方向 并检验其有效性 2020 1 16 23 图表形式虽然能直观的展现变量之间的相关关系 但是对变量相关关系及相关程度的描述不够精确 在统计学中 对不同类型的变量数据 常采用各种相关系数来具体度量变量间相关的程度 简单线性相关系数 Spearman等级相关系数 6 1 2相关系数 2020 1 16 24 简单线性相关系数是在直线相关条件下 表明两个现象之间相关关系的方向和密切程度的综合性指标 这种相关系数是最常用的 简称为相关系数 总体相关系数 样本相关系数r 1 简单线性相关系数 2020 1 16 25 总体相关系数反映总体两个变量X和Y的线性相关程度 对于所研究的总体 表示两个相互联系变量相关程度的总体相关系数为 总体相关系数 2020 1 16 26 特点 对于特定的总体来说 X和Y的数值是既定的 总体相关系数是客观存在的特定数值 表现为一个常数 一般不可能直接观测总体的两个变量的全部数值 所以总体相关系数一般是不知道的 2020 1 16 27 样本相关系数 通过X和Y的样本观测值去计算样本相关系数 变量X和Y的样本相关系数通常表示用 2020 1 16 28 为便于计算 相关系数可用下式计算 代入公式计算相关系数 做表格 2020 1 16 29 特点 样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的 是对总体相关系数的估计 它是个随机变量 2020 1 16 30 为研究美国软饮料公司的广告费用X和销售数量Y的关系 分析7种主要品牌公司的有关数据 2020 1 16 31 2020 1 16 32 对相关系数r的解释 1 相关系数的取值在 1与1之间 2 当r 0时 表明X与Y没有线性相关关系 注意 r是对变量之间线性相关关系的度量 r 0只是表明两个变量之间不存在线性关系 它并不意味着X与Y之间不存在其他类型的关系 可能存在非线性关系 2020 1 16 33 3 在大多数情况下 X与Y的样本观测值之间存在着一定的线性关系 即00表明X与Y为正相关 若r 0表明X与Y为负相关 2020 1 16 34 4 当 r 1时 表明X与Y完全线性相关 若r 1 称X与Y完全正相关 若r 1 称X与Y完全负相关 一般标准 0 8 r 1 表示高度相关 0 5 r 0 8 表示中度相关 0 3 r 0 5 表示低度相关 0 r 0 3 表示相关关系很弱 基本可以认为没有线性相关关系 注 这样的说明必须建立在通过显著性检验的基础上 2020 1 16 35 相关系数 取值及其意义 r 2020 1 16 36 使用相关分析的注意事项 X和Y都是相互对称的随机变量 所以 相关系数只反映变量间的线性相关程度 不能说明非线性相关关系 相关系数不能确定变量的因果关系 也不能说明相关关系具体接近于哪条直线 不能从一个变量的变化去推测另一个变量的具体变化 进行相关分析要有实际意义 2020 1 16 37 注意 相关关系 因果关系 典型的错误推断 统计分析表明 庆祝生日次数越多的人越长寿 因此 庆祝生日有利于健康 调查表明 世界各国人均电视机拥有量与预期寿命存在很强的正相关性 因此 电视机拥有量越高 预期寿命越长 对小学各年级学生的抽样调查表明 学生的识字水平与他们鞋子的尺寸高度正相关 因此 学生穿的鞋越大 他的识字水平就越高 2020 1 16 38 2 相关系数的显著性检验 为什么要检验 样本相关系数是随抽样而变动的随机变量 只是对总体相关系数的估计 由于从总体中每抽取一个样本 都可以根据其观测值估计出一个样本相关系数 样本容量越小其可信度就越差 因此 相关系数的统计显著性还有待检验 检验总体相关系数是否等于0 H0 0 原假设 H1 0 备择假设 2020 1 16 39 检验的依据 如果X和Y都服从正态分布 在总体相关系数 0的假设下 与样本相关系数r有关的t统计量服从自由度为n 2的t分布 H0 0 原假设 H1 0 备择假设 2020 1 16 40 2020 1 16 41 显著性水平和拒绝域 双侧检验 H0 0 原假设 H1 0 备择假设 2020 1 16 42 相关系数的检验方法 1 提出原假设和备择假设H0 0 原假设 H1 0 备择假设 2 计算t统计量 3 给定显著性水平 查自由度为n 2的临界值t 2 4 若 t t 2 表明相关系数r在统计上是显著的 应否定 0 而接受 0的假设 5 反之 若 t t 2 表明相关系数r在统计上是不显著的 应接受 0的假设 2020 1 16 43 例题 某产品广告费用和销售额的资料 2020 1 16 44 相关系数 2020 1 16 45 解 n 10 r 0 9319 0 1计算 查表t 2 n 2 t0 05 10 2 1 86因为 t t 2所以拒绝H0 表明r是显著的 总体相关系数不为0 即广告费用和销售额高度正相关 假设检验H0 0H1 0 2020 1 16 46 当变量不满足正态分布要求或不是数量型变量时 简单线性相关系数不宜使用 可以用Spearman等级相关系数作相关性分析 6 1 3Spearman等级相关系数 2020 1 16 47 对于样本容量为n的变量x和y 如果取值都可以分为n个等级 而且样本的n个单位分别不重复地属于x和y的不同等级 没有两个单位取相同等级的情况 并且用di表示样本单位属于x的等级与y的等级的级差 Spearman等级相关系数为 式中 2020 1 16 48 将广告费用X和销售数量Y用秩次表示 并计算等级级差 2020 1 16 49 根据等级级差 计算等级相关系数 表明美国软饮料公司广告费用与销售数量等级正相关程度比较高 2020 1 16 50 6 2一元线性回归分析 在两个变量间存在线性相关关系的情况下 为了明确二者联系的具体数量规律 需要进行回归分析 2020 1 16 51 1 相关分析就是用一个指标 相关系数 来表明现象间相互依存关系的密切程度 方向和程度 但是相关分析不能说明变量间相关关系的具体形式 也不能从一个变量的变化去推测另一个变量的具体变化 如果要具体测定变量之间相关关系的数量形式 需要运用回归分析 6 2 1相关与回归分析的联系 2020 1 16 52 回归这个术语是由英国著名统计学家FrancisGalton在19世纪末期研究孩子及他们的父母的身高时提出来的 Galton发现身材高的父母 他们的孩子也高 但这些孩子平均起来并不像他们的父母那样高 对于比较矮的父母情形也类似 他们的孩子比较矮 但这些孩子的平均身高要比他们的父母的平均身高高 Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应 而他发展的研究两个数值变量的方法称为回归分析 2 回归分析 2020 1 16 53 回归的古典意义 高尔顿遗传学的回归概念父母身高与子女身高的关系 无论高个子或低个子的子女都有向人的平均身高回归的趋势 2020 1 16 54 回归的现代意义 在建立数学模型的基础上 一个因变量对若干自变量依存关系的研究回归的目的 实质 由固定的自变量去估计因变量的平均值 2020 1 16 55 1 按自变量的多少分类简单回归 研究一个自变量的回归分析 复回归 研究多个自变量的回归分析 多元回归 2 按回归的表现形式分类线性回归 回归的规律在图形上表现为一条直线 非线性回归 回归的规律在图形上表现为形态各异的各种曲线 回归分析的种类 2020 1 16 56 3 相关分析与回归分析的联系 共同的研究对象 都是对变量间相关关系的分析 在具体应用时 常常必须互相补充 相关分析需要依赖回归分析来表明现象数量相关的具体形式 而回归分析则需要依靠相关分析来表明现象数量变化的相关程度 只有当变量间存在高度相关时 用回归分析去寻求相关的具体数学形式才有实际意义 即无相关就无回归 相关程度越高 回归越好 2020 1 16 57 1 在研究目的上的区别相关分析研究变量之间相关的方向和相关的程度 回归分析则是研究变量之间相互关系的具体形式 寻求相关的数学方程式 从己知量来推测未知量 从而为估算和预测提供了一个重要的方法 4 相关与回归分析在研究目的和方法上是有明显区别 2020 1 16 58 2 在变量处理上的区别相关分析对称的对待相互联系的变量 可以不必确定变量中哪个是自变量 哪个是因变量 其所涉及的变量可以都是随机变量 回归分析则必须事先研究确定具有相关关系的变量中哪个为自变量 哪个为因变量 一般地说 回归分析中因变量是随机的 而把自变量作为研究时给定的非随机变量 3 在结果上的区别 现象之间相关关系分析 只能计算一个相关系数 回归分析时 回归方程可能有两个 即当现象互为因果关系时 2020 1 16 59 6 2一元线性回归模型 设x为自变量 y为因变量 y与x之间存在某种线性关系 即一元线性回归模型为其中 表示各随机因素对y的影响的总和 根据中心极限定理 可以认为它服从正态分布 即那么y就是一个以回归直线上的对应值为中心的正态随机变量 6 2 1 一元线性回归模型 2020 1 16 60 6 2一元线性回归模型 给定x y的n对观测值xi yi 代入式 6 2 1 得 6 2 1 当b 0时 x与y为正相关 当b 0时 x与y为负相关 一元线性回归模型 称 6 2 1 为一元线性回归模型 2020 1 16 61 二 OLS OrdinaryLeastSquare 估计OLS的中心思想最小二乘法的中心思想 是通过数学模型 配合一条较为理想的趋势线 这条趋势线必须满足下列两点要求 1 原数列的观测值与模型估计值的离差平方和为最小 2 原数列的观测值与模型估计值的离差总和为0 6 2一元线性回归模型 2020 1 16 62 二 OLS OrdinaryLeastSquare 估计 2020 1 16 63 二 OLS OrdinaryLeastSquare 估计 2020 1 16 64 二 OLS OrdinaryLeastSquare 估计 2020 1 16 65 OLS的特性最小二乘估计量具有线性 无偏性和最小方差性等良好的性质 线性 无偏性和最小方差性统称BLUE性质 满足BLUE性质的估计量称为BLUE估计量 二 OLS OrdinaryLeastSquare 估计 2020 1 16 66 回归方程的检验在一元线性回归模型中最常用的显著性检验方法有 相关系数检验法F检验法t检验法 6 3线性回归模型的检验 2020 1 16 67 三 离差平方和的分解与可决系数在一元线性回归模型中 观测值的数值会发生波动 这种波动称为变差 变差产生的原因如下 受自变量变动的影响 即x取值不同时的影响 受其他因素 包括观测和实验中产生的误差 的影响 为了分析这两方面的影响 需要对总变差进行分解 6 3线性回归模型的检验 2020 1 16 68 三 相关系数 离差平方和的分解 其中 Q1成为残差平方和 Q2成为回归平方和 2020 1 16 69 三 相关系数 可决系数 2020 1 16 70 可决系数的特点 1 可决系数是非负的统计量 2 可决系数取值范围 0 R2 1 当所有的观测值都位于回归直线上时 残差平方和SSE 0 这时R2 1 说明总离差可以完全由所估计的样本回归直线来解释 2020 1 16 71 三 相关系数 相关系数的取值范围为当R 0时 说明回归变差为0 自变量x的变动对总变差毫无影响 这种情况称y与x不相关 当 R 1时 说明回归变差等于总变差 总变差的变化完全由自变量x的变化所引起 这种情况成为完全相关 这时因变量y是自变量x的线性函数 二者之间呈函数关系 当0 R 1时 说明自变量x的变动对总变差有部分影响 这种情况成为普通相关 2020 1 16 72 三 相关系数 2020 1 16 73 四 显著性检验 相关系数检验法第一步 计算相关系数R 第二步 根据回归模型的自由度 n 2 和给定的显著性水平值 从相关系数临界值表中查出临界值 第三步 判别 若 R R n 2 表明两变量之间线性相关关系显著 检验通过 这时回归模型可以用来预测 若 R R 表明两变量之间线性相关关系不显著 检验不通过 2020 1 16 74 四 显著性检验 F检验法 F服从第一自由度为1 第二自由度为n 2的 分布 对给定的显著性水平 查 分布表可得临界值 2020 1 16 75 四 显著性检验 2020 1 16 76 点估计在一元线性回归模型中 对于自变量x的一个给定值 代入回归模型 就可以求得一个对应的回归预测值 又称为点估计值 区间估计所谓预测区间就是指在一定的显著性水平上 依据数理统计方法计算出的包含预测对象未来真实值的某一区间范围 五 预测区间 2020 1 16 77 五 预测区间 点估计值 的统计性质 2020 1 16 78 五 预测区间 2020 1 16 79 五 预测区间 由于总体方差往往是未知的 所以 常用总体方差的无偏估计量来代替 式中 y称为y的标准误差 实际计算时可用其简捷式 2020 1 16 80 五 预测区间 预测值和预测误差 预测误差的数学期望与方差 2020 1 16 81 五 预测区间 令 当实际观测值较多时 一般n 30 式 6 2 31 可简化为 6 2 31 2020 1 16 82 六 应用举例 例6 2 1某省1978 1989年国内生产总值和固定资产投资完成额资料如表6 2 1所示 2020 1 16 83 六 应用举例 试配合适当

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论