




已阅读5页,还剩78页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章相关与回归分析 重难点章 重点 第一节 第二节 第三节 7 1 相关分析 7 2 一元线性回归模型与估计 7 3 一元线性回归的显著性检验与回归预测 7 4 多元线性回归分析 学习内容及要求 1 了解相关关系的概念 种类 2 掌握相关系数的取值范围 计算方法和应用 3 掌握一元线性回归的基本原理运用最小平方法 也称最小二乘法 进行回归分析 4 利用回归方程进行预测 5 用Excel进行回归分析 7 1 相关分析 重点 相关关系的种类带着问题学 1 相关关系的概念及其与函数关系的区别是什么 2 相关关系的种类及其计算方法有哪些 7 1 1相关关系的概念 一 函数关系与相关关系 二 相关关系的种类三 相关关系的描述 返回 我俩是什么关系 你说呢 1 函数关系与相关关系 变量间的关系有两种类型 函数关系和相关关系 1 函数关系 现象之间是一种严格的确定性的依存关系 一一对应 设有两个变量x和y 变量y完全依赖于x 则称y是x的函数 记为y f x 其中x称为自变量 y称为因变量 各观测点数值都落在一条很规则的线 如直线 弧线 圆 上 例如 圆的面积 S 与半径之间非关系可表示为S R2某种商品的销售额 y 与销售量 x 之间的关系可表示为y px p为单价 2 相关关系 现象之间存在的但数量上不是严格对应的依存关系 特征 变量间确实存在数量上的相互依存关系 这种数量关系不确定 不能用函数关系精确表达 一个变量的取值不能由另一个变量惟一地确定 当变量x取某个值时 与之相关的变量y的取值可能有若干个 各观测点分布在一条直线或曲线周围 如施肥量与亩产量的关系 劳动生产率与单位产品成本的关系 商品的消费量与居民收入的关系 收入的多少与购买商品的档次相关 商品销售额与广告费支出的关系 2 相关关系的种类 1 按相关关系涉及因素 变量 的多少分为 单相关 一元相关 指两个变量间的相关关系 如商品销售额与商品价格的关系 复相关 多元相关 指三个 或以上 变量间的相关关系 如商品销售额与居民收入 商品价格等的关系 2 按相关的表现形态分为 直线相关 观察点的分布大致呈现为一条直线 商品销售额与商品价格的关系 曲线相关 观察点的分布大致呈现为一条曲线 如抛物线 施肥量与亩产量 指数曲线 按等比速度增长的某经济现象 3 按相关现象变化方向分为 正相关 两变量大体上呈同方向变化 商品销售额与商品价格的关系 负相关 两变量大体上呈反方向变化 劳动生产率与单位产品成本的关系 相关关系的种类 从涉及的变量数量看简单相关多重相关 复相关 从变量相关关系的表现形式看线性相关 散布图接近一条直线 左图 非线性相关 散布图接近一条曲线 右图 从变量相关关系变化的方向看正相关 变量同方向变化A同增同减 A 负相关 变量反方向变化一增一减 B B 从变量相关的程度看完全相关 B 不完全相关 A C不相关 C 相关关系的种类 3 相关关系的描述 1 判断确定现象之间有无相关关系以及相关关系的具体形式 2 确定相关关系的密切程度 3 检验现象相关的显著性 满汉全席 相关关系的一般判断 确定现象之间有无依存关系 确定相关关系的密切程度 计算 相关系数 测定因变量估计值与实际值之间的差异 计算 估计标准差 相关表和相关图 简单相关表 分组相关表 相关表 将一个变量按大小顺序排序 另一个变量对应排列而成的表格 例 P138表7 1 相关图 也称为散点图 一对数据对应坐标图上一个点 将成对的观察数据表现为坐标图的散点而形成的图 例 P138图7 3 编制相关表 图的意义 有助于分析者直观判断相关的有无 方向 形态 密切程度 相关关系图 例7 1美国软饮料公司广告费用与销售数量 两者之间发生什么连带变化 两者之间的变化我看出来了 例7 1美国软饮料公司广告费用与销售数量 7 1 1相关系数1 简单线性相关系数 现象间相关的形式特点不同 相关系数的计算方法也不同 直线相关系数 简称相关系数 是对两个变量之间线性相关程度的度量 相关系数的平方叫判定系数 两者都是对变量之间关系密切程度的度量 特点 相关系数有正负号 取决于协方差的正负 分析时 两个变量是对等的 不分自变量和因变量 两者互换不影响计算结果 抽样时 两个变量都是随机变量 此外还有复相关系数 非线性相关系数等 相关系数的计算公式 皮尔逊相关系数 P138例表7 1 手工计算简略 此处用EXCEL处理 详见知识拓展第7章操作 相关系数r的取值含义 r 越趋于1 表示关系越密切 r 越趋于0 表示关系越不密切 r 0 无相关 r 1 完全相关 相关程度的习惯划分法 0 r 0 3 低度相关0 3 r 0 5 中度相关0 5 r 0 8 显著相关0 8 r 1 高度相关 2 相关系数的检验 显著性检验 由同一总体抽取的不同样本资料计算出的相关系数一般不相等 那么 样本相关系数能否代表总体相关系数 因而有必要对相关系数的显著性进行检验 步骤 1 首先提出零 原 假设H0 P 0 总体相关系数为0 两变量线性相关性不显著 备择假设H1 P 0 总体相关系数不为0 两变量线性相关性显著 2 设定统计量t服从自由度为 n 2 的t分布 并计算统计量的值 3 给定显著水平a 查t分布表得临界值4 将计算出的统计量与临界值进行比较判断 不能越过雷池半步 3 等级相关系数的测定方法皮尔逊相关系数一般适用于连续变量 且要求总体分布服从或近似服从正态分布 但在统计实践中 数据资料可能不能满足上述的条件 有些数据还是属性数据 如测定品质的优劣 爱好程度 信念 态度等 对于这种以等级或次序进行衡量的定序尺度数据 或不满足正态分布假设的定距尺度数据 需要采用等级相关 RankCorrelation 的方法来研究变量之间的相关关系 等级相关法 就是把有关联的定序变量按等级次序排列 形成x和y两个序数数列 再测定这两个序数数列之间的相关程度 用这种方法计算的相关指标叫做等级相关系数 以下将介绍两种常用的等级相关系数 相关系数r的取值范围 r 越趋于1 表示关系越密切 r 越趋于0 表示关系越不密切 r 0 无相关 r 1 完全相关 等级相关系数是简单相关系数的特例 7 2 1相关分析与回归分析的联系 7 2 2总体回归函数与样本回归函数 7 2 3回归系数的普通最小二乘估计 7 2一元线性回归模型与估计 重点 回归系数的普通最小二乘估计带着问题学 1 相关分析与回归分析的区别有哪些 2 总体回归函数与样本回归函数的区别有哪些 3 回归系数的普通最小二乘估计的计算方法是什么 回归 regression 这个术语是由英国著名生物学家兼统计学家高尔顿 FrancisGalton 1822 1911 提出来的 高尔顿是生物统计学派的奠基人 他在1870年研究人类生长的遗传时 收集了1078对父子身高研究时发现 父母身高较高 则其子女身高也较高 父母身高较矮 其子女身高也较矮 但高个子父母所生的孩子其身高有低于其父母身高的趋势 而矮个子父母所生的孩子其身高则有高于其父母身高的趋势 高尔顿把这种孩子的身高向中间值靠近的趋势称之为回归效应 并把 回归 作为统计学的概念加以应用 至今 回归 概念已是指变量之间的依存关系 回归分析 regressionanalysis 是测定现象之间数量变化的一般关系所采用的数学方法 回归模型有多种形式 按自变量个数分 有一元回归 即简单回归 和多元回归 即复回归 按回归线形状分 有线性回归 即直线回归 和非线性回归 即曲线回归 其中 线性回归是基本的 本章只介绍简单线性回归 即一元线性回归的分析方法 统计调查资料 孩子的身高的趋势 父母身高较高 则其子女身高也较高 父母身高较矮 其子女身高也较矮 高的会一辈比一辈更高吗 矮的会一辈比一辈更矮吗 7 2 1相关分析与回归分析的联系一 回归分析的概念 回归分析 根据相关关系的数量表达式 回归方程式 与给定的自变量x 揭示因变量y在数量上的平均变化和求得因变量预测值的统计方法 用回归分析方法 通常是用最小二乘法 也称最小平方法 得出的数学表达式称为回归方程 二 主要内容 回归方程种类有 非 线性回归方程 一 多 元回归方程等 其中 一元线性回归方程最常用 回归分析与相关分析的区别P141 P143 相关分析1 主要描述两个变量之间相关的方向和密切程度2 变量x 变量y处于平等地位 3 变量x和y都是随机变量4 可以计算一个相关系数 相关系数取值范围在0到正负1之间 回归分析确定因变量y和自变量x之间数量变动关系的数学表达式 并对因变量进行预测变量y和变量x不是对等关系 Y是因变量 是随机变量 x是自变量 是确定变量 可以建立y依x或x依y两个回归方程 可以计算两个回归系数 回归系数取值可为正负数 且取值范围不限 7 2 2总体回归函数与样本回归函数 重点 样本回归函数1 总体回归函数2 样本回归函数具有线性相关关系的两个变量的关系可表示为 其中 误差项 是随机变量 期望值为零 即E 0 意即正负误差抵消 误差之和为0 线性部分就是线性回归方程 反映由于自变量x的变化而引起的因变量y的相应的变化 式中a和是两个待定参数 b 直线的斜率 称为回归系数 表示自变量x每变动一个单位时 因变量y平均变动b个单位 返回 总体回归函数与样本回归函数的关系图示 两者区别参见P147 7 2 3回归系数的普通最小二乘估计 重点 根据微积分求极值的原理 只需分别对a 求偏导数 令它们等于零 整理后可得标准 正规 方程组 1 最小平方法 使因变量的观察值与估计值之间的离差平方和Q达到最小值 Q分别对a 求偏导 令一阶偏导为0 来求得参数a和的值的方法 即 2 用最小平方法拟合的直线所代表的x与y之间的数量关系 其估计值与实际值的误差要比其他任何直线的误差都小 3 可用于直线回归 也可用于曲线回归 根据微积分求极值的原理 只需分别对a 求偏导数 令它们等于零 整理后可得标准 正规 方程组 参数和b的计算公式 a 例P149表7 3资料计算参数和的值 a 回归系数b的经济含义 当自变量 学徒期限 x每增加一个单位 年 时 因变量 日产量 y平均增加87 5个单位 件 回归系数与相关系数的正负 符号 都取决于协方差 其正则正 其负则负 回归系数与相关系数的计算式可以互推 7 3一元线性回归的显著性检验与回归预测 拟合优度的度量回归系数显著性检验的t检验一元线性回归模型的预测 回归分析模型的种类 按照具有相关关系的变量个数划分按照变量间相互关系的形态划分 除上述分类外 根据简单回归和多元回归与直线回归和非直线回归的交叉结合 还可以进一步细分为简单线性回归和简单非线性回归 多元线性回归和多元非线性回归等不同类型 3 回归估计标准误 分母之所以是 n 2 而不是n 是因为根据样本资料用最小平方法求参数 和 时 受两个标准方程的约束 失去了两个自由度 1 回归估计标准误的概念估计标准误差 实际值与估计值之间的差异程度 计算公式P186 作用 反映实际观察值在回归直线周围的分散状况 说明回归直线的拟合程度 衡量回归方程的代表性 测定回归估计的精度 回归估计标准差反映的是因变量各实际值与其回归估计值之间的平均差异程度 表明其估计值对各实际值的代表性的强弱 其值越小 估计值 或回归方程 的代表性越强 用回归方程估计或预测的结果越准确 拟合度较好 回归估计标准误小 拟合度较差 回归估计标准误大 表7 7为例 4 回归方程判定系数若回归平方和SSR占总离差平方和SST的比重越大 说明所有观察点的实际值距离回归直线越近 线性回归分析的效果越好 故可用回归平方和占总离差平方和的比重的大小作为衡量两个变量之间相关关系大小和说明回归拟合的优劣程度 统计上把这个比重称为判定系数 记作 离差平方和的分解 某个社会现象中 因变量y的取值是各不同的 y值的这种波动称为变差或离差 对一个具体的观测值来说 变差的大小可以通过该实际观测值与其均值之差来表示 变差 离差 的分解 图示 离差分解图SST SSE SSR a bx 变差平方和的分解 从图上看有 总变差 剩余变差 回归变差 两端平方后求和有 可记为 SST SSE SSR或Lyy Q U 三个变差平方和的意义 总变差平方和 SST Lyy 反映因变量Y的n个观察值与其均值的总离差 回归变差平方和 SSR U 反映自变量x的变化对因变量y取值变化影响 可用X来解释的变化 剩余变差平方和 SSE Q 反映除x以外的其他因素对y取值的影响 一些不规则偶然因素所致的变化 估计标准误与相关系数的关系 r值越大 syx值就越小 观测点离回归直线越近 5 回归方程的统计检验 1 回归模型整体拟合效果的显著性检验 F检验 它是建立在总离差平方和分解的基础上 SST SSR SSE 回归平方和SSR越大 变量之间线性相关性越大 设统计量F分别服从自由度为1 n 2的卡方分布 并计算F值 所拟回归方程是否合理 因变量与自变量之间是否确有线性关系 可通过回归系数或回归方程的显著性来判断 通常用F检验或t检验 给定显著水平a 查F分布表得临界值将计算出的统计量与临界值进行比较判断 2 模型参数 回归系数 的显著性检验 t检验 确定有线型关系后 进一步检验是斜线还是水平线 首先提出零 原 假设H0 B 0 两变量之间不存在线性关系 备择假设H1 B 0 两变量之间存在线性系 设定统计量t服从自由度为 n 2 的t分布 并计算统计量的值 给定显著水平a 查t分布表得临界值 将计算出的统计量与临界值进行比较判断 因变量置信区间估计 二 多元线性回归模型 在复杂的经济现象中 对因变量产生影响的自变量往往不止一个 而是有多个 因此仅仅以一个自变量来解释因变量往往是不全面的 需要建立一个因变量与多个自变量的联系模型来进行分析 才能获得较全面 准确的分析结果 研究在线性相关条件下两个或两个以上自变量对一个因变量的数量变动关系 称为多元线性回归 表现这个数量关系的数学公式 称为多元线性回归模型 多元线性回归分析是对一元线性回归分析的拓展 其步骤 方法和一元线性回归分析基本上相类似 只是在计算上相对比较复杂些 例子 见教材第 页 P192 例表 某市国内生产总值计算与预测 国内生产总值 计算方法有三种 生产法 总产出 中间投入收入法 固定资产折旧 劳动者报酬 生产税净额 营业盈余 分配法 支出法 总消费 总投资 净出口 本例采用 13 为了了解某地教育经费x 万元 与高校学生人数y 万人 之间的关系 收集了过去6年的数据 通过回归分析得到如下的结果 计算 1 求A B C D的值 2 写出估计的线性回归方程 3 求判定系数与相关系数 并说明高校学生人数y的变化有多少是由教育经费来引起的 三 非线性回归方程 一 配合回归曲线的问题通过定性分析或散点图判断变量之间的曲线相关形态 选择曲线模型 二 可通过变量代换将曲线模型转换成线性形式 用最小二乘法求出线性模型中参数的估计值 再转换为原曲线模型的参数的估计值 注 并非所有的非线性模型都可以化为线性模型 非线性回归分析种类 实践中 经常遇到的问题是经济变量之间的关系并非线性关系 而是呈现出某种曲线关系 此时就必须根据具体数据情况为两个变量配合一个恰当的曲线回归模型 对于非线性回归 通常采用变量代换法将非线性模型线性化 从而将曲线回归问题转化为线性回归问题 再按照线性模型的方法来处理 1 指数曲线模型其回归方程为 2 对数曲线模型其回归方程为 3 双曲线模型其回归方程为 4 幂函数曲线模型其回归方程为 5 抛物线模型其回归方程为 一 指数曲线模型 基本形式 2 线性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 英语高一北师大版unit9单元测试
- 餐饮公司食品安全信息公示及共享协议
- 部门产品培训方案模板
- 烧烤店经营权及设备转让协议书
- 农村土房温暖改造方案
- 车辆借用与押金退还管理合同范本
- 建筑项目管理升级方案
- 拆迁安置补偿与房屋买卖服务合同
- 搜索能力面试题及答案
- 小学京剧面试题及答案
- 风电运维安全培训内容课件
- 保密人员面试题及答案
- 体育设备采购项目方案投标文件(技术方案)
- 烘焙技巧培训课程行业深度调研及发展战略咨询报告
- 软件质量标准与检验指南
- 经前期综合征课件
- DB35T 2192-2024河湖智慧监管体系构建导则
- 2024年秋新鲁科版三年级上册英语 Unit 1 lesson 1 教学课件
- 车间洗手消毒管理制度
- 顶管工程监理实施细则
- 音乐剧排练流程
评论
0/150
提交评论