5相关和回归分析.ppt_第1页
5相关和回归分析.ppt_第2页
5相关和回归分析.ppt_第3页
5相关和回归分析.ppt_第4页
5相关和回归分析.ppt_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

问题的提出 世界上的任何事物都是相互联系的 绝大多数真实数据都包含有许多变量的观测值 这些变量大都是以各种方式相关联的 统计的主要内容是研究变量之间的关系的 如 医疗卫生部门不能只知道某种流行病的发病率 还想知道什么变量影响发病率 如何影响的 统计实践的最终目的就是发现变量之间的统计关系 并且用总结出来的规律帮助人们进行决策 蝴蝶效应 TheButterflyEffect 是指在一个动力系统中 初始条件下微小的变化能带动整个系统的长期的巨大的连锁反应 一只南美洲亚马孙河流域热带雨林中的蝴蝶 偶尔扇动几下翅膀 可能在两周后在美国德克萨斯引起一场龙卷风 第七章相关与回归分析 第一节相关分析的意义和种类第二节简单线性相关分析第三节回归分析 说明 相关分析和回归分析的关系 回归分析是要对所研究的变量建立描述它们关系的模型 但如果要研究的变量间有没有关系 就谈不上建立模型 而发现变量间有无关系的最简单 直观的方法就是进行相关分析 第一节相关分析的意义和种类 一 相关分析的概念二 相关分析的种类 返回本章首页 一 相关分析的概念 一 变量间关系的形态有两种 函数关系和相关关系 1 函数关系 现象间存在着严格的数量依存关系 即某一变量取某值时 另一变量有确定值与之对应 2 相关关系 两个变量的关系确实存在 但关系数值不确定 即当自变量x取某个值时 因变量y的取值可能有几个 自变量x 因变量y 函数 S R2 相关 父母的身高与子女身高的关系施肥量与产量的关系居民储蓄和家庭收入的关系等 居民储蓄和家庭收入的关系等 3 相关关系与函数关系的关系 1 区别 第一 函数关系是变量之间的一种完全确定性的关系 相关关系一般是不完全确定的关系 第二 函数关系通常可以用数学公式准确的表示出来 相关关系则不能 2 联系 两种关系之间没有严格的界限 由于测量误差的存在 确定性的函数关系往往通过相关的形式表现出来 而实际中对相关关系的研究需要借助于函数关系的形式来近似描述 二 相关分析 是对具有相关关系的两个或两个以上的变量之间相互关系所做的统计分析 分析的内容包括 关系的密切程度 关系的具体形式 关系的方向等等 相关分析的结果可以用统计指标显示 如相关系数 也可以通过画图或做表的方法显示出来 二 相关分析的种类 完全相关 两个变量之间呈函数关系不相关 两个变量彼此互不影响 其数量的变化各自独立 如学习成绩和身高的关系不完全相关 介于完全相关和不相关之间 1 根据相关的程度 本文研究的内容 2 根据相关的方向 正相关 两个变量间的变化方向一致 都是增长趋势或下降趋势负相关 两个变量变化方向相反 3 根据相关的形式不同 线性相关 当一个变量变动时 另一个变量也相应发生大致均等的变动 各期的逐期增长量大体相同 非线性相关 当一个变量变动时 另一个变量也相应发生变动 但这种变动是不均等的 4 根据变量的多少 单相关 研究两个变量相关关系的复相关和偏相关 研究多个变量间相关关系的 返回本节首页 复相关 测定一个因变量和多个自变量之间相关关系偏相关 在多个变量中 假定其它变量不变 只测定任意两个变量之间的相关关系 第二节简单线性相关分析 返回本章首页 对变量之间相关关系的判断 有多种方法 如 定性分析 157页例题画相关图做相关表计算相关系数 本节内容 一 相关图和相关表二 相关系数三 关于相关分析的说明 返回本章首页 一 相关图和相关表 利用相关图和相关表可直观的判断出现象之间有无相关关系 相关的形态和相关的方向1 相关图 散点图 举例 返回本节首页 2 相关表 自变量从小到大排列 因变量与之一一对应 反映变量之间相关关系的统计表 有多种形式 产量 千件 企业数 个 单位成本 元 件 10520148181620161712141991220510 自变量分组并计算次数 因变量只计算平均数 二 相关系数 说明 返回本节首页 相关系数则能从数量上准确的判断现象之间关系的密切程度 相关图和相关表不能准确的反映变量之间关系的密切程度 1 相关系数含义 测定变量间相关关系密切程度的统计分析指标 返回本节首页 相关系数分 单相关系数 复相关系数 偏相关系数等 单相关系数 测定两个变量之间线性相关关系密切程度的统计分析指标 注意 如果计算的简单相关系数很小 说明两变量间无线性相关关系 不排除还可能有曲线相关关系 前者测定一个因变量和多个自变量之间相关程度的指标 后者是在多个变量中 假定其它变量不变 只测定任意两个变量之间的相关程度的指标 返回本节首页 复相关系数和偏相关系数都是测定多个变量间关系的 不同在于 2 相关系数计算 可依据总体数据计算 也可依据样本数据计算 以大小写区分 返回本节首页 总体相关系数公式 X Y的标准差 X和Y的协方差 样本相关系数公式 样本的协方差 x和y的标准差 返回本节首页 将上式分子分母同乘以得 或 返回本节首页 返回本节首页 举例 用计算器计算相关系数 返回本节首页 3 相关系数取值的说明 159页 返回本节首页 r 1完全正相关 r 1完全负相关 r 0不存在线性相关关系r的绝对值 0 3 0 5是低度相关 0 5 0 8是显著相关 0 8以上是高度相关 在 1 1 之间 大于0为正相关 小于0为负相关r取正还是取负取决于分子 三 相关分析的说明 1 两个变量的关系是对等的 即相关系数只有一个 改变自变量和因变量的位置 相关系数的大小和正负不变 返回本节首页 2 两个变量都是随机的 3 相关分析的不足 相关关系说明现象间有关系 但它不能说明一个现象发生一定量的变化时 另一个变量将会发生多大的变化 即 它不能说明两个变量之间的一般关系值 这需要由回归分析来解决 相关分析和回归分析的目的 相关分析的目的在于测定变量间关系的密切程度和变化方向 回归分析侧重于考查变量之间的数量伴随关系 并通过一定的数学表达式将这种关系描述出来 第三节回归分析 一 回归分析的概念及分类二 一元线性回归分析 返回本章首页 一 回归分析的概念及分类 1 回归分析的含义在相关分析的基础上 对变量之间数量变化的一般关系进行测定 确立一个相应的数学表达式 以便从一个已知的量估计另外一个未知的量 返回本节首页 注意 回归 的含义 说明 回归分析是将相关现象间不确定的数量关系确定化 采用的方法是配合一个方程式 以此代表现象间的一般数量关系 这个方程被称为回归方程 或 什么是回归分析 从一组数据出发 确定变量之间的数学关系式 利用所求的关系式 根据一个或几个变量的取值来预测另一个特定变量的取值 返回本节首页 3 回归分析的种类 1 按自变量x的多少 分为一元回归和多元回归 2 按自变量与因变量关系的形式 分为线性回归和非线性回归 返回本节首页 图示 返回本节首页 二 一元线性回归分析 一 总体一元线性回归模型的基本形式 反映一个自变量与一个因变量之间的线性回归问题 分总体和样本两种 自变量 因变量 模型参数 该模型假定X是引起Y的变化的唯一原因这是为了理论分析而使用的一种抽象的分析模型 返回本节首页 则总体一元线性回归模型的变为 实际中Y除了受X的影响外 还受其它因素的影响如将其它因素设定为随机误差项 并引入回归方程 自变量 因变量 模型参数 随机误差项 反映未列入方程式的其它各因素对Y的影响 由两部分构成 X的线性函数和随机误差项 截距 即X等于0时Y的值 斜率 或回归系数 代表X每变化一个单位Y的平均变化值 方程 注 假定随机误差项的期望是0 X的线性函数部分 是Y的数学期望 即当X取某一值时 Y的平均值 即 这里使用了一个假设条件 即随机误差项的期望是0 为什么X的线性函数部分是Y的数学期望 随机误差项u代表由各种偶然因素所带来的误差 它是 即 u越小 说明自变量X对因变量Y的影响越显著 即在y的变化中能由x解释的部分就越多 这样利用方程进行预测时效果会更好 二 样本一元线性函数 总体回归函数是未知的 需要利用样本的信息进行估计 根据样本数据拟合的直线 称为样本回归直线 根据样本数据拟合的曲线 称为样本回归曲线 样本回归线的函数形式应与总体回归线的函数形式一致 需拟合直线还是曲线需利用散点图判断 为样本实际观测值y的估计值 代表值 平均值 a b是两个未知参数 a为截距 b为斜率 两者分别是对总体参数 样本一元回归直线理论上可表示为 返回本节首页 即 返回本节首页 此式即为样本回归函数 残差 实际观测到的各个因变量y值并不完全等于两者之间会有离差 如用e表示两者之差 则有 知道了样本回归函数的一般形式 需要将a b的值估计出来 用以作为总体回归参数的估计值 对于a b的估计 实际中采用最小二乘法 返回本节首页 残差e越小 估计值和实际值的离差就越小 代表回归方程的代表性就越好 返回本节首页 因e值有正有负 简单的代数和会相互抵消 所以实际中会采用残差平方和作为衡量残差的尺度 具体操作时 是让达到最小来估计回归系数 这就是最小二乘法 最小二乘法的思路 因为残差 即 因为离差有正有负 简单的代数和会相互抵消 为了数学上便于处理 通常采用 越小 说明样本方程的代表性越好 将 带入到上述方程 则得 返回本节首页 如果 令 求偏导数并令其等于0 返回本节首页 解上述方程可得到两个标准方程 返回本节首页 解标准方程可求得a b的计算公式 求出方程后 可进行分析与预测 将上述b的公式分子分母同乘以1 n 则得 返回本节首页 返回本节首页 x y x1 y1 xi yi xn yn x2 y2 各个实际观测点与回归线的离差越小 说明回归方程的代表性越好 返回本节首页 试确定直线回归方程 并估计产量为1万吨时 生产费用是多少 设回归方程为 用最小二乘法求参数a b 返回本节首页 返回本节首页 回归系数b的含义 产量每增加1千吨 生产费用增加12 9万元 返回本节首页 故直线方程为 预测 产量为1万吨时 生产费用为 返回本节首页 1 在两个变量之间 必须确定哪个是自变量 哪个是因变量 如果自变量和因变量的位置发生变化 方程也会改变 如果X为自变量 则 如果y为自变量 则 三 简单线性回归分析的特点 2 回归方程的主要作用 是用自变量来推算因变量而不能反推 四 相关分析和回归分析的关系 第一 相关分析是回归分析的基础和前提 回归分析是相关分析的深入和继续 返回本节首页 第二 相关系数和回归系数可以相互推算 1 联系 有调查资料 某城市每户平均年收入为900元 均方差为40元 每户平均年消费支出为700元 方差为3600元 支出对于收入的回归系数为0 9 要求 1 计算收入与支出的相关系数 2 拟合支出对于收入的回归方程 并解释回归系数的含义 2 区别 第一 两者分析目的不同 相关分析主要测定变量间关系的密切程度和变化方向 回归分析侧重考查变量间的数量伴随关系 是将相关现象间不确定的数量关系确定化 返回本节首页 第二 对资料的要求不同相关分析中两个变量必须是随机的 回归分析中自变量是给定的 因变量是随机的 第三 相关分析所研究的两个变量是对等的关系 相关系数只有一个 回归分析所研究的两个变量不是对等的 必须根据研究的目的 确定出自变量和因变量的位置 返回本节首页 附 估计标准误差 一 变差的含义 给定自变量x值时 因变量y的取值是不同的 y取值的这种波动称为变差 总离差 来源于两个方面 由于自变量x的取值不同造成的除x以外的其他因素影响 对毎一个具体的观测值来说 变差的大小可通过该实际观测值与其均值之差表示 称为总变差 总离差 可分解为两部分 回归离差残差 能够由回归直线解释的离差 不能由回归直线解释的离差 x y 总离差分解图 回归离差 残差 回归离差 残差 即 可利用回归离差或残差的大小说明回归方程的代表性 对所有的实际观测值而言 具体操作时 是对进行分解的 将总离差两边平方 再整理得 回归平方和 SSR 残差平方和 SSE 总离差平方和 SST 所占越大 回归方程的代表性越差 x对y的影响越不显著 所占的比重越大 回归方程的代表性越好 均可表明X和y相关关系的密切程度 三个平方和的意义 总平方和 SST totalsumofsquares 反映因变量的n个观察值与其均值的总离差 回归平方和 SSR sumofsquaresofregression 反映自变量x的变化对因变量y取值变化的影响或者说 是由于x与y之间的线性关系引起的y的取值变化 也称为可解释的平方和 残差平方和 SSE sumofsquaresoferror 反映除x以外的其他因素对y取值的影响 也称为不可解释的平方和或剩余平方和 二 估计标准误差 该指标能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论