统计学10相关与回归分析.ppt_第1页
统计学10相关与回归分析.ppt_第2页
统计学10相关与回归分析.ppt_第3页
统计学10相关与回归分析.ppt_第4页
统计学10相关与回归分析.ppt_第5页
免费预览已结束,剩余49页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第一节基本概念 一 函数关系与相关关系函数关系 当一个或几个变量取一定的值时 另一个变量有确定值与之相对应 称为确定性的函数关系 函数关系的特点是一一对应的确定关系设有两个变量x和y 变量y随变量x一起变化 并完全依赖于x 当变量x取某个数值时 y依确定的关系取相应的值 则称y是x的函数 记为y f x 其中x称为自变量 y称为因变量 2 第一节基本概念 一 函数关系与相关关系相关关系 当一个或几个相互联系的变量取一定数值时 与之相对应的另一变量的值虽然不确定 但它仍按某种规律在一定的范围内变化 变量之间的这种关系称为相关关系 相关关系的特点变量间关系不能用函数关系精确表达 一个变量的取值不能由另一个变量唯一确定 当变量x取某个值时 变量y的取值可能有几个 3 二 相关关系的种类 按相关关系的程度划分完全相关 当一个现象的数量变化完全由另一个现象的数量变化所确定时 称这两种现象间的关系为完全相关 不相关 当两种现象彼此互不影响 其数量变化各自独立时 称为不相关现象 不完全相关 两个现象之间的关系介于相关和不相关之间 称为不完全相关 4 二 相关关系的种类 按相关形式划分线性相关 当两种相关现象之间的关系大致呈现为线性关系时 称之为线性关关 非线性相关 如果两种相关现象之间 并不表现为直线的关系 而是近似于某种曲线方程的关系 则这种相关关系称为非线性相关 5 按相关的方向划分正相关 两个相关现象间 当一个变量的数值增加 或减少 时 另一个变量的数值也随之增加 或减少 即同方向变化 负相关 当一个变量的数值增加 或减少 时 而另一个变量的数值相反地呈减少 或增加 趋势变化 即反方向变化 二 相关关系的种类 6 按研究的变量划分单相关 两个变量之间的相关 称为单相关复相关 当所研究的是一个变量对两个或两个以上其他变量的相关关系时 称为复相关 偏相关 在某一现象与多种现象相关的场合 假定其他变量不变 专门考察其中两个变量的相关关系称为偏相关 二 相关关系的种类 7 三 相关分析与回归分析 一 概念 相关分析 就是用一个指标来表明现象间相互依存关系的密切程度 回归分析 是指对具有相关关系的现象 根据其相关关系的具体形态 选择一个合适的数学模型 称为回归方程式 用来近似地表达变量间的平均变化关系的一种统计分析方法 8 二 相关分析与回归分析的区别在相关分析中 不必确定自变量和因变量 而在回归分析中 必须事先确定哪个为自变量 哪个为因变量 而且只能从自变量去推测因变量 而不能从因变量去推断自变量 相关分析不能指出变量间相互关系的具体形式 而回归分析能确切的指出变量之间相互关系的具体形式 它可根据回归模型从已知量估计和预测未知量 相关分析所涉及的变量一般都是随机变量 而回归分析中因变量是随机的 自变量则作为研究时给定的非随机变量 9 三 相关分析与回归分析的联系相关分析和回归分析有着密切的联系 它们不仅具有共同的研究对象 而且在具体应用时 常常必须互相补充 相关分析需要依靠回归分析来表明现象数量相关的具体形式 而回归分析则需要依靠相关分析来表明现象数量变化的相关程度 只有当变量之间存在着高度相关时 进行回归分析寻求其相关的具体形式才有意义 简单说 1 相关分析是回归分析的基础和前提 2 回归分析是相关分析的深入和继续 10 第二节线性相关分析 定性分析依据研究者的理论知识和实践经验 对客观现象之间是否存在相关关系 以及何种关系作出判断 定量分析在定性分析的基础上 通过编制相关表 绘制相关图 计算相关系数等方法 来判断现象之间相关的方向 形态及密切程度 11 一 相关表 相关表 将自变量x的数值按照从小到大的顺序 并配合因变量y的数值一一对应而平行排列的表 例 为了研究分析某种劳务产品完成量与其单位产品成本之间的关系 调查30个同类服务公司得到的原始数据如表 12 整理后 13 二 相关图 相关图 散点图 以直角坐标系的横轴代表变量x 纵轴代表变量y 将两个变量间相对应的变量值用坐标点的形式描绘出来 用来反映两变量之间的相关关系的图形 例 14 相关图 15 三 相关系数 一 相关系数的定义 在线性条件下说明两个变量之间相关关系密切程度的统计分析指标 总体相关系数 相关系数是根据总体全部数据计算的 记为 样本相关系数 根据样本数据计算的 记为r 16 二 相关系数的特点 的取值介于 与 之间 在大多数情况下 即 与 的样本观测值之间存在着一定的线性关系 当 时 与 为正相关 当 时 与 为负相关 的数值愈接近于1 表示x与y直线相关程度愈高 反之 的数值愈接近于0 表示x与y直线相关程度愈低 通常判断的标准是 0 3称为微弱相关 0 3 0 5称为低度相关 0 5 0 8称为显著相关 0 8 1称为高度相关或强相关 如果 1 则表明 与 完全线性相关 当 1时 称为完全正相关 而 1时 称为完全负相关 是对变量之间线性相关关系的度量 0只是表明两个变量之间不存在线性关系 它并不意味着 与 之间不存在其他类型的关系 17 三 相关系数的计算 18 例 下表是有关15个地区某种食物需求量和地区人口增加量的资料 19 20 四 相关系数的显著性检验 检验两个变量之间是否存在线性相关关系采用t检验检验的步骤为提出假设 H0 H1 0计算检验的统计量 确定显著性水平 并作出决策若 t t 拒绝H0若 t t 接受H0 21 例 对前例计算的相关系数进行显著性检验 0 05 提出假设 H0 H1 0计算检验的统计量 0 05 查表得t n 2 2 160 t 48 385 t 15 2 2 160 拒绝H0 该种食物需求量和地区人口增加量之间的相关关系显著 22 第三节一元线性回归 一 回归函数总体回归函数 t 0 1 t utut是随机误差项 又称随机干扰项 它是一个特殊的随机变量 反映未列入方程式的其他各种因素对 的影响 样本回归函数 t称为残差 在概念上 t与总体误差项ut相互对应 是样本的容量 23 样本回归函数与总体回归函数区别 总体回归线是未知的 只有一条 样本回归线是根据样本数据拟合的 每抽取一组样本 便可以拟合一条样本回归线 总体回归函数中的 1和 2是未知的参数 表现为常数 而样本回归函数中的是随机变量 其具体数值随所抽取的样本观测值不同而变动 总体回归函数中的ut是 t与未知的总体回归线之间的纵向距离 它是不可直接观测的 而样本回归函数中的 t是 t与样本回归线之间的纵向距离 当根据样本观测值拟合出样本回归线之后 可以计算出 t的具体数值 综上所述 样本回归函数是对总体回归函数的近似反应 回归分析的主要任务就是要采用适当的方法 充分利用样本所提供的信息 使得样本回归函数尽可能地接近于真实的总体回归函数 24 二 最小二乘法拟合回归方程 原理 使残差平方和最小加以整理后有 25 26 例 现以前例的资料配合回归直线 计算如下 27 28 上式中表示人口每增加 或减少 1千人 该种食品的年需求量平均来说增加 或减少 0 5301十吨即5 301吨 29 三 一元线性回归方程的检验 回归模型检验的种类回归方程的拟合程度的评价显著性检验 30 一 回归模型检验的种类 回归模型的检验包括理论意义检验 一级检验和二级检验 理论意义检验主要涉及参数估计值的符号和取值区间 如果它们与实质性科学的理论以及人们的实践经验不相符 就说明模型不能很好的解释现实的现象 一级检验 统计学检验 它是利用统计学中的抽样理论来检验样本回归方程的可靠性 具体又分为拟合程度评价和显著性检验 二级检验 经济计量学检验 它是对标准线性回归模型的假定条件能否得到满足进行检验 具体包括序列相关检验 异方差性检验 多重共线性检验等 31 二 回归模型的拟合程度的评价 所谓拟合程度 是指样本观测值聚集在样本回归线周围的紧密程度 32 因变量y的取值是不同的 y取值的这种波动称为离差 变差来源于两个方面 由于自变量x的取值不同造成的 除x以外的其他因素 如x对y的非线性影响 测量误差等 的影响 对一个具体的观测值来说 变差的大小可以通过该实际观测值与其均值之差来表示 33 三个平方和的关系 2 两端平方后求和有 从图上看有 SST SSR SSE 34 三个平方和的意义 总平方和 SST 反映因变量的n个观察值与其均值的总离差回归平方和 SSR 反映自变量x的变化对因变量y取值变化的影响 或者说 是由于x与y之间的线性关系引起的y的取值变化 也称为可解释的平方和 残差平方和 SSE 反映除x以外的其他因素对y取值的影响 也称为不可解释的平方和或剩余平方和 35 判定系数R2 将上式两边同除以SST 得 显而易见 各个样本观测点与样本回归直线靠得越紧 SSR在SST中所占的比例就越大 因此 可定义这一比例为判定系数 即有 36 判定系数R2的特征 判定系数R2具有非负性 判定系数取值范围0 R2 1 判定系数是样本观测值的函数 它也是一个统计量 在一元线性回归模型中 决定系数是单相关系数的平方 37 例 利用前例资料计算 38 估计标准误差 总体随机误差项的方差 可以反映理论模型误差的大小 数学上可以证明 的无偏估计Se2可由下式给出 Se2的正平方根又叫做回归估计的标准误差 39 Se越小表明实际观测点与所拟合的样本回归线的离差程度越小 即回归线具有较强的代表性 反之 Se越大表明实际观测点与所拟合的样本回归线的离差程度越大 即回归线的代表性较差 简化公式 40 例 用前例资料继续计算 已知 n 15 则有 41 三 显著性检验 回归系数的显著性检验根据样本估计的结果对总体回归系数的有关假设进行检验回归方程的显著性检验检验自变量X和因变量Y之间的线性关系是否显著 42 1 回归系数的显著性检验 1 提出假设H0 b1 0H1 b1 0 2 计算统计量 3 决策 43 如前例 提出假设H0 b1 0人口增长与年均需求量之间无线性关系H1 b1 0人口增长与年均需求量之间有线性关系计算检验的统计量 t 36 0072 t 2 201 拒绝H0 表明人口增长与年均需求量之间有线性关系 44 2 回归方程的显著性检验 1 提出假设 2 计算检验统计量F 3 决策 如前例 45 1 提出假设 3 决策 拒绝原假设 表明所建立的回归方程是显著的 即该食品需求量与地区人口增长量之间的线性关系是显著的 2 计算检验统计量F 46 五 一元线性回归模型预测 点预测给定一个x值 预测y的取值区间预测平均值的区间预测 置信区间对于x的一个给定值x0 求出y的平均值的区间估计特定值的区间预测 预测区间对于x的一个给定值x0 求出y的特定值的区间估计 47 一 点预测 点预测的基本公式 前例中 当人口增长量为400千人时 可预测该食品的年需求量为 48 二 区间预测 1 y的平均值的置信区间为 49 例 假定已知人口增长量为200千人 要求利用上例中拟合的样本回归方程与有关数据 计算置信度为95 的该食品年平均需求量的置信区间 解 将有关数据代入拟好的样本回归方程 可得 已知 50 查t分布表可知 显著性水平为5 自由度为13的双侧t检验的临界值是2 16 因此 当人口增长量为200千人时 置信度为95 的该食品年需求量的预测区间如下 当人口增长量为200千人时 有95 的概率保证该食品的年平均需求量在1247 9到1324 3吨之间 5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论