相关与回归分析_第1页
相关与回归分析_第2页
相关与回归分析_第3页
相关与回归分析_第4页
相关与回归分析_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

相关与回归分析 第一节相关关系的概念和种类第二节相关分析第三节一元线性回归分析 第一节相关关系的概念和种类 一 相关关系的概念现象之间的数量关系存在着两种不同的类型 一种是函数关系 另一种是相关关系 函数关系指的是变量之间存在着的严格的依存关系 它们之间的关系值是固定的 对于某一变量的每一个值 都有另一个变量的完全确定的值与之相对应 例如 圆的面积等于圆周率乘以半径的平方 相关关系是指变量之间确实存在的但关系值不固定的相互依存关系 在这种关系中 当一个 或几个 变量的值确定以后 另一个变量的值虽与它 或它们 有关 但却不能完全确定 这是一种非确定性的关系 例如 电视机的拥有率与人均收入水平有关 但对于人均收入水平相同的地区 其电视机的拥有率可能不尽相同 在客观事物中 尤其是在经济现象中 相关关系普遍存在 统计很有必要对这种关系进行研究 在相关关系中 通常 在相互联系的现象之间存在着一定的因果关系 这时就把其中的起着影响作用的现象具体化 通过一定的变量反映出来 这样的变量称为自变量 由于受到自变量变动的影响而发生变动的变量称为因变量 在相关关系中 有时两个变量之间只存在相互联系而并不存在明显的因果关系 确定哪一个是自变量 哪一个是因变量 主要决定于研究的目的 例如 在粮食亩产量与施肥量之间 施肥量这一变量是自变量 亩产量这一变量是因变量 当研究的是两个变量之间的关系时 通常以符号X表示自变量 以符号Y表示因变量 二 相关关系的种类 相关关系从不同的角度可以划分成不同的类型 一 正相关与负相关 从相关的方向看 相关关系可以分为正相关和负相关 负相关是指相关变量之间的变化趋势相反 即当自变量的值增加 因变量的值随之减少 当自变量的值减少 因变量的值随之增加 例如 产品产量与单位产品成本之间的关系 正相关是指相关变量之间的变化趋势相同 即当自变量的值增加 因变量的值也随之增加 当自变量的值减少 因变量的值也随之减少 例如 汽车的使用年限与汽车的修理费用之间的关系 二 线性相关与非线性相关 从相关的表现形式上来看 相关关系可分为线性相关和非线性相关 线性相关也称直线相关 是指相关的两个变量之间变化的趋势呈线性或近似于线性 即自变量发生变动 因变量随之发生变动 其增加或减少量是大致均等的 从图形上看 其观察点的分布近似表现为直线形式 非线性相关也称曲线相关 是指相关的两个变量之间变化的趋势呈非线性 即自变量发生变动 因变量随之发生变动 但其增加或减少量不是均等的 从图形上看 其观察点的分布表现为各种曲线形式 三 单相关和复相关 从相关变量的个数来看 相关关系可分为单相关和复相关 单相关是指两个变量之间的相关关系 复相关是三个或三个以上变量之间的相关关系 例如 仅仅考虑施肥量对产量的影响 这就是一种单相关 如果除了施肥量之外 再考虑降雨量及深耕程度对产量的影响 则这种相关关系就是一种复相关 四 按相关关系的密切程度 可以分为完全相关 不完全相关和不相关 完全相关 是指两个变量之间存在依存关系 其中一个现象的数量变化由另一个现象的数量变化所确定 即函数关系 特例 不相关 两种现象之间彼此互不影响 其数量变化各自独立不完全相关 两种现象之间的相互依存关系介于完全相关与不相关之间 研究对象 三 回归分析与相关分析 在对变量之间存在的相关关系进行分析研究时 最常用的方法就是回归分析和相关分析 回归分析和相关分析是相互联系的 它们从不同方面研究变量之间相关关系的本质 相关分析是研究如何计量变量之间关系强度的统计方法 它能确定变量之间相关的程度 即变量之间某种关系的确切程度有多大 回归分析是用来研究变量之间关系的可能形式的统计方法 它把两个或两个以上变量之间的变动关系加以模型化 用数学函数表达变量之间的关系 运用这种方法时 最终的目的通常在于预测或估计与某一个或某几个变量的给定值相对应的另一变量的数值 回归分析和相关分析既有联系 又有区别 就其研究对象来说 两者都是研究变量之间的相关关系 但就彼此研究变量之间关系的性质来看 两者存在明显的区别 回归分析中 必须将相关变量区分为自变量和因变量 以确定其关系的可能形式 所研究变量属于非对等关系 相关分析中 计量变量之间关系的强度 不必区分自变量与因变量 所研究变量属于对等的关系 第二节相关分析 一 相关分析的概念相关分析是研究如何计量变量之间关系强度的统计方法 它能确定变量之间相关的程度 即变量之间某种关系的确切程度有多大 1 变量之间是否存在线性关系 2 变量之间的关系强度如何 3 样本所反映的变量之间的关系能否代表总体变量之间的关系 二 相关图表 对现象变量之间是否存在相关关系以及存在怎样的相关关系进行分析 作出判断 这是进行回归和相关分析的前提 通过编制相关表和相关图 可以直观地 大致地判断现象变量之间是否存在相关关系以及关系的类型 一 相关表 相关表是表现现象变量之间相关关系的表格 例如 为研究商店人均月销售额和利润率的关系 调查10家商店取得10对数据 以人均销售额为自变量 利润率为因变量 编制简单相关表如下表 人均销售额与和利润率相关表 编号 人均月销售额 千元 利润率 1 2 3 4 5 6 7 8 9 10 1 3 3 4 5 6 6 7 7 8 3 0 6 2 6 6 8 1 10 4 12 6 12 3 16 3 16 8 18 5 二 相关图 所谓相关图 是把相关的两个变量之间的关系在平面直角坐标 第一象限 中反映出来 通常将自变量 x 置于横轴上 因变量 y 置于纵轴上 而将两个变量相对应的变量值用坐标点形式描绘出来 相关图就是用相关点的分布状况来描述相关关系的 所以又称为散点图 根据相关图 可以直观地看出变量之间相关关系的模式 例如 前述人均月销售额与利润率的关系 可用相关图表示如下 从图中 我们可以清楚地看出 这两个变量之间相关的方向 即正相关 以及相关的具体形式 直线相关 e 较分散的反直线关系 d 反曲线关系 f 没有关系 x与y的一些可能关系的散点图 上图说明了相关图中的一些可能关系 图 a 和 b 表示的是正的和反的直线关系 即正线性相关和负线性相关 图 c 和 d 分别表示的是正的和反的曲线关系 即正非线性相关和负非线性相关 图 e 中是散布域很宽的反直线关系 散布域越宽 则表明变量之间的联系程度越差 图 f 中的图象表明两个变量之间没有什么关系 三 相关系数相关分析是用以说明变量之间相关程度的统计工具 本节我们讨论两个变量之间线性相关程度问题 两个变量之间线性相关程度的描述通常采用相关系数 一 相关系数的概念与计算根据样本数据计算的度量两个变量之间线性关系强度的统计量 称为相关系数 通常用r表示 二 相关系数的性质1 r的取值范围在1与 1之间 即 1 r 1 若0 r 1 表明x与y之间存在正线性相关关系 若 1 r 0 表明x与y之间存在负线性相关关系 若r 1 表明x与y之间为完全正线性相关关系 若r 1 表明x与y之间为完全负线性相关关系 即当 r 1时 y的取值完全依赖于x 两者之间为函数关系 当r 0 表明y的取值与x无关 即两者之间不存在线性相关关系 2 r具有对称性 即x与y之间的相关系数 和y与x之间的相关系数相等 3 r仅仅是x与y之间线性关系的一个度量 它不能用于描述非线性关系 这就意味着 r 0只表示两个变量之间不存在线性相关关系 并不表明变量之间没有任何关系 如它们之间可能存在非线性相关关系 变量之间的非线性相关程度较大时 就可能导致r 0 4 相关程度划分 r 0 3 低度线性相关 0 3 r 0 5中度线性相关 0 5 r 0 8显著线性相关 0 8 r 1高度线性相关 四 相关关系的显著性检验 一般情况下 总体相关系数 是未知的 我们通常用样本相关系数r作为近似的估计值 但是 由于r是根据样本数据计算的 所以它会受到样本的抽样波动的影响 样本不同 r的取值也会不同 因此r是一个随机变量 我们能否用样本的相关系数来估计总体的相关程度 因此 我们要对样本相关系数的可靠性加以考察 即进行显著性检验 第一步提出假设H0 0H1 0第二步计算检验统计量第三步进行决策 根据给定的显著性水平查得临界值 若 t t 2 n 2 则拒绝原假设 表明总体的两个变量之间存在显著的线性关系 例如 1 0 9 100 10 2 3 4 5 6 7 8 9 2 0 1 0 1 2 1 4 1 5 1 6 1 7 1 8 1 9 105 235 130 145 170 175 190 190 220 y x2 y2 xy 100 105 130 145 170 175 190 190 220 235 0 81 1 00 1 44 1 96 2 25 2 56 2 89 3 24 3 61 4 00 10000 11025 16900 21025 28900 30625 36100 36100 48400 55225 90 105 156 203 255 280 323 342 418 470 1660 23 76 294300 2642 0 8 r 1 说明含碳量与精炼时间高度正线性相关 显著性检验 H0 0H1 0 一 回归直线的确定 如果变量x和y相关 并且从相关图表中可以看出它们之间大致形成一种直线关系 我们就可在相关图上求出一条与各点最相配合的直线 第三节一元线性回归分析 由于这些点所代表的若干对数据 观察值 只是相互有一定关系的变量x y的总体中的一个样本 故这样求出的直线是总体回归直线的估计线 在估计线上的点的纵坐标是相应于x的y的估计值 这叫做样本回归直线 它是y对x的回归线 表明y对x的平均关系 式中x为受控制的自变量 通常由研究者事先选定数值 a为样本回归直线y的截距 它是样本回归直线通过纵轴的点的y坐标 b为样本回归直线的斜率 它表示当x增加一个单位时y的平均增加数量 b又称回归系数 如何确定回归直线方程呢 也就是说怎样确定方程中的参数a b呢 若用 xi yi i 1 2 n 表示n组观察值 则对任意给定的xi 可得y的估计值为 这些数值同实际值yi之间存在着误差 Q a b y a bx 2 为最小 这样便把寻找适当直线问题转化为使Q a b 达到最小条件下求出a b的问题 因为Q a b 是a b的非负二元函数 所以其最小值无疑是存在的 根据数学中的极值原理 令 满足上述条件的a b即为所求的未知参数 由 化简得 y a bx 0 y a bx x 0 即 y na b x xy a x b x2 上述方程组称为标准方程组 解之 得 因此即可确定回归方程式为 这个方程称为在给定样本条件下的一元线性回归方程 对应的直线称为样本回归直线 显然 回归方程对于不同的样本是有差别的 因而 它具有经验的特征 所以在实用上 也将它叫做经验公式 求回归方程式的系数往往是通过列表进行的 这里 我们以下表资料为倒 通过求某钢铁厂炼钢精炼时间对含碳量的回归方程 说明回归方程的确定 1 0 9 100 10 2 3 4 5 6 7 8 9 2 0 1 0 1 2 1 4 1 5 1 6 1 7 1 8 1 9 105 235 130 145 170 175 190 190 220 可以看出 x与y之间的关系近似为直线关系 我们可以对其配合一条回归直线 为计算回归方程的系数a b 我们先对原始数据进行加工 y x2 y2 xy 100 105 130 145 170 175 190 190 220 235 0 81 1 00 1 44 1 96 2 25 2 56 2 89 3 24 3 61 4 00 10000 11025 16900 21025 28900 30625 36100 36100 48400 55225 90 105 156 203 255 280 323 342 418 470 1660 23 76 294300 2642 于是 所以 故精炼时间关于含碳量的回归方程为 二 估计标准误差 回归方程的一个重要作用在于根据自变量的已知值估计因变量的可能值 这个估计值和真正的实际值可能一致 也可能不一致 例如 当含碳量为1 8 时 推算的炼钢时间为202 19分钟 而实际为190分钟 相差12 19分钟 这就产生了估计公式即回归方程的可靠性问题 也就是说 根据回归方程计算的估计值 其代表性如何 为了度量估计公式即回归方程的可靠性 通常计算估计标准误差 估计标准误差度量观察值回绕着回归直线的变化程度或分散程度 通常用Sy代

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论