市场营销调研(第二版)14相关分析和回归分析ppt课件_第1页
市场营销调研(第二版)14相关分析和回归分析ppt课件_第2页
市场营销调研(第二版)14相关分析和回归分析ppt课件_第3页
市场营销调研(第二版)14相关分析和回归分析ppt课件_第4页
市场营销调研(第二版)14相关分析和回归分析ppt课件_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第14章相关分析和回归分析 教学目标 1 了解散点图和相关系数的概念2 了解等级相关的概念3 描述简单线性回归模型4 描述多元回归分析模型5 了解使用回归分析时应注意的问题 2020 2 24 1 第14章相关分析和回归分析 了解散点图和相关系数的概念了解等级相关的概念描述简单线性回归模型描述多元回归分析模型了解使用回归分析时应注意的问题 2020 2 24 2 2020 2 24 3 开篇案例 数据挖掘在定类变量相关性分析中的应用 数据探索性分析在研究分析中有着巨大的作用 同时在做探索性分析时 相关系数往往是被经常采用的工具用以衡量变量与变量之间的关系 然后决定是否分析这些变量 相关系数用来描述两个变量或两组变量之间的接近程度的量化指标 有着广泛的应用 数据预分析就是要研究定类变量数据之间的关系 从而找出认为有价值的信息 在对定类变量之间的相关性分析可以直接使用交叉表分析方法 不过这种方法只能给出变量之间是否存在相关性 却不能准确地反映出变量之间相关性的大小 于是在用于比较变量之间相关性大小的关系时 这种方法无法提供有效的信息 此时可以采用系数法来判断依据某一变量对另外一个变量进行预测时的误差大小 该相关系数可以用来分析定类变量之间的相关性大小 并且同时可以给出一个定量的数值 然而系数在应用上需要区别变量之间的关系 有对称和不对称关系两种计算方式 于是在计算时就要特别注意变量之间的关系 统计软件SPSS没有智能挖掘变量之间关系的功能 所以在使用时局限性很大 2个变量就需要分析2次 3个变量之间的关系就需要分析6次 4个变量则需要分析12次才能得出哪两个变量之间的相关性最强 2020 2 24 4 在数据挖掘中 定类变量之间的相关性往往使用关联分析进行计算 关联分析是使用一种支持度的概念来支持某件商品值不值得分析 比如假设商品A共出现N A 次 同时商品B共出现N B 次 对于N AandB 是用来表示A和B两种物品同时出现的次数 那么A和B的支持度即为 N AandB MIN N A N B 这样一种支持度的优点是可以全面的挖掘数据内部的信息 即可以更加精细全面地把所有值得分析的数据关系全部呈现出来 否则可能会因为上式中分母的大小影响对于重要数据关系的挖掘 2020 2 24 5 相关分析和回归分析概述 相关分析和回归分析都是用于研究变量之间关系的方法 而且两者经常替换使用 两者还是存在一些差异 发给相关分析旨在测定变量间关系紧密的程度 因而关注的是评价对象两者之间的相对变动 其中哪个是自变量 哪个是因变量 没有必要区分 它们各自单独的变化状况也不用清地加以确定或限制 回归分析则希望明确建立一个方程关系式 借助一个或多个变量 自变量 来推测另一个变量 因变量 的变化趋势 如果某个或多个自变量本身变动也处于不确定中 或者为随机变量 自变量的概率分布情况就必然要通过实验加以确定和限制 2020 2 24 6 2020 2 24 9 2020 2 24 10 相关系数 现假定观测到n个变量x y的组合值 分别为 x1 y1 x2 y2 xn yn 容易得到x y的平均数 如果把坐标移到 则新坐标为 在新坐标的第一 第三象限里 x y 的乘积为正值 在第二 第四象限晨 它们的乘积x y 均为负值 当x y为正相关时 也就是绝大多数点落于一 三象限时 为正 若x y为负相关 即绝大多数点落于二 四象限时 为负 若x y对应的点散布于四个象限 则上值接近于0 2020 2 24 11 相关系数 变量的相关可以用来表示 变量x的标准差 变量y的标准差 r 变量的相关系数 2020 2 24 12 相关系数 为了简化公式 r的公式还了演变为 r的值在 1和1之间变化 相关系数表 2020 2 24 13 等级相关 无法用精密数量确定事物大小 惟一可行的方法是以等级或次序对事物进行排序 如才智高低 事态轻重 色泽深浅 效率大小以及味道的好坏等 有时候即使是精密的数据 也采用等级来测定它们之间的相互关系 其关系紧密程度的衡量指标就叫等级相关系数 在这些等级相关系数中 以司庇而曼 C Spearman 的等级相关运用最为普遍 其公式为 其中 di 各对数据的等级差异 n 样本的数据总数 2020 2 24 14 司庇而曼相关系数是针对两个序数变量的 其中每个变量的数据已按一定标准划分成1至n个等级 如果d2i的和为0 那么rs 1 也就是说 此时两个变量的等级是等价的 rs值由 1 完全正相关 变化到一1 完全负相关 其中若rs O意味着彼此不相关 2020 2 24 15 样本相关系数的分布和测验 在假定两变量 x y 的组合总体适合于正态分布 三度空间的立体正态曲面 的条件下 z与y的相关系数r的抽样分布是随着两个因素 样本单位数n与总体相关系数p的不同而变化着 不过总的说来 r分布的形态是属于各种各样的 如把总体相关系数p分成三类 p 0 p 0 50以及p 0 90 在不同的n条下 r的分布形态见下图 2020 2 24 16 2020 2 24 17 样本相关系数的分布和测验 由于r分布的偏态形态 作实际测验的计算时 比较困难 英国著名统计学家埃 爱 费煦为了补救这种复杂计算的缺陷 用变量E代替r 替代公式为 其中ln表示以e为底的自然对数 对E的变量来说 它的分布接近于正态分布 因此 就可利用正态分布表作出测验 另外 费煦已经作出了r与E间的变换表格 所以计算就大大地简化了 2020 2 24 18 相关系数r的虚无假设的测验以及可信任界限的计算举例 样本为35对数据时 求出r为0 80 试用5 的显著标准来作出总体相关系数p 0 90的虚无假设测验 先假定以虚无假设出发 r 0 80可能从总体p 0 90中抽出 如果概率超过5 就接受这个假设 否则 就推翻这个假设 从附表我们查出 r 0 80时 z 1 099 并从同一附表中 找出P 0 90时 mz 1 472 我们知道 2020 2 24 19 由t分布近似于正态分布 可以利用正态分布 可以利用正态面积表求出在t 一2 11左边的概率面积是 A 0 0174 由于这是两侧测验 所以概率是p 2 0 0174 0 0348 这是小于5 的显著水准 所以 拒绝这个假设 也就是r 0 80不可能从总体相关系数p O 90的总体中抽取出来的 也可以说 P 0 90与r 0 80是有显著差异的 2020 2 24 20 简单回归分析 回归分析 在由一个或一组非随机变量来估计或预测某一个随机变量的观察值时 所建立的数学模型及所进行的统计分析 如果这个模型是线性的就称为线性回归分析 线性回归中最简单的就是两个变量 或者称为简单线性回归 2020 2 24 21 在对社会现象进行调查时 不可能存在等于零的误差 考虑到这一点 我们会在上述方程式中添加一个误差变量 以可能性模型来替代确定方程 即 第f个地区的销售额水平 第f个地区的电视广告时数 与第i个观察值相关的误差 误差项是该模型不可缺少的一部分 它暗示着模型可能有未包含进去的变量 一种人类行为中不可预测的因素以及偏差的度量 可能性模型在给定 值情况下 yi与xi不是一一对应的关系 所能确定的只是某种情况下yi分布的平均值 而真实值则围绕自己分布的平均值上下波动 2020 2 24 22 最小二乘法 我们最终确定的回归方程是一种确定模型 因而我们希望能找到一条最能代表真实可能性情况的方程或者说两者偏离最小 最常见的方法是最小二乘法 而该方法又是以随机误差 符合一定假设为前提的 这些假设条件具体如下 的均值或期望值为0 的方差是一个常数而且 的方差与各个自变量无关 彼此之间是相互独立的 彼此之间是相互独立的 2020 2 24 23 回归方程求出的理论估计值记为 与真实值yi存在离差 记为 最小二乘法就是通过一系列方法找到一个模型 使得各个离差的平方和最小 即最小 为从样本估出的方程系数值 为总体系数值 2020 2 24 24 结果 其中 估计标准差 对右图观察发现 尽管直线拟合数据合得很好 但仍在若干点对于直线的偏离 这些偏差的大小代表了回归方程直线拟合的优劣 成为判断方程好坏的一个指标 2020 2 24 25 2020 2 24 26 直线是对于真实回归方程的一种估计 假设绕直线上下波动的随机变量的方差为或 在总体离差不知道的情况下 通过样本可得推出其的一个无偏估计 类似的 用作为的无偏估计 则公式如下 2020 2 24 27 有关斜率系数的分析 斜率系数值是否源于偶然性 是否具有意义 需要对其进行显著性检验 经过论证如果为正态分布 那也同样呈正态分布 其中的方差满足公式 因为总体方差并不知晓 同样为未知数并要求做最佳估计 则可用样本来代替 2020 2 24 28 在变量为正态分布 总体参数未知的情况下 通常用t 来检验样本参数的显著性 现设定虚无假设为在样本变量之间存在线性关系时总体参数间并不存在性关系 即 统计检验为 其中的自由度个数为n一2 2020 2 24 29 对y值的预测 如果所求出的回归方程并非为偶然联系 那么我们就可以利用它来对给定x下的y进行预测 2020 2 24 30 相关系数 在回归分析中 除了已介绍的相关系数 更常用的是相关系数的另外一种形式 可决系数r2 相关系数的平方 一般进行的市场调研由于经费 时间等因素的影响 往往只是抽样调查 而非涉及全面的普查 这就涉及到由样本结果推断总体结论的准确度的问题 可决系数不区分自变量和因变量 我们对于研究变量最好的估计是它的均值 2020 2 24 31 可决系数一般与回归分析联合使用 用以解释回归方程在多大程度上说明因变量的差异 即 2020 2 24 32 对r的显著性作假设检验 假设p表示相应未知的总体相关系数 我们计算以下的t一统计量 r的标准误差为 因此 对零假设p 0的检验统计量简化为 该统计量服从自由度为n 2的t分布 2020 2 24 33 多元回归分析 回归模型和回归方程复相关与偏相关整体解释力的统计显著性虚拟变量曲线相关使用回归分析需要注意的事项 2020 2 24 34 回归模型和回归方程 描述应变量y如何依赖于自变量x1 x2 xn和误差项的方程称为回归模型 在多元回归模型中参数含义与简单回归模型中的有一些不同 以二元回归模型为例 为的简化 小数点左边的二位数字为直接关系的变量 第一位代表因变量 第二位表示该系数所代表的自变量 小数右边的是表示不变的变量 称为次级变量 当然随着自变量的增多 小数点右边的数字可以到k 1个 k为自变量个数 2020 2 24 35 例如 系数 简化为 的意义如下 在所有其他解释变量 如X2 保持不系时 x1每变动一个单位所导致的y的相应变化 通过这种方法 我们能够把每个解释变量对y的影响分离出来 不受其他解释变量的干扰和影响 所以 和的值称为局部回归系数 2020 2 24 36 复相关与偏相关 n个变量影响一个变量的相关称为复相关 求出的系数 称为复相关系数 当两个独立变量z1 z2影响一个因变量时 相关系数的计算式是 Ry 12即为复相关系数 multiplecorrelationcoefficient 为复关可决系数 2020 2 24 37 复相关与偏相关 所谓偏相关 partialcorrelation 是在测定n个独立变量对一个因变量的响时 在排除其他变量的影响后 指定一个独立变量对这个因变量计算得的相关系数 称为偏相关系数 也可称为纯相关系数 netcorrelationcoefficient 不能解释的部分可以用估计标准离差来表示 总差异可以用因变量y的方差来说明 即 2020 2 24 38 于是 公式中的最后一项表明 在考虑了自变量x影响时 因变量y中仍然不能被说明的变化差异与y变动的绝对变化差异之间的比值 这个比值度量着这两个变量之间的关联度在多大程度上可用于解释因变量y 2020 2 24 39 整体解释力的统计显著性 F 统计量 被解释的变化与未被解释的变化之比 解释变量的方差可以被分解为两部分 部分通过回归值来解释 一部分通过残差来解释 被解释的变化与未被解释的变化的有关表达式简单地等于 总的被解释和未被解释的方差除以各自的自由度 分别是n k 1 2020 2 24 40 一 F 检验 F 检验的统计显著性检验程序 事先说明假设检验 把计算好的F一统计值与临界值相比 临界值取自在一给定概率水平下F一概率分布的F一统计表 假设可以表述为 如果我们拒绝H0 我们就可以断定 在被解释变量和至少一个解释变量之间有显著的关系 回归方程整体来看是显著的 在只有一个解释变量时的简单回归分析的情形下 整体解释力的F一检验必然相当于单个回归系数的t 检验 这时 可以看到 F tl 二 F一统计表和F一分布 F一分布的形状如右图 该分布是不对称的 F值不可能为负 分布的实际形状取决于与F一统计量的表达式相应的分子和分母的自由度 分别是K和n k 1 F一统计表中概率值 a 有0 05和0 01两种 对应于相应的自由度 分子和分母分别用v1和V2表示 从1到 如 可以查到 在V1 9和V2 12时 F一统计量的临界值 用Fa表示 在0 05的显著水平下等于2 80 在0 01的显著水平下等于4 39 也就是说 只有5 的可能性得到一个大于2 80的F一统计值 只有1 的可能性超过4 39 如果计算的F一统计量超过了临界值 我们拒绝零假设 并断定整个回归在统计上是显著的 2020 2 24 41 2020 2 24 42 虚拟变量 看下面一个例子 纯净过滤水股份公司对于水过滤系统提供维修保养服务 当顾客的水过滤系统出现故障时 公司对他们的水过滤系统进行维修 为了估计服务时间和服务成本 纯净公司的管理人员希望对顾客的每一次维修请求预测必要的维修时间 管理人员认为 维修时间依赖两个方面 从最后一次维修服务至今已经使用的月数和需要维修的故障类型 机械的或电子的 虚拟变量 2020 2 24 43 y表示按小时计算的维修时间 x1表示从最后一次维修服务至今的月数 仅仅利用x1进行预测的回归模型是 利用有关软件 得到估计的回归方程如下 与该方程t 或F 检验对应的实测显著水平为0 016 小于置信度0 05 这就表明维修时问显著地依赖于从最后一次维修服务至今的月数 r2 53 4 表明x1仅仅解释了维修时变异性的53 4 虚拟变量 2020 2 24 44 为了将故障的维修类型引入回归模型 我们定义下面的变量 在回归分析中 x2称为虚拟变量或指标变量 多元回归模型如下 最后得到方程 经检验 两个变量在统计上都是显著的 曲线相关 2020 2 24 45 如果变量之间呈现非线性关系 我们可以借助变量转换 将复杂难解的曲线回归转变成通常的线性回归 求出我们所需要的模型 考虑模型 令 得到模型 2 模型 2 为一线性回归 因而我们很容易地利用最小二乘法估计出方程中的各个参数 2020 2 24 46 使用回归分析需要注意的事项 简单回归的缺陷 回归分析局限于揭示变量之间的线值关系 通过了显著性检验或拥有较高R2值的回归方程并不一定保证解释变量与被解释变量之间的因果关系 回归方程对于超过给定范围的自变量对应下因变量的预测也就是我们常说的 外推预测 可信度不高 建立在小规模样本上的回归方程是不可靠的 自变量和因变量的数据变化范围能够影响回归方程的可用性 如果要令得出的回归方程具有实用性 自变量和因变量的数据范围就应该宽泛 2020 2 24 47 使用回归分析需要注意的事项 此外 在使用多元回归中 还容易忽略一下几个问题 1 估计的回归方程选择了不恰当的方程形式 即线性或非线性关系 被称为方程形式的错误识别 2 两个或更多的解释变量彼此相关的程度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论