《SPSS相关分析》PPT课件.ppt_第1页
《SPSS相关分析》PPT课件.ppt_第2页
《SPSS相关分析》PPT课件.ppt_第3页
《SPSS相关分析》PPT课件.ppt_第4页
《SPSS相关分析》PPT课件.ppt_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章 相关分析 主要内容 7 1相关分析简介7 2两变量相关分析7 3偏相关分析7 4距离分析 7 1相关分析简介 1 函数关系与相关关系变量之间的关系可以分为两种 一种是函数关系 另一种是相关关系 函数关系是一一对应的确定性关系 比较容易分析和测度 可是在现实世界中 变量间的关系往往并不是简单的确定性关系 也就是说 变量之间有着密切的关系 但又不能由一个或几个变量的值确定另一个变量的值 即当自变量x取某一值时 因变量y的值可能会有多个 这种变量之间的非一一对应的 不确定性的关系 称之为相关关系 2 相关分析基本概念衡量事物之间 或称变量之间线性相关程度的强弱并用适当的统计指标表示出来 这个过程就是相关分析 相关系数是衡量变量之间相关程度的一个指标 总体的相关系数用 表示 样本的相关系数用r表示 主要内容 7 1相关分析简介7 2两变量相关分析7 3偏相关分析7 4距离分析 7 1二元变量相关分析 1 基本概念二元变量的相关分析是指通过计算变量间两两相关的相关系数 对两个或两个以上变量之间两两相关的程度进行分析 根据所研究的变量类型不同 又可以分为二元定距变量的相关分析和二元定序变量的相关分析 2 统计原理二元定距变量的相关分析 定距变量又称为间隔 interval 变量 即连续属性变量 变量值之间可以比较大小 可以用加减法计算出差异的大小 Pearson简单相关系数及t统计量 7 1二元变量相关分析 定序变量的相关性分析 定序变量又称为有序 ordinal 变量 顺序变量 等级变量 它取值的大小能够表示观测对象的某种顺序关系 等级 方位或大小等 定序变量的相关系数用斯皮尔曼 Spearman 相关系数和肯德尔 Kendall s 相关系数来衡量 Spearman相关系数及Z统计量 Kendall s等级相关系数及Z统计量 7 2二元变量相关分析 3 分析步骤第1步计算相关系数r 利用样本数据计算样本相关系数 样本相关系数反映了两变量间线性相关程度的强弱 相关系数的取值范围界于 1与1之间 即 1 r 1当0 r 1 表明变量之间存在正相关关系 当 1 r 0 表明变量之间存在负相关关系 当 r 1时 表示其中一个变量的取值完全取决于另一个变量 二者即为函数关系 当r 0时 说明变量之间不存在线性相关关系 但这并不排除变量之间存在其它非线性相关的可能 根据经验可将其相关程度分为几种 当 r 0 8时视为高度相关 当0 5 r 0 8时视为中度相关 当0 3 r 0 5时视为低度相关 当 r 0 3时说明变量之间的相关性很弱 第2步对样本来自的两总体是否存在显著的线性关系进行推断 由于存在抽样的随机性和样本数量较少等原因 通常样本相关系数不能直接用来说明样本来自的两总体是否具有显著的线性相关性 需要通过假设检验的方式对样本的总体进行统计推断 提出零假设H0 即两总体无显著的线性关系 构造检验统计量 由于不同的相关系数采用不同的检验统计量 因此在相关分析时 不同的过程需要构造不同的检验统计量 计算检验统计量的观测值及对应的概率p值 对两总体的相关性进行推断 如果检验统计量的概率p值小于给定的显著性水平 应拒绝零假设 即认为两总体之间存在显著性线性关系 反之 应接受零假设 7 2二元变量相关分析 4 SPSS实现举例 例7 1 为了分析父亲与儿子身高之间的相关性 现抽样了12对父子的身高 数据如下表 请对其进行相关性分析 显著性水平取 0 05 7 2二元变量相关分析 第1步分析 身高是定距变量 考虑用Pearson相关系数来衡量 第2步数据的组织 分成两列 一列是父亲的身高 另一列是儿子的身高 7 2二元变量相关分析 第3步选择菜单 分析 相关 双变量 打开如图7 1所示的对话框 将 father 和 son 两变量移入 变量 框中 相关系数 选择Pearson 在 显著性检验 中选择 双侧检验 7 2二元变量相关分析 第4步主要结果及分析 其中包括了叉积离差矩阵 协方差矩阵 Pearson相关系数及相伴概率p值 从表中可看出 相关系数为0 703 0 说明呈正相关 而相伴概率值Sig 0 005 0 05 因此应拒绝零假设 H0 两变量之间不具相关性 即说明儿子身高是受父亲身高显著性正影响的 主要内容 7 1相关分析简介7 2两变量相关分析7 3偏相关分析7 4距离分析 1 基本概念偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量 这种相关系数称为偏相关系数 偏相关系数的数值和简单相关系数的数值常常是不同的 在计算简单相关系数时 所有其他自变量不予考虑 2 统计原理控制一个变量和控制两个变量的偏相关系数分别为 7 3偏相关分析 检验的统计量为 3 统计分析步骤第1步根据公式计算偏相关系数 第2步对样本来自的两总体是否存在显著性相关进行推断 提出零假设H0 即两总体的偏相关系数与零无显著性差异 选择检验统计量 偏相关分析选择的是t统计量 计算t值及对应的概率p值 决策 如果相伴概率p值小于给定的显著性水平 则应拒绝零假设 认为两总体的偏相关系数与零有显著性差异 否则 接受原假设 7 3偏相关分析 4 SPSS实现举例 例7 3 下表是四川绵阳地区3年生中山柏的数据 分析月生长量与月平均气温 月降雨量 月平均日照时数 月平均湿度4个气候因素中哪些因素有关 7 3偏相关分析 16 7 3偏相关分析 第1步分析 这4个气候因素彼此均有影响 分析时应对生长量与4个气候因素分别求偏相关 如在求生长量与气候因素的相关时控制其他因素的影响 所以需进行偏相关分析 第2步数据组织 如上表定义4个变量 输入数据即可 第3步进行偏相关分析 选择菜单 分析 相关 双变量 指定分析变量和控制变量 分析变量 hgrow 和 temp 的偏相关系数 并将 rain hsun humi 设为控制变量 如下图所示设置 第4步主要结果及分析 7 3偏相关分析 从中可以看出 月降雨量 月平均日照时数和月平均湿度为控制变量 生长量与月平均气温关系密切 偏相关系数为0 977 双尾检测的相伴概率为0 000 表示趋近于0的正数 明显小于显著性水平0 05 故应拒绝原假设 说明中山柏的生长量与气温间存在显著的相关性 主要内容 7 1相关分析简介7 2两变量相关分析7 3偏相关分析7 4距离分析 1 基本概念距离分析是对观测量之间相似或不相似程度的一种测度 是计算一对观测量之间的广义距离 这些相似性或距离测度可以用于其他分析过程 例如因子分析 聚类分析或多维定标分析 有助于分析复杂的数据集 2 统计原理不相似性测度对定距数据的不相似性 距离 测度可以使用的统计量有 欧几里得距离 平方欧氏距离 切比雪夫距离 Block距离 明可斯基距离等 对定序数据 主要使用卡方不相似测度和斐方测度 对二值 只有两种取值 数据变量之间的距离描述 使用欧氏距离 平方欧氏距离 尺寸差异 模式差异 方差 形或兰斯和威廉斯等距离统计量 7 4距离分析 相似性测度对于定距数据主要使用皮尔逊相关系数和夹角余弦距离 对于二值数据的相似性测度主要包括简单匹配系数 Jaccard相似性指数 Hamann相似性测度等20余种 7 4距离分析 其中的距离又分为个案 观测记录 之间的距离和变量之间的距离两种 3 分析步骤距离分析中不存在假设检验问题 主要是通过SPSS自动计算变量或个案之间的相似性或不相似性距离 根据其计算距离值的大小来确定变量或个案之间的相似性或不相似性的强弱 4 SPSS实现举例 例7 4 已知我国四城市2004年各月的日照时数如下表所示 请分析各城市日照数是否近似 7 4距离分析 第1步分析 这是考查4个城市的日照时数是否相似的问题 可用距离分析实现 既可以计算其相似性测度 亦可计算其不相似性测度 第2步数据组织 分别定义的变量 month 月份 用字符型变量 Beijing 北京 Tianjin 天津 ShiJZ 石家庄 Dalian 大连 7 4距离分析 7 4距离分析 第3步进行距离分析 选择菜单 分析 相关 距离 弹出下图所示的 距离 对话框 将4个变量 北京 天津 石家庄 大连 移入 变量 框中进行相似性度量计算 在 计算距离 组中选中 个案间 单选框 进行变量间的距离分析 在 度量标准 单选框组中选中不相似性 求解其不相似性度量 第4步主要结果及分析 7 4距离分析 表格的第一行 Euclidean距离 说明采用的是欧氏距离 这是一个对称矩阵 当两变量的欧氏距离越大 说明其差别越大 反之越小 从表中可看出 北京 和 大连 的日照数最接近 而 北京 和 天津 的日照数相差最大 TheEnd 第八章 回归分析 主要内容 8 1回归分析概述8 2线性回归分析8 3曲线估计8 4二元Logistic回归分析 8 1回归分析概述 1 确定性关系与非确定性关系变量与变量之间的关系分为确定性关系和非确定性关系 函数表达确定性关系 研究变量间的非确定性关系 构造变量间经验公式的数理统计方法称为回归分析 2 回归分析基本概念回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程 这一数学表达式通常称为经验公式 我们不仅可以利用概率统计知识 对这个经验公式的有效性进行判定 同时还可以利用这个经验公式 根据自变量的取值预测因变量的取值 如果是多个因素作为自变量的时候 还可以通过因素分析 找出哪些自变量对因变量的影响是显著的 哪些是不显著的 3 回归分析的一般步骤第1步确定回归方程中的因变量和自变量 第2步确定回归模型 第3步建立回归方程 第4步对回归方程进行各种检验 拟合优度检验回归方程的显著性检验回归系数的显著性检验第5步利用回归方程进行预测 8 1回归分析概述 主要内容 8 1回归分析概述8 2线性回归分析8 3曲线估计8 4二元Logistic回归分析 8 2线性回归分析 8 2 1基本概念及统计原理1 基本概念线性回归假设因变量与自变量之间为线性关系 用一定的线性回归模型来拟合因变量和自变量的数据 并通过确定模型参数来得到回归方程 根据自变量的多少 线性回归可有不同的划分 当自变量只有一个时 称为一元线性回归 当自变量有多个时 称为多元线性回归 8 2线性回归分析 2 统计原理一元回归方程和多元回归方程 一元线性和多元线性回归分析的核心任务就是估计其中的参数 8 2线性回归分析 8 2 2SPSS实例分析 例8 1 现有1992年 2006年国家财政收入和国内生产总值的数据如下表所示 请研究国家财政收入和国内生产总值之间的线性关系 8 2线性回归分析 第1步分析 这是一个因变量和一个自变量之间的问题 故应该考虑用一元线性回归解决 第2步数据组织 定义三个变量 分别为 year 年份 x 国内生产总值 y 财政收入 第3步作散点图 观察两个变量的相关性 依次选择菜单 图形 旧对话框 散点 点状 简单分布 并将 国内生产总值 作为x轴 财政收入 作为y轴 得到如下所示图形 可以看出两变量具有较强的线性关系 可以用一元线性回归来拟合两变量 8 2线性回归分析 第4步一元线性回归分析设置 选择菜单 分析 回归 线性 打开 线性回归 对话框 将变量 财政收入 作为因变量 国内生产总值 作为自变量 打开 统计量 对话框 选上 估计 和 模型拟合度 单击 绘制 T 按钮 打开 线性回归 图 对话框 选用DEPENDENT作为y轴 ZPRED为x轴作图 并且选择 直方图 和 正态概率图 作相应的保存选项设置 如预测值 残差和距离等 8 2线性回归分析 第5步主要结果及分析 变量输入和移去表 表中显示回归模型编号 进入模型的变量 移出模型的变量和变量的筛选方法 可以看出 进入模型的自变量为 国内生产总值 模型综述表 R 0 989 说明自变量与因变量之间的相关性很强 R方 R2 0 979 说明自变量 国内生产总值 可以解释因变量 财政收入 的97 9 的差异性 8 2线性回归分析 方差分析表 表中显示因变量的方差来源 方差平方和 自由度 均方 F检验统计量的观测值和显著性水平 方差来源有回归 残差 从表中可以看出 F统计量的观测值为592 25 显著性概率为0 000 即检验假设 H0 回归系数B 0 成立的概率为0 000 从而应拒绝原假设 说明因变量和自变量的线性关系是非常显著的 可建立线性模型 8 2线性回归分析 回归系数表 表中显示回归模型的常数项 非标准化的回归系数B值及其标准误差 标准化的回归系数值 统计量t值以及显著性水平 Sig 从表中可看出 回归模型的常数项为 4993 281 自变量 国内生产总值 的回归系数为0 197 因此 可以得出回归方程 财政收入 4993 281 0 197 国内生产总值 回归系数的显著性水平为0 000 明显小于0 05 故应拒绝T检验的原假设 这也说明了回归系数的显著性 说明建立线性模型是恰当的 主要内容 8 1回归分析概述8 2线性回归分析8 3曲线估计8 4二元Logistic回归分析 8 3曲线估计 8 3 1基本概念及统计原理 1 基本概念曲线估计 曲线拟合 曲线回归 则是研究两变量间非线性关系的一种方法 选定一种用方程表达的曲线 使得实际数据与理论数据之间的差异尽可能地小 如果曲线选择得好 那么可以揭示因变量与自变量的内在关系 并对因变量的预测有一定的意义 在曲线估计中 需要解决两个问题 一是选用哪种理论模型 即用哪种方程来拟合观测值 二是当模型确定后 如何选择合适的参数 使得理论数据和实际数据的差异最小 8 3曲线估计 2 统计原理在曲线估计中 有很多的数学模型 选用哪一种形式的回归方程才能最好地表示出一种曲线的关系往往不是一个简单的问题 可以用数学方程来表示的各种曲线的数目几乎是没有限量的 在可能的方程之间 以吻合度而论 也许存在着许多吻合得同样好的曲线方程 因此 在对曲线的形式的选择上 对采取什么形式需要有一定的理论 这些理论是由问题本质决定的 3 分析步骤首先 在不能明确究竟哪种模型更接近样本数据时 可在上述多种可选择的模型中选择几种模型 其次 SPSS自动完成模型参数的估计 并输出回归方程显著性检验的F值和概率p值 决定系数R2等统计量 最后 以判定系数为主要依据选择其中的最优模型 并进行预测分析等 8 3曲线估计 8 3 2SPSS实例分析 例8 3 表8 16是1989 2001年国家保费收入与国内生产总值的数据 试研究保费收入与国内生产总值的关系 8 3曲线估计 第1步分析 先用散点图的形式进行分析 看究竟是否具有一元线性关系 如果具有一元线性关系 则用一元线性回归分析 否则采用曲线估计求解 第2步数据组织 定义为三个变量 分别是 year 年度 y 保费收入 和 x 国内生产总值 输入数据并保存 第3步作散点图初步判定变量的分布趋势 保费收入y随国内生产总值x的提高而逐渐提高 而且当国内生产总值达到一定水平后 保费收入的增幅更加明显 因此用线性回归模型表示x y的关系是不恰当的 于是应找拟合效果好的模型 8 3曲线估计 第4步进行曲线估计 依次选择菜单 分析 回归 曲线估计 将所有模型全部选上 看哪种模型拟合效果更好 主要看决定系数R2 其所有模型的拟合优度R2如下表所示 从决定系数 R方即R2 来看 三次曲线效果最好 因为其R2值最大 并且方差分析的显著性水平 Sig 为0 故重新进行上面的过程 只选 三次曲线 Cubic 一种模型 8 3曲线估计 第5步结果与分析 三次曲线模型拟合效果的检验表 复相关系数R 0 995 R2 0 990 经校正后的R平方值为0 989 故可判断保费收入与国内生产总值之间有较显著的三次曲线关系 方差分析表 相伴概率Sig 0 000说明模型具有显著的统计学意义 8 3曲线估计 回归系数表 从表中可知因变量与自变量的三次回归模型为 y 166 430 0 029x 5 364E 7x2 5 022E 12x3 9 2曲线估计 拟合效果图 从图形上看出其拟合效果非常好 8 3曲线估计 说明 曲线估计是一个自变量与因变量的非线性回归过程 但只能处理比较简单的模型 如果有多个自变量与因变量呈非线性关系时 就需要用其他非线性模型对因变量进行拟合 SPSS19中提供了 非线性 过程 由于涉及的模型很多 且非线性回归分析中参数的估计通常是通过迭代方法获得的 而且对初始值的设置也有较高的要求 如果初始值选择不合适 即使指定的模型函数非常准确 也会导致迭代过程不收敛 或者只得到一个局部最优值而不能得到整体最优值 主要内容 8 1回归分析概述8 2线性回归分析8 3曲线估计8 4二元Logistic回归分析 8 4 1基本概念及统计原理 1 基本概念Logistic回归分析就是针对因变量是定性变量的回归分析 根据因变量取值类别数量不同 Logistic回归分析又分为二元Logistic回归分析和多元Logistic回归分析 二元Logistic回归模型中因变量只可以取两个值1和0 虚拟因变量 而多元Logistic回归模型中因变量可取多个值 8 4二元Logistic回归分析 2 统计原理logit变换 8 4二元Logistic回归分析 Logistic回归模型 Logistic回归模型 3 统计检验与线性回归一样 拟合时也要考虑模型是否合适 哪些变量该保留 拟合效果如何等问题 线性回归中常用的是决定系数R2 T检验 F检验等工具在这里均不再适用 在Logistic回归中常用的检验有 2对数似然检验 2log likelihood 2LL Hosmer和Lemeshow的拟合优度检验 Wald检验等 8 4二元Logistic回归分析 8 4 2SPSS实例分析 例8 4 诊断发现运营不良的金融企业是审计核查的一项重要功能 审计核查的分类失败会导致灾难性的后果 下表列出了66家公司的部分运营财务比率 其中33家在2年后破产 Y 0 另外33家在同期保持偿

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论