《SPSS相关分析》PPT课件.ppt

上传人：x*** IP属地：四川上传时间：2020-02-07 格式：PPT 页数：59 大小：3.81MB 积分：15 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第七章相关分析主要内容 7 1相关分析简介7 2两变量相关分析7 3偏相关分析7 4距离分析 7 1相关分析简介 1 函数关系与相关关系变量之间的关系可以分为两种一种是函数关系另一种是相关关系函数关系是一一对应的确定性关系比较容易分析和测度可是在现实世界中变量间的关系往往并不是简单的确定性关系也就是说变量之间有着密切的关系但又不能由一个或几个变量的值确定另一个变量的值即当自变量x取某一值时因变量y的值可能会有多个这种变量之间的非一一对应的不确定性的关系称之为相关关系 2 相关分析基本概念衡量事物之间或称变量之间线性相关程度的强弱并用适当的统计指标表示出来这个过程就是相关分析相关系数是衡量变量之间相关程度的一个指标总体的相关系数用表示样本的相关系数用r表示主要内容 7 1相关分析简介7 2两变量相关分析7 3偏相关分析7 4距离分析 7 1二元变量相关分析 1 基本概念二元变量的相关分析是指通过计算变量间两两相关的相关系数对两个或两个以上变量之间两两相关的程度进行分析根据所研究的变量类型不同又可以分为二元定距变量的相关分析和二元定序变量的相关分析 2 统计原理二元定距变量的相关分析定距变量又称为间隔 interval 变量即连续属性变量变量值之间可以比较大小可以用加减法计算出差异的大小 Pearson简单相关系数及t统计量 7 1二元变量相关分析定序变量的相关性分析定序变量又称为有序 ordinal 变量顺序变量等级变量它取值的大小能够表示观测对象的某种顺序关系等级方位或大小等定序变量的相关系数用斯皮尔曼 Spearman 相关系数和肯德尔 Kendall s 相关系数来衡量 Spearman相关系数及Z统计量 Kendall s等级相关系数及Z统计量 7 2二元变量相关分析 3 分析步骤第1步计算相关系数r 利用样本数据计算样本相关系数样本相关系数反映了两变量间线性相关程度的强弱相关系数的取值范围界于 1与1之间即 1 r 1当0 r 1 表明变量之间存在正相关关系当 1 r 0 表明变量之间存在负相关关系当 r 1时表示其中一个变量的取值完全取决于另一个变量二者即为函数关系当r 0时说明变量之间不存在线性相关关系但这并不排除变量之间存在其它非线性相关的可能根据经验可将其相关程度分为几种当 r 0 8时视为高度相关当0 5 r 0 8时视为中度相关当0 3 r 0 5时视为低度相关当 r 0 3时说明变量之间的相关性很弱第2步对样本来自的两总体是否存在显著的线性关系进行推断由于存在抽样的随机性和样本数量较少等原因通常样本相关系数不能直接用来说明样本来自的两总体是否具有显著的线性相关性需要通过假设检验的方式对样本的总体进行统计推断提出零假设H0 即两总体无显著的线性关系构造检验统计量由于不同的相关系数采用不同的检验统计量因此在相关分析时不同的过程需要构造不同的检验统计量计算检验统计量的观测值及对应的概率p值对两总体的相关性进行推断如果检验统计量的概率p值小于给定的显著性水平应拒绝零假设即认为两总体之间存在显著性线性关系反之应接受零假设 7 2二元变量相关分析 4 SPSS实现举例例7 1 为了分析父亲与儿子身高之间的相关性现抽样了12对父子的身高数据如下表请对其进行相关性分析显著性水平取 0 05 7 2二元变量相关分析第1步分析身高是定距变量考虑用Pearson相关系数来衡量第2步数据的组织分成两列一列是父亲的身高另一列是儿子的身高 7 2二元变量相关分析第3步选择菜单分析相关双变量打开如图7 1所示的对话框将 father 和 son 两变量移入变量框中相关系数选择Pearson 在显著性检验中选择双侧检验 7 2二元变量相关分析第4步主要结果及分析其中包括了叉积离差矩阵协方差矩阵 Pearson相关系数及相伴概率p值从表中可看出相关系数为0 703 0 说明呈正相关而相伴概率值Sig 0 005 0 05 因此应拒绝零假设 H0 两变量之间不具相关性即说明儿子身高是受父亲身高显著性正影响的主要内容 7 1相关分析简介7 2两变量相关分析7 3偏相关分析7 4距离分析 1 基本概念偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量这种相关系数称为偏相关系数偏相关系数的数值和简单相关系数的数值常常是不同的在计算简单相关系数时所有其他自变量不予考虑 2 统计原理控制一个变量和控制两个变量的偏相关系数分别为 7 3偏相关分析检验的统计量为 3 统计分析步骤第1步根据公式计算偏相关系数第2步对样本来自的两总体是否存在显著性相关进行推断提出零假设H0 即两总体的偏相关系数与零无显著性差异选择检验统计量偏相关分析选择的是t统计量计算t值及对应的概率p值决策如果相伴概率p值小于给定的显著性水平则应拒绝零假设认为两总体的偏相关系数与零有显著性差异否则接受原假设 7 3偏相关分析 4 SPSS实现举例例7 3 下表是四川绵阳地区3年生中山柏的数据分析月生长量与月平均气温月降雨量月平均日照时数月平均湿度4个气候因素中哪些因素有关 7 3偏相关分析 16 7 3偏相关分析第1步分析这4个气候因素彼此均有影响分析时应对生长量与4个气候因素分别求偏相关如在求生长量与气候因素的相关时控制其他因素的影响所以需进行偏相关分析第2步数据组织如上表定义4个变量输入数据即可第3步进行偏相关分析选择菜单分析相关双变量指定分析变量和控制变量分析变量 hgrow 和 temp 的偏相关系数并将 rain hsun humi 设为控制变量如下图所示设置第4步主要结果及分析 7 3偏相关分析从中可以看出月降雨量月平均日照时数和月平均湿度为控制变量生长量与月平均气温关系密切偏相关系数为0 977 双尾检测的相伴概率为0 000 表示趋近于0的正数明显小于显著性水平0 05 故应拒绝原假设说明中山柏的生长量与气温间存在显著的相关性主要内容 7 1相关分析简介7 2两变量相关分析7 3偏相关分析7 4距离分析 1 基本概念距离分析是对观测量之间相似或不相似程度的一种测度是计算一对观测量之间的广义距离这些相似性或距离测度可以用于其他分析过程例如因子分析聚类分析或多维定标分析有助于分析复杂的数据集 2 统计原理不相似性测度对定距数据的不相似性距离测度可以使用的统计量有欧几里得距离平方欧氏距离切比雪夫距离 Block距离明可斯基距离等对定序数据主要使用卡方不相似测度和斐方测度对二值只有两种取值数据变量之间的距离描述使用欧氏距离平方欧氏距离尺寸差异模式差异方差形或兰斯和威廉斯等距离统计量 7 4距离分析相似性测度对于定距数据主要使用皮尔逊相关系数和夹角余弦距离对于二值数据的相似性测度主要包括简单匹配系数 Jaccard相似性指数 Hamann相似性测度等20余种 7 4距离分析其中的距离又分为个案观测记录之间的距离和变量之间的距离两种 3 分析步骤距离分析中不存在假设检验问题主要是通过SPSS自动计算变量或个案之间的相似性或不相似性距离根据其计算距离值的大小来确定变量或个案之间的相似性或不相似性的强弱 4 SPSS实现举例例7 4 已知我国四城市2004年各月的日照时数如下表所示请分析各城市日照数是否近似 7 4距离分析第1步分析这是考查4个城市的日照时数是否相似的问题可用距离分析实现既可以计算其相似性测度亦可计算其不相似性测度第2步数据组织分别定义的变量 month 月份用字符型变量 Beijing 北京 Tianjin 天津 ShiJZ 石家庄 Dalian 大连 7 4距离分析 7 4距离分析第3步进行距离分析选择菜单分析相关距离弹出下图所示的距离对话框将4个变量北京天津石家庄大连移入变量框中进行相似性度量计算在计算距离组中选中个案间单选框进行变量间的距离分析在度量标准单选框组中选中不相似性求解其不相似性度量第4步主要结果及分析 7 4距离分析表格的第一行 Euclidean距离说明采用的是欧氏距离这是一个对称矩阵当两变量的欧氏距离越大说明其差别越大反之越小从表中可看出北京和大连的日照数最接近而北京和天津的日照数相差最大 TheEnd 第八章回归分析主要内容 8 1回归分析概述8 2线性回归分析8 3曲线估计8 4二元Logistic回归分析 8 1回归分析概述 1 确定性关系与非确定性关系变量与变量之间的关系分为确定性关系和非确定性关系函数表达确定性关系研究变量间的非确定性关系构造变量间经验公式的数理统计方法称为回归分析 2 回归分析基本概念回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程这一数学表达式通常称为经验公式我们不仅可以利用概率统计知识对这个经验公式的有效性进行判定同时还可以利用这个经验公式根据自变量的取值预测因变量的取值如果是多个因素作为自变量的时候还可以通过因素分析找出哪些自变量对因变量的影响是显著的哪些是不显著的 3 回归分析的一般步骤第1步确定回归方程中的因变量和自变量第2步确定回归模型第3步建立回归方程第4步对回归方程进行各种检验拟合优度检验回归方程的显著性检验回归系数的显著性检验第5步利用回归方程进行预测 8 1回归分析概述主要内容 8 1回归分析概述8 2线性回归分析8 3曲线估计8 4二元Logistic回归分析 8 2线性回归分析 8 2 1基本概念及统计原理1 基本概念线性回归假设因变量与自变量之间为线性关系用一定的线性回归模型来拟合因变量和自变量的数据并通过确定模型参数来得到回归方程根据自变量的多少线性回归可有不同的划分当自变量只有一个时称为一元线性回归当自变量有多个时称为多元线性回归 8 2线性回归分析 2 统计原理一元回归方程和多元回归方程一元线性和多元线性回归分析的核心任务就是估计其中的参数 8 2线性回归分析 8 2 2SPSS实例分析例8 1 现有1992年 2006年国家财政收入和国内生产总值的数据如下表所示请研究国家财政收入和国内生产总值之间的线性关系 8 2线性回归分析第1步分析这是一个因变量和一个自变量之间的问题故应该考虑用一元线性回归解决第2步数据组织定义三个变量分别为 year 年份 x 国内生产总值 y 财政收入第3步作散点图观察两个变量的相关性依次选择菜单图形旧对话框散点点状简单分布并将国内生产总值作为x轴财政收入作为y轴得到如下所示图形可以看出两变量具有较强的线性关系可以用一元线性回归来拟合两变量 8 2线性回归分析第4步一元线性回归分析设置选择菜单分析回归线性打开线性回归对话框将变量财政收入作为因变量国内生产总值作为自变量打开统计量对话框选上估计和模型拟合度单击绘制 T 按钮打开线性回归图对话框选用DEPENDENT作为y轴 ZPRED为x轴作图并且选择直方图和正态概率图作相应的保存选项设置如预测值残差和距离等 8 2线性回归分析第5步主要结果及分析变量输入和移去表表中显示回归模型编号进入模型的变量移出模型的变量和变量的筛选方法可以看出进入模型的自变量为国内生产总值模型综述表 R 0 989 说明自变量与因变量之间的相关性很强 R方 R2 0 979 说明自变量国内生产总值可以解释因变量财政收入的97 9 的差异性 8 2线性回归分析方差分析表表中显示因变量的方差来源方差平方和自由度均方 F检验统计量的观测值和显著性水平方差来源有回归残差从表中可以看出 F统计量的观测值为592 25 显著性概率为0 000 即检验假设 H0 回归系数B 0 成立的概率为0 000 从而应拒绝原假设说明因变量和自变量的线性关系是非常显著的可建立线性模型 8 2线性回归分析回归系数表表中显示回归模型的常数项非标准化的回归系数B值及其标准误差标准化的回归系数值统计量t值以及显著性水平 Sig 从表中可看出回归模型的常数项为 4993 281 自变量国内生产总值的回归系数为0 197 因此可以得出回归方程财政收入 4993 281 0 197 国内生产总值回归系数的显著性水平为0 000 明显小于0 05 故应拒绝T检验的原假设这也说明了回归系数的显著性说明建立线性模型是恰当的主要内容 8 1回归分析概述8 2线性回归分析8 3曲线估计8 4二元Logistic回归分析 8 3曲线估计 8 3 1基本概念及统计原理 1 基本概念曲线估计曲线拟合曲线回归则是研究两变量间非线性关系的一种方法选定一种用方程表达的曲线使得实际数据与理论数据之间的差异尽可能地小如果曲线选择得好那么可以揭示因变量与自变量的内在关系并对因变量的预测有一定的意义在曲线估计中需要解决两个问题一是选用哪种理论模型即用哪种方程来拟合观测值二是当模型确定后如何选择合适的参数使得理论数据和实际数据的差异最小 8 3曲线估计 2 统计原理在曲线估计中有很多的数学模型选用哪一种形式的回归方程才能最好地表示出一种曲线的关系往往不是一个简单的问题可以用数学方程来表示的各种曲线的数目几乎是没有限量的在可能的方程之间以吻合度而论也许存在着许多吻合得同样好的曲线方程因此在对曲线的形式的选择上对采取什么形式需要有一定的理论这些理论是由问题本质决定的 3 分析步骤首先在不能明确究竟哪种模型更接近样本数据时可在上述多种可选择的模型中选择几种模型其次 SPSS自动完成模型参数的估计并输出回归方程显著性检验的F值和概率p值决定系数R2等统计量最后以判定系数为主要依据选择其中的最优模型并进行预测分析等 8 3曲线估计 8 3 2SPSS实例分析例8 3 表8 16是1989 2001年国家保费收入与国内生产总值的数据试研究保费收入与国内生产总值的关系 8 3曲线估计第1步分析先用散点图的形式进行分析看究竟是否具有一元线性关系如果具有一元线性关系则用一元线性回归分析否则采用曲线估计求解第2步数据组织定义为三个变量分别是 year 年度 y 保费收入和 x 国内生产总值输入数据并保存第3步作散点图初步判定变量的分布趋势保费收入y随国内生产总值x的提高而逐渐提高而且当国内生产总值达到一定水平后保费收入的增幅更加明显因此用线性回归模型表示x y的关系是不恰当的于是应找拟合效果好的模型 8 3曲线估计第4步进行曲线估计依次选择菜单分析回归曲线估计将所有模型全部选上看哪种模型拟合效果更好主要看决定系数R2 其所有模型的拟合优度R2如下表所示从决定系数 R方即R2 来看三次曲线效果最好因为其R2值最大并且方差分析的显著性水平 Sig 为0 故重新进行上面的过程只选三次曲线 Cubic 一种模型 8 3曲线估计第5步结果与分析三次曲线模型拟合效果的检验表复相关系数R 0 995 R2 0 990 经校正后的R平方值为0 989 故可判断保费收入与国内生产总值之间有较显著的三次曲线关系方差分析表相伴概率Sig 0 000说明模型具有显著的统计学意义 8 3曲线估计回归系数表从表中可知因变量与自变量的三次回归模型为 y 166 430 0 029x 5 364E 7x2 5 022E 12x3 9 2曲线估计拟合效果图从图形上看出其拟合效果非常好 8 3曲线估计说明曲线估计是一个自变量与因变量的非线性回归过程但只能处理比较简单的模型如果有多个自变量与因变量呈非线性关系时就需要用其他非线性模型对因变量进行拟合 SPSS19中提供了非线性过程由于涉及的模型很多且非线性回归分析中参数的估计通常是通过迭代方法获得的而且对初始值的设置也有较高的要求如果初始值选择不合适即使指定的模型函数非常准确也会导致迭代过程不收敛或者只得到一个局部最优值而不能得到整体最优值主要内容 8 1回归分析概述8 2线性回归分析8 3曲线估计8 4二元Logistic回归分析 8 4 1基本概念及统计原理 1 基本概念Logistic回归分析就是针对因变量是定性变量的回归分析根据因变量取值类别数量不同 Logistic回归分析又分为二元Logistic回归分析和多元Logistic回归分析二元Logistic回归模型中因变量只可以取两个值1和0 虚拟因变量而多元Logistic回归模型中因变量可取多个值 8 4二元Logistic回归分析 2 统计原理logit变换 8 4二元Logistic回归分析 Logistic回归模型 Logistic回归模型 3 统计检验与线性回归一样拟合时也要考虑模型是否合适哪些变量该保留拟合效果如何等问题线性回归中常用的是决定系数R2 T检验 F检验等工具在这里均不再适用在Logistic回归中常用的检验有 2对数似然检验 2log likelihood 2LL Hosmer和Lemeshow的拟合优度检验 Wald检验等 8 4二元Logistic回归分析 8 4 2SPSS实例分析例8 4 诊断发现运营不良的金融企业是审计核查的一项重要功能审计核查的分类失败会导致灾难性的后果下表列出了66家公司的部分运营财务比率其中33家在2年后破产 Y 0 另外33家在同期保持偿

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《SPSS相关分析》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

《SPSS相关分析》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档