




已阅读5页,还剩89页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九讲相关分析 第一部分上一讲回顾第二部分相关分析的概念第三部分简单相关分析第四部分相关分析的spss过程 第一部分第八讲回顾多因素方差分析spss操作 建立数据文件 设置方差分析对话框 分析变量 分析模型 比较方法 均值图 多重比较 保存运算符 输出项 提交执行 输出结果 方差分析主对话框 菜单选择 analyze generallinearmode univariate 设置因变量 设置因素变量 协变量 权重变量 单击选择分析模型 单击选择比较方法 单击选择均值图 单击选择多重比较 单击选择输出项 单击保存运算值 最后单击输出结果 选择分析模型 系统默认 建立全模型 包括所有因素变量主效应和交互效应 自定义模型 选择后factors covariates被激活 框中变量可作为协变量 interaction指定任意交互效应maineffects指定主效应all2 way指定所有2维交互效应all3 way指定所有3维交互效应all4 way指定所有4维交互效应all5 way指定所有5维交互效应 平方和选择项 type 分层处理平方和 仅对模型主效应之前的每项进行调整 一般适用于 平衡的anova模型 一阶交互效应前指定主效应 二阶交互效应前指定一阶交互效应 依次类推 type 对其他所有效应进行调整 一般适用于 平衡的anova模型 主因子效应模型 回归模型 嵌套设计 type 系统默认 对其他任何效应均进行调整 它的优势是把所估计剩余常量也考虑到单元频数中 一般适用于 type type 没有空单元的平衡和不平衡模型 type 没有缺失单元的设计使用此方法对任何效应计算平方和 选择此项包括截距 最后单击返回主对话框 选择比较方法 候选因子变量框 方法选择下拉列表 none 不进行均数比较deviation 除被忽略的水平外 比较预测变量或因素变量的每个水平的效应 可选择 last 或 first 作为参考水平 simple 除作为参考水平外 对预测变量或因素变量的每一水平都与参考水平进行比较 可选择 last 或 first 作为参考水平 difference 对预测变量或因素每一水平的效应 除第一水平外 都与其前面各水平的平均效应进行比较 helmert 与difference方向相反 repeated 对相邻的水平进行比较 除第一水平外 每一水平都与它前面水平进行比较 polynomial 多项式比较 因素变量和比较方法选择后 单击此按钮改变 多重比较对话框 从fcator中选择因素变量到posthoctestsfoc中 进行比较 比较方法包括方差齐性与方差不齐两种情况 方差齐性给出了14种 方差不齐给出了4种 其含义与单因素方差分析相同 最后单击返回主对话框 均值图对话框 均值图用于比较边际均值 轮廓图是线图 图中每个点表明因变量在因素变量每个水平上的边际均值的估计值 如果指定了协变量 该均值则是经过协变量调整的均值 因变量做轮廓图的幽会轴 一个因素变量做横轴 单方差分析时 轮廓图表明该因素各水平的因变量均值 双因素方差分析时 指定一个因素做横轴变量 另一个因素变量的每个水平产生不同的线 因素变量列表 选择一个因素作为横轴变量 分线框 如果想看两个因素变量组合或两个因变量间是否存在交互效应 则从因素变量列表中选择一个因素变量到此框中 并单击add按钮 自动生成图形表达式 分图框 如果还有因素变量 将其送至此框 操作方法同分线框 保存计算结果对话框 功能 可以将所计算的预测值 残差和检测值作为新的变量保存在编辑数据文件中 以便在其他统计分析中使用这些值 预测值 非标准化预测值 如果在主对话框中选择了wls变量 选中该复选项将保存加权非标准化预测值 预测值标准误 诊断值 距离 非中心化leverage值 保存协方差矩阵 残差 非标准化残差值 观测值与预测值之差 加权非标准化残差 如果主对话框选择了wls 标准化残差 pearson残差 学生化残差 剔除残差 自变量值与校正预测值之差 最后单击返回主对话框 输出选项 边际均值设置 列出 mode1 对话框中的效应项 选择主效应 产生估计边际均值表 交互效应产生单元格均值表 描述统计量 效应量估计 计算功能显著水平 临界值0 05 给出各因素变量模型参数估计 标准误 t检验的t值 显著性概率和95 的置信区间 显示对比系数阵 方差齐性检验 绘制观测量均值对标准差和观测量均值对方差的图形 绘制残差图 检查独立变量和非独立变量间的关系是否被充分描述 根据一般估计函数自定义假设检验 多重比较显著水平 结果描述性统计量 主效应与交互效应检验 方差来源 模型校正常数项学习特征学习风格交互项误差总和校正总计 收尾概率 0 05差异显著 学习特征多重比较 学习风格多重比较 边际均值估计结果图 相关分析内容 相关分析是统计分析方法中最重要内容之一 是多元统计分析方法的基础 相关分析和回归分析主要用于研究和分析变量之间的相关关系 在变量之间寻求合适的函数关系式 特别是线性表达式 主要内容 对变量之间的相关关系进行分析 correlate 其中包括简单相关分析 bivariate 和偏相关分析 partial 数据条件 参与分析的变量数据是数值型变量或有序变量 第二部分 相关关系的概念 注意相关关系与函数关系的区别 一 函数关系 它反映着现象之间存在着严格的依存关系 也就是具有确定性的对应关系 这种关系可用一个数学表达式反映出来 例如某种商品的销售额和销售量之间 由于价格因素 所以两者可表现为严格的依存关系 二 相关关系 它反映着现象之间的数量上不严格的依存关系 也就是说两者之间不具有确定性的对应关系 这种关系有二个明显特点 1 现象之间确实存在数量上的依存关系 即某一社会经济现象变化要引起另一社会经济现象的变化 2 现象之间的这种依存关系是不严格的 即无法用数学公式表示 商品价格和商品销售量之间 存在着一定的依存关系 即商品价格发生变动 商品的销售量也会随之发生变动 在具有相互依存关系的两个变量中 作为根据的变量称自变量 一般用x表示 发生对应变化的变量称因变量 一般用y表示 1 按相关关系涉及的因素多少来分 可分为 单相关和复相关 在实际工作中 如存在多个自变量 可抓住其中主要的自变量 研究其相关关系 而保持另一些因素不变 这时复相关可转化为偏相关 二因素之间的相关关系称单相关 即只涉及一个自变量和一个因变量 三个或三个以上因素的相关关系称复相关 或多元相关 即涉及二个或二个以上的自变量和因变量 二 相关关系的种类 2 按相关关系的性质来分 可分为 正相关和负相关 正相关是指两相关现象变化的方向是一致的 负相关是指两相关现象变化的方向是相反的 3 按相关关系的形式来分 可分为 直线相关和曲线相关 直线相关是指两个相关现象之间 当自变量x的数值发生变动时 因变量y随之发生近似于固定比例的变动 在相关图上的散点近似地表现为直线形式 因此称其为直线相关关系 曲线相关是指两个相关现象之间 当自变量x的数值发生变动时 因变量y也随之发生变动 但这种变动在数值上不成固定比例 在相关图上的散点可表现为抛物线 指数曲线 双曲线等形式 因此称其为曲线相关关系 4 按相关程度分 可分为 完全相关 不完全相关和不相关 完全相关就是相关现象之间的关系是完全确定的关系 因而完全相关关系就是函数关系 不相关是指两现象之间在数量上的变化上各自独立 互不影响 不完全相关就是介于完全相关和不相关之间的一种相关关系 相关分析的对象主要是不完全相关关系 三 相关分析的任务和内容 相关分析的主要任务 概括起来是两个方面 一方面 研究现象之间关系的密切程度 即相关分析 另一方面 研究自变量与因变量之间的变动关系 即回归分析 相关分析的主要内容包括以下五个方面 1 判断社会经济现象之间是否存在相互依存的关系 是直线相关 还是曲线相关 这是相关分析的出发点 2 确定相关关系的密切程度 3 测定两个变量之间的一般关系值 4 测定因变量估计值和实际值之间的差异 用以反映因变量估计值的可靠程度 5 相关系数的显著性检验 第三部分简单线性相关分析 一 相关表和相关图 相关图 也称散布图 或散点图 某市1996年 2003年的工资性现金支出与城镇储蓄存款余额的资料 说明简单相关表和相关图的编制方法 从表可看出 随着工资性现金支出的增加 城镇储蓄存款余额有明显的增长趋势 所以 资料表明 如图 有明显的直线相关趋势 相关关系的图示 散点图scatterdiagram 散点图 例题分析 例 一家大型商业银行在多个地区设有分行 其业务主要是进行基础设施建设 国家重点项目建设 固定资产投资等项目的贷款 近年该银行贷款额平稳增长 但不良贷款额也有较大提高 给银行业务发展带来较大压力 为弄清不良贷款形成的原因 以便找出控制不良贷款的办法 现利用银行有关业务数据进行相关分析 下面是该银行所属25家分行2002年的有关业务数据 散点图 例题分析 散点图 例题分析 二 相关系数 相关系数是在直线相关条件下 表明两个现象之间相关关系的方向和密切程度的综合性指标 二维随机变量 x y 的相关系数 可见 相关系数越大 相关性越强 通常情况下 是未知的 而是用其样本相关系数r来代替 思考 为什么是未知的 常用的样本相关系数有 pearson相关系数spearman秩相关系数kendall相关系数 r的测定方法 spearman秩相关系数 用于描述分类或等级变量之间 分类或等级变量与连续变量之间的相关关系 kendall相关系数 用于描述分类或等级变量之间 分类或等级变量与连续变量之间的相关关系 对r的解释如下 即r的特点 1 r取正值或负值决定于分子协方差 2 r的绝对值 在0与1之间 3 r的绝对值大小 可说明现象之间相关关系的紧密程度 仍以上例1资料计算 经过计算 表明该市工资性现金支出与城镇储蓄存款余额之间存在着高度正相关 资料计算如下 简单线性相关分析的特点 通过对r的计算方法的讨论 可看出二个明显特点 2 相关关系中只能计算出一个相关系数r 1 相关关系中 两个变量不必定出哪个是自变量 哪个是因变量 因此 相关的两个变量都是随机变量 第四部分相关分析spss过程 在spss中 可以通过analyze菜单进行相关分析 correlate correlate菜单如图所示 correlate 子菜单 bivariate 两变量相关分析 partial 偏相关分析 distances 距离分析 4 1简单相关分析两个变量之间的相关关系称简单相关关系 有两种方法可以反映简单相关关系 一是通过散点图直观地显示变量之间关系 二是通过相关系数准确地反映两变量的关系程度 4 1 1散点图spss软件的绘图命令集中在graphs菜单 下面通过例题来介绍具体操作方法 例 数据库中的变量x表示山东省人均国内生产总值 y表示山东省城镇居民的消费额 资料来源 山东省2003年统计年鉴 现画出散点图来观察两个变量的关联程度 单击graphs scatter 打开scatterplot散点图对话框 如图所示 然后选择需要的散点图 图中的五个选项依次是 simple简单散点图matrix矩阵散点图overlay重叠散点图3 d三维散点图简单点 如果只考虑两个变量 可选择简单的散点图simple 如图所示 4 1 2简单相关分析操作 简单相关分析是指两个变量之间的相关分析 主要是指对两变量之间的线性相关程度作出定量分析 从中国30个省区抽样的文盲率 单位 1 和各省人均gdp 单位 元 问文盲率与人均gdp之间是否相关 是正相关还是负相关 执行 analyze correlate bivariate 命令 弹出 bivariate 对话框 选项 输出个变量的样本均值及标准差 输出各对变量的交叉积及协方差矩阵 结果解读利用散点图确定变量间关系 首先通过散点图判断变量间是否有相关关系 另外一题的结果 第二部分偏相关分析 在多变量的情况下 变量之间的相关关系是很复杂的 因此 多元相关分析除了要利用上一讲的简单相关系数外 还要计算偏相关系数 在对其他变量的影响进行控制的条件下 衡量多个变量中某两个变量之间的线性相关程度的指标称为偏相关系数 偏相关系数与简单相关系数区别 在计算简单相关系数时 只需要掌握两个变量的观测数据 并不考虑其他变量对这两个变量可能产生的影响 在计算偏相关系数时 需要掌握多个变量的数据 一方面考虑多个变量相互之间可能产生的影响 一方面又采用一定的方法控制其他变量 专门考察两个特定变量的净相关关系 注 在多变量相关的场合 由于变量之间存在错综复杂的关系 因此偏相关系数与简单相关系数在数值上可能相差很大 有时甚至符号都可能相反 简单相关系数受其他因素的影响 反映的往往是表面的非本质的联系 而偏相关系数则较能说明现象之间真实的联系 例 一种商品的需求既受收入水平的影响又受其价格的影响 按照经济学理论 在一定的收入水平下 该商品的价格越高 商品的需求量就越小 也就是说 需求与价格之间应当是负相关 可是 在现实经济生活中 由于收入和价格常常都有不断提高的趋势 如果不考虑收入对需求的影响 仅仅利用需求和价格的时间序列数据去计算简单相关系数 就有可能得出价格越高需求越大的错误结论 偏相关分析的公式表达 在偏相关中 根据固定变量数目的多少 可分为零阶偏相关 一阶偏相关 p 1 阶偏相关 零阶偏相关就是简单相关 如果用下标0代表y 下标1代表x1 下标2代表x2 则变量y与变量x1之间的一阶偏相关系数为 r01 2是剔除x2的影响之后 y与x1之间的偏相关程度的度量 r01 r02 r12分别是y x1 x2两两之间的相关系数 如果增加变量x3 则变量y与x1的二阶偏相关系数为 依此类推变量y与xi的p 1阶偏相关系数为 第四部分偏关分析的spss过程 spss中相关分析可以通过analyze菜单进行 correlate correlate菜单如图所示 选择其中第二个子菜单进入到偏相关分析界面 partial 第一步 录入数据 打开偏相关分析对话框 第二步 将对话框中左侧的变量列表框中选择两个变量 作为相关变量 移入variables列表框中 选择一个控制变量移入controllingfor列表框中 第三步 选择检验类型 变量窗口 显著性检验 双尾检验 默认 单尾检验 相关方向明显时 显示相关系数时 显示实际的显著性概率 相关变量 控制变量 第四步 打开option选项框 均值与标准差 即显示每个变量的均值 标准差和非缺失值的例数 显示零阶相关矩阵 即pearson相关矩阵 仅剔除当前分析的两个变量值是缺失值的个案 剔除带有缺失值的所有个案 相关分析的命令语句 partialcorr variables 身高肺活量by体重 significance twotail statistics descriptivescorr missing listwise 结果分析 一 描述性统计量表中给出了个变量的均值 标准差和变量的非缺失值例数 相关系数 在体重作为控制变量的条件下 身高和肺活量间的偏相关为0 2755 概率p值为0 148 在显著性水平为0 05的条件下 身高与肺活量呈极弱的正相关关系 说明身高对肺活量的线性影响非常弱 零阶相关矩阵关系 从下表可以看出身高和肺活量之间的peason相关系数为0 5986 p值为0 000 体重和肺活量之间的相关系数为0 6140 p值为0 000 都呈现一定的相关关系 解释 看上去得到了两个相反的结论 为什么呢 因为身高与体重之间的相关系数接近1 p值为0 000 两者之间有较为密切的关系 分析身高与肺活量的peason相关时 也包括了体重的正效应 在扣除了体重的影响后 身高与肺活量就看不出相关关系了 改变控制变量后结果 将身高作为控制变量时偏相关分析结果为 第五部分距离分析 一 距离分析的概念距离分析是对观测量之间或变量之间相似或不相似程度的一种测度 是计算一对变量之间或一对观测量之间的广义的距离 这些相似性或距离测度可以用于其它分析过程 例如因子分析 聚类分析等 在距离分析过程中 主要利用变量间的相似性测度 similarities 和不相似性测度 dissimilarities 度量两者之间的关系 不相似性测度 对定距型变量间距离描述的统计量 主要有 欧氏距离 euclideandistance 平方欧氏距离 squaredeuclideandistan ce 契比雪夫距离 chebychev block距离 block 闵可夫斯基距离 minkowski 等 对定序型变量之间距离的描述 主要有 卡方不相似测度 chi squaremeasure 和phi方不相似测度 phi squaremeasure 对二值变量之间的距离描述 主要有 欧氏距离 euclideandistance 平方欧氏距离 squaredeuclideandistance laneandwilliams不相似性测度 laneandwilliams 等 相似性测度 两变量之间可以定义相似性测度统计量 用来对两变量之间的相似性进行数量化描述 针对定距型变量 主要有 peason相关系数和夹角余弦距离等 对于二值变量的相似性测度主要包括 简单匹配系数 simplematching jaccard相似性指数 jaccard hamann相似性测度 hamann 等20余种 相似性或不相似性测度还可用与其它模块 例如 因子分析 聚类分析以及多维尺度分析的进一步分析 以助于分析复合数据集 第六部分距离分析的spss过程 例 测得30名13岁男童的身高 体重 肺活量的数据 对身高 体重和肺活量进行变量距离分析 进入距离分析界面 变量列表 选择变量 个案 观测量 标识变量 计算距离选项 个案距离 计算个案间的距离 变量距离 计算变量之间的距离 测度选项 相似性测度 similarities 数值越大 表示距离越远 不相似性测度 dissimilarities 数值越大 表示距离越近 similaritiesmeasure选项 在主对话框中选择 similaritiesmeasure 选项 点击 measure 按钮 则打开 distances similaritymeasures 距离分析 相似性测度 对话框 等距数据选项 二值数据选项 转换数值选项 转换测度选项 等距数据选项 pearsoncorrelation 以pearson相关系数为距离 cosine 以变量矢量的余弦值为距离 界于 1至 1之间 二值数据选项 russellandrao 以二分点乘积为配对系数 simplematching 以配对数与总对数的比例为配对系数 jaccard 相似比例 分子与分母中的配对数与非配对数给予相同的权重 dice dice配对系数 分子与分母中的配对数给予加倍的权重 rogersandtanimoto rogersandtanimoto配对系数 分母为配对数 分子为非配对数 非配对数给予加倍的权重 sokalandsneath1 sokalandsneath 型配对系数 分母为配对数 分子为非配对数 配对数给予加倍的权重 sokalandsneath2 sokalandsneath 型配对系数 分子与分母均为非配对数 但分子给予加倍的权重 sokalandsneath3 sokalandsneath 型配对系数 分母为配对数 分子为非配对数 分子与分母的权重相同 kulczynski1 kulczynski 型配对系数 分母为总数与配对数之差 分子为非配对数 分子与分母的权重相同 kulczynski2 kulczynski平均条件概率 sokalandsneath4 sokalandsneath条件概率 hamann hamann概率 lambda goodman kruskai相似测量的 值 anderberg sd 以一个变量状态预测另一个变量状态 yule sy yule综合系数 属于2 2四格表的列联比例函数 yule sq goodman kruskal 值 属于2 2四格表的列联比例函数 ochiai ochiai二分余弦测量 sokalandsneath5 sokalandsneath 型相似测量 phi4pointcorrelation pearson相关系数的平方值 dispersion dispersion相似测量 数值转换选项 transformvalues选项允许用户在进行近似计算之前 对个案或变量进行标准化 但对二值变量不能进行标准化 none 不作数据转换 z scores 作标准z分值转换 range 1to1 作 1至 1之间的标准化转换 range0to1 作0至1之间的标准化转换 maximummagnitudeof1 作最大量值1的标准转换 meanof1 作均数单位转换 standarddeviationof1 作标准差单位转换 转换测度选项 该选项允许对距离测度的结果进行转换 在距离测度计算完成后才进行测度的转换 共有三种转换方式 绝对值 对距离取绝对值 如果仅对相关的数值感兴趣时 可以使用这种转换 改变符号 把相似性测度值转换成不相似性测度值或相反 先减去最小值 然后除以范围差值 使距离标准化 对具有一定含义的标准化的测度一般不再使用此方法进行转换 dissimilaritymeasure选项 在主对话框中选择 dissimilaritymeasure 选项 点击 measure 按钮 则打开 distances dissimilaritymeasures 距离分析 不相似性测度 对话框 等距间隔数据选项 计数数据选项 二值数值选项 转换转换选项 转换测度选项 等距间隔数据选项 euclideandistance 以两变量差值平方和的平方根为距离 squaredeuclideandistance 以两变量差值平方和为距离 chebychev 以两变量绝对差值的最大值为距离 block 以两变量绝对差值之和为距离 minkowski 以两变量绝对差值p次幂之和的p次根为距离 customized 以两变量绝对差值p次幂之和的r次根为距离 计数数据选项 选择counts选项时 即选择计数变量的选项 它包括 chi squaremeasure 2值测距 phi squaremeasure 2值测距 即将 2测距值除合计频数的平方根 二值数据选项 euclideandistance 二分差平方和的平方根 最小为0 最大无限 squaredeuclideandistance 二分差平方和 最小为0 最大无限 sizediff
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中级银行从业资格之中级银行业法律法规与综合能力综合检测题型汇编【考点梳理】附答案详解
- 中医执业医师综合提升测试卷带答案详解(培优B卷)
- 环保公司总经理职权执行制度
- 中级银行从业资格之中级银行业法律法规与综合能力预测复习带答案详解(考试直接用)
- 中级银行从业资格之中级银行业法律法规与综合能力综合提升测试卷标准卷附答案详解
- 自考专业(会计)常考点试卷附完整答案详解【全优】
- 游戏开发游戏体验提升与互动性增强技术手段探讨
- 幼儿园安全防护教育预案
- 重难点解析广东茂名市高州中学7年级数学下册变量之间的关系难点解析试卷(含答案详解版)
- 中级银行从业资格之中级银行业法律法规与综合能力能力提升试题打印附答案详解【基础题】
- 2025版抵押贷款抵押物抵押权登记及变更手续协议模板
- 《死亡医学证明(推断)书》培训试题(附答案)
- 【中考真题】2025年贵州省中考数学真题(含解析)
- 护理核心制度2025年
- 华文版二年级上册-写字-书法
- 慢性根尖周炎病例分析
- 2025年初中学业水平考试生物试卷(附答案)
- 车辆运输安全培训
- 中小学教职工开学安全培训
- 长沙银行笔试题目及答案
- 业绩分红方案(3篇)
评论
0/150
提交评论