第讲SPSS的多元统计分析:因子分析、聚类分析、判别分析PPT课件.ppt_第1页
第讲SPSS的多元统计分析:因子分析、聚类分析、判别分析PPT课件.ppt_第2页
第讲SPSS的多元统计分析:因子分析、聚类分析、判别分析PPT课件.ppt_第3页
第讲SPSS的多元统计分析:因子分析、聚类分析、判别分析PPT课件.ppt_第4页
第讲SPSS的多元统计分析:因子分析、聚类分析、判别分析PPT课件.ppt_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章SPSS的多元统计分析 本章主要内容 因子分析聚类分析判别分析 在工业 农业以及经济 管理等诸多领域中 常常需要同时观测多个指标 例如 衡量一个地区的经济发展 需观测的指标有 总产值 利润 效益 劳动生产率 固定资产 物价 信贷等 因此 受多种指标作用和影响的现象是大量存在的 由于每个指标值是不能预先确定的 那么该如何根据这些观测数据进行有效的分析研究呢 多元统计分析 就是进行多个随机变量观测数据分析的一种有效方法 它通过研究变量之间的相互关系来揭示这些变量内在的变化规律 在当前科技和经济迅速发展的今天 国民经济许多领域只停留在定性分析上往往是不够的 为提高科学性 可靠性 通常需要定性与定量分析相结合 而多元分析正是定量分析的有效手段和方法 1 整体分析与设计的内容 因子分析 一 案例背景 居民消费结构变化 消费结构 是指消费过程中 各项消费支出占居民总支出的比重 它是反映居民生活消费水平 生活质量变化状况以及内在过程合理化程度的重要标志 消费结构的变动不仅是消费领域的重要问题 而且也关系到国民经济的发展 因为合理的消费结构及消费结构的升级和优化不仅反映了消费的层次和质量的提高 而且也为建立合理的产业结构和产品结构提供了重要的依据 首先看一下本节课给出的相关数据 本数据文件是某市民在食品 衣着 医疗保健等几个方面的消费数据 这些指标之间存在着不同强弱的相关性 如果单独分析这些指标 那么就很难全面的分析和了解居民消费结构的特点 因此 我们可以考虑采用 因子分析 的方法 将这几个指标综合为少数几个因子 通过这几个因子来考察居民消费结构的变动情况 2 整体分析与设计的内容 因子分析 二 方法原理 在研究实际问题的时候 往往希望尽可能的收集相关变量 以期对问题有较全面 完整的把握和认识 例如 企业综合评价研究中 可能会收集诸如盈利能力 负债能力 运营能力等方面的经济指标数据 这些数据在带来有关信息的同时 也给数据的分析带来了一定的困难 这众多的变量之间可能存在着或多或少的相关性 实际观测到的数据包含的信息有一部分可能是重复的 为了解决这些问题 最简单和最直接的办法就是减少变量数目 但这又将导致另一个问题 即信息丢失或不完整的问题 因此 研究人员希望能够找到一种有效的方法 既能减少参与数据分析的变量个数 同时又不会造成统计信息的大量浪费和丢失 因子分析 就这样应运而生了 因子分析就是在尽可能不损失信息或少损失信息的情况下 将多个变量减少为少数几个因子的方法 这几个因子可以高度概括大量数据中的信息 这样 既减少了变量个数 又同样能再现变量之间的内在联系 3 整体分析与设计的内容 因子分析 二 方法原理 1 因子分析的数学模型针对变量作因子分析 称为R型因子分析 对样本个案做因子分析 称为Q型因子分析 这两种方法有许多相似之处 其中 R型因子分析的数学模型如下 设原有p个变量 且每个变量 或经标准化处理后的变量 的均值为0 标准差为1 现将每个原有变量用k k p 因子f1 f2 fk的线性组合来表示 即可得此数学模型 其矩阵形式 可实测的随机向量 特殊因子 表示原变量不能被因子解释的部分 均值为0 因子 由于它们出现在每个原有变量的线性表达式中 又被称为公共因子 因子载荷矩阵 其中每个元素aij i 1 2 p j 1 2 k 称为因子载荷 因子分析的基本思想是通过对变量的相关系数矩阵内部结构的分析 从中找出少数几个能控制原始变量的随机变量fi 选取的原则是使其尽可能多的包含原始变量中的信息 并建立起数学模型 之后 忽略特殊因子 用F代替X 并使其能再现原始变量X的信息 从而达到简化变量 降低维数的目的 4 整体分析与设计的内容 因子分析 二 方法原理 2 因子分析的基本操作步骤一个完整的因子分析过程 主要包括如下几个步骤 确认待分析的原变量是否适合作因子分析因子分析的主要任务是将原有变量的信息重叠部分提取 综合成因子 进而最终实现减少变量个数的目的 故它要求原始变量之间应存在较强的相关关系 进行因子分析前 通常可以采取计算相关系数矩阵 巴特利特球度检验和KMO检验等方法来检验候选数据是否适合采用因子分析 构造因子变量将原有变量综合成少数几个因子 是因子分析的核心内容 它的关键是根据样本数据求解因子载荷矩阵 因子载荷矩阵的求解方法有基于主成分模型的主成份分析法 基于因子分析模型的主轴因子法 极大似然法等 5 整体分析与设计的内容 因子分析 二 方法原理 2 因子分析的基本操作步骤利用旋转方法使因子变量更具有可解释性将原有变量综合为少数几个因子后 如果因子的实际含义不清 则不利于后续分析 为解决这个问题 可通过因子旋转的方式使一个变量只在尽可能少的因子上有比较高的载荷 这样使提取出的因子具有更好的解释性 计算因子变量得分实际中 当因子确定以后 便可计算各因子在每个样本上的具体数值 这些数值成为因子得分 于是 在以后的分析中就可以利用因子得分对样本进行分类或评价等研究 进而实现了降维和简化问题的目标 根据上述步骤 可得到因子分析的算法流程 6 整体分析与设计的内容 因子分析 二 方法原理 2 因子分析的基本操作步骤 算法流程 标准化原始数据 求标准数据的相关矩阵 求相关矩阵的特征值和特征向量 方差贡献率与累积方差贡献率 确定因子 因子旋转 求各因子得分 综合得分 消除变量间在数量级和量纲上的不同 设F1 F2 Fp为p个因子 其中前m个因子包含的数据信息总量 即其累计贡献率 不低于85 时 可取前m个因子来反映原评价指标 若所得的m个因子无法确定或其实际意义不是很明显 这时需将因子进行旋转 以获得较为明显的实际含义 用原指标的线性组合来求 通常以各因子的方差贡献率为权 由各因子的线性组合得到综合评价指标函数 7 整体分析与设计的内容 因子分析 三 操作 数据文件 居民消费结构的变化 sav 菜单 分析 降维 因子分析 选择符合条件的样本进行分析 8 整体分析与设计的内容 因子分析 三 操作 1 描述 统计量 输出参与分析的各原始变量的均值 标准差等 初始分析结果 系统默认选项 输出各个分析变量的初始共同度 特征值以及解释方差的百分比等 输出原始分析变量间的相关系数矩阵 前者用于检验变量间的偏相关是否很小 后者用于检验相关系数矩阵是否为单位矩阵 如果是 则表明不合适采用因子模型 相关系数的逆矩阵 因子分析后的相关矩阵以及残差矩阵 反映像相关矩阵包括偏相关系数的负数 反映像协方差矩阵包括偏协方差的负数 一个好的因子模型 对角线上的元素应较大 非对角线元素则较小 9 整体分析与设计的内容 因子分析 三 操作 2 抽取 对话框 提取公因子 该方法假设变量是因子的纯线性组合 第一主成份有最大的方差 后续成分可解释的方差逐个递减 输出未经旋转的因子提取结果 该图显示了按特征值大小排列的因子序号 有助于确定保留多少个因子 典型的碎石图会有一个明显的拐点 在该拐点之前是与大因子连接的陡峭的折线 之后是与小因子相连的缓坡折线 用于输出与提取结果有关的选择项 理论上 因子数目与原始变量数目相等 但因子分析的目的是用少量的因子 替代多个原始变量 因此需要这个选项组来决定抽取多少个因子 提取特征值大于指定数值的因子 系统默认特征值为1 指明要提取的因子数量 适用于各变量方差不等的情况 适用于各变量度量单位不同的情况 10 整体分析与设计的内容 因子分析 三 操作 3 旋转 按钮 因子选择方法 这是一种正交旋转法 使得每个因子具有最高载荷的变量数最小 可以简化对因子的解释 直接斜交旋转法 点击该选项后 需要输入Delta系数 取值范围0 1 该方法中 每个变量中需要解释的因子数最少 斜交旋转方法 该方法允许彼此相关 它比直线斜交旋转更快 适用于大数据集的因子分析 点选该按钮后 需要输入K值 系统默认为4 此值最适合于分析 方法 部分如果选择 无 则不能选该复选框 若有两个公因子 则输出各原始变量在F1和F2坐标系中的散点图 若多于两个公因子 则输出前3个因子的三纬因子载荷散点图 如果只提取了一个公因子 则不输出 11 整体分析与设计的内容 因子分析 三 操作 3 得分 按钮 计算因子得分的方法 将因子得分作为新变量保存在数据文件中 其因子得分的均值为0 方差等于估计因子得分与实际因子得分之间的多元相关的平方 即使公因子正交时此得分也可能是相关的 巴特利法 其因子得分均值为0 是巴特利法的调整 可以保证因子的正交性 其因子得分均值为0 标准差为1 且彼此不相关 4 选项 按钮 选中该复选框后 即可输入0 1之间的数值作为临界值 所有绝对值小于指定值的载荷系数将不再显示 系统默认为0 10 12 整体分析与设计的内容 因子分析 四 输出分析 1 因子分析共同度 表示因子分析初始解下的变量共同度 它表明对原有8个变量 如果采用主成份分析法提取8个特征根 那么原有变量的所有方差都可被解释 变量的共同度均为1 原变量标准化后的方差为1 按提取条件 即特征根大于1 提取特征根时的共同度 可以看到 所有变量的绝大部分信息 全部大于83 可被因子解释 这些变量信息丢失较少 因此 本次因子提出的总体效果理想 13 整体分析与设计的内容 因子分析 四 输出分析 2 因子分析的总方差解释 相关系数矩阵的特征值 方差贡献率 每个变量后的数值表示其对原有8个变量总方差的解释程度 例如 第一个变量 即可解释53 947 总方差 累积贡献率 前3个变量的累计贡献率已经达到了94 196 而且 也只有这三个变量的特征根取值大于1 说明前3个因子基本包含了全部变量的主要信息 选前3个因子为主因子即可 因子提取后 方差解释情况 旋转后的因子方差解释情况 14 整体分析与设计的内容 因子分析 四 输出分析 3 因子碎石图 横坐标为因子序号 纵坐标为特征根 从图中可知 第一个因子特征值最高 对解释原有变量贡献最大 第三个以后的因子特征根都较小 取值都小于1 说明它们对解释原有变量的贡献很小 称为可以忽略的 高山脚下的碎石 因此 提取前三个因子是合适的 15 整体分析与设计的内容 因子分析 四 输出分析 4 旋转前的因子载荷矩阵 这是因子分析的核心内容 通过载荷系数大小可以分析不同公共因子所反映的主要指标的区别 从结果看 大部分因子解释性较好 采用因子旋转方法 能够使得因子载荷系数向0或1两极分化 使得大的载荷更大 小的载荷更小 从而得到更具可解释性的结果 16 整体分析与设计的内容 因子分析 四 输出分析 5 旋转后的因子载荷矩阵 待续 从表中可知 第一主因子在 交通和通信 医疗保健 等5个指标上具有较大的载荷系数 第二主因子在 居住 和 衣着 指标上系数较大 第三主因子在 杂项商品与服务 上的系数最大 此时 各个因子的含义更加突出 第一主因子 是享受性消费因子 从系数的正负值可知 有的消费在递增 有的则递减 第二主因子 是发展性消费因子 也包含了递增和递减的消费项目 第三主因子 是其他类型的消费因子 17 整体分析与设计的内容 因子分析 四 输出分析 6 因子得分系数 根据得分系数表 可以给出因子的函数 18 整体分析与设计的内容 因子分析 四 输出分析 7 绘制因子变动图 根据数据分析时保存到数据集的新变量来绘制 第一因子除过开始阶段下降外 其余阶段都是上升的 2000年左右 国企改革 中国经济软着陆 下岗职工增多等原因 享受型消费支出是减少的 近几年随着经济的发展和收入增加 则又呈现回升趋势 第二因子的波动和住房比重的升降相关 第三因子波动频繁 说明杂项消费上的发展空间挺大 19 整体分析与设计的内容 因子分析 四 输出分析 8 综合得分的分析 如果想计算各年的综合情况 可以对公因子做加权求和 权数一般取其方差贡献率或方差贡献值 20 整体分析与设计的内容 聚类分析 一 方法原理 聚类分析 又称为群分析 它是研究 样品或指标 分类问题的一种多元统计方法 所谓类 通俗地说 就是指相似元素的集合 聚类分析起源于分类学 随着生产技术和科学的发展 人类的认识不断加深 分类越来越细 要求也越来越高 有时光凭经验和专业知识是不能进行确切分类的 往往需要定性分析与定量分析结合起来去分类 于是数学工具逐渐被引进分类学中 形成了数值分类学 后来 随着多元分析的引进 聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支 社会经济领域中存在着大量分类问题 比如对我国30个省市自治区独立核算工业企业经济效益进行分析 一般不是逐个省市自治区去分析 而是选取能反映企业经济效益的代表性指标 如 百元固定资产实现利税 资金利税率 产值利税率 百元销售收入实现利润 全员劳动生产率 等 根据这些指标 对30个省市自治区进行分类 然后根据分类结果对企业经济效益进行综合评价 就易于得出科学的分析 若对某些大城市的物价指数进行考察 由于物价指数很多 有农用生产物价指数 服务项目物价指数 食品消费物价指数 建材零售价格指数等 通常需要先对这些指数分类 21 整体分析与设计的内容 聚类分析 一 方法原理 1 聚类分析的分类根据分类对象的不同可分为样品聚类和变量聚类 样品聚类在统计学中又称为Q型聚类 用SPSS的术语来说就是对个案 Case 进行聚类或是说对观测量进行聚类 它是根据被观测对象的各种特征进行分类的 即根据反映被观测对象的特征的各变量值进行分类 变量聚类在统计学中又称为R型聚类 反映同一事物特点的变量有很多 我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究 由于人类对客观事物的认识是有限的 往往难以找出彼此独立的有代表性的变量 从而影响对问题的进一步认识和研究 例如 在回归分析中 由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等 因此往往先要进行变量聚类 找出彼此独立且具有代表性的自变量 而又不丢失大部分信息 聚类分析和其他方法联合起来使用 如判别分析 主成份分析 回归分析等 往往效果更好 22 整体分析与设计的内容 聚类分析 一 方法原理 2 距离和相似系数为了将样品 或指标 进行分类 就需要研究样品之间的关系 目前使用最多的方法有两种 1 相似系数 性质越接近的样品 它们的相似系数的绝对值越接近1 而彼此无关的样品 它们的相似系数的绝对值越接近0 把比较相似的样品归为一类 不相似的样品归为不同的类 2 距离 把样品看作P纬空间的一个点 并在空间中定义距离 距离越近的点归为一类 距离较远的点归为不同的类 相似系数和距离有各种各样的定义 这些定义与变量的类型关系极大 有时候选择不同的距离和相似系数可能会得到不同的聚类分析结果 因此要结合问题的实际意义 进行详细的分析 不可盲目轻信结果 23 整体分析与设计的内容 聚类分析 一 方法原理 3 距离分类如果把n个样品看成p纬空间中的n个点 则两个样品间相似程度可以用p纬空间中两点的距离来度量 常用的距离如下 明氏 Minkowski 距离 当各变量的测量值相差悬殊时 用明氏距离并不合理 常需要先对数据做标准化 然后用标准化后的数据计算距离 24 整体分析与设计的内容 聚类分析 一 方法原理 3 距离分类马氏 Mahalanobis 距离马氏距离既排除了各指标之间的相关性干扰 而且还不受各指标量纲的影响 兰氏 Canberra 距离兰氏距离适用于xij 0的情况 这个距离有助于克服各指标之间量纲的影响 但没有考虑指标间的相关性 4 相似系数夹角余弦将任何两个样品Xi与Xj看成p纬空间的两个向量 这两个向量的夹角余弦可表达为 取值1 说明两样品完全相似 接近1 说明两样品相似密切 取值0 说明两样品完全不相似 接近0 说明两样品差别大 25 整体分析与设计的内容 聚类分析 一 方法原理 4 相似系数相关系数 聚类分析的内容非常丰富 有序样品聚类法 动态聚类法 模糊聚类法 快速聚类法 系统聚类法等 26 整体分析与设计的内容 聚类分析 二 快速聚类法 1 算法原理K 均值聚类法又叫快速聚类法 可用于大量数据进行聚类分析的情形 它是一种非分层的聚类方法 具有占用内存少 计算量大 处理速度快 特别适合大样本的聚类分析 其具体操作步骤为 指定聚类数目k 由用户指定 确定k个初始类的中心 用户指定 或根据数据本身结构的中心来确定 根据距离最近原则进行分类 逐一计算每一记录到各个中心点的距离 把各个记录按照距离最近的原则归入各个类别 并计算新形成类别的中心点 按照新的中心位置 重新计算每一个记录距离新的类别中心点的距离 并重新进行归类重复步骤 4 直到达到一定的收敛标准 27 整体分析与设计的内容 聚类分析 二 快速聚类法 2 案例背景介绍全国人口文化程度分析深入了解全国人口的文化程度状况 是很有意义的一项工作 本节的数据文件给出了1990年全国人口普查数据 数据中 有三个指标 大学以上文化程度的人口比例 初中文化程度的人口比例 文盲半文盲的人口比例 过这些指标和具体的数据 来分析省市地区之间文化程度的差异 这是一个典型的多元分析问题 可以考虑利用快速聚类法来分析研究省市之间的差异性 28 整体分析与设计的内容 聚类分析 二 快速聚类法 3 操作说明数据文件 全国人口文化程度 sav 菜单 分析 分类 K 均值聚类 输入分类个数 系统默认为2 本例子中 输入4 系统默认项 选择初始类中心 在迭代的过程中不断更新聚类中心 把观测量分派到与之最近的以类中心为标志的类中去 只使用初始类中心对观测量进行分类 聚类中心始终不变 用户可以指定外部文件或数据作为初始聚类中心点 也可以将聚类分析中心结果输出到指定文件或数据集中 小技巧 对于大数据集 可以先用小样本 迭代聚类 并通过该选项组将中心结果保存到文件或记录集 再通过读取的方式 获得该中心 选择 仅分类 来处理大样本数据 29 整体分析与设计的内容 聚类分析 二 快速聚类法 3 操作说明1 迭代 按钮 输入迭代次数 文本框可输入范围 1 999 输入算法收敛标准 其实就是算法的精度 该文本框输入数值是不得超过1的正数 例如 输入0 02 则表示两次迭代计算的最小的类中心的变化距离小于初始类中心距离的2 时 迭代停止 选择该复选框 在每个观测量被分配到一类后 立刻计算新的类中心 若不选该复选框 则完成所有的观测量的一次分配后 再计算各类的中心 此时可节省迭代时间 2 保存 按钮 在数据集中生成名为qcl 1的新变量 其值表示聚类结果 即各观测量被分配到哪一类 其取值可为1 2 3等 在数据集中生成名为qcl 2的新变量 其值表示各观测量与所属类中心的欧氏距离 30 整体分析与设计的内容 聚类分析 二 快速聚类法 3 操作说明3 选项 按钮 31 2020 2 9 32 整体分析与设计的内容 聚类分析 二 快速聚类法 4 输出分析1 初始中心表 2 迭代历史表 初始中心间的最小距离为13 128 33 整体分析与设计的内容 聚类分析 二 快速聚类法 4 输出分析3 分析结果列表 列出了4类地区 34 整体分析与设计的内容 聚类分析 二 快速聚类法 4 输出分析4 最终聚类分析中心表 5 最终聚类中心位置之间的距离 与初始中心比 变化很大 第一类和第二类之间的距离最大 第一类和第三类之间的距离最短 35 整体分析与设计的内容 聚类分析 二 快速聚类法 4 输出分析6 方差分析表 组间均方 组间自由度 组内均方 组内自由度 7 聚类数目汇总表 36 整体分析与设计的内容 聚类分析 三 系统聚类法 1 算法原理又称为层次聚类法或分层聚类法 1 对研究对象本身进行分类 称为Q型聚类 对研究对象的观察指标进行分类 称为R聚类 2 根据聚类过程的不同 又分为分解法和凝聚法 分解法 开始把所有个体 观测量或变量 都视为同属一大类 再根据距离和相似性逐层分解 直到参与聚类的每个个体自成一类为止 凝聚法 开始把参与聚类的每个个体 观测量或变量 视为一类 根据两类之间的距离或相似性逐步合并 直到合并为一个大类为止 系统聚类的距离公式有多种 常用的是 组间平均距离法 37 整体分析与设计的内容 聚类分析 三 系统聚类法 2 案例背景要求 不同地区信息基础设施发展状况的评价 数据文件中给出了世界不同地区信息基础设施的发展状况 这里选取了发达地区 新兴工业化地区 拉美地区 亚洲发展中地区 转型地区等不同类型的20个地区的数据 描述信息基础设施的变量主要有6个 分别为 Call 每千人拥有电话线数Movecall 每千房居民移动电话数Fee 高峰时期每三分钟国际电话的成本Computer 每千人拥有的计算机数Mips 每千人中计算机功率 每秒百万指令 Net 每千人互联网络户主数根据这6个变量指标来分析地区之间的信息基础设施发展的差异 可采用系统聚类法 38 整体分析与设计的内容 聚类分析 三 系统聚类法 3 操作数据文件 不同地区信息基础设施发展状况的评价 sav 菜单 分析 分类 系统聚类 即Q型聚类 即R型聚类 39 整体分析与设计的内容 聚类分析 三 系统聚类法 3 操作1 统计量 按钮 输出显示聚类过程中每一步合并的类或观测量 反映聚类过程中每一步样品或类的合并过程 输出相似矩阵或不相似矩阵 及其更具体的类别 取决于 方法 按钮对应的对话框中的设置 输入大于1的整数 例如 输入 2 在结果窗口将显示输出聚为2类的分析结果 输入大于1的整数 表述输出样本或变量的分类数从最小值到最大值的各种分类聚类表 最大类数值不能大于参与聚类的样本数或变量总数 40 整体分析与设计的内容 聚类分析 三 系统聚类法 3 操作2 绘制 按钮 输入文本框的必须是正整数 分别是起 止步骤以及步长 例如 输入3 9 2 则生成的冰柱图则从第3步开始 显示第3 5 7 9步的聚类情况 注意 排序标准 标签文字翻译的不对 应该是 步长 才准确 冰柱图的显示方向 41 整体分析与设计的内容 聚类分析 三 系统聚类法 3 操作3 方法 按钮 该方法合并两类的依据是使这两个类别里所有两两配对观测量的平均距离最小 该方法合并两类的依据是使两个类别合并后的新类中 观测量的平均距离最小 离差平方和 聚类使得类内各样本的离差平方和最小 类间的离差平方和尽可能大 适合于等间隔测度的连续性变量 下拉列表中可选择距离测度方法 适合于字数变量 离散变量 下拉列表中可选择不相似性测度的方法 选择标准化方法 把相似性值变为不相似性或相反 42 整体分析与设计的内容 聚类分析 三 系统聚类法 3 操作4 保存 按钮 保存指定聚类个数时的分类结果 文本框的值必须是大于1的正数 且小于等于参与聚类的观测量个数和变量个数 文本框中输入最小聚类数目和最大聚类数目 表示分别生成样本或变量的分类数从最小值到最大值的各种分类聚类变量 例如 输入 4 和 6 表示在聚类结束后 在原数据集中将会增加3个变量 分别表明分为4类 5类和6类时的聚类结果 即分别为4 5 6类时各分析对象分别属于哪一类 43 整体分析与设计的内容 聚类分析 三 系统聚类法 4 输出分析1 聚类过程表 步骤序号 第二列和第三列 给出了某一步骤中哪些地区参与了合并 例如 第一步中 第十个样品和第十二个样品 首先被合并在一起 每一步的聚类系数 可根据这个系数来判断数据应该被分为多少类 当两个相邻步骤的系数变化远大于前面相邻步骤变化时 即可大致确定应该将聚类过程进行到哪里的类别数是较为合适的 主要是参考作用 第五列和第六列 表示参与合并的类是在第几步第一次出现 0代表该记录是第一次出现在聚类过程中 标识出 该步骤合并的类别 下一次将在第几步中出现 与其他类再进行合并 44 整体分析与设计的内容 聚类分析 三 系统聚类法 4 输出分析 2 聚类分析结果表 3 树形图 聚类结果分两类 其中 第一类是转型地区和亚洲 拉美发展中地区 这些区域经济不发达 基础设施薄弱 第二类主要是美 日 欧洲发达地区与新兴工业化地区 如中国台湾 新加坡 韩国等 信息基础设施较好 其中 美国 瑞典 丹麦的信息基础设施发展最为良好 45 整体分析与设计的内容 判别分析 一 方法原理 判别分析是判别样品所属类型的一种统计方法 其应用也非常广泛 在生产 科研和日常生活中 经常需要根据观测到的数据资料 对所研究的对象进行分类 例如 在经济学中 根据人均国民收入 人均工农业产值 人均消费水平等多种指标来判定一个国家的经济发展程度所属类型 在市场预测中 根据以往调查所得的种种指标 判别下季度产品是否畅销 平常或滞销 总之 在实际问题中需要判别的问题几乎到处可见 判别分析和聚类分析不同 判别分析是在已知研究对象分成若干类型 或组别 并已取得各种类型的一批已知样品的观测数据 在此基础上根据某些准则建立判别式 然后来对未知类型的样品进行判别分类 聚类分析 一批给定样品要划分的类型事先并不知道 需要通过聚类分析以确定类型 判别分析和聚类分析常联合使用 先聚类分析 再用判别分析建立判别式 46 整体分析与设计的内容 判别分析 一 方法原理 判别分析的分类 1 按组数 两组判别分析和多组判别分析2 按总体所用的数学模型不同 线性判别和非线性判别3 按处理变量的方法不同 逐步判别和序贯判别判别方法介绍距离判别分析 是一种常见的判别分析法 其基本思想是 首先根据已知分类的数据计算各类的中心 即类的均值 若样品与第i类的中心距离最近 就认为该样品来自第i类 例如 两个总体的距离判别法中 设有两个总体G1 G2 从第一个总体中抽取n1个样品 从第二个总体抽取n2个样品 每个样品测量p个指标 现任取一个样品 来判断X该归哪一类 X到G1的距离 X到G2的距离 47 整体分析与设计的内容 判别分析 二 操作 数据文件 省市地区经济增长差异 sav 菜单 分析 分类 判别 选择离散型变量作为分类变量 然后在 定义范围 中输入分类变量的数值范围 当所有自变量都能对观测量特性提供丰富的信息时 选择该选项 采用逐步判别法作判别分析 点选该按钮 界面右侧的 方法 按钮将被激活 可以进一步选择判别分析方法 48 整体分析与设计的内容 判别分析 二 操作 1 统计量 按钮 对各类协方差矩阵相等的假设进行检验 对每一类给出一组系数 并给出该组中判别分数最大的观测量 49 整体分析与设计的内容 判别分析 二 操作 2 方法 按钮 每步都选择Wilk的lambda统计量最小的变量加入判别函数 选择未解释方差和最小变量加入判别函数 每步都选择靠的最近的两类间的马氏距离的变量加入判别函数中 每步都选择任何两类间的 最小F值 达到最大的变量加入判别函数中 每步都选择使V统计量产生最大增量的变量加入判别函数 在文本框中输入数值 当某变量导致的V值增量大于该数时 此变量就进入判别函数 用于设置逐步判别过程中保留或删除变量的准则 当变量的F值大于文本框中的数值时 保留该变量 当变量的F值小于文本框中的数值时 删除该变量 与F值类似 只是换成了F检验概率 显示每步选择变量之后各变量的统计量结果 显示两类之间的F比值矩阵 50 整体分析与设计的内容 判别分析 二 操作 3 分类 按钮 各类先验概率相等 若分m类 则概率均为1 m 根据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论