




已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
5 8聚类分析 一 聚类分析的经济背景二 聚类分析的数学解释三 聚类分析在经管中的应用 1 一 聚类分析的经济背景 一 单指标分类 单指标排序 二 多指标分类 各地区居民生活水平指标 经济生活质量指数教育生活质量指数健康生活质量指数居住生活质量指数按已知数据对30个省进行分类研究 2 三 聚类分析的功能 建立一种分类方法 将一批样品或变量按照它们在性质上的亲疏程度进行分类 四 描述亲疏程度的途径 1 对样品进行分类 把每个样品看成是m维 变量的个数 空间的一个点 在m维坐标系中 定义点与点之间的某种距离 距离越近 其亲密程度越好 2 对变量进行分类 定义某种相似系数 性质越接近的变量 他们之间的相似系数越接近于1 1 彼此无关的变量 它们之间的相似系数越接近于0 3 二 聚类分析的数学解释 一 聚类分析当确定了样品或变量间的距离或相似系数后 就要对样品或变量进行分类 1 层次聚类 首先是在样品距离的基础上定义类与类之间的距离 即首先将n个样品自成一类 然后每次将具有最小距离的两类合并 合并后重新计算类与类之间的距离这个过程直到所有的样品归为一类为止 将这一过程作成图 称为聚类谱系图 HierarchicalDiagram 2 迭代聚类 快速聚类 将n个样品初步分类 然后根据分类函数尽可能小的原则 对已分类别进行调整 直到分类合理为止 这一过程称为调优法 4 二 层次聚类分析 层次聚类分析 系统聚类 HierarchicalCluster 是聚类分析中应用最广泛的一种 凡是具有数值特征的变量和样本都可以采用层次聚类分析 选择不同的距离和聚类方法可以获得满意的数值分类效果 1 层次聚类分析的步骤 1 聚类前首先对数据进行变换处理 选择相关性小且贡献大的指标 转化成无量纲的数据 2 聚类分析时先分成n类 计算样品之间的距离 并将距离最近的两个样品并成一类 3 选择并计算类与类之间的距离 并将距离最近的两类合并 如果类的个数大于1 则继续 直到所有的样品并为一类为止 4 最后绘制层次聚类谱系图 树状图 5 2 数据变换处理 标准化处理 1 极差正规化 极差从0到1 从变量的数据中找出最大和最小值 其差称为极差 每一个原始数据减去变量的最小值 再除以极差 则得到极差正规化数据 最大数为1 最小数为0 2 标准化变换 标准差为1 把数值标准化到标准差为1 均值为0 方差为1 6 3 距离 1 dij 0 2 dii 0 3 dij dji 4 dij dik dkj 7 欧氏距离 欧氏平方距离 切贝谢夫距离 布洛克距离 明可斯基距离 用户自定义 8 4 相似系数在对变量进行分类时 通常采用相似系数来表示变量之间的亲疏程度 相似系数定义如下 9 10 11 5 聚类方法 常用的聚类方法有如下7种 1 最短距离法 最近邻元素 NearestNeighbor 两类的距离定义为一类的所有个体与另一类的所有个体之间的距离最小者 2 最长距离法 最远邻元素 FurtherNeighbor 两类的距离定义为一类的所有个体与另一类的所有个体之间的距离最大者 3 中间距离法 中位数聚类 Medianclustering 两类的距离定义采用界于最短距离和最长距离之间的中间距离 取三角形的中线 12 4 重心法 质心聚类 Centroidclustering 将两类的距离定义为两类重心之间的距离 5 类平均法 组内的联接 withingrouplinkage 将两类的距离定义为两类元素两两之间的平均平方距离 6 可变类平均法 组之间的联接 Betweengrouplinkage 将类平均法和中间距离法进行组合 得到一个组合的距离 7 离差平方和法 Ward的方法 Ward smethod 利用方差分析的思想 如果类分得合理 则同类样品之间的离差平方和应当较小 类与类之间的离差平方和应当较大 13 三 迭代聚类法 K 平均值聚类 层次聚类法在聚类过程中需要存储距离矩阵 并且在每一步的并类过程中都需要做很多计算 这样 当样本量很大时会需要较大的计算机内存空间和较长的计算时间 迭代聚类法克服了层次聚类法的这两个缺点 具有占计算机内存小 速度快的优点 适用于大样本的聚类分析 迭代聚类法的聚类过程分为以下四步 1 指定要形成的聚类数 对样本进行初始分类并计算每一类的重心 初始分类中心 2 调整分类 计算每个样本点到各类重心的距离 把每个样本点归入距重心最近的那一类 3 重新计算每一类的重心 4 重复步骤 2 一 3 直到没有样本点可以再调整为止 14 迭代聚类法的关键是选择初始分类 不同的初始分类用于同一数据往往也会得出不同的结果 进行初始分类的方法分两种情况 一是已知初始聚类中心 二是未知初始聚类中心 1 在已知初始聚类中心的情况下 按照距离最近的原则 把离初始聚类中心最近的样本点归入一类 形成初始分类 然后计算每一类的重心 初始聚类中心通常是根据经验人为地进行选择 例如 根据以往的研究经验 选择每一类中有代表性的样本点作为初始聚类中心 将样本先用其他方法分类 将每一类的重心作为初始聚类中心 可以使用数据文件中的前k个无缺失值的样本点作为初始聚类中心 2 在未知初始聚类中心的情况下 指定某种聚类方法对样本点进行初始分类 一般的统计软件都有从原始数据中估计初始聚类中心 进行初始分类的功能 15 三 聚类分析在经管研究中的应用 例1 商厦分类 16 一 层次聚类分析1 打开SPSS软件2 输入数据 商厦评分 sav 3 在SPSS中选定 分析 分类 系统聚类4 选定平方欧氏距离5 输出 组之间的联接 法聚类谱系图6 对聚类谱系图进行分析 17 18 19 20 Statistics 21 22 23 24 25 聚类谱系图 26 冰柱图 27 28 2020 2 4 29 30 三 聚类分析在经管研究中的应用 例2各地区居民生活水平指标 经济生活质量指数教育生活质量指数健康生活质量指数居住生活质量指数按已知数据对30个省进行分类研究 31 32 最短距离法 33 最长距离法 34 重心法 35 组间连接法 36 离差平方和法 37 38 39 40 41 42 43 二 迭代聚类分析1 打开SPSS软件2 输入数据 e5 8 1 3 在SPSS中选定 分析 分类 k平均值聚类 44 45 46 47 48 49 50 51 52 53 例如 商厦分类 利用K平均值聚类分析方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 心理健康科技应用开发计划
- 电商平台2025年度财务战略计划
- 言语治疗练习试题及答案
- 电子商务平台数据保护措施
- 私立医院院感防控工作计划
- 西湖区2024年中考三模科学试题
- 2024-2025学年小学一年级体育教学评比计划
- 普通话学习效果评估计划
- 工业生产过程中的材料节约措施
- 心理健康文化建设计划
- 第一次电力工程例会发言稿
- 上海市安装工程预算定额(2000)工程量计算规则
- 安徽省江南十校2023-2024学年高一下学期5月阶段联考化学试题2
- 东方电影学习通超星期末考试答案章节答案2024年
- (完整)注册安全工程师考试题库(含答案)
- 2024年贵州省贵阳市中考生物地理合卷试题(含答案逐题解析)
- 概率论在实际生活中的应用
- 山西省电子政务外网初步设计方案
- 办公楼室内装饰工程施工设计方案技术标范本
- 执业医师法培训课件
- 新时代新型职业农民素养课件讲解
评论
0/150
提交评论