两步聚类中文版详解

上传人：b*** IP属地：贵州上传时间：2020-03-30 格式：DOC 页数：11 大小：791.50KB 积分：20 举报 版权申诉

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目录目录第一节摘要 2 第二节介绍 2 第三节统计方法 2 第四节两步聚类方法的分析 3 第五节案例研究 7 第六节输入 7 第七节输出 8 第八节讨论 10 第九节结论 11 第一节第一节摘要摘要本文利用 SPSS 两步聚类的方法将现有的数据分为三个集群以分析银行客户的信息对于我们的案例研究这个方法是完美的因为与其他经典聚类方法相比两步聚类方法采用混合数据包括连续和分类变量它也发现了最优数量的集群两步聚类方法创建三个客户的配置文件最大的一组包括最有资历与银行合作时间悠久的客户其信用卡申请的目的是教育或者公司业务第二组主要包括拥有房产的客户但主要是失业他们信用卡申请的目的在于再培训或者添置家庭用品第三组主要是包括那些拥有未知属性的人他们申请额度的目的在于购买汽车添置电视或者教育本文所涉及的研究目的主要在于便于本行更好的管理以加强公司的利润空间第二节第二节介绍介绍在不同的领域中不同的应用程都序可以使用聚类算法然而大多数的这些算法只处理数值数据和分类数据然而现实世界的数据可能包含数值和分类属性两步聚类的方法是 SPSS 中解决这个问题的一个途径之一在本文中我们打算从一个银行提供的公共数据集中使用两部聚类的方法来确定银行客户的资料该方法的优势在于可以确定适当数量的集群所以我们的目标是找到这个概要文件的数量有效地管理现有的和可能存在的客户在下面几节中我们介绍两步聚类的方法和案例研究中的输入输出和结果的分析第三节第三节统计方法统计方法数据分组或数据集群是一种方法可以形成具有类似特征的类的对象集群通常是与分类混淆但有一个主要的区别即分类时对象被分配到预定义的类而在集群的情况下必须定义这些类我们预计数据时使用集群技术自然得分组到不同的类别集群类别的物品有很多共同的特点例如客户事件等等如果问题是复杂的在聚类数据前其他数据挖掘技术也可以应用如神经网络和决策树经典的聚类方法使用分层或分区算法分层算法在集群的基础之上建立集群而分区算法在同一时间确定所有的集群建立不同的分区然后评估他们某些标准在 SPSS 中聚类分析可以使用两步聚类分层集群或 k means 聚类每个方法都依赖不同的算法来创建集群最后两个经典的分类方法是基于分层分区的算法而二步聚类方法在 SPSS 中是特别设计和实现的方法对于应用程序而言考虑到不同的数据类型这种情况分层集群方法是有限的小数据集 k means 仅限于连续值而两步聚类方法基于连续和分类变量的情况下可以创建集群模型接下来我们将探讨两步聚类方法突出其优势之处第四节第四节两步聚类方法的分析两步聚类方法的分析两步聚类方法是设计用来分析大型数据集的算法这个算法会用标准方法将不同的观察结果分组到不同的集群之中这个过程会使用一个凝聚的层次聚类方法与经典的聚类分析方法相比两步聚类分析方法使用连续的分类属性此外该方法可以自动确定最优数量的集群两步聚类分析方法的实现主要包括下面几个步骤 o 预聚类 o 解决处理非典型值异常值噪声处理可选 o 聚类在预聚类步骤中它会扫描数据记录基于标准的距离决定当前记录是否可以添加到一个以前形成的集群或开始一个新的集群测距的方法使用了两个类型欧式距离和对数似然距离预聚类过程的实现通过构建一个数据结构称为 CF 集群特性树其中包含集群中心 CF 树有水平的节点每个节点有一个条目的数量叶子节点是最后的子类对于每一个记录从根节点开始找到最近的子节点递归沿着 CF 树下行一旦到达一个叶子节点该算法找到最近的叶子节点中的叶条目如果记录的数量在一个阈值距离之内就会记录添加到叶子节点并且 CF 树更新否则它会创建一个新的叶子节点的值在构建 CF 树的过程中该算法实现了一个可选的步骤可以解决非典型值异常值离群值被认为并不能很好的适合任何集群的一个记录在 SPSS 在一片叶子中如果记录的数量小于一定比例的规模最大的 CF 树中的叶子条目就会被认为是离群值默认情况下这个比例是 25 在重建 CF 树之前会搜索潜在的典型值将他们放在一边 CF 树重建后程序检查这些值是否恰当是否可以不增加树的大小最后值不恰当会被认为是离群值如果 CF 树超过允许的最大尺寸它会基于现有的 CF 树通过增加阈值距离重建 CF 树新的 CF 树会小很多也允许输入新的记录预聚类作为输入的一个步骤会产生有子类的聚类没有噪声如果你选择了处理非典型值这个选项并且组成有价值的聚类的数量因为子类的数量远小于初始时的记录数量因此经典的聚类方法可以成功地使用两步聚类方法使用一个凝结的自动分层方法决定了集群的数量层次聚类方法是指集群不断融合的过程直到一个集群组包括所有的记录这个过程始于为每个子集定义一个初始集群然后所有集群进行比较并且集群之间的距离是最小的两个集群会合并成一个集群这个过程会一直重复直到所有集群已经合并因此它是相当简单的比较不同数量的集群解决方案计算集群之间的距离可以使用欧式距离和对数似然距离欧式距离只有所有变量是连续的情况下可以使用欧式距离是在 m 维空间中两个点的真实距离对于集群来说两个集群之间中心之间的距离被定义为欧式距离集群中心被定义为集群中变量的容器可以使用对数似然距离来分析连续和分类变量两个集群之间的距离与似然函数的自然对数的减少是相关的因此他们会被分组到一个集群计算对数似然距离假定连续变量正态分布和分类变量的多项式分布以及变量是相互独立的定义 i 和 j 两个集群之间的距离为其中在公式 2 中是 i 和 j 两个集群之间的距离索引代表通过集群 i 和 j 的结合后生成的新的集群是所有连续变量的总数是所有分组变量的总数是第 k 个分类变量的数量是 S 集群中所有数据记录的数量是 S 集群的数量分类变量 k 分成了 l 个分组是分组变量 k 分成 l 个分组的记录的数量对整个数据集来说是对连续变量 k 的方差离散的估计在集群 j 中对于连续变量 k 的方差估计为了自动确定集群的数量该方法使用两个阶段在第一个阶段指示器 BIC 施瓦兹贝叶斯准则或 AIC Akaike 准则计算为每个集群从一个指定范围中计算数量然后这个指示器用于寻找一个初始估计集群的数量对于 J 集群两个指示器通过公式 4 和 5 计算得出过程如下其中变量的相对贡献形成了集群计算的两种类型的变量连续和分类连续变量的重要性的衡量标准是基于在这个公式中是连续变量估计值的意思并且是集群 j 中连续变量 k 的估计值在 H0 零假设重要性衡量中学生分布呈 Nk 1 的自由度分布显著性水平是双侧的对于分组变量重要性衡量是建立在 X2的基础上的在零假设中作为一个 X2和 LK的自由度对于项目的集群成员记录被分配用于解决非典型值的规范噪声和选择测量的距离如果解决非典型值的选择不使用根据距离测量的方法值会分配给最近的集群中否则该值是区别对待的如下 1 在欧几里得的方法的情况下一个项目被分配到最近的集群如果它们之间的距离小于临界值否则该项目被声明为噪声异常 2 如果选择对数似然方法它假定噪声均匀分布并且计算对数似然对应于一个有噪声项目且分配到最近的无噪声集群然后项目分配给集群获得对数的最高价值这相当于将一个项目分配给最近的集群如果它们之间的距离小于临界值否则项目被指定为噪音总之该方法的一个重要优点是它与混合数据操作包括连续和分类数据另一个优势是尽管两步聚类方法处理大型数据集就所需处理这些数据的时间而言这种方法比其他方法需要更短的时间缺点是两步聚类方法不允许丢失值且缺失值的项目不考虑分析第五节第五节案例研究案例研究自从两步聚类方法开始成为大型数据集和处理混合数据的首选后我们应用此方法并使用一些从银行获取的的公共数据聚类数据另一方面这些数据被用在另一个应用程序来减少维度应用 PCA 主成分分析并在下文给出了该方法的输入和输出第六节第六节输入输入供给我们研究的数据集是从一家银行提供的公共数据库中的信息数据真实可靠在 SPSS 中大致有 14000 条记录这个表包含信用卡还款的的持续时间信息信用历史信用卡申请用途信贷金额储蓄账户工龄还款周期个人状态居住权财产年龄住房银行信用额度工作家属和信用批准状态等等表 1 中给出这个数据的一部分数据库包含 3 个分类变量和 4 个连续变量默认情况下连续变量被标准化因为我们使用混合数据我们在距离度量上只有对数似然的选择在第一次运行我们选择 BIC 确定聚类的数量虽然我们可以重写此步骤并指定一个固定的数字但是结果使用 AIC 运行是和 BIC 运行结果是一致的所以目前我们使用 BIC 指标关于对于我们数据集的噪声处理方面我们决定不检查噪声异常值定义为在 CF 树的情况下其他的叶子不超过规定的最大叶大小的百分比通过 SPSS 软件的一个重要选择是 XML 格式的 CF 树或整个模型的导出这允许模型进行更新以增加额外的数据集第第 7 节节输出输出 1 点击分析分类两步聚类命令弹出二阶聚类分析对话框如下所示 2 将个人税前年收入申请人申请信用额度和工龄拖入分类变量中并且将如下变量拖入连续变量中账户信用额度教育程度申请日年龄卡片最高卡种等级 3 在距离变量对话框中选择对数相似值 4 在聚类数量中选择指定固定值 5 在聚类准备中选择施瓦兹贝叶斯准则 6 本案例不选择噪声处理 7 点击确定出现如下多个图表在 SPSS 中自动聚类统计表可以用来评估我们的分析中最佳聚类的数量如表 2 所示表 2 在表 2 中虽然最低的 BIC 系数是四簇根据统计算法最佳聚类数是三因为距离最大的比率是三簇集群分布如表 3 所示表 3 图 1 所示的群集饼图显示了我们三个集群解决方案的相对大小图 1 对于分类变量集群内的百分比图显示了每个变量在每个集群内是如何分裂在图 2 中它显示了三个簇中每个变量的占比图 2 第八节第八节讨论讨论经过两步聚类的方法我们得出以下结论第一集群其中占比 19 4 其中包含的主要是单一的男性客户占据管理职位 34 5 或失业 27 3 他们有未知的属性并且他们的信用卡申请通过率是一个小百分比 11 9 集群 2 占比 24 9 包含女性或已婚男性客户 54 6 主要是失业 54 5 或非技术 47 5 而他们申请信用卡的目的是购置设备再培训因为失业所以再培训以寻找新的工作和购买家具最重要的集群是第三集群这是最大的集群 55 7 其中大部分是单身男性或离婚的男性客户拥有最大的储蓄账户占管理职位 54 7 或技术工人 50 6 有良好的信用的历史信用卡申请的目的是为业务汽车新的或二手的或教育他们有自己的住房 65 1 故他们的信用卡申请的通过率是在一个大的百分比 55 9 第九节第九节结论结论聚类方法可以使用大量的数据来应用于各种领域只是为了寻找隐藏的模式由于大多数来自现实世界的数据如在银行领域本文所涉及的分析案例包含的数值和分类属性经典的聚类算法不能在大量数据的情况下有效

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

两步聚类中文版详解

文档简介

温馨提示

最新文档

评论

两步聚类中文版详解

文档简介

温馨提示

最新文档

评论

相关文档