




已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录目录 第一节 摘要 2 第二节 介绍 2 第三节 统计方法 2 第四节 两步聚类方法的分析 3 第五节 案例研究 7 第六节 输入 7 第七节 输出 8 第八节 讨论 10 第九节 结论 11 第一节第一节 摘要摘要 本文利用 SPSS 两步聚类的方法将现有的数据分为三个集群以分析银行客户 的信息 对于我们的案例研究 这个方法是完美的 因为与其他经典聚类方法 相比 两步聚类方法采用混合数据 包括连续和分类变量 它也发现了最优 数量的集群 两步聚类方法创建三个客户的配置文件 最大的一组包括最有资 历 与银行合作时间悠久 的客户 其信用卡申请的目的是教育或者公司业务 第二组主要包括拥有房产的客户 但主要是失业 他们信用卡申请的目的在于 再培训或者添置家庭用品 第三组主要是包括那些拥有未知属性的人 他们申 请额度的目的在于购买汽车 添置电视或者教育 本文所涉及的研究目的主要 在于便于本行更好的管理以加强公司的利润空间 第二节第二节 介绍介绍 在不同的领域中 不同的应用程都序可以使用聚类算法 然而 大多数的这 些算法只处理数值数据和分类数据 然而 现实世界的数据可能包含数值和分类 属性 两步聚类的方法是 SPSS 中解决这个问题的一个途径之一 在本文中 我们打算从一个银行提供的公共数据集中使用两部聚类的方法来 确定银行客户的资料 该方法的优势在于可以确定适当数量的集群 所以我们的 目标是找到这个概要文件的数量 有效地管理现有的和可能存在的客户 在下面几节中 我们介绍两步聚类的方法和案例研究中的输入 输出和结果 的分析 第三节第三节 统计方法统计方法 数据分组 或数据集群 是一种方法 可以形成具有类似特征的类的对象 集群通常 是与分类混淆 但有一个主要的区别 即分类时 对象被分配到预定义的类 而在集群的情 况下 必须定义这些类 我们预计数据时使用集群技术自然得分组到不同的类别 集群类别的物品有很多 共同的特点 例如 客户 事件等等 如果问题是复杂的 在聚类数据前 其他数据挖掘技 术也可以应用 如神经网络和决策树 经典的聚类方法使用分层或分区算法 分层算法在集群的基础之上建立集群 而分 区算法在同一时间确定所有的集群 建立不同的分区 然后评估他们某些标准 在 SPSS 中 聚类分析可以使用两步聚类 分层集群或 k means 聚类 每个方法都依赖不同的算 法来创建集群 最后两个经典的分类方法是基于分层 分区的算法 而二步聚类方法在 SPSS 中是特别设计和实现的方法 对于应用程序而言 考虑到不同的数据类型这种情况 分层集群方法是有限的小 数据集 k means 仅限于连续值 而两步聚类方法基于连续和分类变量的情况下可以 创建集群模型 接下来 我们将探讨两步聚类方法 突出其优势之处 第四节第四节 两步聚类方法的分析两步聚类方法的分析 两步聚类方法是设计用来分析大型数据集的算法 这个算法会用标准方法将不同 的观察结果分组到不同的集群之中 这个过程会使用一个凝聚的层次聚类方法 与经 典的聚类分析方法相比 两步聚类分析方法使用连续的分类属性 此外 该方法可以自动 确定最优数量的集群 两步聚类分析方法的实现主要包括下面几个步骤 o 预聚类 o 解决处理非典型值 异常值 噪声处理 可选 o 聚类 在预聚类步骤中 它会扫描数据记录 基于标准的距离决定当前记录是否可以添加到 一个以前形成的集群或开始一个新的集群 测距的方法使用了两个类型 欧式距离和对 数似然距离 预聚类过程的实现通过构建一个数据结构 称为 CF 集群特性 树 其中包含集群 中心 CF 树有水平的节点 每个节点有一个条目的数量 叶子节点是最后的子类 对 于每一个记录 从根节点开始 找到最近的子节点递归 沿着 CF 树下行 一旦到达一个叶 子节点 该算法找到最近的叶子节点中的叶条目 如果记录的数量在一个阈值距离之内 就会记录添加到叶子节点并且 CF 树更新 否则 它会创建一个新的叶子节点的值 在构建 CF 树的过程中 该算法实现了一个可选的步骤 可以解决非典型值 异常值 离群值被认为并不能很好的适合任何集群的一个记录 在 SPSS 在一片叶子中如果 记录的数量小于一定比例的规模最大的 CF 树中的叶子条目就会被认为是离群值 默认 情况下 这个比例是 25 在重建 CF 树之前 会搜索潜在的典型值 将他们放在一边 CF 树重建后 程序检查这些值是否恰当 是否可以不增加树的大小 最后 值不恰当会 被认为是离群值 如果 CF 树超过允许的最大尺寸 它会基于现有的 CF 树 通过增加阈值距离重建 CF 树 新的 CF 树会小很多 也允许输入新的记录 预聚类作为输入的一个步骤会产生有子类的聚类 没有噪声 如果你选择了处理 非典型值这个选项 并且组成有价值的聚类的数量 因为子类的数量远小于初始时的 记录数量 因此经典的聚类方法可以成功地使用 两步聚类方法使用一个凝结的自动 分层方法决定了集群的数量 层次聚类方法是指集群不断融合的过程 直到一个集群组包括所有的记录 这个过 程始于为每个子集定义一个初始集群 然后 所有集群进行比较并且集群之间的距离是 最小的两个集群会合并成一个集群 这个过程会一直重复直到所有集群已经合并 因 此 它是相当简单的比较不同数量的集群解决方案 计算集群之间的距离 可以使用欧式距离和对数似然距离 欧式距离只有所有变量是连续的情况下可以使用 欧式距离是在 m 维空间中两个 点的真实距离 对于集群来说 两个集群之间中心之间的距离被定义为欧式距离 集群 中心被定义为集群中变量的容器 可以使用对数似然距离来分析连续和分类变量 两个集群之间的距离与似然函数 的自然对数的减少是相关的 因此他们会被分组到一个集群 计算对数似然距离 假定连 续变量正态分布和分类变量的多项式分布 以及变量是相互独立的 定义 i 和 j 两个集群之间的距离为 其中 在公式 2 中 是 i 和 j 两个集群之间的距离 索引代表通过集群 i 和 j 的结合后生成的 新的集群 是所有连续变量的总数 是所有分组变量的总数 是第 k 个分 类变量的数量 是 S 集群中所有数据记录的数量 是 S 集群的数量 分类变 量 k 分成了 l 个分组 是分组变量 k 分成 l 个分组的记录的数量 对整个数据集 来说 是对连续变量 k 的方差 离散 的估计 在集群 j 中 对于连续变量 k 的方差估 计 为了自动确定集群的数量 该方法使用两个阶段 在第一个阶段 指示器 BIC 施瓦 兹 贝叶斯准则 或 AIC Akaike 准则 计算为每个集群从一个指定范围中计算数量 然后 这个指示器用于寻找一个初始估计集群的数量 对于 J 集群 两个指示器通过公式 4 和 5 计算得出 过程如下 其中 变量的相对贡献形成了集群计算的两种类型的变量 连续和分类 连续变量的重要性的衡量标准是基于 在这个公式中 是连续变量估计值的意思 并且是集群 j 中连续变量 k 的估计 值 在 H0 零假设 重要性衡量中学生分布呈 Nk 1 的自由度分布 显著性水平是双侧的 对于分组变量 重要性衡量是建立在 X2的基础上的 在零假设中 作为一个 X2和 LK的自由度 对于项目的集群成员 记录被分配用于解决非典型值的规范 噪声 和选择测量的距 离 如果解决非典型值的选择不使用 根据距离测量的方法 值会分配给最近的集群中 否则 该值是区别对待的 如下 1 在欧几里得的方法的情况下 一个项目被分配到最近的集群 如果它们之间 的距离小于临界值 否则 该项目被声明为噪声 异常 2 如果选择对数似然方法 它假定噪声均匀分布 并且计算对数似然对应于一 个有噪声项目且分配到最近的无噪声集群 然后 项目分配给集群获得对数的最高 价值 这相当于将一个项目分配给最近的集群 如果它们之间的距离小于临界值 否则 项目被指定为噪音 总之 该方法的一个重要优点是它与混合数据操作 包括连续和分类数据 另一个 优势是 尽管两步聚类方法处理大型数据集 就所需处理这些数据的时间而言 这种方法 比其他方法需要更短的时间 缺点是两步聚类方法不允许丢失值且缺失值的项目不考 虑分析 第五节第五节 案例研究案例研究 自从两步聚类方法开始成为大型数据集和处理混合数据的首选后 我们应用此方法 并使用一些从银行获取的的公共数据聚类数据 另一方面 这些数据被用在另一个应用 程序来减少维度应用 PCA 主成分分析 并在下文给出了该方法的输入和输出 第六节第六节 输入输入 供给我们研究的数据集是从一家银行提供的公共数据库中的信息 数据真实可靠 在 SPSS 中 大致有 14000 条记录 这个表包含信用卡还款的的持续时间信息 信用历 史 信用卡申请用途 信贷金额 储蓄账户 工龄 还款周期 个人状态 居住权 财产 年 龄 住房 银行信用额度 工作 家属和信用批准状态等等 表 1 中给出这个数据的一部 分 数据库包含 3 个分类变量和 4 个连续变量 默认情况下 连续变量被标准化 因为我 们使用混合数据 我们在距离度量上只有对数似然的选择 在第一次运行 我们选择 BIC 确定聚类的数量 虽然我们可以重写此步骤并指定一个 固定的数字 但是结果使用 AIC 运行是和 BIC 运行结果是一致的 所以目前我们使用 BIC 指 标 关于对于我们数据集的噪声处理方面 我们决定不检查噪声 异常值定义为在 CF 树的 情况下 其他的叶子不超过规定的最大叶大小的百分比 通过 SPSS 软件的一个重要选择是 XML 格式的 CF 树或整个模型的导出 这允许模型进 行更新 以增加额外的数据集 第第 7 节节 输出输出 1 点击 分析 分类 两步聚类 命令 弹出 二阶聚类分析 对话框 如下所示 2 将个人税前年收入 申请人申请信用额度和工龄拖入分类变量中 并且将如下变量 拖入连续变量中 账户信用额度 教育程度 申请日年龄 卡片最高卡种等级 3 在距离变量对话框中选择 对数相似值 4 在聚类数量中选择 指定固定值 5 在聚类准备中 选择 施瓦兹贝叶斯准则 6 本案例不选择噪声处理 7 点击确定 出现如下多个图表 在 SPSS 中 自动聚类统计表可以用来评估我们的分析中最佳聚类的数量 如表 2 所示 表 2 在表 2 中 虽然最低的 BIC 系数是四簇 根据统计算法 最佳聚类数是三 因为距离 最大的比率是三簇 集群分布如表 3 所示 表 3 图 1 所示的群集饼图显示了我们三个集群解决方案的相对大小 图 1 对于分类变量 集群内的百分比图显示了每个变量在每个集群内是如何分裂 在图 2 中 它显示了三个簇中每个变量的占比 图 2 第八节第八节 讨论讨论 经过两步聚类的方法 我们得出以下结论 第一集群 其中占比 19 4 其中包含的主要是单一的男性客户 占据管理职位 34 5 或失业 27 3 他们有未知的属性并且他们的信用卡申请通过率是一个小百分比 11 9 集群 2 占比 24 9 包含女性或已婚男性客户 54 6 主要是失业 54 5 或非 技术 47 5 而他们申请信用卡的目的是购置设备 再培训 因为失业所以再培训以寻 找新的工作 和购买家具 最重要的集群是第三集群 这是最大的集群 55 7 其中大部分是单身男性或离婚 的男性客户 拥有最大的储蓄账户 占管理职位 54 7 或技术工人 50 6 有良好 的信用的历史 信用卡申请的目的是为业务 汽车 新的或二手的 或教育 他们有自 己的住房 65 1 故他们的信用卡申请的通过率是在一个大的百分比 55 9 第九节第九节 结论结论 聚类方法可以使用大量的数据来应用于各种领域 只是为了寻找隐藏的模式 由于大 多数来自现实世界的数据 如在银行领域 本文所涉及的分析案例 包含的数值和分类属 性 经典的聚类算法不能在大量数据的情况下有效
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中央一号文件自测50题【答案+解析】
- 出纳安全培训内容课件
- 衡水金卷四省(四川云南)高三联考9月联考政治(含答案)
- 涉密信息系统集成资质保密知识测试题库题库(含答案)
- 2025年面条买卖合同
- 道教入学考试面试问题及答案
- 思瑞浦招聘笔试题库2025
- 2025年农村私人房屋买卖合同范本
- 2025合同范本:计算机硬件采购合同样本
- 2025年上海房屋租赁合同范本版
- 2024版《立体构成》全套课件完整版
- 《如何说孩子才会听怎么听孩子才肯说》读书分享
- 2022年贵州省注册安全工程师考试题库合集(含各科真题和典型题)
- 电子商务平台用户服务手册
- 家长进课堂-小学生建筑知识课件002230
- 2024年新版人教精通版三年级英语上册单词带音标
- 儿童拍背排痰法课件
- 电力建设工程施工安全管理导则
- 2025年软件资格考试信息处理技术员(初级)(基础知识、应用技术)合卷试卷及解答参考
- 光伏车棚合同模板
- 《单片机项目化教程(C语言版)(第2版)》全套教学课件
评论
0/150
提交评论