


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
10.1 简略介绍如下聚类方法:划分方法、层次方法。每种给出两个例子。 (1)划分方法:给定一个有N个对象的集合,划分方法构造数据的K个分区,每一个分区表示一个簇,且KN。而且这K个分组满足下列条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。 使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法、CLARANS 算法。 (2)层次方法:这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。 代表算法有:BIRCH 算法、CURE 算法、CHAMELEON 算法等。10.2 假设数据挖掘的任务是将如下的8个点(用(x, y)代表位置)聚类为3个簇。 A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9) 距离函数是欧氏距离。假设初始我们选择A1、B1和C1分别为每个簇的中心,用k-均值算法给出:(a)在第一轮执行后的3个簇中心。(b)最后的3个簇。 (a)第一轮后, 三个新的簇为(1)A1 (2)B1,A3,B2,B3,C2 (3)C1,A2 簇中心分别为(1) (2, 10), (2) (6, 6), (3) (1.5, 3.5). (b)最后3个簇为(1) A1,C2,B1, (2) A3,B2,B3, (3) C1,A2. 10.6 k-均值和k-中心点算法都可以进行有效的聚类。 (a)概述k-均值和k-中心点相比较的优缺点。 (b)概述这两种方法与层次聚类方法(如AGNES)相比有何优缺点。 (a)当存在噪声和离群点时, k-中心点算法比k-均值具有更强的鲁棒性。因为在中心点不像均值那样容易受离群值或其他极端值影响。但是, 它的计算开销更大。 (b)k-均值和k-中心点都是划分方法。这种划分方法分优点是,可以撤销之前的聚类步骤(通过迭代迁移), 不像层次方法, 一旦执行了拆分或合并, 就不能做出调整。层次方法的这种弱点可能使产生的聚类的质量受到影响。 划分方法找球形簇的效果很好。一般来说,对于中小型数据库, 结果聚类的质量很好。他们需要提前知道簇的数量可以被认为是一个弱点。层次聚类方法可以自动确定集群的数量。然而,他们难以扩展,因为每个分裂或合并的决定可能要求大量对象或集群的检查和评价。然而, 层次方法可以与其他聚类方法集成, 改进聚类, 如BIRCH, ROCK, 和Chameleon.10.14 聚类已经被认为是一种具有广泛应用的、重要的数据挖掘任务。对如下每种情况给出一个应用实例: (a)把聚类作为主要的数据挖掘功能的应用。 (b)把聚类作为预处理工具,为其他数据挖掘任务作数据准备的应用。 (a)如电子商务网站中的客户群划分。根据客户的个人信息、消费习惯、浏览行为等信息,计算客户之间的相似度,然后采用合适的聚类算法对所有客户进行类划分;基于得到的客户群信息,相关的店主可以制定相应的营销策略,如交叉销售,根据某个客户群中的其中一个客户的购买商品推荐给另外一个未曾购买此商品的客户。 (b)如电子商务网站中的推荐系统。电子商务网站可以根据得到的客户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中医五味考试试题及答案
- 幼儿园化学试题及答案
- 公关咨询面试题及答案
- 2025年杭州余杭区招聘公办幼儿园劳动合同制职工考试笔试试题(含答案)
- 广东电工考试题及答案
- 等高线测试题及答案
- 导弹飞行试题及答案
- 平面构成考试题及答案
- 北京知识培训课件
- 2025年份河南事业单位选调公务员遴选考试笔试试题(含答案)
- 2025年3到6岁幼儿发展指南考试试题及答案
- 2025年光伏施工安全试题及答案
- 翻越您的浪浪山新学期开学第一课+课件
- 宏图煤矿防突设计2025.9.8
- 贵州航空产业城集团股份有限公司,贵州安立航空材料有限公司招聘笔试题库2025
- 奇瑞购销协议书范本
- 社区模拟试题和答案
- 银行测试管理办法
- 2025年技师(二级)养老护理员职业技能鉴定《理论知识》真题卷(后附答案和解析)
- 境外常驻人员管理办法
- 中日关系历史
评论
0/150
提交评论