




已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析,1,注意我们考核非常松,尽可能全部高于80分。,2,一个简单的聚类例子,这是按照颜色进行一维聚类。实践中,维度经常多于一个。,3,基本特点,聚类(clustering)是指根据“物以类聚”原理,将本身尚未归类的样本根据多个维度(多个属性)聚集成不同的组,这样的一组数据对象的集合叫做簇或群组。怎样聚类算成功呢?经过划分后,使得:属于同一群组的样本之间彼此足够相似,属于不同群组的样本应该足够不相似。,4,分类与聚类的区别,分类(Classification)有训练过程。分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练数据集训练得到,属于有指导学习范畴。而聚类则是没有训练过程。在进行聚类前,并不知道将要划分成几个组和什么样的组。聚类则没有事先预定的类别,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。,5,聚类分析的主要应用领域,作为独立的工具来分析数据发现离群点为其他算法做数据预处理,6,聚类分析的最典型应用领域,客户分群,进而制定差异化的营销方案,7,聚类分析的最典型应用领域,客户分群,进而制定差异化的营销方案,例子:如图,按照收入和年龄把客户聚类为两类,8,聚类的其他应用,按照血型对学生进行分班确定婚礼客人如何排座位,9,离群点检测,离群点检测和聚类是高度相关的。聚类是发现数据集中的主要群体,而离群点检测则试图识别那些显著偏离多数实例的异常情况。离群点检测可以用聚类方法,但也可以用其它方法,例如:分类方法。其常见的目的是:信用卡欺诈检测。这需要把和正常交易明显不同的交易识别出来。例如,盗窃卡的人的购物地点和所购商品都很不同于真正的卡主、也不同于大多数顾客。比如,其一次购物量比卡主大得多,并且购物地点远离卡主的通常的购物地点。,10,聚类算法的分类,聚类算法主要包括:划分方法(PartitioningMethod):包括K均值方法等层次方法(HierarchicalMethod)基于密度的方法(Density-based)基于网格的方法(Grid-based)基于模型的方法(Model-based)其中,前两种方法最常用。,11,K均值算法,K-means算法是无可争议的使用最多的算法。它是划分方法的一种。它原理简单,容易实现。它适合使用数值型属性,而不是类别型属性。它的一个不足之处是:对于离两个群组的中心都很近的点,你会不知道该放到哪个群组中。这其实也是其他一些聚类算法的局限性。,12,K均值算法的步骤,K均值算法,概括起来有五个步骤:设定一个数K,表明总共有几个群簇(组);从所有实例中随机选择K个实例,分别代表一个群簇的初始中心;对剩余的每个实例,根据其与各个组的初始中心的距离,将它们分配到离自己最近的一个群簇中;然后,更新群簇中心,即:重新计算得出每个群簇的新的中心点;这个过程不断重复(即:重复第3、4步),直到每个群簇中心不再变化,即直到所有实例在K组分布中都找到离自己最近的群簇。,13,K均值算法什么是中心值,14,K均值算法的步骤,注意看C点,它离上面的群的新的的距离中心比离下面那个群的新的中心更近,所以它被重新划分到上面那个群了。,15,K均值算法的步骤,16,K均值算法的应用:图像压缩,群的个数越少,意味着图像被转化成颜色数量很少的图像了。,17,K均值算法的应用:图像压缩,原理和上面人物照片是一致的。,18,K均值算法可以用于三个维度,前面图像压缩的例子是基于一个维度。这里抽象展示了基于三个维度的聚类。,19,如何在软件中为K均值算法设定参数,在软件中,通常都要设定群的个数。还可以指定距离的度量方式。例如选择欧几里德距离或曼哈顿距离。大多数聚类分析都使用距离度量来衡量两个实例之间的远近。,20,如何在软件中为K均值算法设定参数,此外,还可以设定聚类时采用哪些属性同时,数据标准化是聚类分析中最重要的一个数据预处理步骤。如果之前没做过标准化,可以现在进行。,21,如何评价聚类分析的结果?,这方面和分类算法有一个显著不同:分类算法的评判有训练集、验证集的客观参照。而聚类结果的评判缺乏很明确、客观的、统计学意义上的参照依据。对于聚类,业务专家从实践角度的评估是最重要的评价层面。如果多数业务专家对于聚类的结果都看不懂,那么这个结果很可能是值得怀疑的。如果聚类的结果比较容易理解、解释,业务人员会更能实施这个结果。,22,聚类之前的预处理特征筛选,在实践中,聚类中的输入变量不能太多,尤其是在样本数量有限的情况下。否则:运算耗时;更重要的是变量之间的相关性会损害聚类效果;变量太多会使人难以理解每个群的实际含义。因此,通常会采用相关性分析、结合业务知识进行变量筛选等方法来降维。然后根据少量几个维度进行聚类。被筛掉的变量可以在聚类完成后再用于对每个群的进一步分析,比如描述性统计、分类算法。,23,聚类之前的预处理异常值,K-means对数据的噪声和异常值比较敏感。这些个别数据对于平均值的影响非常大。为此,我们可以:直接删除那些比其他任何数据点都要远离聚类中心点的异常值。与此类似地,在聚类之后,有些群体内样本数量太少、这种群体在实际应用中可以忽略不计。采用随机抽样。这样,作为稀有事件
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大型企业间长途运输及搬运服务合同
- 2025年农产品上行物流配送综合解决方案合同
- 2025年度艺术品展览策划与市场推广服务合同
- 财务审计制度
- 医疗废物管理试题答案(全文)
- 2025年存款赠与与债务重组协议
- 2024小学《义务教育道德与法治课程标准》试题附含答案
- 2024年药品不良反应培训试题库及答案
- 2024汉字听写大会试题库(附答案)
- 音乐生毕业论文
- 拼多多客服培训课件
- 《植物种植要领》课件
- 分子生物学课件第一章医学分子生物学绪论
- 2024年全国巾帼家政服务职业技能大赛(养老护理员)选拔赛试题库-下(判断题)
- “海姆立克”急救手法宣传教育课件
- GB/T 22517.12-2024体育场地使用要求及检验方法第12部分:自然攀岩场地
- 质量为纲-华为公司质量理念与实践
- 矿山企业采掘作业规程
- CloudFabric云数据中心网解决方案-Underlay网络
- 场地平整工程合同范本
- 2024届贵州省遵义市红花岗区小升初数学高频考点检测卷含解析
评论
0/150
提交评论