第6章聚类分析.ppt

上传人：扣*** IP属地：宁夏上传时间：2020-01-01 格式：PPT 页数：36 大小：579KB 积分：15 举报 版权申诉

已阅读5页，还剩31页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2020 1 1 数据仓库与数据挖掘 1 第6章数据聚类 2 数据分类在已知类标号的训练集基础上进行分类器设计工作的所以分类方法又称为监督学习方法聚类分析又称为非监督学习方法使用的数据集样本没有类标号聚类分析方法可以将数据集划分为多个类别由此可以给每个样本标注类标号聚类之后的数据集可以直接用来进行科学分析也可以作为其他方法的训练集 3 6 1引例表6 1给出了一个聚类分析的示例数据集其中包含两个描述属性不包含类别属性聚类分析的任务是将这7个数据样本划分为多个聚类即将相似度较高的样本归为一个类别例如对于表6 1中的数据集可以使用样本之间的距离来表示相似度两个样本之间的距离越近它们属于一个聚类的可能性就越大表6 1聚类分析示例数据集 4 聚类分析是将物理的或者抽象的数据集合射分为多个类别的过程聚类之后的每个类别中任意两个数据样本之间具有较高的相似度而不同类别的数据样本之间具有较低的相似度相似度可以根据数据样本的描述属性的具体取值来计算通常采用数据样本间的距离来表示聚类分析中使用的数据集表示为x xi i 1 2 total 其中数据样本xi i 1 2 total 用d维特征向量xi xi1 xi2 xid 来表示 xi1 xi2 xid分别对应d个描述属性a1 a2 ad的具体取值描述属性可以是连续型属性如表6 1所示离散型属性或者混合型属性此外不同类型描述属性的相似度的计算方法不同 5 6 2聚类分析概述聚类分析是数据挖掘应用的主要技术之一它可以作为一个独立的工具来使用将未知类标号的数据集划分为多个类别之后观察每个类别中数据样本的特点并且对某些特定的类别作进一步的分析聚类分析还可以作为其他数据挖掘技术例如分类学习关联规则挖掘等的预处理工作聚类分析在科学数据分析商业生物学医疗诊断文本挖掘和web数据挖掘等领域都有广泛应用 6 对聚类分析的要求有以下几个方面 1 可伸缩性在以往的应用中聚类分析方法所处理的数据集都是小数据集而且比较有效面对大数据集聚类分析方法对数据集的划分结果可能会与理想的划分存在着偏差因此对数据集的处理具有良好的可伸缩性是聚类分析的重要研究内容 2 处理不同类型属性的能力聚类分析中的许多算法都是针对具有连续型描述属性的数据集设计的聚类算法可以处理不同类型属性的数据集例如连续型属性二值离散型属性多值大于2 离散型属性和混合类型属性等 3 发现任意形状聚类的能力许多聚类算法是基于欧氏距离和曼哈顿距离度量来计算数据样本之间的相似度的基于这样的距离度量的算法倾向于将数据集划分为相近大小和密度的球形聚类能够划分任意形状数据集的聚类方法是非常重要的 7 4 减小对先验知识和用户自定义参数的依赖性许多聚类算法要求用户事先确定一些参数如希望将数据集划分的类别数选择数据集的初始划分方式等减小对先验知识和用户自定义参数的依赖性可以减轻用户进行参数设置的负担也使得对聚类性能的控制相对容易 5 处理噪声数据的能力大多数数据库或者数据仓库中都包含孤立点缺失值和错误的数据噪声数据会干扰许多聚类算法的聚类性能导致低质量的数据集划分 6 可解释性和实用性用户往往希望聚类结果是可解释的可理解的并且是可用的从而可以根据聚类结果进行研究和分析在低维情况下可以借助于可视化手段来展示聚类结果在高维情况下聚类结果很难被可视化这时对数据降低维度会有所帮助 8 通常聚类算法可以分为以下几类 1 划分聚类方法对于给定的数据集划分聚类方法通过选择适当的初始代表点将数据样本进行初始聚类之后通过迭代过程对聚类的结果进行不断的调整直到使评价聚类性能的准则函数的值达到最优为止 2 层次聚类方法层次聚类方法将给定数据集分层进行划分形成一个以各个聚类为结点的树型结构层次聚类方法分为自底向上凝聚型层次聚类和自顶向下分解型层次聚类两种方式 3 基于密度的聚类方法基本原理当临近区域的数据密度大于某个阈值时就不断进行聚类直到密度小于给定阈值为止也就是说每一个类别被看作一个数据区域对于某个特定类别中的任一数据样本在给定的范围内必须包含大于给定值的数据样本基于密度的聚类方法可以用来去除噪声样本形成的聚类形状也可以是任意的 9 4 基于网格的聚类方法基于网格的聚类方法将原始的数据空间量化为有限数目的单元并且由这些单元形成网格结构所有的聚类操作都要在这个网格结构上进行基于同格的聚类方法的处理速度较快其处理时间与数据样本的数量无关而是与量化空间中每一维上的单元数目有关聚类分析已经被广泛地研究了许多年主要集中在基于距离和相似度的算法方面其中划分聚类方法k means和层次聚类方法已经被加入到许多统计分析工具的软件包中作为专门的聚类分析工具来使用本章主要介绍划分聚类方法k means和层次聚类方法的原理和算法步骤并进行实例说明 10 聚类分析方法将给定的数据集合划分为多个类别其中每个类别中任意两个数据样本之间具有较高的相似度而不同类别的数据样本之间具有较低的相似度数据样本之间的相似度通常用样本间的距离来表示而距离是通过数据样本的描述属性的具体取值来计算的在不同的应用领域中数据样本的描述属性的类型可能不同因此相似度的计算方法也不同下面分别介绍当描述属性为连续型属性二值离散型属性多值离散型属性以及混合类型属性时数据样本之间的相似度计算方法 11 6 3 1连续型属性的相似度计算方法连续型属性是指取值为连续值的属性例如年龄收入和距离等都是连续型属性假设给定的数据集为x xm m 1 2 total x中的样本用d个描述属性a1 a2 ad来表示并且d个描述属性都是连续型属性数据样本xi xi1 xi2 xid xj xj1 xj2 xjd 其中 i1 xi2 xid和xj1 xj2 xjd分别是样本xi和xj对应d个描述属性a1 a2 ad的具体取值样本xi和xj之间的相似度通常用它们之间的距离d xi xj 表示距离越小样本xi和xj越相似距离越大样本xi和xj越不相似用连续型属性表示的数据样本xi和xj之间的距离d xi xj 的计算方法通常有如下3种方式 12 2 曼哈顿距离 manhattandistance 如公式 6 2 所示 3 明考斯基距离 minkowskidistarice 是欧氏距离和曼哈顿距离的一个推广 1 欧氏距离 euclideandistance 如公式 6 1 所示当q的值为1时明考斯基距离变为曼哈顿距离当q的值为2时明考斯基距离变为欧氏距离 13 上述三种距离满足如下的数学性质 1 d xi xj 0 即数据样本之间的距离是非负值 2 d xi xj 0 即数据样本与自身的距离为0 表示样本与自身之间的相似性最大 3 d xi xj d xj xi 即数据样本之间的距离是对称的计算xi和xj之间的距离等价于计算xj和xi之间的距离 4 d xi xj d xi xk d xk xj 即数据样本之间的距离满足三角不等式的性质连续型属性可以用多种度量单位来表示不同的度量单位会导致不同的聚类结果度量单位越小描述属性可能的值域就越大对距离计算的影响越大从而对聚类结果的影响也越大度量单位越大描述属性可能的值域就越小对距离计算的影响越小从而对聚类结果的影响也相应减小 14 6 3 2二值离散型属性的相似度计算方法二值离散型属性是指只有两种取值的离散型属性通常用1代表属性的一种取值用0代表属性的另一种取值假设给定的数据集为x xm m l 2 total x中的数据样本用d个描述属性a1 a2 ad来表示并且d个描述属性都是二值离散型属性数据样本xi xil xi2 xid xj xjl xj2 xjd 其中xi1 xi2 xid和xjl xj2 xjd的值是0或1 xi和xj之间的距离d xi xj 按照如下的步骤来计算首先统计两个数据样本的各个二值离散型属性的取值情况 xi和xj的各属性的取值情况如表6 2所示 15 在表6 2中 a11表示样本xi和xj取值同时为1的二值离散型属性个数 a10表示样本xi取值为1而样本xi取值为0的二值离散型属性个数 a01表示样本xi取值为0而样本xj取值为1的二值离散型属性个数 a00表示样本xi和xj取值同时为0的二值离散型属性个数 a11 a10 a01 a00的值等于数据集中的属性的总个数d 其次根据数据样本的二值离散型属性的取值情况计算样本之间的距离d xi xj 需要说明的是对称的二值离散型属性和不对称的二值离散型属性的d xi xj 的计算方法不同下面分别进行介绍 1 对称的二值离散型属性是指其取值为1或0时同等重要例如性别就是对称的二值离散型属性用l表示性别为男用0表示性别为女或者用0 表示性别为男用1表示性别为女都是等价的两种取值没有主次之分对于这种属性 d xi xj 的计算公式为 16 2 不对称的二值离散型属性是指其取值为1或0时不是同等重要例如血液的检测结果是不对称的二值离散型属性阳性结果的重要程度要远远高于阴性结果通常用1来表示重要的属性取值例如阳性而用0来表示另一种取值例如阴性对于这种属性 d xi xj 的计算公式为在公式 6 5 等号右边的分母中没有a00 这是因为样本xi和xj取值同时为0的情况被认为不重要不必参与相似度的计算 17 6 3 3多值离散型属性的相似度计算方法多值离散型属性是指取值个数大于2的离散型属性例如年龄段可以分为老年中年青年收入可以分为高中低信誉度可以分为优良差等假设一个多值离散型属性的取值个数为n 其中的每种取值可以用字母符号或者整数集合来表示假设给定的数据集为x xm m 1 2 total x中的样本用d个描述属性a1 a2 ad来表示并且d个描述属性都是多值离散型属性样本xi xi1 xi2 xid 和xj xjl xj2 xjd 之间的距离d xi xj 的计算公式为其中 d为数据集中的属性个数 u为样本xi和xj取值相同的属性个数例6 1 根据表6 3中给出的数据集计算第一个数据样本和其他各个数据样本之间的相似度 18 表6 3包含多值离散型属性的数据集解从表6 3中可以看出给定数据集包含年龄段学历和收入 3个属性也就是说d 3 年龄段属性的取值包含老年青年中年学历属性的取值包含本科以下本科研究生收入属性的取值包含高中低根据公式 6 6 可以计算x 与其他3个样本之间的相似度从上述计算可以看出样本xi和xj之间的距离最小表示它们之间的相似度最大 x1和x2的相似性较小 x1和x3没有相似性 19 多值离散型属性转化为二值离散型属性的具体做法是为每个多值离散型属性的每种取值创建一个不对称的二值离散型属性如果数据样本对于给定属性的值是其多种取值中的一种那么这个取值标记为1 其他取值标记为0 例如对于数据样本x1 在表6 3中对应属性年龄段学历和收入的取值为青年研究生高而在表6 4中只有属性青年研究生和高的值为1 其余属性的值为0 对于表6 4中的数据集就可以利用6 3 2节中的公式 6 5 来计算数据样本之间的相似度了在实际的应用中多值离散型属性也可以转化为二值离散型属性表6 3中的数据可以转化为表6 4中的数据在表6 4中属性不再是年龄段学历和收入而是它们的每种具体取值 20 6 3 4混合类型属性的相似度计算方法在实际的应用中数据集中包含的描述属性通常不只一种类型可能是各种类型属性的混合体对于包含混合类型属性的数据集数据样本之间的相似度计算方法需要考虑到每种属性自身的具体情况通常有如下两种方法 1 将属性按照类型分组则原来的数据集就变成了多个新的数据集其中每个新的数据集中只包含一种类型的属性之后对每个数据集进行单独的聚类分析当这些分析可以得到兼容的结果时这种方法是可行的但是在实际的应用中根据每种类型的属性单独进行聚类分析往往不能得到令人满意的聚类结果 21 2 把混合类型的属性放在一起处理进行一次聚类分析假设给定的数据集为x xm m 1 2 total x中的数据样本用d个描述属性a1 a2 ad来表示其中的属性包含多种类型数据样本xi xi1 xik xid xj xjl xjk xjd 其中xik和xjk 1 k d 分别表示数据样本xi和xj对应第k个属性的具体取值在进行聚类分析之前对于连续型属性将其各种取值进行标准化处理对于多值离散型属性可以按照6 3 3节中介绍的方法将其转换为不对称的二值离散型属性完成上述预处理工作之后数据样本xi和x 之间的距离d xi xj 按照如下的公式进行计算 22 在公式 6 7 中 dij k 表示数据样本xi和xj在第k个属性上的距离 dij k 可以根据第k个属性的具体类型来进行相应的计算当第k个属性为连续型时使用下式进行计算略当第k个属性为二值离散型属性或者多值离散型属性时如果xik xjk 则dij k 0 否则 dij k 1 ij k 表示第k个属性对数据样本xi和xj之间距离计算的影响它的取值情况如下当xik或者xjk不存在即属于样本xi或者xj对于属性k没有测量值时 ij k 0 当第k个属性为不对称的二值离散属性并且xik xjk 0时 ij k 0 除了和所述的情况外在其他情况下 ij k 1 23 6 4k means聚类算法聚类分析的研究成果主要集中在基于距离或者称为基于相似度的聚类方法同类的数据样本应该是互相靠近的不同类的样本应该相距较远划分聚类方法是基于距离的聚类方法中的一种 k means聚类算法是划分聚类方法中最常用最流行的经典算法许多其他的方法都是k means聚类算法的变种 k means聚类算法将各个聚类子集内的所有数据样本的均值作为该聚类的代表点算法的主要思想是通过迭代过程把数据集划分为不同的类别使得评价聚类性能的准则函数达到最优从而使生成的每个聚类类内紧凑类间独立 k means聚类算法不适合处理离散型属性但是对于连续型属性具有较好的聚类效果 24 划分聚类方法对数据集进行聚类时包含如下三个要点 1 选定某种距离作为数据样本间的相似性度量可以根据实际需要选择欧氏距离曼哈顿距离或者明考斯基距离中的一种来作为算法的相似性度量其中最常用的是欧氏距离 2 选择评价聚类性能的准则函数 k means聚类算法使用误差平方和准则函数来评价聚类性能给定数据集x 其中只包含描述属性不包含类别属性假设x包含k个聚类子集x1 x2 xk 各个聚类子集中的样本数量分别为n1 n2 nk 各个聚类子集的均值代表点也称聚类中心分别为m1 m2 mk 则误差平方和准则函数如公式 6 8 所示 6 4 1k means聚类算法的基本概念 25 其中均值向量mi的表达式为误差平方和准则函数表示数据集中的所有样本与相应聚类中心的方差之和该准则的值达到最优时可以使各个聚类类内尽可能地紧凑而各个聚类之间则尽可能地分开注意公式 6 8 和公式 6 9 中的样本p和均值mi都是特征向量而不是单个的数值此外公式 6 8 中样本p与均值mi的距离采用的是欧氏距离适合于对圆形或者球形的聚类子集进行分析当然也可以采用其他距离如曼哈顿距离和明考斯基距离来对椭圆形或者椭球形的聚类子集进行分析 26 3 选择某个初始分类之后用迭代的方法得到聚类结果使得评价聚类的准则函数取得最优值为了得到最优的聚类结果首先要对给定数据集进行初始划分通常的做法是事先从数据集中选择各个聚类的代表点之后把其余的数据样本按照某种方式归类到相应的聚类中去关于聚类初始代表点的选择一般有以下几种方法根据实际问题的特点按照经验来确定聚类子集的数量从数据中找出从直观上看来是比较合适的k个聚类的初始代表点将数据集随机地分成志个聚类之后计算每个聚类的均值并且将这些均值作为各个聚类的初始代表点随机地选择志个数据样本作为聚类的初始代表点在上述选择代表点的方法中第种方法是k means聚类算法最常采用的方法此外以上聚类初始代表点的选择方法都是有启发性的往往带有选择者自身的主观性需要指出的是聚类初始代表点的选择往往会影响聚类的最终性能即得到的是局部最优解而不是全局最优解 27 基于上述分析给出k means聚类算法的操作步骤如下图所示 28 k means聚类算法按照数据样本问的相似性把数据集聚类为若干个子集聚类的结果使评价聚类性能的误差平方和准则函数的值达到最优聚类过程中通常使用欧氏距离作为样本间的相似性度量从而把给定数据集的特征空间划分为若干个子区间每一个子区间相当于一个聚类 k means聚类算法中聚类子集的个数k是事先给定的在此基础上再试图得到一个最优的聚类性能当聚类子集的个数不能确定时可以对不同的k值使用多次k means聚类算法随着k值的增加评价聚类性能的误差平方和准则函数的值会相应减小由此根据k值的变化可以得到一个误差平方和准则函数变化的曲线从曲线的变化规律结合实际问题的经验找到一个相对最合适的聚类个数 29 6 5层次聚类方法层次聚类方法将给定的数据集按照自底向上或者自顶向下的方式分层进行处理形成一个树形的聚类结构自底向上的层次聚类方法称为凝聚型层次聚类自顶向下的层次聚类方法称为分解型层次聚类层次聚类方法与划分聚类方法不同划分聚类方法需要通过迭代过程使评价聚类性能的准则函数达到最优层次聚类方法不需要寻找最优的聚类结果而是按照给定的相似性度量标准一种方式是不断地将最相似的两个聚类子集进行合并直到所有样本都属于一个类别或者满足给定的终止条件另一种方式是将同一聚类子集中最不相似的部分分解为两个部分直到每个样本单独构成一个类别或者满足给定的终止条件 30 不论是凝聚型层次聚类还是分解型层次聚类它们在对数据集进行处理时如何来表示各个聚类之间的相似度呢假设在某个聚类层次上数据集x被划分为c个聚类子集x1 x2 xc 各个聚类子集中的样本数量分别为n1 n2 nc 对于聚类子集xi和xj 1 i j c 最常用的相似性度量有以下4种 6 5 1层次聚类方法的基本概念 1 最小距离 2 最大距离 31 3 均值距离在公式 6 12 中 mi和mj分别是聚类子集xi和xj的均值向量在上述4种相似性度量中对于等号右边的d 除了均值距离只能处理连续型属性之外其余的三种相似性度量可以根据数据集中包含的描述属性的不同采用6 3节中相应的距离度量 4 平均距离 32 在层次聚类方法的两种分类中凝聚型

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第6章聚类分析.ppt

文档简介

温馨提示

最新文档

评论

第6章 聚类分析.ppt

文档简介

温馨提示

最新文档

评论

相关文档

第6章聚类分析.ppt