版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、遥感影像识别第三章: 聚类分析 Part 3-1 相似性准则 3-2 聚类准则函数 3-3 两种简单的聚类算法 3-4 动态聚类算法 3-5 聚类的评价主要内容课堂回顾广义线性判别函数 x y非线性判别函数 分段线性判别函数:距离均值 二次判别函数:判别方程课堂回顾聚类分析符合“物以类聚,人以群分“的原则,它把相似性大的样本聚集为一个类型,在特征空间里占据着一个局部区域。每个局部区域都形成一个聚合中心,聚合中心代表相应类型。 相似性准则:包括距离相似性度量和角度相似性度量。距离相似性度量:欧氏距离、马氏距离、明氏距离。课堂回顾在样本相似性度量的基础上,聚类分析还需要一定的准则函数,才能把真正属
2、于同一类的样本聚合成一个类型的子集,而把不同类的样本分离开来。聚类准则函数:包括误差平方和准则、加权平均平方距离和准则、类间距离和准则。误差平方和准则(最常用):课后思考线性判别函数的适用性?聚类分析的优缺点? ERDAS image Model 工具如何实现聚类? 3-3 两种简单的聚类算法本节介绍两种简单的聚类分析方法,它是对某些关键性的元素进行试探性的选取,使某种聚类准则达到最优,又称为基于试探的聚类算法。 采用最近邻规则的聚类算法最大最小距离聚类算法1. 采用最近邻规则的聚类算法 假设已有混合样本集 ,按照最近邻原则进行聚类,算法如下: 选取距离阈值 ,并且任取一个样本作为第一个聚合中
3、心 ,如: 。 计算样本 到 的距离 : 按照某种聚类准则考察聚类结果,若不满意,则重新选取距离阈值 、第一个聚合中心 ,返回,直到满意,算法结束。在样本分布一定时,该算法的结果在很大程度上取决于第一个聚合中心的选取和距离阈值的大小。 p66该算法的优点是简单,如果有样本分布的先验知识用于指导阈值和起始点的选取,则可较快得到合理结果。对于高维的样本集来说,则只有经过多次试探,并对聚类结果进行验算,从而选择最优的聚类结果。 2. 最大最小距离聚类算法 该算法以欧氏距离为基础,除首先辨识最远的聚类中心外,与上述算法相似。用一个例子说明该算法。 以类间欧式距离最大作为选择聚类中心的条件。 3-4 动
4、态聚类算法在聚类分析中,动态聚类法是较普遍采用的方法,该算法首先选择某种样本相似性度量和适当的聚类准则函数,使用迭代算法,在初始划分的基础上,逐步优化聚类结果,使准则函数达到极值。1C-均值聚类算法(即:K-均值聚类算法)2ISODATA聚类算法 算法要解决的关键问题: 首先选择有代表性的点作为起始聚合中心。若类型数目已知,则选择代表点的数目等于类型数目;若未知,那么聚类过程要形成的类型数目,就是一个值得研究的问题。 代表点选择好之后,如何把所有样本区分到以代表点为初始聚合中心的范围内,形成初始划分,是算法的另一个关键问题。 1C-均值聚类算法C-均值聚类算法使用的聚类准则函数是误差平方和准则
5、 : 为了使聚类结果优化,应该使准则 最小化。 (1)C均值算法(一) (1)C均值算法(一) (1)C均值算法(一) (1)C均值算法(一) (1)C均值算法(一) (1)C均值算法(一) 算法特点: 每次迭代中都要考查每个样本的分类是否正确,若不正确,就要调整,在全部样本调整完之后,再修改聚合中心,进入下一次迭代。如果在某一个迭代运算中,所有的样本都被正确分类,则样本不会调整,聚合中心也不会有变化,也就是收敛了。 c个初始聚合中心的选择对聚类结果有较大影响。 在算法迭代过程中,样本分类不断调整,因此误差平方和 也在逐步减小,直到没有样本调整为止,此时 不再变化,聚类达到最优。但是上述算法中
6、没有计算 值,也就是说 不是算法结束的明显依据。 (2)C均值算法(二) (2)C均值算法(二) (2)C均值算法(二) (3) 与C的关系曲线 (3) 与C的关系曲线图中,曲线的拐点A对应着接近最优的c值。并非所有的情况都容易找到 -C关系曲线的拐点,此时c值将无法确定。2ISODATA聚类算法ISODATA算法:Iterative Self-Organizing Data Analysis Techniques Algorithm,迭代自组织的数据分析算法。ISODATA算法特点:可以通过类的自动合并(两类合一)与分裂(一类分为二),得到较合理的类型数目c。 具体算法步骤: 给定控制参数
7、:预期的聚类中心数目。 :每一聚类中最少的样本数目,如果少于此数就不能作为一个独立的聚类。 :一个聚类域中样本距离分布的标准差(阈值)。 :两个聚类中心之间的最小距离,如果小于此数,两个聚类合并。 :每次迭代允许合并的最大聚类对数目。 :允许的最多迭代次数。 给定n个混合样本,令 (迭代次数),预选c个起始聚合中心, , 。 具体算法步骤: 计算每个样本与聚合中心距离: 。 若: ,则: 。 把全部样本划分到c个聚合中去,且 表示各子集 中的样本数目。 判断:若 ,则舍去子集 ,返回。 计算修改聚合中心: 。 计算类内距离平均值 : , 具体算法步骤: 计算类内总平均距离 (全部样本对其相应聚
8、类中心的总平均距离): 判别分裂、合并及迭代运算等步骤。 (a)如迭代运算次数已达I次,即最后一次迭代,置 ,跳到,运算结束。 (b)如 ,即聚类中心的数目等于或不到规定值的一半,则转,将已有的聚类分裂。 (c)如迭代运算的次数是偶数,或 ,则不进行分裂,跳到,若不符合上述两个条件,则进入,进行分裂处理。 , 具体算法步骤: 计算每个聚合的标准偏差向量: 。 每个分量为: 。 表示x的第i个分量, 表示 的第i个分量。d为维数。 求出每个聚合的最大标准偏差分量 : 。 考查 ,若有 ,同时满足以下两条件之一, (a) ,(样本数目超过规定值一倍以上)。 (b) 。 具体算法步骤: 则把该集合分
9、为两个新的聚合,聚合中心分别 为: 其中: 令: 返回 其中,K的选择很重要,应使 中的样本 到 的距离不同,但又使样本全部在这两个集合中。 计算两两聚合中心间的距离 : 比较 与 ,并把 小于 的按递增次序排队: 为给定的合并参数。 具体算法步骤: 考查中的不等式,对每一个 ,相应有两个聚类中心 和 ,假使在同一次迭代中,还没把 和 合并,则把两者合并,合并后中心为: 若 ,则 ,如果修改给定参数则返回,不修改参数返回,否则 ,算法结束。 注意:步为分裂,为合并。 ISODATA算法: ISODATA算法: ISODATA算法: ISODATA算法: ISODATA算法: ISODATA算法: ISODATA算法: ISODATA算法: ISODATA算法中,起始聚合中心的选取对聚类过程和结果都有较大影响,如果选择的好,则算法收敛快,聚类质量高。 注意:ISODATA与C-均值算法的异同点: 都是动态聚类算法。 C-均值简单,ISODATA复杂
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 采购物品公示制度
- 采购管理流程考核制度
- 采购规章制度流程
- 2026届云南省富宁县市级名校初三下学期第二次阶段考试英语试题试卷含解析
- 2025-2026学年山东省东营邹平县联考初三毕业班第三次质量检查英语试题含解析
- 2025-2026学年陕西省西安市经开区重点名校初三下学期期初考试语文试题含解析
- 南通市崇川区启秀中学2026届中考模拟试卷(英语试题文)试卷含解析
- 黑龙江省哈尔滨市第四十一中学2026年五月月考三模语文试题含解析
- 2025-2026学年江苏省句容市华阳中学初三第一次诊断性检测试题英语试题含解析
- 【淄博】2025年山东淄博高青县事业单位综合类岗位招聘工作人员13名笔试历年典型考题及考点剖析附带答案详解
- 2026年江苏经贸职业技术学院单招综合素质考试题库附答案详解
- 2026河北衡水恒通热力有限责任公司公开招聘工作人员28名笔试备考试题及答案解析
- 2026春统编版(新教材)小学道德与法治一年级下册(全册)各单元知识点复习课件
- 吉水县2026年面向社会公开招聘农村(社区)“多员合一岗”工作人员【146人】笔试备考试题及答案解析
- 2026年常州工业职业技术学院单招综合素质考试题库附答案详解(达标题)
- 2026届高考语文复习:古代诗歌鉴赏课件
- 2026河南三门峡市辖区法院省核定聘用制书记员招聘74人考试参考题库及答案解析
- 《工程勘察设计收费标准》(2002年修订本)-完整版-1
- 热学李椿 电子
- 教学能力比赛决赛 《英语》教案
- 勘探监督手册测井分册
评论
0/150
提交评论