第7章 模糊聚类分析.ppt_第1页
第7章 模糊聚类分析.ppt_第2页
第7章 模糊聚类分析.ppt_第3页
第7章 模糊聚类分析.ppt_第4页
第7章 模糊聚类分析.ppt_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 章模糊聚类分析 一 模糊聚类分析及其步骤 二 基于模糊等价关系的传递闭包法 三 基于模糊相似关系的直接聚类法 四 基于模糊c 划分的模糊聚类法 模糊聚类分析是一类应用很广泛的数学方法 就其理论来说 大致分为三种 一是基于模糊等价关系的传递闭包法 二是基于模糊相似关系的直接聚类法 三是基于模糊c 划分的模糊聚类法 1模糊聚类分析及步骤 数学上 把按一定要求和规律 对事物进行分类的方法叫聚类分析 它属于数理统计多元分析的一支 是对清晰事物进行分类的一种方法 然而现实生活中 事物间的界限往往不一定很清晰 很多分类问题 都多伴有模糊性 如天气 晴 阴 雨天之间就无绝对的界限 普通的聚类分析对此是无能为力的 用模糊数学的语言和方法来描述和解决就成为自然和方便的了 这就产生了模糊聚类分析 模糊聚类分析的步骤 一 选择统计指标根据实际问题 选择那些具有明确的意义 有较强的分辨力和代表性的特征 作为分类事物的统计指标 统计指标选择的如何 对分类结果有直接的影响 二 数据标准化 正规化 把代表事物各特征的统计指标的数据进行处理 使之便于分析和比较 数据标准化可这样进行 令 其中x原始数据 为其的平均值 为其标准差 三 标定所谓标定 就是根据实际情况 按一个准或某种方法 给论域U中的元素两两之间 都赋以 0 1 间的一个数 叫做相似系数 其大小表征两个元素彼此接近或相似的程度 设 为待分事物的全体 由一组数 据 来表征 用 表示元素 的相似 系数 表示 截然不同 毫无相似 之处 表示 完全相似或等同 当i j时 就是 和自己的相似程度 恒取1 可据实际情况 选择下列方法之一来确定 1 数量乘积法 其中 方法2 令 于是 其中 2 夹角余弦法 3 最大最小法 4 算术平均最小法 5 绝对值减数法 其中c适当选取 使在 0 1 中且分散开 四 聚类 选择一种合适的聚类方法 便可以得到分类结果 2基于模糊等价关系的传递闭包法 一 传递闭包法 Basicidea 据上面标定所得的模糊矩阵R 求出其传递闭包 为模糊等价矩阵 然后由 3 4之方法 令 从1降到0 便可按需要 对U进行分类 这样的聚类方法 称传递闭包法 例7 1环境单元分类 环境单元有空气 水分 土壤 作物四个要素 环境 单元的污染状况由污染物在四个要素中含量的超限度来描述 若其污染数据为 试对U进 行分类 解 1 按绝对值减数法进行标定 如取c 0 1 则 于是得模糊相似矩阵 并按将U分成等价类 若 1 便将U分为5类 即 若 0 8 便将U分为4类 即 若 0 6 便将U分为3类 即 若 0 5 便将U分为2类 即 若 0 4 便将U全归为为1类 即 聚类图见教材 3 4图3 3 二 最佳或值 的确定 聚类图给出各 值对应的分类 形成一种动态聚类 便于全面了解元素聚类 然后根据实际需要选择其或值 便可确定一种分类 至于如何选择或值 使分类更合理 除了凭经验外 还可用F 统计量来选取 为描述元素的第k个特征的数据 又设c为对应于 值的类数 为第i类元素的个数 为第i类元素第k个特征的平均值 称 为F 统计量 其中 为第i类中心 例7 2气象预报中最佳或值的选取 数据分析见教材第156页 3基于模糊相似关系的直接聚类法 Basicidea 用传递闭包法分类需要先建立U上 的模糊等价矩阵 但矩阵阶数较高时 计算便变得较 困难 而采用相似矩阵R进行分类的直接聚类法其计算 量则要小很多 这种方法聚类的原则是 不低于 的路联结与 直接聚类法 最大树法 编网法 画出以被分类元素为结点 以相似矩阵R的元素为权重的一棵最大树 取定 0 1 砍断权重低于 的枝 得到一个不连通图 各连通分支便构成了在 水平上的分类 4基于模糊c 划分的模糊聚类法 一 c 划分 1 普通集合上的c 划分 集合上的c 划分是指U的c个子集 满足 反之 具有上述条件的矩阵A对应着U上的一个分类 A称为集合U的一个c 划分矩阵 如给定四元集U一 为 记 为 实矩阵的集合 且 称为将U分成c类的分类空间 这样的分类是通 常意义下的分类 称为硬分类 2 模糊c 划分 设 一个 模糊矩阵 若满足 表示每类不等于 或U 的程度总和为1 则A称为U的模糊c 划分矩阵 记 称为U的c类软分类空间 显然 二 目标函数聚类法和硬c 均值算法 Basicidea 在目标函数法中 目标函数是对给定c的所有候选分类 进行度量 最优的类就是使目标函数达到局部最小的类 对于硬分类情形 目标函数一般选为总体组内误差平 方和 其定义如下 其中为中元素各特征分别取平均值后所得的聚类 中心向量 也称的聚类中心 类中元素向量和 类中元素个数 记 V称为聚类中心矩阵 若则到聚类中心 的距离为 中全体元素到中心距离平方和为 而V中其它元素到其所在类中心距离平方和为 Remark 最理想的c 划分应该是J A V 取 极小的A 寻找最小的A并非易事 这是因为Mc的容量 虽有限但非常大 最常见的方法是硬c 均值算法 取定c 2 c n 并 初始化 心向量 其中 其它 是一个非常小的常数 则停止算法 否则 令 返回Step2 三 模糊c 均值算法 定义目标函数 其中r 1是一个加权指数 Basicidea 模糊c 均值算法的目标在于找到 最小 下面的定理给出了上述最小化问题之必要条件 定理令 局部最小值 注 模糊c 均值算法是建立在定理必要条件 和 的基础上的 算法步骤如下 Step1给定数据集 心向量 Step4 若 则停止算法 否则 令 返回Step2 是一个非常小的常数 Remark 此算法也称为模糊ISODATA方法 遇到只有一个样本的类 要在聚类前先排除 待聚类 后再加上该类 而参数r一般常取r 2 此算法要求 因此取初始分类时 三 模糊

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论