




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章聚类分析 OUTLINES 一 引言二 聚类标准三 k means算法四 EM算法五 利用MicrosoftSQLServer2005实践聚类分析算法 2 医学数学挖掘 SQLSERVER2005案例分析 一 引言 对某城市年龄范围为25岁 55岁的中青年人群进行调查 调查数据项包括年龄 性别等项 3 医学数学挖掘 SQLSERVER2005案例分析 一 引言 4 血脂高的 都没有冠心病 分类1的血脂较高的人多 有冠心心脏病的人多 而分类6的血脂普遍正常 且都没有冠心病 医学数学挖掘 SQLSERVER2005案例分析 一 引言 聚类 ClusterAnalysis 是一个将数据集划分为若干组或类的过程 将一组物理的或抽象的对象 根据它们之间的相似程度 分为若干组 其中相似的对象构成一组 这一过程称为聚类过程 5 医学数学挖掘 SQLSERVER2005案例分析 一 引言 对在坐的各位同学进行聚类 你们看看可以分成哪些类 6 医学数学挖掘 SQLSERVER2005案例分析 一 引言 从上面的讨论可以发现知道分类的数目后更容易进行划分不知道分类数怎么办 需要确定分类标准如何把数据输入计算机 如何让计算机进行计算 每个元素是否只能属于某一类 软聚类硬聚类 7 医学数学挖掘 SQLSERVER2005案例分析 二 聚类标准 输入模式可用向量表示 比较不同模式的相似性可转化为比较两个向量的距离 因而可用模式向量间的距离作为聚类判据 传统模式识别中常用到的两种聚类判据是欧式最小距离法和余弦法 8 医学数学挖掘 SQLSERVER2005案例分析 二 聚类标准 欧氏距离法 9 X1 0 2 X2 0 0 医学数学挖掘 SQLSERVER2005案例分析 二 聚类标准 余弦法 10 X1 0 2 X2 5 0 医学数学挖掘 SQLSERVER2005案例分析 三 k means算法 k means算法以距离值的平均值对聚类成员进行分配 如果一个对象属于一个聚类 则该数据一定比较靠近聚类的中心 11 医学数学挖掘 SQLSERVER2005案例分析 三 k means算法 对二维坐标中的5个点 X1 X2 X3 X4 X5 作聚类分析 5个二维样本为 X1 0 2 X2 0 0 X3 1 5 0 X4 5 0 X5 5 2 假设要求的簇的数量k 2 12 医学数学挖掘 SQLSERVER2005案例分析 三 k means算法 13 医学数学挖掘 SQLSERVER2005案例分析 三 k means算法 14 医学数学挖掘 SQLSERVER2005案例分析 三 k means算法 15 医学数学挖掘 SQLSERVER2005案例分析 三 k means算法 16 医学数学挖掘 SQLSERVER2005案例分析 三 k means算法 k means聚类被认为是硬聚类 因为每一个对象只能被分配到一个聚类 类与类之间不相互连接 并且也不相互重叠 计算步骤如下 1 选择一个含有随机选择样本的k个簇的初始划分 计算这些簇的质心 簇的平均值 2 根据欧氏距离把每个样本重新分配到距离它最近的簇质心 3 计算被分配到每个簇的样本的均值向量 作为新的簇的质心 4 重复2 3直到k个簇的质心点不再发生变化或准则函数收敛 17 医学数学挖掘 SQLSERVER2005案例分析 三 k means算法 k means算法的准则函数通常用平方误差标准准则 其定义如下 其中E为数据集中所有对象的平方误差总和 X代表每个样本 mi为簇Ci的平均值 质心 该准则使生成的类别尽可能地紧凑和独立 18 医学数学挖掘 SQLSERVER2005案例分析 三 k means算法 练习 对二维坐标中的6个点 X1 X2 X3 X4 X5 X6 作聚类分析 6个二维样本为 X1 0 2 X2 0 0 X3 1 5 0 X4 5 0 X5 5 2 X6 0 20 假设要求的簇的数量k 2 19 医学数学挖掘 SQLSERVER2005案例分析 三 k means算法 20 医学数学挖掘 SQLSERVER2005案例分析 这种分法有意义吗 三 k means算法 从前面的例子可以看出主要存在如下两点不足 k Means方法只有在簇的平均值被定义的情况下才能使用 这可能不适用于某些应用 要求用户必须事先给出k 要生成的簇的数目 可以算是该方法的一个缺点 k Means方法不适用于发现非凸面形状的簇 而且 它对于 噪声 和孤立点数据是敏感的 少量的该种数据能够对平均值产生极大的影响 21 医学数学挖掘 SQLSERVER2005案例分析 四 EM算法 现实世界很多数据是不完整的 即数据存在残缺问题 例如数据集中缺少一些变量 更一般的情况是 任何含有隐含变量 不能直接观察到的变量 的模型都可以被归纳为数据残缺问题 EM ExpectationMaximization 期望最大化 是K Means方法的一种扩展 它不把对象分配给一个确定的簇 而是根据对象与簇之间的隶属关系发生的概率来分配对象 EM算法是解决数据残缺问题的一种出色算法 22 医学数学挖掘 SQLSERVER2005案例分析 四 EM算法 EM算法基本思想 EM算法不是为每一个维选择一个点 然后计算距离 而是把每一维作为一个钟型曲线 并计算平均值和标准差 当某一个点落到一个钟型曲线内时 它以某一概率分配给某一聚类 每一个聚类的曲线可以重叠 所以每一点可以属于多个聚类 且每一聚类有不同的概率 这种技术被认为是软聚类 因为该算法允许聚类之间重叠 并且允许模糊的边界 23 医学数学挖掘 SQLSERVER2005案例分析 四 EM算法 EM算法的步骤 估计步骤 Estimate 和最大化步骤 Maximize EM算法的名字由这两个步骤的英文单词的第一个字母组成 具体情况如下 令D x 1 x n 为n个观察到的数据向量 设H z 1 z n 表示隐藏变量z的n个值 与观察到的数据点D一一对应观察到数据的对数似然函数为 24 医学数学挖掘 SQLSERVER2005案例分析 四 EM算法 25 医学数学挖掘 SQLSERVER2005案例分析 四 EM算法 EM算法在以下两者间交替 固定参数 使F相对于分布Q最大化 固定分布Q p H 使F相对于参数 最大化 具体分为如下两个步骤 26 医学数学挖掘 SQLSERVER2005案例分析 对某城市年龄范围为25岁 55岁的中青年人群进行调查 各属性的含义如下 27 医学数学挖掘 SQLSERVER2005案例分析 五 MicrosoftSQLServer2005实践聚类分析 28 医学数学挖掘 SQLSERVER2005案例分析 五 MicrosoftSQLServer2005实践聚类分析 Microsoft聚类分析通过其查看器来解释 SQLServerAnalysisServer提供的聚类分析查看器有4个选项卡 聚类之间是相互联系的 通过单独的某一个视图难以理解挖掘模型 但可以同时使用这些视图 聚类的目的之一是给每一类贴上标签 29 医学数学挖掘 SQLSERVER2005案例分析 五 MicrosoftSQLServer2005实践聚类分析 1 获得顶层视图 30 血脂高的 都没有冠心病 分类1的血脂较高的人多 有冠心心脏病的人多 而分类6的血脂普遍正常 且都没有冠心病 医学数学挖掘 SQLSERVER2005案例分析 五 MicrosoftSQLServer2005实践聚类分析 1 获得顶层视图 31 分类1 医学数学挖掘 SQLSERVER2005案例分析 五 MicrosoftSQLServer2005实践聚类分析 2 选择一个聚类并且找出与其它聚类之间的区别 以聚类1为例 分类特征视图 该视图通过以递减概率显示属性来描述聚类事例的特征 32 这个聚类的成员喜欢早起 工作强度大等 然而这些信息还不能作为该类的标识 可能其它类也喜欢早起和工作强度大 医学数学挖掘 SQLSERVER2005案例分析 五 MicrosoftSQLServer2005实践聚类分析 点击分类对比选项卡 将分类1与它的补充进行了比较 33 这里可以看到冠心病才是类1最重要的特征 医学数学挖掘 SQLSERVER2005案例分析 五 MicrosoftSQLServer2005实践聚类分析 3 确定一个聚类如何区别于相邻的聚类这个聚类可能非常相似于其它的聚类 并且在这个时候所做的标识适用于所有这些聚类 与聚类1相似的聚类强度都不大 相对来说 与类8和类10相似性大点 通过比较类1和8 可以看出这两个聚类的重要差异是劳动强度和是否早起 通过比较类1和10 可以看出这两个聚类的重要差异是是否养宠物 34 医学数学挖掘 SQLSERVER2005案例分析 五 MicrosoftSQLServer2005实践聚类分析 4 验证判断是否正确通过比较聚类与其相邻的聚类 并且对聚类进行改进的时候 就有可能出现误导的情况 两个聚类之间的差别可能是由一个属性引起的 该属性在这两个聚类中都不常见 但是在其中一个聚类中更少见 通过对聚类1进行进一步验证 发现可以用 冠心病 标识 聚类1 即聚类1的主要特征是有 冠心病 35 医学数学挖掘 SQLSERVER2005案例分析 五 MicrosoftSQLServer2005实践聚类分析 5 对聚类进行标识聚类1为 冠心病 36 医学数学挖掘 SQLSERVER2005案例分析 五 MicrosoftSQLServer2005实践聚类分析 结论 冠心病高发人群有如下特点 高血脂 高血压 很少运动 经常熬夜 工作压力大 有家族新血压或心脏病病史 都不养宠物 同时发现男性比例显著高于女性的发病率等 可以对这些因素进一步进行分析 对冠心病的预防 治疗及其医疗保健等有重要的指导作用 37 五 MicrosoftSQLServer2005实践聚类分析 医学数学挖掘 SQLSERVER2005案例分析 作业 根据图7 2中数据 修改EM算法的相关参数 看看结果有何不同 并分析原因 在针对图7 2进行聚类分析的基础上标识其它类 单击图7 6中的 挖掘模型 单击右键选择 设置算法参数 将CLUSTERCOUNT设置为8 然后处理并查看模型 试着对其进行解释 38 医学数学挖掘 SQLSERVER2005案例分析 小结 聚类是一种强大的工具 聚类可用来理解数据 也可以用来做数据分析的关键步骤 聚类分析可以按相似性对数据进行分组 并且可以对数据进行深入的分析 获得其它方法不可能获得的信息 一旦数据聚类完之后 聚类的结果就可以应用于市场竞争 异常检测 趋势分析或者进一步分析等 本章7 4 2的案例分析中 可以对每一类进行标识 然后对感兴趣的类作进一步分析 比如类1 当发现冠心病高发人群具有的特点时 可以对 高血脂 高血压 很少运动 经常熬夜 工作压力大 有家族新血压或心脏病病史 都不养宠物 进行关联分析和回归分析 从而可进一步得出降低冠
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大班每月育儿知识培训课件
- 大海日出德富芦花课件
- 大洲与大洋课件
- 2024年普洱澜沧县教体系统选聘真题
- 山东日照急救知识培训课件
- 机场跑道测量协议
- 大数的分级线课件
- 网络调查问卷协议
- 2024年辽宁中铁十一局集团有限公司专业招聘真题
- 明星文化活动统计协议
- 福建省福州市联盟校2023-2024学年高一下学期期末考试英语试题(解析版)
- 2025文化和旅游部直属事业单位招聘社会人员29人模拟试卷附答案详解
- 2024-2025学年重庆市万州区八年级(下)期末语文试卷
- 2025年乒乓球二级裁判考试题及答案
- 血标本采集考试试题附有答案
- 2025年公共安全生产试题及答案
- 员工工资及考勤管理制度
- 浙江省温州市龙湾区2024-2025学年七年级下学期学业水平期末检测数学试题
- 废料出售管理办法
- 企业干部退出管理办法
- 河南选调生管理暂行办法
评论
0/150
提交评论