




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第7章群集分析,OUTLINES,1,简介2,群集标准3,k-means算法4,EM算法5,使用Microsoft SQL Server 2005的实践群集分析算法,2,医学数学挖掘SQL Server 2005案例调查数据项为年龄,3,医学数学发掘SQL SERVER 2005案例分析,1,绪论,4,血脂高的人没有冠心病,分类1的血脂高的人很多,冠心病的人很多。分类6的血脂普遍正常,没有冠心病。医学数学挖掘SQL SERVER 2005案例分析、1、引言、群集(群集分析)是将数据集划分为多个组或类的过程。根据两者之间的相似性将一组物理或抽象对象分为多个组。其中类似的对象构成了组。此过程称为群
2、集进程。5,医学数学挖掘SQL SERVER 2005案例分析,1,绪论,群集坐着的同学。看能分成什么种类。6,医学数学挖掘SQL SERVER 2005案例分析,1,引言,在上述讨论中知道分类数后,可以发现分类数更容易区分。我不知道该怎么办。分类标准必须确定如何在计算机上输入数据以及如何计算计算机。每个元素只能属于特定类吗?软群集硬群集,7,医学数学挖掘SQL SERVER 2005案例分析,2,基于群集,输入模式可以矢量表示。徐璐比较不同图案的相似性可以转换为比较两个矢量的距离,因此可以将图案矢量之间的距离用作聚类基准。传统模式识别中常用的两种聚类判定是欧式最小距离法和余弦法。8,医疗数学
3、挖掘SQL SERVER 2005案例分析,2,群集标准,欧氏距离方法,9,X1(0,2) X2(0,0),医疗数学挖掘SQL SERVER 2005案例分析3,k-meai如果对象属于群集,则应更接近群集中心,11,医疗数学挖掘SQL SERVER 2005案例分析,3,k-means算法,5个二维示例为X1(0,2),X2(0,0),X3(1.5,0),X4()假定所需的群集数k=2。12,医疗数学挖掘SQL SERVER 2005案例分析,3,k-means算法,13,医疗数学挖掘SQL SERVER 2005案例分析,3,k-means算法,14,医疗数学挖掘SQL SERVER医学数
4、学挖掘SQL计算步骤如下:1)选择包含随机选择示例的K个群集的初始分割,以计算该群集的质心(群集的平均值)。2)根据欧氏距离将每个样本重新分配到最近的集群质心。3)计算分配给每个群集的样本的平均向量作为新群集的质心。4)重复2,3,直到K簇的质心点不再更改或基本函数收敛。17,医学数学挖掘SQL SERVER 2005案例分析,3,k-means算法,k-means算法的指导函数通常使用平方误差标准准则,其中E是数据集中所有对象的平方误差总和。x表示每个抽样。Mi是群集Ci的平均值(质心)。此准则使结果类别尽可能密集和独立。18,医学数学挖掘SQL SERVER 2005案例分析,3,k-me
5、ans算法,练习:在二维坐标上对6点X1、X2、X3、X4、X5和X6进行群集分析。六个二维示例假定所需群集数k=2,即X1(0,2)、X2(0,0)、X3(1.5,0)、X4(5,0)、X5(5,2)、X6。,19,医学数学挖掘SQL SERVER 2005案例分析,3,k-means算法,20,医学数学挖掘SQL SERVER 2005案例分析,这种划分有意义吗?3,k-means算法,如上例所示,k-Means方法仅在定义了簇的平均值时可用。可能不适用于某些应用程序。用户必须提前提供要生成的群集数(K),这可能被认为是此方法的缺点。K-Means方法不适用于查找非凸面图形的群集,它对噪波
6、和孤立点数据敏感,少量数据会显着影响平均值。21,医学数学挖掘SQL SERVE2005案例分析,4,EM算法,现实世界中的很多数据都不完整。也就是说,数据有缺陷。例如,数据集缺少某些变量,在更常见的情况下,包含隐式变量(不能直接观察的变量)的所有模型都可以概括为数据故障问题。EM(Expectation Maximization)是K-Means方法的扩展。基于对象和簇之间发生从属关系的概率指定对象,而不是将对象指定给特定簇。EM算法是解决数据故障问题的好算法。22,医学数学挖掘SQL SERVE2005案例分析,4,EM算法,EM算法基本思路:EM算法不是为每个维度选择点,然后计算距离,而
7、是将每个维度作为钟形曲线来计算平均值和标准差。当一个点落在钟形曲线内时,将以特定的概率指定给簇。每个簇中的曲线可以重叠,因此每个点可以属于多个簇,每个簇徐璐具有不同的概率。该技术被认为是软群集。这是因为该算法允许群集间重叠,允许模糊边界。23,医学数学挖掘SQL SERVER 2005案例分析,4,EM算法,EM算法的阶段:估计阶段和最大化阶段,EM算法的名称由两个阶段中英语单词的第一个字母组成。具体情况如下:D=X (1),X (N)是N个观测的数据矢量。H=Z (1),Z (N)表示隐藏变量Z的N个值,与观测数据点D相对应的观测数据的对数似然函数:24,医学数学挖掘SQL SERVER 2
8、005案例分析,4,EM算法,25 F为参数最大化Q具体分为以下两个阶段:26,医学数学发掘SQL SERVER 2005案例分析,调查了一个城市年龄范围为25岁55岁的中小人口。每个属性的含义如下:27,医疗数学挖掘SQL Server 2005案例分析,5,Microsoft SQL Server 2005实践群集分析,28,医疗数学挖掘SQL SERVER 2005案例分析,5,Microsoft SQL Microsoft群集徐璐连接,因此很难通过单独的视图理解挖掘模型,但可以同时使用。群集的目的之一是给每个类别贴标签。29,医学数学发掘SQL SERVE2005案例分析,5,Micr
9、osoft SQL SER2005实践集群分析,(1)顶层视图,30,血脂,无兴趣病,分类1分类6的血脂普遍正常,无兴趣病。医疗数学挖掘SQL Server 2005案例分析,5,Microsoft SQL Server 2005实践群集分析,(1)获取顶层视图,31,分类1,医疗数学挖掘SQL SERVER 2005案例分析,5,Microsoft SQL SERVER 2005案例分析分类特征视图。此视图以减少概率显示属性,以说明群集案例的特征。32.这个集群的成员喜欢早起,工作强度高,但此信息还不能用作该类的标识符,其他类也可能早起,工作强度高。,医学数学挖掘SQL SERVER 200
10、5案例分析,5,Microsoft SQL Server 2005实践群集分析,单击“分类比较”选项卡,将补充与分类1进行比较。33,在这里可以看出冠心病是第一类最重要的特征。医学数学挖掘SQL SERVE2005案例分析,5,Microsoft SQL SER2005实践群集分析,(3)确定一个群集与相邻群集有何不同。此群集可能与其他群集非常相似,此时创建的标识适用于所有这些群集。与集群1相似的集群强度不大,相对与8类和10类相似。如果比较1类和8类,就可以知道这两个集群的重要差异是劳动强度和早起的。比较1类和10类,就可以知道这两个集群的重要差异是否会养宠物。34,医学数学挖掘SQL SE
11、RVE2005案例分析,5,Microsoft SQL SERVER 2005实践群集分析,(4)通过群集比较准确判断相邻群集并改进群集可能导致错误情况。两个群集之间的差异包括:通过对集群1的进一步验证,发现可以用“冠心病”识别“集群1”。也就是说,集群1的主要特征是“冠心病”。35,医学数学挖掘SQL Server 2005案例分析,5,Microsoft SQL Server 2005实践集群分析,(5)集群识别集群1“冠心病”,36,医学数学挖掘SQL SERVER 2005案例分析结论同时发现男性的比例明显高于女性的发病率等。进一步分析这些因素,对冠心病的预防、治疗及医疗等有重要的指导
12、作用。37,5,Microsoft SQL Server 2005实践群集分析,医疗数学挖掘SQL Server 2005案例分析,任务,根据图7-2中的数据修改EM算法的相关参数,确定结果差异和原因分析根据图7-2的群集分析确定其他类。在图7-6中,单击“挖掘模型”,右键单击,选择“设置算法参数”,将群集计数设置为8,然后尝试处理、查看和解释模型。38、医学数学挖掘SQL SERVE2005案例分析、总结、群集是强大的工具。群集可用于了解数据,或执行数据分析的关键步骤。群集分析可以按相似性对数据进行分组,并且可以深入分析数据以获取其他方法无法获得的信息。数据群集后,群集结果可以应用于市场竞争、异常检测、趋势分析或进一步分析。本章7.4.2中的案例研究可以识别每个类,然后进一步分析感兴趣的类。例如,如果发现第1类冠心病发病率高的人的特征,就可以进一步发展减少冠心病的预防策略,方法是:“高脂血症,高血压,缺乏运动,熬夜,工作压力,家庭血压或心脏病病史,不养宠物”。本章详细介绍了聚类分析的基本概念、工作原理和常用算法及其特点,重点介绍了k-means和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四控制两管理办法
- 团场绩效管理办法
- 园区场地管理办法
- 围棋之乡管理办法
- 国企酒店管理办法
- 国外垃圾管理办法
- 国控站点管理办法
- 网约车平台运营服务费协议
- 2025至2030中国麻醉呼吸机行业项目调研及市场前景预测评估报告
- 2025至2030中国内存插槽行业发展趋势分析与未来投资战略咨询研究报告
- 2025年重庆市高考化学试卷(含答案)
- 医疗废物与污水处理培训
- 麻醉中级晋升汇报
- 卫生服务站消杀管理制度
- 2025-2030年保健食品行业市场发展分析及发展前景与投资机会研究报告
- 2025年新高考1卷(新课标Ⅰ卷)语文试卷(含答案)
- (高清版)DB62∕T 446-2019 河湖及水利工程土地划界标准
- DB33-T 2099-2025 高速公路边坡养护技术规范
- 医院安检工作管理制度
- 文言文阅读-2025年中考语文一模试题汇编原卷版
- 宗教工作专题培训实务
评论
0/150
提交评论