版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第五章第五章 聚类分析聚类分析 (Clustering Analysis) 5.1 5.1 聚类分析的概念聚类分析的概念5.2 5.2 模式相似性测度模式相似性测度5.3 5.3 类的定义与类间距离类的定义与类间距离5.4 5.4 聚类的算法聚类的算法第1页/共49页5.1 5.1 聚类分析的概念聚类分析的概念一、聚类分析的基本思想一、聚类分析的基本思想 相似的归为一类。相似的归为一类。 模式相似性的度量和聚类算法。模式相似性的度量和聚类算法。 无监督分类无监督分类(Unsupervised) 。二、特征量的类型二、特征量的类型 物理量物理量-(-(重量、长度、速度重量、长度、速度) ) 次序
2、量次序量-(-(等级、技能、学识等级、技能、学识) ) 名义量名义量-(-(性别、状态、种类性别、状态、种类) )第五章第五章 聚类分析聚类分析第2页/共49页三、方法的有效性三、方法的有效性 取决于分类算法和特征取决于分类算法和特征点分布情况的匹配。点分布情况的匹配。5.1 聚类分析的概念2w2W1w1W2x1xb分类无效时的情况分类无效时的情况1.1.特征选取不当使分类无效。特征选取不当使分类无效。第3页/共49页三、方法的有效性三、方法的有效性 取决于分类算法和特征取决于分类算法和特征点分布情况的匹配。点分布情况的匹配。5.1 聚类分析的概念分类无效时的情况分类无效时的情况2.2.特征选
3、取不足可能使不同特征选取不足可能使不同类别的模式判为一类。类别的模式判为一类。2w2W1w1W2x1x3w3W第4页/共49页三、方法的有效性三、方法的有效性 取决于分类算法和特征取决于分类算法和特征点分布情况的匹配。点分布情况的匹配。5.1 聚类分析的概念分类无效时的情况分类无效时的情况3.3.特征选取过多可能无益反特征选取过多可能无益反而有害而有害, ,增加分析负担并使增加分析负担并使分析效果变差。分析效果变差。2w2W1w1W2x1xb第5页/共49页三、方法的有效性三、方法的有效性 取决于分类算法和特征取决于分类算法和特征点分布情况的匹配。点分布情况的匹配。5.1 聚类分析的概念分类无
4、效时的情况分类无效时的情况4.4.量纲选取不当。量纲选取不当。第6页/共49页三、方法的有效性三、方法的有效性 取决于分类算法和特征取决于分类算法和特征点分布情况的匹配。点分布情况的匹配。5.1 聚类分析的概念分类无效时的情况分类无效时的情况4.4.量纲选取不当。量纲选取不当。第7页/共49页下列是一些动物的名称:下列是一些动物的名称:羊羊 (sheepsheep)狗狗 (dogdog)蓝鲨(蓝鲨(blue sharkblue shark) 蜥蜴蜥蜴 (lizardlizard)毒蛇(毒蛇(viperviper)猫猫 (catcat)麻雀(麻雀(sparrowsparrow)海鸥海鸥 (sea
5、gullseagull)金鱼(金鱼(gold fishgold fish)绯鲵鲣(绯鲵鲣(red-mulletred-mullet)蛙蛙 (frogfrog)要对这些动物进行分类,则不同的特征有不同的分法:要对这些动物进行分类,则不同的特征有不同的分法:特征选取不同对聚类结果的影响第8页/共49页特征选取不同对聚类结果的影响羊羊, , 狗狗, , 猫猫蓝鲨蓝鲨蜥蜴蜥蜴, ,毒蛇毒蛇, ,麻雀麻雀, ,海鸥海鸥, ,金鱼金鱼, ,绯鲵鲣绯鲵鲣, , 青蛙青蛙(a) 按繁衍后代的方式分哺乳动物哺乳动物非哺乳动物非哺乳动物第9页/共49页金鱼金鱼绯鲵鲣绯鲵鲣蓝鲨蓝鲨羊羊, ,狗狗, ,猫猫蜥蜴蜥蜴,
6、 ,毒蛇毒蛇麻雀麻雀, ,海鸥海鸥 青蛙青蛙(b) 按肺是否存在分无肺无肺有肺有肺特征选取不同对聚类结果的影响第10页/共49页青蛙青蛙羊羊, ,狗狗, ,猫猫 蜥蜴蜥蜴, ,毒蛇毒蛇麻雀麻雀, ,海鸥海鸥 金鱼金鱼绯鲵鲣绯鲵鲣 蓝鲨蓝鲨(c) 按生活环境分陆地陆地水里水里两栖两栖特征选取不同对聚类结果的影响第11页/共49页蓝鲨蓝鲨金鱼金鱼绯鲵鲣绯鲵鲣蜥蜴蜥蜴, ,毒蛇毒蛇麻雀麻雀, ,海鸥海鸥 青蛙青蛙羊羊, ,狗狗, ,猫猫(d) 按繁衍后代方式和肺是否存在分非哺乳且有肺非哺乳且有肺哺乳且无肺哺乳且无肺哺乳且有肺哺乳且有肺非哺乳且无肺非哺乳且无肺特征选取不同对聚类结果的影响第12页/共4
7、9页距离测度不同,聚类结果也不同数据的粗聚类是两类,细聚类为4类第13页/共49页综上可见:选择什么特征?选择什么特征?选择多少个特征?选择多少个特征?选择什么样的量纲?选择什么样的量纲?选择什么样的距离测度?选择什么样的距离测度? 这些对分类结果都会产生极大影响。这些对分类结果都会产生极大影响。第14页/共49页聚类过程遵循的基本步骤 一、特征选择(feature selection) 尽可能多地包含任务关心的信息二、近邻测度(proximity measure) 定量测定两特征如何“相似”或“不相似”三、聚类准则(clustering criterion) 以蕴涵在数据集中类的类型为基础四
8、、聚类算法(clustering algorithm) 按近邻测度和聚类准则揭示数据集的聚类结构五、结果验证(validation of the results) 常用逼近检验验证聚类结果的正确性六、结果判定(interpretation of the results) 由专家用其他方法判定结果的正确性第15页/共49页聚类应用的四个基本方向一、减少数据 许多时候,当数据量N很大时,会使数据处理变得很费力。因此可使用聚类分析的方法将数据分成几组可判断的聚类m(mN)来处理,每一个类可当作独立实体来对待。从这个角度看,数据被压缩了。第16页/共49页二、假说生成 在这种情况下,为了推导出数据性质
9、的一些假说,对数据集进行聚类分析。因此,这里使用聚类作为建立假说的方法,然后用其他数据集验证这些假说。聚类应用的四个基本方向第17页/共49页聚类应用的四个基本方向三、假说检验 用聚类分析来验证指定假说的有效性。例如:考虑这样的假说例如:考虑这样的假说“大公司在海外投资大公司在海外投资”。要验证这个假说是否正确,就要对大公司和有要验证这个假说是否正确,就要对大公司和有代表性的公司按规模、海外活跃度、成功完成代表性的公司按规模、海外活跃度、成功完成项目的能力等进行聚类分析。从而来支持这个项目的能力等进行聚类分析。从而来支持这个假说。假说。第18页/共49页四、基于分组的预测 对现有数据进行聚类分
10、析,形成模式的特征,并用特征表示聚类,接下来,对于一个未知模式,就可以用前面的聚类来确定是哪一类?聚类应用的四个基本方向例如:考虑被同种疾病感染的病人数据集。例如:考虑被同种疾病感染的病人数据集。先按聚类分析进行分类,然后对新的病人确定他先按聚类分析进行分类,然后对新的病人确定他适合的聚类,从而判断他病情。适合的聚类,从而判断他病情。第19页/共49页5.2 5.2 模式相似性测度模式相似性测度 用于描述各模式之间特征的相似程度用于描述各模式之间特征的相似程度 距 离 测 度 相 似 测 度 匹 配 测 度第20页/共49页一、距离测度一、距离测度( (差值测度差值测度) )测度基础:两个矢量
11、矢端的距离测度基础:两个矢量矢端的距离测度数值:两矢量各相应分量之差的函数。测度数值:两矢量各相应分量之差的函数。时,等号成立;时,等号成立;0),(yxd,当且仅当,当且仅当xy),(),(xydyxd),(),(),(yzdzxdyxd第21页/共49页常用的距离测度有:常用的距离测度有:1.1.欧氏欧氏(Euclidean)(Euclidean)距离距离 第22页/共49页4.明氏(Minkowski)距离 2.绝对值距离(街坊距离)3.切氏(Chebyshev)距离第23页/共49页第24页/共49页5.2 模式相似性测度5.马氏(Mahalanobis)距离注意!马氏距离对一切非奇异
12、线性变换都是不变的,这说明它不受特征量纲选择的影响,并且是平移不变的。 上面的V V的含义是这个矢量集的协方差阵的统计量,故马氏距离加入了对特征的相关性的考虑。第25页/共49页5.2 模式相似性测度第26页/共49页第27页/共49页5.2 模式相似性测度二、相似测度测度基础:以两矢量的方向是否相近作为考虑的基础,矢量长度并不重要。设1.角度相似系数(夹角余弦) 第28页/共49页5.2 模式相似性测度2.相关系数它实际上是数据中心化后的矢量夹角余弦。 21)( )( )()( )(),(yyyyxxxxyyxxyxr第29页/共49页5.2 模式相似性测度3.指数相似系数 niiiiyxn
13、yxe122)(43exp1),(式中 为相应分量的协方差, 为矢量维数。2in第30页/共49页53 类的定义与类间距离1 1 类的定义定义1 1 设集合S S中任意元素x xi i与y yj j间的距离d dijij有 d dijij h h其中h h为给定的阀值,称S S对于阀值h h组成一类。 类的定义有很多种,类的划分具有人为规定性,这反映在定义的选取及参数的选择上。一个分类结果的优劣最后只能根据实际来评价。第31页/共49页53 类的定义与类间距离2 2 类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法第32页/共49页53 类的定义与类间
14、距离2 2 类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法式中 表示 和 之间的距离。 ijjikldD,minijdkixwljxw第33页/共49页53 类的定义与类间距离2 2 类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法式中 表示 和 之间的距离。ijdkixwljxwijjikldD,max第34页/共49页53 类的定义与类间距离2 2 类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法pw wqw wkw wpqkpqDkqDklDkpDlw wpqk
15、qkpklDDDD2222412121qplwww第35页/共49页53 类的定义与类间距离2 2 类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法22222)(pqqpqpkqqpqkpqppklDnnnnDnnnDnnnDnp,nq分别为类w wp和w wq的样本个数lpqwww第36页/共49页53 类的定义与类间距离2 2 类间距离测度方法 最近距离法 最远距离法 中间距离法 重心距离法 平均距离法 离差平方和法wwqjpixxijqppqdnnD221第37页/共49页53 类的定义与类间距离2 2 类间距离测度方法 最近距离法 最远距离法
16、中间距离法 重心距离法 平均距离法 离差平方和法wtixtititxxxxs)()(qplwwwqplpqsssD2)()(2qpqpqpqppqxxxxnnnnDpxqx分别为对应类的重心类内离差平方和类内离差平方和 2222pqlkkkqlkqkkplkpkklDnnnDnnnnDnnnnD递推公式为:第38页/共49页222222kqkppqkqqkppklDDDDDD 最近距离法最近距离法 1/2 1/2 0 -1/2 最远距离法最远距离法 1/2 1/2 0 1/2 中间距离法中间距离法 1/2 1/2 -1/4 0 重心距离法重心距离法 0 平均距离法平均距离法 0 0 可变平均法
17、可变平均法 0 可变法可变法 0 离差平方和法离差平方和法 0pqqppnnnqpqnnnqpqppnnnqpqnnnqppnnn )1 (qpqnnn )1 (112121lkpknnnnlkqknnnnlkknnn第39页/共49页53 类的定义与类间距离3 3 聚类的准则函数判别分类结果好坏的一般标准:类内距离小,类间距离大。类内距离小,类间距离大。 某些算法需要一个能对分类过程或分类结果的优劣进行评估的准则函数。如果聚类准则函数选择得好,聚类质量就会高。聚类准则往往是和类的定义有关的,是类的定义的某种体现。第40页/共49页聚类的准则函数一、类内距离准则 设有待分类的模式集 在某种相似
18、性测度基础上被划分为 类,类内距离准则函数 定义为:( 表示 类的模式均值矢量。)Nxxx,21cjjinicjx, 2 , 1;, 2 , 1)(;WJcjnijjiWjmxJ112)(53 类的定义与类间距离jmjw第41页/共49页53 类的定义与类间距离第42页/共49页加权类内距离准则加权类内距离准则 : :WWJ21jcjjWWdNnJ(2-3-22)2)()(2)()() 1(2jjijjkxxjkjijjjxxnndww(2-3-23)式中,2)()(jkjixx表示jw类内任两个模式距离2) 1(jjnn 个组合数,所以2jd表示类内Nnj表示jw类先验概率的估计频率。平方和,共有两模式间的均方距离。N为待分类模式总数,第43页/共49页53 类的定义与类间距离第44页/共49页加权类间距离准则加权类间距离准则: :对于两类问题,类间距离有时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 47454-2026空间站舱外载荷接口要求
- 于家堡锅炉安装监理实施细则培训课件
- 质检化验员岗位责任制培训课件
- 起重机械检查要点培训课件
- 2026安徽药业面试题及答案
- 2026安抚劝说面试题及答案
- 任务三 认识汽车新媒体运营师
- 统编版语文五年级下册第六单元达标测试卷
- 《物联网概论》课件 1.2 物联网概述
- 破解班组安全学习走过场难题:原因分析与改进策略
- 2026四川甘孜州雅江县考调公务员18人考试备考试题及答案解析
- 饮品店安全管理规章制度
- 2026中考英语作文押题预测
- 生产白酒质量管理制度
- 医疗设备应急预案演练计划
- (新教材)2026年人教版三年级上册数学 第2课时 认识线段、射线、直线(2) 课件
- DB11∕T 2396-2025 河湖水库底泥调查与评价技术规范
- 2026湖北省气象部门事业单位招聘应届高校毕业生70人(第1号)(公共基础知识)综合能力测试题带答案解析
- 2025年铁路电务信号工考试题库及答案
- 钢管合作协议合同范本
- 2025年公安机关人民警察基本级执法资格考试试题(初级)附答案
评论
0/150
提交评论