版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、模糊聚类分析方法对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类 聚”的一种分类方法。载科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进 行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。由于科 学技术、经济管理中的分类界限往往不 分明,因此采用模糊聚类方法通常比较符合实际。模糊聚类分析的一般步、1、第一步:数据标准化冏数据矩阵设论域U = 舄,比,,暂为被分类对象,每个对象乂有加个指标表示其性状,即齐二兀小兀2,,%/于是,得到原始数据矩阵为1% 斗 2 A 其中X肿表示第个分类对象的第加个指标的原始数据。数据标准化在实际问
2、题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对 数据做适当的变换。但是,即使这样,得到的数据也不一定在区间0,1上。因此,这里说 的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间0,1上。通常有以下儿种变换:平移标准差变换兀;二一经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但是,再用得到的埠还不一定在区间。,1上。平移极差变换好=* 皿=1,2,maxA.t Hniin.vjA显然有0S瑞而且也消除了量纲的影响。对数变换兀;=Igx伙(j = l,2,”; =1,2,.”)取对数以缩小变量间的数量级。2、第二步:标定(建立模糊相似矩阵)设
3、论域(/ = 召鼻,,兀=兀I,兀2,,依照传统聚类方法确定相似系数,建 立模糊相似矩阵,形与的相似程度二R(W。确定=/?(,)的 方法主要借用传统聚类的 相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一 计算。(1)相似系数法夹角余弦法最大最小法算术平均最小法几何平均最小法2工(心人g)A-1以上3种方法中要求切0,否则也要做适当变换。数量积法其中1r几何平均最小法2工(心人g)A-1以上3种方法中要求切0,否则也要做适当变换。数量积法其中1rym晋(字讣(字讣相关系数法其中指数相似系数法屈(或-呵)1 加_1加2工(心人g)_ A-1j 肓工(心+)1】
4、旷上头炯弓鱼芋打,其中距离法直接距离法勺=1一住心内),其中C为适当选取的参数,使得0/;7 1, (兀小)表示他们之间的距离。经常 用的距离有海明距离m1心心)二工氐-讣A-1欧几里得距离(心,)二点(心一)。切比雪夫距离.m d (XvXj) = xikXjk o倒数距离法1, i = j,r. M。Tif其中M为适当选取的参数,使得OS币1。抬数距离法5 =eXPH/ XMXy) 03、第三步:聚类(求动态聚类图)(1)基于模糊等价矩阵聚类方法传递闭包法根据标定所得的模糊矩阵R还要将其改造称模糊等价矩阵正。用二次方法求R的传递闭包,即t (R) = RR让久由大变小,就可形成动态聚类图。
5、布尔矩阵法I】。】布尔矩阵法的理论依据是下面的定理:定理2.2.1设尺是”=州,吃,一,俎上的一个相似的布尔矩阵,则人具有传 递性(当R是等价布尔矩阵时)O矩阵在任一排列下的矩阵都没有形如的特殊子矩阵。1 P 1 1 0、p r 0/ ,0 1, n b的特殊子矩阵。布尔矩阵法的具体步骤如下:求模糊相似矩阵的兄-截矩阵心.若心按定理2.2.1判定为等价的,则由心可得在2水平上的分类,若心判定为不等 价,则在某一排列下有上述形式的特殊子矩阵,此时只要将 其中特殊子矩阵的0 律改成1 直到不再产生上述形式的子矩阵即可。如此得到的R;为等价矩阵。因此,由尺;可得兄水平 上的分类(2)直接聚类法所谓直
6、接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包,也 不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下:取人=1 (最大值),对每个兀作相似类氐h,且兀/?= 习=1,即将满足=1的兀与放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类 可能有公共元素,即可出现 K = 兀,兀,兀 b = ,无,兀cH 0 此时只要将有公共元素的相似类合并,即可得人=1水平上的等价分类。取心为次大值,从R中直接找出相似度为入的元素对3,勺)(即二人),将对应于 入=1的等价分类中兀所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于入 的等价分类。取禺为第三大值,从中直
7、接找出相似度为禺的元素对(%P)(即币二人),将对应 于人2的等价分类中片所在的类与勺所在的类合并,将所有的这 些情况合并后,即得到对应于 人的等价分类。以此类推,直到合并到成为一类为止。、最佳阈值1的确定在模糊聚类分析中对于各个不同的AeO,l,可得到不同的分类,许多实际问题需要选择某 个阈值兄,确定样本的一个具体分类,这就提出了如何确定阈值 兄的问题。一般有以下两个方 法:按实际需要,在动态聚类图中,调整几的值以得到适当的分类,而不需要事先准确地 估计好样本应分成儿类。当然,也可由具有丰富经验的专家结合专业知识确定阈值兄,从而得 出在几水平上的等价分类用F统计量确定2最佳值。1,11设论域
8、二召,为样本空间(样本总数为n),而每个样本兀有m个特征:兀=勺,兀2,.,心, ( ; =1,2,.,“)。于是得到原始数据矩阵,如下表所示,丁_!圣_ .二./元称为总体样本的中心向量。设对应于兄值的分类数为I第J类的样本数为勺,笫八类的样本记为:第J类的聚类中心为向量言平=(申,土留,带),其中郢为第k个特征的平均值,即Z;A=_y,伙=12.,加),引严冲/b1) F 一 川其中幢其中)为别与X间的距离,卜严一划件为第J类中第j个样本鼻与其中心刃间的距离。称为F统计好。基于模糊聚类分析的多属性决策方法的实际应用量,它是遵从自由度为r-1,H-r的F分布。它的分子表征类与类之间的距离,分
9、母表征类内样 本间的距离。因此,F值越大,说明类与类之间的距离越大;类与类间的差异越大,分类就越好。基于模糊聚类分析的多属性决策方法的实际应用聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。山于聚类分析 的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物 进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程 度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。第一节雨量站问题、问题的提出某地区设置有11个雨量站,其分布图见图1,10年来各雨量站所测得的年降雨量列入表1 中。现因经费问题,希望撤销儿个雨量站,
10、问撤销那些雨量站,而不会太多的减少降雨信息?a73 xio图1雨量站分布图表1各雨量站10年间测得的降雨量年序 号.心心心心心X1O心12763241594132922583113031752433202251287319344310454285151402307470319243329056347950222122032041123242462322432812673102733152853273525291311502388330410352267603290292616615822417816120350232024027835072583274321013613813011134021
11、994218453365357452384420482228360316252915827111030828341020117913034218510324406235520442520358343251282371二.问题的分析应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。我们 仅考虑尽可能地减少降雨信息问题。一个自然的想法是就10年来各雨量站所获得的降雨信息之 间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中多 余”的站。问题求解假设为使问题简化,特作如下假设每个观测站具有同等规模及仪器设备;每个观测站的经费开支均等; 具有相同的被
12、裁可能性。分析:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据 如上。三、问题的解)夬求解步骤:1、数据的收集原始数据如表1所示。2、建立模糊相似矩阵利用相关系数法,构造模糊相似关系矩阵(/人)ml ,其中工1(心i 兀)11 (兀必 勺)1工(心-册)工(心-七)勺2取/ = 2,j = 1,代入公式得心二0.839,由于运算量巨大用C语言编程计算出其余数值,得模糊相似关系矩阵(/人)IIX11,具体程序如下#include#includedouble rllll;double xl 1;void main() int i,j,k; double fenzi=O.f
13、enmu 1 =0,fenniu2=0,fenmu=0;int year10ll=276,324,159,413,292 ,25&311,303,175,243,320,251 ,287,349,344,310,454,285,451,402,307,470,192 ,433,290,563,479,502.221,220,320,411,232,246 ,232,243,281,267,310,273,315,285,327,352, 291,311,502,388 ,330,410,352,267,603,290,292, 466 ,158,224,178,164,203,502,320,
14、240,27&350, 258,327,432 ,401,361,381,301,413,402,199,421, 453,365,357 ,452,384,420,482,22&360,316,252, 158,271,410,308,283,410,201,179,430,342,185, 324,406,235,520 ,442,520,35&343,251,282,371;for(i=0;il l;i+) for(k=0;k 10;k+) xi=xi+yearki;xi=xi/10;for(i=0;il l;i+)for(j=0;jll;j+) for(k=0;k 10;k+) fen
15、zi=fenzi+fabs(yearki-xi)*(yearkj-x|j); fenmul=fenmul+(yearki-xi)*(yearki-xi);fenmu2=fenmu2+(yearkj-xj)*(yearkj-xj); fenmu=sqrt(fenmu1 )*sqrt(fenmu2);rij=fenzi/fenmu;)fenmu=fenmu 1 =fenmu2=fenzi=0;)for(i=0;il l;i+) for(j=0;j x o ,3f 6t 7tf 9fo降低置信水平兄,对不同的几作同样分析,得到:2=0.995 时,可分为 8 类,即(x2,x4,尤 5,心,a3,
16、(a*7 , Xjj, x9, Mu , X 2=0. 994 时,可分为 7 类x yX , x x , x x , x , 人 x , ,乙 号S_Lgi人 1 X。 2=0. 962 时,可分为 6 类x x x, x x x7, x x , g, 24 S 6 f if9Mo , X 2 =0. 719 时,可分为 5 类x x , xy x , x x T x x , g , x , x a24sp 1u10C 3A = 0.9622 = 0.719C io C 3A = 0.9622 = 0.719C io 第二节成绩评价问题一、问题的提出某高中高二有7个班级,学生成绩的好与差,没
17、有明确的评定界限,并且班级间成绩好 坏的表现具有一定的模糊不确定性。二、问题的分析解决上述问题可运用模糊聚类分析方法。现以7个班级某次其中考试的四门主课成绩为 依据,对7个班级成绩好坏的相关程度分类。设7个班级组成一个分类集合:X=Cvpx2,.,x7)分别代表1班到7班。每个班级成绩均 是四门基础课(语文、数学、英语、综合)作为四项统计指标,即有X厂X”Xi2 ,X,3 , X这里Xg表示为第/个班级的第j fl基础课指标0= 1,2,.,7=1,2,.,4)。这四项成绩 指标为:语文平均成绩数学平均成绩X ( 2,英语平均成绩综合平均成绩Xu。各班级成绩指标值 见表1O表1 7个班4门基础
18、课的成绩指标班级4班2班 3班 4班5班 6班 7班62.0362.4878.5272.1274.1873.9566.8362.0362.4878.5272.1274.1873.9566.8359.4763.7072.3873.2867.0768.3276.0459.4763.7072.3873.2867.0768.3276.0468.1761.0475.1777.686727468.1761.0475.1777.686727470.0976.8772.4568.1774.6570.7770.4368.7372.4568.1774.6570.7770.4368.7373.18三、问题的解决1、
19、数据标准化问采用极差变换X; =,(1)r r max min式中列是第门个班级第J门基础课平均成绩的原始数据,大唤和几in分别为不同班级的同一门基础课平均成绩的最大值和最小值。X ;为第j个班级笫J门基础课平均成绩指标的标准化数值。当X, = Xmin时,/ = 0,当X, = Amax时,# = 1。表2平均成绩指标值的标准化数值班级1班2班3班4班5班6班7班00.027310.61190.73680.72290.291100.25530.77910.83850.45870.534110.428500.849210.39660.54390.95130.6605010.40120.3488
20、0.08640.77312、用最大最小法建立相似矩阵计算模糊相似矩阵R,根据标准化数值建立各班级之间四门基础课成绩指标的相似关系矩阵,采用最大最小法来计算A;存其中 e0,1 ( = 12,7 = 123,4)是表示第i个班级与第j个班级在四门基础课成绩指标上的相似程度的量。取i = 2J = ,务二0,其余运算量可以通过MATLAB编程运 算,程序如下:clcclear allmeanp=O 0.0273 0.61190.73680.7229 0.2911;0.42850 0.849210.3966 0.5439 0.9513;00.25530 力 91 0.83850.45870.5341
21、1 ;0.6605010.40120.34880.08640.7731;% 平均成绩指标值的标准化数值Ca二0;0;0;0;%初始化比较的数据Cb=0;0;0;0;%初始化比较的数据mina=0;%初始化比较的数据maxa=0;%初始化比较的数据for i=I:7forj= 1:7 for m= 1:4Ca=meanp(mJ);Cb=meanp(mj);mina( 1 ,m)=min(Ca,Cb);%i p 算任意两横的最小值 maxa( 1 ,m)=max(Ca,Cb);%i I 算任意两横的最大值R(iJ)=sum(mina)/sum(maxa);% 计算 ,即相似程度的量end endR
22、%显示相似矩阵100.210.330.300.270.36010.150140.08000.090.210.1510.770.520.600.42得相似矩阵:R =0.330.140.7710.530.610.430.300.080.520.5310.690.680.270.100.600.610.6910.730.360.090.420.430.680.731、改造相似关系为等价关系进行聚类分析矩阵R满足自反性和对称性,但不具有传递性,为求等价矩阵,要对进行 改造,只需求其传递闭包。由平方法可得10.150.360.360.360.360.360.151050.150.150.150.150.360510.770.600.610.60RoR = Ri =0.360.150.7710.610.610.610.360.150.600.6110.690.690.360.150.610.610.6910.730.36050.600.610.690.73110150.360.360.360.360.36051050.1505050.150.360510.770.61
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年河南省许昌市招聘乡村振兴村级协理员220人笔试备考题库及答案详解
- 2026重庆市荣昌区委统战部公益岗招聘2人笔试参考题库及答案详解
- 2026年下半年陕西事业单位招聘考试笔试备考试题及答案详解
- 2026年6月贵州贵阳市观山湖区朱昌镇招聘乡村公益性岗位2人笔试模拟试题及答案详解
- 2026浙大衢州“两院”招聘工作人员4人笔试备考题库及答案详解
- 2026浙江宁波市江北区营商环境办招聘编外人员20人笔试模拟试题及答案详解
- 珠宝首饰售后服务质量承诺合同
- 核心价值观指导下的2026年数据标注兼职协议
- 2026浙江温岭市中医院招聘编外员工1人笔试备考题库及答案详解
- 琴道馆教学设备维修服务合同
- 2026年广西继续教育公需科目试题及答案
- 2026年玉溪市中医医院公开招聘编外工作人员(17人)笔试备考试题及答案解析
- 政治+答案【一六八最后一卷】安徽合肥市第一六八中学等校2026届高三年级最后一卷(5.14-5.15)
- 山东省东营市2026年中考三模物理试题(含答案解析)
- 2026年今年征兵心理测试题及答案
- 2026江苏徐州市新盛集团下属城商集团招聘12人备考题库及参考答案详解一套
- 功能色母粒企业标准
- 高中记叙文写作指导名师优质课获奖市赛课一等奖课件
- 药食同源健康养生演示文稿
- CA1340自动车床杠杆机械制造课程设计
- 2018杭州西湖区小升初新生素质测试卷-英语
评论
0/150
提交评论