




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、常用建模方法,1 分类与聚类方法,2 综合评价方法,3 预测方法简介,4 满意度数学建模概述,常用建模方法,第1讲 分类与聚类方法,距离判别法,费歇尔(Fisher)判别法,聚类分析法,一、距离判别法,按新样本到各总体的距离中的“最近”者来判别 新样本的归属,这就是距离判别法。,(一)统计距离,设D是某个p维空间的一个点集,D中取任意两点:,,,,有,1。Euclidean(欧几里得)距离(简称欧氏距离),即:,2。Minkovski(明考夫斯基)距离,3。Mahalanobis(马哈拉诺比斯)距离(简称马氏距离),平方为,马氏距离是欧氏距离的标准化。,距离判别中采用马氏距离而非欧氏距离。,(
2、二)两个总体情形的判别,判别准则为:,判别函数为,判别准则为:,判别函数为,判别准则为:,的无偏估计为,的一个无偏估计为,其中,(三)多个总体情形的判别,设有m个p维总体,任一总体。,(略),例:两种蠓Af和Apf共15种样品,已由生物学家根据它们的触角长度和翼长加以区分,其中9只Af蠓,6只Apf蠓,观测数据如表示,第一类(Apf族),第二类(Af族),(1) 给定一只Af或Apf的蠓,试问如何正确区分它属于哪一族?,(2) 将所采用的方法用于触角长和翼长分别为(1.24,1.80), (1.28,1.84),(1.40,2.04)的三个标本。,解:,设G1,G2有相同协方差阵,则,于是,得
3、判别函数:,对原来的样品,计算出W(X)的值如表所示:,结果全部判对。(2)中三个标本算出W(X)分别为2.15,1.34,1.93,说明它们都属Apf类,clear clc x1=1.14 1.18 1.2 1.26 1.3 1.28; y1=1.78 1.96 1.86 2 1.96 2; x2=1.24 1.36 1.38 1.38 1.38 1.40 1.48 1.54 1.56; y2=1.72 1.74 1.64 1.82 1.90 1.70 1.82 1.82 2.08; n1=length(x1);n2=length(x2); %判断数据长度 z1=x1;y1 %合并数据 z2
4、=x2;y2 t1=sum(z1)/n1 %求平均值向量 t2=sum(z2)/n2 tt1=t1(1)*ones(1,n1);t1(2)*ones(1,n1) tt2=t2(1)*ones(1,n2);t2(2)*ones(1,n2) s1=(z1-tt1)*(z1-tt1) %求协方差矩阵 s2=(z2-tt2)*(z2-tt2) v=(s1+s2)/(n1+n2-2) v1=v(-1) syms x11 x22 %定义符号 t=(t1+t2)/2; %估计总均值 x=x11;x22; w=(x-t)*v1*(t1-t2) %求判别函数,%判别计算 for i=1:n1 w1(i)=(z1
5、(:,i)-t)*v1*(t1-t2); end for j=1:n2 w2(j)=(z2(:,j)-t)*v1*(t1-t2); end w1,w2,二、费歇尔(Fisher)判别法,对任意总体,将多维问题化为一维问题,并用线性判别函数来解决多个总体的判别问题。,费歇尔判别法的步骤:,m个p维总体,1列出样本观测阵:,(可为单位向量);,8回代样本,进行判别。对给定的样品X,如果相应的,。,则X应归属于,其中:,改进,并取由大到小的前r个特征值对应的特征向量:,根据欧氏距离的大小划分R1,R2,Rm。,(j=1,2,m),即利用待判别样品X,计算出m个值,(j=1,2,m),从中找出最小者就
6、是X所属的类。,,,赛题三_费歇尔判别.doc,三、聚类分析法,聚类分析一般是在不知道类型的个数或对各种类型的结构未作任何假设的情况下寻找处理客观分类的方法。,从一批样品的多个指标变量中,定义能度量样品间或变量间相似程度(或亲疏关系)的统计量,并求出各样品(或变量)之间的相似程度量值,按相似程度的大小,把样品逐一归类,关系密切的类聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品都聚集完毕。,(一)聚类统计量,描述个体或变量相似程度的数学方法。一般来说,数学方法不同,产生的分类结果也有所不同。目前,常用的数学方法有两大类:一类是相似或相关系数法;另一类是距离法。,1。相似
7、系数,设有n个变量(个体),每个个体视为p维空间(即p个指标)的点,即,,,,,,其中,,,表示第,个样品的第,相关系数,表示样本均值,相似系数,(3)指数相似系数,2。距离,a. 绝对值距离,b. 欧氏距离,c. 马氏距离,,,注意:当p个指标之间数值差异太大时,直接使用以上各式计算相关系数或距离,常使数值较小的指标失去作用,这显然是很不合适的,为此,需要将数据作标准化处理,即令,第k个指标的样本方差;,(2) 类与类之间的距离,类与类之间的距离,常用的有下面几种:,(二)聚类方法,1。系统聚类法,(1)最短距离法,最短距离法的步骤:,a. 将n个个体各自成一类,共n类;,表示;,c. 计算
8、各类之间的距离,得对角线元素全为0的对称阵D;,则对应这些最小元素的类可以同时合并。,例:设有8个二维向量(点),数据如下:,试用欧氏距离和最短距离法分类。 解:用下列程序可以计算出类与类之间的距离,程序:x=2 2 4 4 -4 -2 -3 -1; y=5 3 4 3 3 2 2 -3; for i=1:8 for j=i:8 d(i,j)=sqrt(x(i)-x(j)2+(y(i)-y(j)2); end, end 得距离矩阵,从矩阵中看出D(3,4)和D(6,7)最小,因此,将G3和G4合并成新类G9,G6和G7合并成G10; 计算G9和G10到G1,G2,G5,G8的距离,如,D(9,
9、1)=min(D(3,1),D(4,1)=2.2; 同理计算D(9,2)、D(9,5)、,D(9,10)=min(D(3,6),D(3,7),D(4,6),D(4,7)=D(4,6)=6.1,最小元素D(5,10)=1.4。将G5和G10合并到新类G11。,最小元素D(1,2)=D(2,9)=2.0,将G1,G2,G9合并到新类G12。,最小元素D(11,12) = 4.1。将G11,G12合并到新类G13。,最小元素D(11,12) = 4.1。将G11,G12合并到新类G13。,最小元素D(8,13)=5.1。将G8,G13合并到新类G14。至此,聚类完毕。过程如图,分成三大类:G1G4为
10、一类;G5G7为一类;而G8为一类。,(2)综合变量法,综合变量法是采用相似系数进行分类,综合变量法是采用相似系数进行分类。 下面通过一个例子,说明综合变量法的方法和步骤。,解:(1)将每个个体视为一类. 计算类之间的归类指标,用如下公式计算,并取绝对值作为归类指标,利用下列程序,得数据表r如下:,X=1 -1 1 3 -2 0;1 0 3 -1 -1 0;-1 0 1 2 4 1;0 -1 3 1 -1 -1;-1 2 0 -1 0 1 m,n=size(X),for i=1:m for j=1:m r(i,j)=abs(sum(X(i,:).*X(j,:)/sqrt(sum(X(i,:).
11、2)*sum(X(j,:).2); end end,得结果为 r = 1.0000 0.2165 0.1043 0.6240 0.5669 0.2165 1.0000 0.2408 0.7206 0 0.1043 0.2408 1.0000 0 0 0.6240 0.7206 0 1.0000 0.4193 0.5669 0 0 0.4193 1.0000,(2)将归类指标相似系数最大的两个个体归为一类。,(4)仍用上述公式计算类,得如下表:,的归类指标,,r = 1.0000 0.4575 0.1043 0.5669 0.4575 1.0000 0.1272 0.2306 0.1043 0.
12、1272 1.0000 0 0.5669 0.2306 0 1.0000,(5)将归类指标相似系数最大的两个个体归为一类。,r = 1.0000 0.3678 0.1257 0.3678 1.0000 0.1272 0.1257 0.1272 1.0000,。,2。 一次形成聚类法(方法粗糙),综合变量法的优点是方法简单,缺点是当样本较大时,计算量相当大。一次形成聚类法可以减少运算量。,以上面例子为例,介绍该方法的步骤。,步骤:,第一步:利用相关系数公式,计算相关系数绝对值矩阵,r = 1.0000 0.2165 0.1043 0.6240 0.5669 0.2165 1.0000 0.240
13、8 0.7206 0 0.1043 0.2408 1.0000 0 0 0.6240 0.7206 0 1.0000 0.4193 0.5669 0 0 0.4193 1.0000,的归类。分两种情况:,对应的样本的归类。分四种情况:,遇到第三步中(1)和(2)两种情况时,则和它们的处理相同;,则将这两个不同的类并为一类;,已得的归类不变。本例中,第三大元素为,第五步:再找第四、第五大的元素,依次重复第四步中的作法,直到所有样本并为一个大类为止。,3. 模糊聚类分析,模糊聚类分析步骤:,概括为: 数据标准化、建立模糊相似矩阵、聚类。,(一)数据标准化:将数据压缩到区间0,1内。,数据变换:,个
14、元素有,这时原始数据矩阵为:,(a)标准差变换:,经过变换后,每个变量的均值为0,标准差为1,并可以消除量纲的影响,但有可能不在0,1区间上。,(b)极差变换:如果经过标准差变换后还有某些数据不在0,1内,则还需要进行极差变换。,(二)建立模糊相似矩阵,的计算有多种方法:,(1)相似系数法,相似系数,相关系数,指数相似系数法,最大最小法,算术平均最小法,(2)距离法,绝对值倒数法,其中M需要适当选取,使,海明距离法,其中H需要适当选取,使,欧氏距离法,其中E需要适当选取,使,(三)模糊等价矩阵聚类,根据标定所建立的模糊矩阵R,一般来说具有自反性和对称性,不满足传递性,即只是一个模糊相似矩阵,不
15、一定是模糊等价矩阵。只有当R是模糊等价矩阵才能聚类。,可以通过求传递包将n阶模糊相似矩阵R改造为n阶模糊等价矩阵t(R)。,从模糊相似矩阵R出发,依次求平方:,然后从 中由大到小取 值,确定相应的 矩阵,则可以将其分类,从而也可构成聚类图。,例:长江流域水环境质量模糊聚类分析,考察长江流域及支流共17个水质观测点记为X。四川攀枝花(x1)、重庆朱沱(x2) 、湖北宜昌南津关、湖南岳阳城陵矶、江西九江河西水厂、安徽安庆皖河口、江苏南京林山、四川乐山岷江大桥、四川宜宾凉姜沟、四川泸州沱江二桥、湖北丹江口胡家岭、湖南长沙新港、湖南岳阳岳阳楼、湖北武汉宗关、江西南昌滁槎、江西九江蛤蟆石、江苏扬州三江营(x17) 的水质情况,每个观测点的水质取决于四个指,标,即高锰酸盐指数(CODMn)、氨氮(NH3-N)、,溶解氧(DO)、PH(无量纲),现根据这四项指标,对长江干流17个观测点的水质作聚类分析。,长江流域17个观测点四项水质指标有月均值,采用极差正规化方法对数据进行标准化,得数据矩阵为,数据标准化,X=,选用海明距离法建立模糊相似矩阵,构造模糊相似矩阵,R=,传递闭包法,该矩阵为对称性,主对角以上部分省略了,对R依次求平方,利用MATLAB计算得,R16=R8,可知R8是模糊等价矩阵。,利用R8,由大到小取
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 航空发动机维修技术创新与成本控制策略实施报告2025
- 企业审计应急预案方案(3篇)
- 指标提升行动方案(3篇)
- 2025年版医疗器械经营监督管理办法培训试题及答案
- 合规审批管理办法
- 同盟古镇管理办法
- 后备梯队管理办法
- 员工军事管理办法
- 售价定价管理办法
- 商业赞助管理办法
- 陕西事业单位考试真题2024
- 2025电子产品租赁合同模板
- 基于Hive数据仓库的瓜子网二手车数据分析系统设计与实现
- 阑尾炎术前术后健康宣教
- 留置看护队员试题及答案
- 2023版苏州轨道交通施工负责人考试题库必考点含答案
- 工作秘密事项清单范文(6篇)
- 中国药师职业技能大赛处方审核案例题及答案
- GA/T 1378-2018法庭科学STR已知分型参照物质技术要求
- CVP的测量方法和注意事项
- GB∕T 20975.25-2020 铝及铝合金化学分析方法 第25部分:元素含量的测定 电感耦合等离子体原子发射光谱法
评论
0/150
提交评论