23 MATLAB数理统计.doc_第1页
23 MATLAB数理统计.doc_第2页
23 MATLAB数理统计.doc_第3页
23 MATLAB数理统计.doc_第4页
23 MATLAB数理统计.doc_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

23 matlab数理统计本章要点: matlab中多元回归分析的实现方法 matlab中逐步回归分析的实现方法 matlab中聚类分析的实现方法 matlab中主因子分析的实现方法 matlab中对应分析的实现方法 matlab中时间序列分析的实现方法23.1 多元回归分析% 回归分析的matlab代码% 0. 清除工作区间所有变量clear all;% 1. 线性回归x1=2:11;% 输入变量x1x=ones(size(x1);x1;% 输入变量x(在x1前加一列1并转置)y=6.42 8.2 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59; % 输入变量y并转置b1=regress(y,x);% 回归结果: 系数b1b1,b2=regress(y,x);% 回归结果: b1,95%置信区间b2b1,b2,b3=regress(y,x);% 回归结果: b1,b2,残差b3b1,b2,b3,b4=regress(y,x);% 回归结果: b1,b2,b3,残差95%置信区间b4b1,b2,b3,b4,b5=regress(y,x);% 回归结果: b1,b2,b3,b4,b5(r2,f,p)alp=0.85; b1=regress(y,x,alp);% 回归结果为 b1(左端同上),输入置信度alp% 2. 非线性回归clear all; % 清除工作区间所有变量x=2:11; % 输入变量xy=6.42 8.2 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59; % 输入变量ybeta0=0.1 0.1; % 设置参数初始值beta0beta,r,j=nlinfit(x,y,f1,beta0); % 回归结果: 系数beta,残差r,jacobi矩阵jbeta=nlinfit(x,y,f1,beta0); % 回归结果: 系数beta% 2-1. 回归函数f1的代码(另存为工作目录下)% function y=f1(beta,x)% a=beta(1);% b=beta(2);% y=x./(a*x+b);23.2逐步回归分析23.2.1 理论基础逐步回归分析是从一个自变量开始,视自变量y作用的显著程度,从大到地依次逐个引入回归方程。 当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉;引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步;对于每一步都要进行y值检验,以确保每次引入新的显著性变量前回归方程中只包含对y作用显著的变量;这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。 matlab中逐步回归的命令是stepwise。该命令提供了一个交互式画面,通过此工具可以自由地选择变量进行统计分析。调用格式为:stepwise(x,y,inmodel,alpha)其中x是自变量数据,y是因变量数据,分别为nm和nl矩阵,inmodel是矩阵的列数指标(缺省时为全部自变量),alpha,为显著性水平(缺省时为0.5)。结果产生三个图形窗口,在stepwise plot窗口,虚线表示该变量的拟合系数与0无显著差异,实线表示有显著差异,红色线表示从模型中移去的变量;绿色线表明存在模型中的变量,点击一条会改变其状态。在stepwise table窗口中列出一个统计表,包括回归系数及其置信区间,以及模型的统计量:剩余标准差(rmse)、相关系数 (r-square)、f值和p值。23.2.2 算例23.2.2.1 问题描述试验原始数据取自于某工程16处的样品(i=26),描述样品特性的自变量指标为7个、因变量指标为1个,即分别为x(i,1), x(i,2), , x(i,7)和y(1), y(2), , y(7),试验结果见表23-1。 试确定x和y之间的逐步回归关系。表23-1 逐步回归分析原始数据表样品编号ix(i,1)x(i,2)x(i,3)x(i,4)x(i,5)x(i,6)x(i,7)y(i)10.704.060.0150.0195.00.9550.9101.1821.105.064.0152.5217.50.9500.8801.3631.205.582.5187.5242.50.9150.8551.5841.204.557.5130.0177.50.9700.9251.2050.855.062.5150.0217.50.9500.8801.3761.005.092.5160.0242.50.9450.8551.5871.155.597.5175.0250.00.9300.8351.6281.253.555.0145.0177.50.9550.9251.0890.605.065.0152.5217.50.9450.8801.22100.905.077.5160.0192.50.9400.8551.60111.305.595.0175.0250.00.9300.8351.65120.653.570.0135.0182.50.9700.9201.10131.104.574.0150.0217.50.9500.8751.18141.155.577.5160.0255.00.9450.8351.32151.255.592.5165.0257.50.9400.8251.56161.305.0105.0180.0262.50.9250.8151.5423.2.2.2 程序代码% 1 输入原始数据clear all;x1=0.7,1.1,1.2,1.2,0.85,1.0,1.15,1.25,0.6,0.9,1.3,0.65,1.1,1.15,1.25,1.3; x2=4.0,5.0,5.5,4.5,5.0,5.0,5.5,3.5,5.0,5.0,5.5,3.5,4.5,5.5,5.5,5.0; x3=60.0,64.0,82.5,57.5,62.5,92.5,97.5,55.0,65.0,77.5,95.0,70.0,74.0,77.5,92.5,105.0;x4=150,152.5,187.5,130,150,160,175,145,152.5,160,175,135,150,160,165,180;x5=195,217.5,242.5,177.5,217.5,242.5,250,177.5,217.5,192.5,250,182.5,217.5,255,257.5,262.5;x6=0.955,0.950,0.915,0.970,0.950,0.945,0.930,0.955,0.945,0.940,0.930,0.970,0.950,0.945,0.940,0.925;x7=0.910,0.880,0.855,0.925,0.880,0.855,0.835,0.925,0.880,0.855,0.835,0.920,0.875,0.835,0.825,0.815;y=1.18,1.36,1.58,1.20,1.37,1.58,1.62,1.08,1.22,1.60,1.65,1.10,1.18,1.32,1.56,1.54; % 2 回归分析x=x1,x2,x3,x4,x5,x6,x7;stepwise(x,y,0.1); = x6,x7可去掉x=x1,x2,x3,x4,x5;stepwise(x,y,0.1); = x1,x7可去掉x=x2,x3,x4,x5;stepwise(x,y,0.1); = 得到回归系数23.2.2.1 结果分析采用逐步回归分析时不同步骤的统计判断情况见表23-2。表23-2中,rmse为多元回归分析均方差平方根,其值越小、则拟合效果越好;r2为复相关系数的平方,其值越大拟合效果越好。rmse和r2分别根据公式(23-1)和(23-2)进行计算。 (23-1) (23-2)式中,m为各步回归分析的变量数;n为样本数,n=16;为第i个样本的估计值;yi为第i个样本的实测值;xik为第i个样本第k个参数的实测值;i为待估参数。由表23-2可以看出,第六、第七参数在第一步即可剔除;剩余五个参数重新计算后,第一参数在第二步可以剔除;此后,再不能剔除各个参数了。因此,第二、第三、第四和第五参数被保留了下来。由表23-5可知, y与x2、x3、x4和x5之间的关系为 (23-3)由式(23-3)可以看出, x2和x3为主要参数,x4、x5为次要参数;x2越大则y越大。表 23-2 不同步骤的判断结果步骤回归系数置信区间rmser2列数值下限值上限值010.004979-0.17340.18330.075610.927120.25030.12610.374530.0081350.0016830.0145940.01635-0.0048840.037585-0.005943-0.009655-0.00223611.79-8.54532.137-0.1135-4.163.933110.003521-0.16290.170.072530.916120.22430.13220.316430.0092940.0049840.013640.0042530.000094280.0084115-0.005156-0.008034-0.002277220.22430.13730.31330.069160.916130.0093030.0052520.0133540.0042620.00035880.0081665-0.005152-0.007867-0.00243723.3聚类分析23.3.1 理论基础聚类分析是将数据分为若干类的一种多变量统计分析方法,通常有层次聚类和非层次聚类两种类型。层次聚类使用不同的样本距离和类间距离对样品进行聚类,而非层次聚类主要包括c-均值聚类和模糊c-均值聚类。聚类分析可用于分析样品的类型和特性、类别之间的相似性和差异性。假设共有n个样品,第i土个样品属于类别y=y1,y2,yk之一(k为类别总数),每一样品使用p个指标x(i,1), x(i,2), , x(i,p)(i=1,2,n)来描述。根据试验可得观测数据矩阵x(=x(i,j)。下面使用层次聚类法(简作hc)、模糊c-均值聚类(简作fcm)对样品类别进行聚类分析与评判。hc首先将n个样本中的每一样本看作一类,再把两个相距最近的样本合成为一个新的类别,然后计算新的(n-1)个样本或样本组之间的距离、将相距最近的样本或样本组合并为一个新类。重复这一过程,直到所有样本组合为一类。fcm是根据隶属度大小把样本归属于某类的数据聚类技术。聚类开始时,假定初始聚类中心并依据隶属度大小将任一样本赋予一类。此后,将聚类中心移动到使目标函数取最小值的合适位置。样本距离和类间距离可以有不同定义。样本距离通常有欧氏距离、城块距离、闵氏距离、余弦距离、相关距离、海明距离、切比契夫距离等,类间距离计算方法通常有类平均法、全距离法、加权均值法、重心法、中间值法。23.3.2 算例23.3.2.1 问题描述下面以某处试验资料为例,说明使用聚类分析方法确定样品类型、不同聚类方法确定结果的比较。试验原始数据取自于某工程的26个样品(i=26),描述样品特性的重要指标选为10个,即x(i,1), x(i,2), , x(i,10),试验结果见表23-1。 由于分析的样品类别有三类(见表23-3),聚类数反映了各类别的物理力学性质差异,因此,聚类分析时聚类数取为3。为了消除不同指标使用不同量纲的影响,使用式(23-4)对原始数据矩阵x进行无量刚化处理: (23-4)式中,xjm和xjn分别为第j个指标的最大值和最小值。表23-3 试验成果简表样品编号实际类别x(i,1)x(i,2)x(i,3)x(i,4)x(i,5)x(i,6)x(i,7)x(i,8)x(i,9)x(i,10)112.7333.618.60.96135.014.51711.30.414.54212.7325.319.50.75438.316.92011.30.453.73312.7223.619.80.69833.913.81611.60.285.84412.7325.919.70.74533.613.61812.40.305.62512.7325.819.60.75237.216.02012.10.295.80612.7332.618.60.94637.716.41511.00.444.24712.7231.518.80.90333.913.71511.90.364.99812.7336.618.61.00538.116.91912.40.523.70912.7325.919.50.76337.616.42011.60.315.431012.7325.919.60.75438.016.61812.40.325.311112.7327.719.00.83537.716.42011.60.443.881222.7335.218.60.98438.116.71511.30.454.191322.7335.018.60.98138.416.81711.00.444.361422.7335.118.60.98338.416.91513.50.483.871522.7336.018.11.05137.316.11214.00.395.041622.7325.519.60.74836.815.72011.30.354.791732.7436.118.41.02740.718.5129.90.613.121832.7438.918.11.10342.619.8139.10.682.921932.7436.518.01.07839.417.6108.50.782.482032.7437.818.11.08639.817.9128.80.623.142132.7441.217.41.22340.918.61010.20.812.532232.7437.518.11.08139.817.9128.30.653.062332.7438.418.31.07240.718.5109.90.682.812432.7437.218.21.06639.617.81510.50.583.352532.7437.718.31.06240.718.51510.20.643.052632.7441.617.51.22542.920.11610.80.802.6123.3.2.2 程序代码% 1 输入原始数据clear all;x0= 1, 2.73, 33.6, 18.6, 0.961, 35.0, 14.5, 17, 11.3, 0.41, 4.54;1, 2.73, 25.3, 19.5, 0.754, 38.3, 16.9, 20, 11.3, 0.45, 3.73;1, 2.72, 23.6, 19.8, 0.698, 33.9, 13.8, 16, 11.6, 0.28, 5.84;1, 2.73, 25.9, 19.7, 0.745, 33.6, 13.6, 18, 12.4, 0.30, 5.62;1, 2.73, 25.8, 19.6, 0.752, 37.2, 16.0, 20, 12.1, 0.29, 5.80;1, 2.73, 32.6, 18.6, 0.946, 37.7, 16.4, 15, 11.0, 0.44, 4.24;1, 2.72, 31.5, 18.8, 0.903, 33.9, 13.7, 15, 11.9, 0.36, 4.99;1, 2.73, 36.6, 18.6, 1.005, 38.1, 16.9, 19, 12.4, 0.52, 3.70;1, 2.73, 25.9, 19.5, 0.763, 37.6, 16.4, 20, 11.6, 0.31, 5.43;1, 2.73, 25.9, 19.6, 0.754, 38.0, 16.6, 18, 12.4, 0.32, 5.31;1, 2.73, 27.7, 19.0, 0.835, 37.7, 16.4, 20, 11.6, 0.44, 3.88;2, 2.73, 35.2, 18.6, 0.984, 38.1, 16.7, 15, 11.3, 0.45, 4.19;2, 2.73, 35.0, 18.6, 0.981, 38.4, 16.8, 17, 11.0, 0.44, 4.36;2, 2.73, 35.1, 18.6, 0.983, 38.4, 16.9, 15, 13.5, 0.48, 3.87;2, 2.73, 36.0, 18.1, 1.051, 37.3, 16.1, 12, 14.0, 0.39, 5.04;2, 2.73, 25.5, 19.6, 0.748, 36.8, 15.7, 20, 11.3, 0.35, 4.79;3, 2.74, 36.1, 18.4, 1.027, 40.7, 18.5, 12, 9.9, 0.61, 3.12;3, 2.74, 38.9, 18.1, 1.103, 42.6, 19.8, 13, 9.1, 0.68, 2.92;3, 2.74, 36.5, 18.0, 1.078, 39.4, 17.6, 10, 8.5, 0.78, 2.48;3, 2.74, 37.8, 18.1, 1.086, 39.8, 17.9, 12, 8.8, 0.62, 3.14;3, 2.74, 41.2, 17.4, 1.223, 40.9, 18.6, 10, 10.2, 0.81, 2.53;3, 2.74, 37.5, 18.1, 1.081, 39.8, 17.9, 12, 8.3, 0.65, 3.06;3, 2.74, 38.4, 18.3, 1.072, 40.7, 18.5, 10, 9.9, 0.68, 2.81;3, 2.74, 37.2, 18.2, 1.066, 39.6, 17.8, 15, 10.5, 0.58, 3.35;3, 2.74, 37.7, 18.3, 1.062, 40.7, 18.5, 15, 10.2, 0.64, 3.05;3, 2.74, 41.6, 17.5, 1.225, 42.9, 20.1, 16, 10.8, 0.80, 2.61;for i=1:10, x(:,i)=x0(:,i+1);end;% 提取分类参数nm=size(x0);for i=1:nm(1), y0(i)=x0(i,1);end;% 样品实际类型% 2 使用模糊c均值聚类方法进行聚类center,u,obj_fcn=fcm(x,3);% 模糊c均值聚类y=sort(u);y,i=sort(u);% 排序format short g% 实数输出格式center; % 显示模糊聚类中心max(u); % 样品隶属度i(3,:) % 类别代码% 制作聚类图形maxu=max(u);% 样品隶属度index1=find(u(1,:)=maxu); % 找到属于第1类的点index2=find(u(2,:)=maxu); % 找到属于第2类的点index3=find(u(3,:)=maxu); % 找到属于第3类的点% 作图line(x(index1,1),x(index1,2),linestyle,none,marker,o,color,g);line(x(index2,1),x(index2,2),linestyle,none,marker,x,color,r);line(x(index3,1),x(index3,2),linestyle,none,marker,+,color,k);% 显示每一类中心hold on;plot(center(1,1),center(1,2),kpentagram,markersize,7,linewidth,2);plot(center(2,2),center(2,2),ksquare,markersize,7,linewidth,2);plot(center(3,2),center(3,2),kv,markersize,7,linewidth,2);% 3 使用层次聚类方法进行聚类z = linkage(x,single,euclidean); % 样本数据,距离定义,聚合方法% single可为下述之一:% single/complete/average/weighted/% centroid/median/ward % 此时,第3项只能是euclidean% euclidean可为下述之一:% euclidean/seuclidean/cityblock/mahalanobis/minkowski/cosine/% correlation/spearman/hamming/jaccard/chebychevdendrogram(z);% 画出谱图t = cluster(z,3);% 将x聚合为3类xlabel(observations,fontsize,20); hold on;ylabel(distances of observations,fontsize,20); hold on;set(gca,fontsize,16,linewidth,3); hold ont=t;% 分类参数取“全部参数”、距离为欧氏距离下不同层次聚类方法的聚类结果z = linkage(x,complete,euclidean); % 样本数据,距离定义,聚合方法t21= cluster(z,3);t21=t21% 将x聚合为3类z = linkage(x,average,euclidean); % 样本数据,距离定义,聚合方法t22= cluster(z,3);t22=t22% 将x聚合为3类z = linkage(x,weighted,euclidean); % 样本数据,距离定义,聚合方法t23= cluster(z,3);t23=t23% 将x聚合为3类z = linkage(x,centroid,euclidean); % 样本数据,距离定义,聚合方法t24= cluster(z,3);t24=t24% 将x聚合为3类z = linkage(x,median,euclidean); % 样本数据,距离定义,聚合方法t25= cluster(z,3);t25=t25% 将x聚合为3类z = linkage(x,median,euclidean); % 样本数据,距离定义,聚合方法t26= cluster(z,3);t26=t26% 将x聚合为3类% 分类参数取“全部参数”、聚类方法取类平均法、不同距离定义下的层次聚类结果z = linkage(x,average,seuclidean); % 样本数据,距离定义,聚合方法t31= cluster(z,3);t31=t31% 将x聚合为3类z = linkage(x,average,cityblock); % 样本数据,距离定义,聚合方法t32= cluster(z,3);t32=t32% 将x聚合为3类z = linkage(x,average,seuclidean); % 样本数据,距离定义,聚合方法t33= cluster(z,3);t33=t33% 将x聚合为3类z = linkage(x,average,mahalanobis); % 样本数据,距离定义,聚合方法t34= cluster(z,3);t34=t34% 将x聚合为3类z = linkage(x,average,minkowski); % 样本数据,距离定义,聚合方法t35= cluster(z,3);t35=t35% 将x聚合为3类z = linkage(x,average,cosine); % 样本数据,距离定义,聚合方法t36= cluster(z,3);t36=t36% 将x聚合为3类z = linkage(x,average,correlation); % 样本数据,距离定义,聚合方法t37= cluster(z,3);t37=t37% 将x聚合为3类z = linkage(x,average,spearman); % 样本数据,距离定义,聚合方法t38= cluster(z,3);t38=t38% 将x聚合为3类z = linkage(x,average,hamming); % 样本数据,距离定义,聚合方法t39= cluster(z,3);t39=t39% 将x聚合为3类z = linkage(x,average,jaccard); % 样本数据,距离定义,聚合方法t310= cluster(z,3); t310=t310% 将x聚合为3类z = linkage(x,average,chebychev); % 样本数据,距离定义,聚合方法t311= cluster(z,3); t311=t311% 将x聚合为3类25.3.1.3 结果分析图23-1是样本距离和类间距离分别使用欧氏距离法和类平均法得到的26个样本聚类直方图。表23-4是使用不同变量组合、不同样本距离、不同类间距离的层次聚类结果。表23-5为fcm的聚类结果。这两张表中,聚类条件表示选用不同变量的情况:情况1选用x(i,4)和x(i,6);情况2选用x(i,4)、x(i,5)和x(i,6);情况3选用x(i,2)、x(i,4)、x(i,5)和x(i,6);情况4选用x(i,1)、x(i,2)、x(i,4)、x(i,5)和x(i,6);情况5选用全部10个变量;类别序列为类别编号(见表23-2)的排列;土类序列中的黑斜体表示误判土类。从表23-4可以看出,层次聚类时如果只选用一部分变量,误判率高达42.3%和53.8%;如果选用全部变量、样本距离不选用海明距离、类间距离采用类平均法,误判率可降至19.2%。由表23-5可以看出,如果fcm中所选变量很少(比如选用x(i,4)和x(i,6)或三个变量x(i,4)、x(i,5)和x(i,6)),误判率为30%左右,这一误判率过大。然而,如果此时选择三个以上的变量,误判率则为19.2%左右。从实用观点出发,上述聚类分析方法可用于实际工程中类别的初步确定,对亚类划分也有一定的参考价值。如果聚类分析时使用合适的样本距离、类间距离并且较多选用指标,会获得比较好的聚类结果,可为样品类别鉴定和性质评判提供许多有用信息。 样品编号图23-1 样品层次聚类直方图表23-4 样品的层次聚类结果聚类条件样本距离类间距离类别序列误判率实际情况1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3情况1欧氏距离类平均法1 3 1 1 3 3 1 3 3 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3 3 214/26=53.8%情况21 2 1 1 3 3 1 3 3 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3 3 214/26=53.8%情况33 1 2 2 1 3 3 3 1 1 1 3 3 3 3 1 3 3 3 3 3 3 3 3 3 311/26=42.3%情况43 1 2 2 1 3 3 3 1 1 1 3 3 3 3 1 3 3 3 3 3 3 3 3 3 311/26=42.3%情况5全距离法2 1 1 1 1 2 2 3 1 1 1 2 2 2 2 1 3 3 3 3 3 3 3 3 3 35/26=19.2%加权均值法2 1 1 1 1 2 2 2 1 1 1 2 2 2 2 1 3 3 3 3 3 3 3 3 3 35/26=19.2%重心法2 1 1 1 1 2 2 2 1 1 1 2 2 2 2 1 3 3 3 3 3 3 3 3 3 35/26=19.2%中间值法2 1 1 1 1 2 2 2 1 1 1 2 2 2 2 1 3 3 3 3 3 3 3 3 3 35/26=19.2%城块距离类平均法2 1 1 1 1 2 2 2 1 1 1 2 2 2 2 1 3 3 3 3 3 3 3 3 3 35/26=19.2%闵氏距离2 1 1 1 1 2 2 2 1 1 1 2 2 2 2 1 3 3 3 3 3 3 3 3 3 35/26=19.2%余弦距离2 1 1 1 1 2 2 2 1 1 1 2 2 2 2 1 3 3 3 3 3 3 3 3 3 35/26=19.2%相关距离2 1 1 1 1 2 2 2 1 1 1 2 2 2 2 1 3 3 3 3 3 3 3 3 3 35/26=19.2%海明距离1 1 2 1 1 1 2 1 1 1 1 1 1 1 3 1 3 3 3 3 3 3 3 3 3 37/26=26.9%切比契夫距离2 1 1 1 1 2 2 2 1 1 1 2 2 2 2 13 3 3 3 3 3 3 3 3 35/26=19.2%表 23-5 样品模糊c-均值聚类结果聚类条件类别序列总数正确错误误判率%实际情况1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3情况11 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 32618830.8情况21 2 1 1 2 2 1 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 32619726.9情况32 1 1 1 1 2 2 2 1 1 1 2 2 2 2 1 3 3 3 3 3 3 3 3 3 32621519.2情况42 1 1 1 1 2 2 2 1 1 1 2 2 2 2 1 3 3 3 3 3 3 3 3 3 32621519.2情况52 1 1 1 1 2 2 2 1 1 1 2 2 2 2 1 3 3 3 3 3 3 3 3 3 32621519.223.4主因子分析% 主因子分析的matlab代码% 0. 清除工作区间所有变量clear all;% 1. 输入原始数据(得到9*14的矩阵catagories,329*43的矩阵names,329*9的ratings)load cities% 2. 对原始数据ratings进行标准化(=各数/列标准差),得到矩阵srsr = ratings./repmat(std(ratings),329,1);% 3. 对标准化后的数据sr进行主因子分析c1,c2,c3,c4=princomp(sr); % c1(:,1:3)为头三个主因子系数,c2为新因子坐标系各样本因子得分 % c3为相应主因子解释差异特征值,c4为各样本对数据集中心距离% 4. 对主因子分析结果画图说明figure(1); plot(c2(:,1),c2(:,2),+); % 作第1与第2主因子分布图fig1figure(2); pareto(100*c3/sum(c3); % 作主因子解释性特征值(按由大到小排列)及累计值% 5. 寻找距离数据集中心最远的数据st2,index=sort(c4,descend);extreme=index(1);names(extreme,:)23.5对应分析 23.5.1 理论基础对应分析时,将p个指标、n个样品的原始数据矩阵x=xiji=1,n,j=1,p转换为矩阵z=zij (23-5)由于指标和样本间的协方差阵f=zz 、g=z z存在简明的对应关系、zij对指标和样本是对等的,可以使用f的结果计算g的特征值和特征向量,通过分析同一平面上的指标和样品散点图对指标和样品进行分类。23.5.2 算例23.5.2.1 问题描述23.5.2.2 程序代码% 对应分析的matlab代码% 0. 清除工作区间所有变量clear all;23.3.2.3 结果分析惯量和卡方分解结果见表23-6。从表23-6可以看出,第1特征根解释了信息量的62.72%,第2特征根解释了信息量的31.45%,两者之和为94.17%,因此,用二维图形完全可以表示两指标信息(且以第1维度为主)。两维度内的样品和指标的坐标与统计量计算结果见表23-7,表中a1a16和b1b7分别为样本编号与指标编号。图23-2为样本与指标的对应分析图(根据表23-7中各样品及指标与第1、第2维度关系作出),图中还标出了样品的聚类结果。表23-6 惯量和卡方分解结果奇异值惯量2百分比0.045850.0021015.626662.720.032470.001057.835031.450.009560.000090.67882.720.007890.000060.46251.860.006470.000040.31131.250.000290.000000.00060.00图23-2 样本与指标的对应分析图由表23-7和图23-2可以看出,在16个样本中,样本10和16对总特征根的贡献最大,7个指标中的b3、b4、b5对总特征根的贡献较大,各个类别(样品和指标在四个象限中的分布关系)不是分得很开,从三类样品的分布可以看出,a、b、c三类在对应分析图中依次出现,两个维度与三类样品具有很好的相关关系。就7个指标与16个样品的相关关系来说,x1、x2、x4、x5与各样品的关系比其他指标更为密切,这与指标聚类的结果基本一致。由于x2和x5(尤其是x5)在对应图中具有重要地位,实际测定过程中要特别注意x2和x5的测定。表23-7 两维度内样本和指标的坐标与统计量计算结果样本/指标编号第1维度第2维度对总特征根的贡献(%)最大贡献率所在维度维度贡献率对第1维度对第2维度a1-0.06210.01530.072110.10150.0122a2-0.0490-0.02590.055210.06790.0379a3-0.02960.02780.038820.02930.0513a4-0.03440.00290.029910.02830.0004a5-0.0514-0.03530.069310.07400.0696a60.0589-0.01180.073510.11170.0090a70.04930.01110.055010.08270.0084a8-0.07910.04050.130810.15390.0806a9-0.0437-0.02470.051510.05410.0344a100.00420.07530.105120.00050.3166a110.03960.00740.035510.05300.0037a120.02400.03020.032120.01450.0459a130.0037-0.01230.004120.00040.0087a14-0.0056-0.06260.079720.00100.2506a150.0457-0.03120.064810.06990.0651a160.06650.00890.102710.15730.0056b1-0.02020.01810.027420.00040.0007b2-0.0298-0.02500.022520.00440.0062b30.09550.02660.484510.71680

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论