西南交通大学2017数学建模国赛预选赛优秀论文_第1页
西南交通大学2017数学建模国赛预选赛优秀论文_第2页
西南交通大学2017数学建模国赛预选赛优秀论文_第3页
西南交通大学2017数学建模国赛预选赛优秀论文_第4页
西南交通大学2017数学建模国赛预选赛优秀论文_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、论文题目 摘要 本文针对分析消费者价值的问题,建立了聚类分析模型、主成份分析模型。在对消费者特征指标进行筛选后,对消费者样本进行了分类,最后对各类消费者的指标进行主成份分析得出综合评价值,据此为其制定出相应的服务策略。 问题一中,为了将消费者样本进行分类,首先对消费者原始数据进行了异常数据处理以及消费者特征指标的选取,为充分利用给出的原始数据中的各项指标,我们新增了一个特征指标:消费者购买频率,同时对其数据进行了正态性检验。然后建立了基于样本分类的 R 型聚类分析模型,将消费者分为了八类,例如:编号为 M00058、M00060、 M00116、M00135、M00142的消费者属于第一类消费

2、者,编号为M00081、M00086、M00114、M00118的消费者属于第二类消费者。 问题二中,为了比较不同类别消费者的价值,首先对问题一中八类消费者的各项特征指标数据分别进行累加求均值,然后对消费者特征指标做主成分分析,并运用线性加权综合评价模型对各类消费者进行综合价值的打分和排序。例如:综合价值最高的是第四类消费者,其综合价值评分为0.9434,其次是第二类消费者,其综合评价值为:0.8342、随后是第五类、第七类、第六类、第三类、第一类消费者,其综合价值评分分别为:0.4977,0.4694,0.4294,0.1849,-1.6126,-1.7465。 问题三中,为针对不同的消费群

3、体制定不同的服务策略,首先将问题二中的各类消费者特征指标均值与特征指标总均值进行对比,将对比结果相同的消费者类别进行分类,得出四类特征相似的消费群体,例如:第四类消费者和第二类消费者特征指标趋势一致,第七类和第八类消费者特征指标趋势一致,第五类和第六类消费者特征指标趋势一致,第一类和第三类消费者特征指标趋势一致。根据不同特征指标均值与总均值的差异,对不同消费群体制定不同的服务策略。最后,对八类消费者综合评价值进行聚类分类,以验证上述均值比较分类是否合理。 本文最大的特色是在于对消费者各项特征指标处理时运用了聚类分析,主成分分析、等多种方法,使用 Matlab 软件高效地对题目数据进行了充分地分

4、析、检验和处理。 关键词: 消费者价值 聚类分析 主成份分析 一、 问题提出 1.1问题背景 信息时代来临,各大服务公司使用计算机信息系统收集了大量的客户消费信息。为了有效的利用它们为公司的生产、营销服务,需要对信息进行分析处理,尤其是对不同消费群体的特征进行分析,发现客户价值,制定不同的策略。 1.2问题要求 根据附件中消费数据文件,对数据进行处理分析,挖掘数据中的不同消费者群体的特征,发现客户的价值,制定不同的消费策略,建立数学模型讨论下列问题: 第一问:对消费者进行分类; 第二问:分析不同类别的消费者的特征,比较不同类别的消费者的价;,第三问:针对不同的消费群体给出不同的服务策略。 二、

5、基本假设 假设1:附件-消费者数据表中有问题的数据经过数据预处理后所添加或改善,对后面结果无影响。 假设2:题目中所提供的数据以及我们所收集的资料是真实可靠的。 假设3:制定消费者服务策略时,可忽略企业自身资源限制。 三、符号说明 符号 意义 单位 备注 C 从进入系统到观测截止日的消费总次数 J 最近一次消费时间与观测截止日间隔的倒数 1T= 值越大D越好 M 总消费数 Z 平均折扣率 P 消费频率 aij 第i个消费者第j类特征指标的取值 dik 欧几里得距离 DG G( p q, ) 类Gp和Gq之间的距离 Npq 第p类消费者第q个指标变量的归一化数据平均值 rjk 第j个指标与第k个

6、指标的相关系数 yj 第j个主成分 bj 第j个主成份的信息贡献率 四、问题分析 在问题一中,原始数据中某些消费者的指标数据有错,因此需进行数据的筛选以保证数据的合理性。此外还需要对消费者的特征指标进行选取,以确定模型的特征变量。最后,数据由于指标的量纲不统一性和影响趋势的不同,要进行归一化处理。由于消费者数量很多,且某些消费者可能有一定的相似性,为了简化问题和便于分析,我们对处理后的数据表中的样本进行聚类分析,将特征变量具有相似性的样本进行聚类分类。 在问题二中,我们调用第一问中已分好的消费者类别,对各类消费者的指标变量数据取均值,整理数据,对五个指标变量其进行主成份分析,在进行各指标的权数

7、确定,最后得出各类消费者的综合价值评分。 思路框图如下: 在问题三中,我们根据第二问求出的不同类别消费者的综合价值,对这几类消费者的综合价值进行聚类,再将各类消费者指标值与其均值做比较,作出相应评价,为其制定服务策略。 五、模型的建立与求解 5.1 问题一模型建立与求解 5.1.1 问题一的分析 本问题要求根据收集到的消费者原始数据对消费者进行分类。那么,首先我们可以通过系统聚类分析法对所有的数据样本进行分类。 系统聚类分析法就是利用一定的数学方法将样品或变量(所分析的项目)归并为若干不同的类别(并以分类树形图表示),使得每一类别的所有个体之间具有较密切的关系,而各类别之间的相互关系相对地比较

8、疏远。系统聚类分析最后得到一个反应个体之间亲疏关系的自然谱系,它比较客观的描述了分类对象的各个体之间的差异和联系。根据分类目的的不同,系统聚类分析可分为两类:一类是对变量分析,称为R型分析;林一磊是对样品分类,称为Q型分析。本文采用R型分析对消费者进行分类。 5.1.2 问题一模型的建立 (1)指标变量的选取 根据查阅资料:我们得知美国数据库营销数据分析教授Hughes 提出RFM 模型,认为消费者的消费记录中有三个主要要素构成了顾客细分的最好指标,分别为近度 (顾客的近期购买行为)、频度 (顾客近期购买的总体频率)、值度(顾客近期的累计购买金额)。 据此,我们直接选择原始数据中的指标变量有:

9、从进入系统到观测截止日的消费总次数,我们用“C”表示;总消费数,我们用“M”表示;平均折扣率,我们用“Z”表示;作为我们建立模型分析的前三个指标变量。最近一次消费时间与观测截止日的间隔,我们用“D”表示,为了方便分析数据的线性关系,我们取最近一次消费时间与观测截止日的间隔“1/D”作为指标变量,记为“J”。 此外,为了有效利用所给消费数据中的其他特征指标变量,以及更好的为模型提供相关数据,我们将消费者进入系统日期“Din”,观测截止日期“Dend”,从进入系统到观测截止日的消费总次数进行计算, 得出一个新的指标变量消费频率: CP = D Dend - in式中:Din,Dend分别表示将消费

10、者进入系统日期,观测截止日期,P表示新增变量指标消费频率。 为检验上述新增指标的合理性,我们用Matlab进行正态分布检验:正态分布表如图所示: 图 1- 1 消费频率的正态分布概率图 通过检验,新增变量指标消费频率满足正态分布,即该指标的数据符合数据统计的随机性,所以该指标的增加合理。 (2) 异常数据的处理 观察表格发现,在平均折扣率一列中有少部分消费者统计数据是大于1的,根据平均折扣率公式定义,可知平均折扣率范围应该在0到1之间,因此消费者样本中平均折扣率大于1的数据则为异常数据。 通过使用 Excel 对这些异常数据的统计可知,异常数据样本占总消费者样本的 11.94%,小于统计数据中

11、大量样本随机性统计误差样本比例的20%,因此,我们选择个案剔除法,将平均折扣率大于1的消费者样本数据剔除。 (3) 数据归一化处理 由于各列数据的量纲不相同,所以要对各项统计数据做归一化处理。 由于在本模型中各变量的最大值和最小值已知,原始值通过 Min-max 标准化能全部映射在区间0,1上,且为消除个别变量对计算结果的影响,本模型中各指标数据的标准化处理采用 Min-max 标准化方法。 用i=1,2,8806表示消费者M00001到M8806,j=1,2,3,4,分别表示指标变量从进入系统到观测截止日的消费总次数(F),最近一次消费时间与观测截止日的间隔(R),总消费数(M),消费频率(

12、P)。 用aij表示第i个消费者第j个指标的取值,首先将各指标aij转化为标准化指标值,即: bij = (i=1,2,8806;j=1,2,3,4.) 式中:aij为原始数据,bij为处理后数据。mj,Mj分别为第j个指标的最小值和最大值。 (4)将消费者样本数据进行聚类分类 Step1:计算8809个消费者样本点两两之间的距离,构造距离矩阵(dik)8806 8806 ,这里距离采用欧几里得距离: j=42dik = (b bij - kj) ,(i,k=1,2,,8806.) j=1使用最短距离法来测量类与类之间的距离,即类Gp和Gq之间的距离: DGG( p q, ) = iG kG=

13、minp, = qdik. Step2:构造8806个类,每一个类中只包含一个样本点,每一类的平台高度均为零: Step3:合并距离最近的两类为新类,并且以这两类间的距离值作为聚类图中的平台高度。 Step4:若类的个数等于1,转入步骤3,否则计算新类与当前各类的距离,回到步骤2。 Step5:利用Matlab绘制聚类图,根据需要决定聚类的个数和类。 5.1.3 问题一模型的求解聚类分析: 根据聚类分析的原理,利用 Matlab 软件根据消费者的五个指标变量对消费者样本进行聚类,聚类树型图如下 4681012141618205 6 2 3 12 19 7 28 23 17 13 4 29 8

14、9 26 22 10 11 14 15 24 16 20 21 25 18 27 30 1 图 1- 2 消费者聚类树形图 分析上面的消费者聚类树型图可知,我们将消费者样本分为8类,结果如下表所示: 表 1- 1 消费者分类表 分类 消费者编号 第一类 M00058、M00060、M00116、M00135、M00142 第二类 M00081、M00086、M00114、M00118 第三类 M00167、M00018、M00332、M01332 第四类 M00025、M00035、M00044、M00051 第五类 M00953、M01148、M01281、M01379 第六类 M00502

15、、M00774、M00936、M01128 第七类 M00111、M00121、M00148、M00149 第八类 M00203、M00220、M00236、M00243 5.2 问题二模型建立与求解 5.2.1 问题二的分析 本问题要求分析不同类别消费者的特征,比较不同天类别消费者的价值。那么,首先我们可以通过主成份分析的方法对第一问中分为八类的消费者进行排序评价。 根据第一问将消费者分为 8 类,将每一类消费者指标变量的数据值累加求平均值作为该类消费者该类指标的数据值,数据表如下: aNpq =pq ,p=1,2,8;q=1,2,3,4,5. np式中:p表示消费者类别,q表示消费者的变量

16、指标,Npq表示第p类消费者第q个指标变量的归一化数据平均值。 利用Matlab软件对消费者分类的数据进行累加计算,经整理后如下表所示: 表 2- 1 消费者指标均值表 类别从进入系统到观测截止日的消费总次数(C)最近一次消费时间与观测截止日的间隔倒数(J)总消费数(M)消费频率(P)平均折扣率(Z)第一类消费者0.0901923080.0028528970.0581386650.0016413370.122669271第二类消费者0.4069406080.0138900550.1918696130.505856630.792672652第三类消费者0.1733774040.002321694

17、0.0710979770.0025405370.165547689第四类消费者0.7080133330.006340.34110.4419733330.810966667第五类消费者0.1758285710.5304571430.1667714290.5224142860.6316第六类消费者0.0835710340.4648410340.0764096550.4619734480.737987931第七类消费者0.1092517240.0895103450.1806862070.4546862070.927765517第八类消费者0.2650250.018850.220943750.3563

18、6250.78144375 5.2.2 问题二模型的建立(主成份分析) 用xx xx x1, , , ,2345分别表示从进入系统到观测截止日的消费总次数、最近一次消费时间与观测截止日的间隔的倒数、总消费数、平均折扣率、进入系统到观测截止日的消费频率。用i=1,2,3,8分别表示第一类到第八类消费者。第i类消费者第j个指标变量xj的值取作aij。 (1)对原始数据进行标准化处理。 4.1,2,6;,1,2,3,jijijjajisam-= 式中:6116ijjiam=,()()2611,2,3,1,46jijjisajm=-=,即jm,js为第j将各指标aij转化成标准指标aij,即 个指标的

19、样本均值和样本标准差。对应地,称 x -mx = jj,j=1,2,3,4. jsj为标准化指标变量。(2)计算相关系数矩阵R相关系数矩阵 R r= ( jk)4 4 , 1 6a arik = 6 i=1 ij ik , ,jk = 1,2, ,5. 6 1-式中:Rjk = 1,r rjk = ki,rjk是第j个指标与第k个指标的相关系数。 (3) 计算特征值和特征向量计算相关系数矩阵R的特征值l l l l l1 2 3 4 5 0,及对应的标准化特征T 向量uuuuu1, , , , ,2345 其中,由特征向量u u u u u uj = ( 1j j j j j, , , ,23

20、45 ) 组成p个新的指标变量: y ux ux ux ux ux1 = 11 1 + 21 2 + 31 3 + 41 4 + 51 5,y ux ux ux ux ux2 = 12 1 + 22 2 + 32 3 + 42 4 + 52 5,y ux ux ux ux ux3 = 13 1 + 23 2 + 33 3 + 43 4 + 53 5, y ux ux ux ux ux4 = 14 1 + 24 2 + 34 3 + 44 4 + 54 5, y ux ux ux ux ux5 = 15 1 + 25 2 + 35 3 + 45 4 + 55 5.式中:y1是第1主成分,y2是第

21、2主成份;y3是第三主成份,y4 是第四主成份, y5是第五主成份。 (4) 选择pp( 5)个主成份,计算综合评价值 Step1:计算特征值lj(j=1,2,3,4,5)的信息贡献率和累计贡献率,称 lbj = 4 j ,j = 1,2,3,4,5. lki=1为主成份yj的信息贡献率; plkap = k4=1 lk k=1为主成份yy y1, , ,2p的累积贡献率,当ap接近与1(ap = 0.85,0.90,0.95)时,则选择前个指标变量yy y1, , ,2p作为p个主成份,代替原来5个指标变量,从而可对p个主成份进行综合分析。 Step2:计算综合得分: pz= byj j.

22、j=1式中:bj为第j个主成份的信息贡献率,根据综合得分值就可以进行评价。 5.2.3 问题二模型的求解 将前面表-的数据整理为数据文件:zhuchengfendata,文件见附录,利用Matlab读取并计算出主成份的特征根,贡献率,软件求得相关系数矩阵的前四个特征根及其贡献率如表所示: 表 2- 2 主成份分析表 序号 特征值 贡献率 累积贡献率 1 2.8737 57.4734 57.4734 2 1.6525 33.0491 90.5225 3 0.3783 7.5658 98.0883 4 0.0761 1.5216 99.6099 5 0.0195 0.3901 100.0000 可

23、以看出,前三个特征根的累积贡献率就达到了98%以上,主成份分析效果很好。下面选取前三个主成份进行综合评价。前三个特征根的特征向量如表所示: 表 2- 3 主成份对应的特征相量表 x1 x2 x3 x4 x5 第1特征向量 0.4294 0.0268 0.5370 0.5007 0.5251 第2特征向量 -0.4511 0.7175 -0.2693 0.3945 0.2316 第3特征向量 0.5504 0.6148 0.1337 -0.0787 -0.5431 由此可得三个主成份分分别为: y1 = 0.4294x1?+0.0268x2 + 0.550x3 + 0.5370x4 + 0.52

24、51x5,y2 = -0.4511x1 +?0.7175x2 -0.2693x3 + 0.3945x4 + 0.2316x5, y3 = 0.5504x1 +?0.6148?x2 + 0.1337x3 -0.0787x4 -0.5431x5. 从主成份的系数可以看出,第一主成份主要反映了后三个指标(总消费数M,进入系统到观测截止日的间隔T,平均折扣率Z),第二主成份主要反映了最近一次消费时间与观测截止日的间隔(j),第三主成份主要反映了从进入系统到观测截止日的消费总次数(C)、最近一次消费时间与观测截止日的间隔(j)。 把各类消费者的5个指标的标准化数据代入3个主成份的表达式,就可以得到各类消

25、费者的3个主成分值。 分别以3个主成份的贡献率为权重,构建主成分综合评价模型,即: Z = 57.4734y1 +33.0491y1 +7.5658 .y1 把各类消费者的3个主成份值代入上式,可以得到各年度的综合评价值以及排序结果。 利用Matlab进行计算综合评价值和排序结果,如表所示: 表 2- 4 综合价值排序表 消费者类别 第四类 第二类 第八类 第五类 第七类 第六类 第三类 第一类 名次 1 2 3 4 5 6 7 8 综合价值评分 0.9434 0.8342 0.4977 0.4694 0.4294 0.1849 -1.6126 -1.7465 从而,对八类消费者价值进行比较,

26、综合价值评分越高,则该类消费者的价值越高。综合价值最高的是第四类消费者,其次是第二类、第八类、第五类、第七类、第六类、第三类消费者,最低的是第一类消费者。 5.2.4 问题二结果的分析及验证 因五个指标变量对综合价值的影响趋势相同,都是越大越好,所以将每一类消费者的变量指标相加的总值进行比较,利用Excel绘图各类消费者的指标总值图如下: 图 2- 1 消费者指标总值对比图 可发现指标总值最大的是第四类消费者,其次是第二类、第八类、第五类、第七类、第六类、第三类消费者,最低的是第一类消费者。均与上述主成分分析的消费者综合价值排序一致。 5.3 问题三模型建立与求解 5.3.1 问题三的分析 通

27、过对消费者进行价值识别后有助于挖掘不同消费群体的消费者特征,针对不同的客户群体有重点、有层次的制定不同的营销策略,优先服务于核心客户。 根据我们查阅资料可知,交易量大、消费频率高的客户是企业的重要利润来源,属于重要维持客户;购买量大但交易次数较少的客户是企业的重要发展客户;购买频率较低且购买量也少的客户属于企业一般重要客户;购买量大、购买频率高但最近一次交易时间间长的客户存在较高流失概率,是企业的重要挽留客户;购买量少、购买频率较低的客户属于企业的一般客户、无价值客户。 5.3.2 问题三模型的建立 将各类客户指标数据与特征指标的均值进行比较,各指标对比有大于 (等于) 或小于均值两种可能结果

28、。如果单个类别客户的指标值大于均值,标记“”,反之则标记“”。 表 3- 1 各项指标总均值 进入系统的总消费次数(C)最近一次消费时间与观测截止日的间隔倒数(J)总消费数(M)平均折扣率(Z)消费频率(p)0.1411328960.1633771620.3434310350.6213316850.343431035 进行对比整理后的结果: 表 3- 2 指标对比 CJMZP第四类消费者第二类消费者第七类消费者第八类消费者第五类消费者第六类消费者第一类消费者第三类消费者 其中C表示从进入系统到观测截止日的消费总次数,J表示最近一次消费时间与观测截止日的间隔的倒数,M表示总消费数,Z表示平均折扣

29、率,P表示进入系统到观测截止日的消费频率。 通过对各特征指标趋势比较,可得出第四类消费者和第二类消费者特征指标趋势一致,第七类和第八类消费者特征指标趋势一致,第五类和第六类指标趋势一致,第一类和第三类消费者特征指标趋势一致。 5.3.3 对比结果的分析 从进入系统到观测截止日的消费总次数C,最近一次消费时间与观测截止日的间隔的倒数J,总消费数M,平均折扣率Z,P表示进入系统到观测截止日的消费频率。其中J=1/D为日期间隔的倒数,值越大,价值越高。 第四类消费者、第二类消费者:这类消费者与企业交易频繁、最近一次交易时间间隔短、打折商品消费量高且交易量大,客户实际贡献的价值很高,是企业的优质客户群

30、,企业利润的主要贡献者,继续维持与这类客户的关系是企业利润的重要保障。企业针对这类消费群体,可为其办理VIP专属会员卡,以及对他们提高服务质量,使其保持对企业忠诚度,巩固消费。第七类消费者、第八类消费者:这类客户最近一次交易时间间隔短、购买金额大,购买频率较低;但是,这类客户具有很高的潜在价值,如果企业分析、了解、满足他们的需求,利用针对性的营销手段吸引他们,提高购买频率,将给企业带来更多利润,因此这类客户可视为企业重要的发展客户。企业针对这类消费群体,可为其办理会员卡,享受优惠服务,并且建立消费购买记录,保持对此类消费群体的跟进,以高服务质量促使其成为企业优质客户群,提高他们对企业的忠诚度。

31、 第五类消费者、第六类消费者:这样的客户虽然购买量较大,但从购买频率和购买近度分析,不是企业的忠诚客户,他们与企业的交易存在偶然性,可视为企业的一般客户。这类客户最近一次交易时间间隔短,但购买频率和购买量的相对水平都较低,无法立即给企业带来丰厚利润;如果他们属于新客户,那么是企业扩大客户量和市场份额的重要客户源,属于重要发展客户,针对这类消费群体可以制定打折优惠活动以吸引这类消费者的再次消费。如果属于老客户,则是无价值客户,针对这类消费群体,企业为节约资源及成本,可不必为其制定专属服务策略。 第一类、第三类消费者:从消费次数,最近一次交易时间,交易量三方面分析,这类客户都没有贡献价值,购买量的

32、相对水平都较低,无法立即给企业带来丰厚利润,企业为节约资源,可不必为此类消费者制定服务计划。 当然,消费者价值的高低随统计时间段动态变化,企业也应不断更新网络消费者价值数据,关注新增核心客户,明晰原有核心客户价值下降的原因,并提出相应的改善对策,从而提高企业在市场上的动态竞争力。 5.3.4 问题三结果的分析及验证我们利用与第一问相同的办法对各类消费者综合价值的评分进行聚类分析, a.计算八类消费者样本点两两之间的距离,构造距离矩阵(dik)8 8 ,这里距离采用欧几里得距离: dik = (b bij - kj)2,(i,k=1,2,,8.) j=1使用最短距离法来测量类与类之间的距离,即类

33、Gp和Gq之间的距离: DGG( p q, ) = iG kG=minp, = qdik. b.构造8个类,每一个类中只包含一个样本点,每一类的平台高度均为零: c.合并距离最近的两类为新类,并且以这两类间的距离值作为聚类图中的平台高度。 d.若类的个数等于1,转入步骤c,否则计算新类与当前各类的距离,回到步骤a。 e.利用Matlab绘制聚类图,根据需要决定聚类的个数和类。 根据聚类分析的原理,利用 Matlab 对消费者综合价值评分进行聚类,聚类树型图如下 3456127800.511.52 分析上面的消费者聚类树型图可知,我们将八类消费者分为四个消费群体, 消费群体一为:第四类消费者和第

34、二类消费者,消费群体二为:第七类、第八类消费者,消费群体三为:第五类、第六类消费者,消费群体四为:第一、第三类消费者。 可发现上述分类与聚类分析完全一致,说明该分类与事实符合。当然,网络消费者价值的高低随统计时间段动态变化,企业也应不断更新网络消费者价值数据,关注新增核心客户,明晰原有核心客户价值下降的原因,并提出相应的改善对策,从而提高企业在市场上的动态竞争力。 六、模型的评价与推广 6.1 模型的评价 在建模过程中存在的不足: 1在选取特征性成分时,相选出的指标量较少,且存在一定局限性。 2在数据进行预处理过程中,我们对错误数据采取剔除的办法对结果会产生一定的影响,在错误数据数量很多的情况

35、下,应考虑删除后进行补充。 6.2 模型的推广 在多因素指标分析中,可以采用主成分分析法进行数据的减少与降维,从而减少信息重叠,简化分析过程。对于本题的分析方法,可以运用到更宽广的市场营销领域,可以对于一些具体的实验数据等进行类似处理解决。 七、参考文献 1 姜启源等.数学模型(第四版).北京:高等教育出版社,2003年8月 2 主成分分析法, 3 司守奎,孙玺箐.数学建模算法与应用.北京:国防工业出版社,2012. 八、附录 8.1 附录清单附录1:求解问题一的Matlab程序及结果附录2:求解问题二的Matlab程序及结果附录3:求解问题三的Matlab程序及结果 8.2 附录正文 附录1

36、:求解问题一matlab的程序 消费频率正态分布验证: clc a=P; figure(1); hist(a); %作频数直方图 figure(2); normplot(a); %分布的正态性检验 alpha=0.05; mu,sigma=normfit(a) p1=normcdf(a,mu,sigma); h=lillietest(a,alpha)%假设检验 title(正态分布概率图); ylabel(概率);xlabel(数据); Matlab结果: mu = 0.7446 sigma = 0.0973 h = 1 正态分布曲线图; 正态分布直方图: 0.40.50.60.70.80.9

37、105001000150020002500 / / 聚类程序: a=gy; gy=zscore(gy); %数据标准化 y=pdist(gy); %求对象间的欧氏距离,每行是一个对象 z=linkage(y,average); %按类平均法聚类 h=dendrogram(z); %画聚类图 set(h,Color,k,LineWidth,1.3) %把聚类图线的颜色改成黑色,线宽加粗 for k=2:20 fprintf(划分成%d类的结果如下:n,k) T=cluster(z,maxclust,k); %把样本点划分成k类 for i=1:k tm=find(T=i); %求第i类的对象 t

38、m=reshape(tm,1,length(tm); %变成行向量 fprintf(第%d类的有%sn,i,int2str(tm); %显示分类结果 end if k=20 break end fprintf(*n); end 结果显示: 第1类的有29 30 54 66 71 第2类的有41 44 52 55 58 62 65 68 69 70 73 76 78 79 80 81 82 85 89 90 91 92 94 96 99 100 103 105 106 107 109 111 112 113 114 115 116 118 119 121 122 123 126 127 131

39、132 133 134 136 139 140 141 142 143 145 147 148 149 152 155 156 157 158 159 160 162 165 167 168 169 171 173 174 176 177 178 179 180 185 186 187 190 192 193 194 196 197 199 200 201 202 205 207 208 209 210 212 213 216 217 218 219 220 221 222 223 224 227 228 229 230 231 234 236 237 238 239 240 241 242

40、243 244 245 249 251 252 255 256 257 258 259 260 262 263 264 265 266 267 268 269 270 272 273 276 277 279 281 282 283 285 286 287 288 289 290 292 293 295 296 297 299 300 301 303 307 308 311 318 319 320 321 322 326 327 328 329 332 333 334 335 336 339 341 342 345 346 347 350 351 352 353 354 356 357 361

41、362 365 369 371 375 377 379 382 388 389 393 397 398 401 403 404 405 406 407 415 416 417 420 421 424 427 428 429 430 436 437 441 443 444 445 455 459 460 464 465 472 476 479 481 483 486 488 489 491 498 500 502 509 511 512 514 515 517 519 522 529 536 541 545 546 547 552 557 558 576 577 578 584 593 594

42、601 605 608 609 632 646 647 652 654 674 679 700 707 720 727 731 745 749 772 790 801 805 823 837 858 869 877 884 885 904 915 917 920 933 977 1011 1105 1118 1126 1127 1139 1169 1204 1230 1234 1246 1262 1270 1316 1332 1360 1388 1399 1420 1437 1462 1487 1499 1520 1550 1551 1552 1614 1628 1695 1812 1840

43、1905 1997 2013 2025 2035 2129 2336 2500 2511 2550 2576 2714 2863 3092 3261 3262 3425 3507 3999 4005 4052 4350 4643 5728 8227 第3类的有86 146 181 1333 第4类的有17 20 24 26 27 35 40 42 45 48 53 61 83 88 129 第5类的有638 798 912 990 1302 1307 1647 第6类的有291 493 623 702 782 840 874 891 950 958 966 1021 1060 1078 108

44、6 1103 1119 1183 1211 1233 1259 1295 1494 1496 1503 1533 1726 1749 1854 1927 1940 1943 1952 1967 1991 2007 2033 2039 2090 2146 2189 2310 2320 2331 2333 2481 2537 2543 2547 2573 2589 2681 2687 2699 2727 2790 2961 2975 3028 3030 3117 3142 3152 3200 3226 3267 3292 3342 3416 3424 3528 3535 3568 3627 364

45、2 3647 3700 3715 3719 3721 3804 3805 3838 3900 3943 4011 4054 4065 4067 4070 4080 4085 4135 4161 4215 4251 4275 4301 4358 4416 4426 4439 4474 4571 4584 4618 4628 4663 4716 4768 4827 4853 4882 4955 4970 4983 5005 5014 5019 5027 5029 5057 5059 5073 5093 5134 5137 5158 5164 5192 5201 5311 5368 5405 545

46、9 5533 5568 5580 5593 5599 5610 5644 5669 5690 5731 5754 5755 5777 5788 5820 5855 5857 5894 6004 6009 6078 6080 6118 6119 6128 6132 6166 6178 6216 6218 6223 6294 6311 6322 6344 6374 6399 6412 6416 6417 6423 6464 6482 6486 6492 6529 6535 6555 6556 6580 6587 6589 6623 6631 6651 6687 6690 6692 6750 675

47、9 6782 6791 6803 6814 6854 6887 6902 6904 6907 7107 7127 7132 7139 7140 7179 7187 7206 7212 7255 7347 7368 7373 7411 7419 7429 7441 7450 7454 7488 7511 7523 7527 7553 7591 7595 7614 7632 7644 7655 7732 7737 7787 7851 7859 7873 7874 7900 7911 7912 7918 7992 7998 7999 8056 8080 8099 8149 8187 8193 819

48、7 8249 8253 8260 8288 8308 8309 8313 8331 8335 8344 8355 8357 8415 8418 8447 8479 8538 8549 8580 8582 8590 8605 8621 8636 8643 8673 8674 8681 8702 8706 8709 8716 8723 8780 8803 第7类的有50 57 74 75 77 87 102 117 150 164 183 211 261 271 298 302 306 323 372 384 402 506 588 653 788 898 2677 2804 3188 第8类的有101 110 120 124 125 128 130 135

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论