多元统计课程设计_第1页
多元统计课程设计_第2页
多元统计课程设计_第3页
多元统计课程设计_第4页
多元统计课程设计_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、成 绩 评 定 表学生姓名焦亚庆班级学号1109030111专 业统计学课程设计题目各行业指标的聚类分析评语组长签字:成绩日期 20 年 月 日课程设计任务书学 院理学院专 业统计学学生姓名焦亚庆班级学号1109030111课程设计题目各行业指标的聚类分析实践教学要求与任务:通过该课程设计,使学生进一步理解多元统计分析的基本概念、理论和方法;初步掌握SPSS统计软件作常见的多元统计检验和多元统计分析;掌握典型的多元统计分析方法,使教材中的理论能应用到实践。1数据整理:收集数据,录入数据。2分类模型:判别分析中距离判别法、费希尔判别法、贝叶斯判别法的应用,以最优的性质对P维空间构造一个“划分”,

2、给出判别函数,判断新样品的归属。聚类分析中系统聚类法、K均值聚类法的应用,对样品或变量进行量化分类。3降维模型:主成分分析在保留原数据的大部分信息的基础上,提取较少的主成分代替较多的变量,克服多变量中信息重叠,降低数据维数。因子分析中提取因子载荷阵,得到表示原始变量基本数据结构的公共因子,简化数据。4.各模型结果的分析解释,并应用于实际问题。工作计划与进度安排:周四58节:选题,设计解决问题方法周五58节:SPSS应用,完成论文,答辩指导教师: 201 年 月 日专业负责人:201 年 月 日学院教学副院长:201 年 月 日摘 要聚类分析在应用多元统计分析中是很重要的一部分,是根据研究对象的

3、特征按照一定标准对研究对象进行分类的一种分析方法,它使组内的数据对象具有最高的相似度,而组间具有较大的差异。聚类分析可以在没有先验分类的情况下通过观察对数据进行分类,在科学研究和实际的生产实践中都具有广泛的应用,SPSS的分类过程可以使用用户方便地实现聚类分析。聚类分析有很多种方法,常见的主要有系统聚类法、K-均值聚类法、二阶聚类法等等。通过对聚类分析的学习,可以将实际问题转化为应用多元统计分析的具体问题,运用聚类分析的知识,熟练运用聚类分析软件命令,利用SPSS实现对问题的分类和解读,达到分类的真实效果。本文运用了系统聚类和K均值聚类的方法,将2007年我国各行业的情况进行聚类分类,且在分类

4、中充分考虑各指标间的关系,使分类达到了很好的效果。通过SPSS对取得的数据进行分析,可以将各行业的情况情况分成6到8类,鲜明形象的体现了聚类分析的优势。关键词 聚类分析 系统聚类 K-均值聚类 SPSS 目 录一 设计目的1二 问题描述1三 问题解决3 四 结果比较16总 结.17参考文献.18一 设计目的了解聚类分析,学会应用SPSS软件进行不同方法的聚类分析。同时更好的了解应用多元统计分析的知识,熟练掌握聚类分析在实际问题上的应用,并将所学的知识结合SPSS对数据的处理解决实际问题。本设计是利用SPSS软件对2007年我国各行业的情况进行聚类分类。二 问题描述下表给出了2007年我国各行业

5、的工业总产值、工业增加值、资产总计、流动资产总计、流动资产年平均余额、负债合计、流动负债合计、主营业务收入、主营业务成本、利润总额,试对下表进行聚类分类,以了解2007年我国各行业的情况。行 业工业总产值工业增加值资产总计流动资产总计流动资产年平均余额负债合计流动负债合计主营业务收入主营业务成本利润总额煤炭开采和洗选业石油和天然气开采业黑色金属矿采选业有色金属矿采选业非金属矿采选业其他采矿业农副食品加工业食品制造业饮料制造业烟草制品业纺织业纺织服装、鞋、帽制造业皮革、毛皮、羽毛(绒)及其制品业木材加工及木、竹、藤、棕、家具制造业造纸及纸制品业印刷业和记录媒介的复制文教体育用品制造业石油加工、炼

6、焦及核燃料加工业化学原料及化学制品制造业医药制造业化学纤维制造业橡胶制品业塑料制品业非金属矿物制品业黑色金属冶炼及压延加工业有色金属冶炼及压延加工业金属制品业通用设备制造业专用设备制造业交通运输设备制造业电气机械及器材制造业通信设备、计算机及其他仪器仪表及文化、办公用工艺品及其他制造业废弃资源和废旧材料回收加工业电力、热力的生产和供应业燃气生产和供应业水的生产和供应业三 问题解决1 数据录入 首先定义变量视图,然后将数据输入。2 系统聚类法(1) 打开主对话框并完成设置:选择“分析”-“分类”-“系统聚类”命令。打开“系统聚类分析”对话框。将名称变量“行业”移入“标注个案”文本框中,同时将“工

7、业总产值”、“工业增加值”、“资产总计”、“流动资产总计”、“流动资产年平均余额”、“负债合计”、“流动负债合计”、“主营业务收入”、“主营业务成本”、“利润总额”10个连续变量移入右边“变量”列表框中。因为本案例是对样本进行聚类,所以在“分群”中勾选“个案”,在“输出”选项组中勾选“统计量”复选框和“图”复选框。(2) 选择统计量指标:单击右上方的“统计量”按钮,打开“系统聚类分析:统计量”对话框,勾选“合并进程表”复选框,在“聚类成员”选项组中选中“方案范围”按钮,在最小聚类数和最大聚类数文本框中分别输入4和6。单击继续按钮。(3) 输出结果设置:单击右上方的“绘制”按钮,打开“系统聚类分

8、析:图”对话框。勾选“树状图”复选框,“冰柱”选项组和“方向”选项组采用系统默认选项。单击“继续”按钮。单击右上方的“保存”按钮,打开“系统聚类分析:保存”对话框。在“聚类成员”选项组中选中“方案范围”按钮,在最小聚类数和最大聚类数文本框中分别输入4和6。单击继续按钮。(4) 最后单击“确定”按钮,执行操作,输出结果。22结果及结果分析(1) 案例处理汇总表 案例处理汇总表中介绍了参加聚类的案例个数和百分比等基本信息。案例处理汇总a案例有效缺失总计N百分比N百分比N百分比390.039a. 平均联结(组之间)(2) 聚类状态表聚类状态表直观的显示了聚类分析过程中各阶段所聚合的变量。其中第一列显

9、示了聚类过程的步骤数,第二列和第三列显示的是对应的步骤中哪些变量进行了合并,第四列显示了被合并的两变量之间的距离,第五列和第六列显示的是参与聚类的是样本还是小类,0表示该样本是第一次出现在聚类过程中,其他数值表示由相应的步骤生成的小类,例如该表中第十一步第五列的5表示其对应的小类17是由第五步聚类形成的。第七列表示本步骤类的结果下一次将在第几步与其他类合并。平均联结(组之间)聚类表阶群集组合首次出现阶群集群集 1群集 2系数群集 1群集 2下一阶161000222601433839004423823185173400116518007745061289150015919330019101800

10、141117235012124177112313335001514113100201539138261621220020172029002118236402819161909222012114162521202517029221416019252343712026242430002725114202234263415232827122402434282318263529203221032302728003131273130036322026290333372003236341122527353512342838367273331373771136038381735370(3) 群集成员表 由于

11、在操作过程中将聚类的方案范围设置了最小聚类数为4,最大聚类数为6,所以该表给出了在类别数分别为6,5,4时样本的类别归属情况。可以结合后面的树状图及研究目的,确定具体的较为合理的类别数与成员归属。群集成员案例6 群集5 群集4 群集1:煤炭开采和洗选业 1112:石油和天然气开采业 2213:黑色金属矿采选业 2214:有色金属矿采选业 2215:非金属矿采选业 2216:其他采矿业 2217:农副食品加工业 3328:食品制造业 1119:饮料制造业 22110:烟草制品业 22111:纺织业 44312:纺织服装、鞋、帽制造业 51113:皮革、毛皮、羽毛(绒)及其制品业11114:木材加

12、工及木、竹、藤、棕、 11115:家具制造业 22116:造纸及纸制品业 11117:印刷业和记录媒介的复制 22118:文教体育用品制造业 22119:石油加工、炼焦及核燃料加工业 11120:化学原料及化学制品制造业 33221:医药制造业 11122:化学纤维制造业 11123:橡胶制品业 22124:塑料制品业 51125:非金属矿物制品业 33226:黑色金属冶炼及压延加工业 33227:有色金属冶炼及压延加工业 65428:金属制品业 65429:通用设备制造业 33230:专用设备制造业 51131:交通运输设备制造业 65432:电气机械及器材制造业 33233:通信设备、计算

13、机及其他 11134:仪器仪表及文化、办公用 22135:工艺品及其他制造业 22136:废弃资源和废旧材料回收加工业 22137:电力、热力的生产和供应业 22138:燃气生产和供应业 22139:水的生产和供应业 221(4)垂直冰状图 如图所示为样本之间通过组间连接法聚成的各类之间的垂直冰状图。图中的列代表各个案,行代表聚类的步数。每两个个案之间都有一个冰柱,该冰柱表示两个案之间的关系或距离,冰柱图的读取时从下往上看的。从图中可以看到个案6和个案10之间的冰柱到了最低端,没有空白,说明两者距离最近,最先聚为一类。这也和聚累状态表中第一次聚类也是一致的。其次是个案2和个案6之间距离最近,实

14、现了第二次聚类,其他依此类推。(5) 树状图 树状图可以非常直观地反应聚类过程及样本间的层次关系。从该图中可以看出,样本聚为5类较为合适的。如果聚为5类,煤炭开采和洗选业,食品制造业,纺织服装、鞋、帽制造业,皮革、毛皮、羽毛(绒)及其制品业,木材加工及木、竹、藤、棕,造纸及纸制品业,石油加工、炼焦及核燃料加工业,医药制造业,化学纤维制造业,塑料制品业,专用设备制造业和通信设备、计算机及其他聚为一类;农副食品加工业,化学原料及化学制品制造业,非金属矿物制品业,黑色金属冶炼及压延加工业,通用设备制造业和电气机械及器材制造业聚为一类;纺织业聚为一类;有色金属冶炼及压延加工业,金属制品业和交通运输设备

15、制造业聚为一类;其它行业聚为一类。* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 其他采矿业 6 -+ 烟草制品业 10 -+

16、石油和天然气开采业 2 -+ 燃气生产和供应业 38 -+ 水的生产和供应业 39 -+ 废弃资源和废旧材料回收加工业 36 -+ 饮料制造业 9 -+-+ 家具制造业 15 -+ | 黑色金属矿采选业 3 -+ | 工艺品及其他制造业 35 -+ | 非金属矿采选业 5 -+ | 文教体育用品制造业 18 -+ | 有色金属矿采选业 4 -+ | 印刷业和记录媒介的复制 17 -+ | 仪器仪表及文化、办公用 34 -+ | 橡胶制品业 23 -+ +-+ 电力、热力的生产和供应业 37 -+ | | 煤炭开采和洗选业 1 -+ | | 食品制造业 8 -+ | | 皮革、毛皮、羽毛(绒)及

17、其制品业 13 -+ | | 医药制造业 21 -+ | | 化学纤维制造业 22 -+-+ | | 石油加工、炼焦及核燃料加工业 19 -+ | | | 通信设备、计算机及其他 33 -+ | | | 造纸及纸制品业 16 -+ +-+ | 木材加工及木、竹、藤、棕、 14 -+ | | 塑料制品业 24 -+ | | 专用设备制造业 30 -+-+ | 纺织服装、鞋、帽制造业 12 -+ | 有色金属冶炼及压延加工业 27 -+ | 金属制品业 28 -+-+ | 交通运输设备制造业 31 -+ | | 化学原料及化学制品制造业 20 -+ | | 通用设备制造业 29 -+ +-+ |

18、非金属矿物制品业 25 -+ | | | 电气机械及器材制造业 32 -+-+ | +-+ 黑色金属冶炼及压延加工业 26 -+ +-+ | 农副食品加工业 7 -+ | 纺织业 11 -+(6) 回到SPSS数据视图,可以看到后面多了三列数据,依次为聚为六类、五类和四类的行业归属情况。行业CLU6_1CLU5_1CLU4_1煤炭开采和洗选业111石油和天然气开采业221黑色金属矿采选业221有色金属矿采选业221非金属矿采选业221其他采矿业221农副食品加工业332食品制造业111饮料制造业221烟草制品业221纺织业443纺织服装、鞋、帽制造业511皮革、毛皮、羽毛(绒)及其制品业111

19、木材加工及木、竹、藤、棕111家具制造业221造纸及纸制品业111印刷业和记录媒介的复制221文教体育用品制造业221石油加工、炼焦及核燃料加工业111化学原料及化学制品制造业332医药制造业111化学纤维制造业111橡胶制品业221塑料制品业511非金属矿物制品业332黑色金属冶炼及压延加工业332有色金属冶炼及压延加工业654金属制品业654通用设备制造业332专用设备制造业511交通运输设备制造业654电气机械及器材制造业332通信设备、计算机及其他111仪器仪表及文化、办公用221工艺品及其他制造业221废弃资源和废旧材料回收加工业221电力、热力的生产和供应业221燃气生产和供应业2

20、21水的生产和供应业2213 K-均值聚类(1) 打开主对话框并完成设置:选择“分析”-“分类”-“K-均值聚类”命令。打开“K-均值聚类”对话框。将名称变量“行业”移入“个案标记依据”文本框中,同时将“工业总产值”、“工业增加值”、“资产总计”、“流动资产总计”、“流动资产年平均余额”、“负债合计”、“流动负债合计”、“主营业务收入”、“主营业务成本”、“利润总额”10个连续变量移入右边“变量”列表框中,“聚类数”本例中设为6,“方法”选项组中采用默认的“迭代与分类”选项。(2) 输出结果设置:单击图右上方的“保存”按钮,打开“K-Means群集:保存新变量”对话框,勾选“聚类成员”和“与聚

21、类中心的距离”复选框,单击继续。(3) 选择统计量指标:单击图右上方的“选项”按钮,打开“K均值聚类分析:选项”对话框。勾选“初始聚类中心”和“每个个案的聚类信息”。缺失值处理方式使用系统默认选项。(4) 单击“确定”按钮,执行操作,输出结果。(1) 初始类中心如表所示为初始类中心表,由于指定聚类数为6,所以表中给出了6个初始类中心点。因为是初始聚类中心,在后面的迭代过程中类中心会发生调整。初始聚类中心聚类123456工业总产值.47工业增加值.13资产总计流动资产总计.88利润总额.02主营业务成本.35主营业务收入.43负债合计.62流动资产年平均余额.75流动负债合计.18(2) 迭代历

22、史记录表给出了聚类分析所经历的迭代过程,从中可以看出,聚类分析过程经过了4次迭代。其中聚类中心前两次变化较大,最后一次迭代类中心位置没有变化,表示迭代完成。迭代历史记录a迭代聚类中心内的更改1234561.0002.000.0003.000.000.000.0004.000.000.000.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 4。初始中心间的最小距离为 2701.669。(3) 表给出了经过迭代后最终各类中的成员信息,包括各个成员所属的类别及与其类中心点之间的距离。其中的“聚类”和“距离”两变量自动保存在了

23、数据文件中。聚类成员案例号行 业聚类距离1煤炭开采和洗选业 22石油和天然气开采业 63黑色金属矿采选业 24有色金属矿采选业 65非金属矿采选业 66其他采矿业 67农副食品加工业 48食品制造业 29饮料制造业 610烟草制品业 611纺织业 3.00012纺织服装、鞋、帽制造业 213皮革、毛皮、羽毛(绒)及其制品业214木材加工及木、竹、藤、棕、 215家具制造业 616造纸及纸制品业 217印刷业和记录媒介的复制 618文教体育用品制造业 619石油加工、炼焦及核燃料加工业 220化学原料及化学制品制造业 421医药制造业 222化学纤维制造业 223橡胶制品业 624塑料制品业 1

24、25非金属矿物制品业 426黑色金属冶炼及压延加工业 5.00027有色金属冶炼及压延加工业 128金属制品业 129通用设备制造业 430专用设备制造业 231交通运输设备制造业 132电气机械及器材制造业 433通信设备、计算机及其他 234仪器仪表及文化、办公用 635工艺品及其他制造业 236废弃资源和废旧材料回收加工业 637电力、热力的生产和供应业 638燃气生产和供应业 639水的生产和供应业 6(4) 最终聚类中心表显示的是经过调整后的最终聚类中心坐标,可以看出与初始类中心相比发生了很大的变化。说明聚类过程中初始类中心坐标进行了调整。最终聚类中心聚类123456工业总产值工业增

25、加值资产总计流动资产总计利润总额主营业务成本主营业务收入负债合计流动资产年平均余额流动负债合计(5) 最终类中心间的距离 表所示为最终类中心间的距离,从中可以看出,1类和2类中心点坐标之间的距离为,1类和3类中心点坐标之间的距离为。其它中心点间的距离也依此比较。最终聚类中心间的距离聚类123456123456(6)每个聚类中的案例数目 表给出了每个聚类中的案例数目,类别1中的案例数为4个,类别2中的案例数为13个,类别3中的案例数为1个,类别4中的案例数为5个,类别5中的案例数为1个,类别6中的案例数为15个。有效个案数为39个,无缺失值。每个聚类中的案例数聚类123456有效缺失.000(7)回到数据视图,在数据视图的后面多了两列,一列为分类归属情况,另一列为样本到类中心的距离。行业QCL_3QCL_4煤炭开采和洗选业2石油和天然气开采业6黑色金属矿采选业2有色金属矿采选业6非金属矿采选业6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论