聚类分析论文_第1页
聚类分析论文_第2页
聚类分析论文_第3页
聚类分析论文_第4页
聚类分析论文_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、合肥学院20132014第一学期多元统计分析课程论文论文题目 城市行业聚类分析 姓 名 汪桃桃 学 号 1107021016 专 业 数学与应用数学 成 绩 2014.4聚类分析的应用以城市行业为例,讨论以下16个城市的聚类分析 摘要 本文对我国16个地区6个行业的相关数据做标准变换下的类平均法,离差平方和法进行聚类分析对这16个地区进行聚类分析,得出聚类结果如下:=北京,=天津,内蒙古,江西,辽宁,安徽,福建,山西,吉林,=河北,上海,黑龙江,江苏,河南,浙江,山东关键词聚类分析 类平均法 sas软件 一、 问题提出与分析 表1是我国16个地区6个行业的相关数据,利用调查数据对16个地区进行

2、分类。表格1 16个地区6个行业的调查数据地区交通运输、仓储和邮政业信息传输、计算机服务和软件业批发和零售业住宿和餐饮业金融业房地产业 北 京 50 36 50 28 25 30 天 津 12 2 12 4 7 3 河 北 25 6 22 5 23 3 山 西 21 4 18 4 14 3 内蒙古 16 4 7 2 10 1 上 海 32 6 17 7 20 7 辽 宁 15 5 8 3 10 3 吉 林 26 5 18 3 13 4 黑龙江 36 7 25 11 22 11 江 苏 31 7 28 10 27 6 浙 江 24 10 28 15 28 10 安 徽 15 4 13 4 15

3、4 福 建 16 4 13 6 12 9 江 西 16 4 8 2 10 2 山 东 33 6 40 12 33 9 河 南 29 5 39 10 22 9 该实验内容属于聚类分析问题,方案是:对样品做标准变换下的类平均法,离差平方和法进行聚类分析。聚类分析的相关知识如下:1、 类平均法(average linkage method)有两种定义,一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即定义gk和gl之间的距离为其中nk和nl分别为类gk和gl的样品个数,dij为gk中的样品i与gl中的样品j之间的距离,如图所示。容易得到它的一个递推公式:另一种定义方法是定义类与类之间

4、的平方距离为样品对之间平方距离的平均值,即它的递推公式为类平均法较好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。2、 离差平方和法类中各样品到类重心(均值)的平方欧氏距离之和称为(类内)离差平方和。设类gk和gl合并成新类gm,则gk,gl和gm的离差平方和分别是它们反映了各自类内样品的分散程度。类内离差平方和的几何解释:类内离差平方和wk是类gk内各点到类重心点 的直线距离之平方和。图1 离差平方和几何图 定义gk和gl之间的平方距离为这种系统聚类法称为离差平方和法或ward方法(wards minimum variance method)。也可表达为离差平方和

5、法使得两个大的类倾向于有较大的距离,因而不易合并;相反,两个小的类却因倾向于有较小的距离而易于合并。这往往符合我们对聚类的实际要求。离差平方和法的平方距离递推公式为二、模型建立 把交通运输、仓储和邮政业记为,信息传输、计算机服务和软件业记为,批发和零售业记为,住宿和餐饮业记为,金融业记为,房地产业记为,对这16个样品的,做标准变换下的类平均法,离差平方和法进行聚类分析。建立相应的聚类分析模型,利用sas程序来求解,分析结果,得出相应的结论。三、sas操作程序:data ex82;input group $ x1-x6;cards; 北京 50 36 50 28 25 30 天津 12 2 12

6、 4 7 3 河北 25 6 22 5 23 3 山西 21 4 18 4 14 3 内蒙古 16 4 7 2 10 1 上海 32 6 17 7 20 7 辽宁 15 5 8 3 10 3 吉林 26 5 18 3 13 4 黑龙江 36 7 25 11 22 11 江苏 31 7 28 10 27 6 浙江 24 10 28 15 28 10 安徽 15 4 13 4 15 4 福建 16 4 13 6 12 9 江西 16 4 8 2 10 2 山东 33 6 40 12 33 9 河南 29 5 39 10 22 9 ;proc print data=ex82;run;proc clu

7、ster data=ex82 method=ave std pseudo cccouttree=b82;var x1-x6;id group;proc tree data=b82 horizontal graphics;title 'a'run;proc cluster data=ex82 method=fle std pseudo cccouttree=b82;var x1-x6;id group;proc tree data=b82 horizontal graphics;title 'b'run;proc sort data=c82;by cluster;

8、proc means data=c82;by cluster;var x1-x6;run;proc cluster data=ex82 method=med std pseudo cccouttree=b82;var x1-x6;id group;proc tree data=b82 horizontal graphics;title 'c'run;proc cluster data=ex82 method=ward std pseudo cccouttree=b82;var x1-x6;id group;proc tree data=b82 horizontal graphi

9、cs n=5 out=c82;copy x1-x6;title'd'run;四、运行结果结果一:六个聚类变量的相关阵的特征值等信息结果二:类平均聚类法的并类历程结果三:类平均法的谱系图五、总结,分析5.1讨论分析在谱系聚类图中,(1)统计量(列标题为rsq)用于评价每次合并成ncl个类时的聚类效果,越大说明ncl个类越分开,故聚类效果越好。用值来确定n个样品应分为几类最合适,应该看值得变化。比如,分为3个类之前的=0.861,而下一次合并后分成3类时下降较多(=0.539),这时通过分析统计量可得出分为3个类是比较合适的。(2)查看变化的大小可以由合并类时的半偏(列标题为spr

10、sq)得到,根据半偏的值是上一步与该步的差值,故某步的半偏值越大,说明上一步合并的效果越好。此例半偏最大和次大分别为ncl=1,2,3,说明根据半偏准则分为两个类、三个类或四个类是较合理的。(3)伪f统计量(列标题为psf)用于评价分为ncl个类的积累效果,伪f值越大表示这些观测样品可显著地分为ncl个类。此例伪f最大和次大分别为ncl=3,4和5,说明根据伪f准则分为三个类、四个类或五个类是较合理的。(4)伪统计量用以评价此步合并类的效果,由该统计量的定义知伪值大表明上一次合并的两个类是很分开的,也就是上一次聚类的效果是好的,此例中伪最大和次大分别为ncl=1和2,说明根据伪准则分为二个类或三个类是较合理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论