变量聚类分析在行业分类方面的应用.doc_第1页
变量聚类分析在行业分类方面的应用.doc_第2页
变量聚类分析在行业分类方面的应用.doc_第3页
变量聚类分析在行业分类方面的应用.doc_第4页
变量聚类分析在行业分类方面的应用.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖北师范学院数学与统计学院2012届学士学位论文(设计)九种行业的变量聚类分析易恒(指导老师:胡宏昌)(湖北师范学院 数学与统计学院 中国 黄石 435002)摘 要:本文以我国九种主要的行业1952年到2009年的产值作为数据样本,运用变量聚类分析给这九种行业进行分类,借用SAS软件中聚类分析过程得到分类的过程,并分析结果,与它们的实际产业划分情况进行对比,证明变量聚类分析在经济体系中的行业划分领域可以得到应用。关键词:产业划分;聚类分析;变量聚类中文图书分类号:O1The Variable Cluster Analysis of Nine IndustriesYI Heng(Tutor:HU Hongchang)(College of Mathematics and Statistics,Hubei Normal University,Huangshi,China,435002)Abstract: The article treated the output value of nine main industries which lasted from the year 1952 to the year 2009 in China as the sample data. The classification of these nine kinds of industry was analyzed by the Variable Cluster Analysis Method. The classification procedure and results was got by the proc cluster in the SAS System. Through comparing the operating results with the actual industry classification in the economic field, it was proved that the variable cluster analysis can be used in the trade division fields.Keywords: Industry classification; Cluster analysis; Variable cluster目 录1.前言12. 变量聚类分析12.1变量聚类分析方法的简单原理12.2变量聚类分析方法的步骤13.行业的变量聚类分析过程23.1求相似系数矩阵R33.2求距离矩阵D43.3聚类分析44.结果分析95.致谢106.参考文献117.附录12湖北师范学院数学与统计学院2012届学士学位论文(设计)九种行业的变量聚类分析易恒(指导老师,胡宏昌 教授)(湖北师范学院数学与统计学院 中国 黄石 435002)1.前言行业是指从国民经济中同性质的生产或其他经济社会的经营单位或个体的组织结构体系的详细划分,如林业、汽车业、银行业等。经济分析主要分析了社会经济的总体状况,但没有对社会经济的各组成部分进行具体分析。社会经济的发展水平和增长速度反映了各组成部分的平均水平和速度,但各部门的发展并非都和总体水平保持一致。在宏观经济运行事态良好、速度增长、效益提高的情况下,有些部门的增长与国民生产总值、国内生产总值增长同步,有些部门高于或是低于国民生产总值、国内生产总值的增长。因此,经济分析为证券投资提供了背景条件,但没有为投资者解决如何投资的问题,要对具体投资对象加以选择,还需要进行行业分析。附录1,为我国农业、工业、建筑业等九种行业1952年至2009年的行业产值(亿元),本文将对这些行业进行聚类,以体现聚类分析在产业划分中的应用价值。2. 变量聚类分析变量聚类在实际中有着广泛的应用,一方面通过变量聚类可以发现某些变量之间的一些共性,以有利于分析问题和解决问题;另一方面,变量聚类也可以作为某些数据分析的中间过程。 2.1变量聚类分析方法的简单原理从出发,关于变量的谱系聚类过程与从距离矩阵出发,关于样品的谱系聚类过程类似,只是由于越大,表明与越相似,因此,每次应选取相似矩阵或更新的相似矩阵中主对角线以外的最大元素所对应的两个变量或两个类合并。2.2变量聚类分析方法的步骤设对个变量,各观测了次,的带的观测向量为变量的观测向量与间的相似性可以用相似系数度量。设 则与的相似系数是显然,且。若将和看做维空间中的两个向量,则是它们的余弦夹角。变量观测向量,两两间的相似系数构成相似系数矩阵显然,对于标准化数据,即原观测数据的相关系数矩阵,这时,的大小反应了两个变量与线性关系的强弱。再求距离矩阵,再从出发按照样品的谱系聚类法对变量聚类。通常的变换有 或,若为相关系数矩阵,且我们以变量的线性关系强弱作为相似性度量,这时可令,3.行业的变量聚类分析过程附录1表格中的九种行业(变量)即:农业; :工业; :建筑业; :交通运输、仓库和邮递:批发和零售业;:住宿和餐饮业;:金融业; :房地产业;:其他服务行业。3.1求相似系数矩阵R程序:见附录7.2.1由运行结果整理得,九种行业产值的相似系数矩阵3.2求距离矩阵D令,对矩阵进行变换,程序见附录7.2.2:则,得到的距离矩阵为3.3聚类分析3.3.1类平均法程序见附录7.2.3结果:表1 9种行业的类平均距离法的聚类过程类的数目新聚类集新类中的变量数类平均距离8X3 x520.4187X2 CL830.57996X4 x620.61155CL7 CL651.39334X8 x921.69633CL5 CL472.40842CL3 x783.97161X1 CL297.6144聚为三类的结果为:第一类:第二类: 第三类:,类平均距离法的谱系图如图1所示:图13.3.2最长距离法程序见7.2.4:运行结果:表2 9种行业的最长距离法的聚类过程类的数目新聚类集新类中的变量数类平均距离8X3 x520.4187X2 CL830.5836X4 x620.61155CL7 x841.69224CL5 CL662.03493CL4 x973.15592CL3 x784.44271X1 CL298.1653聚为三类的结果为:第一类:第二类: 第三类:,最长距离法的谱系图如图2所示:图23.3.3 最短距离法程序程序见7.2.5:运行结果:表3 9种行业的最短距离法的聚类过程类的数目新聚类集新类中的变量数类平均距离8X3 x520.4187X2 CL830.57576X4 x620.61155CL7 CL650.96714CL5 x861.48563CL4 x971.69632CL3 x783.40281X1 CL296.2348聚为三类的结果为:第一类:第二类: 第三类:,最短距离法的谱系图如图3所示:图34.结果分析根据社会生产活动历史的顺序对产业结构的划分,产品直接取自自然界的部门称为第一产业,初级产品进行再加工的部门称为第二产业,为生产和消费提供各种服务的部门称为第三产业。由以上的三种聚类方法的结果来看,类平均聚类分析方法最符合我国对产业划分的规范。在我国,农业被划分为第一产业,工业和建筑业被划分为第二产业,其它各行业被划分为第三产业,这说明变量的聚类分析方法是可以应用在产业划分领域的。5.致谢在写论文的过程中,运用了很多学过的和没有学过的知识,把学过的知识很好的用于了实践,但其中也有很多知识的理解存在问题,因此翻阅了很多书籍,也请教了老师和同学,感谢指导老师和同学的指导与帮助。6.参考文献1 高鸿业.西方经济学M.第四版.北京:人民大学出版社,2007.2:208-2232 高惠璇.实用统计方法与SAS系统M.北京: 北京大学出版社,2001 .10:256-3003 梅长林,范金城.数据分析方法M.北京:高等教育出版社,2006.24 何晓群.现代统计分析方法与应用M.第三版.北京:中国人民大学出版社,1998.3:212-3215 王远征,徐雅静.变量聚类在多指标系统中的应用.统计与决策J.2006.086 宣家骥.多目标决策M.湖南:湖南科学技术出版社,1989年:201-2137 梅长林,周家良.使用统计方法M.北京:科学出版社,20028 王吉利,张尧庭.SAS软件与应用统计M.北京中国统计出版社,20007.附录7.1表格我国1952年-2009年间各行业产值(数据来源:国家统计局网站)年份农业工业建筑业交通运输、仓库和邮递批发和零售业住宿和餐饮业金融业房地产业其他服务行业1952345.98119.8022.0029.0070.1414.7011.0014.0052.381953381.39163.5029.0035.00102.4017.9710.9413.2570.741954395.52184.7027.0038.00106.5818.5910.8913.5064.611955424.78191.2031.0039.00104.9420.0612.8017.9869.031956447.88224.7059.0046.00115.3421.9112.7417.2487.171957433.86271.0046.0049.00116.1523.3514.6218.6796.651958449.90414.5069.0071.00120.9427.0222.3117.90115.641959387.24538.5077.0094.00129.3130.0235.7121.66126.921960343.76568.2080.00104.00120.3027.7458.5720.91134.011961445.06362.0126.8069.2096.4523.1258.2723.67116.281962457.16325.4033.9057.4067.5621.3845.6225.32117.491963501.96365.6042.0055.0064.5420.6634.0427.03125.551964564.01461.1052.4058.4081.7521.6755.5125.03135.671965656.94546.5055.7077.40104.6323.7480.5030.61141.201966708.50648.6060.9085.10132.0926.4032.5932.48146.411967720.61544.9057.9072.30138.6125.6037.9938.39143.981968732.81490.3047.0070.50126.1323.8144.2541.82153.551969742.80626.1063.0084.90148.9526.3349.5345.36158.811970800.42828.1084.10100.20162.8426.9452.0147.61159.101971833.71926.6096.20108.40162.4828.1559.9249.94169.851972834.82989.9094.30122.92176.6230.6747.7855.24177.971973915.641072.50100.50130.96192.0232.6247.4554.80186.861974953.681083.60108.40132.16188.1733.3650.7958.86194.731975979.811244.90125.60148.32160.1831.2154.9864.73203.391976975.671204.60132.60147.06134.3830.0355.5869.09212.461977950.551372.40136.70165.17195.1337.5061.4673.59228.5519781028.001607.00138.00182.00242.0045.0068.0080.00256.0019791270.001770.00144.00194.00201.0044.0067.0086.00287.0019801372.001996.00196.00213.00194.0047.0075.0096.00356.0019811559.002048.00207.00221.00231.0054.0080.00100.00391.0019821777.002162.00221.00247.00171.0062.00115.00111.00457.0019831978.002376.00271.00275.00199.0073.00149.00122.00521.0019842316.002789.00317.00339.00363.0097.00204.00162.00621.0019852564.003449.00418.00422.00802.00138.00260.00215.00748.0019862789.003967.00526.00499.00853.00163.00356.00298.00825.0019873233.004586.00666.00568.001060.00187.00450.00383.00926.0019883865.005777.00810.00686.001483.00241.00585.00474.001121.0019894266.006484.00794.00813.001536.00277.00964.00566.001292.0019905062.006858.00859.001167.001269.00302.001018.00662.001471.0019915342.008087.001015.001420.001835.00442.001056.00764.001820.0019925867.0010284.001415.001689.002405.00585.001306.001101.002271.0019936964.0014188.002266.002174.002817.00712.001670.001380.003164.0019949573.0019481.002965.002788.003773.001008.002235.001909.004466.00199512136.0024951.003729.003244.004779.001200.002799.002354.005603.00199614015.0029448.004387.003782.005600.001337.003212.002618.006778.00199714442.0032921.004622.004149.006327.001561.003607.002921.008423.00199814818.0034018.004986.004661.006913.001787.003698.003434.0010087.00199914770.0035861.005172.005175.007491.001941.003816.003682.0011768.00200014945.0040034.005522.006161.008159.002146.004087.004149.0014012.00200115781.2743580.625931.676870.259119.412400.134353.464715.0716903.30200216537.0247431.316465.467492.959995.352724.754612.805346.3519726.70200317381.7254945.537490.787913.1911169.473126.064989.406172.6822633.94200421412.7365210.038694.289304.3912453.853664.805392.977174.1326571.20200522420.0077230.7810367.3110666.1613966.184195.726086.838516.4331487.96200624040.0091310.9412408.6112182.9816530.724792.598099.0810370.4636579.05200728627.00110534.8815296.4814601.0420937.845548.1112337.5513809.7544117.66200833702.00130260.2418743.2016362.5026182.346616.0714863.2514738.7052577.12200935226.00135239.9522398.8316727.1028984.477118.1717727.5818654.7158099.457.2 程序:7.2.1程序1data analysis_01; /*建立数据集,数据集的名称叫analysis_01*/input Year $ x1-x9;cards;1952 345.98 119.80 22.00 29.00 70.14 14.70 11.00 14.00 52.381953 381.39 163.50 29.00 35.00 102.40 17.97 10.94 13.25 70.74 /*数据行省略*/2009 35226.00 135239.95 22398.83 16727.10 28984.47 7118.17 17727.58 18654.71 58099.45;run;proc corr nosimple noprob;/*利用proc corr 过程求相似系数矩阵*/var x1-x9;proc corr cov;run;7.2.2程序2data analysis_02(type=distance);array x(9) x1-x9;input _name_ $ x1-x9;do i=1 to 9;x(i)=1-abs(x(i);ends;drop i;cards;x1 1.00000 0.97649 0.97726 0.98148 0.97854 0.97678 0.96475 0.96212 0.95128x2 0.97649 1.00000 0.99929 0.99686 0.99825 0.99829 0.98898 0.99730 0.99383 /*数据行省略*/x9 0.95128 0.99383 0.99100 0.99101 0.99146 0.99467 0.97802 0.99640 1.00000;7.2.3程序3proc print data=analysis_02;run;data analysis_03;input name $ x1-x9;cards;x1 1.00000 0.97649 0.97726 0.98148 0.97854 0.97678 0.96475 0.96212 0.95128x2 0.97649 1.00000 0.99929 0.99686 0.99825 0.99829 0.98898 0.99730 0.99383 x9 0.95128 0.99383 0.99100 0.99101 0.99146 0.99467 0.97802 0.99640 1.00000;run;proc cluster data=analysis_03 outtree=tree method=average nomorm standard;var x1-x9;id name;run;proc tree spaces=2 graphic

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论