版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用数理统计作业——聚类分析与判别分析-13-应用数理统计聚类分析与判别分析(第二次作业)学院:姓名:学号:2015年12月
目录我国部分城市经济发展水平的聚类分析和判别分析 4摘要: 41. 引言 42. 相关统计基础理论 42.1聚类分析 42.2判别分析 53. 模型建立 63.1设置变量 63.2数据收集和整理 64. 数据结果及分析 84.1聚类分析 84.2判别分析 105. 结论 14参考文献 15
我国部分城市经济发展水平的聚类分析和判别分析摘要:本文基于《中国统计年鉴》(2014年版)统计数据,统计全国各省市居民消费情况,包括各地区农村居民人均纯收入、农村居民人均现金消费、城镇居民人均可支配收入、城镇居民人均现金消费情况共4个指标,利用统计软件SPSS综合考虑各指标,对所选地区进行K-Means聚类分析,利用Fisher线性判别待判地区类型,进一步验证所建模型的有效性。关键字:聚类分析,判别分析,SPSS,各省市居民消费引言改革开放以来,我国经济飞速发展,居民生活水平不断提高,随之,居民的消费也逐渐增加,对于各地区的居民收入和消费的分析,一定程度上能够体现该地区的经济状况,有助于相关政策的制定。相关统计基础理论2.1聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。本文使用统计软件SPSS对所收集的数据进行快速聚类,其特点是:在确定类别数量基础上,先给定一个粗糙的初始分类,然后按照某种原则进行反复修改,直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是K-Means算法。K-Means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-Means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。一般而言,k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2.2判别分析判别分析是市场研究的重要分析技术,也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建Biplot二元判别图(概念图)。同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。判别分析属于监督类分析方法,例如:市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯(Bayes)判别、费舍尔(Fisher)判别等几种常用方法。距离判别的基本原理是:首先对样本到总体G之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:式中为p元总体G的协方差阵,x是取自G的样品,则该式即为样品x到总体G的马氏距离。贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体的距离可以用欧式距离度量,即:由此导出Fisher判别规则为:,则本文及使用Fisher判别建立线性判别函数进行距离判别。模型建立3.1设置变量本文综合考虑了评价各地区居民的收入支出情况,选取能够反映一个省(市)收支状况的主要因素,包括各地区农村居民人均纯收入、各地区农村居民人均现金消费、各地区城镇居民人均可支配收入、各地区城镇居民人均现金消费,共4项因素:X1:各地区农村居民人均纯收入 X2:各地区农村居民人均现金消费X3:各地区城镇居民人均可支配收入X4:各地区城镇居民人均现金消费3.2数据收集和整理本文所有数据来源于《中国统计年鉴(2014)》,选取2013年度31个省市居民收支状况数据进行模型建立及分析,初始数据见表1所示。其中浙江、广东、重庆未参与聚类分析和判别分析,而是作为了判别分析验证数据。表1各地区居民收支状况编号地区农村居民人均纯收入/元农村居民人均现金消费/元城镇居民人均可支配收入/元城镇居民人均现金消费/元1北京18337.513470.240321.026274.892天津15841.010088.632293.621711.863河北9101.95969.622580.313640.584山西7153.55463.222455.613166.195内蒙古8595.76763.325496.719249.066辽宁10522.76864.925578.218029.657吉林9621.26827.622274.615932.318黑龙江9634.16542.119597.014161.719上海19595.013872.943851.428155.0010江苏13597.89486.932537.520371.4811浙江16106.011541.137850.823257.1912安徽8097.95344.923114.216285.1713福建11184.27552.530816.420092.7214江西8781.54910.121872.713850.5115山东10619.97184.228264.117112.2416河南8475.35353.022398.014821.9817湖北8867.05531.122906.415749.5018湖南8372.15854.223414.015887.1119广东11669.37881.533090.024133.2620广西6790.94547.023305.415417.6221海南8342.65090.722928.915593.0422重庆8332.05057.825216.117813.8623四川7895.35406.122367.616343.4524贵州5434.03888.320667.113702.8725云南6141.33953.023235.515156.1526西藏6578.22661.520023.412231.8627陕西6502.65420.722858.416679.6928甘肃5107.84393.718964.814020.7229青海6196.45506.619498.513539.5030宁夏6931.05942.121833.315321.1031新疆7296.55519.919873.815206.16数据结果及分析4.1聚类分析4.1.1聚类分析过程采用统计软件SPSS可以快速方便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:(1)K-均值聚类初始聚类中心表1初始聚类中心聚类123农村居民人均纯收入5107.8019595.0015841.00农村居民人均现金消费4393.7013872.9010088.60城镇居民人均可支配收入18964.8043851.4032293.60城镇居民人均现金消费14020.7228155.0021711.86(2)样本聚类表3聚类成员案例号地区聚类距离1北京22106.0632上海22106.0633天津34094.7144内蒙古15520.4525辽宁15465.7436江苏32044.4307福建31948.5048山东34631.4639河北12185.57810山西12126.01311吉林12503.62912黑龙江13538.32313安徽11508.76514江西11763.94815河南1849.61416湖北11478.08017湖南11656.69418广西11720.47519海南11096.90720四川11193.36921贵州13445.53622云南12392.05523西藏14670.97224陕西12074.79325甘肃14400.22126青海13484.40327宁夏11064.07228新疆12324.098(3)最终聚类中心表4最终聚类中心聚类123农村居民人均纯收入7747.2518966.2512810.73农村居民人均现金消费5352.4413671.558578.05城镇居民人均可支配收入22147.4742086.2030977.90城镇居民人均现金消费15181.1827214.9519822.08表5最终聚类中心间的距离聚类123127155.81011642.926227155.81015552.591311642.92615552.591(4)聚类方差分析表6聚类方差分析聚类误差FSig.均方df均方df农村居民人均纯收入1.446E822458629.3842558.812.000农村居民人均现金消费74433749.03021132487.9062565.726.000城镇居民人均可支配收入4.525E823345462.88325135.265.000城镇居民人均现金消费1.554E822738553.2752556.758.000F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。4.1.2聚类结果分析在本文中把31个省市分为了3个组,从上述聚类分析过程可知,样本完全有效,这三类分别为:G1:辽宁、广西、贵州、青海、新疆、安徽、江西、四川、甘肃、河北、山西、内蒙古、吉林、黑龙江、河南、湖北、湖南、云南、陕西、宁夏G2:北京、上海G3:天津、江苏、山东、福建从分类结果可知,G2类北京、上海是经济比较发达的地方,城镇居民与农村居民收入都最高,相应的,其农村居民和城镇居民的消费也最高;接下来的G3包括天津、江苏、山东、福建,居民收入也较高,居民消费水平也较高;剩余的省市被归为了G2组。G1的北京、上海两大经济中心,经济发达远超其他地区,G2组都是沿海省份,这说明现在我国经济发展不平衡,沿海地区经济比较发达,内地经济发展落后。从最后的方差分析中可知,分类检验水平显著,分类结果值得借鉴。4.2判别分析4.2.1判别结果及分析一般来讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;因变量(dependentvariable):分组变量——定性数据(个体、产品/品牌、特征,定类变量)。自变量(independentvariable):判别变量——定量数据(属性的评价得分,数量型变量)。本文中,自变量就是各地区农村居民人均纯收入、各地区农村居民人均现金消费、各地区城镇居民人均可支配收入、各地区城镇居民人均现金消费4项。判别图从图中明显可以看出,看到三个组分别围绕各自中心分布,说明直观上分组判别是完全可以接受的。典型判别式函数摘要表7特征值函数特征值方差的%累积%正则相关性113.497a99.499.4.9652.078a.6100.0.269a.分析中使用了前2个典型判别式函数。表8Wilks的Lambda函数检验Wilks的Lambda卡方dfSig.1到2.06464.6088.0002.9271.7703.621表9标准化的典型判别式函数系数函数12农村居民人均纯收入-.307-.963农村居民人均现金消费.6951.045城镇居民人均可支配收入1.317-.610城镇居民人均现金消费-.745.800表10结构矩阵函数12城镇居民人均可支配收入.895*-.009农村居民人均现金消费.623*.506农村居民人均纯收入.590*-.078城镇居民人均现金消费.579*.489判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。*.每个变量和任意判别式函数间最大的绝对相关性表11组质心处的函数案例的类别号函数121-1.639.059210.540.51433.746-.581在组均值处评估的非标准化典型判别式函数从表7到表11中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的99.4%,第二判别函数解释了0.6%;两个判别函数解释了100%;当然,两个判别函数直接具有显著的差异和判别力。(3)分类统计量表12组的先验概率案例的类别号先验用于分析的案例未加权的已加权的1.3332222.0002.33322.0003.33344.000合计1.0002828.000表13分类函数系数案例的类别号123农村居民人均纯收入-.003-.005-.003农村居民人均现金消费.002.010.005城镇居民人均可支配收入.008.017.012城镇居民人均现金消费-.001-.006-.004(常量)-77.582-287.181-151.747Fisher的线性判别式函数表14组统计量案例的类别号均值标准差有效的N(列表状态)未加权的已加权的1农村居民人均纯收入7747.25001438.049772222.000农村居民人均现金消费5352.43641026.523812222.000城镇居民人均可支配收入22147.47271770.801522222.000城镇居民人均现金消费15181.17861624.321652222.0002农村居民人均纯收入18966.2500889.1867822.000农村居民人均现金消费13671.5500284.7519022.000城镇居民人均可支配收入42086.20002496.3697822.000城镇居民人均现金消费27214.94501329.4385322.0003农村居民人均纯收入12810.72502397.7316644.000农村居民人均现金消费8578.05001426.2234844.000城镇居民人均可支配收入30977.90001962.4993744.000城镇居民人均现金消费19822.07501939.8958444.000合计农村居民人均纯收入9271.96073603.804452828.000农村居民人均现金消费6407.46072561.681272828.000城镇居民人均可支配收入24833.15716051.283382828.000城镇居民人均现金消费16703.71863748.239062828.000我们用Fisher线性判别函数用来构建判别方程,也就是说,理论上,如果我们知道某个城市在这4项居民收支状况,就可以依据该函数判断该城市属于哪一组城市类型。4.2.2判别检验判别变量是数量型测量尺度变量,分析样本个数至少比判别变量多两个,我们为了得到判别函数,经常需要把样本随机分成训练样本和检验样本等工作,如本文最后四个(序号33-36)个体就可作为检验样本,也成待判样本。由上表可知Fisher判别方程:G判别规则:,则判别结果:地区农村居民人均纯收入农村居民人均现金消费城镇居民人均可支配收入城镇居民人均现金消费G1G2G3分组浙江1610611541.137850.823257.19176.7314251.6205218.8213G2广东11669.37881.53309024133.26143.7598151.0179153.1996G3重庆83325057.825216.117813.8691.4525443.5275479.88376G1因此浙江与北京上海同属经济发达的G2组,广东与天津、江苏、山东、福建同属经济较发达的G3组,而重庆属于经济欠发达的G3组。与31个地区共同做分类后得到的结果一直,因此该分类是合理的。表1531个省市聚类成员案例号地区聚类距离1北京1795.5932天津23897.9553河北32234.4104山西32227.9455内蒙古35354.9186辽宁35313.7697吉林32456.9298黑龙江33660.5919上海14304.86710江苏21876.33611浙江14537.36512安徽31333.92913福建21852.41514江西31859.36915山东25293.48716河南3855.53117湖北31353.31418湖南31502.62019广东23986.80320广西31629.91821海南3946.11822重庆
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国际基础与金融 30
- 国际基础与金融 14
- DB42-T 2539-2026 数字家庭工程建设标准
- 2026年《公共卫生执业医师》第一单元模拟试题一
- 2026年高二地理下学期期中考试卷及答案(十四)
- 2026年初一历史下学期期末考试卷及答案(共十套)
- 2026年护理工作在外科手术患者ERAS中的作用课件
- 公园绿化新篇章-实现生态与社会共赢
- 对初中历史课程改革中课堂教学的反思
- 医院医护人员患者隐秘保护制度执行情况评估方案
- GB/Z 43465-2023河流能资源评估及特征描述
- MSOP(测量标准作业规范)测量SOP
- 机械加工工艺手册
- (医学课件)膀胱的解剖与生理
- 2023年北京市东城区高考英语一模试题及答案解析
- DB32-T 4245-2022 城镇供水厂生物活性炭失效判别和更换标准
- 急慢性肾小球肾炎病人的护理课件
- 应用PDCA管理工具提高病案归档率
- 招标控制价编制实例
- ipc4101b刚性及多层印制板用基材
- GB/T 33899-2017工业物联网仪表互操作协议
评论
0/150
提交评论