已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
湖北省城市的社会经济发展的多元分析评价湖北省城市的社会经济发展的多元分析评价摘 要当今的世界从某个角度讲是数据的世界,特别是以数学技术的核心的,借助于计算机的,智能处理广大信息,数据的模式,正在方兴未艾。这样的处理模式不仅在理论上是个学科大综合的过程,从实践的角度和商业应用的角度,也是很有前景的。多元统计分析,以概率统计的基本视角,构造多种算法,是处理数据,信息,挖掘数据后面的价值的一种重要的工具。聚类分析和主成分分析是多元统计的最为重要,基础的内容模块。这篇文章主要分为两个部分:第一部分主要介绍了系统聚类法和主成分分析的基本思想,操作步骤。第二部分为实例分析,通过聚类分析把湖北省的城市分为三个级别:武汉,黄冈,荆门,荆州,孝感,襄阳,黄石,十堰,宜昌,咸宁,随州,鄂州。然后又通过主成分析,提取相应分类的主要因素。发现:第一,二产业仅仅两个综合指标即可表示全部的城市社会发展信息。这表明了一个社会的经济其他发展指标都是可以通过第一,二产业的数值反映。利用第一主成分=0.041*标准的第一产业+0.165*标准的第二产业+0.168*标准的第三产业+0.167*邮电业务+0.165*标准的科教指标+0.167*标准的金融贷款+0.167*标准的环境保护,可以对湖北省各个城市重新进行评分排序,结果为武汉,襄阳,宜昌,黄冈,荆州,孝感,十堰,黄石,随州,咸宁,鄂州。这与使用原来的8个指标进行聚类分析的结果一样,说明了主成分分析及提取了主要信息,有起到了降维的作用。关键词: 聚类分析 主成分分析 社会经济发展评价 assessment upon social and economical development of cities in hu bei province based on multivariable analysisabstractthis world, form some perspective, is a world of data. the outstanding processing mode that is, in essence, a technology cored by mathematics and assisted by computer, devoted to dealing with intelligent information processing, is popular and at its peak. this mode, is the springing up of the popular tendency of multidiscipline integration and marriage if standing in a angle of academics, is the result droved by the urge practical need of knowledge discovery from massive information. multivariate statistical analysis, based upon a probability and statistics, is a valuable tool by constructing variety of algorithms.cluster analysis and principal component analysis are the most important, basic in the content of multivariate statistics. this article mainly divides into two parts: the first part mainly introduces the basic idea of the system clustering method and principal component analysis, operation steps. the second part is case analysis. utilizing clustering analysis, the city of hubei province can be divided into three class: wuhan, huanggang, jingmen, jingzhou, xiaogan, xiangyang, huangshi, shiyan, yichang, xianning, suizhou, ezhou. utilizing principal component analysis, we can extract the main factors that affect the social eand economical development. we find that the first and second industry index, two comprehensive indexes, can generalize entire city development state. based on fpc formula, a new ranking list about city development can be given as wuhuan,xiangyang,yichang,huanggang,jinzhou,xiaogan,shiyan,huangshi,suizhou,xianning,ezhou. this result almost is consistent with that by cluster analysis, which in some way imply that the fpc we get enjoy a simple form without huge information loss. key words: cluster analysis;principal component analysis; social and economical development;目 录前言.11 基本概念与理论基础.21.1聚类分析.21.1.1 步骤.21.1.2关于类与类的距离.31.1.3关于分类数的确定.41.2 主成分分析.41.2.1主成分分析的基本思想与数学模型.51.2.2主成分分析的应用.71.2.3 主成分的导出 .81.2.4 主成分分析的计算步骤.102案例分析-评价湖北省的社会各个城市经济发展.132.1基础的数据.132.2 分析思路.132.3实验的结果输出和解释.142.3.1使用第一二三产业的聚类分析分类结果.142.3.2.引入更多指标后的聚类分类.152.3.3.主成分分析挖掘指标间的关系并排名.163课程设计心得.20参考文献.21前言 人们在科学处理各种实际问题时,会产生大量的相关数据,最起初人们对系统的运行缺乏相应的知识,人们仅仅利用收集得到的数据进行研究,讨论系统的行为。如何从数据中挖掘出一定的价值往往有很多的方法。数据挖掘,机器学习,统计分析等都是研究这样的问题的。多元统计分析是基于概率统计的,特别是多元正态分布这样的理论基础,通过多种应用假设建立的统计分析理论。如均值检验形象分析,聚类分析,判别分析,主成分分析等理论模块。对于分析一个省的不同城市的社会经济发展的分析,利用关于可利用的社会发展各个方面数据,通过建立不同的多元统计模型,可以初步的给出关于不同城市的社会经济发展情况。这样的给出的结论对于研究各个城市的社会经济发展是有一定的指导意义的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如spss、sas等。从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。在经济问题的研究中,我们常常会遇到影响此问题的很多变量,这些变量多且又有一定的相关性,因此我们希望从中综合出一些主要的指标,这些指标所包含的信息量又很多。这些特点,使我们在研究复杂的问题时,容易抓住主要矛盾。那么怎样找综合指标?主成分分析是将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标的统计方法,也是数学上处理降维的一种方法.主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。信息的大小通常用离差平方和或方差来衡量。一基本概念与理论基础1.1系统聚类法1.2.1步骤系统聚类法(hierarchical clustering method)在聚类分析中诸方法中用的最多,包含下列步骤: 1.1.2关于类与类距离系统聚类法要求对类与类之间的距离进行定义,当我们使用不同的定义方式,就会有不同的聚类效果。尽管类与类之间的距离有不同的定义,从而得到不同的递推公式,如果能将它们统一为一个公式,将大大有利于编制计算机程序。lance和williams于1967年给出了一个统一的公式。其中四个参数对应于不同的距离定义方式,具体见下表一般而言,不同的方法聚类的结果不完全相同。最短距离法适用于条形的类。最长距离法、重心法、类平均法、离差平方和法适用于椭圆形的类。1.1.3关于分类数的确定如何选择分类数是各种聚类方法中的主要问题之一。在k均值聚类法中聚类之前需要指定分类数,谱系聚类法(系统聚类法)中我们最终得到的只是一个树状结构图,从图中可以看出存在很多类,但问题是如何确定类的最佳个数。确定分类数的问题是聚类分析中迄今为止尚未完全解决的问题之一,主要的障碍是对类的结构和内容很难给出一个统一的定义,这样就给不出从理论上和实践中都可行的虚无假设。实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。demir-men曾提出了根据树状结构图来分类的准则:准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。准则2:各类所包含的元素都不要过分地多。准则3:分类的数目应该符合使用的目的。准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。系统聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具。首先把离得近的类合并,在并类过程中聚合系数呈增加趋势,聚合系数小,表示合并的两类的相似程度较大,两个差异很大的类合到一起,会使该系数很大。 如果以y轴为聚合系数,x轴表示分类数,画出聚合系数随分类数的变化曲线,会得到类似于因子分析中的碎石图,可以在曲线开始变得平缓的点选择合适的分类数。 1.2主成分分析1.11主成分分析的基本思想与数学模型(一)主成分分析的基本思想主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望越大,表示包含的信息越多。因此在所有的线性组合中所选取的应该是方差最大的,故称为第一主成分。如果第一主成分不足以代表原来个变量的信息,再考虑选取即第二个线性组合,为了有效地反映原来信息,已有的信息就不需要再出现在中,用数学语言表达就是要求,称为第二主成分,依此类推可以构造出第三、四第个主成分。(二)主成分分析的数学模型对于一个样本资料,观测个变量,个样品的数据资料阵为:其中:主成分分析就是将个观测变量综合成为个新的变量(综合变量),即简写为: 要求模型满足以下条件:互不相关(,)的方差大于的方差大于的方差,依次类推 于是,称为第一主成分,为第二主成分,依此类推,有第个主成分。主成分又叫主分量。这里我们称为主成分系数。上述模型可用矩阵表示为:,其中 称为主成分系数矩阵。1.2.2 主成分分析的应用主成分概念首先是由karl parson 在1901年引进,但当时只对非随机变量来讨论的。1933年hotelling将这个概念推广到随机变量。特别是近年来,随着计算机软件的应用,使得主成分分析的应用也越来越广泛。其中,主成分分析可以用于系统评估。系统评估是指对系统营运状态做出评估,而评估一个系统的营运状态往往需要综合考察许多营运变量,例如对某一类企业的经济效益作评估,影响经济效益的变量很多,很难直接比较其优劣,所以解决评估问题的焦点是希望客观、科学地将一个多变量问题综合成一个单变量形式,也就是说只有在一维空间中才能使排序评估成为可能,这正符合主成分分析的基本思想。在经济统计研究中,除了经济效益的综合评价研究外,对不同地区经济发展水平的评价研究,不同地区经济发展竞争力的评价研究,人民生活水平、生活质量的评价研究,等等都可以用主成分分析方法进行研究。另外,主成分分析除了用于系统评估研究领域外,还可以与回归分析结合,进行主成分回归分析,以及利用主成分分析进行挑选变量,选择变量子集合的研究。1.2.3 主成分的导出 根据主成分分析的数学模型的定义,要进行主成分分析,就需要根据原始数据,以及模型的三个条件的要求,如何求出主成分系数,以便得到主成分模型。这就是导出主成分所要解决的问题。1、根据主成分数学模型的条件要求主成分之间互不相关,为此主成分之间的协差阵应该是一个对角阵。即,对于主成分,其协差阵应为,2、设原始数据的协方差阵为,如果原始数据进行了标准化处理后则协方差阵等于相关矩阵,即有,3、再由主成分数学模型条件和正交矩阵的性质,若能够满足条件最好要求为正交矩阵,即满足于是,将原始数据的协方差代入主成分的协差阵公式得展开上式得展开等式两边,根据矩阵相等的性质,这里只根据第一列得出的方程为:为了得到该齐次方程的解,要求其系数矩阵行列式为0,即显然,是相关系数矩阵的特征值,是相应的特征向量。根据第二列、第三列等可以得到类似的方程,于是是方程的个根,为特征方程的特征根,是其特征向量的分量。4、下面再证明主成分的方差是依次递减设相关系数矩阵的个特征根为,相应的特征向量为相对于的方差为同样有:,即主成分的方差依次递减。并且协方差为:综上所述,根据证明有,主成分分析中的主成分协方差应该是对角矩阵,其对角线上的元素恰好是原始数据相关矩阵的特征值,而主成分系数矩阵的元素则是原始数据相关矩阵特征值相应的特征向量。矩阵是一个正交矩阵。于是,变量经过变换后得到新的综合变量新的随机变量彼此不相关,且方差依次递减。1.2.4主成分分析的计算步骤样本观测数据矩阵为:第一步:对原始数据进行标准化处理。 其中 第二步:计算样本相关系数矩阵。为方便,假定原始数据标准化后仍用表示,则经标准化处理后的数据的相关系数为: 第三步:用雅克比方法求相关系数矩阵的特征值()和相应的特征向量。第四步:选择重要的主成分,并写出主成分表达式。主成分分析可以得到个主成分,但是,由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,一般不是选取个主成分,而是根据各个主成分累计贡献率的大小选取前个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重。即贡献率贡献率越大,说明该主成分所包含的原始变量的信息越强。主成分个数的选取,主要根据主成分的累积贡献率来决定,即一般要求累计贡献率达到85%以上,这样才能保证综合变量能包括原始变量的绝大多数信息。另外,在实际应用中,选择了重要的主成分后,还要注意主成分实际含义解释。主成分分析中一个很关键的问题是如何给主成分赋予新的意义,给出合理的解释。一般而言,这个解释是根据主成分表达式的系数结合定性分析来进行的。主成分是原来变量的线性组合,在这个线性组合中个变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用,线性组合中各变量系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的实际意义,这要结合具体实际问题和专业,给出恰当的解释,进而才能达到深刻分析的目的。第五步:计算主成分得分。根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。具体形式可如下。第六步:依据主成分得分的数据,则可以进行进一步的统计分析。其中,常见的应用有主成份回归,变量子集合的选择,综合评价等。二案例分析-评价湖北省的社会各个城市的社会经济状况2.1基础的数据(数据来源为湖北省统计局)2.2分析思路对于湖北省的城市就关于城市的土地面积,人口情况,就业情况,生产总值,固定资产投资,工业总产值,财政收支,金融机构存贷款余额,贸易,外经,城市邮电,电力指标,环境保护,城市居民收支情况,城市居民消费支出,物价,城市的文教,科技,卫生指标多个角度对湖北省的社会经济发展进行评价。首先我们从经济水平对湖北省的城市进行聚类分析,观察各个城市之间的经济发展水平的相似性。我们利用各个城市第一产业,第二产业,第三产业的生产总值为指标对武汉,黄石,十堰,宜昌,襄阳,鄂州,荆门,孝感,荆州,黄冈,咸宁,随州12个城市进行初步的经济水平上的聚类。然后,为了补充上面三个指标的衡量的不全面性,如引入了全年有点业务收入,图书馆藏书数量(科技指标),金融贷款余额,三废投资总额(环境保护指标)。一方面当引入较多指标会使评价更加全面,但也可能导致非关键的因素指标所占的比重过多,反而会掩盖真实的结果,因此指标的选取应该“言简意赅”,即以最少的指标反映问题的核心。引入这个指标仅仅为了测试或者比较一下两者之间分类的差异。最后,对第一,二三产业,点业务收入,图书馆藏书数量(科技指标),金融贷款余额,三废投资总额(环境保护指标)的指标进行主成分分析,去挖掘各个指标之间的关系。最后发现诸多指标可以通过一个主成分描述。并使用主成分对城市进行排序,并与原来的聚类结果的分类进行比较。2.3实验的结果输出和解释2.3.1.使用第一二三产业的分类结果从相似性距离矩阵中可以看出一些分类的大致情况,由于相似矩阵的第一行普遍都比较大,因此城市1即武汉和其他城市的相差比较大,武汉和其他城市的距离最小为16,而其他各个城市之间的最大距离上为7左右,因此只能自己划为一类。另外城市2与3,6距离仅为0.118和0.093.因此2,3,6应为一类。从冰柱图中可以看出分类的结果为:当把12个城市分为3类时,武汉,黄冈,荆门,荆州,孝感,襄阳,黄石,十堰,宜昌,咸宁,随州,鄂州。当把湖北省的12个城市分为4类时,结果为武汉,襄阳,黄冈,荆州,宜昌,荆门,孝感,黄石,十堰,宜昌,咸宁,随州,鄂州。由于使用的是关于12个城市的第一,第二,第三产业的生产总值的三个指标进行系统聚类,系统聚类的结果表明在经济结构上的城市的分类,而城市的第一二三产业的分布结构,是经济发展水平的一个显著的指标,一般经济发展水平越高,第三产业所占的比重就会越高。有系统聚类的结果可知,武汉是湖北省唯一的无语匹敌的经济发展的城市,其他的城市的发展情况都远远小于武汉的水平,这是因为武汉作为湖北省的省会中心,是政治,经济,文化的中心的原因。2.3.2.引入更多指标后的分类当分为三类时,其结果为:武汉,宜昌,襄阳,黄冈,荆州,黄石,十堰,鄂州,荆门,孝感,咸宁,随州 ,这与使用三种指标分类结果武汉,黄冈,荆门,荆州,孝感,襄阳,黄石,十堰,宜昌,咸宁,随州,鄂州。几乎一模一样,这也证实了分类结果的稳定性和可靠性。2.3.3.主成分分析挖掘指标间的关系并排名结果输出:1.从相关矩阵correlation matrix挖掘的信息结果表明除了第一产业,各个指标之间的相关程度比较高,因此我们可以仅仅使用第一,第二产业仅仅两个综合指标即可表示全部的城市社会发展信息。则以第二产业为代表的7个指标类,由于具有很强的相关性可以视为一个传统型经济指标,而第一产业可以视为高新科技为导向的经济指标。另外一方面,也表明一个城市的第一产业的发展水平与第二三产业发展水平相关关系不大,而第二三产业的发展水平和金融贷款,环境保护意识,邮电业业务,科教水平有很高的相关程度。这是因为湖北省城市的主要发展层次为第二三产业,而第三产业作为服务业,占城市的经济比重较小。而作为经济发展水平的第二三产业的发展水平越高,则相应的金融的发展水平一般也会越高,这是因为金融作为经济发展的血液,对资源起着配置作用,一般经济的发展会推动的金融市场的完备与完善,相应的,金融市场的完善反过来也很推动经济的发展。科教,环境的保护意识,邮电业务作为社会发展的其他方面,也会随着的社会的经济发展而发展。2.主成分指标和评分第一主成分=0.041*标准的第一产业+0.165*标准的第二产业+0.168*标准的第三产业+0.167*邮电业务+0.165*标准的科教指标+0.167*标准的金融贷款+0.167*标准的环境保护。城市武汉黄石十堰宜昌襄阳鄂州荆门孝感荆州黄冈咸宁随州综合得分3.1187-0.358-0.3530.0490.0793-0.5611-0.3813-0.3315-0.2131-0.209-0.4279-0.4130因此,最后各个城市的按住成分排名为武汉,襄阳,宜昌,黄冈,荆州,孝感,十堰,黄石,随州,咸宁,鄂州。这与使用这些指标进行聚类分析的结果:武汉,宜昌,襄阳,黄冈,荆州,黄石,十堰,鄂州,荆门,孝感,咸宁,随州 ,是一模一样的,这说明了主成分分析的即到达了降维的目的,而且也没有损失大部分的信息。说明了主成分分析的优越性,即使用一个综合的指标即为第一主成分=0.041*标准的第一产业+0.165*标准的第二产业+0.168*标准的第三产业+0.167*邮电业务+0.165*标准的科教指标+0.167*标准的金融贷款+0.167*标准的环境保护。代替原来的8个指标。另外从component matrix载荷矩阵可以看出,在第一主成分中,各个指标的贡献情况是不一样的,发现第一产业的贡献最低仅为0.244,而其他的7个指标的指标都
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 餐厅经营托管合同范本
- 银行提额付款合同范本
- 百达精工协议转让合同
- 2025能源项目招标投标合同条件(第1部分)
- 餐饮经营托管合同范本
- 高端白酒购买合同范本
- 门店陈列标准合同范本
- 2025在线版购房合同范本
- 设备押金协议合同范本
- 销售塔吊整机合同范本
- 北京市存量房屋买卖合同自行成交版
- 食品添加剂检测-漂白剂二氧化硫含量的测定(农产品安全检测)
- 《危险化学品重点县专家指导服务手册》
- 南京各景点导游词(导游资格证考试面试专用)
- GB/T 13808-1992铜及铜合金挤制棒
- 激发内驱力让学生主动发展
- GA/T 947.3-2015单警执法视音频记录系统第3部分:管理平台
- 餐饮企业风险告知牌
- (WORD版可修改)JGJ59-2023建筑施工安全检查标准
- 二年级下册音乐教案(人音版)
- 高血压护理查房ppt
评论
0/150
提交评论