信息分析 课件 第3-5章 信息分析方法、信息分析工具、信息分析成果评价_第1页
信息分析 课件 第3-5章 信息分析方法、信息分析工具、信息分析成果评价_第2页
信息分析 课件 第3-5章 信息分析方法、信息分析工具、信息分析成果评价_第3页
信息分析 课件 第3-5章 信息分析方法、信息分析工具、信息分析成果评价_第4页
信息分析 课件 第3-5章 信息分析方法、信息分析工具、信息分析成果评价_第5页
已阅读5页,还剩179页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息分析概论

(第二版)第3章信息分析方法信息分析概论(第二版)第3章信息分析方法信息分析的基本方法3.1回归分析3.2聚类分析3.3时间序列分析3.4主成分分析3.5决策树3.6方法是信息分析的核心。信息分析方法一般可分为定性方法、定量方法和半定量方法三大类。定性方法定性方法是信息分析的基本方法。它以认识论及思维科学领域的有关理论为基础,根据有关课题的原生信息及其各种相关关系,对研究对象进行比较、评价、判断、推理、分析、综合,从而揭示出研究对象本身所固有的、本质的规律。定性方法主要用于这样几种场合:为定量分析做准备;对定量分析的结果进行验证或评价;在缺乏定量分析条件或不需进行定量分析的情况下独立使用。信息分析概论(第二版)信息分析方法定量方法定量方法以基础数学、数理统计、应用数学以及其他数学处理手段为基础,通过分析研究揭示出研究对象本身所固有的、内在的数量规律性。定量方法具有定量分析、结论具体、高度抽象等特点,在信息分析中有十分广泛的应用。这种方法的缺点在于其不能完全替代人脑进行创造性思维。此外,定量方法所构造的曲线、模型或公式仅仅是客观事物抽象化和理想化的结果,与复杂的、多参量的、动态变化的客观事物本身相比,仅仅是一种近似的、简单的、静态的描述,因此,其结论在许多情况下仅具有参照意义。在具体实践中,人们往往根据课题的条件和要求交叉使用定性方法和定量方法,以达到相互补充、相互完善的效果。信息分析概论(第二版)信息分析方法半定量方法半定量方法是一种定性和定量相结合的方法。其主要做法是在定性方法中引入数学手段,将定性问题(如专家评估意见和分析结论)按人为标准打分并做出定量化处理,具有数理统计的特征。在信息分析中经常采用的半定量方法主要有德尔菲法、层次分析法、交叉影响分析法等。半定量方法的缺陷在于:它不像定性分析那样推论严密,也不像定量分析那样可以利用数学曲线、模型或公式精确求解。特别是专家选择、调查表设计和数据处理的技巧性以及专家的评估意见和打分标准的主观性都很强,有时甚至缺乏科学的依据。因而半定量方法目前主要用于原始数据不足或不易获取、课题所涉及的相关因素过多等不易或不宜采用定量方法的场合。信息分析概论(第二版)信息分析方法信息分析概论(第二版)信息分析方法随着信息技术的发展,信息分析方法正在从:传统的以定性方法为主转向以定量方法为主;同时又在更高程度上出现了由定量方法向定性方法回归的趋势;定性方法作为信息分析的基本方法,始终保持着旺盛的生命力。本章重点探讨信息分析的基本方法以及回归分析、聚类分析、时间序列分析、主成分分析和决策树等方法。信息分析的基本方法第一部分信息分析概论(第二版)比较就是对照各个事物,以确定其间差异点和共同点的逻辑方法。事物间的差异性和同一性是进行比较的客观基础。完全相同或完全不同的事物均无法进行比较。比较通常有时间上的比较和空间上的比较两种类型:时间上的比较是一种纵向比较空间上的比较是一种横向比较在实际工作中,时间上和空间上的比较往往是彼此结合的信息分析概论(第二版)比较在比较时,应注意:要注意可比性,包括时间上的可比性、空间上的可比性和内容上的可比性。要确立一个比较的标准。要注意比较方式的选择。要注意比较内容的深度。比较在信息分析中的作用:揭示事物的水平和差距。认识事物发展的过程和规律。判定事物优劣、真伪。信息分析概论(第二版)比较分析就是把客观事物整体按照研究目的的需要分解为各个要素及其关系,并根据事物之间或事物内部各要素之间的特定关系,通过由此及彼、由表及里的研究,达到认识事物的一种逻辑方法。分析的基本步骤:明确分析的目的。将事物整体分解为若干个相对独立的要素。分别考察和研究各个事物以及构成事物整体的各个要素的特点。探明各个事物以及构成事物整体的各个要素之间的相互关系,并进而研究这些关系的性质、表现形式、在事物发展变化中的地位和作用等。常用的分析方法主要有因果分析、表象和本质分析、相关分析和典型分析。信息分析概论(第二版)分析与综合因果分析因果分析就是从客观事物的因果关系出发,由原因推导出结果,或者由结果探究出原因的分析方法。因果分析的四种形式:求同法。如果在不同的场合观察到相同的现象,这些不同的场合各有若干原因,但其中只有一个原因相同,则可初步确定这个共同的原因就是产生该现象的原因。求异法。如果所观察的现象在第一种场合出现,在第二种场合不出现,而这两种场合只有一个原因不同,则可初步确定这个不同的原因就是引发该现象的原因。共变法。如果在所观察的现象发生变化的各种场合里,其他原因都没有变化,只有一个原因发生了变化,则可初步确定该发生变化了的原因是使所观察的现象发生变化的原因。剩余法。如果已知某一现象是所观察的现象的原因,并且又知先行现象的某一部分是后续现象某一部分的原因,则可初步确定先行现象中的其余部分是后续现象中的其余部分的原因。信息分析概论(第二版)分析与综合表象和本质分析表象和本质是揭示客观事物的外部表现和内部联系相互关系的一对范畴。表象是事物的表面特征以及这些特征之间的外部联系;本质是事物的根本性质,是构成事物的各种必不可少的要素的内在联系。由于本质是通过表象以某种方式表现出来的,因此,两者之间存在着一定的关系。利用事物的表象和本质之间的这种关系进行分析的方法,就是表象和本质分析。利用表象和本质分析,可达到由表及里、透过事物表象把握其本质的目的。信息分析概论(第二版)分析与综合相关分析在信息分析中,我们把利用事物的这些相关关系进行由此及彼、由表及里的分析方法统称为相关分析。典型分析是对一个或几个具有代表性的典型事例,就其核心问题进行深入分析和研究的方法。信息分析概论(第二版)分析与综合综合是同分析相对立的一种方法。它是指人们在思维过程中将与研究对象有关的片面、分散、众多的各个要素(情况、数据、素材等)联结起来考虑,以从错综复杂的现象中,探索它们之间的相互关系,达到从整体的角度把握事物的本质和规律,通观事物发展的全貌和全过程,获得新的知识、新的结论的一种逻辑方法。综合的基本步骤是:明确综合的目的。把握被分析出来的研究对象的各个要素。确定各个要素的有机联系形式。从事物整体的角度把握事物的本质和规律,从而获得新的知识和结论。在信息分析中,常用的综合方法主要有简单综合、系统综合和分析综合。信息分析概论(第二版)分析与综合简单综合简单综合是对与研究课题有关的信息(情况、数据、素材等)进行汇集、归纳和整理。系统综合系统综合是从系统论的观点出发,对与研究课题有关的大量信息进行时间与空间、纵向与横向等方面的综合研究。分析综合分析综合是对所搜集到的与研究课题有关的原生信息,在进行对比、分析和推理的基础上进行综合,以认识课题的本质、全貌和动向,获得新的知识和结论。信息分析概论(第二版)分析与综合分析与综合的关系:分析与综合是辩证统一的关系。两者既相互矛盾又相互联系。两者在一定的条件下可以相互转化。在信息分析中,分析与综合总是结合在一起使用的。没有分析的综合,或者没有综合的分析,都很难保证信息分析产品的质量。信息分析概论(第二版)分析与综合推理是由一个或几个已知的判断推出一个新判断的思维形式。具体来说,就是在掌握一定的已知事实、数据或因素相关性的基础上,通过因果关系或其他相关关系顺次、逐步地推论,最终得出新结论的一种逻辑方法。任何推理都包含三个要素:前提,即推理所依据的那一个或几个判断。结论,即由已知判断推出的那个新判断。推理过程,即由前提到结论的逻辑关系形式。推理类型的划分角度:根据前提的数量,推理分为直接推理和间接推理。根据组成推理的判断的类别,推理分为直言推理、假言推理、选言推理、联言推理、关系判断推理和模态判断推理。根据推理的思维方向,推理分为演绎推理、归纳推理和类比推理。信息分析概论(第二版)推理常规推理常规推理是借助于一个共同的概念把两个直言判断联系起来,从而推出一个新结论的演绎推理。两者既相互矛盾又相互联系。常规推理由大前提(一般原理或原则)、小前提(个别对象)和结论组成,其基本的推理程式为:

大前提:M→P

小前提:S→M

结论:S→P例如:信息分析概论(第二版)推理大前提:控制人口增长、保持“适度”人口有利于实现社会可持续发展。小前提:实行计划生育和优生优育政策有利于控制人口增长、保持“适度”人口规模。结论:

实行计划生育和优生优育政策有利于实现社会可持续发展。归纳推理归纳推理是由个别到一般的推理,即由关于特殊对象的知识得出一般性的知识。简单枚举推理是最常见的一种推理形式。它是通过简单枚举某类事物的部分对象的某种情况,在枚举中又没有遇到与此相矛盾的情况,从而得出这类事物的所有对象都具有此种情况的归纳推理。其基本的推理程式为:简单枚举归纳推理是一种或然性推理,推理形式的正确性并不一定能保证由真的前提得出真的结论。它只能肯定由真的前提得出的结论有一定程度的可靠性。

信息分析概论(第二版)推理假言推理假言推理是从一个假言判断的结论出发,顺次推出其后件或逆向推出其前件,进而通过肯定它的后件或前件,来论证、检验原先假言判断结论的正确性的一种推理方法。例如:假言判断:某竞争对手正在推行专利竞争战略。大前提:推行专利竞争战略与加强研究与开发、专利申请活动有关。小前提:大量调查发现上述事实确凿。肯定原先假言判断:所以,该竞争对手正在推行专利竞争战略是确凿的。信息分析概论(第二版)推理回归分析第二部分信息分析概论(第二版)回归分析是处理两个或两个以上变量之间依赖关系的一种数学方法。它不仅提供了建立变量之间依赖关系的数学表达式(通常称为经验公式)的一般途径,而且通过计算对所建立的经验公式的有效性进行分析,使之能有效地用于预测和控制。信息分析的对象及其影响因素通常牵涉到许多变量,这些变量之间常常存在各种各样的相关关系,如价格与需求、收入与支出、投资与收益等。一元线性回归分析法主要用于研究两个变量之间的线性相关关系。信息分析概论(第二版)一元线性回归分析

信息分析概论(第二版)一元线性回归分析图3.1一元线性回归示意

信息分析概论(第二版)一元线性回归分析

信息分析概论(第二版)一元线性回归分析

回归方程效果的检验(1)平方和分解公式通过以上分析,式3-5可表示为:其具体含义为,y1,y2,…,yn的分散程度(lyy)可以分解为两部分,一部分是(来源x1,x2,…,xn的分散性)通过x对y的线性相关关系而引起的分散性(U),另一部分是剩余部分引起的y的分散性(Q)。

信息分析概论(第二版)一元线性回归分析回归方程效果的检验(2)F检验在一般分析中,通常选用量F进行回归方程效果的检验。F为F体现了x与y的线性相关关系的相对大小:如果F值相当大,则表明x对y的线性影响较大,就可以认为x与y有线性相关关系;反之,若F的值较小,则没有理由认为x与y间有线性相关关系。F值究竟多大,才认为x与y间具有线性相关关系呢?

信息分析概论(第二版)一元线性回归分析回归方程效果的检验(2)F检验数学上可证明,在假设H0:b=0的前提下,F服从自由度为1,n-2的F分布。这样,我们就可以得到关于F检验的一般程序:计算U,Q,从而得F值。对于给定的检验标准α,查自由度为1,n-2的F分布临界值表1,得临界值λ:P(F>λ)=α。比较F值与λ值的大小。如F>λ,则否定假设H0,可认为x,y间具有线性相关关系;否则,没有理由认为x,y间存在线性相关关系。信息分析概论(第二版)一元线性回归分析回归方程效果的检验(3)t检验t服从自由度为n-2的t分布。t检验的一般程序如下:计算t值。对于给定的检验标准α,查自由度为n-2的t分布临界值表,得临界值λ:P(t>λ)=α。比较t值与λ值的大小。如果t>λ,则认为x,y间存在线性相关关系;否则,没有理由认为x,y间存在线性相关关系。信息分析概论(第二版)一元线性回归分析回归方程效果的检验(4)R2

检验令则R即为相关系数。信息分析概论(第二版)一元线性回归分析回归方程效果的检验(4)R2

检验事实上,R2检验与t检验、F检验间具有一定的联系。由上式可求出又

所以,用t检验、F检验与R2检验实质上是一回事。由R分布临界值表可直接查出在给定的检验标准α下的临界值λ。若R>λ,则认为在给定的检验标准α下回归方程效果显著。信息分析概论(第二版)一元线性回归分析可线性化的非线性回归对于回归方程的模式是线性的情况,可直接根据式3-3和式3-4求得a、b。然而,大量的实际情况并不总是属于线性的模式,怎么办呢?一个常用而简便的方法是尽可能地将它们变为线性的模式。现将可线性化的几类非线性回归问题分述如下:(1)指数函数模式线性化的线性化的方法是对式3-7两边取对数,并令则式3-7可化为

信息分析概论(第二版)一元线性回归分析(2)幂函数模式将式3-8两边取对数,并令则式3-8可化为(3)双曲线模式令则式3-9可化为(4)对数函数模式

令则式3-10可化为

信息分析概论(第二版)一元线性回归分析多元线性回归方程参数的求解设y与x1,x2,…,xk有线性关系,通过观测或实验得到n组数据:则它们之间的线性关系可表示成:对于某些非线性的关系,可通过适当的变换化为形式上的线性模式。例如,对于一元多项式回归问题:,可通过变换化为多元线性回归问题(令x1=x,x2=x2,…,xk=xk):

信息分析概论(第二版)多元线性回归分析(x11,x21,…,xk1,y1)(x12,x22,…,xk2,y2)…………(x1n,x2n,

…,xkn,yn)多元线性回归方程参数的求解设Q(b0,b1,…,bk)=∑[yt-(b0+b1x1t+…+bkxkt)]2

为了使Q达到最小值,应满足:由式3-12可进一步推得:数学上可证明,由式3-13确定的b0,b1,

…,bk确实使Q达到最小。信息分析概论(第二版)多元线性回归分析回归方程效果的检验(1)平方和分解公式跟一元的情形类似,我们有平方和分解公式:其中:信息分析概论(第二版)多元线性回归分析回归方程效果的检验(2)F检验在多元回归中其中:F服从自由度为k,n-k-1的F分布。F检验的一般程序如下:计算F值。对于给定的检验标准α,查自由度为k,n-k-1的F分布临界值表,得临界值λ:P(F>λ)=α。比较F值与λ值的大小。如果F>λ,则认为线性回归方程效果是显著的;反之,则认为是不显著的。信息分析概论(第二版)多元线性回归分析回归方程效果的检验(3)各自变量影响程度大小的判别在多元回归需要对回归方程的每个自变量都进行显著性检验。其所选用的统计量为:服从自由度为n-k-1的t分布。这里,cii为矩阵

的逆矩阵L-1

的对角线上的第i个元素。信息分析概论(第二版)多元线性回归分析回归方程效果的检验(3)各自变量影响程度大小的判别于是我们得到关于xi变量显著性检验的一般程序:计算ti值。对于给定的检验标准α,查自由度为n-k-1的t分布临界值表,得临界值λ:P(t>λ)=α。比较ti值与λ值的大小。如果ti>λ,则说明xi对y的影响显著,必须保留xi在回归方程中;否则,应去掉xi重新建立回归方程。信息分析概论(第二版)多元线性回归分析下面,我们以某年中国各地区城镇居民平均每人全年可支配收入和消费性支出(如表3.1所示)两个变量为例,说明回归分析的实际应用。右表为城镇居民平均每人全年可支配收入和消费性支出。利用社会科学统计分析软件SPSS对上表中的数据进行回归分析信息分析概论(第二版)回归分析的实际应用地

区可支配收入xi消费性支出yi北京9182.767498.48天津7649.835851.53河北5365.034026.30山西4342.613492.98内蒙古4770.533468.99辽宁4898.613989.93吉林4480.013661.68黑龙江4595.143481.74上海10931.648247.69江苏6538.205010.91浙江8427.956521.54安徽5064.603901.81福建6859.815266.69江西4720.583482.33山东5808.964515.05河南4532.363497.53湖北5212.824340.55湖南5815.374799.51广东9125.927517.81广西5619.544587.22海南5338.314017.75重庆5895.975444.23四川5477.894499.19贵州4934.023964.35云南6178.684941.26西藏6908.675309.12陕西4654.063953.25甘肃4475.233681.50青海4703.443903.76宁夏4472.913547.99新疆5319.764163.98表3.1城镇居民平均每人全年可支配收入和消费性支出作散点图先通过散点图(如图3.2所示)对变量进行观察,从图中易知,可支配收入与消费性支出间应该存在线性关系。方差分析查自由度为1,29的F分布临界值表得λ=7.60(α=0.01)F=862.501>7.60,所以可支配收入与消费性支出之间具有强线性相关关系。回归方程为消费性支出=0.772×可支配收入+126.005信息分析概论(第二版)回归分析的实际应用图3.2散点图表3.2方差分析SPSS输出结果预测值与残差通过SPSS,可以按要求输出消费性支出的预测值、残差和标准化残差,如表3.3所示。其中,标准化残差=残差/

信息分析概论(第二版)回归分析的实际应用表3.3消费性支出的预测值及残差编号地区消费性支出预测值残差标准化残差1北京7498.487212.2730286.20701.2152天津5851.536029.3223-177.7923-0.7553河北4026.304266.1589-239.8589-1.0184山西3492.983477.165015.81500.0675内蒙古3468.993807.3877-338.3977-1.4366辽宁3989.933906.226183.70390.3557吉林3661.683583.195578.48450.3338黑龙江3481.743672.0405-190.3005-0.8089上海8247.698561.8708-314.1808-1.33310江苏5010.915171.4856-160.5756-0.68111浙江6521.546629.7917-108.2517-0.45912安徽3901.814034.3193-132.5093-0.56213福建5266.695419.6696-152.9796-0.64914江西3482.333768.8416-286.5116-1.21615山东4515.054608.7365-93.6865-0.39816河南3497.533623.5937-126.0637-0.53517湖北4340.554148.6996191.85040.81418湖南4799.514613.6830185.82700.78919广东7517.817168.4100349.40001.48320广西4587.224462.5624124.65760.52921海南4017.754245.5393-227.7893-0.96722重庆5444.234675.8814768.34863.26123四川4499.194353.2522145.93780.61924贵州3964.353933.551730.79830.13125云南4941.264894.046647.21340.20026西藏5309.125457.3745-148.2545-0.62927陕西3953.253717.5086235.74141.00028甘肃3681.503579.5069101.99310.43329青海3903.763755.6148148.14520.62930宁夏3547.993577.7165-29.7265-0.12631新疆4163.984231.2244-67.2444-0.285多元线性回归下面以某校高中三年级女学生肺活量和身高、体重的三个变量为例(如表3.X),说明多元线性回归分析的应用。信息分析概论(第二版)回归分析的实际应用表3.X

某校15名高中三年级女学生身高、体重和肺活量序号1161422.5521685833162422.24170583.55165462.756165522.857162462.48168523.469166462.810166503.111167502.8112165503.4113150361.7514155452.7515158432.25

聚类分析第三部分信息分析概论(第二版)聚类是把一组个体按照相似性归成若干个类别,即物以类聚。其目的是使得属于同一类别的个体之间的距离尽可能地小,而不同类别上的个体间的距离尽可能地大。表3.4是多元数据形成的数据矩阵。在表中,共有n个样品x1,x2,…,xn,p个指标(变量),聚类分析有两种类型:按样品聚类或按变量聚类。聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数。距离或相似系数代表样品或变量之间的相似程度。信息分析概论(第二版)聚类分析概述表3.4数据矩阵相似性程度是聚类所依据的标准,样品间的相似性通常用距离进行度量,而变量间的相似性通常用相似系数进行度量。距离信息分析概论(第二版)相似性度量相似系数当对p个指标变量进行聚类时,用相似系数来衡量变量之间的相似性程度。一般情况下,若cjk表示变量xj,xk之间的相似系数,应满足下列条件:|cjk|≤1且cjj=1。当且仅当xj=bxk(b≠0)时,cjk=±1。cjk=ckj。cjk的绝对值越接近于1,说明变量xj,xk的关联性越大。相似系数中最常用的是相关系数和夹角余弦。信息分析概论(第二版)相似性度量相似系数(1)相关系数基于样品x1,x2,…,xn,计算p个指标变量的协方差矩阵S和相关矩阵R。设S=(sjk)p×p,R=(rjk)p×p则变量xj,xk的相关系数为信息分析概论(第二版)相似性度量相似系数(2)夹角余弦设变量xj,xk的观测值各为(x1j,x2j,...,xnj)与(x1k,x2k,...,xnk),其夹角余弦为cjk越大,表明变量xj,xk的夹角越小,则关联性越强。

信息分析概论(第二版)相似性度量分层聚类一开始将每个样品看成是一类或一簇(cluster),然后从低到高构建一个聚类的层次。其中,最低层次的簇合并在一起创建下一个较高层次的簇;这一层次的簇再合并在一起,进一步创建更高层次的簇。分层聚类适合样品或变量较少的环境,其优势在于它们允许最终用户从许多簇或某些簇中做出选择,形成对分析问题有益的模式。下面我们重点讨论样品的聚类,即Q型聚类。Q型聚类,是按照类间距离从小到大进行聚类Q型聚类的关键是要定义类与类之间的距离。信息分析概论(第二版)分层聚类类间距离为简单起见,以i,j分别表示样品xi,xj,以dij代表距离d(xi,xj)。Gp,Gq分别表示两个类,设它们分别含有np,nq个样品。若类Gp中有样品,则其均值为:称为类Gp的重心类的形式与形状多种多样,因而类与类间的距离比样品间的距离复杂。下面分别介绍几种类间距离的定义与计算方法。类Gp与Gq之间的距离记为Dpq信息分析概论(第二版)分层聚类(1)最短距离即用两类中样品之间的距离最短者作为两类距离。(2)最长距离即用两类中样品之间的距离最短者作为两类距离。(3)类平均距离

或两种定义方式:即用两类中所有两两样品之间的距离平均作为两类之间的距离,或两类中所有两两样品之间的平方距离的平均作为两类之间的平方距离。信息分析概论(第二版)分层聚类(4)重心距离其中

分别是Gp,Gq的重心,这是用两类的重心之间的距离作为两类距离。(5)离差平方和距离离差平方和距离是由Ward提出的,其思想来源于方差分析。信息分析概论(第二版)分层聚类分层聚类法的步骤各样品单独自成一类,则n个样品开始时作为n个类,计算两两之间的距离,构成一个对称距离矩阵

此时,

选择D(0)中的非对角线上的最小元素,设这个最小元素是Dpq

。此时,Gp={xp},Gq={xq}。将Gp,Gq

合并成一个新类Gr={Gp,Gq}。在D(0)中消去Gp,Gq

所对应的行与列,并加入由新类Gr与剩下的其他未聚合的类间的距离所组成的一行和一列,得到一个新的距离矩阵D(1),这是一个n-1阶方阵。

信息分析概论(第二版)分层聚类分层聚类法的步骤从D(1)出发重复步骤(2)得D(2)。此时,可能存在两种情况:或者是第三个样品加入到已有两个样品的类中,或者是另两个样品合并成一个新类。再由D(2)出发重复上述步骤。在这期间的每个步骤中,或者是一个样品加入到已存在的类中,或者是两个样品合并成一个新类,或者是两个已存在的类合并成一个新类。一旦一个类形成,不能再划分而只能与其他类合并,直到n个样品聚为1个大类为止。在合并过程中要记下合并样品的编号及两类合并时的水平(即距离)并绘制分层聚类图。信息分析概论(第二版)分层聚类分层聚类法应用分析用分层聚类法聚类时,聚多少类为合适是一个很实际的问题。一个较好的聚类应该在类内各样品尽可能相似的前提下,使得类的个数尽可能少。

表3.5是某年20个代表性地区农村居民家庭平均每人生活消费现金支出情况。信息分析概论(第二版)分层聚类

指标地区食品衣着居住家庭设备及服务医疗保健交通和通讯文教娱乐用品及服务其他商品及服务北京1048.05228.33425.74249.35228.91215.58467.8973.21天津653.76167.35228.45101.13118.6980.12203.8080.86河北325.34105.44261.7061.1768.7272.37136.1027.43内蒙古320.29108.10161.8364.5495.1968.03170.3523.60辽宁450.50144.87168.7971.7681.1281.23172.6537.71上海1294.85202.44674.21388.64160.00196.98474.4694.47江苏601.40119.43425.99153.07107.78130.34252.6951.21浙江928.75151.98436.35166.98160.84198.34288.4997.87安徽350.1069.15143.7964.7251.6538.10146.3330.12福建726.40111.76267.49102.7161.30128.29217.5163.21山东439.23111.92242.90106.7189.6490.33182.0924.06湖北338.8472.83149.8174.7655.3869.10212.8824.71湖南532.1778.75247.4476.2661.9057.87204.6636.37广东860.4298.70389.89153.1098.68147.58317.2973.65重庆282.8362.61134.4261.5447.8237.16111.0515.37贵州211.0648.5595.3744.9723.6224.6983.8115.31西藏311.7699.2726.4752.5417.0210.247.7811.70陕西278.9677.84151.8558.8164.9336.18171.0424.93甘肃150.5345.8282.9839.8541.2225.6997.8317.27青海214.8697.6381.9346.0156.9435.3850.1723.50表3.5农村居民家庭平均每人生活消费现金支出分层聚类法应用分析利用SPSS的聚类分析对各地区进行分类。在层次聚类的参数选择中,选择按样品聚类;聚类指标为食品、衣着、居住、家庭设备及服务、医疗保健、交通和通讯、文教娱乐用品及服务、其他商品及服务;样品间的距离采用欧式距离;类间距离分别采用最短距离、最长距离和重心距离,不同的类间距离算法适合不同的聚类形状,在不了解聚类形状之前,可尝试多种类间距离算法并对不同的分类效果进行比较分析。信息分析概论(第二版)分层聚类分层聚类法应用分析(1)最短距离法信息分析概论(第二版)分层聚类谱系图是一个形象地表达聚类过程的可视化层次图。从图中,能够很容易地观察出不同样品间的聚类,例如样品上海与前面19个样品聚成的簇在最后一步形成最高层次的簇。图中的竖线表示聚类时的距离,最上面显示比例调整后距离的大小。相邻两次聚类距离的差值越大,则说明前一次聚类后没有必要再进行后一次聚类,这是根据谱系图进行主观分类的依据。图中左边显示了样品的标签和编号。分层聚类法应用分析(1)最短距离法信息分析概论(第二版)分层聚类在图3.4中,“Stage”代表聚类的步骤,20个样品聚类共用了19步。“ClusterCombined”代表每一个聚类步骤中合并的两类,如第一步代表编号16(贵州)和19(甘肃)进行聚类,聚类后的类用编号16表示。“Coefficients”代表最短距离算法下类间的欧式距离,如贵州和甘肃的欧式距离为66.047。图中右边几列的信息代表相应类第一次出现和下一次出现的步骤。从第18次聚类到第19次聚类,“Coefficients”具有最大的跨越,这对应着图3.3中样品上海与前面19个样品聚成的簇最后形成最高层次的簇。因为距离相差最大,可先从这里开始将原样品分成两类:上海为一类,其余所有的样品为一类。是否还要继续分类依赖于实际的应用环境,最终形成的分类是一个主观分析的结果。另外,在不了解聚类形状的情况下,这样的分类是否反映了样品分类的客观本质,还应对其他类间距离算法下的分类结果进行分析和比较,才能最后做出决定。分层聚类法应用分析(2)最长距离法信息分析概论(第二版)分层聚类通过同样的分析,可首先将原样品分成两类:一类是农村居民家庭平均每人生活消费现金支出较高的地区,它们是浙江、广东、北京、上海;另一类是农村居民家庭平均每人生活消费现金支出较低的地区,它们是除以上四个地区以外的所有地区。分层聚类法应用分析(3)重心距离法信息分析概论(第二版)分层聚类同样,可先将原样品分成两类:一类是农村居民家庭平均每人生活消费现金支出较高的地区,它们是北京、上海;另一类是农村居民家庭平均每人生活消费现金支出较低的地区,它们是除以上两个地区以外的所有地区。在分层聚类中,样品一旦被归到某个类后就不变了,这要求分类方法比较准确,而这在不清楚各个类的形状之前是比较难以做到的。另外,样品容量较大时,分层聚类法的计算量过大,一般情况下,分层聚类要求样品数量不超过200。为了弥补分层聚类的不足,产生了快速聚类法。快速聚类法已成为生成一组聚类的最常用方法之一快速聚类法的主要特征是可以根据需要预先确定k个聚类。根据选定的k值,聚类可以产生两个完全极端的结果。如果设k等于1,就可能会得到一个没有意义的结果,因为所有的数据会归类到一个节点中。另一个极端是设k等于样品数,同样也会得到一个毫无意义的结果。任何其他的聚类个数取决于k值,对于k值的选取没有一个固定的规则,常常需要对各种取值进行反复试验。信息分析概论(第二版)快速聚类快速聚类法的具体步骤选择聚点聚点(种子)是一批有代表性的样品,它的选择决定了初始分类,对最终分类也有较大影响。当数据对象确定后,算法首先确定可能存在的聚点。选择聚点有多种方法。凭经验进行选择。随机法。最小最大原则。信息分析概论(第二版)快速聚类快速聚类法的具体步骤选择聚点最小最大原则。设要将n个样品分成k类,先选择所有样品中相距最远的两个样品作为前两个聚点,即选择,使信息分析概论(第二版)快速聚类快速聚类法的具体步骤初始分类信息分析概论(第二版)快速聚类快速聚类法的具体步骤从G(0)出发,计算新的聚点集合L(1)。信息分析概论(第二版)快速聚类快速聚类法的具体步骤设在第m步得到分类信息分析概论(第二版)快速聚类快速聚类法应用分析表3.5是某年20个代表性地区农村居民家庭平均每人生活消费现金支出情况,下面利用SPSS的快速聚类法对这些地区进行分类。在参数选择中,k选为2。信息分析概论(第二版)快速聚类图3.10是初始聚点,对照表3.5,可以看出,第一个聚点是上海,第二个聚点是甘肃。这两个聚点是所有样品中距离最远的两点。图3.11显示了迭代过程,一共进行了2次迭代。两类的第一次聚点变化分别为369.780和271.320;两类的第二次聚点变化分别为0,聚类即告结束。快速聚类法应用分析表3.5是某年20个代表性地区农村居民家庭平均每人生活消费现金支出情况,下面利用SPSS的快速聚类法对这些地区进行分类。在参数选择中,k选为2。信息分析概论(第二版)快速聚类图3.12显示了各类的成员,第一类包括北京、上海、浙江和广东,属农村居民家庭平均每人生活消费现金支出较高的地区;第二类包括剩余的地区,属农村居民家庭平均每人生活消费现金支出较低的地区。可见,用快速聚类法将样品分成两类的分类结果与采用最长距离算法的层次聚类的分类结果相同。图3.13是快速聚类最后的聚点,图3.12最右边一列显示的是各样品与最后聚点之间的欧式距离。时间序列分析第四部分信息分析概论(第二版)时间序列是指具有均匀时间间隔的各种社会、自然现象的数量指标依时间次序排列起来的统计数据。时间序列分析是通过对历史数据变化的分析,来评价事物的现状和估计事物的未来变化。根据对历史数据处理方法的不同,时间序列分析法可分为如下几种类型:信息分析概论(第二版)时间序列分析信息分析概论(第二版)时间序列分析移动平均法的处理对象是一组无规则波动的数据,其基本方法是每次在时间序列上移动一步求平均值(去掉一个头部的数据,加入一个新的数据)。这样的处理可对原始的无规则数据进行“修匀”,消除掉样本序列中的随机干扰成分,突出序列本身的固有规律,从而为进一步的建模和参数估计打下基础。信息分析概论(第二版)移动平均法一次移动平均(1)基本公式(2)递推公式信息分析概论(第二版)移动平均法二次移动平均(1)基本公式和递推公式(2)计算实例根据表3.7中所列的一组时间序列数据yt,取移平跨度n=5,计算一次、二次移动平均值。信息分析概论(第二版)移动平均法周期数T原始数据yt(n=5)(n=5)周期数t原始数据yt(n=5)(n=5)161

97468.865.52260

107771.267.24364

11767369.08463

12807570.9256562.6

138678.673.3266763.8

149081.875.9277065.8

159284.878.6486866.6

表3.7原始数据及一次、二次移动平均值计算结果解:先从第5周期开始,由式3-15计算出第5周期的一次移动平均值,然后由式3-16往下继续求出各周期的一次移动平均值,填入表中相应的位置。具体计算过程如下:信息分析概论(第二版)移动平均法模型建立与预测移动平均并不适用于有线性趋势的时间序列数据的预测。和只能用于简易预测。为了改善预测效果,我们可以利用、求出平滑系数,建立线性移动平均模型再进行预测。具体如下:信息分析概论(第二版)移动平均法模型建立与预测将at和bt代入式3-19,求得预测方程为:信息分析概论(第二版)移动平均法指数平滑法是对移动平均法的改进。如果认为参加计算的每一数据对预测结果的影响程度不同,就应该对这些数据分别给予不同的权值。权值的选择取决于信息分析人员的预测经验。由于近期数据的影响较大,通常可赋予较大权值。一次指数平滑(1)基本公式若以α代表权数,则原始时间序列数据的加权移动平均值可表示为:其中,α1>α2…>αn且信息分析概论(第二版)指数平滑法一次指数平滑(1)基本公式信息分析概论(第二版)指数平滑法一次指数平滑(2)平滑常数α的含义及取值预测结果对α的依赖性α的取值反映了新旧数据所占的分配比例,对预测结果直接产生影响。因此,预测的结果依赖于α的选择。α的取值有两种极端情况:当α=0时,,即平滑值维持不变;当α=1时,,即平滑值等于最新的观察值。一般的,α选得小一些,预测值趋向就较平稳,“修匀”效果越显著;α选得大一些,近期数据所占的比重越大,对变化的反映越灵敏,但“修匀”的效果越不明显。信息分析概论(第二版)指数平滑法一次指数平滑(2)平滑常数α的含义及取值α值与n值的关系在对波动曲线的“修匀”作用上,α值与n值的取值方向正好相反。即在移动平均法中,n值越大,“修匀”效果越显著;而在指数平滑法中,α值越小,“修匀”效果越显著,即。在实际应用中,一般取α取值的经验选择如果我们希望选取的α值使预测误差的方差尽可能小的话,那么α值的选择就应以残差平方和最小为标准,即α值应使:这里Q是α的函数,一般可采用0.618法求出使Q达到最小值的α值。根据一般的经验,α的取值范围通常是0.01≤α<0.3。信息分析概论(第二版)指数平滑法一次指数平滑(3)计算实例根据表3.8中所列的一组时间序列数据yt,分别取加权系数α=0.3和α=0.1,计算其一次指数平滑值。信息分析概论(第二版)指数平滑法周期数T原始数据ytSt[1]α=0.3St[2]α=0.3St[3]α=0.3St[1]α=0.1St[2]α=0.1St[3]α=0.10

61616161616116161616161616126060.760.961.060.961.061.036461.761.161.061.261.061.046362.161.461.161.461.061.056563.061.961.361.861.161.066764.262.661.762.361.261.077065.963.662.363.161.461.086866.564.563.063.661.661.197468.865.863.864.661.961.2107771.367.564.965.862.361.3117672.769.166.266.862.861.5128074.970.867.668.163.361.7138678.273.069.269.964.061.9149081.775.671.171.964.862.2159284.878.473.373.965.762.6表3.8原始数据及一~三次指数平滑值计算结果二次指数平滑(1)基本公式二次指数平滑是对一次指数平滑值再进行一次平滑,计算公式如下:(2)计算实例信息分析概论(第二版)指数平滑法模型与计算为了改善预测效果,我们可以利用、求出平滑系数,建立线性指数平滑模型再进行预测。设已观察到时间t以前的序列值yt,现要预测未来时刻t+T的序列值。由于序列具有线性趋势,因此可假定线性指数平滑模型的一般形式为:这里,为第t+T周期的预测值;T为由目前周期t到需要预测的周期之间的周期个数;at与bt为平滑系数(at为截距,bt为斜率),依赖于t以前的yt观察值。at、bt的计算公式为:信息分析概论(第二版)指数平滑法模型与计算下面给出一个计算实例。根据表3.8中的计算数据,建立线性指数平滑模型并计算未来2期的预测值。解:取α=0.3,由表3.8查得信息分析概论(第二版)指数平滑法三次指数平滑非线性指数平滑模型一般采用三次指数平滑法,它几乎适用于所有的应用问题(1)基本公式(2)非线性指数平滑模型的建立非线性指数平滑模型的一般形式为:这三个平滑系数的计算公式如下:信息分析概论(第二版)指数平滑法三次指数平滑(3)计算实例根据表3.8中的计算数据,建立非线性指数平滑模型,并计算未来2期的预测值。解:首先计算三次指数平滑值。其计算方法与一、二次指数平滑值的计算方法相似,分别取α=0.3,α=0.1,按式3-30计算得结果,并填于表3.8中。其次计算平滑系数并求出平滑模型。取α=0.3,由表3.8查得,=84.8,=78.4,=73.3信息分析概论(第二版)指数平滑法生长曲线是增长曲线的一大类,是描绘各种社会、自然现象的数量指标依时间变化而呈现某种规律性的曲线。由于生长曲线形状大致呈“S”型,故又称“S”曲线。在信息分析中,利用生长曲线模型来描述事物发生、发展和成熟的全过程的方法就是生长曲线法。生长曲线有两种,一种是对称型的生长曲线(图3.15(a)),又称逻辑(Logistic)曲线或珀尔(Pearl)曲线;另一种是不对称型的生长曲线(图3.15(b)),又称龚珀兹(Gompertz)曲线信息分析概论(第二版)生长曲线法逻辑曲线(1)数学模型逻辑曲线具有以下数学特征:信息分析概论(第二版)生长曲线法逻辑曲线(1)数学模型信息分析概论(第二版)生长曲线法逻辑曲线(2)模型系数的确定确定系数k,a,b的方法有多种,具有代表性的有:线性回归法:通过定性分析的方法,根据事物发展规律确定上限k值。对曲线进行线性化变换,然后用最小二乘求出系数三段和值法:对式3-34两边取倒数,并令则可通过三段和值来求系数信息分析概论(第二版)生长曲线法三段和值法三段和值法解决问题的基本出发点是将整个序列分为三个相等的时间周期。假定有3n组数据(t0,Y0),(t1,Y1),…,(tn-1,Yn-1);(tn,Yn

),(tn+1,Yn+1),…,(t2n-1,Y2n-1);(t2n,Y2n),(t2n+1,Y2n+1),…,(t3n-1,Y3n-1),n为任意整数。一般来说,n值越大,估计的精度就越高。上述3n组数据应分别满足式3-35。若以i代ti

(i=0,1,…,(3n-1)),则可得下述三组方程组:将上述方程组左右两边分别相加,由式3-36、式3-37和式3-38求出B,A,K后,即可得逻辑曲线模型的系数k,a,b。信息分析概论(第二版)生长曲线法逻辑曲线(3)计算实例信息分析概论(第二版)生长曲线法时间t原始数据ytyt的倒数Yt019.60.051121.50.047224.00.042326.80.037430.20.033533.40.030635.70.028737.80.027840.10.025942.20.0241044.00.0231145.50.0221246.90.0211348.30.0211448.90.021表3.9原始时间序列数据及其倒数

龚珀兹曲线(1)数学模型龚珀兹曲线具有以下数学特征:信息分析概论(第二版)生长曲线法龚珀兹曲线(1)数学模型信息分析概论(第二版)生长曲线法龚珀兹曲线(2)模型系数的确定线性回归法将式3-39变形后两边取自然对数,并令,则用最小二乘法求系数三段和值法对具体计算与逻辑曲线模型系数的三段和值求法完全相同

信息分析概论(第二版)生长曲线法龚珀兹曲线(3)应用实例信息分析概论(第二版)生长曲线法年份20140258504.41220151328004.51620162444804.64820173560004.74820184649604.81320195720804.85820206802804.90520217858404.93420228899004.954表3.X某品牌电动剃须刀在M市2014至2022年的销售额时间序列分解法的基本思想是将时间序列上构成波动的不同因素分离开来,对各因素分别进行分析。时间序列结构形式趋势(T)因素:当时间序列值依时间变化时,表现出某种倾向(如线性、指数曲线或S型曲线趋势)。它是影响时间序列值的主导因素。

循环(C)因素;它是周期不固定的波动变化(如经济危机)产生的原因季节变动(S)因素:它是周期相对固定(如一年四季)的波动变化产生的原因。不规则变动(I)因素:它是指许多外生的不易控制的因素。这些因素的出现带有很大的随机性。一般假定E(I)=0,D(I)=σ2。

信息分析概论(第二版)时间序列分解法时间序列结构形式若以Yt表示时间序列值,Tt、Ct、St、It分别表示趋势、周期、季节变动和不规则变动,则时间序列值可分解为以下3种模式:信息分析概论(第二版)时间序列分解法时间序列的传统分解实际常用的是乘法模式。在该模式中,各变量的单位是:Tt与Yt有相同的单位,其他因素的变化均是比例值。分解出Tt与Ct。假定季节长度为4(即一年分为4季)。由假定E(I)=0可知,只要将序列Yt作移平跨度为4的移动平均,就可消除季节变动和不规则变动的影响。记移动平均值为M,则分解出St与It。将式3-42两边除以Mt,得为了消除不规则变动因素而保留季节变动因素,我们采用按季节平均的方法。例如,将式3-44所得的序列StIt逐年逐季排列起来,然后将各年的相同季节的StIt相加进行平均从TtCt序列中分解出Ct。由曲线方程估算出Tt,以Tt除Mt,得信息分析概论(第二版)时间序列分解法常用时间序列分解预测法利用时间序列分解法进行预测的常用方法主要有同季(月)平均法、季节系数法等。同季平均法是分析具有季节变化的时间序列并在此基础上进行预测的最简单的方法:将历年同季数据的平均值与各季总平均值相比,求得季节系数以最近一年的各季平均值分别乘以各季节系数,即得来年各季的预测值季节系数法是分析具有趋势变化和季节变化的时间序列并在此基础上进行预测的一种方法。该方法通过分析数据的趋势变化和季节波动规律,建立趋势变动模型,求出季节系数,然后再用季节系数去修正反映趋势变化的模型信息分析概论(第二版)时间序列分解法常用时间序列分解预测法例:试根据表3.10中历年数据预测某商场某电器产品的销售量。信息分析概论(第二版)时间序列分解法

一季度二季度三季度四季度合计各季平均第一年4123365435424060153793845第二年4314391037504292162664067第三年4506414540434513172074302第四年4724436442644747180994525合计1766716073155991761266951

同季平均4417401839004403

各季总平均4184季节系数fi1.0560.9600.9321.052

表3.10某电器销售量(台)和季节系数表主成分分析第五部分信息分析概论(第二版)主成分分析是在降维的思想指导下产生的一种有效的处理高维数据的方法。以二元变量X=(X1,X2)为例,,对此二维变量进行了n次观测,得数据xi=(xi1,xi2)(i=1,2,…,n),假设它们在二维平面X1OX2上的分布如图3.16所示。

信息分析概论(第二版)主成分分析法思想图3.16主成分分析示意图一般情况下,将OX1轴沿逆时针方向旋转一个角度θ到OZ1轴,使得原观测数据(xi1,xi2)经过线性组合后所得的新变量Z1具有最大的分散性,即该方向所含的数据间差异的信息最多。相应地,OX2转至OZ2方向。设转过角度为θ,则观测点(xi1,xi2)在新坐标系下的坐标为:这时,(zi1,zi2)(i=1,2,…,n)均是相应的原数据的线性变换,且线性变换系数满足条件:。(zi1,zi2)完全反映了原始数据的分布情况,并且各自反映的是彼此不相关的两个方向上的分散性。相应的变量:分别称为X1和X2的第一主成分和第二主成分。如果数据在OZ2方向上的分散性很小,那么可用一元数据zi1,i=1,2,…,n反映原二元数据的绝大部分信息,即可近似地用Z1的分布信息代替原二维变量(X1,X2)的分布信息。信息分析概论(第二版)主成分分析法思想信息分析概论(第二版)主成分分析法机理设X1,X2,…,Xp为某实际问题所涉及的p个随机变量,记X=(X1,X2,…,Xp)T,其协方差矩阵为这是一个p阶矩阵,设li=(li1,li2,…,lip)T(i=1,2,…,p)为p个常数向量,考虑如下线性变换:设Var(Zi)为Zi的方差,Cov(Zi,Zj)为Zi和Zj的协方差,根据方差和协方差的性质可知:信息分析概论(第二版)主成分分析法机理如果希望用Z1代替原来p个变量X1,X2,…,Xp,这就要求Z1尽可能地反映原p个变量的信息,这里“信息”用Z1的方差来度量,即要求Var(Z1)达到最大。但是,变量方差的大小受其平均值大小的影响,对任意常数k,若取

,则

这表明若不对l1加以限制,Var(Z1)将无界;并且,这样的变换所得的新变量值无法反映原始数据的分布状况。在前面二元变量坐标轴旋转的例子中,变换系数满足条件:

同样,为了保证变换后的新变量值能够反映原始数据的分布状况,这里须提出约束条件:。在此条件下,求l1,使Var(Z1)达到最大,此时l1所确定的随机变量Z1称为X1,X2,…,Xp的第一主成分。

信息分析概论(第二版)主成分分析法机理如果第一主成分Z1还不足以完全反映原变量的信息,进一步求Z2。为了使Z1和Z2反映原变量的信息不相重叠,要求Z1与Z2不相关,即于是,在约束条件和之下,求l2,使Var(Z2)在Var(Z1)之外达到最大,此时l2所确定的随机变量Z2称为X1,X2,…,Xp的第二主成分。一般,若已求出k个主成分,在约束条件和之下,求li,使Var(Zi)在前面的k个主成分之外达到最大,此时li所确定的Zi称为X1,X2,…,Xp的第i个主成分。

信息分析概论(第二版)主成分的计算方法∑是X=(X1,X2,…,Xp)T的协方差矩阵,是一个实对称矩阵。设∑的特征值及相应的正交单位化特征向量分别为λ1≥λ2≥…≥λp≥0及e1,e2,…,ep。设λi,λj是实对称矩阵的两个特征值,ei,ej是对应的特征向量。可以证明,若λi≠λj,则ei,ej正交。令ei=(ei1,ei2,…,eip)T,P=(e1,e2,…,ep),则P为一正交矩阵,满足PTP=E(即P-1=PT),则PT∑P=Diag(λ1,λ2,…,λp)=Λ,其中Diag(λ1,λ2,…,λp)表示对角矩阵。设为X的第一主成分,其中,令则信息分析概论(第二版)主成分的计算方法

并且当z1=(1,0,…,0)T时,等号成立,这时l1=Pz1=e1

信息分析概论(第二版)主成分的计算方法信息分析概论(第二版)主成分的计算方法因此,求X的各主成分,等价于求它的协方差矩阵的各特征值及相应的正交单位化特征向量。按照特征值由大到小所对应的正交单位化特征向量为组合系数的X1,X2,…,Xp的线性组合分别为X的第一、第二、…第p个主成分,且各主成分的方差等于相应的特征值。信息分析概论(第二版)主成分的贡献率和累计贡献率记Z=(Z1,Z2,…,Zp)T为主成分向量,则Z=PTX,且 Cov(Z)=Cov(PTX)=PT∑P=Λ=Diag(λ1,λ2,…,λp)因为相似矩阵主对角线上元素之和相等,所以即:主成分分析是把p个原始变量X1,X2,…,Xp重新进行改造,得到p个不相关变量Z1,Z2,…,Zp,并保证原始变量的总方差

与改造后变量的总方差相等

描述了第k个主成分提取的信息占总信息的份额,被称为第k个主成分Zk的贡献率。第一主成分的贡献率最大,表明综合原始变量X1,X2,…,Xp所含信息的能力最强,并且Z1,Z2,…,Zp的综合能力依次减弱。

前m个主成分的贡献率之和

称为Z1,Z2,…,Zm的累计贡献率,它表明前m个主成分Z1,Z2,…,Zm综合提供X1,X2,…,Xp中信息的能力

信息分析概论(第二版)标准化变量的主成分

信息分析概论(第二版)标准化变量的主成分下面利用X的相关矩阵ρ作主成分分析。信息分析概论(第二版)主成分分析法的实际应用在实际问题中,一般∑和ρ是未知的,需要通过样本来进行估计,即用S来估计∑,用R来估计ρ。表3.11显示了某年省会城市和计划单列市的主要经济指标,下面通过社会科学统计分析软件SAS作主成分分析,试图得出各城市的综合经济得分并排列名次。

指标城市年底总人口(万人)非农业人口(万人)农业总产值(万元)工业总产值(万元)客运总量(万人)货运总量(万吨)地方财政预算内收入(万元)城乡居民年底储蓄余额(万元)在岗职工人数(万人)在岗职工工资总额(万元)北京1249.90747.201843427199997062032345562279086326806646410.805773301天津910.17528.68150113622645502325926317112807311301931202.682254343石家庄875.40204.152918680688576829291911352348709587595.60758877太原299.92196.842360382737750193711895203277394310088.65654023呼和浩特207.7891.6736534381645223512623105783139658842.11309337沈阳677.08426.52129541858267337782154125679199016998135.451152811大连545.31269.70187973984263851078019187709227755679694.15965922长春691.23281.2018532105966343481095323570964803744102.63884447哈尔滨927.09428.9826638554186123672075204814436450020172.791309151上海1313.12969.63206901954529098640644485431850025971200336.84

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论