已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
原创- 陛声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律责任由本人承担。 论文作者签名:鲎焦盔 日 期:缅互:垡幺 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:置焦壶i 导师签名:翻毽8 兰日期:趔:竺“ 山东大学硕士学位论文 山东省城市发展的统计分析 贾传亮 山东大学数学与系统科学学院 摘要 在许多领域的研究中,为了全面、系统地分析问题,对研究对象进行综合评价,常 常需要考虑衡量问题的多个指标。由于变量之间可能存在相关性,我们必须采用多元统 计分析方法同时对所有变量的观测数据进行分析。多元统计分析是研究多个随机变量之 间的相互依赖关系以及内在统计规律性的学科,起源于上世纪初。随着电子计算机的出 现和发展克服了其计算量大的缺点,多元统计分析在经济学、社会学、气象学、医学等 领域得到日益广泛的应用。实践证明,多元统计分析是进行定量分析的有效工具。 在多元统计分析方法中。因子分析和聚类分析是较常用的两种。因子分析运用降维 的思想,通过对变量之间的协方差矩阵( 或相关系数矩阵) 内部结构的研究,给出少数 几个综合的随机变量( 公共因子) 去描述所有变量的相关关系。聚类分析运用分类的思 想,根据样品的指标定义样品之间的距离,再按照距离的大小对样品进行分类。 这两种方法目前已经得到了广泛的应用,但是它们各自都有不足之处。这些问题直 接影响到它们在实际应用中取得的结果的准确性和可靠性。本文在这两种方法的基础上 将它们结合起来,互相取长补短,得到一种新的多元统计分析方法因子聚类法,解 决它们各自存在的不足。并把这种方法应用到综合评价中去。 全文分为六部分: 前言主要介绍多元统计分析的应用及其分类。 第一节介绍因子分析的主要思想、模型、性质以及计算步骤。其中一个重要假设是: c o k f ) = i , 即各公共因子之间不相关且方差皆为l 。 第二节介绍聚类分析的主要内容。其中样品之间的距离是采用欧氏距离来定义的。 第三节讨论因子聚类法的理论基础、主要思想及其计算步骤。首先分析了上述两种 方法的不足之处:因子分析无法将所有样品进行科学分类:聚类分析中的欧氏距离与各 山东大学硕士学位论文 指标的量纲有关受各指标之间相关性的影响,另外它没有考虑各指标方差的不同。但 是在因子分析法中所得到的公共因子之间是不相关的且方差皆为1 ,而且有下面的定理: 定理3 1 2 1因子分析模型不受量纲的影响。 由此,利用公共因子代替原指标进行聚类分析可以弥补欧氏距离的缺点;而聚类分 析本身就能够解决因子分析存在的问题。这样可以将这两种方法结合起来,先做因子分 析,得到各样品的因子得分,然后以公共因子作为聚类分析的指标,利用因子得分作为 原始数据计算样品间的距离,对样品进行分类。并有以下定理: 定理3 2 t 1 1 对坐标轴进行正交旋转,欧氏距离保持不变。 定理3 2 说明:如果在因子分析中作了因子旋转,得到了新的因子,那么利用新的因 子作为指标计算样品间的距离来进行聚类分析,与利用旧因子作为指标所取得的结果是 相同的。最后给出了因子聚类法的计算步骤。 第四节利用因子聚类法对山东省1 7 个城市的发展水平作了综合评价。本文计算了 1 9 9 7 2 0 0 1 年各城市的发展水平,通过对所得结果的分析,讨论了近几年各城市的发展轨 迹以及分类情况。 最后给出进一步考虑的问题:如果数据比较丰富,可以再采用时间序列分析法描述 出各城市的经济发展趋势,对未来的发展做出预测。 关键词:因子分析聚类分析综合评价 2 垒查查堂堡圭兰基篓奎 s 1 l a t i s 稚c a la n a i j y s i s0 fc i t 联! sd e v e l o p m e n t l ns 释a n 羚0 n g j i a c h u a n l i a n g s c h o o o f m a t h e m a t i c sa n ds y s t e ms c i e n c e ,s h a n d o n gu n i v e r s i t y a b s t r a c l i nm a n yr e s e a r c hf i e l d sm u l t i p l ei n d e x e st ot h ed i s c u s s i n go b j e c ta r en e e d e dt ob e c o n s i d e r e di no r d e rt o a n a l y z e t h e p r o b l e mc o m p r e h e n s i v e l y a n d a p p r a i s e t h e o b j e c t s y s t e m a t i c a l l y b e c a u s et h e r ep r o b a b l y e x i s t sc o r r e l a t i o nb e t w e e nv a r i a b l e s ,w em u s tu s e m u l t i v a r i a t es t a f f 姬c a la n a l y s i sm e t h o d st oa n a l y z et h ed a t ao fa l lv a r i a b t e sa tt h es a m et i m e 。 m u l t i v a r i a t es t a t i s t i c a la n a l y s i si st l l es u b j e c to ft h er e l i a n c ea n di n h e r e n ts t a t i s t i c a lr e g u l a r i t y o fm u l f f p l es t o c h a s t i cv a r i a b l e s 。i to r i g i n a t e da tt h eb e g i n n i n go fl a s tc e n t u r y a sc o m p u t e r a p p e a r e d a n d d e v e l o p e d ,m u l t i v a r i a t e s t a t i s t i c a l a n a l y s i s h a sb e e n e x t e n s i v e l y u s e di n e c o n o m i c s ,s o c i o l o g y , m e t e o r o l o g y , m e d i c i n e ,e t c i np r a c t i c e ,i th a sb e e np r o v e dt o b ea n e f f e c t i v ei m p l e m e n tf o rq u a n t i f i e da n a l y s i s a m o n g t h em e t l l o d so fm u l t i v a r i a t es t a f f s t i c a la n a l y s i sf a c t o ra n a l y s i sa n dc l u s t e ra n a l y s i s a r et h et w o f r e q u e n t l yu s e d f a c t o ra n a l y s i si n v o l v e st h et h o u g h t so fr e d u c i n gd i m e n s i o n b y t h es t u d yo ft h es t r u c t u r eo fc o v a r i a n c em a t r i x ( o rc o r r e l a t i o nm a t r i x ) o fv a r i a b l e s ,w el o o kf o r l e s sc o m p r e h e n s i v es t o c h a s t i cv a r i a b l e s ( c o m m o nf a c t o r s ) t oe x p r e s st h ec o r r e l a t i o no fa l l v a r i a b l e s c l u s t e ra n a l y s i si n v o l v e st h et h o u g h t so fc l a s s i f i c a t i o n w ed e f i n et h ed i s t a n c e s b e t w e e ns a m p l e sa c c o r d i n gt ot h ei n d e xo f s a m p l e sa n dt h e nc l a s s i f ys a m p l e so n t h eb a s i so f t h ed i s t a n c e 曩扯r ea r ed e f e c t si nt h et w om e t h o d s r e s p e c t i v e l yt h o u g ht h e y h a v eb e e nu s e d e x t e n s i v e l y t t l ed e f e c 协d i r e c t t yi n f l u e n c et h ea c c u r a c ya n dr e l i a b i l i t yo ft h eo u t c o m ei na p p l i c a t i o n i nt h i s p a p e r , t h et w om e t h o d sa r ei n t e g r a t e da n dw eh a v ea l li m p r o v e dm e t h o do fm u l t i v a r i a t e s t a t i s f f c a la n a l y s i s 一恕c t o rc l u s t e ra n a l y s i s 协e l i m i n a t et h ed e f e c t so f t h et w om e t h o d s t h i sp a p e rc o n s i s t so fs i xs e c t i o n s i nt h ep r e f a c e ,t h ea p p l i c a t i o na n dc l a s s i f i c a t i o no fm u l t i v a r i a t es t a t i s t i c a la n a l y s i sa r e i n t r o d u c e d i nt h ef i r s ts e g m e n t ,w ei n t r o d u c et h em a i n t h o u g h t s ,m o d e l ,q u a l i t i e sa n ds t e p so f f a c t o r a n a l y s i s t h e r ei so n ei m p o r t a n th y p o t h e s i s : c o y ( = l 。 t h a ti s 。c o - - o nf a c t o r sa r en o tc o r r e l a t e da n dt h e i rv a r i a n c e sa r ea l l1 i nt h es e c o n ds e g m e n t w ei n t r o d u c ec l u s t e ra n a l y s i s i nt h em e t h o dt h ed i s t a n c eb e t w e e n s a m p l e si sd e f i n e dt ob ee u c l i d e a n d i s t a n c e w ed i s c u s st h eo r i g i n a t i o n ,m a i nt h o u g h t sa n ds t e p so ff a c t o rc l u s t e ra n a l y s i si nt h et h i r d s e g m e n t a tf i r s t t h ed e f e c t so f t h et w om e t h o d sa r ea n a l y z e d :s a m p l e sc a nn o tb ec l a s s i f i e d c o r r e c t l yi nf a c t o ra n a l y s i s ;e u c l i d e a nd i s t a n c ei s r e l a t e dt ot h ed i m e n s i o no fi n d e x e sa n d i n f i u e n c e db yt h ec o r r e l a t i o no fi n d e x e sa n dt h ed i f f e r e n c eo fv a r i a n c e so fi n d e x e si sn o t 山东大学硕士学位论文 c o n s i d e r e d b u ti nf a c t o ra n a l y s i st h ec o m m o nf a c t o r so b t a i n e da r en o tc o r r e l a t e da n dt h e i r v a r i a n c e sa r ea l l1 a l s ow eh a v et l l ef o l l o w i n gt h e o r e m : t h e o r e m 3 1 【“t h em o d e lo f f a c t o ra n a l y s i si sn o ti n f l u e n c e d b y t h ed i m e n s i o n s ow ec 8 1 1u s ec l u s t e ra n a l y s i sw i t hc o m m o nf a c t o r si n s t e a do ft h eo r i g i n a li n d e x e s t h e nt h e d e f a u l t so fe u c l i d e a nd i s t a n c ea r es o l v e d a n dc l u s t e ra n a l y s i si t s e l fc a r ls o l v et h ed e f a u l to f f a c t o ra n a l y s i s t h u sw e i n t e g r a t et h et w o m e t h o d s f i r s tw ec a nu s ef a c t o ra n a l y s i st og e tt h e f a c t o rs c o r e so f s a m p l e s ,a n dt h e nt a k et h ec o m m o nf a c t o r sa si n d e x e so f c l u s t e ra n a l y s i st o c a l c u l a t et h ed i s t a n c e sb e t w e e ns a m p l e sw i t l lt h ef a c t o rs c o r e sa sd a t a , a tl a s tw ec l a s s i f yt h e s a m p l e s a l s ow e h a v et h ef o l l o w i n gt 1 1 e o r e m : t h e o r e m 3 2 e u c l i d e a nd i s t a n c ed o e sn o t c h a n g e w h e nw em a k e o r t h o g o n a lr o t a t i o n t h e o r e m 3 2t e l l st h a ta l t h o u g hw em a k ef a c t o rr o t a t i o ni nf a c t o ra n a l y s i sa n dg e tn e w f a c t o r s ,w h e nw ec a l c u l a t et h ed i s t a n c e sb e t w e e ns a m p l e sw i t hn e wf a c t o r sa si n d c x e st om a k e c l u s t e ra n a l y s i s ,t h eo u t c o m ei se q u a lt ot h a tw i t ho r i g i n a lo n e s a tl a s tt h es t e p so ff a c t o r c l u s t e ra n a l y s i sa r eg i v e n i nt h ef o u r t hs e g m e n t w e a p p r a i s e t h e d e v e l o p m e n tl e v e lo f 17c i t i e si n s h a n d o n g p r o v i n c ew i mf a c t o rc l u s t e ra n a l y s i s w ec a l c u l a t et h el e v e lo fa 1 1c i t i e si n19 9 7 2 0 01 b v a n a l y z et h eo u t c o m e ,w ed i s c u s st h ed e v e l o p m e n to r b i ta n dc l a s s i f i c a t i o no fa l lc i t i e si nr e c e n t y e a r s i n 妇p o s t s c r i p t ,t h ep r o b l e mt h a tc a nb ef t h e rd i s c u s s e di sg i v e n i fw eh a v ee n o u g h d a t a ,w ec a np i c t u r et h ec h a n g i n gt r e n do fa l lc i t i e sw i t ht i m es e r i e sa n a l y s i sa n df o r e c a s tt h e c h a n g i n g i nt h ef u t u r e k e yw o r d s :f a c t o r a n a l y s i s c l u s t e ra n a l y s i s c o m p r e h e n s i v e l ya p p r a i s e 4 山东大学硕士学位论文 刖菁 在科技和经济迅速发展的今天,对国民经济许多领域的分析,只停留在定性分析上 往往是不够的。为了提高科学性和可靠性,通常需要将定性和定量分析相结合。实践证 明,多元统计分析是进行定量分析的有效工具。多元统计分析是一门研究多个随机变量 之间的相互依赖关系以及内在统计规律性的学科。它起源于上世纪初,其理论一直发展 较快。随着电子计算机的出现和发展,其计算量大的缺点得以克服,多元统计分析在经 济学、社会学、气象学、医学等领域得到日益广泛的应用。 在许多领域的研究中,为了全面、系统地分析问题,对研究对象进行综合评价,我 们常常需要考虑衡量问题的多个指标,这些指标在统计中称为变量。由于变量之间可能 存在相关性,如果采用一元统计方法,把多个变量分开,每次分析一个变量,就会丢失 大量的信息,研究结果也会偏差很大。因此我们需要采用多元统计分析的方法,同时对 所有变量的观测数据进行分析。多元统计分析主要包括降维、分类、回归等几大类思想, 各类思想发展出多元统计分析的多个分支。主成分分析、因子分析、对应分析和典型相 关分析采用的是降维的思想;聚类分析和判别分析采用的是分类的思想:多元回归分析 采用的是回归的思想。其中因子分析和聚类分析是在作综合评价方面应用最广泛、实践 证明较为有效的两种方法。 然而这两种方法仍然存在某些不足,这些不足会影响分析结果的准确性和可靠性。 本文将在介绍因子分析和聚类分析的主要思想与方法的基础上讨论它们的性质以及各自 的优缺点,从而将两种方法相结合,互相取长补短,得到一种新的进行综合评价的方法, 最后通过实例介绍这种方法的计算过程。 文献 2 、 3 给出因子分析法和聚类分析法详细的介绍和数学推导。文献 1 0 、 1 1 提出将主成分分析法与聚类分析法结合进行综合评价分析。文献e 1 2 提出进行综合评价 选择指标时应遵循的原则:文献 1 3 介绍了统计软件s p s s 的使用方法。本文的实例计算 正是使用该软件完成的。 山东大学硕士学位论文 第一节因子分析 因子分析起源于上世纪初k a r lp e a r s o n 和c h a r l e ss p e a r m a n 等人关于智力测验的统计 分析,是近年来在诸多领域中应用十分广泛的一种多元统计方法。 一、因子分析的模型与性质 面对描述某种现象的各变量之间可能存在相关性的问题,因子分析的基本思想是通 过对变量之间的协方差矩阵( 或相关系数矩阵) 的内部结构的研究,给出少数几个综合 的随机变量去描述所有变量的相关关系。具体地说,是根据相关性的大小把变量分组, 使得同组内的变量之间相关性较高,不同组的变量之间相关性较低。每组变量由一个综 合变量表示,称为公共因子,公共因子之间是不相关的。这样有利于我们简明扼要地把 握系统的本质特征,便于对样品的深入分析。当然,这里原有的变量是可观测的,而公 共因子是不可观测的,需要计算和估计。 假设有, 个样品,我们采用p 个指标对其进行观测,构成p 维随机向量 x = ( l ,x :,x ,) 7 。设其均值向量为= ( 。,:,) 7 ,协方差矩阵为。公共因子 记为f = ( 曩,l ) 7 ,( 删 2 ,p ) ,它只对x 。起作用。有下面的因子 分析模型 x i 一l = 口1 1 只+ 口1 2f 2 + + 口l m + s l l z 2 哨钏:i e 枷2 2 e + 一坞m 巴蝎 ( 1 1 ) 。 【x p 一心= 口州e + 口,2 + + 口刖+ 占p 即 r 一= a f + s( i 2 ) 6 定确待 、, q 啦一 q 吼一 ,。k = 4,中其 山东大学硕士学位论文 由于该模型中含有大量不可观测音句量,我们无法直接确定该因子模型。为了考察箕 相关关系,假定: ( 1 ) e ( f ) = 0 ,c o v ( f ) = 毛。 毂f 兹均篷囱爨为0 ,其冬分量之阉不摆关虽方差学为1 。 ( 2 ) e ( s ) = 0 ,c o y ( 6 ) = 矿= 拶磊 即# 豹均值向撰为0 ,其各分量之阕不指关。 ( 3 ) c o v ( f ,占) = 0 。 即,与譬不相麓。 壶魏缮刭戮子分耩模型鹃嚣令霪要链蒺。 性鼷 ,1 = c o v ( x ) = a a 7 + y 证明:由( 1 2 ) 式, c o v ( x ) = e ( x 一卢) ( x 一) 7 = e ( a f + s ) ( 爿f + 宕) 7 = e ( a f f 7 a r ) + e ( a f c r ) + 疗( 占- ,a r ) + 篁( 占笤r ) 凑予a 怒常数簸簿,数 c o y ( x ) = a e ( f f 7 ) 一7 + a e ( f s 7 ) + e ( e v 7 ) 4 7 + e ( e 6 ) 由( i 3 ) 、( 1 4 ) 、( 1 5 ) 式知 e ( f f 7 ) = c o y ( f ) = l e ( f 6 7 ) = e ( 驴) = c o v ( f ,嚣) = 0 嚣( 嚣7 ) = c o v ( c ) = 矿 , 爨茂 = c o v ( x ) = 彳4 7 + 矿 性质1 2 c o v ( x ,) = a t 即c o k x 。,c ) = a 。 , ( 1 3 ) ( 1 4 ) ( 1 5 ) ( 1 ,6 ) ( 1 7 ) 山东大学硕士学位论文 由于协方差矩阵是p p 阶非负定矩阵,设其特征值为 ,五:,五。,且 驰卜以卜 2 ( 融) ( 廊) 7 + ( 厨) ( 愚) 7 + ( 何t ) ( 厄t ) 7 “j 东丈拳硕士学位论文 :( 厕,忍,融) | 蟛 瓜 【扛z 爿= ( 厕,再_ 只,4 - d s d , ) ( 1 1 0 ) 诧孵矽= 0 ,僵蠢依然楚p x p 狳矩箨,并没有这裂降维署【l 篱铯辩匿懿,也藏蹩说还 没有能够建少数几个公共因子解释协方差结构,困茛意义不大t 出于的特征擅已按大 d , j f l 匝序排列,可以根据某种准则略去较小的p r o t 个特征值,只保留前m 个较大的。也 就是说只取z 的主要部分。这种确定公共因子个数m 的准则主要有以下两种: 8 5 。 即前t r t 个特征慎对协方差结构的解释的贡献率越过8 5 。 ( 2 ) 穆向蟹标准亿后,取磊磊磊1 ,盖,s2 , - l 以+ i l 。帮傈餐大 予等于l 豹特惩值。 在实际问蹶中可用不同的方法确定m ,然质从中选取一个与实际问题背景最接近的 解。 由魏鼍取褥 z ( 国,再麓,娠卫) ( 1 1 2 ) = m 4 8 p , 7 + 也是巧+ + 屯乓巧 ( 1 ,1 3 ) 在实际问题的计算中,我们首先利用给定的样本数据计算样本均值夏和样本协方差 矩阵s ,然后用三了s 估计总体协方差矩阵。对于妒,文献c 2 】给出如下的估计:h - 法: h 一_ 矿一d i a g ( 矿:,矿;,驴:) 其中,若设已估计的协方差矩阵宝的逆矩阵 宝一( 毛) 胆, 口 山东大学硕士学位论文 则 咖古 这样我们就褥到了因子载荷矩阵一的估计。 三、因子旋转 求出因子载荷矩阵之后,就可以根据因子分析模型把每个变量用公共园子和特殊因 子的线性组合表达出来。但是如果同公共因子在各变量上的因子载荷值相差不大,那 么该公共因子解释各变量的能力大体是相同的,因而公共因子的含义就不够明确。这样 就难以对问题作相应的分析。理想的载荷结构应是每个公共因子只在某些变量上有较大 的载荷,而在其他变量上的载荷较小。这样每个公共因子主要与某几个变量有关,其含 义就较为明确。 定理1 2 t 2 1因子载荷矩阵不是唯一的。 证明:设r 为m 州阶正交矩阵。则因子分析模型可写为 x 一a = a f + = 一丁丁7 f + s = ( 4 丁) ( r 7 f ) + s 且有 e ( t 7 f ) = t 7 e ( f ) = 0 c o v ( t 7 f ) = t 7 c o v ( f ) t = t r l 。t = t r t = l c o v ( t 7 f ,占) = t r c o v ( f ,f ) = 0 故可将r 7 f 看作公共因子,4 r 看作相应的因子载荷矩阵。这依然符合因子分析模型的各 项假设( 1 3 ) 、( 1 4 ) 、( 1 5 ) 式,因此也是原模型的一个因子载荷矩阵。 定理1 2 说明,对因子载荷矩阵作正交变换,不影响因子分析模型的各种假设。由线 性代数知识可知,正交变换对应坐标系的旋转,因此将这种变换称作因子旋转。因子旋 l o 山东大学硕士学位论文 转分为正交旋转、斜交旋转等多种,其中最常用的是方差最大正交旋转法。其主要思想 是通过旋转使因子载荷矩阵每一列元素的方差达到最大,即令每一列元素各数值差别尽 量大,从而每一个公共因子解释各变量的程度尽量不同。因子旋转的具体计算过程参见 文献【2 】。 四、因子得分 因子分析的目的在于利用公共因子考察每个样品的实际水平。在求得公共因子后就 要计算样品在每个公共因子上的得分,最终求得每个样品的总得分,以衡量各样品在所 有样品中的排名。在统计模型中就是要将公共因子f 0 是常数。则有 y = d 恤+ d a f + d c 设 a + = d ta = d a+ = d e 则 y = “+ a f + g 。 且 e ( f ) = 0c o v ( f ) :l e p ) = d e 忙) = 0 e ( y ) = e ( a ) + e ( a f ) + e ( 6 ) 1 9 山东大学硕士学位论文 = d e ( , u ) + a e ( f ) + 0 2 d , u = c o v ( e 、= d c o v ( g ) d 7 = d 加7 = + = 讲昭( 盯j ,盯:2 ,盯) c o v ( f ,f + ) = c o v ( f ,d e ) 2 d c o v ( f ,占) = 0 故模型满足因子分析模型各种假设条件,因此因子分析模型不受量纲的影响。 定理3 1 说明,当指标x 的量纲发生变化时,它的数学期望和方差会发生变化,但 是公共因子的数学期望和方差不变。 四、园子聚类法的主要思想 由上面的讨论可知,因子分析法和聚类分析法实际上是可以互补的。对于因子分析 法存在的不能将样品有效分类的问题,可阱用聚类分析法解决。而聚类分析法中由于采 用欧氏距离所带来的指标的量纲、相关性、方差不同的问题,经过用因子分析法对指标 进行处理后,公共因子不存在这些问题。 因此,可以将这两种方法结合起来,互相取长补短,就能够解决所有的问题。具体 地说,可以先做因子分析,得到各样品的因子得分;然后以因子作为聚类分析的指标, 利用因子得分作为原始数据计算样品间的距离,利用最短距离法对样品进行分类。如此, 这个方法不但能克服上述不足,而且它的结论中既包括各样品的排名,也包括它们各自 的类属,是一种比较完整的作综合评价的多元统计方法。这种先做因子分析,然后进行 聚类分析的方法,称为因子聚类法。 ,在因子分析的过程中,为了改变载荷结构,使每个公共因子主要与某几个变量有关, 从而便于对公共因子的实际意义做解释,我们做了因子旋转,得到了新的因子。已经证 明这并不影响因子分析模型的各种假设。因此各样品的因子得分的大小次序并不发生改 变。由于因子分析只涉及各样品的排名,因此是不受影响的。但是,在因子聚类法中还 山东大学硕士学位论文 要利用因子作为指标计算样品间的距离。那么,利用新的因子作为指标计算样品间的距 离来进行聚类分析,与利用旧因子作为指标所取得的结果是否相同呢? 换句话说,利用 新因子是否会改变样品之间的距离呢? 有下面的定理。 定理32 对坐标轴进行正交旋转,欧氏距离保持不变。 证明:v ”阶矩阵 a = ( 口l ,口2 ,a 。) a 的n 个向量。,a z ,d 。可看作坐标系中的月个点。其中任意两个点口,与a ,的欧氏距离 记为 慨10 对坐标轴进行正交旋转相当于作正交变换,即用一个脚m 阶正交矩阵r 左乘矩阵a 则 t a = t ( a l ,口2 ,口。) = ( t a l ,t a 2 ,砌。) 死与t a ,的距离 慨一t a 川= 愀q - - g j ) 0 - i i t i i 1 1 口,18 由于r 是正交矩阵,故 r 7 r = , l i c i t = l i t 70 = 1 凼此 j i r ( 口,一d ,) 1 i l f 日一口,4 = l l t 7 r ( q - a j ) i 州m ( q - - t 2 j ) 0 = 陬q - a j ) i i 因此得 t 鼽q - - a j ) 1 1 = 1 0 ,一口川 即作正交变换后,欧氏距离保持不变。 因子聚类法以因子作为聚类分析的指标,利用因子得分作为原始数据计算样品间的 2 山东大学硕士学位论文 距离。考虑到各因子的方差贡献率不同,也就是说它们解释变量的能力大小不同,因此 在计算距离时应当体现出来。我们对欧氏距离的定义作一下改进。设因子f 的方差贡献 率为 2 一“ 改进的欧氏距离定义为: 毛= 巨( x ,k - - x j k ) 2 x j k 必 n , 毛= i j ( 3 - 3 ) l 女* lj 五、因子聚类法的计算步骤 ( 1 ) 建立因子分析模型 x h = a f + s 其中苁t 、为p 维向量,f 为晰维向量,4 为p x 珊阶矩阵。 ( 2 ) 计算样本的均值和协方差矩阵& 估计总体的协方差矩阵以及特殊因子的 协方差矩阵 其中,若设 则 至:三s n i 矿= 讲c 曙( 矿 痧;,矿:) 宝- 1 = ( 肘。) 。 毕3 。瓦 ( 3 ) 求矩阵宝的特征值五五2 3 , p 0 。根据判定准则确定公共因子的个数m 。 ( 4 ) 估计因子载荷矩阵a 宝一驴z 只e 7 + 五b 譬+ + 五。己碍 五z ( 砷,皿,石只) 山东太学硕士学位论文 作因子旋转。 ( 5 ) 估计因子褥分模魁 户:叠r 奎。盖 谤算务撵晶兹因子褥分以及综会褥分。 ( 6 ) 以样品的镑因子作为指标,对样品的因子得分按照改进的欧氏距离( 3 ,3 ) 式建立 样品之间的距离矩阵。 ( 7 ) 攫撰最短题离法将撙品搏类,蘑出谱系聚类圈。 ( 8 ) 给出闾值,确定类的个数,在谱系聚类图中得出备类的成员。 山东大学硕士学位论文 第四节应用实例 本节利用因子聚类法对山东省1 7 个城市的发展水平作综合评价。衡量一个城市的发 展水平,必须全面考虑该城市的经济、社会、人民生活等各方面,因此要建立一个综合 的指标体系。 为了使各城市之间具有可比性,本文采用人均值,以避免城市的大小不均对指标值 造成的影响。本文采用以下1 4 个指标: ( 1 ) 人均国内生产总值,简称“人均总值” ( 2 ) 第二产业产值占国内生产总值的比重,简称“二产比重” ( 3 ) 第三产业产值占国内生产总值的比重,简称“三产比重” ( 4 ) 人均固定资产投资额,简称“人均投资” ( 5 ) 人均地方财政收入,简称“人均财政” ( 6 ) 人均实际利用外资金额,简称“人均外资” ( 7 ) 全部在岗人员平均工资简称“人均收入” ( 8 ) 人均居住面积,简称“人均住房” ( 9 ) 人均道路拥有面积,简称“人均道路” ( 1 0 ) 人均公共绿地面积,简称“人均绿地” ( 1 1 ) 人口自然增长率,简称“人口增长” ( 1 2 ) 普通高中在校学生数占总人口数的比重,简称“高中生比” ( 1 3 ) 每万人中医生数量,简称“万人医数” ( 1 4 ) 人均污染治理投资项目完成投资,简称“人均治污” 其中指标( 1 ) ( 6 ) 反映城市经济发展方面,体现了城市的经济规模、经济结构、 经济素质;指标( 7 ) 一( 1 4 ) 反映城市社会发展方面,体现了城市的基础设旆建设、人 民生活质量、教育卫生水平等。这样基本涵盖了城市发展水平的各个方面。 为了能够清晰地反映各城市的发展轨迹以及发展方向,我们计算1 9 9 7 2 0 0 1 年山东 省各城市的发展水平,讨论它们各自发生了哪些变化。本文运用s p s s 统计软件进行计算, 全部数据资料取自文献 1 4 。以下是1 9 9 7 年的计算结果,1 9 9 8 2 0 0 1 年的计算结果列 山东大学硕士学位论文 于附录。 公共因子 公共因子f特征值a方差贡献率累积方差贡献率 l7 7 0 35 5 0 2 2 5 5 0 2 2 22 0 8 62 0 0 4 2 7 5 0 6 4 31 2 8 79 1 9 1 8 4 2 5 5 40 9 9 97 1 3 5 9 1 3 9 0 50 3 5 42 5 2 8 9 3 9 1 8 60 2 6 l1 8 6 1 9 5 7 7 9 这里前4 个公共因子的累积贡献率达到9 1 3 9 0 ,超过8 5 。因此前4 个公共因子已 经反映出绝大部分信息。估计这4 个因子的载荷矩阵并进行因子旋转,得下表。 旋转后的因子载荷矩阵 因子1因子2因子3因子4 人均总值 0 9 2 90 2 3 5- 0 0 8 80 0 8 4 二产比重0 6 7 60 5 7 30 3 0 4 0 1 3 3 三产比重 o 2 1 6- 0 9 4 20 1 0 8一o 1 1 6 人均投资 0 7 0 40 5 6 80 1 9 6o 3 1 6 人均财政 0 9 6 9一o 1 1 40 1 2 20 0 8 7 人均外资 0 7 7 l一0 3 9 2一o 3 9- 0 0 6 3 人均收入 0 7 8 60 2 2 30 3 7 30 3 3 6 人均住房 - 0 0 8 7一o 2 1 2- 0 0 6 0- 0 9 4 5 人均道路 0 7 2 50 4 2 20 3 5 8o 1 3 5 人均绿地 0 9 2 80 0 9 7o 1 6 5- 0 0 7 6 人口增长 - 0 0 6 30 0 0 40 9 5 4o 1 2 1 高中生比0 5 2 20 3 6 60 5 8 3- 0 2 4 7 万人医数 0 8 8 40 0 0 60 1 9 40 2 0 0 人均治污 0 4 1 00 7 6 7 0 3 8 90 2 2 0 山东大学硕士学位论文 由公式户= j 7 宝一1 x 估计因子得分f , j ( 扣1 ,2 , ,= l ,2 ,用) ,利用公式 c = ;,( 扛l ,2 ,n ) 计算各城市的总得分,并按总得分大小排列名次a j t l 因子得分表 城市因子l因子2因子3因子4总得分名次 济南 3 1 0 3 51 0 9 l - 41 2 8 0 2- 3 3 1 92 4 9 8 9 73 青岛2 7 8 6 09 5 0 4一1 0 9 9 i 1 2 4 82 2 5 8 8 25 淄博 2 8 0 1 51 1 1 3 o一1 2 6 1 6- 4 5 8 82 2 6 2 1 24 枣庄1 6 5 5 93 5 6 72 6 1 33 8 1 71 3 8 0 1 79 东营 4 2 8 4 62 2 0 5 31 9 9 6 4一1 8 1 53 6 4 4 l - 8l 烟台2 5 2 6 78 5 9 91 0 9 0 24 6 6 52 0 0 0 7 36 潍坊2 1 2 4 7 5 6 4 06 7 7 8- 1 2 1 21 6 9 5 5 97 济宁 1 6 9 8 73 0 2 92 2 0 64 1 8 81 3 5 2 9 81 0 泰安1 5 7 8 02 7 0 72 1 5 23 3 5 11 2 9 7 2 61 l 威海 3 9 1 7 41 8 5 1 62 4 9 3 9 一1 7 5 8 23 0 4 0 5 42 日照1 5 2 0 23 3 0 02 8 5 52 5 2 91 2 5 2 1 71 2 莱芜i 9 6 5 4 4 9 2 1- 4 6 2 41 7 9 11 6 1 0 3 78 临沂1 2 3 8 51 2 9 64 5 84 0 8 2 1 0 2 5 2 71 5 德州 1 3 0 4 22 8 0 22 7 3 7i 4 3 11 0 6 2 3 31 4 聊城 1 1 2 6 61 4 4 1- 6 4 53 6 0 ,89 3 5 9 91 6 滨卅f1 4 9 4 3 2 8 5 3- 2 6 5 42 0 7 71 2 1 7 7 01 3 菏泽 8 0 1 24 4 91 4 4 54 6 2 06 6 9 3 41 7 为了直观地反映出五年问各城市的发展变化情况,我们以历年因子总得分最高的东 营市为标准,将各城市每年因子总得分与东营市的进行比较,结果绘于下图中。 山东大学硕士学位论文 。- - - - - - - -
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 论研究的多维剖析与实践应用
- 2025年酒店消防安全演练总结
- 论港口经营人法律责任体系的构建与完善-基于多维度视角与典型案例的分析
- 2026年全国软件水平考试之中级系统集成项目管理工程师考试潜能激发题(附答案)
- (2026年)1例奥沙利铂致下肢周围神经病变性疼痛的护理课件
- 2026年道路路基施工与维护考试模拟题(含答案)
- 2026年幼儿园家园沟通技巧博客
- 初中道德与法治模拟考试试题及答案
- 2025年广东省汕头市潮阳区招聘工会社会工作者11人笔试题库含答案详解(典型题)
- 初中语文整本书阅读教学策略与阅读能力提升课题报告教学研究课题报告
- 摩根士丹利-中国消费:当前消费趋势走向何方?-China Consumer:Where is consumption trending now-20260601
- GB 26396-2026洗涤用品安全技术规范
- 东南大学2024综评数学试卷
- 新媒体概论(第2版)全套教学课件
- 安徽省宣城六中2023-2024学年九年级上学期开学物理试卷
- 房屋市政工程专职安全生产管理人员安全日志
- 《1840年以来的中国》读书笔记
- 电子证据诉讼实务培训
- 工作督办通知单范本模板
- 作文素材积累:《心灵奇旅》-平凡的人也有独特的价值
- GB/T 2828.1-2012计数抽样检验程序第1部分:按接收质量限(AQL)检索的逐批检验抽样计划
评论
0/150
提交评论