




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
匕海大学硕士学位论文 摘要 房地产市场的健康发展与否既是关系到国家经济发展的重大问题,又是同 老百姓生活息息相关、倍受大众关心的热门话题。就上海而言,经过二十多年 的改革和发展,上海房地产业走出了多年的调整期,呈现持续繁荣的状态。近 期( 1 9 9 9 年起) ,上海房地产市场连续5 年保持快速增长,对国民经济增长的 贡献日益突出;2 0 0 2 年以来,上海房价以平均每年1 0 以上的速度递增,涨幅 居全国首位,并且自2 0 0 3 年起房价居全国首位;2 0 0 5 年,针对上海等地房地 产市场上出现的日益严重的投机炒作现象,政府推出了一系列调控措施,房产 新政频频出台:三月初上海开始频出重拳;三月底国务院出台“国八条”;四月 底国务院出台“新国八条。就在高层会议频频发出调控房价的信号之后,中央 七部门5 月1 1 日又联合出台关于做好稳定住房价格工作意见的通知。如此 密集和大规模的政策出台,在我国的房地产发展史上是绝无仅有的,也充分反 映了国家此次调控房价的决心和力度。在新政频出的今天,房市已经到了一个 相当微妙的时刻。上海房地产市场迅即由热转冷,市场前途莫测。 2 0 0 5 年6 月,易居( 中国) 研发中心( 现为上海易居房地产研究院) ,中 海房产,上海大学,三方合作,共同开展了课题上海市房地产市场基础房 价走势的研究。( 这里的基础房价指的是不考虑宏观调控政策影响的完全市场行 为下的房价,为方便,下面提到的房价均指基础房价。) 2 0 0 7 年,上海易居房 地产研究院,上海大学,开展了课题上海市房地产市场住宅需求量预测的 研究。本文将介绍这两个课题的一些主要研究工作和结果。 在研究工作中我们建立了两个数学模型:第一个模型称为回归模型,第二 个模型称为核模型( 核估计和核回归) 。每个模型又分别利用两种方法加以实现, 一是为了相互验证、确保精确度,二是为了消除系统误差。涉及到的数学范畴 有多元统计以及非参数统计。 本文的数据由易居房地产研究院提供,第一个课题的数据有1 9 9 5 年到2 0 0 5 年6 月3 0 日共4 2 0 条,第二个课题有1 9 9 5 年到2 0 0 6 年1 1 月共3 8 3 条。本文 v i 二海大学硕士学位论文 以第一个课题的研究为例进行展开。在对数据进行相关性处理的基础上,建立 了两个数学模型,模型一:回归模型。第一种方法首先利用p e a r s o n 、k e n d a l l 、 s p e a r m a n 进行相关性分析,找出与房价影响较大的1 3 个指标,继而用丰成分 分析方法消除指标间的共线性,取累积贡献率为8 1 9 7 的主成分,再用回归拟 合房价并建立走势预测模型;第二种方法是利用逐步回归法建立指标回归方程。 模型- - :核模型。用核估计以及核回归两种方法分别预测出房价的走势。 第二个课题建立的数学模型、采用的方法与第一个课题类似,限于篇幅, 本文简单列出这个课题涉及的数据和研究的主要结果。 本文在数据的处理和计算上运用了m a t l a b 和s p s s 软件。预测的结果与实 际情况是相吻合的,也得到了合作方的高度认可和好评。 关键词:相关性分析,主成分分析,逐步回归,核估计,核回归 v i :海大学硕十学位论文 a b s t r a c t w h e t h e rt h er e a le s t a t em a r k e td e v e l o p sh e a l t h yi sn o to n l yam a j o ri s s u er e l a t e d t ot h ed e v e l o p m e n to fn a t i o n a le c o n o m y , b u ta l s oah o tt o p i cc l o s e l yr e l a t e dw i t ht h e l i f eo fo r d i n a r yp e o p l e a f t e rm o r et h a n2 0y e a r so fr e f o r ma n dd e v e l o p m e n t ,t h e s h a n g h a ir e a le s t a t eh a sg o n et h r o u g hal o n gp e r i o do fa d j u s t m e n ta n dt a k e so nt h e c o n t i n u e dp r o s p e r o u ss t a t e r e c e n t l y ( s i n c e19 9 9 ) ,s h a n g h a i sr e a le s t a t em a r k e th a s m a i n t a i n e dar a p i dg r o w t hf o rf i v ey e a r sa n dm a d em o r ea n dm o r ec o n t r i b u t i o n st o t h eg r o w t ho fn a t i o n a le c o n o m y ;s i n c e2 0 0 2 ,t h es h a n g h a ih o u s i n gp r i c e sh a sk e p ta n a v e r a g ea n n u a lg r o w t hr a t eo fm o r et h a n10p e r c e n t ,w h i c hr a n k sf i r s ti nt h en a t i o n ; a n ds i n c e2 0 0 3 ,h o u s i n gp r i c e sh a v eb e c o m et h eh i g h e s to n ei nt h en a t i o n ;i n2 0 0 5 , i nv i e wo ft h eg r o w i n gp h e n o m e n o no fs p e c u l a t i o ni nt h er e a le s t a t em a r k e ti n s h a n g h a ia n do t h e rp l a c e s ,t h eg o v e r n m e n th a sl a u n c h e das e r i e s o fc o n t r o l m e a s u r e sa n di n t r o d u c e dm a n yn e wr e a le s t a t ep o l i c i e s :i ne a r l ym a r c h ,s h a n g h a i b e g a nt oa d o p tm a n yn e wm e a s u r e s ;a t t h ee n do fm a r c h ,t h es t a t ec o u n c i l p r o m u l g a t e dt h e ”e i g h tp o l i c i e so ft h es t a t ec o u n c i l ”;a tt h ee n do fa p r i l ,t h es t a t e c o u n c i lp r o m u l g a t e dt h e ”n e we i g h tp o l i c i e so ft h es t a t ec o u n c i l ”a f t e rt h es i g n a l s s e n tf r o mt h ef r e , q u e n th i g h l e v e lm e e t i n g s ,t h es e v e nd e p a r t m e n t so ft h ec e n t r a l a u t h o r i t i e so nm a y11j o i n t l yp r o m u l g a t e d ”t h en o t i c eo nt h es u g g e s t e dw o r ko f s t a b i l i z i n gh o u s i n gp r i c e s ”s u c hi n t e n s i v ea n dl a r g e s c a l ei n t r o d u c t i o no ft h ep o l i c y i su n p r e c e d e n t e di nt h eh i s t o r yo fc h i n a sr e a le s t a t ed e v e l o p m e n t ,a n df u l l yr e f l e c t s t h en a t i o n sd e t e r m i n a t i o na n de f f o r t st oc o n t r o lt h ep r i c e s u n d e rt h ei n f l u e n c eo f f r e q u e n tl a u n c h i n go fn e wp o l i c i e s ,t h eh o u s i n gm a r k e th a sr e a c h e dav e r yd e l i c a t e m o m e n t s h a n g h a i sr e a le s t a t em a r k e tq u i c k l yt u r n e dc o l df r o mh o t ,w i t ht h ef u t u r e u n p r e d i c t a b l e i nj u n e2 0 0 5 ,e h o u s e ( c h i n a ) r & dc e n t e r ( n o wt h ee - h o u s er e a le s t a t e r e s e a r c hi n s t i t u t eo fs h a n g h a i ) ,z h o n g h a ir e a l e s t a t e ,s h a n g h a iu n i v e r s i t y c o n d u c t e dat r i p a r t i t ec o - o p e r a t i o no nt h et o p i c ar e s e a r c ho nt h et e n d e n c yo ft h e v l i 上海大学硕士学位论文 b a s i ch o u s i n gp r i c eo ft h er e a le s t a t em a r k e ti ns h a n g h a i ( t h eb a s i ch o u s i n gp r i c e h e r er e f e r st ot h ef u l lm a r k e th o u s i n gp r i c ew i t h o u tt h ec o n s i d e r a t i o no ft h ei m p a c t s o ft h em a c r o c o n t r o lp o l i c i e s ,a n df o rt h es a k eo fc o n v e n i e n c e ,t h ep r i c e sm e n t i o n e d b e l o wr e f e r st ot h eb a s i ch o u s i n gp r i c e ) i n2 0 0 7 ,t h ee - h o u s er e a le s t a t e r e s e a r c hi n s t i t u t eo fs h a n g h a ia n ds h a n g h a iu n i v e r s i t yc a r r i e do u tar e s e a r c ht a s k o nf o r e c a s to fr e s i d e n t i a ld e m a n do ft h er e a le s t a t em a r k e ti ns h a n g h a i t h i sp a p e r w i l ld e s c r i b es o m eo ft h em a j o rr e s e a r c hw o r ka n dr e s u l t sc o n c e m i n gt h et w o p r o j e c t s i nt h es t u d y , w ee s t a b l i s h e dt w om a t h e m a t i c a lm o d e l s :o n ei st h er e g r e s s i o nm o d e l a n dt h eo t h e ri sc a l l e dk e r n e lm o d e l ( k e r n e ld e n s i t ye s t i m a t i o na n dk e r n e l r e g r e s s i o n ) e a c hm o d e lh a sa p p l i e dt w om e t h o d s :f i r s t ,f o rt h es a k eo fm u t u a l a u t h e n t i c a t i o nt oe n s u r ea c c u r a c y , a n dt h es e c o n di st oe l i m i n a t es y s t e m a t i ce r r o r s a sf o rt h em a t h e m a t i c a la r e a sm u l t i v a r i a t es t a t i s t i c sa n dn o n p a r a m e t r i cs t a t i s t i c sa r e i n v o l v e d i nt h i sp a p e r , d a t ai sp r o v i d e db yt h ee h o u s er e a le s t a t er e s e a r c hi n s t i t u t e , i n c l u d i n g4 2 0p i e c e so fi n f o r m a t i o nf r o m19 9 5t oj u n e3 0 m2 0 0 5i nt h ef i r s tp r o j e c t a n d3 8 3p i e c e sf r o m19 9 5t on o v e m b e r2 0 0 6i nt h es e c o n dp r o j e c t t h i sp a p e ri s m a d eo nt h ef i r s tr e s e a r c hp r o j e c t o nt h eb a s i so ft h ec o r r e l a t i v ed a t ap r o c e s s i n g , t h i sp a p e re s t a b l i s h e st w om a t h e m a t i c a lm o d e l sw i t ht h er e g r e s s i o nm o d e la sm o d e l 1 t h ef i r s tm e t h o di st ou s ep e a r s o n ,k e n d a l l ,s p e a r m a nc o r r e l a t i o na n a l y s i st o i d e n t i f yt h e13f a c t o r sw h i c hh a v eag r e a t e ri m p a c to np r i c e s ,t h e nt ou s et h em e t h o d o fm a i nc o m p o s i t i o na n a l y s i st or e m o v el i n e a r i t yc o n n e c t i o na m o n gt h ef a c t o r s w i t h t h ep r i n c i p a lc o m p o n e n to ft h ec u m u l a t i v ec o n t r i b u t i o nr a t eo f81 9 7 ,a n df i n a l l yt o u s er e g r e s s i o nt og e tf i t t i n gp r i c ea n dt h ee s t a b l i s h m e n to ft r e n df o r e c a s t i n gm o d e l ; t h es e c o n dm e t h o di st ou s es t e p w i s er e g r e s s i o nm e t h o dt oe s t a b l i s hf a c t o r s r e g r e s s i o ne q u a t i o n m o d e l2i st h ek e r n e lm o d e l u s et h et w om e t h o d so fk e r n e l d e n s i t ye s t i m a t i o na n dk e r n e lr e g r e s s i o nt op r e d i c tt h et r e n do fp r i c e s t h es e c o n dp r o j e c ti ss i m i l a rt ot h ef i r s to n ei nt h em a t h e m a t i c a lm o d e la n dt h e 上海大学硕士学位论文 m e t h o d b e c a u s eo ft h el i m i t e ds p a c e ,t h i sp a p e rs i m p l yp r e s e n t st h ed a t aa n d r e s e a r c hr e s u l t so f t h i sp r o j e c t i nt h i sp a p e r , m a t l a ba n ds p s ss o f t w a r ea r eu s e dt op r o c e s sa n dc a l c u l a t ed a t a f o r e c a s tr e s u l t sa r et h es a m ea st h ea c t u a ls i t u a t i o n ,a n dh a v eb e e nf u l l yr e c o g n i z e d a n dh i g h l yp r a i s e db yt h ep a r t n e r k e y w o r d s :c o r r e l a t i o na n a l y s i s ,m a i nc o m p o s i t i o na n a l y s i s ,s t e p w i s er e g r e s s i o n , k e r n e ld e n s i t ye s t i m a t i o n ,k e r n e lr e g r e s s i o n 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均己在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 隧吼 乙o 。0 、o i 二海大学硕士学位论文 本文主体结构图 x i 二海大学硕_ 上学位论文 第一章引言 1 1 研究的背景及课题的提出 经过二十多年的改革和发展,上海房地产业发生了翻天覆地的变化,特别是 2 0 0 0 年以来,房地产业走出了多年的调整期,呈现持续繁荣的状态,并已开始 确立在上海经济发展中的支柱产业地位。随着房地产业的逐步繁荣,房价的增长 势头也表现得越来越迅猛。2 0 0 2 年以来,上海房价以平均每年1 0 以上的速度递 增,涨幅居全国首位,并且自2 0 0 3 年起房价居全国首位;而后,上海等地房地 产市场上更是出现了日益严重的投机炒作现象。 2 0 0 5 年,针对这种市场状况,政府推出了一系列调控措施,房产新政频频 出台。3 月2 6 日,国务院办公厅发出关于切实稳定住房价格的通知,提出了 抑制房价过快增长的八条意见,被业界称为“国八条”。4 月2 7 日,温家宝总理 主持召开国务院常务会议,提出新“国八条”。5 月1 1 日,建设部等七部门联合 出台关于做好稳定住房价格工作的意见,直指当前房地产投资规模过大、价 格上涨过快的问题,再次强调稳定房价,提出各地要把调控楼市作为当前加强宏 观调控的一项重要任务。从3 月1 7 日起,央行宣布取消实行多年的房贷优惠利 率,个人住房贷款利率与其他商业贷款一样,执行同样的利率水平和同样的九成 利率下限管理。如此密集和大规模的政策出台,充分反映了国家此次调控房价的 决心和力度,在我国的房地产发展史上也是绝无仅有的。在新政频出的作用下, 原本“热情的购房者开始按兵不动、持币观望;投资者则大多抱着观望的心态; 整个市场进入了僵持状态。上海房地产市场迅即由热转冷,市场前途莫测。 2 0 0 5 年6 月,易居( 中国) 研发中心( 现为上海易居房地产研究院) ,中海 房产,上海大学,三方合作,发挥各自优势,共同开展了课题上海市房地产 市场基础房价走势的研究工作。运用数学工具建立模型,预测了2 0 0 5 年下半年 的房价走势状况。 2 0 0 6 年,调控再次升级,出台“国六条 及“国十五条”,还有“1 7 1 号” 限外政策等;2 0 0 7 年,调控依然继续进行,零散地出台了一些政策,重点在于 落实前两年的政策。在这两年多的时间里,在一系列房产新政的影响下,上海住 上海大学硕士学位论文 房和土地供应结构得到了调整,住宅价格趋向稳定,房地产市场的发展总体上逐 步回归理性。在这种情况下,政府希望对将来一段时间的住宅需求量进行预测, 以便为房地产政策地进一步制定和执行提供参考。于是2 0 0 7 年,上海易居房地 产研究院,上海大学,联合开展了课题上海市房地产市场住宅需求量预测的 研究,在处理了一定量数据的基础上建立数学模型,预测了上海2 0 0 7 年全年的 住宅需求量。 1 2 研究的目的和意义 当前,对于上海房地产市场的研究已经成为一个社会热点,理论成果主要有 以下这几类:认为上海房地产市场价格和行业增加值波动呈现一定规律的“房地 产周期波动规律研究”,对住宅消费结构进行分类、认为住宅市场消费结构归 根结底受收入结构影响的“住宅消费需求结构研究”,研究房地产市场发展是 否健康的“房地产泡沫理论”以及从需求和供给的角度研究房地产市场发展的“房 地产发展趋势研究”等。这几类研究主要都是从理论方面、从定性的角度出发, 涉及到的数学方法也是比较简单的。而本文主要是运用数学工具来进行预测研 究,涉及了多元统计和非参数统计的数学范畴,建立了两大数学模型,采用了四 种数学方法,得出了与实际较吻合的定量的研究成果,这点在以往的研究中是没 有的。这也是几方通力合作、开展课题研究的意义所在。 1 3 本文的主要工作 在第一个课题的研究中,易居房地产研究院提供了1 6 个与房价相关的指标, 本文在对这些数据进行了一定的处理后,保留了其中的1 3 个指标进行研究。建 立了两个数学模型,模型一:回归模型。第一种方法首先利用p e a r s o n 、k e n d a l l 、 s p e a r m a n 进行相关性分析,判断出1 3 个指标均与房价有较大的相关性,继而用 主成分分析方法消除指标间的共线性,取累积贡献率为8 1 9 7 的第一主成分, 再用回归拟合房价并建立了走势预测模型;第二种方法是利用逐步回归法建立指 标回归方程进行预测。模型- - :核模型。用核估计、核回归两种方法直接预测出 房价的走势。 第二个课题的数据仍由易居房地产研究院提供,建立的模型、采用的方法与 1 4 上海大学硕士学位论文 第一个课题类似,即: 模型一:回归模型。 1 利用p e a r s o n 、k e n d a l l 、s p e a r m a n 得出对住宅需求量影响较大的1 7 个指标, 通过主成分分析、回归拟合建立模型进行预测; 2 采用逐步回归法建立指标回归方程; 模型二:核模型。 1 核估计 2 核回归 1 4 研究的结果 第一个课题得出的研究结果为:2 0 0 5 年下半年的房价呈逐步下降的趋势, 这个结果与当年的实际情况是相吻合的。这也反映了由于“房产新政”的实施, 上海房地产市场长期以来投资过热、投机炒作严重、房价飙升的现象在一定程度 上得到了遏制。第二个研究课题预测出了2 0 0 7 年全年的上海住宅需求量,得到 的结果与实际需求量也是一致的。两个课题的研究都受到了合作方的高度评价和 认可,充分体现了通过数学模型、运用数学方法进行房产研究的科学性和可行性。 j 二海大学硕上学位论文 第二章数学模型 2 1 相关性分析 相关关系描述的是事物之间存在着的不确定的依存关系。 2 1 1p e a rs o n 相关系数 简单线性相关分析,是研究两个变量之间的线性相关性,以及这种相关关系 的判断方法、定量测定、相关系数的计算和应用。 ( 1 ) 线性相关关系的判定 要研究现象之间的相关性,一般先作定性分析,然后再作定量计算。所谓定 性分析,就是依据基本理论、专业知识和实际工作经验,对现象之间是否具有相 关性以及相关的表现形态进行理论判断,只有定性分析表明具有相关性的现象, 才有进行定量计算的必要。要对现象之间的相关性进行定量计算,必须对客观现 象进行多次观察或试验,取得一定量的观察数据作为样本,再利用科学的方法, 对相关性作出判断。对两个变量的相关性作出判断,主要有两种方法: 1 相关表:就是在定性分析的基础上,把观察取得的原始数据按某一个变量值 的大d , n 序,成对排列在一张表上,以观察它们之间的相互关系。 2 相关图:就是在定性分析的基础上,将成队的观察数据描在平面直角坐标图 上,通过图形中点的分布情况,判断相关关系的表象形态和密切程度。 ( 2 ) 相关系数的概念 相关表和相关图只能反映两个变量之间的相关关系,无法反映它们之间的密 切程度,而相关系数就很好得解决了这个问题。 相关系数是在线性相关条件下,用来测定两个变量之间相关关系密切程度的 统计指标。它由两个变量( x ,y 变量) 的协方差、x 变量的标准差和y 变量的标 准差三个指标结合而生成的,其基本计算公式如下: 1 6 j :海大学硕:学位论文 厂( x ,y ) = 面c r 2 而( x , y ) 了 仃i 五) 仃ij ) 式中,r ( x ,y ) 表示相关系数,仃2 ( x ,y ) 表示x 、y 两个变量的协方差,a ( x ) 表 示x 变量的标准差,a ( y ) 表示y 变量的标准差。其中协方差的计算如下: 仃2 ( x ,y ) =( x - x ) ( y - y ) 其中i :至墨是变量x 的算术平均数,f :羔兰是变量y 的算术平均数。 ( 3 ) p e a r s o n 相关系数 上述式子是用来测定两个变量之间简单的线性相关程度和相关方向的公式, 它是由著名统计学家p e a r s o n ( 1 8 5 7 1 9 3 6 ) 设计出来的,所以被称为p e a r s o n 相关系数。它的具体完整形式如下: ,( x ,】,) = ( x ,一- 2 - ) ( y ,一歹) f = l 为了便于计算,我们给出一个简捷公式: r ( x ,y ) = 芝( x ,一万) ( 】,一f ) f = l 刀置z - e k i ( 4 ) 相关系数的性质与应用 1 相关系数的性质 j :海大学硕士学位论文 线性相关系数r 说明了两个变量之间线性相关的密切程度和方向,具有如下 性质: 1 ) 一1 r 1 , 2 ) , o ,表示x 与y 正相关;, o 8 时,变量之间有高度的相关性。 2 ) o 5 h o 8 时,变量之间有显著的相关性。 3 ) o 3 o ,则一对二维观测( x 。,k ) 和( x :,e ) 认为是协调的;如果 x 、一x 、 、。? j 婴 o ,则认为是不协调的。如果x 。:x :,分母是0 ,则不做比较。然而, x 、一x , 如果k :k 并且x 。 时,比值!d是0x2 ,在这种情况下,这个数对应该 如果k = 砭并且x - 时,比值妄三专是,在这种情况下,这个数对应该 1 一 1 计数为1 2 协调和1 2 不协调。这时f 的分子并没有什么差异,因为当计算 。一d 时,1 2 项相互抵消。但是,它使得有“结”时,计算k e n d a l l r 的公式有所不同。有“结”时的公式具体如下: , c 一d f = 二二 nc 七nd 1 9 j :海大学硕士学位论文 这里将所有x f x ,的对( x f ,i ) 和( x _ ,_ ) 进行比较。这一形式的k e n d a l l 7 有一个优点,就是能够使得有结时也可以得到+ 1 或一l 。 ( 3 ) k e n d a l l 公式 k e n d a l l 偏秩相关系数:适用于度量等级变量或秩变量相关性的一种非参数度量。 其计算公式为: 善( 五,x ,1 ) 2 1 3s p e a r m a n 秩相关系数 一1 k ,6 1 假设统计数据由样本容量为”的二维随机变量( x 。,y i ) ,( x :,e ) ,( x 。,e ) 组 成,记r ( x ,) = 1 为x ,与其他x 值相比的秩,i = 1 ,2 ,n 。即如果x ,是 x 。,x 2 ,x 。中最小的,则r ( x ,) = 1 ,如果x ,是x ,x :,x 。 第- 1 j 、的,则 r ( x 。) = 2 ,等等,秩刀被赋予最大的x ,。类似的,记r ) 等于1 ,2 ,或n , 它依赖于对每个i ,z 与i ,砭,l 相比的相对大小。 另外,如果观测可以用上段所描述的方式排序,则数据可以由,z 对非数值的 现在给出相关性度量。s p e a r m a n 在1 9 0 4 年提出了秩相关系数的概念。定义 n 一 喜姒撇驴力2 p ( x ,功= 型t 立二上1 防严删膀2 一删 互 同样的,由于公式比较复杂,不容易具体计算,我们也给出一个等价的但是计算 2 0 上海大学硕十学位论文 _ 、,6 善陋( z ) 一尺( z ) 2 , 6 r p ( x ,y ) = 1 一土土r 乏r r 矿1= 1 一i 石i 乇二万1 li,z l ,2 一j 其中,丁就代表了整个分子的求和,即t = z r ( x ,) 一尺( 1 ) 】2 i = l 到此,我们发现,s p e a r m a n 提出的秩相关系数,仅仪是将观测值换为它们 的秩,然后基于秩再代入p e a r s o n 简单相关系数的计算公式。可以说,s p e a r m a n 的相关分析理论是对p e a r s o n 相关分析理论的继承与发展。 所以,s p e a r m 口刀秩相关系数是p e a r s o n 相关系数的非参数版本,主要基于数 据的秩而不是数据的值本身,它适用于等级数据和不满足正态假定的等间隔数 据。 2 1 4 三种理论的比较 ( 1 ) p e a r s o n 方法 优点:p e a r s o n 相关系数度量了两组变量之间的线性相关关系的强弱,计算简便。 缺点:p e a r s o n 相关系数的计算依赖于二维随机变量( x ,y ) 的联合分布,但是 实际中分布往往并不知道。而且使用范围较小,比较适合求定量数据的相关 性。而且相关性并不仅仅只是线性,形式是多样,复杂的,只依赖于p e a r s o n 相关系数去判断两个变量之间的相关性,是不全面的,最多只能分析出他们 线性相关的程度。 ( 2 ) s p e a r m a n 方法 优点:s p e a r m a n 相关系数与p e a r s o n 相关系数有类似的性质,但是其作用不限 于线性相关,本质上是度量两个变量取值的和谐性。s p e a r m a n 方法中所采 用的秩统计量在对样本进行加工后丢失了数值部分而只保留了大小关系,表 面上似乎损失信息太多,但从非参数统计推断的对象来说,由于对总体分布 所知的太少,特别是在指标特征不易准确度量或者只有程度的差异而无法定 量刻画得时候,数量关系就成为表面的,形式的( 有时候甚至是认为的) 东 西,而大小关系则成为相对较稳固可靠的信息,更重要的是秩统计量的分布 2 l :海大学硕上学位论文 简单且与总体分布无关,因此在应用中可以不受总体分布的制约。总的来说, 是适用范围广,结果稳定可靠。 缺点:计算复杂,尤其是在实际问题中顺序变量不仅大多服从离散分布,其样本 观测值会有大量的重复数据,由于出现大量的重复数据,需要用平均秩代替 秩的观测值,平均秩的编程就算是一大难点。 ( 3 ) k e n d a l l 方法 优点:k e n d a l1 相关系数本质上也可以理解为度量两个变量取值的和谐性。主要 思想和s p e a r m a n 方法可以做个类比。虽然不是通过秩来作为统计量,但是 从任意两组观测值的和谐与不和谐的角度来判断。 缺点:比p e a r s o n 相关的计算复杂,可以把所得数据的大小分成低度相关,中度 相关,和高度相关,但是具体的相关性不能够很确定。 2 2 主成分分析 2 2 1 主成分分析原理 主成分分析n 卅n 叩的基本思想就是设法将原来众多具有一定相关性的指标, 重新组合成一组新的相互无关的综合指标来代替原来指标。通常在数学上的处理 就是将原来p 个指标做线性组合,成为新的综合指标。 由此,定义丰成分为: e = 口1 1 x l + 口2 l x 2 + + 口p l x p 最= 口1 2 x l + 口2 2 x 2 + + 口p 2 工, f p = 口、p x l 七n 2 p x 2 + + n 口p xp 其中互是主成分,五是指标列向量 上述方程要求: 口再+ 口玉+ + 口刍2 1i = 1 ,p 且系数由下列原则决定: 巧与f ( f ,i ,= l ,p ) 不相关 e 是x l 一,x 口的一切线性组合( 系数满足上述方程组) 中方差最大的,e 是与e 不相关的x l ,x p 一切线性组合中方差最大的,c 是与e ,e ,一。 :海大学硕上学位论文 都不相关的x 。,以的一切线性组合中方差最小的。 2 2 2 主成分的贡献率和累积贡献率 第f 个主成分的贡献率为喀:土p ,贡献率给出每一个主成分的方差在总 乃 方差p 五中的比值。这个值越大,表明第f 主成分综合五,一信息的能力越强。 前尼个主成分的累积贡献率定义为圭乃圭五。在这里,主成分的累积贡献率 = l i = 1 8 0 。, 6 作为丰成分个数的,z 的选择依据。 2 3 曲线拟合 拟和是指在曲线、曲面的设计过程中,用插值或逼近方法使生成的曲线、曲 面达到某些设计要求,如在允许的范围内贴近原始的型值点或控制点序列;如曲 面、曲线看上去要”光滑”、“光顺 。因变量与自变量之间的函数关系未知,采用 最小二乘法使已有样本点和一般函数关系值做偏差比较,偏差最小得到的函数关 系是曲线拟合方程,既因变量与自变量之间的关系式。 2 4 回归分析 区分自变量和因变量,适合于因变量和自变量均为连续变量的情况,建立回 归方程,要找出因变量和自变量之间的具体的相关关系,是研究变量之间的依赖 关系的一种数学方法。一般,变量之间的关系可大致分为两类:一类是变量之间 的关系完全确定,一个变量能够被一个或者若干个其他变量按某一规律唯一确 定,这种关系称为函数关系;第二类是变量之间具有非确定性的依赖关系,即变 量之间既存在密切的数量关系,有不能由一个或几个变量精确求出另一个变量 值,但在大量统计资料的基础上,可以判断这类变量之间的数量变化具有的规律, 这种关系通常称为相关关系。而回归分析陋3 所要研究的就是这类相关关系。相 关关系虽不是很确定性的,但在大量的观察下,往往呈现出一定的规律性。尽管 变量之间的相关关系不是函数关系,但仍然可以借助相应的函数表达它们的规律 一h 海大学硕士学位论文 性,这样的函数称为回归函数。研究变量间的相关关系,确定回归函数,以及由 此预测和控制变量的变化范围托等就是回归分析的内容。 回归分析的主要内容为:从一组数据出发确定某些变量之间的定量关系 式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法; 对这些关系式的可信程度进行检验;在许多自变量共同影响着一个因变量的 关系中,判断哪个( 或哪些) 自变量的影响是显著的,哪些自变量的影响是不显 著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步 回归、向前回归和向后回归等方法;利用所求的关系式对某一生产过程进行预 测或控制;回归分析的应用是非常广泛的;在回归分析时,在众多变量中首先要 确定一个变量为因变量,其余变量为自变量。在进行预测时,待求预测值的变量 就是因变量。回归分析如果只涉及到两个变量,就是一元回归分析;如果涉及的 变量多于两个,就称为多元回归分析。在进行回归分析时,首先要建立回归方程 式。回归方程式有线性和非线性两种。若回归方程中因变量和自变量为一次幂关 系,称为线性回归,否则称为非线性回归。 2 5 逐步回归 在许多实际问题中,变量的选取往往是比较明确的,但其中包含的自变量有 时会非常多。本文的数据库就是这样的一个典型代表。在多元回归分析中,一方 面,为获得较全面的信息,总希望模型包含尽可能多的自变量;另一方面,考虑 到获取如此多自变量的观测值的实际困难及费用,我们则希望回归方程中包含尽 可能少的且重要的自变量。因此在实际应用中,希望拟合这样一个模型,既能较 好地反映问题的本质,又包含尽可能少的自变量。逐步回归法就是一个最优回归 方程中一个比较好的方法。 s t e p l 计算变量均值i ,x 一2 ,x p ,y 一和偏差平方和l i i 三:,l 印,岛记各自得标 龇姐舢,2 学庐啦,棚- 2 嚣 2 4 上海大学硕 = 学位论文 s t e p2 计算,x 2 ,x p ,y 的相关系数矩阵尺o s t e p3 设已经选上了后个变量:屯,气,气,- 目- i i ,f 2 ,i t 互不相同,r 经过变 换后为r 。= ( 巧) 对= 1 ,2 ,k 逐一计算标准化变量“的偏回归平方和 = 警删掣作f 检验,f = 琵i 南,对给定 的显著性水平口,拒绝域为f 0 是一个同n 有关的常数,定义 肌,2 击喜kc 等, 亿, 称六为总体未知密度厂的一个核估计,k 为核函数,吃为窗宽。 这一定义考虑的是x 为一维的情况。若x 为d 维,只须将( 2 1 1 ) 式中分 母刀吃改为以掰。这里需要对上述定义作几点注解。 ( 1 ) “窗宽”( w i n d o w w i d t h ) 5 1 这个词是从核估计肺1 的特殊形式r o s e n b l a t t 估 计中j i l n 的含义派生出来的。我们可以解释为:对每个观察彳,限制在高为n h 。, :海大学硕十学位论文 宽为办。的。窗,内,而估计值为,z 个这种。窗,之和。因而 一正是这,z 个t 窗” 的公共“窗宽”参数。 ( 2 ) 窗宽的作用。由定义可知,核估计既同样本有关,又同核k 及窗宽 一的 选取有关。在给定样本之后,一个核估计性能的好坏,取决于核及窗宽的选取是 否适当。当 。选得过大,由于x 经过压缩变换兰兰之后使分布的主要部分的某 ,z ” 些特征( 如多峰性) 被掩盖起来了,估计量有较大偏差;如h 。太小,整个估计特别 是尾部出现较大的干扰,从而有增大方差的趋势。因而在实际使用核估计时,如 何选取适当的宽度是一项很细致的工作。 2 6 2 核函数的选取: 对于k 的选取,除了“均匀核( 2 3 ) ”以外,我们较常用的,既本文所用的 是 下本核k “2 煮孑e x p 一矿u 2 ( 硼 “ ) 1 。 正态核: 刀仃 z 仃 ( 硼 “ 0 , 上海大学硕二1 :学位论文 k ( “) d u = 1 , 定义加权平均核为刃如) :善盟,其中 k “( x - x ) j = l k “ ) = j l l i l k ( u h ;1 ) 也是一个密度函数。n a d a r a y a w a t s o n 核回归定义为 而。( z
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年住院医师规培-海南-海南住院医师规培(临床病理科)历年参考题库含答案解析
- 气胀式救生筏
- 2025年住院医师规培-江西-江西住院医师规培(急诊科)历年参考题库含答案解析
- 2025年事业单位工勤技能-重庆-重庆热力运行工二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-重庆-重庆印刷工二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-北京-北京计算机操作员二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-北京-北京水工闸门运行工一级(高级技师)历年参考题库典型考点含答案解析
- 华能电气面试题库:电气技术岗位面试题及答案解析
- 气泵基础知识培训内容课件
- 医学护理专业面试实战模拟题:临床案例分析
- 2025届山东省青岛五十八中高一物理第二学期期末考试试题含解析
- 智能建筑中机器人的应用与装配式施工技术
- 医院培训课件:《基于医院感染防控的安全注射》
- 2025年档案管理与信息资源利用考试试题及答案
- 工业空调培训课件模板
- 防汛安全教育试卷(含答案)
- 2025届上海市高考英语考纲词汇表
- 陕西省特种设备隐患排查清单(2025年)
- 快递行业交通安全培训
- 货款转让协议书
- 燃气公司加气站操作规程及安全要求
评论
0/150
提交评论