已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r st h e s i s 摘要 面板数据这种多维数据是如今统计学国际前沿和热点研究领域对这种数据模 型的传统研究多集中在固定效应和随机效应单独存在的情况,且经典p a l l e ld a t a 模 型研究中一直存在着固定效应与随机效应的判断与争论问题,这种模型设定形式的 不准确常常导致模型参数估计的无效性。本文提出建立一种新的同时囊括随机与固 定两种效应的误差成分模型,并针对其中一种较完整的双向分类混合模型同时 具有时间和个体随机效应以及具有固定效应和测量误差的典型混合线性模型,研究 设计了其一种新的参数估计方法,谱分解估计( s d e ) 这不仅是对传统模型结构更科学的改进,同时是针对这种新的模型结构在估计 方法上的改进 关键词:面板数据;固定效应;随机效应;混合线性模型;谱分解估计; 方差分量;双向分类模型 硕士学位论文 m a s t e r st h e s i s a b s t r a c t t h em u l t i d i l n e n s i o n a ld a t aa i l a l v s i sm e m o d so fp a i l e ld a t aa r en o wt h e 自o n t i e ro f s t a t i s t i c a ls c i e n c e p 锄e ld a t ai sat y p i c a ll l l i x e d1 i i l e a rm o d e lw i mt h ev 撕a b l e so ft h n e a 1 1 di i l d i v i d u a l i t sr e s e a r c hd e v e l o p m e n tm a i n l yf o c u s e so nt h er a l l d o me 舵c tm o d e l 孤d f i x e de f 】f e c tm o d e l i n d e p 锄d e n t l y t h ed e b a t eb e 帆e e l lf i x e de f r e c ta n dr a n d o me 日e c th 弱 b e e nh a u n t i n gi np a n e ld a t aa n a l y s i ss i n c ei t so r i g i n t h ei n a c c u r a t em o d e lb r i n 2 so nt l l e i n e 伍c a c yo fm ep a r 锄e t e r se s t i m a t e s ot 1 1 i sm e s i s p u 印o s ei st od e s i 印an e wm i x e d e f r e c tm o d e lw i t l li 1 1 d i v i d u a la n dt 曲er 趾d o me f r e c t sa n ds i i n u l t a l l l e o u s l vw i m 丘x e da n d e n - o re f r e c tt o g e t h e r w i 1t 1 1 i sn e 、m o d e ls 仃u c t l l r e ,ii i l t r o d u c ean e wp a r 锄e t e r e s t 证l a t i o nm e t l l o d 。c a u e da sm es p e c 仃a 1d e c o m p o s i t i o ne s t i r n a t e t l l i si san e 炳ra n dm o r es c i e n t i f i cn l o d e ls t l l l c t u r e a n dt h i sn l e 也o di sa l s oan e 、 m e t h o dt ot h j sm o d e l i ti sac e n a i ni m p r o v e m e n tt ot h e 仃a d i t i o n a lp a n e ld a t ar e s e a r c h m e t h o d sa n dh a ss o m ee x c e n e n tc h a r a c t e r i s t i c s 时w o r d s : p a i l e ld a t a ;丘x e de 舵c t ; m d o me 行e c t m i x e de 妇眙c t1 i i l e a rm o d e l v 撕a n c ec o m p o n e n t s s p e c 仃a ld e c o m p o s i t i o ne s t 油a t e t w o w a ym o d e l 硕士学位论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均己在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名: 社移 日期:如。5 年6 月够日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权 中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 作者签名! 覆七 日期:如口髟年6 月妊日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程 ,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库”中全文发布,并可按“章程”中的 规定享受相关权益。回童诠塞握交卮溢卮;鱼坐生;旦二生;旦三生筮查! 作者签名:私耜 日期p 呕年6 月乒日 孙始他扔毛 日期:冽砗6 月乒日 叉1 日 0 乡u 厂 、乃月t 妒、一d吼厂年 :略 名 缈 弛棚 师期 争日 硕士学位论文 m a s t e r st h e s i s 第一章引言绪论 1 1 面板数据和模型概述 在经济学研究和实际应用中,我们经常需要同时分析和比较横截面观察值和时 间序列观察值结合起来的数据,即同时融合时间和个体双重维度的数据结构。这种 数据被称为面板数据( p a n e ld a t a ) ,它与我们以前分析过的纯粹的横截面数据和时 间序列数据有着不同的特点。所以也称为“时序与横截面混合数据”( t i m es e r i e sa n d c r o s s s e c t i o nd a t a ) 。按照比较权威的理解,是用来描述一个总体中给定样本在一 段时间的情况,并对样本中每一个样本单位都进行多重观察。这种多重观察既包括 对样本单位在某一时期( 时点) 上多个特性进行观察,也包括对该样本单位的这些 特性在一段时间的连续观察,连续观察将得到数据集称为面板数据。该模型能够同 时反映研究对象在时间和横截面单元两个方向上的变化规律及不同时间、不同单元 的特性。 面板数据0 a 1 1 e 1d a 啪结合了时间序列m m es 甜e s ) 与横断面( c r o s ss e c t i o n ) 数 据的形式,除了具备时间序列的动态性质外,并拥有横断面数据的异质特性,比一 般传统的数据提供更完整的信息。在实证分析上,它与横断面分析和时间序列分析 最大的不同处在于其能有效控制个体( i n d i v i d u a l ) 之间存在的差异性( 1 l e t e r o g e l l e i t y ) , 可以解决上述两种分析所无法解决的问题,降低导致估计结果产生偏误的风险。此 外,纵横断面数据可以获得更多的信息数据( i i 怕m a t i v ed a t a ) ,不仅大幅增加自由度 使估计更具效率性,同时也提供研究者得以建构与测试更为复杂的行为模型。 在统计学意义中,面板数据模型( p a n e ld a t am o d e l ) 既带有时间序列的性质, 又包含一定的横截面特点。它的变量也同时含有横截面和时间序列的信息。一般的 线性模型只单独处理横截面数据或时间序列数据,而不能同时分析和对比它们。面 板数据模型,相对于一般的线性回归模型,其长处在于它既考虑到了横截面数据存 在的共性,又能分析模型中横截面因素的个体特殊效应。当然,我们也可以将横截 面数据简单地堆积起来用回归模型来处理,但这样做就丧失了分析个体特殊效应的 机会。因而,以往采用的计量模型和估计方法就需要有所调整。 伴随着经济理论,包括宏观经济理论和微观经济理论、计算机技术和统计方 法的发展,p a n e ld a t a 在经济学领域的应用逐渐被经济计量学家推广。在宏观经 济领域,它被广泛应用于经济增长、技术创新、金融、税收政策等领域;在微观经 济领域,它被大量应用于就业、家庭消费、入学、市场营销等领域。美国最著名的 两个p a n e ld a t a 数据集,一个是俄亥俄大学的n l s 数据集( t h en a t i o n a l 硕士学位论文 m a s t e r st h e s i s l o n g i t u d i n a ls u r v e y so fl a b o rm a r k e te x p e r i e n c e ) ;另一个是密西根大学的 p s i d 数据集( t h eu n i v e r s i t yo fm i c h i g a n sp a n e ls t u d yo fi n c o m ed y n a m i c s ) 。 n l s 数据集包括5 个独立的与劳动力有关的板面数据集,这5 个板面数据集的主体 包括1 9 6 6 年4 5 岁到5 9 岁的成年男子、1 9 6 6 年1 4 岁到2 4 岁的青年男子、1 9 6 7 年 3 0 岁到4 4 岁的成年女子、1 9 6 8 年1 4 岁到2 4 岁的青年女子、1 9 7 9 年1 4 岁到2 1 岁的男女青年。前四个群体被连续( 跟踪) 观察了1 5 年,最后一个青年群体在被 连续观察了1 5 年后,又被继续观察了6 年。调查的变量有上千个,主要侧重了解 劳动力市场上供给方的情况。p s i d 数据集由从1 9 6 8 年起直到现在所收集的6 0 0 0 个 家庭和1 5 0 0 0 个人的5 0 0 0 多个变量的数据构成,这5 0 0 0 多个变量涉及就业状态、 收入、家庭资产、住房、上班交通工具、汽车拥有等方面。收集这些p a n e ld a t a 数 据集主要是为了研究美国贫穷人口状况及其贫穷原因。除此之外,这些数据集还被 用来监测和解释经济状态变化以及经济和社会状况对人们生活的影响。 1 2 国内外发展及本文研究意义 由于p a n e ld a t a 模型拥有能够控制与刻画个体异质性、减小变量之间的多重 共线性、增大自由度、提供更多信息以及利于进行动态分析与微观个体分析等优势, 因此近年来得到了理论与应用研究者们的广泛关注,而p a n e ld a t a 模型的方法也 在原有的经典模型的基础上得到了迅猛的发展。动态p a n e ld a t a 模型、离散数据 模型( d i s c r e t ed a t a ) 、非平衡p a n e ld a t a 模型、p a n e ld a t a 的离散选择模型、 p a n e ld a t a 的单位根检验与向量自回归模型以及因果关系检验等方面的理论成果层 出不穷。 然而,无论是较为经典的p a n e ld a t a 模型,还是在此基础上发展起来的其它 模型,在模型设定与应用过程中依然面临着要对误差分解成分满足固定效应还是随 机效应进行判断与检验的问题,加之误差成分不同的分解方式以及两种不同维度的 组合搭配,使得固定与随机的检验与判断变得更加复杂与扑朔迷离。复杂的误差分 解与组合结构,对异质性内涵的理解差异以及不同效应对应的估计方式与相应经济 含义的各有利弊,使得固定效应与随机效应的争论一直存在着。 自g a u s s ( 1 8 0 9 ) 与l e g e n d r e ( 1 8 0 5 ) 提出最小二乘法的基本思想之后,人们便开 始关注被刻画的共性背后存在的异质性成分了。在其后的一段时期内,众多研究均 认为在未被刻画的异质性成分之中存在着可控、可比且时不变的个体固定影响成 分。但由于这种固定成分的影响是个体特有的,而且可以通过增加外生变量等方式 尽量减小,特别是鉴于回归方程的可估性等原因,而被正统的分析所忽略,这便是 2 硕士学位论文 m a s t e r st h e s i s 固定效应模型的最初( n e r l o v e ,2 0 0 0 ) 。1 8 6 1 年,随着a i r y 一本天文学专著的问世, 未被观察到的异质性成分中的另一种影响效应引起了人们的关注,即在真实值附近 总是存在着一个除系统误差而外的固有误差成分。这种成分“在每一天内是恒定不 变的,但却随不同天之间不断在变化 ( a i r y ,1 8 6 1 ) ,而且a i r y 从理论上证明了这 种随机成分的存在性。至此,试验数据中存在的随机效应正式被提出。在此之后, f i s h e r ( 1 9 1 8 ) 在方差分析中对这两种不同的影响效应进行了较为全面的研究。然 而,由于f i s h e r 在分析中采用了方差分析以及放弃使用期望等问题,使得对其本 人可能非常清晰的固定与随机效应的概念,在后来的非试验数据的计量分析中变得 含糊不清。此后的众多学者便产生了在选择固定与随机的问题上的较大分歧。 c h 锄b e r l a i n ( 1 9 8 4 ) 的研究表明,固定效应模型是对一般模型的待验参数施加 可检验的约束后得到的,我们可以通过检验这种约束条件的成立与否来决定是否选 择固定效应模型。m u n d l a k ( 1 9 7 8 ) 则认为,随机效应模型是假设全部的包含个体随 机影响的回归变量是外生的。而与此相对,固定效应模型是认为包含个体影响效果 的变量是内生的。因此,固定效应与随机效应选择的问题即是一个检验回归变量与 个体影响效应是否为外生的问题。h a u s m a n 与t a y l o r ( 1 9 8 1 ) 通过允许一部分回归变 量与个体的差异性之间存在着相关关系的方式,运用胁u 册力类的统计量对是否存 在随机效应进行了检验。在n e r l o v e ( 2 0 0 0 b ) 再一次掀起了有关随机与固定效应的争 论,并提出了新的理由主张选择选择随机影响模型之后,p a n e ld a t a 模型的应用 研究学者们提出了反对无条件的接受固定效应模型或随机效应模型的主张。 w 0 0 1 d r i d g e ( 2 0 0 2 ) 认为,在微观面板数据计量模型的估计中,将无法观测到的影响 成分看作是固定效应还是随机效应的讨论是不明智的。因为当我们面临着一个从较 多截面随机得到的大容量样本的时候,我们通常是将无法观测到的异质性影响与解 释和被解释变量一样看作是总体抽取的一个随机变量。h s i a o 、s u n ( 2 0 0 0 ) 则认为, 将固定效应或随机效应的判断作为模型设定的问题来看待和解决要远远优于对其 进行单纯的假设和检验。他们提出了以密度比率( d e n s i t yr a t i o ) 、a i c ( a k a i k e ) 准则以及斯瓦茨( s c h w a r t z ) 准则来对模型设定进行检验以判断两种效应。在同时进 行的蒙特卡洛模拟实验中,估计结果显示三种判断准则均能较好的对模型设定进行 判断和检验,其中以斯瓦茨( s c h w a r t z ) 准则的表现为最佳。 针对经典p a n e ld a t a 模型研究中存在的固定效应与随机效应的争论,以及由 此带来的关于误差成分模型中单向分类与双向分类成分模型的混淆与参数估计上 的偏差,本文提出更有效的区别固定效应和随机效应模型的标准,给出两种模型更 精确的定义和表述,并分别在单向和双向分类的情况下构建同时囊括随机与固定两 硕士学位论文 m a s t e r st h e s i s 种效应的一般混合效应误差成分模型,并对其未知参数进行估计。并力求一种个更 新的更完善的参数估计方法来拟合这种新的模型结构。又由于单向分类的模型仅为 双向分类的特例模型,单一的随机效应或固定效应模型亦为其特殊情况的一种。所 以本文仅着力针对双向分类的情况进行重点分析,研究其各未知参数的估计方法并 给出计算结果。这里作者学习了王松桂等对一般高维混合线形模型的研究理论,深 刻理解了其创新研究的方差分量模型的谱分解估计方法,并将其运用到p a n e ld a t a 模型中来。这中估计方法在面板数据的研究中还属创新,属于探索阶段,日后亦有 很多工作需要补充研究。 4 硕士学位论文 m a s t e r st h e s i s 第二章p a n e ld a t a 模型的基本结构 在对p a n e ld a t a 的经典研究中,一般针对其误差结构模型分类成两种:固定 效应模型和随机效应模型。大部分论著和研究都是针对这两种模型展开的,正如第 一章所述,甚至很多学者对于两种模型的定义和分类还存在分歧。 从经典的研究中,我们可以总结得到固定效应模型和随机效应模型各有其优缺 点如下: 固定效应模型的优点:能够确定地反映个体之间的差距及其简单的估计方法; 固定效应模型的缺点:存在模型自由度比较小( 因为有n 个截距系数) 和存在 对个体差异的限制性假设( 即个体间差异为固定的) 。 随机效应模型的优点:能够反映个体之间差距的随机性;与固定效应模型相比, 需要估计的模型系数也比较少,因而模型的自由度比较高; 随机效应模型的缺点:面板数据模型中含有横截面数据,在模型的误差项中很 可能出现异方差,与基本假设产生矛盾;随机效应模型有可能因没有包括某些必要 的解释变量而导致模型设定出现错误。 所以对于混合效应模型的研究显得更加必要和有效。 本章研究目的及内容:更系统规范化固定效应和随机效应模型的区别和定义, 在此基础上构造更科学完整的混合效应线性模型,即同时包括固定效应和时间效应 的模型结构。同时,本章是将单向分类模型( 即只考虑个体的异质性影响或时间的 动态性影响) 和双向分类模型( 同时考虑个体和时间影响) 分开讨论的。 2 1 基本模型定义及符号说明: 符号介绍:虼因变量在横截面f 和时间f 上的数值; v j f f 第个解释变量在横截面f 和时间f 上的数值; 假设:有p 个解释变量,即= 1 ,2 ,p ; 有n 个横截面,即汪1 ,2 ,; 时间指标仁1 ,2 ,一。 记第i 个横截面的数据为 咒= - ,咒2 “彤r ) ,;= ( 。,珥2 r ) 7: 硕士学位论文 【a s t e r st h e s i s f ,矗吐刮 t = l 薹妻- 蔓i = 卜 l 磋j 我们知道对p a n e ld a t a 的研究分歧重点在于方差分量模型中误差变量的分 6 硕士学位论文 m a s t e r st h e s i s 解结构。若基于每个个体的特殊效应,对随机误差项的分解为: 1 l n = q i + s n ( 2 2 1 ) 其中代表个体的特殊效应,它反映了不同个体之间的差别。它是与个体观察 单位有关的,概括了所有影响被解释变量,但不随时间变化的因素。“称为总体随 机残差项,概括了因截面个体以及随时间而变化的不可观测因素,通常被成为特异 性误差或特异扰动项。 面板数据模型的分类一般是根据对非观测效应q 的不同假设进行的。通常可分 为固定效应模型和随机效应模型。传统上,大家都习惯这样分类如果把非观测效应 看做是各个截面或个体特有的可估计参数,并且不随时间而变化,则模型为固定效 应模型( f i x e de f f e c tm o d e l ) ;如果把非观测效应看作随机变量,并且符合一个 特定的分布,则模型为随机效应模型( r a n d o me f f e c tm o d e l ) 。 不过,上述定义不是十分严谨,而且一个非常容易让人产生误解的地方是似乎 固定效应模型中的非观测效应是随时间不变的,是固定的,而随机效应模型中的非 观测效应则不是固定的,而是随时间变化的。 一个逻辑上比较一致和严谨,并且越来越为大家所接受的假设是,不论固定效 应还是随机效应都是随机的,都是概括了那些没有观测到的,不随时间而变化的, 但影响被解释变量的因素( 尤其当截面个体比较大的时候,这种假设是比较合理 的) 。非观测效应究竟应假设为固定效应还是随机效应,关键看这部分不随时间变 化的非观测效应对应的因素是否与模型中控制的观测到的解释变量相关,如果这个 效应与可观测的解释变量不相关,则这个效应成为随机效应。这也正是h a u s m a n 设 定检验所需要检验的假说。这在下面给出模型结构定义的同时更容易看出来。 ( 1 ) 固定效应模型的形式 = 呸+ 7 + 毛 ( 2 2 2 ) 其中q 是对每一个个体是固定的常数,即横截面数据的差异被包含在截距项中。 整个固定效应模型可以用矩阵形式表示为: 7 硕士学位论文 m a s t e r st h e s i s y = m 兄 : y n b o 0 1 , oo o o 1 丁 q 呸 : + 五 五 : x n 侈七 q 乞 : n ( 2 2 3 ) 其中1 r 为丁1 的单位向量。 进一步定义: f ,1 r o o 、 d :( 鸠) :10 1 r oi :厶。1 r 1 - 。l loo 1 r 肌 喀为刀、r 1 向量,是一个虚拟变量( d u 衄yv a r i a b l e ) 。模型可以再写为: y = d 口+ x + 占 ( 2 2 4 ) 其中d 是一个由虚拟变量组成的矩阵。因此固定效应模型也被称为最小二乘虚拟变 量模型( 1 e a s ts q u a r e sd u 舳yv a r i a b l e ( l s d v ) m o d e l ) ,或简单称为虚拟变量模 型。 ( 2 ) 随机效应模型 咒,= 瓦+ 鸬+ ( 2 2 5 ) 其中肛与毛同为随机变量,肛为个体随机效应,为总体随机残差。 由于模型的误差项为二种随机误差之和,所以也称该模型为误差构成模型( e r r o r c o m p o n e n tm o d e l ) 。还满足: 以皿( o ,吒) ,岛肋( o ,) ,且以、毛与之间相互独立。 因此,我们可以看到其实固定效应和随机效应模型的区别,并不是简单的根据 q ( 肛) 是固定还是随机,还根据( 肛) 和解释变量置,是否相关。 固定效应模型:q 和解释变量相关; 随机效应模型:肛和解释变量瓦不相关。 ( 3 ) 构建单向分类的混合效应模型( m i x e de f f e c tm o d e l ) 本节开始说明了构建混合效应模型的必要性和可行性,在前面对固定效应和随 机效应模型的区别和认识基础上,我们可以相应的这样构建混合效应模型: 将误差成分分解为:= + “+ 毛 ( 2 2 6 ) 硕士学位论文 m a s t e r st h e s i s 其中,为个体固定效应,肛为个体随机效应,毛为随机残差项。 模型可矩阵表示成y = x + d 口+ ( 凡0 1 r ) + 占 ( 2 2 7 ) 其 中, y 为胛1向量,x为r p矩阵, 口= ( 口l ,口) ,= ( “,脚) ,以一刀d ( o ,吒) ,气刃d ( o ,) , 且以、毛与以之间相互独立。 其协方差矩阵为:y ( 口) = e “7 ) = 吒( 凡圆厶) + ( 如o ) 其实,我们分析可以看到,若这里盯:= o ,则方程( 2 2 7 ) 既为单向分类的 固定效应模型结构( 2 2 4 ) 。也就是说,我们可以把固定效应模型看作混合效应误 差结构模型的特例,从而也为我们将固定效应和随机效应同时从误差结构中分离出 来提供了科学的依据。 同理,若只考虑基于时间动态性的单向分类,固定效应、随机效应及单向分类 混合模型的定义与前面基于个体异质性的模型结构是类似的。这里就不再详细表述 它所对应的三种模型结构了。 2 3 双向分类的三种模型结构 上一节,我们看到单向分类是讲随机误差“分离成两部分,在更高级的计量经 济学面板数据讨论中,会将扰分离成三部分,即= 膳+ 匕+ 岛;这里即包括因截 面变化不因时间变化的随机项肛,也包括不因截面变化但随时间变化的非观测因素 对应的误差项。 我们分别定义其固定效应模型、随机效应模型和混合效应模型结构如下: ( 1 ) 固定效应模型 虼= 以。+ q + 7 7 f + 毛 ( 2 3 1 ) 虼表示个体f 在时刻f 的观测值,其中q 为个体固定效应,研为时间固定效应。 s 。为总体残差项。 类似前面单向分类,模型可写成矩阵形式即为: j ,= 乃 儿 y n fo of oo o o z 口1 + 仇 口2 + 7 7 2 饯n + q n + 五 x t x n 9 9 七 毛 乞 n 硕士学位论文 m a s t e r st h e s i s = d ( 口+ 7 7 ) + x + 占= z 万+ 占; ( 2 3 2 ) 其中口+ 7 7 l 瓦 = g ( 瓦) ;c o v 瓦,a 】o ;s i ,口 = o ; 即固定效应口与解释变量k 相关,随机效应占与解释变量无关。 ( 2 ) 随机效应模型: = 瓦+ 肛+ + ,表示时刻f 个体f 的观测值。其中,为固定系数,鸬为 个体随机效应,u 为时间随机效应,占豇为总体随机残差项。 扛1 ,:f = 1 ,7 。观测值共有刀= :。z 。 满足: 肛一肋( o ,吒) ,m 肋( o ,) ,毛一肋( o ,) , 且一、毛与之间相互独立。 ( 3 ) 构建双向分类的混合效应模型( m i x e de f f e c tm o d e l ) : 为了将时间和个体异质性对参数带来的影响更准确的催孕出来,我们对模型中 随机误差项的分解同时包含固定效应和随机效应, 即混合效应模型具有以下形式: y n = x i lp + 仅i + p i + q t + v t + s i t ( 2 3 3 ) 且假设p a n e ld a t a 为平衡混合效应方差分析模型,即 丁 ,z = y 州 f _ 1 其中q 和仇分别为个体和时间固定效应,h 和表示个体和时间随机效应,s “ 表示公共随机误差因子 模型写成矩阵形式: 少= d 位+ 7 7 ) + 邓+ ( 如0 1 r ) + ( 1 ) y + ( 如o 弦 = d ( 口+ 刁) + j 节+ 缈; ( 2 3 4 ) 缈为整体随机部分,均值为o 协方差阵为 y ( 秒) = 吒2 ( 如。以) + q 2 ( 厶。) + 吒2 ( 2 3 5 ) 将模型写成设计矩阵向量乘积的形式:y 2 x + u + y + 乩占 ( 2 3 6 ) 这里,y 为7 z 1 维观测向量,x 为以p 已知设计矩阵,为p 1 固定效应,y ,分 别为个体和时间两个随机效应向量,占为误差向量它们的维数分别为 1 0 硕士学位论文 m a s t e r st h e s i s g l 1 ,g z 1 ,9 3 1 ,则为疗g f 的已知设计阵,江1 ,2 ,3 其中g l2 ,吼2 丁,吼= 胛 假定e ( ) = o ,c o v ( ) = 巳2 如: e ( y ) = oc o v ( y ) = 吒2 e ( 占) = oc o v ( 占) = 吒2 k 且,y ,占相互独立,即c o v ( ,y ,占) = o 记9 = ( 吒,蠢,) 7 ,即称之为p a n e ld a t a 混合线性模型的方差分量 凳们百t 煌1 ,酌七h 吉兰陆;j 粕矿( 臼) = q 2 配7 全( 盯2 ) 我们可将少的协方差阵记为:、7 智。1 1 厶r , 硕士学位论文 m a s t e r st h e s i s 第三章面板数据混合效应模型的谱分解估计 如上两章介绍,对p a n e ld a t a 的固定效应和随机效应模型研究已有很多,但 混合效应线性模型的研究还很不成熟,特别是针对时间和个体两向分类的混合效应 线性模型研究更是很少 本章研究目的:针对双向分类的混合效应模型,着力研究其模型系数、固定 效应参数口、旯及随机效应方差分量盯:、蠢、仃;的估计方法。 本章研究方法:讲王松桂老师在混合效应线性模型方差分量的创新研究谱 分解估计方法运用其中,对方差分量进行估计,并运用g l s 的思路将该模型进行适 当变形,求其他未知参数。 3 1 谱分解估计方法介绍 近2 0 年来,线性混合模型在生物、医学、经济、金融、环境科学、抽样调查 及工程技术领域得到愈来愈广泛的应用。这种模型的未知参数分两类,一类是固定 效应,一类是随机效应的方差分量。关于方差分量的估计统计学家们提出了许多方 法,如方差分析法( a n o v a ) 、极大似然法( m l e ) 、限制极大似然法( r m l e ) 、最小范数 二次无偏估计法( m i n q u e ) 、b a y e s 和经验b a y e s 法等。这些方法都是把固定效应和方 差分量的估计分开来进行的。除了方差分析法外,它们都需要解一个非线性方程组, 一般都没有显示解,只能获得迭代解。 近年来,王松桂等提出了固定效应和方差分量的一种新估计,称为谱分解估计。 新方法的突出特点是,能同时给出固定效应和方差分量的估计,且都为显示解。前 者是若干个具有一些好的性质的线性估计,利于对模型作一些统计推断。后者是二 次的,且两者相互独立。 谱分解估计( s p e c t r a ld e c o m p o s i t i o ne s t i m a t e ,s d e ) 的基本思想是:首先 对协方差阵进行谱分解,然后利用谱分解得到的主幂等阵对原模型进行适当的线性 变换,获得若干个新的奇异线性模型。这些新模型的特点是它的固定效应和原模型 相同,但新模型的协方差阵除了一个因子外,不含未知的方差分量,利用最小二乘 统一理论,对每个新模型可以得到固定效应和特征值的一个估计。由于在常见情况 下,协方差阵的特征值是方差分量的线性函数,因此通过解线性方程组,可以获得 方差分量的估计。 1 2 硕士学位论文 m a s t e r st h e s i s 3 1 1混合线性模型一般形式 具体来说,对于一般混合线性模型: y :x + 圭u 缶+ p ( 3 1 1 ) 这里y 为咒1 观测向量,x 为,呷设计矩阵,为p l 固定系数,专为1 随机效 应,以为咒x f f 的已知的设计矩阵,p 为随机误差。为简单记,记e = 磊+ 1 ,相应的, “= l 。 假定e ( 鲁) = o , c o v ( 专) = q 2 ,f = 1 ,2 ,七+ 1 c o v ( 专,白) = o ( f 歹) 则少的协方差阵为c 。v ( y ) :艺q z u 垒( 仃2 ) 3 1 2 ) 其中仃2 = ( q 2 ,2 ,吒+ 。2 ) 被称为方差分量, 且仃z 的参数空间为:q = 盯2 ,q 2 o ,扛1 ,五,吒+ 。2 o ) 。 3 1 2 混合线性模型谱分解估计方法 如果y 的协方差阵有如下谱分解,( 仃2 ) = 艺五m ( 3 1 3 ) 这里丑,f = 1 ,口是( 仃2 ) 的所有互异非零特征根,它们是仃2 的线性函数,m 是特征根丑对应的主幂等阵。( 即m 2 = m ,m 呜= o ,f _ ,m = ,) ,且独立于 未知参数。我们分别用幂等阵m ( 扛1 ,g ) 左乘模型( 3 1 1 ) , 于是得到变化后的g 个新模型, m ,y = m ,x + 乞,q ( o ,丑m ) ,f = 1 ,g , ( 3 l 4 ) 这些模型的特点是,模型协方差阵除丑以外,独立于未知参数。 事实上,因为m 是奇异阵,我们可以应用最小二乘理论得知,任一在( 3 1 4 ) 中的第f 个模型可估的函数c ) 的最佳线性无偏估计为c ( ) , 这里 ( ) = ( x m ,x ) 一x m y ,i = 1 ,g ( 3 1 5 ) 这里4 一表示矩阵么的任一广义逆,我们得到固定效应c 侈( ) 的估计类c ( ) , 硕士学位论文 m a s t e r st h e s i s f :1 ,g 称这些估计为c ( ) 的谱分解估计( s d e ) 。 当厂口础( x ) = p ,且朋( 彳) n 朋( 鸠上) = o ) ,将上式中广义逆矩阵改为普通逆矩 阵,称( f ) 为固定效应( ) 的谱分解估计。 进一步,由模型 ( 3 1 4 ) , 我们可以得到丑估计, 扛1 ,g ( 3 1 6 ) 其中,;= 阳础( m ) 一m 力七( m x ) 。 将以代入( 3 1 3 ) ,便得到协方差阵( 盯2 ) 的谱分解估计 = ( 允) = 五+ m ( 3 1 7 ) 由于五是关于方差分量盯2 = ( q 2 ,吼2 ,吼+ 。2 ) 的线性函数,这样解线性方程组 即可得到方差分量d 2 的估计,即称为方差分量的谱分解估计,记为 仃”= ( q ”,吼”,吼+ 。2 ) 7 。 3 1 3 相关引理和结论 引理1 对一般平衡混合效应方差分析模型,y 2 即+ 善u 鲁+ p ,其中为固 定效应,毒为随机效应,为对应的设计矩阵,p 为误差效应若砚是封闭的,则 ( 仃2 ) 的谱分解为( 盯2 ) 2 善五m ,这里m 即如前所定义且: 厶= 善q q 2丑= 芸勺乃2 巧,:,七+ 。 是( 盯2 ) 的七+ 2 个( 不同) 的特征值 重数分别为1 ,吒2 仃( m ) , , 珞+ - 2 廿( m 州) 。 其中乃= 三吃篓喜气, q = 垂幻 其中乃2 1 0其它 ,q = 哥“, 记州缸,“日姒嘞2 絮炭, 1 4 硕士学位论文 m a s t e r st h e s i s 显然是一个可逆上三角阵 兄与仃2 有如下关系:兄= 日仃2 ,仃2 = 日一h ,九= c 竹_ 1 允, 这里c = 【q ,吼+ 引理2 对上述引理中平衡混合效应方差分量模型,若口是封闭的,则协方差阵 ( 盯2 、,只有k + 1 个不同特征值,且其谱分解为( 盯2 ) 2 萎五m + a 毛, 这里特征值丑,五,五+ - 的定义同前,其重数分别为1 + ,i ,吃,唯+ 1 以上两引理证明详见王松桂 4 5 3 2p a n e ld a t a 双向分类混合效应模型的谱分解估计 在第二章中定义过单向分类和双向分类的混合效应线性模型,我们可以看到对 于双向分类模型比单向分类模型更为复杂,其参数估计方法更值得探讨。 本节的研究目的:针对双向分类的混合效应模型结构求其参数的谱分解估计。 那么类似的,其单向分类的模型研究方法可类似于本节过程,很多地方比双向分类 要简单,这里就不详细展开。 面板数据双向分类混合效应模型结构如前第二章( 2 3 4 ) 式所定义。 其实,我们容易看到这种模型实际上属于王松桂在 4 、【5 】平衡混合线性模型中 含两个随机效应,一个随机误差,即( 3 1 1 ) 中尼= 2 ,( 3 1 2 ) 中方差分量个数为 3 的情形。 根据上一节介绍的谱分解估计的思想,具体分如下几步进行参数估计: 第一步:计算协方差阵 则它的随机效应设计阵计算可得: u = 如0 1 r = 1 o 配= 厶 ( 3 2 1 ) 则: 同理可知, u u = ( 凡0 1 r ) ( l0 1 r ) 7 :如。矗 u p := j n 国i t u p = l n 圆i t 其中( 以) 。= 厶,以= 1 。1 。 这里我们选择按照王松桂给出的混合线性模型的方差分量的设计矩阵的排序 硕士学位论文 m a s t e r st h e s i s 规则进行计算的。限于篇幅,具体计算和代值过程没有详述。 这时我们可把向量少的协方差阵写为对应的已知设计矩阵和方差分量的乘积 形式: ( 仃2 ) 2 q 2 ( 凡。以) + 吒2 ( 厶 ) + 吒2 ( 如。) ( 3 2 2 ) 第二步:我们对设计阵u ,可构造一组正交投影阵 眠= 吃= 万= 石 m = 乞一气= 。石一万。石= ( 如一石) 石 m := ( ,一昂。) p 吃= 石o ( 一万) 心= ,一鸠一气2 ( 凡一石) 。( 一石) ( 3 2 3 ) 为了验证p a n e ld a t a 满足第一节中引理1 、2 的条件,进行如下计算: 记朋( 爿) 为由矩阵彳的列向量张成的子空间,n2 彳( 彳么) 一彳即为子空间 朋( 彳) 上的正交投影阵 显然氧m ? m j = o ( ;n j m j = m ij 丢m i 2 i m 即m 是对称幂等阵,彼此正交则 m 。,m - ,m z ,m , 是一个正交投影完全集 真龟 p u 、= in 圆j tp u z = jnq i tp u 3 = in 圆i t = i 啊 p u ,= j 啊 计算易知,气么= 2 气,兄。吃= 兄。,己:吃= 吃 此时,若记砬2 气,乞,吃,么j ,显见气玩,o f ,_ , 州 f - 1 以及在王松桂 4 9 1 0 中对平衡混合线性模型的谱分解估计性质的探讨中已有 很多结论,在此稍加证明就可得出。 4 3 本文小结 至此,本文不仅是在对p a n e ld a t a 模型结构有了更深的理解和认识基础上进 行了分类,给出了固定效应模型和随机效应模型更科学更准确的分类标准,即两 者的区别不是简单的看误差结构中分离出来的误差项是数值是固定的还是随机 的,而是看这部分误差项与解释变量之间的关系。固定效应与解释变量相关,随 机效应与解释变量不相关。 在此基础上,认识到外界对p a n e ld a t a 的研究中多集中于对这两种模型独立 的情况,而几乎很少有研究同时具有两种效应的更复杂的混合效应模型,于是本 文将两种效应结合到误差结构中,形成混合效应模型。这是在第二章进行的,本 文是分开两节分别对单向分类和双向分类两种情况进行构建的。 有了混合效应模型的一般结构,本文希望提出对这种模型结构比较完整科学 的估计。由于对这种模型的研究较少,本文在研究王松桂对混合线性模型的一系 列著作后,发现面板数据模型是混合线性模型的一种,并且其很多条件也是符合 谱分解估计方法的,所以本文在第三章着力将谱分解估计方法运用到面板数据模 型中,分别计算其三个方差分量以、西、谱分解估计和其他固定效应q 、仇以 及系数的估计。这里涉及到比较复杂的矩阵计算及变换,是本章的重点和难点。 最后,谱分解方法是具有很多优良性质的,比如对于n 和t 比较大的情形, 面板数据分析很容易出现异方差性,本文得出了谱分解有消除异方差性的作用。并 研究了谱分解估计方法和其它估计方法的比较及其某些优良性质。为本文研究意义 提供了更有力的支持。 2 1 硕士学位论文 m a s t e r st h e s i s 参考文献 1 童恒庆,经济回归模型及计算,1 9 9 7 2 周均扬,“贝叶斯动态线性模型介绍及常量模型分析”,中山大学硕士论文, 2 0 0 3 3 庄东辰,“茆诗松混合系数线性模型的参数估计 ,应用概率统计,1 9 9 2 年第十二卷第一期 4 王松桂,“线性混合效应模型参数的谱分解估计 ,应用概率统计,2 0 0 6 年第二十二卷第三期 5 王松桂,尹素菊,“线性混合模型参数的一种新估计 2 0 0 2 年中国科学a 辑3 2 ( 5 ) ,4 3 4 4 4 3 6 王松桂,史建红,尹素菊,吴密霞,线性模型引论,科学出版社北京2 0 0 4 7 王松桂,陈希孺,线性模型中的最小二乘法,上海科学出版社2 0 0 3 8 高惠璇,s a s 系统s a s e t s 软件使用手册,中国统计出版社,5 4 卜5 4 5 , 1 9 9 8 9 吴密霞,王松桂,“线性混合模型协方差阵的谱分解的一种新方法及其应 用”,3 5 ( 8 ) ,中国科学a 辑,9 4 7 9 6 0 ,2 0 0 5 1 0 史建红,王松桂,“平衡线性混合模型方差分量几种估计的优良性 ,数 学年刊, 8 1 7 8 2 4 ,2 0 0 5 1 1 王松桂
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025标准个人承包合同范本
- 2025仓储合同示范文本
- 2025年吉林省水果购买合同
- 锅炉技师考试题库及答案
- 时空安全策略-洞察与解读
- 2025年高中物理竞赛评价性试题专项训练(三)
- 2025年职业技能鉴定考试(电气值班员高级、三级)历年参考题库含答案详解
- 2025年高中物理竞赛历年真题分类精讲(四)
- 学法考法考试题库及答案
- 2025年仓库管理员年终总结个人
- 教学宝猴王出世课件
- 新版2025年GCP临床试验伦理规范考试题及答案
- 2025年贵州综合评标专家库评标专家考试经典试题及答案一
- 2025至2030年中国金属镁行业发展监测及投资前景展望报告
- “苏超”现象:文化破圈、城市崛起与青年力量的融合交响-2026年高考语文作文热点话题素材积累与实战训练
- 小儿高热惊厥的教学课件
- 知道智慧树创新创业教育与工程设计实践满分测试答案
- 广州医科大学《英语阅读(一)》2023-2024学年第一学期期末试卷
- 漳州里民宿管理暂行办法
- 汾酒顶账协议书范本
- 容量规划优化-洞察及研究
评论
0/150
提交评论