




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章 模型变换的检验与诊断7.1 引 言经济计量模型的构建,是在不断的探索、修正与完善过程中完成的。从一定先验信息出发,我们建立了初始的经验模型,但这些模型往往并不能正确地反映经济运行的实际过程。为了一致地满足经济学家、统计学家和数学家的实际需要和客观要求,我们要对所建经验模型作进一步的修正。修正的方法很多,其中,较为常用的是变换法,即对模型重新进行参数化,使模型参数估计、统计推断和假设检验更适合它们所应满足的前提条件,从而改进经验模型。 “Box-Cox幂变换簇”是一种典型的模型变换范例,它通过引入一个新的参数,并由样本数据集本身对变换参数进行自适应估计,从而能有效地改善经验模型的拟合与预测。1964年,Box,G.E.P.和Cox,D.R.提出的“Box-Cox幂变换簇”具有如下形式: (7.1.1) 这里,假定y为正值无界变量。 对于取负值或有界的变量,可采用下述推广的BoxCox幂变换簇: (7.1.2) 此变换适合于变量y可取负值的无界变量情形,并称为漂移参数,满足:。当y在 a,b 内取值时,可使用如下折叠的幂变换簇: (7.1.3)此外,对于对称长尾分布数据来讲,John,J.A.和Draper,N.R.(1980)建议使用如下模变换簇: (7.1.4) 除了对响应变量可作上述变换外,还可对解释变量作以上变换。当然,还可对响应变量与解释变量同时作变换。后者称之为“双边BoxCox变换”。不论采用何种变换,我们的出发点总是使变换后的模型更能适合经济过程本身,以及更能适合作估计、推断、检验和预测的前提。 显然,模型变换的关键是对变换参数依据样本观测作出恰如其分的估计。由于变换参数的估计值强烈地依赖于样本数据,并且由样本数据自动调节,因而这种变换的优点在于:针对不同的经济过程采用不同的变换,从而具有自适应性(adptive)。但同时也存在着严重的、有待深入研究的问题:样本数据的质量和属性强烈地影响着变换参数的估计。一般来说,不同样本点对的影响程度千差万别,其影响机理也不尽相同。因此,如何有效地估计变换参数,以及如何精细地刻画数据对的影响,成为模型变换研究中两个亟待解决的、富有实际意义的问题。变换参数的估计通常采用两种方法:Atkinson估计法和最大似然估计法。它们是在1982年分别由Atkinson,A.C.和Cook,R.DWeisberg,S.提出的。一般来说,同一个模型变换问题可使用上述两种方法对变换参数进行估计,所得结果基本相同。但也有例外情况发生:使用Atkinson方法和使用最大似然法所得两个估计值差异很大。最著名的例证是美国22种喷气式战斗机机型数据,它出现于诊断理论的开创性经典著作Cook,R.D.&Weisberg ,S.(1982)中。在该例中,变换参数的Atkinson估计为= - 0.54, 而相应的最大似然估计为= -0.024。出现这种显著差异的根本原因在于数据集中包含有极端异常值点。事实上,将F-111A这种机型的数据删除后,在Atkinson方法下接受了原假设H0:=1,置信水平为=0.05,而相应的最大似然估计= 0.973,它十分接近1。因而,在F-111A单点删除后两种方法所得结论相同,即不需要对响应变量作变换。这从一个侧面反映了这样一个重要事实:样本信息差异对不同估计方法,以及对不同检验方法的影响是不同的。另一个值得关注的问题是:样本信息差异对同一估计方法的影响机理。本章给出的中国消费数据,正好提供了模型变换参数检验诊断的具体范例,诊断出了Box-Cox幂变换簇下变换参数的Atkinson估计检验强影响点群。7.2 变换参数的Atkinson估计及检验法 对于数据集(xTi,Yi),i=1,2,n,记响应变量Y=(yi)的数据变换为Y(), Y()=(yi(),yi()= h(yi,),i = 1 , 2 , ,n。我们讨论h(yi,)取Box-Cox变换(7.1.1)的情形。一般设定,经过幂变换后,Y()形成线性模型,且满足正态性条件: (7.2.1)将Y()作标准化,记标准化数据变换模型为: (7.2.2)其中,而可表示为: (7.2.3)这里,G(Y)为各分量的几何平均值:Atkinson方法的基本思想是,将Z()在初值(常取,即对数据不作变换)处进行Taylor一阶展开,从而化为一个常规线性模型: (7.2.4)其中,称为构造变量(constructed variable),。不难证明,由(7.2.4)给出的变换参数的最小二乘估计为: (7.2.5)此外,获得变换参数的估计后,在实际建模时是否真正作变换的问题,可通过作假设检验 来确定。对应的检验统计量为: (7.2.6)其中,(7.2.7)可以证明:在假定下,由此不难对原假设做出判决与推断。7.3 模型变换的检验与诊断算例按照经典的凯恩斯理论,消费量是由收入所决定的。为了研究中国的消费模型,我们采集了19521992年共41年的数据,将国民收入中消费额对国民收入总额作回归分析,建立了一个简单的消费模型。当然,影响消费的经济变量不只是单个收入变量。样本期也尽量地长,尤其是应取到现在为止。这里所建模型只是为了说明我们所论及的模型变换检验的诊断问题而已,它能恰如其分地提供该问题的典型案例。表7.3.1 国民收入总额与消费额 (单位:亿元)年份国民收入总额(X)消费额(Y)年份国民收入总额(X)消费额(Y)195258947719732318151119537095591974234815501954748570197525031621195578862219762427167619568826711977264417411957908702197830101888195811187381979335021951959122271619803688253119601220763198139412799196199681819824258305419629248491983473633581963100086419845652390519641166921198570204879196513879821986785955521966158610651987931363861967148711241988117388038196814151111198913176900519691617118019901438496631970192612581991165571096919712077132419921964012945197221361404资料来源:中国统计摘要(1993),中国统计出版社。利用最小二乘理论,得如下回归方程: (7.3.1)对应的复相关系数平方为,修正复相关系数平方为。对回归方程(7.3.1)分别作显著性检验: (i)回归系数的显著性检验式中,为参数b的标准误差,而Sy为回归标准误差。对给定水平=0.01,查自由度df = n-2 = 41-2 = 39的t-分布表,得临界值 = 2.7079。显然有:,说明国民收入总额对消费额有极显著的影响。(ii)回归方程的显著性检验 对给定水平=0.01,查n1 = 1,n2 = 39的F-分布表知,临界值满足:F0.01(1,39)F0.01(1,30) = 7.56 F(1,39) = 30986.67表明用模型(7.3.1)对消费额作预测,有较高的可靠性。(iii) D.W检验对给定水平= 0.01,查D.W临界值表,得:故时,有:,从而回归余项存在正序列相关,序列相关系数, D.W检验未予通过。这表明:模型(7.3.1)的残差序列中存在可利用的共同信息,现在的模型还不能用于实际的预测,模型有待于作进一步的改善。为研究上述回归模型是否受到异常值影响,下面我们对模型(7.3.1)作异常值诊断。表7.3.2列出了有关的诊断统计量值。它有助于探测各类异常值点,为进一步分析模型、改善模型奠定基础。表7.3.2 中国消费数据模型下部分诊断统计量值年份iit2ihii1952465.7911.2150.10500.01070.03801953545.7913.2050.12360.01490.03701954571.80-1.798-0.01650.00030.03671955598.4723.5330.21990.04720.03641956661.149.8590.09230.00830.03581957678.4823.5240.21980.04710.03561958818.49-80.492-0.74980.55580.03411959887.83-171.833-0.60062.67170.03351960886.50-123.500-1.15031.33450.03351961737.1580.8500.75430.56260.03501962689.14159.8561.49142.29830.03551963739.82124.1831.15841.35410.03491964850.5070.5040.65750.42590.03381965997.85-15.846-0.14700.02110.032419661130.53-65.528-0.60930.36520.031319671064.5259.4800.55430.20500.031819681016.5194.4850.88040.77050.032319691151.2028.8030.26870.07050.031119701357.22-99.220-0.92190.84660.029519711457.90-133.898-1.24391.56990.028919721497.24-93.236-0.86570.74450.028619731618.58-107.583-0.99860.99710.027819741638.59-88.586-0.82200.67000.027719751741.93-120.931-0.44290.19210.024419761691.26-15.258-0.14080.01930.027419771835.94-94.941-0.88050.77070.026619782079.97-191.969-1.78033.36140.025619792306.66-111.662-0.35670.12440.025019802532.02-1.021-0.00800.00010.024519812700.7198.2940.91320.83030.024419822912.06141.9361.31801.77150.024419833230.77127.2331.18221.41240.024919843841.5063.4971.27071.64120.027219854753.61125.3940.68120.45760.034319865313.00238.9972.27575.81870.040619876282.45103.5530.97980.95900.055519887899.30138.7021.33771.82740.090819898858.07146.9271.45812.19100.118019909663.50-.499-0.00110.00000.1444199111112.33-143.330-0.71250.50120.2003199213167.90-222.897-2.42736.76230.2977 利用Ferguson-Srikantan(1961)方法,在误差eN(0,2In)下,统计量F(i)=t2iF(1,n-p-2)。现n=41,p=1,对于给定水平=0.05,查n1=1,n2=38的F-分布表,有:F0.05(1,38)= 4.10,从而由表7.3.2知,1986年和1992年对应的F(i)大于F0.0 5(1,38),而其它均小于此临界值,故判定这两年的数据为异常值点。此外,从表7.3.2中还发现:1959年、1962年、1978年和1989年对应的F(i)均大于2,明显地高于1986和1992年以外其它年度相应的F(i),故应判为可疑异常值点。 现在我们来考查该数据集是否包含有高杠杆点。从比较法来看,在该模型下,n=41, p=1,因而临界值2(p+1)/n = 0.0976,再由表7.3.2知,19891992年的连续四个数据应判定为高杠杆点。若采用检验法,则在给定水平=0.05下,应判定19901992年的连续三个数据为高杠杆点;在给定水平=0.01下,应判定1991和1992两年的数据为高杠杆点。 由此可见,我们所求得的拟合直线(7.3.1)确实存在偏离正常位置的趋势。从经济意义上讲,我国的消费结构在19521988年与19891992年间可能存在显著差异。这提示我们作这一模型分析时,应该考虑结构变动的影响。另一方面,高杠杆点的判定也为结构变动点的识别提供了一种可供选择的方法。现在,我们来讨论中国消费数据模型下的影响度量,诊断是否包含估计的强影响点或点群。表7.3.3列出了中国消费模型19521992年样本期内有关的影响度量统计量。表7.3.3 中国消费数据模型下部分影响诊断统计量值年份19520.00020.02060.96170.000419530.00030.02390.96260.000619540.0000-0.00340.96330.000019550.00090.04220.96240.001919560.00020.01750.96400.000419570.00090.04170.96320.001919580.0099-0.14010.95200.018919590.0063-0.30430.95760.013219600.0023-0.21510.93370.004819610.01030.14280.95090.021719620.04090.29080.90950.085919630.02430.22130.93190.051119640.00760.12210.95550.016019650.0004-0.02660.96710.000819660.0060-0.10860.95950.012619670.00500.08210.96060.010519680.01290.16040.94850.027119690.00120.04760.96710.002519700.0129-0.16040.94940.027119710.0230-0.21610.93260.048319720.0110-0.14810.95270.023119730.0143-0.16890.94730.030119740.0096-0.13820.95550.020219750.0025-0.00480.97070.005319760.0003-0.02330.97210.000619770.0106-0.14510.95400.022319780.0416-0.29720.89520.087419790.0016-0.05650.97180.003419800.0000-0.00180.97550.000019810.01040.14410.95470.021919820.02170.21050.93210.045619830.01780.18990.94020.037419840.02260.21420.93250.047519850.00820.12750.95420.017219860.10960.49620.83200.229819870.02820.23740.92130.059219880.08940.42720.86750.187519890.14220.54140.83390.297919900.0000-0.00040.85560.000019910.0636-0.35430.78930.133519921.2487-1.69310.59622.5448 从表7.3.3可以看出,若以Cook距离、W-K统计量和似然距离作为度量标准,应判定1986年、1989年和1992年所对应样本点为强影响点,构成估计的强影响点群。亦即,这三年所对应的收入和消费数据与其它年份所对应的收入和消费数据有明显的差异,应特别对这三年的消费结构加以分析。此外,1988年所对应的Di值、WKi值及LDi值也很大,应判为可疑强影响点。 若以AP统计量作为度量标准,应判定1986年、1989年、1991年和1992年所对应样本点为强影响点,构成估计的强影响点群。值得注意的是,1991年对应的数据在Cook距离、W-K统计量及似然距离下并未表现出明显的异常,但在AP统计量下的影响度量仅次于1992年的数据而位居第二。由此进一步证明了这样一个事实:不同的点对不同的研究对象的影响不尽相同,而即使是相同的点对不同的研究对象的影响也不尽相同,影响度量与诊断统计量的性能有关。现在,我们转向对此组数据进行变换的诊断讨论。数据变换的关键是利用Atkinson方法或最大似然估计法求出变换参数的估计值,从而确定是否应作变换,以及应该作何种形式的变换。我们应该注意,不论是采用何种方法对变换参数作估计,它们必然要受到样本数据的影响。已经证实:个别样本点确实可以支配数据变换的形式,以及作数据变换的效果。这种点不完全是前述几种特殊样本点,我们称它们为“变换强影响点”。我们的任务是如何识别和诊断出这些变换强影响点?以及如何度量这些点对变换的影响?此外,还应努力探讨它们与强影响点、高杠杆点、异常值点等之间的关系。 从二十世纪80年代初开始,数据变换的诊断问题一直是人们关注的热点课题,并相继发展了种类繁多的诊断方法。较为直观且便于应用的是Atkinson,A.C.于19811985年间陆续发展的图示诊断法,尤其是将附加变量残差图、修正的Cook距离和半正态图引入变换诊断的研究,其应用效果十分显著,往往可将数据集中隐藏的潜在数据变换强影响点诊断出来。不过,半正态图仅适用于均值为零的正态样本,这使它的应用受到一定程度的限制。为提高诊断的精确度,统计学家从不同的角度提出了诊断方法。例如,1982年,AtkinsonA.C.基于近似的数据变换模型,导出了变换参数假设检验的Score诊断统计量;1983年,Cook,R.D.& Wang,P.C.给出了变换问题的似然距离诊断法,并从样本子集出发研究了对变换参数的影响度量;1985年,Sweeting,T.J.则从Bayes角度发展了相应的Bayes诊断法;1988年,Manuel del RIO 建议了一种Cook距离诊断法,并开创性地将变换参数视为子集参数;Lawrance A.J.建立了数据变换诊断的局部分析法;Tibshirani,R.倡导了一种非参数诊断法。此外,我国学者韦博成、史建清等还从统计曲率的角度研究了变换的诊断问题;作者则从复共线性角度考虑了它对数据变换及其诊断的影响。从上述概述不难显示:数据变换诊断是一个十分活跃的前沿性研究领域。它的研究结果的不断涌现必将带动统计和经济建模的深入发展。我们在建立经济计量模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司员工岗前培训
- 浩方优化方案汇报总结
- 依法治校工作总结
- 云南师范大实验中学2026届化学九上期中综合测试模拟试题含解析
- 2025-2026学年统编版(2024)小学语文二年级上册第二单元测试题及参考答案
- 株洲市重点中学2026届九上化学期中监测试题含解析
- 2026届山东省枣庄台儿庄区四校联考化学九年级第一学期期中综合测试模拟试题含解析
- 金融工程模拟试题及答案
- 2026届云南省曲靖罗平县联考化学九上期末检测试题含解析
- 2026届广东省北亭实验学校九年级化学第一学期期中检测试题含解析
- 教科版小学科学六年级上册《1.7微生物与健康》课件
- (正式版)JBT 106-2024 阀门的标志和涂装
- 便利店委托运营协议
- 汉语言文学专业就业方向及就业前景调研报告
- 招商加盟营销方案
- 朝天椒栽培技术课件
- 科研伦理与学术规范-课后作业答案
- 红军长征感人红色故事3-10分钟10篇
- 秋天的雨 省赛获奖
- 集团公司石油工程专业化整合重组总体方案
- JJF 1015-2014计量器具型式评价通用规范
评论
0/150
提交评论