第五讲统计检验(2)与预测

上传人：1*** IP属地：湖北上传时间：2021-11-04 格式：PPT 页数：48 大小：666.50KB 积分：28 举报 版权申诉

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、一、参数的区间估计二、拟合优度检验三、变量的显著性检验一、拟合优度检验一、拟合优度检验三、参数的置信区间估计三、参数的置信区间估计二、变量的显著性检验二、变量的显著性检验 1111P 1112tt nse:给定显著性水平给定显著性水平 112211Pttse11整理可以得到整理可以得到的置信度下的置信度下的置信区间是的置信区间是111122,t St S22222221()()tSEEPtS 由于置信区间一定程度地给出了样本参数估计由于置信区间一定程度地给出了样本参数估计值与总体参数真值的值与总体参数真值的“接近接近”程度，因此置信区间程度，因此置信区间越小越好。越小越好。要缩小置信区

2、间，需（1 1）增大样本容量）增大样本容量n n，因为在同样的置信水平下，n越大，t分布表中的临界值越小（2 2）提高模型的拟合优度）提高模型的拟合优度，因为样本参数估计量的标准差与残差平方和呈正比，模型拟合优度越高，残差平方和应越小。111122,t St S 从拟合优度中看出，拟合优度越高，就说明样本回归线对观测值的拟合就越好，但这只是推测，被被解释变量与解释变量之间的线性关系是否显著，或解释变量与解释变量之间的线性关系是否显著，或者解释变量对被解释变量是否有显著的线性影响，者解释变量对被解释变量是否有显著的线性影响，需要我们去研究，这就是变量的显著性检验。回归分析中，主要是回归分析

3、中，主要是针对变量针对变量X前的参前的参数真值是否为零来检验。数真值是否为零来检验。先根据实际问题的要求提出一个论断，称为原假设，然后根据样本信息，看能得到什么结果，如果导致一个不合理的结果，拒绝原假设。判断结果合理与否，是基于判断结果合理与否，是基于“小概小概率事件不易发生率事件不易发生”这一原理的。这一原理的。注意这里的注意这里的“接受和拒绝接受和拒绝”6 6统计量统计量 t计算的统计量为计算的统计量为:相对于显著性水平相对于显著性水平的临界值为的临界值为: （单侧）（单侧）或或（双侧）（双侧）t2t2t2t*t*t基本概念回顾基本概念回顾: : 临界值与概率、大概率事件与小概率事

4、件临界值与概率、大概率事件与小概率事件0（大概率事件）（大概率事件）（小概率事件）（小概率事件）1确立假设：确立假设：原假设为原假设为备择假设为备择假设为 (本质本质：检验检验是否为是否为0，即检验，即检验是否对是否对Y有显著影响有显著影响)20:10H0:11H1iX当当未知，且样本容量较小时未知，且样本容量较小时只能用只能用去代替去代替，可利用，可利用 t分布作分布作 t 检验：检验： *22222 (2)()()tt nSESE22给定给定 , 查查 t 分布表得分布表得如果如果则拒绝原假设则拒绝原假设如果如果则不拒绝原假设则不拒绝原假设*22222 (2)()()tt

5、nSESE)2(2*ntt)2(2*ntt0:20H0:20H)2(2nt 检验步骤：检验步骤：（1）对）对总体参数总体参数提出假设提出假设 H0： 1=0， H1： 1 0（2）以原假设）以原假设H0构造构造t统计量，并由统计量，并由样本计算样本计算其值其值11*0St（3）给定显著性水平）给定显著性水平，查，查t分布表，得临界值分布表，得临界值t /2(n-2)(4) 比较，判断比较，判断一个一个“大大”的的是与原假设相抵触的迹象。是与原假设相抵触的迹象。t观察观察t分布表，当自由度为分布表，当自由度为20或更大时，计算的或更大时，计算的t值值如果是如果是2.5或或3或更大，则我们就

6、不需要再查阅或更大，则我们就不需要再查阅t分分布表以评定所估的参数的显著性，它必定是要拒布表以评定所估的参数的显著性，它必定是要拒绝原假设，即该变量通过了显著性检验。绝原假设，即该变量通过了显著性检验。当自由度小于当自由度小于20时，我们要查阅时，我们要查阅t分布表。分布表。注意注意1：注意注意2：显著性水平显著性水平犯第一类错误的概率犯第一类错误的概率拒绝了真值的假设的概率拒绝了真值的假设的概率经典假设检验方法的痛处经典假设检验方法的痛处选择选择的武断的武断用用 P P 值判断参数的显著性值判断参数的显著性假设检验的假设检验的 p p 值值：p p 值是基于既定的样本数据所计算

7、的统计量，拒绝值是基于既定的样本数据所计算的统计量，拒绝原假设的最低显著性水平。原假设的最低显著性水平。统计分析软件中通常都给出了检验的统计分析软件中通常都给出了检验的 p p 值值 P统计量 t计算的统计量:相对于显著性水平的临界值: 或t2t2t2t*t*t*t注意：注意：t检验是比较检验是比较和和P值检验是比较值检验是比较和和 p*t2t 与相对应与 P 相对应*t2t12用用 P 值判断参数显著性的方法值判断参数显著性的方法方法方法：将给定的显著性水平将给定的显著性水平与与 p 值比较：值比较：若若值，必有值，必有，则在显著性水平，则在显著性水平下拒绝原假设下拒绝原假

8、设，即认为，即认为对对 Y 有显著影响有显著影响若若值，必有值，必有，则在显著性水平，则在显著性水平下不拒绝原假设下不拒绝原假设，即认为，即认为对对 Y 没有显著没有显著影响影响规则规则：当当时，时，P值越小，越能拒绝原假设值越小，越能拒绝原假设0:0kH0:0kH0Hppp*2tt*2tt 对于一元线性回归方程中的0，可构造如下t统计量进行显著性检验： )2(0022200ntSxnXtii在上述收入-消费支出例中，首先计算2的估计值 27342107425000670. 03354955222221222nxyneiii019. 00004. 07425000/273422

9、1ixS45.44742500010/5365000027342220iixnXSt统计量的计算结果分别为：给定显著性水平=0.05，查t分布表n=10得临界值 t 0.05/2(8)=2.306|t0|2.306,表明在表明在5%5%的显著性水平下，拒绝原假设的显著性水平下，拒绝原假设|t1|2.306，表明在表明在5%5%的显著性水平下，拒绝原假设，的显著性水平下，拒绝原假设，说明家庭可支配收入在家庭可支配收入在5%5%的显著性水平下，对消费支出有的显著性水平下，对消费支出有显著的线性影响。显著的线性影响。92.34019. 0670. 0111St20. 345.4440.142000

10、StH0： 1=0H0： 0=02103.1720.77798.410.04251.04818.290.9766828591.85iiYXtRdfFDW 回归分析结果的报告回归分析结果的报告经过模型的估计、检验，得到一系列重要的数经过模型的估计、检验，得到一系列重要的数据，为了简明、清晰、规范的表述这些数据，计量据，为了简明、清晰、规范的表述这些数据，计量经济学通常采用以下规范化的方式：经济学通常采用以下规范化的方式：标准误差标准误差SE估计的估计的t统计量统计量可决系数和自由度可决系数和自由度F统计量统计量 DW统计量统计量估计的样本回归函数估计的样本回归函数模型设定的关系式不变模型设定的

11、关系式不变所估计的参数不变所估计的参数不变解释变量在预测期的取值已作出预测解释变量在预测期的取值已作出预测PRFSRFFX点预测值点预测值真实平均值真实平均值FFE YX个别值个别值FYFFeFY是真实平均值预测值的点估计，也是个别值预测是真实平均值预测值的点估计，也是个别值预测值的点估计。值的点估计。u必须找出与必须找出与和和都有关的统计量都有关的统计量FYFFE YXu由于存在抽样波动，预测的由于存在抽样波动，预测的值不一定等于真实总值不一定等于真实总体条件均值体条件均值。FFE YXFY基本思想：基本思想：010101()()()()FFFFE YEXEX EX01FFYX222

12、1FFiXXVar Ynx具体做法：从具体做法：从的分布分析的分布分析FY)(1(,(2202F10FixXXnXNYFE Y012221FFFiYXtt nXXnx给定显著性水平给定显著性水平，查，查 t 分布表，得自由度分布表，得自由度n2的临界值，则有的临界值，则有22()1Pttt 22()()()1FFFFFFp YtSE YE YXYtSE Y 1)()(22tYSEXYEYttPFFFF222222()1,()1FFiFFiXXYtnXXYtnxx于是，在1-的置信度下，总体均值总体均值的置信区间为的置信区间为 FFXYE个别预测值的置信区间个别预测值的置信区间基本思想：基本

13、思想：由于存在随机扰动项的影响，由于存在随机扰动项的影响，Y的条件均值并不等于的条件均值并不等于Y的个别值。的个别值。是真实平均值的点预测值，也是个别值的点预测值。是真实平均值的点预测值，也是个别值的点预测值。FY为了对为了对Y的个别值的个别值做区间预测，需要寻找与预测值做区间预测，需要寻找与预测值和个别值和个别值有关的统计量，并要明确其概率分布。有关的统计量，并要明确其概率分布。FYFYFY 已知剩余项已知剩余项是与预测值是与预测值及个别值及个别值都有关的变量，并且已知都有关的变量，并且已知服从正态分布，且可证服从正态分布，且可证明明当用当用代替代替时，对时，对标准化的

14、变量标准化的变量 t 为为 23FFFeYYFYFe0)(FeE2Fe22() (2)()1( 1FFFFFFieE eYYtt nXXSE enx）2222()1()()1FFFFiXXVar eE YYnx)2(22neiFY（较复杂不具体证明）（较复杂不具体证明）具体作法：具体作法：构建个别值的预测区间构建个别值的预测区间给定显著性水平给定显著性水平，查，查 t t 分布表得自由度为分布表得自由度为n2n2的临界值的临界值，则有，则有因此，一元回归时因此，一元回归时Y Y的个别值的置信度为的个别值的置信度为的预测区间的预测区间上下限为上下限为 )2(2nt22()()1FFFF

15、FP YtSE eYYtSE e 222()1 1FFFiXXYYtnx125 被解释变量被解释变量Y Y区间预测的特点区间预测的特点（1）Y平均值的预测值平均值的预测值与真实平均值有误差，主要与真实平均值有误差，主要是受是受抽样波动影响抽样波动影响预测区间预测区间 Y个别值的预测值个别值的预测值与真实个别值的差异与真实个别值的差异,不仅受不仅受抽抽样波动影响样波动影响，而且还受，而且还受随机扰动项的影响随机扰动项的影响预测区间预测区间222()11FFFiXXYYtnx222()1FFFiXXYYtnx26（2）平均值和个别值预测区间都不是常数，）平均值和个别值预测区间都不是常数，是

16、随是随的变化而变化的，当的变化而变化的，当时，预测区间最小。时，预测区间最小。（3）预测区间上下限与样本容量有关，当样本容量）预测区间上下限与样本容量有关，当样本容量n时时,个别值的预测区间只决定于随机扰个别值的预测区间只决定于随机扰动的方差。动的方差。FX222()11FFFiXXYYtnx预测区间预测区间FXX1000E Y X 若对于前面的例子，我们得到了总体均值若对于前面的例子，我们得到了总体均值的的95%的置信区间为的置信区间为533.05,814.62 给定给定01000X 在重复抽样中，每在重复抽样中，每100个类似于个类似于(533.05，814.62) 的区间将有的区间

17、将有95个包含着真实的均值。个包含着真实的均值。如何解释？如何解释？如果我们对每一个X值求类似于(533.05，814.62) 的95%的置信区间，把这些区间的端点连接起来，我们就得到如图所展示的一个关于总体回归函数的置信带。如果我们对每一个X值求类似于（372.03，975.65）的95%的置信区间，把这些区间的端点连接起来，我们就得到如图所展示的一个关于Y的个别值的置信带。1000X 同样我们也可得到同样我们也可得到Y的个别值在的个别值在的的95%的置信区间为的置信区间为（372.03，975.65） Y的条件均值的置信带（域）置信带（域）（confidence band） Y个别值的置

18、信带（域）置信带（域） (1)n越大，预测精度越高（越大，预测精度越高（2）样本容量）样本容量n一定时，置信带的一定时，置信带的宽度当在宽度当在X均值处最小，其附近进行预测（插值预测）精度均值处最小，其附近进行预测（插值预测）精度越大；越大；X越远离其均值，置信带越宽，预测可信度下降。越远离其均值，置信带越宽，预测可信度下降。iiXY670. 04 .142一、中国城镇居民人均消费支出一、中国城镇居民人均消费支出模型：模型：截面数据截面数据二、中国居民总量消费函数：二、中国居民总量消费函数：时时间序列数据间序列数据一、中国城镇居民人均消费支出模型：截面数据一、中国城镇居民人均消费支出模型：截面

19、数据为考察中国城镇居民为考察中国城镇居民2006年人均可支配收入与消费支出的年人均可支配收入与消费支出的关系，表关系，表2.6.1给出了中国内地给出了中国内地31个省区以当年价测算的城镇居个省区以当年价测算的城镇居民家庭年人均收入民家庭年人均收入X与年人均支出与年人均支出Y两组数据。两组数据。提出问题：提出问题：人民生活水平不断提高，居民的消人民生活水平不断提高，居民的消费水平也在不断增长。研究中国费水平也在不断增长。研究中国城镇居民人城镇居民人均消费支出均消费支出，对于探寻居民消费增长的规律，对于探寻居民消费增长的规律性，预测居民消费的发展趋势有重要意义。性，预测居民消费的发展趋势有重要意

20、义。理论分析：理论分析：影响居民人均消费水平的因素有多影响居民人均消费水平的因素有多种，但从理论和经验分析，最主要的影响因种，但从理论和经验分析，最主要的影响因素应是收入水平。从理论上说收入越高，居素应是收入水平。从理论上说收入越高，居民消费越多。民消费越多。变量选择：变量选择：被解释变量选择能代表城镇居民人被解释变量选择能代表城镇居民人均消费支出水平的均消费支出水平的“全国各地区城镇居民人全国各地区城镇居民人均年全年消费性支出均年全年消费性支出”(元元/人人)；解释变量选择表现收入水平的解释变量选择表现收入水平的“各地区城镇居各地区城镇居民人均全年可支配收入（元民人均全年可支配收入（元/人）

21、人）研究范围：研究范围：2006年中国各地区城镇居民家庭人年中国各地区城镇居民家庭人均全年的可支配收入与人均全年消费性支出均全年的可支配收入与人均全年消费性支出的截面数据。的截面数据。为分析居民人均消费水平为分析居民人均消费水平(Y)和人均和人均GDP (X)的关系，的关系，作散点图：作散点图：从散点图可以看出从散点图可以看出居民消费居民消费 (Y)和可支和可支配配 (X)大体呈现为线大体呈现为线性关系。性关系。可以建立如下简单可以建立如下简单线性回归模型：线性回归模型：XY10模型设定模型设定:估计参数估计参数假定模型中随机扰动满足基本假定，可用假定模型中随机扰动满足基本假定，可用OLS

22、法。法。具体操作：使用具体操作：使用EViews 软件，估计结果是：软件，估计结果是：用规范的形式将参数估计和检验的结果写为：用规范的形式将参数估计和检验的结果写为：2281.500.71461.0531.390.9714985.66.1.46iiYXRFDW2、拟合优度检验：、拟合优度检验：R2=0.9714 模型整体上拟合的好模型整体上拟合的好3、变量的显著性检验、变量的显著性检验T值值：给定显著性水平：给定显著性水平查自由度为查自由度为n-2=31-2=29的的t分布表，得分布表，得临界值临界值: t0.05/2(29)=2.05模型检验模型检验05. 0因为因为:05. 22905.

23、 1025. 00tt不能拒绝不能拒绝:0:00H05. 22940.31025. 01tt应拒绝应拒绝:0:10H1、经济意义检验：、经济意义检验：斜率项：斜率项：00.71461，符合绝对收，符合绝对收入假说入假说3、P值检验：值检验：对截距：对截距：3039. 005. 0p对斜率：对斜率：0000. 005. 0p已知已知YF=281.50 + 0.714620000 = 14572.6（元）模型预测模型预测点预测：点预测：假设我们关注假设我们关注2006年人均可支配收入在年人均可支配收入在20000元这一档的中国城镇家庭的人均消费支出问题，元这一档的中国城镇家庭的人均消费支出问题

24、，则可得到该类家庭人均消费支出的预测值：则可得到该类家庭人均消费支出的预测值：区间预测：区间预测：平均值预测区间的上下限：平均值预测区间的上下限：222()1FFFiXXYYtnx3169.410045. 2296 .14572025. 0ntYF对X的描述统计结果131478.3294166.113632222nXXxXXii当20000FX131478.329469.11363200003116928.410045. 26 .1457222即是说，当人均可支配收入为即是说，当人均可支配收入为20000元时，人均全年消费性支元时，人均全年消费性支出的出的平均值平均值的置信度为的置信度为95%

25、的预测区间为（的预测区间为（14143.3,15001.9）个别值区间预测个别值区间预测222()11FFFiXXYYtnx当20000FX131478.329469.113632000031116928.410045. 26 .1457222即是说，当人均可支配收入为即是说，当人均可支配收入为20000元时，人均全年消费性支出元时，人均全年消费性支出的的个别值个别值的置信度为的置信度为95%的预测区间为的预测区间为（13629.6, 15515.8） GDP：中国名义支出法国内生产总值：中国名义支出法国内生产总值CONS：名义居民总消费：名义居民总消费TAX：宏观税赋的税收总额；：宏观税赋的

26、税收总额；CPI：居民消费价格指数，表示价格变化；：居民消费价格指数，表示价格变化；实际支出法实际支出法GDPC=GDP/CPI居民实际消费总支出居民实际消费总支出Y=CONS/CPI实际可支配收入实际可支配收入X=（GDP-TAX）/CPI二、中国居民总量消费函数：时间序列数据二、中国居民总量消费函数：时间序列数据 1、模型设定、模型设定拟建立如下一元回归模型采用Eviews软件软件进行回归分析的结果见下表 12tttYXu一般可写出如下回归分析结果：一般可写出如下回归分析结果： 22091.30.43756.2447.060.9882214.5960.277YXRFDW2、估计参数、估

27、计参数3、模型检验模型检验 R2=0.988T值：C：13.51， GDPP：53.47 临界值: t0.05/2(27)=2.05斜率项：00.4381，符合绝对收入假说4、预测、预测 2007年中国GDP为263242.5亿元，税收总额45621.9亿元，居民消费价格指数为409.1，由此计算1990年价计算的可支配总收入X为95407.4亿元。点预测：Y2007=2091.3 + 0.437595407.4 = 43834.6（亿元） 2007 2007年中国名义居民消费总量为年中国名义居民消费总量为93317.293317.2亿元，以亿元，以19901990年年为基准的居民消费价格指

28、数为为基准的居民消费价格指数为228.1228.1，由此可推得当年中国实，由此可推得当年中国实际居民消费总量为际居民消费总量为40910.740910.7亿元，亿元，相对误差相对误差: 7.14%: 7.14%。样本期内X的样本均值样本均值与样本方差样本方差： E(X)=29174.1 Var(GDPP)=463039370 在95%的置信度下，E(Y2007)的预测区间的预测区间为： =43834.61326.3或：（42508.3,45160.9）同样地，在95%的置信度下，Y2007的预测区间的预测区间为： =43834.62545.1或（41289.5, 46379.7） 2

29、9 5 4 0 7 .42 9 1 7 4 .13 0 2 5 9 0 1 414 3 8 3 4 .62 .0 5 12 922 92 914 6 3 0 3 9 3 7 029 5 4 0 7 .42 9 1 7 4 .13 0 2 5 9 0 1 414 3 8 3 4 .62 .0 5 12 922 92 914 6 3 0 3 9 3 7 01、变量间的关系变量间的关系分为函数关系与相关关系。分为函数关系与相关关系。相关系数是对变量间线性相关程度的度量。相关系数是对变量间线性相关程度的度量。2、现代意义的回归是一个被解释变量对若干个解释、现代意义的回归是一个被解释变量对若干个解释变量依存关系的研究，变量依存关系的研究，回归的实质回归的实质是由解释变量是由解释变量去估计被解释变量的平均值。去估计被解释变量的平均值。3、总体回归函数（总体回归函数（PRF）是将总体被解释变量是将总体被解释变量Y

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第五讲统计检验(2)与预测

文档简介

温馨提示

最新文档

评论

第五讲 统计检验(2)与预测

文档简介

温馨提示

最新文档

评论

相关文档

第五讲统计检验(2)与预测