一元线性回归模型检验_第1页
一元线性回归模型检验_第2页
一元线性回归模型检验_第3页
一元线性回归模型检验_第4页
一元线性回归模型检验_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、§2.4 一元线性回归的模型检验一、经济意义检验。二、在一元回归模型的统计检验主要包括如下几种检验1、拟合优度检验(R2检验;2、自变量显著性检验(t检验;3、残差标准差检验(SE检验。主要检验模型参数的符号、大小和变量之间的相关关系是否与经济理论和实际经验相符合。一、经济意义检验ii X Y 67.04.142+=在此例中,如果家庭可支配收入增加1元则家庭消费支出增加0.67元。经济意义检验通过。二、统计检验回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值就等于其总体的参

2、数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。1、拟合优度检验拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。度量拟合优度的指标:判定系数(可决系数R2(1、总离差平方和的分解已知由一组样本观测值(X i ,Y i ,通过估计得到如下样本回归直线i i X Y 10+=i i i i i i i y e Y Y Y Y Y Y y (+=-+-=-=总离差平方和的分解i i X Y 10+=(Y Y y i i -=i i i i i i i ye Y Y Y Y Y Y y (+=-+-

3、=-=Y 的i 个观测值与样本均值的离差由回归直线解释的部分回归直线不能解释的部分离差分解为两部分之和 总离差平方和的分解公式:TSS=RSS+ESS,TSS 总离差平方和,ESS 为回归平方和,RSS 为残差平方和.(0,0.0(2: 1022222222=+=-=-=-+=+=-+-=-+-+-=-+-=-=ii i i i i ii i i i i i i i i i i i i i i i i i i i i i X e e Y e e e Y Y e Y Y e Y Y ESS RSS y e Y Y Y Y TSS Y Y Y YY Y Y YY Y Y Y Y Y Y Y 而因为

4、证明TSS=ESS+RSSY的观测值围绕其均值的总离差(total variation可分解为两部分:一部分来自回归线(ESS,另一部分则来自随机部分(RSS。在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此拟合优度:回归平方和ESS/Y的总离差TSSTSS RSS TSS ESS R -=1记2(2、拟合优度(或者称为可决系数,决定系数等R 2统计量称R 2 为(样本可决系数/判定系数(coefficient of determination。可决系数的取值范围:0,1 ,可决系数是一个非负的统计量。它也是随着抽样的不同而不同。R 2越接近1,说

5、明实际观测点离样本线越近,拟合优度越高。一般地要求R 20.7R 2表示解释变量引起的变动占总变动的百分比。R 2表明用X 解释Y 所达到的百分比。从而可看出解释变量是否选择完整。2、变量的显著性检验(T 检验回归模型是否可靠的另一个检验是:判断解释变量X 是否是被解释变量Y 的一个显著性的影响因素。目的:检验X i 是否为Y 的自变量。其作用是剔除模型中回归系数不显著的解释变量,使模型更简洁实用。在一元线性模型中,就是要判断X 是否对Y 具有显著的线性性影响。这就需要进行变量的显著性检验。变量的显著性检验所应用的方法是数理统计学中的假设检验。假设检验的复习所谓假设检验,就是事先对总体参数或总

6、体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断结果合理与否,是基于“小概率事件是不可能发生”这一原理。检验原理:2(,2,var(var(var(,var(,1,0(var(1,0(var(,2222212220-=-=-=n t S t t n S t :,S ,x x n X N Z i :N ,ii ii i i i i i i i i ii i ii i i 即分布的自由度为可以证明该统计量服从构造统计量来

7、代替用样本方差即代替现用也未知故未知由于其中从标准正态分布则其标准化随机变量服即服从正态分布回归系数由于在基本假设下注:自由度是指统计量中可自由变化的样本观测值的个数,它等于所用样本观测值的个数减去对观测值的约束条件的个数。自由度是指变量可以自由取值得个数,例如我们要测量学生的身高X,随机抽取10名学生,如果没有任何限制,则X可以自由取值10个值,自由度为10;但是如果我们限定10名同学的平均身高,那么随机抽取9名后,最后一名的身高则不能随意取值了,此时自由度减少一个,为10-1=9。在多元回归模型中,对于一个包含k个解释变量的回归方程而言,待估计的参数个数为k+1(包括常数项,在我们根据最小

8、残差平方和求偏导的过程中,会得到(k+1个方程构成的方程组,这k+1个方程实际上构成了对残差的k+1个限制条件,所以凡是涉及到残差构成的统计量,自由度就会减少k+1个,例如显著性检验中的t检验和f检验的自由度等。假设检验过程如下:1、提出假设H 0:i =0, i=0,1,H 1:i 0, i=0,12、在H 0成立的条件下,有2(0-=-=n t S S t i i i i 根据样本观测值,计算t 统计量的值220( level(2ii i i t significance t n S P t t H =->=,然后给出显著性水平,这个又决定了临界值因为由数理统计的区间估计原理有从而可

9、以进一步检验是否成立注意,不同的研究者偏好不同的显著性水平,没有一个“标准”的显著性水平,一般情况下取0.05或者0.01统计检验的原理(例如t 检验1、提出原假设:H 0:i =0, i=0,12、给定显著水平(小概率3、在H 0成立下,收集数据,构造检验用的t 统计量,4、查表得小概率发生的临界值t /2。5、将计算结果(t 统计量与临界值比较,若大于临界值,小概率事件发生,根据小概率原理,在一次试验中小概率事件是不会发生的。现在,居然发生了。错在哪里?6、原来是假设H 0错了,因为一切都是在H 0成立下推证的,于是拒绝H 0。否则,不拒绝H 0.。=>2t t P 因为检验步骤:(

10、1对总体参数提出假设H 0:1=0,H 1:10(2以原假设H 0构造t 统计量,并由样本计算其值111S t =(3给定显著性水平,查t 分布表,得临界值t /2(n-2(4 比较,判断若|t 1|> t /2(n-2,则拒绝H 0,接受H 1;若|t 1|t /2(n-2,则拒绝H 1,接受H 0;对于一元线性回归方程中的0和1,可构造如下t 统计量进行显著性检验:1111110000,S S t S S t =-=-=在上述收入-消费支出例中,首先计算2的估计值273421021872222=-=-=n e i 019.07425000/2734221=ixS 45.4474250

11、0010/(536500002734(2220=iix n X S t 统计量的计算结果分别为:给定显著性水平=0.05,查t 分布表得临界值t 0.05/2(8=2.306|t 1|>2.306,说明家庭可支配收入在95%的置信度下显著,即是消费支出的主要解释变量;|t 0|>2.306,表明在95%的置信度下,无法拒绝截距项为零的假设,应该有常数项。其它的检验在多元中介绍.92.34019.067.0111=S t 2.345.444.14200=S t 书上P48有错不用查表,直接从软件计算中进行检验2.2-=n e E S iiS t i =P 值的含义:X 的系数等于0概

12、率为0_cons 142.4 44.44673 3.20 0.013 39.90565 244.8944 x .67 .0191891 34.92 0.000 .6257498 .7142502 y Coef. Std. Err. t P>|t| 95% Conf. Interval Total 3354954.9 9 372772.767 Root MSE = 52.288 Adj R-squared = 0.9927 Residual 21872.4 8 2734.05 R-squared = 0.9935 Model 3333082.5 1 3333082.5 Prob >

13、F = 0.0000 F( 1, 8 = 1219.10 Source SS df MS Number of obs = 10. reg y x面积0.985 面积 0.00625 面积 0.00625 -3.20 y x _cons Coef. .67 142.4 Std. Err. .0191891 44.44673 t 0 P>|t| 0.000 0.013 3.20 95% Conf. Interval .6257498 39.90565 .7142502 244.8944 34.92 3.20 P值(Prob=P-value)的含义是给定t统计量的观测值,拒绝原假设的最小显 著

14、性水平。 以上例为例,当自由度为8(=n-2时,t统计量为3.20,其对应的单边区域面积为 0.00625(可由计算机算出,因此: p值=P(t>3.20=2*P (t>3.20=2*0.00625=0.013, 从系数的检验来看, P值的含义:X的系数等于0概率为0,常数项等于0的概 率为0.013。 P值的理解(不知分布函数 1、我们来检验姚明的身高(226)与中国男性平均身高是否有 差异。 原假设:H0: 姚明的身高(226)与中国男性平均身高无差异。 假设我们抽取10000个中国男性身高,可能有0个人的身高比姚 明高。则P值=0/10000,则p-value=0,落入5%区间,因此姚明的 身高(226)与中国男性身高有显著差异,否定原假设。 2、我们来检验王中昭的身高(175)与中国男性平均身高是否 有差异。 原假设:H0:王中昭的身高(175)与中国男性平均身高无差异。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论