截面数据回归的异方差检验方法_第1页
截面数据回归的异方差检验方法_第2页
截面数据回归的异方差检验方法_第3页
截面数据回归的异方差检验方法_第4页
截面数据回归的异方差检验方法_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

截面数据回归的异方差检验方法在计量分析的日常工作中,我常和同事开玩笑说:“做回归就像走钢丝,异方差、自相关、内生性,哪一个没踩稳都得摔下来。”而在截面数据回归里,异方差尤其常见——比如分析家庭消费时,高收入家庭的支出波动往往比低收入家庭大;研究企业投资时,大企业的投资决策受市场影响的幅度可能远超中小企业。这些场景下,误差项的方差不再“一视同仁”,直接动摇了经典线性回归模型(CLRM)的基本假设,导致OLS估计量虽无偏却不再有效,t检验和F检验的结果也可能“失真”。今天,我们就来好好聊聊截面数据回归中异方差的检验方法,既是对自己知识的梳理,也希望能帮刚入行的朋友少走些弯路。一、异方差:截面数据的“隐形杀手”要谈检验方法,首先得明确什么是异方差。简单来说,经典线性回归假设误差项的方差是常数(同方差),即Var(εᵢ)=σ²对所有i都成立。而异方差(Heteroscedasticity)则是这个假设被打破,表现为Var(εᵢ)=σᵢ²,且至少存在两个i使得σᵢ²≠σⱼ²。打个比方,就像给一群身高差异大的人做衣服,如果用同一个尺码(同方差),肯定有人穿着不合身;而异方差就像每个人的衣服尺码不同,但我们却误以为只有一个尺码可用,结果自然偏差百出。截面数据为什么容易出现异方差?主要和数据的“个体差异性”有关。截面数据通常来自同一时间点的不同个体(如家庭、企业、地区),这些个体在规模、结构、抗风险能力等方面差异显著。比如研究居民医疗支出时,高收入家庭可能因为更关注健康,支出波动(方差)更大;低收入家庭则可能因预算限制,支出相对稳定。再比如分析上市公司财务数据,大公司的营收受宏观经济影响更敏感,误差项的方差往往高于小公司。这种“个体差异导致方差差异”的特性,让异方差成了截面回归的“常客”。异方差的危害不容小觑。我曾在分析某省县域经济增长模型时吃过亏:当时用OLS估计后,t检验显示多个变量显著,但后来用White检验发现存在严重异方差。重新用稳健标准误修正后,原本“显著”的变量有一半变得不显著了。这说明,异方差会让我们高估或低估系数的显著性,导致错误的政策建议——比如误判某个产业政策对经济增长的实际效果。因此,检验异方差是截面回归中不可或缺的一步。二、从直观到严谨:异方差检验方法的层层递进检验异方差的方法有很多,既有简单直观的图示法,也有严格的统计检验;既有需要假设异方差形式的方法,也有非参数的通用方法。我们可以按照“从直观到严谨、从特殊到一般”的逻辑来梳理。2.1图示法:异方差的“初筛工具”图示法是最基础的检验手段,就像医生给病人做初步检查——虽然不能确诊,但能快速发现异常。具体来说,我们可以绘制两种散点图:第一种:残差绝对值(或平方)与解释变量的散点图。OLS回归后,我们得到残差êᵢ=Yᵢ-Ŷᵢ。理论上,同方差时残差的绝对值(或平方)应随机分布在横轴(解释变量X)周围,没有明显的趋势或扩散/收缩模式。如果散点图呈现“喇叭形”(随X增大,残差平方逐渐扩散)或“锥形”(随X增大,残差平方逐渐收缩),则可能存在异方差。比如我之前分析家庭消费函数(Cᵢ=α+βYᵢ+εᵢ)时,绘制残差平方与收入Y的散点图,发现高收入组的残差平方明显更大,这就是典型的异方差信号。第二种:残差绝对值(或平方)与拟合值的散点图。拟合值Ŷᵢ=α̂+β̂Xᵢ反映了被解释变量的估计值,残差平方与Ŷ的散点图能更直接地观察误差方差与被解释变量水平的关系。例如在房价预测模型中,高价房的预测残差平方往往更大,散点图会呈现“右半部分更分散”的特征。图示法的优势在于直观、操作简单,用Excel或统计软件(如Stata的rvfplot命令)就能快速完成。但它的局限性也很明显:一是依赖主观判断,不同人可能对“是否存在趋势”有不同结论;二是无法给出统计显著性,只能作为初步筛选工具。我刚入行时,曾仅凭散点图“看起来像异方差”就下结论,结果被导师批评“不够严谨”——毕竟“看起来像”和“统计上显著”是两回事。2.2BP检验:基于残差平方的线性回归检验Breusch-Pagan检验(简称BP检验)是最常用的正式统计检验方法之一,由Breusch和Pagan于某年提出。它的核心思想是:如果存在异方差,那么残差平方应该与解释变量(或其函数)存在显著的线性关系。具体步骤可以概括为“三步走”:第一步:做原回归,得到残差平方。先对模型Y=Xβ+ε进行OLS估计,得到残差êᵢ,计算残差平方êᵢ²。第二步:做辅助回归,将残差平方对解释变量回归。假设异方差与解释变量X₁,X₂,…,X_k线性相关,辅助回归模型为:êᵢ²=α₀+α₁X₁ᵢ+α₂X₂ᵢ+…+α_kX_kᵢ+νᵢ这里的νᵢ是辅助回归的误差项。第三步:构造检验统计量,判断显著性。原假设H₀:α₁=α₂=…=α_k=0(同方差);备择假设H₁:至少有一个α_j≠0(存在异方差)。检验统计量通常有两种形式:LM统计量(拉格朗日乘数统计量):LM=n×R²,其中n是样本量,R²是辅助回归的可决系数。在H₀下,LM服从自由度为k的卡方分布(χ²(k))。F统计量:F=[(ESS/k)]/[(RSS/(n-k-1))],其中ESS是辅助回归的回归平方和,RSS是残差平方和。F统计量服从F(k,n-k-1)分布。我在分析某城市中小企业贷款违约率模型时用过BP检验:原模型是违约率=β₀+β₁企业规模+β₂资产负债率+β₃行业风险+ε。辅助回归中,残差平方对这三个解释变量回归的R²=0.15,样本量n=500,LM=500×0.15=75,自由度k=3。查卡方分布表,χ²₀.₀₅(3)=7.81,75远大于临界值,拒绝原假设,说明存在异方差。BP检验的优势在于计算简便,且对异方差的线性形式(即σᵢ²与解释变量线性相关)检验效力较高。但它也有两个明显缺点:一是要求误差项服从正态分布(大样本下可放宽);二是如果异方差与解释变量的非线性函数(如X²)相关,辅助回归可能无法捕捉到,导致检验失效。比如当σᵢ²与Xᵢ²相关时,BP检验的辅助回归没有包含Xᵢ²项,可能错误地接受同方差假设。2.3White检验:无需假设异方差形式的“通用武器”针对BP检验的不足,White于某年提出了更一般化的检验方法,称为White检验。它的核心改进是:在辅助回归中加入解释变量的平方项和交叉项,从而捕捉异方差与解释变量的非线性关系。具体步骤如下:第一步:同样先做原回归,得到残差平方êᵢ²。第二步:构造包含解释变量、平方项和交叉项的辅助回归。假设原模型有k个解释变量X₁,X₂,…,X_k,辅助回归模型为:êᵢ²=α₀+ΣαⱼXⱼᵢ+ΣαⱼⱼXⱼᵢ²+ΣαⱼₖXⱼᵢXₖᵢ+νᵢ例如,原模型有2个解释变量X₁和X₂,辅助回归就是:êᵢ²=α₀+α₁X₁+α₂X₂+α₃X₁²+α₄X₂²+α₅X₁X₂+νᵢ第三步:检验辅助回归中所有斜率系数是否全为0。原假设H₀:所有斜率系数=0(同方差);备择假设H₁:至少有一个斜率系数≠0(存在异方差)。检验统计量同样可以用LM=n×R²(自由度为辅助回归中解释变量的个数)或F统计量。我曾用White检验重新分析之前的贷款违约率模型(原模型有3个解释变量),辅助回归包含3个原变量、3个平方项(X₁²,X₂²,X₃²)和3个交叉项(X₁X₂,X₁X₃,X₂X₃),共9个解释变量(加上截距项共10个变量)。计算得到LM=500×0.22=110,自由度=9,χ²₀.₀₅(9)=16.92,110远大于临界值,进一步确认了异方差的存在。White检验的最大优点是“无需假设异方差的具体形式”,通过引入平方项和交叉项,能捕捉更一般的异方差模式。但它也有代价:一是当解释变量较多时,辅助回归的自由度会大幅减少(比如原模型有5个解释变量,辅助回归会有5+5+10=20个解释变量,样本量较小时可能无法估计);二是如果异方差确实与解释变量线性相关,White检验的效力可能略低于BP检验(因为引入了多余的非线性项,增加了估计误差)。2.4Glejsler检验:假设异方差形式的“灵活选择”Glejsler检验由Glejser于某年提出,与BP、White检验不同,它需要先假设异方差的具体函数形式(如σᵢ=α+βXᵢ,或σᵢ=α+βXᵢ²,或σᵢ=α+β|Xᵢ|等),然后通过检验该形式是否显著来判断异方差是否存在。具体步骤如下:第一步:原回归得到残差êᵢ,计算残差的绝对值|êᵢ|(或其他形式,如√|êᵢ|)。第二步:将|êᵢ|对假设的异方差形式(如Xᵢ、Xᵢ²、1/Xᵢ等)进行OLS回归。例如,假设σᵢ与Xᵢ正相关,辅助回归为|êᵢ|=α+βXᵢ+νᵢ;假设σᵢ与Xᵢ的平方根相关,辅助回归为|êᵢ|=α+β√Xᵢ+νᵢ。第三步:检验辅助回归的斜率系数β是否显著。如果β显著不为0,则拒绝同方差假设。Glejsler检验的优势在于灵活性——我们可以根据经济理论或数据特征选择不同的异方差形式。比如研究消费函数时,理论上高收入家庭的消费波动可能与收入水平成比例(σᵢ=βYᵢ),这时选择|êᵢ|=α+βYᵢ作为辅助回归更合理。我曾在分析农户种植面积与产量波动的关系时,假设σᵢ与种植面积的平方根相关(因为面积越大,自然灾害的影响可能呈根号级增长),用Glejser检验得到了显著的结果,而BP和White检验反而不够灵敏。但Glejser检验的缺点也很明显:它高度依赖对异方差形式的假设,如果假设错误(比如实际是σᵢ=βXᵢ²,而我们假设了σᵢ=βXᵢ),检验结果可能失效。这就像医生看病时,如果先入为主地假设是感冒,可能会漏诊肺炎。因此,Glejser检验更适合在有明确理论指导的场景下使用,或者作为BP、White检验的补充。2.5其他方法:从Spearman秩相关到非参数检验除了上述主流方法,还有一些小众但实用的检验方法:Spearman秩相关检验:计算残差绝对值(或平方)与解释变量的秩相关系数,检验其是否显著不为0。这种方法不依赖分布假设,适用于非正态数据,但检验效力可能低于参数方法。Park检验:假设异方差与解释变量的对数线性相关(如lnσᵢ²=α+βlnXᵢ+νᵢ),通过将lnêᵢ²对lnXᵢ回归,检验β是否显著。它与Glejser检验类似,都是参数化的假设检验。Goldfeld-Quandt检验:适用于异方差与某一解释变量单调相关的情况。具体步骤是将样本按该解释变量排序,分成高、低两组,分别做回归并计算两组的残差平方和,构造F统计量(两组残差平方和的比值)进行检验。这种方法要求样本量足够大(至少能分成两组各n/2个样本),且异方差具有单调性,在截面数据中应用较少。三、方法对比与选择:从数据特征到研究需求面对这么多检验方法,实际工作中该如何选择?我的经验是“看数据、看假设、看需求”,具体可以从以下几个维度考虑:3.1数据特征:样本量与异方差形式大样本vs小样本:BP检验和White检验在大样本下渐近服从卡方分布,小样本时可能不准确(尤其是White检验,自由度损失大)。如果样本量较小(如n<100),可以考虑Glejser检验(假设合理时效力更高)或图示法辅助判断。异方差形式是否已知:如果有理论支持异方差与解释变量的某种函数相关(如σᵢ=βXᵢ),Glejser检验或Park检验更有效;如果异方差形式未知,优先选White检验(捕捉非线性关系)或BP检验(线性关系)。3.2研究需求:严谨性与计算成本需要严格统计推断:选择BP、White等正式统计检验,避免仅依赖图示法。比如发表论文时,审稿人通常要求报告BP或White检验的结果。计算便捷性:BP检验的辅助回归只包含原解释变量,计算量小;White检验需要加入平方项和交叉项,变量多的时候可能需要更多计算资源(尤其是面板数据或大数据集)。3.3实际经验:多方法交叉验证更可靠我在项目中很少只用一种方法,通常会“图示法初筛+BP/White检验确认+Glejser检验辅助”。比如最近做的教育支出模型:先用残差平方与收入的散点图发现“喇叭形”趋势,接着用BP检验(LM=45,p<0.01)拒绝同方差,再用White检验(LM=62,p<0.01)进一步确认,最后用Glejser检验(假设σᵢ=β收入,β显著)验证了异方差形式。多方法交叉验证,结果更让人信服。四、总结:异方差检验是计量分析的“必修课”从刚入行时对异方差的“视而不见”,到现在养成“先检验后修正”的习

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论