




已阅读5页,还剩83页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章样本数据的统计分析,回归分析3-2,多元回归分析中的变量筛选,在多元线性回归分析中,模型中应引入多少解释变量时需要重点研究的。如果引入的变量较少,回归方程将无法很好地解释说明被解释变量的变化。但并非引入的变量越多越好。因为变量间可能存在多重共线性的问题。,多元回归分析中的变量筛选,在多元回归分析中,需要采取一些策略对变量引入回归方程加以控制和筛选。主要有三种策略:向前筛选策略(Forward)向后筛选策略(Backward)逐步筛选策略(Stepwise),多元回归分析中的变量筛选,向前筛选策略(Forward)解释变量不断进入回归方程的过程。首先选择与被解释变量具有最高线性相关系数的变量进入方程,并进行回归方程的各种检验。然后,在剩余的变量中寻找与解释变量偏相关系数最高且通过检验的变量进入方程,并对新建立的回归方程进行各种检验;该过程一直重复,直至没有可进入方程的变量为止。,多元回归分析中的变量筛选,向后筛选策略(Backward)向后筛选策略是变量不断剔除出回归方程的过程。首先,所有变量全部进入方程,并进行各种检验。然后,在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量,重建模型进行各项检验,直至所有变量的回归系数检验都显著。,多元回归分析中的变量筛选,逐步筛选策略(Stepwise)向前筛选和向后筛选的综合。向前筛选策略是变量不断进入回归方程的过程。随着变量的引入,由于解释变量之间存在一定程度的多重共线性,使某些已经进入方程的解释变量的回归系数不再显著。逐步筛选法在向前策略的基础上,结合向后筛选策略,在引入变量的每个阶段都提供了再剔除不显著变量的机会。,多元回归分析中的变量筛选,多元回归分析(逐步回归法)*基本思想:在考虑Y对已知的一群变量(x1,x2,xk)回归时,从变量xi(i=1k)中选出对已解释变差(回归项)的贡献最大的变量,进入回归方程。,多元回归分析中的变量筛选,对已解释变差的贡献大小的判别依据,就是包含了偏解释变差的F统计量fj.按照统计量Fj的值fj的大小顺序依次进入方程;但所有进入方程的自变量的F统计量fj对应的显著性概率都应满足p(即要求其对应系数bj显著异于0),多元回归分析中的变量筛选,多元回归分析中的变量筛选,Ex3研究某城市散户股民在“证券市场的投资总额”是否可以用“证券市场外的收入”,“受教育程度”,“入市年份”和“股民年龄”来说明。,多元回归分析中的变量筛选,数据:CH6CH9CH10证券投资额与依据Step-1:AnalyzeregressionlinearStep-2:“证券市场的投资总额”Dependent“证券市场外的收入”“受教育程度”“入市年份”“股民年龄”Independent,多元回归分析中的变量筛选,Step-3:选择变量进入的方法MethodEnter:所有变量全部强行进入模型Forward:逐步增加变量Backward:先把所有的自变量全部放入方程,然后逐步减少自变量。,多元回归分析中的变量筛选,Stepwise:Forward和Backward方法结合的方法,即“一边进,一边出”方法。,Remove:在已有回归方程的基础上,根据设定的条件,删除变量,多元回归分析中的变量筛选,Step-4:Option选项,选默认进入模型的变量的F统计量的概率为5%,选默认从回归方程中剔除变量的系数的F统计量的概率为10%,多元回归分析中的变量筛选,Step-5:LinearRegressionStatistics的输出设定,Estimates:系统的缺省设置,系统输出回归系数b,b的标准差,标准回归系数Beta,b的t值及双尾检验的p值。,多元回归分析中的变量筛选,Step-5:LinearRegressionStatistics的输出设定,Modelfit:系统的缺省设置,系统输出(在逐步回归的过程中)引入模型的变量,从模型中删除的变量,复相关系数R,判定系数R2,校正的R2,估计的标准误差,ANOVA方差分析表。,多元回归分析中的变量筛选,Step-6:结果及分析报告引入/剔除变量表显示变量的引入和剔除并显示引入和剔除的标准。该表反映出变量的引入顺序为“证券市场以外年收入”,“入市年份”“年龄”“受教育程度”。没有变量被剔除。,多元回归分析中的变量筛选,回归方程的拟合优度检验,该表显示各模型的拟合情况。反映了每个模型的复相关系数,判定系数,调整判定系数和估计值的标准误差。,多元回归分析中的变量筛选,回归方程的显著性检验,随着逐步归回的过程,SumofSquares的值不断增大,由334.4-498.04,表明随着逐步回归中模型的改进,已解释变差越来越大。,反映总体回归效果的F统计值对应的概率值均小于0.01,说明每个模型的总体回归效果都是显著的。,多元回归分析中的变量筛选,回归系数和显著性检验表,从每个模型的解释变量的t检验情况来看,几乎所有的变量的系数都在1%的水平之上,说明对应系数显著异于0.,模型4的“受教育程度”的显著性概率1%,但仍小于2%,表明在0.02的显著性水平下,其对应系数b显著异于0.,所有这些变量都可以作为解释变量存在与模型中,解释投资总额的变化。,多元回归分析中的变量筛选,令Y-投入证券市场总资金X1-证券市场以外收入X2-入市年份X3-年龄X4-受教育程度模型1:Y=3.494+0.377X1模型2:Y=4.493+0.374X1-0.198X2模型3:Y=3.331+0.383X1-0.166X2+0.291X3模型4:Y=2.493+0.371X1-0.18X2+0.325X3+0.273X4,变量的多重共线性问题,多重共线性指解释变量之间存在线性相关的现象。解释变量间高度的多重共线性会给回归方程带来许多影响。偏回归系数估计困难偏回归系数的估计方差随解释变量相关性的增大而增大偏回归系数估计值不稳定性增强,变量的多重共线性问题,测度解释变量间多重共线性的方法容忍度Tolerance当Xi与其他所有自变量Xt,Xs的相关系数Ri接近1,自变量具有明显的多重共线性。定义容忍度:Toli=1-Ri2.Toli越小,共线性越强。,变量的多重共线性问题,方差膨胀因子VIFVIF=1/ToliVIF大于等于1。解释变量间的多重共线性越弱,VIF越接近1。反之,共线性越强,VIF越大。,变量的多重共线性问题,特征根Eigenvalue和方差比VarianceProportions从解释变量的相关系数矩阵出发,计算相关系数矩阵的特征根。解释变量标准化后的方差为1.如果每个特征根都能够刻画该变量方差的一部分,那么所有特征根将刻画该变量方差的全部。,变量的多重共线性问题,如果某个特征根既能够刻画某解释变量方差的较大部分比例(0.7以上),同时又可以刻画另一个解释变量变差的较大部分比例,则表明这两个解释变量间存在较强的线性相关关系。,变量的多重共线性问题,变量的多重共线性问题,利用软件输出的相关统计量如果输出的F统计量很大,R趋于1,但同时,许多偏回归系数对应的t统计值小(其显著性概率大于),估计系数的标准差大,则表明存在多重共线性。,变量的多重共线性问题,多重共线性问题的处理逐步删除不重要的(t相对小)解释变量,可直接用逐步回归法完成。改变模型结构恰当处理滞后变量增大样本容量,变量的多重共线性问题,Ex:用SPSS处理多重共线性被解释变量是某国的服装消费。备选的解释变量有:该国可支配收入,该国居民的金融资产,该国的服装价格指数,该国的一般价格指数。用多元回归分析服装消费与支配收入,金融资产及服装价格指数及一般价格指数的线性关系。,变量的多重共线性问题,Data:“CH10共线反向逐步服装需求”Command:AnalyzeRegressionLinear,选择反向逐步回归方法,变量的多重共线性问题,结果分析:上表为逐步回归模型的总体效果参数。逐步回归进行了2次,每个模型的R及R2,都很大,总体回归效果是相当好的。,变量的多重共线性问题,逐步回归系数表,第一次回归计算,所有变量进入模型。四个自变量对应的t统计值的概率值分别为0.015,0.772.0.078,0.072.除了“可支配收入”的t统计量的对应p0.05,本问题采用标准化回归系数StandardizedCoefficients,线性回归的残差分析,线性回归的残差分析,基于这一点,残差分析的内容包括残差是否服从均值为0的正态分布残差是否为等方差的正态分布残差序列是否独立数值方法和图形直观分析方法都是分析过程有效的分析工具,线性回归的残差分析,残差均值为0的正态性分析当解释变量x取某个特定的值时,对应残差必然有正有负,但总体上应服从以0为均值的正态分布。可利用残差图进行分析。,残差图是一种散点图。若残差的均值为0,残差图中的点应在纵坐标为0的中心的带状区域内随机散落。正态性分析可通过绘制标准化残差的累计概率图进行分析。,线性回归的残差分析,残差的独立性分析残差序列的独立性是回归模型要求的。残差序列与残差序列的前期和后期数值之间不存在相关关系,即不存在自相关。自相关会带来很多问题,如普通的最小二乘估计不是最优,回归系数显著性检验的t值偏高,从而容易拒绝H0,使某些不该保留在方程中的变量保留了下来,而使得模型的预测偏差较大。,线性回归的残差分析,残差的独立性分析的三种方式1)绘制残差序列的序列图,残差序列图以样本期(或时间)为横坐标,残差为纵坐标。帮助观察发现自相关性,右图残差随时间的推移呈现由规律的变化,表明残差序列存在一定的正或负自相关。,线性回归的残差分析,线性回归的残差分析,3)Durbin-Watson检验DW检验推断小样本序列是否存在自相关的统计检验方法。统计量为DW(公式略)DW取值在04之间。即DW=0时,完全正自相关DW=(0,2),残差序列存在正自相关DW=2时,残差序列独立,没有自相关DW=(2,4),残差序列存在负自相关DW=4时,完全负相关,线性回归的残差分析,如果残差序列存在自相关,说明回归方程没能充分说明被解释变量的变化规律,还留有一些规律性没有被解释,也就是认为方程中遗漏了一些较为重要的解释变量;或者回归模型选择不合适,不应选用线性模型等等原因。,线性回归的残差分析,异方差分析回归分析要求,残差的方差应相等。若随着解释变量或被解释变量取值的变化而变化,则为出现了异方差现象。出现异方差将导致最小二乘估计不再是最小方差的无偏估计,回归系数显著性检验的t值偏高,进而容易拒绝H0假设,使不该留在方程中的变量保留下来,并最终使模型的预测偏差较大。因此,有必要进行异方差分析。,线性回归的残差分析,异方差问题是否存在的判断1)绘制残差的散点图,残差的方差随着解释变量值的增加呈增加的趋势,出现了异方差。,线性回归的残差分析,2)等级相关分析得到残差序列后首先对其取绝对值,然后分别计算出残差和解释变量的秩,计算Spearman等级相关系数,进行等级相关分析。拒绝等级相关分析的H0假设则认为解释变量与残差之间存在相关关系,出现的异方差。,线性回归的残差分析,出现了异方差如何处理?对被解释变量实施方差稳定变换后再进行回归方程参数的估计。一般采取的方法:残差与预测值的平方根成比例变化,对被解释变量做开方处理。残差与预测值成比例变化,对解释变量取对数。残差与预测值的平方成比例变化,对解释变量求倒数。,线性回归的残差分析,利用加权最小二乘法实施回归方程的参数估计。在模型中加入恰当的权值,调整方差的差异带来的影响。方差较小的项赋予较大权数,方差较大项给予较小的权数,并在其最小原则下进行参数的估计。,线性回归的残差分析,Ex:用SPSS处理异方差问题Data:CH10异方差SI原Command:AnalyzeRegressionLinear,线性回归的残差分析,Command:Save保存“未标准化残差”,线性回归的残差分析,Report1残差有逐渐增大趋势,可以初步判定存在异方差性。,Step-1:观察异方差性,线性回归的残差分析,Step-2:检验异方差是否存在Command-1:TransformCompute产生新变量|e|即|未标准化残差|新变量命名为RES_2,线性回归的残差分析,等级相关判定Command:AnalyzeCorrelateBivariate,线性回归的残差分析,Report2:,“居民收入”与RES_2的Spearman相关系数为0.671,与0有显著差异,说明存在异方差性。,线性回归的残差分析,Step-3:用加权最小二乘法估计回归方程的系数,以“1/收入”为权重,作如下回归储蓄/收入=a/收入+b+v,其中v=/收入Command:TransformComputer产生新变量“储蓄收入比”“收入倒数”,线性回归的残差分析,线性回归的残差分析,Command:AnalyzeRegressionLinear,选标准化预测值为X轴,标准化残差为Y轴,从散点图观察异方差的变化。Save命令保存“未标准户残差”RES_3,线性回归的残差分析,Graph:标准化后残差项散点图,图形表明,异方差性已经得到较大改善。,线性回归的残差分析,整体回归效果检验,拟合优度和F统计量,整体回归效果良好。,线性回归的残差分析,加权最小二乘法估计回归方程的系数,储蓄/收入=a/收入+b即储蓄/收入=-722.475/收入+0.088因此模型为储蓄=-722.475+0.088收入,线性回归的残差分析,异方差改善的检验Command:TransformComputer生成新变量Res_4=|Res_3|,线性回归的残差分析,Command:AnalyzeCorrelateBivariate计算加权模型的残差绝对值与“收入”的等级相关,线性回归的残差分析,加权模型的残差绝对值与“收入”的等级相关系数检验,相关系数与0无显著差异,说明异方差性已经得到了矫正。,高校社会科学研究中的立项问题,问题:为研究高等院校人文社会科学研究中立项课题数受哪些因素的影响,收集1999年31个省市部分高校有关社科研究方面的数据,利用线性回归分析方法予以分析。Data:“相关回归分析(高校科研研究)”,高校社会科学研究中的立项问题,分析:Step-1:定义解释变量与被解释变量被解释变量(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年电厂三级安全教育考试题及答案
- 2025年山西省保密知识教育考试题(含答案)
- 2025年机动车驾驶证学法减分最近考试题目答案
- 2025-2030年中国新能源产业政策协同与新能源产业政策协同创新研究报告
- 2025年文职人员招聘公共科目高频考点精讲试题试卷
- 2025年新能源汽车智能座舱硬件配置与软件生态发展产业竞争格局演变研究报告
- 2025年大学融合教育专业题库- 城乡教育发展与融合教育
- 2025年大学工会学专业题库- 工会对企业员工关系的调节
- 2025年大学科学教育专业题库- 科学教育素养在学生发展中的影响
- 2025年小学英语毕业考试模拟试卷:英语歌曲欣赏与演唱教学方法试题
- 一年级行为好习惯养成教育课件
- 环境工程微生物学课后答案
- 叉车工作手册
- 干式气柜检修施工方案
- 佳能-EOSM-相机说明书
- 2024年食品生产企业食品安全管理人员监督抽查考试题库(含答案)
- 《无机化学》课件-第6章 分子结构和晶体结构
- 货运代理运输服务合同范本2024年
- 5.2 氮及其化合物 课件高一下学期化学人教版(2019)必修第二册
- 经典脑筋急转弯400则
- 2024-2030年中国移动DR产业发展动态及未来趋势预测报告
评论
0/150
提交评论