公司金融案例线性回归分析_第1页
公司金融案例线性回归分析_第2页
公司金融案例线性回归分析_第3页
公司金融案例线性回归分析_第4页
公司金融案例线性回归分析_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析过程,浙江财经学院 金融学院 朴哲范,一、回归分析概述,1.回归方程 回归分析是处理变量x与y之间统计关系的一种统计方法和技术。如果要由x预测y的值,就要利用x与y的观察值,即样本观测值(x1,y1),(x2,y2),(xn,yn)来建立一个公式,当给定x值后,就代入此公式中算出一个y值,这个值就称为y的预测值。 如何建立这个公式? (1)绘制散点图 (2)建立线性函数:y= +x 2.回归方程 线性方程式y= +x中的参数 ,还不知道,这就需要由样本数据来进行估计,估计出 ,的值后,以估计值分别代替线性方程式中的 ,得到方程这个方程就称为回归方程。 这里因为因变量y与自变量x的关系呈线性关系,因此我们也称上述方程为线性回归方程, 是线性回归方程所画出的直线在y轴上的截距 ,为直线的斜率,它们分别被称作回归常数与回归系数。,建立实际问题回归模型的过程,1.根据研究的目的,设置指标变量 2.搜集整理统计数据 3.确定理论回归模型的数学形式 4.模型参数的估计 5.模型的检验与修改 6.回归模型的运用,二、 一元线性回归,一元线性回归是描述两个变量之间统计关系的最简单的回归模型。 例1 假定一保险公司希望确定居民住宅火灾造成的损失数额与该住户到最近的消防站的距离之间的相关关系,以便准确地确定出保险金额,表1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。,参数的估计,线性回归方程的显著性检验,1.相关系数的显著性检验 由于一元线性回归方程讨论的是变量x与y之间的线性关系,所以我们可以用变量x与y之间的相关系数来检验回归方程的显著性。 当 r = 0 时,说明变量之间不存在线性相关关系; 当 0 r 1时,说明变量之间存在一定程度的正相关关系; 当 -1 r 0时,说明变量之间存在一定程度的负相关关系; 当r =1 或 r = -1 时说明变量之间完全正相关或完全负相关。,设总体 X 和 Y 的相关系数为 r,则检验的原假设和对立假设为: 其中零假设表示:假设变量之间不存在线性相关关系。 检验时采用的统计量为:,回归系数的t检验和F检验,回归系数的显著性检验就是要检验因变量y对自变量x的影响程度是否显著。如果原假设 成立,则因变量y与自变量x之间并没有真正的线性关系,也就是说 自变量x的变化对因变量y并没有影响。构造的t检验统计量为:,F检验,对线性回归方程显著性的另外一种检验是F检验,F检验是根据平方和分解式,直接从回归效果检验回归方程的显著性,平方和分解式为,2.5.2残差图分析模型的有效性。,一般认为,如果一个回归模型满足所给出的基本假定,所有残差应是在e0附近随机变化,并在变化幅度不大的一条带子内。 残差图:以自变量x作横轴,以残差为纵坐标,讲相应的残差点画在直角坐标系上,就可以得到残差图。具体作法: 1.计算残差:回归分析主对话框中选择save按钮,Residuals选项下的Unstandardized选项,按continue,在原数据文件中加入残差值, 2.画残差图。GraphScatter 例:火灾损失与距离消防站的远近的回归分析,2.5.3改进的残差,3. 回归系数的区间估计,当我们用最小二乘法得到0,1的点估计后,在实际应用中往往还希望给出回归系数的估计精度,即给出其置信水平为1的置信区间。这个区间以1的概率包含参数0,1。置信区间的长度越短,说明估计值与0,1接近的程度越好,估计值就越精确。 应用spss软件计算回归系数的区间估计: 在线性回归对话框中,点击StatisticsConfidence interval,这样,在回归系数表中就增加了回归系数的区间估计。,4.预测与控制,建立回归模型的目的是为了应用,而预测和控制是回归模型最重要的应用。 4.1单值预测 4.2区间预测 4.2.1因变量新值的区间预测 4.2.2因变量新值的平均值的区间估计 4.3控制问题,4.1单值预测,单值预测就是用单个值作为因变量的预测值。即当x0新值时,求出y0的预测值。 单值预测只是一个大概值,我们除了想知道预测值外,还希望知道预测值得精度,这就要作区间估计。,4.2区间预测,给一个预测范围比只给出单个预测值更可信,这个问题也就是:,应用SPSS软件直接计算预测值,1.单值预测:在计算回归之前,把自变量新值x0输入样本数据中,在回归分析主对话框中点击Save按钮在save对话框中点击Predicted ValuesUnstandardized 2.因变量新值的区间预测:在save对话框中点击Predicted intervalsIndividul 3.因变量新值平均值的区间预测 在save对话框中点击Predicted intervalsmean,例:火灾损失与距离消防站远近,x03.5公里,预测火灾损失额。,5.应用SPSS软件进行一元线性回归分析,1、执行Analyze Regression Linear命令,打开对话框,(1)从源文件量清单中选择一个数值型变量移入 Dependent框中,选择一个变量作为自变量移入Independent 框中 (2)选择回归模型的自变量的进入方式 Enter 所有选择自变量全部进入方式 (3)Save选项下选择Residuals 下的Unstandardized选项 (4)点击OK,6.一元线性回归模型建立小结,第一步,提出因变量与自变量 第二步,搜集数据 第三步,根据数据画散点图 第四步,设定理论模型 第五步,用SPSS软件计算,输出计算结果 第六步,回归诊断,分析输出结果,实习1:,应用人均国民收入表中的数据建立人均消费金额与人均国民收入的回归模型。数据资料为: 2006年SPSS教学资料/第八周教学资料/人均国民收入表.sav,实习2:,下表为四组数据,分别对此四组数据进行回归分析,并做显著性检验。 实验数据文件为:2006年SPSS教学资料/第八周教学资料/回归显著性比较.sav,第三节 多元线性回归,3.1多元线性回归模型 3.2回归参数的估计 3.3回归方程的显著性检验 3.4逐步回归 3.5应用spss软件选项进行多元线性回归分析,3.1多元线性回归模型,一、多元线性回归模型的一般形式,二、多元线性回归方程的解释,以p2为例。在建立空调机销售量的预测模型时,用y来表示空调机的销售量,用x1表示空调机的价格,用x2表示消费者可用于支配的收入。则可以建立二元线性回归模型:,3.2 回归参数的估计,回归参数可以应用普通最小二乘估计。 具体计算可以通过spss软件进行。 例1 中国民航客运量的回归模型。为了研究我国民航客运量的变化趋势及其成因,我们以民航客运量作为因变量y,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。根据1994年统计摘要获得19781993年统计数据。建立中国民航客运量的回归模型,应用spss软件进行参数估计。,3.3 回归方程的显著性检验,一、F检验 对多元线性回归方程的显著性检验就是要看自变量x1,x2,xp从整体上对随机变量y是否有明显的影响。为此,提出原假设: 结论:1.如果原假设被接受,则表明随机变量y与自变量之间的关系由线性回归模型表示不合适。类似一元线性回归检验。 2.如果拒绝原假设,则表明自变量全体对因变量y产生显著性影响。,二、回归系数的显著性检验,在多元线性回归中,回归方程显著并不意味着每个自变量对y的影响都显著,因此,我们总想从回归方程中剔除那些次要的、可有可无的变量,重新建立更为简单的回归方程。所以就需要对每个自变量进行显著性检验。 显然,如果某个自变量xj对y的作用不显著,那么在回归模型中,它的系数 就取值为零。因此,检验变量xj是否显著,等价于检验假设:,回归系数的显著性检验应用t检验,具体检验方法同一元线性回归方程的t检验。 例2,某地区1973-1990年水稻产量y和水稻播种面积x1,化肥施用量x2,生猪存栏数x3以及水稻扬花期降雨量x4的数据资料,用回归分析过程对该地区水稻产量建立回归模型,并对回归系数进行显著性检验。,回归方程检验的小结,1.F检验是检验自变量全体对因变量y是否产生显著影响 2.t检验室检验每个自变量对因变量y是否产生显著影响。 3.当一个回归方程通过了F检验之后,并不能说明这个回归方程中所有的自变量都对因变量y有显著影响,因此,还要对回归系数进行检验。,三、回归系数的置信区间,应用spss软件计算回归系数区间估计。 线性回归分析主菜单中,单击statistics按钮,打开statistics对话框。 对话框Regression Coefficients栏用于选择输出与回归系数有关的统计量,选择其中的Confidence intervals 选项,就可以输出回归系数的95置信区间。 例:运用“中国民航客运量.sav”数据文件中的数据计算回归系数的置信区间。,四、多元回归方程的拟合优度检验,多元回归方程的拟合优度同样应用样本决定系数来检验。方法同一元线性回归方程。 在输出结果model summary 中。,3.4逐步回归,回归自变量的选择是建立回归模型的一个极为重要的问题。应用spss软件中回归方法的选择可以进行自变量的选择。 一、前进法(Forward) 二、后退法(Backward) 三、逐步回归法(Stepwise),一、前进法,前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。 具体作法是首先将全部m个自变量,分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回归方程的m个回归系数的F检验值,选择其中最大的F值,如果此F值大于F的临界值,则首先将xj引入回归方程,为了方便,设xj就是x1。 接下来因变量y分别与(x1,x2),(x1,x3),(x1,xm)建立m1个二元线性回归方程,对这m1个回归方程中x2,x3,xm的回归系数进行F检验,选择其中最大的引入回归方程。 依上述方法接着做下去。直至所有未被引入方程的自变量的F值均小于F的临界值。这时,得到的回归方程就是最终确定的方程。,例:运用水稻产量数据文件的资料对水稻产量y关于播种面积等4个变量作回归分析,用前进法做变量选择,取显著性水平,二、后退法,后退法与前进法相反,首先用全部m个变量建立一个回归方程,然后在这m个变量中选择一个最不重要的变量,将它从方程中剔除。 具体作法是首先计算所有变量的回归系数的F检验值,取其最小值Fj ,如果Fj小于0.5水平下的F临界值,则把回归系数检验的F值最小者对应的自变量剔除。 接下来对剩下的m1个自变量重新建立回归方程,进行回归系数的显著性检验,如上述方法剔除掉F检验值最小的自变量,依此下去,直至回归方程中所剩余的p个自变量的F检验值均大于临界值,没有可以剔除的自变量为止。这时得到的回归方程就是最终确定的方程。,例:例:运用水稻产量数据文件的资料对水稻产量y关于播种面积等4个变量作回归分析,用后退法做变量选择,取显著性水平,前进法与后退法的不足,前进法与后退法都有明显的不足。 前进法可能存在的问题是,不能反映引进新的自变量后的变化情况。因为某个自变量开始可能是显著的,但当引入其它自变量后它变得并不显著了,但是也没有机会将其剔除,即一旦引入,就是“终身制”的; 后退法的不足之处是,一开始把全部自变量引入回归方程,这样计算量很大,如果有些自变量不太重要,一开始就不引入,就可以减少一些计算。另外,一旦某个自变量被剔除,“一棍子就把它打死了”,它再也没有机会重新进入回归方程了。,三、逐步回归,逐步回归的基本思想是有进有出。 具体作法是:将变量一个一个引入,当每引入一个自变量后,对已经选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷,保证了最后所得到的回归子集时最优回归子集。,例:运用水稻产量数据文件的资料对水稻产量y关于播种面积等4个变量作回归分析,用逐步回归做变量选择。 注意:引入自变量和剔除自变量的显著性水平 进小于剔除自变量的显著性水平 否则可能产生“死循环”。,3.5应用spss软件选项进行多元线性回归分析,(1)线性回归过程:一元、多元逐步回归。 回归系数估计值、协方差矩阵、复相关系数R、因变量的最佳预测值、方差分析表 (2)对数据要求: 自变量和因变量必须具有Scale测度的数值型变量 标志或范畴变量 (3)因变量的所有观测值: 相互独立的等方差的正态总体,因变量和各变量之 间应具有一定的线性关系,线性回归过程,1、执行Analyze Regression Linear命令,打开对话框,线性回归过程,(1)从源文件量清单中选择一个数值型变量移入 Dependent框中,选择一个或多个变量作为自变量移入Independent 框中 (2)选择回归模型的自变量的进入方式 Enter 所有选择自变量全部进入方式 Stepwise 逐步回归方式 Remove 移除法(根据设定条件剔除部分自变量) Backward 向后剔除法 Forward 向前剔除法,线性回归过程,(3)参与分析的观测量选择规则 选择观测量的子集参与回归分析,将未选入这个子集的观测量排除在分析之外,线性回归过程,对话框中Define Selection Rule Equal to: 等于 Less than or equal: 小于或等于 Not equal to: 不等于 Less than: 小于 Greater than: 大于 Greater than or equal:大于或等于,线性回归过程,(4)从源文件量清单中选择一个指示变量加到 Case Labels 2、选项按钮的功能设置 (1)单击WLS按钮(权重变量) (2)单击Statistics 按钮,打开对话框,线性回归过程,对话框选择输出与回归系数有关的统计量 Estimates: 回归系数B的估计值、标准误差、标准化系数、t 分布 Confidence intervals: 回归系数95%的置信区间 Covariance: 协方差矩阵 残值栏 Durbin-Watson: DW检验,残值 的序列相关检验 Casewise diagnostics: 观测量的诊断方式,线性回归过程,其他统计量 Model fit 模型拟合(拟合优度统计量) R squared change: 交换、F交换及其显著性 Descriptives: 回归中的各变量的描述统计量 Part and partial correlation:相关系数与偏相关系数 Collinearity and diagnostics:多重共线性诊断,线性回归过程,(3)单击Plots按钮,打开Plots对话框 选择散点图变量,散点图 DEPENDENT:因变量 ZPERD:标准化预测值 ZRESID:标准化残值 DRESID:剔除残值 ADJPRED:经调整的预测值 SRESID:学生化残值 SDRESID:学生化剔除残值,线性回归过程,线性回归过程,选择Standardized Residual Plots 栏选项,标准化残值图 Histogram Residual: Normal probability plot: 对话框Produce all partial选项,输出每一个自变量对于自变量残差的散点图,线性回归过程,3、单击Save按钮,打开对话框,线性回归过程,(1) Predicated Value: 预测栏 Unstandardized: 未标准化的预测值 Standardized: 标准化的预测值 Adjusted: 经调整后的预测值 S.E of mean prediction value: 平均预测值的标准误差 (2) Distances: 距离栏 Mahalanobis: 马氏距离 Cooks: 库克距离 Leverage Value: 杠杆值,线性回归过程,(3) Prediction Int

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论