《商务统计分析 第2版》 课件 第9章 一元线性回归_第1页
《商务统计分析 第2版》 课件 第9章 一元线性回归_第2页
《商务统计分析 第2版》 课件 第9章 一元线性回归_第3页
《商务统计分析 第2版》 课件 第9章 一元线性回归_第4页
《商务统计分析 第2版》 课件 第9章 一元线性回归_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章

一元线性回归1第9章一元线性回归——目录9.1一元线性回归模型及其参数估计9.2一元线性回归模型的评估9.3利用回归模型进行预测9.4残差分析29.1.1一元线性回归模型9.1.2参数的最小二乘估计39.1一元线性回归模型及其参数估计4什么是回归分析?(Regression)回归分析是研究变量之间相互关系的一种统计分析技术。一般是将一个变量当做被影响变量,其他变量当做影响这一变量的因素。主要目的就是通过采集样本构建变量之间的关系模型,可以通过该模型预测被影响变量的取值。回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归5一元线性回归模型6一元线性回归一个自变量的回归因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependentvariable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示因变量与自变量之间的关系用一个线性方程来表示7描述因变量y如何依赖于自变量x和误差项

的方程称为回归模型一元线性回归模型可表示为

y为因变量,x为自变量

为截距,

为直线斜率和是模型的参数为一个随机变量,称为误差项,表示除x之外,其他因素或者是无法观测的因素对y的影响保持不变,y和x呈线性函数关系。8一元线性回归

一元线性回归模型——基本假定x=x3时的E(y)x=x2时y的分布x=x1时y的分布x=x2时的E(y)x3x2x1x=x1时的E(y)

0xyx=x3时y的分布

0+1x10一元线性回归模型——基本假定参数

0和

1的最小二乘估计11估计(经验)回归方程总体回归参数和

是未知的,要利用样本数据去估计用样本统计量

和代替回归方程中的未知参数和,就得到了估计的回归方程。简单线性回归中估计的回归方程为其中:表示y轴上的截距,是斜率,ŷ表示给定x的一个值,y的估计值或预测值,也是y

的期望E(y)的估计值。12

求解方程得

最小二乘法13

最小二乘法对于平面的n个点,可以使用无数条曲线进行拟合,需要选择一条尽可能更好地拟合这组数据的直线14估计方程的求法——实例例:某知名连锁餐饮企业在全国有很多连锁店,为研究它的营业收入和员工培训费用的关系,随机抽取25家连锁店,得到它们的年营业收入和员工培训费用的数据,数据如表所示,求营业收入和员工培训费用的估计的回归方程。15序号营业收入(万元)员工培训费用(万元)1213.4011.702248.0015.303513.4022.904390.8026.405598.0033.606312.4034.307480.2039.408601.6045.509821.8055.4010504.8060.8011870.6066.2012603.1070.1013872.3074.9014970.5078.6015643.2085.3016974.1090.40171060.5093.6018870.6098.80191180.50102.50201290.40107.80211380.10119.90221067.20127.50231472.40137.90241290.40149.50251590.90158.00估计方程的求法——实例例:根据例中的数据,将其输入SPSS进行分析得到以下结果。16回归系数=8.654表示,员工培训费用每增加1万元,营业收入增加8.654万元。估计方程的求法——实例例:根据例中的数据,将其输入SPSS进行分析得到以下结果。17

9.2.1判定系数9.2.2显著性检验9.2.3回归模型解释的注意点189.2一元线性回归模型的评估判定系数19离差平方和的分解因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的由其他随机因素导致的测量模型拟合好坏的方式就是测量x的值对于预测y值的贡献程度20离差平方和的分解(图示)xyy{}}

离差分解图21离差平方和的分解——三个平方和的关系1.从图上看有

2.两端平方后求和有SST=SSR+SSE总平方和(SST)回归平方和(SSR)残差平方和(SSE)22离差平方和的分解——三个平方和的意义

23判定系数R2

(coefficientofdetermination)1.回归平方和占总离差平方和的比例2.反映回归直线的拟合度3.取值范围在[0,1]之间4.R2

1,说明回归方程拟合的越好;

R20,说明回归方程拟合的越差5.一元线性回归中,判定系数等于相关系数的平方,即R2=r2

24判定系数——例题分析营业收入实例的判定系数的意义是:营业收入的变异性有87.3%可以由和员工培训费用之间的线性关系所解释,对于估计的回归方程,这个模型的拟合效果较高。25ModelSummaryModel RRSquareAdjustedRSquareStd.ErroroftheEstimate1.934a.873.867143.09319a.Predictors:(Constant),员工培训费用(续前例)显著性检验26回归方程总体的显著性检验——F检验检验自变量与因变量之间的线性关系是否显著具体方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数k)残差均方:残差平方和SSE除以相应的自由度(n-k-1)如果拒绝原假设,则两个变量之间存在显著关系如果不拒绝原假设,则没有证据表明两个变量之间存在显著关系27回归方程总体的显著性检验——检验步骤1.提出原假设和备择假设H0:H1:2.构造检验统计量

28

回归方程的显著性检验——方差分析表(续前例)方差分析表平方和均方

29回归系数的显著性检验——t检验30

估计方程的求法——实例31(续前例)回归系数的显著性检验——要点

329.3.1点估计9.3.2平均值的置信区间9.3.3个别值的预测区间339.3利用回归模型进行预测利用回归方程进行估计和预测回归模型主要的作用之一是用来对因变量进行预测。使用最小二乘法通过样本数据,求得估计一元线性回归方程。对该回归方程进行显著性检验和判定系数验证。使用该方程对因变量进行估计和预测。34点估计35点估计

36区间估计37区间估计点估计作为一个单一的值,不能提供有关估计量精度的相关信息。因此,在点估计的基础上,可以建立一个区间估计。对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计区间区间估计有两种类型置信区间估计

给定一个x值,y的平均值的一个区间估计预测区间估计

给定一个x值,y的个别值的一个区间估计。38置信区间估计y的平均值的置信区间估计利用估计的回归方程,对于自变量x的一个给定值x0

,求出因变量y的平均值E(y0)的估计区间,这一估计区间称为置信区间。

E(y0)

在1-

置信水平下的置信区间为s为估计标准差39预测区间估计

s为估计标准差40区间估计——算例【例】根据前例,求出求出每个给定的员工培训费用水平下,年营业收入的置信区间和预测区间

解:SPSS输出结果如下:41序号预测值置信下限置信上限预测上限预测下限1274.24496164.78344383.70648-41.35642589.846342305.39769200.21837410.57701-8.74415619.539533371.16456274.75162467.5775059.84823682.480904401.45194308.92826493.9756191.31804711.585845463.75739378.87091548.64388155.81564771.699146469.81487385.64102553.98872162.06880777.560947513.94790434.77945593.11635207.53307820.362738566.73447493.05460640.41433261.69164871.777309652.40447586.15170718.65725349.06995955.7390010699.13357635.96222762.30491396.457131001.8100011745.86266684.94920806.77612443.649401048.0759212779.61145719.76256839.46034477.610961081.6119413821.14842761.91486880.38198519.269271123.0275714853.16650793.86969912.46331551.274941155.0580715911.14519850.55280971.73759608.996481213.2939016955.27822892.731461017.82499652.731531257.8249217982.96954918.804671047.13441680.084191285.85489181027.96792960.594571095.34128724.386681331.54917191059.98601989.939911130.03210755.800441364849751031.488431180.21107800.641601411.05789211210.557531124.647251296.46780902.331991518.78306221276.324401182.261941370.38686965.727961586.92084231366.321171260.319861472.322481051.903171680.73918241466.702191346.620681586.783691147.262091786257241409.491371671.023111216.649271863.86521区间估计——算例【例】根据前例,求出每个给定的员工培训费用水平下,年营业收入的置信区间和预测区间

解:SPSS输出结果如下:42影响区间宽度的因素

43置信区间、预测区间、回归方程预测上限置信上限预测下限置信下限

x处两区间宽度最小449.4.1误差的均值为零9.4.2误差的正态性9.4.3误差的方差齐性9.4.4误差的独立性9.4.5异常值和有影响的观测459.4残差分析残差分析

46误差的均值为零47误差的均值为零——残差图该图为非随机模型,残差呈二次曲线的形状,残差的范围可以分为三段,较小的x对应的残差在0水平线之上,中等的x对应的残差在0水平线之下,较大的x对应的残差又在0水平线之上,这说明随机误差

的均值在x取值的三段范围内可能不为0。因此可说明该回归模型所对应的误差的均值为0的假设不成立,需要重新检查回归模型是否合理。48误差的均值为零——残差图49

误差的正态性50误差的正态性51检验随机误差项ɛ是否近似于正态分布,可通过标准化残差图进行判断。每个残差除以其标准差就得到了标准化残差。

其中,误差的正态性——算例52要满足正态性假设,标准化残差至少大约有95%都应该落在-2到+2之间的区域,从该例的图中可以看出,ɛ

是近似服从于正态分布。误差的正态性——算例53除标准化残差图之外,标准化残差的直方图和正态概率也可以确定误差项ɛ

是否服从正态分布。从标准化残差直方图来看,中间稍低,左右两侧不完全对称,有一定瑕疵。误差的正态性——算例54从标准化残差的P-P图来看,虽然散点并没有全部靠近斜线,并不完美,但较多的点聚集在45度直线附近。综合而言,残差正态性结果不是最好的,但也可以接受误差项ɛ

服从正态分布。误差的方差齐性55误差的方差齐性56利用残差图,还可以帮助判断误差项的方差是否恒定,即方差齐性的判断。虽然残差整体形状不同,但残差的取值范围都是随着自变量x的增大而增大,这就是意味着残差随着x的增大而增大,残差的方差并不是一个恒定的值。误差的方差齐性57残差范围呈梭子状,取值范围先随着x的增大而增大,然后又随着x的增大而减小,很显然残差的也不是恒定的值。误差的方差齐性58如果ɛ的方差相等的假设成立,而且回归模型也是合理的,那么残差图中残差点,应该随机地落在一条水平带之内。误差的独立性59误差的独立性60误差的独立性假设要求一系列误差变量之间是不相关的。这个假设不总是满足,尤其在时间数据中表现比较明显。为了验证在该类数据中的误差独立性假设是否满足,可以绘制残差与时间的关系图来实现。如果残差-时间图呈现了某种规律,说明各个残差之间可能存在某种相关性,那么很有可能就不满足独立性要求。误差的独立性——自相关61呈现出正负误差交替出现的规律,因此不满足误差独立性的假设。呈现出误差值随着时间递减的规律,因此也不满足误差独立性的假设。误差的独立性62各误差点之间是随机分布,误差之间相互独立。误差的独立性——D-W检验63Durbin–WatsonTest,通过统计检验方法验证残差独立性是否满足。检测误差项之间是否存在一阶自相关,即误差项和是否存在某种关系,其中i表示时间间隔。决策准则:

异常值和有影响的观测64异常值检测——识别65异常值可通过数据集的散点图进行识别。如图,除了一个点外,散点图的其他数据点大致呈负线性关系,因此可以认为该观测值为一个异常值,检测人员需要核查该异常值是什么原因导致的。除了散点图,标准化残差也可用于识别异常值。异常值有影响的观测值66有影响的观测值是指对模型回归结果有重大影响的观测值。一个有影响的观测值可能是一个异常值(和其他值的y值有很大偏离),或者和其他值的x值有很大偏离。当出现有影响的观测值时,因为其对回归方程有重大影响,因此必须仔细检查。有影响的观测值——散点图67有影响的观测值可通过散点图进行识别。左图展示了在一元线性回归模型中存在有一个影响观测值的回归直线,很显然,该回归直线的斜率为正。此时,如果我们将有影响的观测值删除,回归直线变为右图所示,直线斜率变为负值。有影响的观测值——杠杆率68有影响的观测点还可通过计算杠杆率来识别。自变量具有极端值的观测值称为高杠杆率点。第i个观测点的杠杆率的计算公式:一个高杠杆率的点并非是一个有影响的观测值,有影响的观测值是大的残差和高杠杆率的共同作用产生的。有影响的观测值——库克距离测度69既考虑到观测点残差的大小,又考虑了杠杆率的影响。第i个观测点的库克距离测度:如果一个观测点的残差和杠杆率都比较大,那么其库克测度距离也比较大,那么这个观测点就是一个有影响的点。案例分析——星级饭店盈利预测70案例背景71随着全面建成小康社会的逐步推进,旅游已经成为人民日常生活的重要部分,全国的旅游行业发展也日益高涨。2018年,文旅行业开启融合发展,促进了国内旅游市场的持续增长。统计数据显示,2018年国内旅游人数达到55.39亿人次,旅游业对GDP综合贡献为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论