第10讲-回归分析_第1页
第10讲-回归分析_第2页
第10讲-回归分析_第3页
第10讲-回归分析_第4页
第10讲-回归分析_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1线性回归据英国媒体2008年2月18日报道,通过对过去20年里定期在东京和大阪街头进行的随机调查发现。当日本经济迅速发展时,女性更愿意留长头发;而当经济出现停滞时,她们更愿意更多地剪短发…

环球时报,2008年2月20日

管理决策,经常取决于对两个或更多个变量的分析。例如:一位销售部经理在考虑了广告费和销售收入之间的关系后,才能尝试去预测一定水平的广告费可能带来多少销售收入。通常,一位管理人员要依靠直觉或经验去判断两个变量的关系。但是,如果能取得数据,我们就能利用统计模型(如回归分析)去建立一个表示变量间相互关系的方程,来做预测。4预测需要建立统计模型“没有哪一个模型是对的,但是的确有一些模型是有用的。”

Allthemodelsarewrong,butsomeareuseful.---Box,G.模型提供了一种参照(Benchmark),从而减少了你决策过程当中由于不确定因素存在而带来的困惑。线性回归的是干啥的?线性回归是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。解释变量之间的关系;经济发展同女性头发的关系。预测未来;通过广告花费才预测企业未来的销售量。历史渊源回归(regression)到什么?SirFrancisGalton

(1822-1911)7案例一:比格比萨饼连锁店比格比萨饼连锁店坐落在大学校园附近。管理人员确信,这些连锁店的季度销售收入(用y表示)与学生人数(用x表示)是正相关的。问题:y如何依赖于x?8数据假定由位于大学校园附近的10家比格比萨饼连锁店组成一个样本。9散点图10相关系数可以告诉你什么?不能告诉你什么?

相关系数为0.95。变异性的分解

为什么不同连锁店的季度销售收入存在差异?一种理解模式:误差项ε,包含了x之外的对y的变异有影响的其它因素。简单线性回归模型这个模型表达了y与x之间的什么关系?问题:此模型的假设是什么?

当x=某一个值时,y服从什么分布?它期望的均值是多少?针对具体样本应该选择一条什么直线14最小二乘法对回归系数的最小二乘估计1415最小二乘估计找以及使得如下的平方和最小最小二乘估计问题:估计出来的回归系数是样本观测值的函数?它们会随着样本的不同而变化吗?问题I:估计出来的回归系数是样本观测值的函数?它们会随着样本的不同而变化吗?问题II:估计出来的回归系数是参数还是统计量?样本回归系数17课堂案例的回归直线如何解释60和5?1819关于回归系数的假设检验需要检验假设的抽样分布?1920抽样分布假定各观测的误差项独立,并且都来自于分布那么,最小二乘估计的抽样分布为

21关于回归系数的假设检验问题检验统计量由N-P原则可以推出拒绝域:p值:2122案例一:假设检验23对样本数据变异性的分解24拟合值和残差拟合值(fittedvalue):根据样本数据估计出来的回归线,记为残差(residual):对数据拟合回归线后剩余的部分,记为样本数据可以分解成拟合值加残差。25对样本变异性的分解xy拟合值残差25870-1261059015888100-1281181001812117120-316137140-320157160-320169160922149170-212620219012方差1747.7781577.778170XY27判定系数27含义:总变异中能被估计的回归方程解释的比例28比萨案例一的判定系数对于比格比萨饼连锁店的例子 判定系数=0.903表明:季度销售收入变异性的90.3%能被估计的回归方程所解释。案例继续:比萨店盈利预测研究问题:预测某地区比萨店销售收入。y:比萨店的销售收入x:周边学校学生人数;学校学生的平均开支。良好的预测取决于你对问题的认识!比萨店数据学生人数(千人)平均支出(千元)销售收入(千美元)20.815860.92105880.851.0288118120.93117161.13137202022261.200.941.281.3815716914920231自变量误差项多元线性回归因变量参数:对x1-x2的回归系数参数:截距回归系数32最小二乘法对回归系数的最小二乘估计3233判定系数33总变异中能被估计的回归方程解释的比例34关于回归系数的假设检验需要检验假设的抽样分布?3435抽样分布假定各观测的误差项独立,并且都来自于分布那么,最小二乘估计的抽样分布为

36关于回归系数的假设检验问题检验统计量拒绝域:p值:36回归结果输出

参数估计标准误差P值截距项54.0738.100.20x14.841.190.005X27.8648.770.87

Review-回归模型

建立回归模型的步骤:

Step1:了解数据画散点图看相关系数表

相关系数为0.95建立回归模型的步骤:

Step2:建立模型问题:当x=某一个值时,y服从什么分布?41图示回归方程xy回归直线x1x2x=x1时y的分布回归分析回归的目的(实质):由固定的解释变量x去估计因变量y的平均值常数项(截距),当所有的=0时,y的平均值。回归系数(regressioncoefficient):

在其它自变量保持不变时,增加或减少一个单

位时y的平均变化量。

包含了p个解释变量之外的对y的变异有影响的其它因素。多元线性回归模型的一般形式建立回归模型的步骤:

Step3:模型估计针对具体样本应该选择一条什么直线?办法:最小二乘估计

找使得如下的平方和最小问题:估计出来的回归系数是样本观测值的函数?它们会随着样本的不同而变化吗?当p=1时建立回归模型的步骤:

Step4:解读模型(1)y总变异中能被估计的回归方程解释多少比例(2)所有的x是否与y之间存在一个显著的关系(3)检验y与每个x之间是否存在关系(1)y总变异中能被估计的回归方程解释多少比例为什么y存在差异?(y的变异)一种理解模式:误差项ε,包含了p个解释变量之外的对y的变异有影响的其它因素。总变异中能被估计的回归方程解释的比例对于Armand比萨饼连锁店的例子 判定系数=0.903表明:季度销售收入变异性的90.3%能被估计的回归方程所解释,

或者说季度销售收入变异性的90.3%能被校园的学生人数所解释。(3)检验y与每个x之间是否存在关系

检验检验统计量一般的回归结果输出

参数估计标准误差P值截距项54.0738.100.20x14.841.190.005X27.8648.770.87

51回归模型的诊断回顾一下对模型的设定1)

回归函数是直线;2)是服从正态分布N(0,)的.

2.1)对于所有的x,的均值为0.2.2)对于所有的x,的方差为.3)对于不同的x,误差项是相互独立的.

这些假定对于检验回归系数检验提供了理论上的依据。如果关于误差项的假定不可靠,那么有关回归关系的显著性检验会站不住脚。

所以建完模型后,我们应该先“诊断”

后“读结果”。53诊断模型的工具:残差分析什么是残差?残差可以看作是误差的代表。分析残差是对模型进行诊断的重要手段。

54利用残差图来诊断模型残差图通常是指残差与拟合值的散点图如果模型是比较合适的,那么残差图上的点应该落在一条水平带中间,除此之外,残差图上的点不应呈现出什么规律性。55Armand案例的残差图56Reynolds公司的销售人员

Reynolds公司是一家生产工业天平和实验室设备的企业。公司管理人员想要对公司销售人员的工作年限和天平的销售数量之间的关系进行研究。他们随机抽取了15名销售人员,利用相应的数据资料得到了他们近期的销售数量对工作年限的简单线性回归方程,SALES=111+2.38MONTHS。观察该回归方程的残差图(见下页),你觉得哪些地方存在问题,如何进行更改?57Reynolds公司案例残差图58对Reynolds案例的诊断残差图呈现出有规律的曲线形态,说明线性回归形式选择不适当,建议改用二次函数即抛物线型的回归曲线或者其它曲线形式。59二次曲线回归的结果自变量系数系数标准误TP常量45.3522.771.990.070MONTHS6.3451.0586.000.000MONTHS2-0.0344860.008948-3.850.002R-Sq=90.2%60二次曲线回归的残差图61衡量广告的效果

Superbrands’98(1997.10.20)给出了10种主要品牌的啤酒的广告费用(百万美元)和销售数量(百万桶)的统计资料,根据该数据可以得到销售量对广告投入的回归方程,SALES=4.089+0.196AD,对应的残差图见下页。你根据该残差图能够得出什么结论?62Superbrands’98案例残差图63对Superbrands案例的诊断结论在残差图可以看出,残差的波动幅度前后呈现出明显的差异,属于异方差情况(Heteroskedasticity),说明在回归模型中对误差项作的等方差假设是不合适的。建议对因变量做变换,比如ln(y)、或者

1/y等等,再对变换后的因变量建立线性回归模型。64以取对数的销售额建立的回归自变量系数系数标准误TP常量1.61230.130012.400.000AD0.01490.00226.830.000R-Sq=85.4%65新的模型的残差图66标准化的残差残差的标准化这里的标准化也称为学生化(Studentized)。

标准化残差图能对随机误差项服从正态分布的假定提供一种直观的认识。如果这一假定被满足,那么标准化残差的分布也应服从标准正态分布。于是我们应期望看到,大约95%的标准化残差都落在-1.96到1.96之间,或约为-2到2之间。Armand案例的标准化残差图判断残差是否服从正态分布

正态概率图识别异常值异常值(Outlier)是指残差异常大的观测。识别方法:标准化残差落在[-3,3]之外的观测值被认为是异常值识别异常值之后:检查是否输入数据错误,如果是,则改正数据;否则,也应当保留该观测,而不是简单地删除。具有异常值的数据异常值:观测值偏离了散点图中的趋势72识别影响点影响点(InfluentialObservation)是指对回归结果具有很大影响的观测。73具有影响点的例子影响点:观测值相当大的偏离了散点图中的趋势,或远离自变量x的平均值,或两者皆有。74保留和剔除影响点的差异保留影响点时的回归直线剔除影响点时的回归直线影响点异常值不一定是影响点,反之,影响点的残差也可以很小,不一定是异常值。识别影响点的方法:杠杆率和Cook距离识别之后:建议应该同时报告包含影响点和除去影响点的两种回归结果。Armand案例的杠杆率图识别影响点的方法:杠杆率比较大(大于3(p+1)/n)杠杆率是更具自变量x的值与它们的平均值的远近来确定的。但是高杠杆率的观测未必对估计的结果影响很大。Armand案例的Cook距离图识别影响点的方法:Cook距离D比较大(>1).78多重共线性问题79HOTDOG案例

Dubuque是一家热狗生产厂家,他们最近收到信息说,BallPark,一家与他们竞争的品牌,将会降低他们两种热狗(常规热狗和全牛肉热狗)的价格。公司内部围绕这是否会给他们现在的市场份额带来负面影响展开了争论,有人认为应该采取相应的措施来保护已有的市场份额,也有人说OscarMayer才是他们的主要竞争对手,可以不必采取任何措施。你觉得应该如何处理这一问题?80需要分析的问题Dubuque的价格怎样影响到它的市场份额?OscarMayer的价格会影响到Dubuque的市场份额吗?BallPark的价格影响到Dubuque的市场份额吗?OscarMayer和BallPark谁是Dubuque主要的竞争对手?81数据说明Mktdub

Dubuque热狗的市场份额;Pdub

Dubuque热狗的市场价格;Poscar

OscarMayer热狗的市场价格;Pbpreg

BallPark常规热狗的市场价格;Pbpbeef

BallPark全牛肉热狗的市场价格。82直接以市场份额为因变量的回归自变量系数系数标准误TP常量0.040300.014122.850.005pdub-0.000759770.00008092-9.390.000poscar0.000262230.000084273.110.002pbpreg0.00034730.00033161.050.297pbpbeef0.00010250.00029380.350.728R-Sq=52.6%83对应的残差图84以市场份额的对数为因变量的回归自变量系数系数标准误TP常量-3.39970.3553-9.570.000pdub-0.0201790.002036-9.910.000poscar0.0065850.0021203.110.002pbpreg0.0077050.0083430.920.358pbpbeef0.0051840.0073910.700.485R-Sq=56.8%小心地处理系数的p值比较大的变量,切记:你不应该马上把那些p值较大的自变量都消除!85对应的残差图86自变量之间的相关系数

pdubposcarpbpregpbpbeefpdub1.000000.484430.359280.32257poscar0.484431.000000.548810.53368pbpreg0.359280.548811.000000.97938pbpbeef0.322570.533680.979381.0000087多重共线性问题在多元线性回归模型中,多重共线性性(Multi-collinearity)问题是指自变量之间存在着比较强的线性相关关系。多重共线性存在时会使得最小二乘系数估计的标准误差增大,从而使得相应的t统计量减小和p值增加。88识别多重共线性自变量的相关矩阵;方差膨胀因子(VarianceInflationFactors,

简记作VIF):刻画了相比多重共线性不存在时回归系数估计的方差增大了多少。VIF越大说明多重共线性问题越严重。经验法则:VIF>1089同时考虑BallPark的两个价格

方差膨变量系数系数标准误TP胀因子常量-3.39970.3553-9.570.000pdub-0.0201790.002036-9.910.0001.362poscar0.0065850.0021203.11

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论