《商务统计分析 第2版》 课件 第10章 多元线性回归_第1页
《商务统计分析 第2版》 课件 第10章 多元线性回归_第2页
《商务统计分析 第2版》 课件 第10章 多元线性回归_第3页
《商务统计分析 第2版》 课件 第10章 多元线性回归_第4页
《商务统计分析 第2版》 课件 第10章 多元线性回归_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章

多元线性回归1第10章多元线性回归——目录10.1多元线性回归模型及其参数估计10.2多元线性回归模型的评估10.3多重共线性10.4一般线性模型10.5定类自变量10.6变量选择与逐步回归10.7利用回归模型进行预测10.8利用回归模型进行因果分析2

310.1多元线性回归模型及其参数估计4

10.1多元线性回归模型及其参数估计

10.1多元线性回归模型及其参数估计

10.1多元线性回归模型及其参数估计7例:某运输公司的主要业务是为它的周边地区运送货物。为了制定最佳的工作计划,公司的管理者希望估计出他们的司机每天行驶的时间。公司的管理人员认为,货车行驶的里程数和运送货物的次数都会影响到司机的行驶时间。经过统计,他们得到的数据如表10-1所示。表10-1运输公司货车的行驶里程数、运送货物次数与行驶时间10.1多元线性回归模型及其参数估计运输任务行驶里程(公里)运送货物次数行驶时间(小时)15024.6524513.05332.523437.523.954013.165013.257251245103523.25810.1多元线性回归模型及其参数估计模型平方和自由度均方F显著性回归4.87722.43938.034残差.4497.064

总计5.3269

表10-2

方差分析表910.1多元线性回归模型及其参数估计

模型未标准化系数B

标准误差标准化系数Beta

t

显著性共线性统计容差VIF(常量)-.499.470

-1.063.323

行驶里程.062.010.6866.216.000.9901.010运送货物次数.897.164.6025.458.001.9901.010表10-3运输公司货车行驶时间的二元回归模型的参数估计和检验回归系数的解释:

在控制其他变量不变的情况下,每增加一单位的行驶里程,行驶时间增加0.062单位;同理在控制其他变量如行驶里程不变的情况下,每增加一单位运送货物次数,行驶时间增加0.897单位。1010.2多元线性回归模型的评估在多元线性回归模型中,我们同样可以定义总平方和(SST)、回归平方和(SSR)和残差平方和(SSE

)。具体的形式分别为:与一元线性回归模型一致,SST、SSR和SSE满足:

1110.2多元线性回归模型的评估

1210.2多元线性回归模型的评估

1310.2多元线性回归模型的评估14

10.2多元线性回归模型的评估

15,10.2多元线性回归模型的评估

1610.3多重共线性

1710.3多重共线性一般线性模型(generallinearmodel,GLM):描述一个因变量与多个自变量之间的线性关系的方程模型,对于含有

个自变量的模型其一般形式为:

称为截距参数,称为斜率参数,变量表示误差项或干扰项。自变量并不仅仅是单个变量本身,它可以是关于观测变量的函数,如,。1810.4一般线性模型

含单变量多项式的模型是指:自变量只能取关于某个自变量的一阶或多阶函数。1910.4.1含单变量多项式的模型

令,化为一般线性模式:对于模型:只是关于自变量的一阶函数,而与其他自变量无关。

对于模型:

是交互作用项。

2010.4.2含交互项的模型例:为加强国内青少年的体育锻炼活动,助使其具有一个健康的身体和强健的体魄,各大高校纷纷开展了有奖竞跑的夏季“夜跑”活动,对于参加夜跑的学生当天即可抽取丰厚大奖。现考虑某高校每晚参加夜跑活动的学生人数,经过调查发现,影响参加夜跑活动人数的主要因素有两个:天气的温度、奖品的价值。记录一个月(30天)的参加夜跑的人数得到数据见表10-3,试建立一般线性模型,并分析自变量之间是否存在交互作用。2110.4.2含交互项的模型当天温度/℃奖品价值/元参加人数/人当天温度/℃奖品价值/元参加人数/人1520080155001121720091165001181920012018500182202001212150020822200142215002102320014422500215232001452450023924200149245002482520015225500250262001562550025328200165295002753020017230500286332001863250029334200185355002813620018837500272解:设参加人数为因变量,当天温度和奖品价值分别为自变量。当分别取200元、500元时,考虑对

的影响:22解:从图中可以看出奖品价值设为500元比奖品价值设为200元能吸引更多的学生来参加本次夜跑活动,且不同奖品够吸引的人数之差依赖于当天的温度。这种观测结果也就间接性的说明了当天温度和奖品价值之间的潜在的交互作用。10.4.2含交互项的模型23建立模型:10.4.2含交互项的模型变量替换,得:交互项“温度和价值”的显著性是0.038,交互项的影响是显著的。结论:当天温度和奖品价值之间的交互作用对参加人数的影响是显著的,即当天温度对参加人数的影响依赖于奖品价值。表10-7模型的参数估计和检验模型非标准化系数标准系数tSig.共线性统计标准误差容忍度VIF(常量)当天温度(℃)奖品价值(元)温度和价值8.88139.635

.224.824

3.2721.541.3332.123.043.1496.720.061.102.151.600.554.05817.299.009.004.6342.190.038.04422.915设劳动人员年薪为因变量(万元),接受教育年数为自变量(年),建立模型:2410.4.3变量的对数变换工资的变化量为:

工资的比例变化为:期望结果:每增加一年的教育,工资增长的比例是不变的,而不应是工资的增长量是不变的。为了得到工资比例变化近似为常数的模型,对因变量取对数:2510.4.3变量的对数变换工资的比例近似变化为:若样本回归方程为:(常数)

此时对方程的解释为:每多接受一年的教育,工资会增加约。当变化较小时:对自变量进行对数变换:2610.4.3变量的对数变换何时取对数?使用对数线性模型的经验法则:使用对数时,变量不能取0或者负值。对于钱、人数、产品数等大的正整数,通常可以取对数。以年度量的单位,通常以原有形式出现,例如年龄、工作年限、教育年数等。在回归模型中,除了需要考虑定量因素对因变量的影响,一些定性因素对因变量的影响往往也不可以忽略。例如,研究影响二手车价格的因素时,里程表计数可以作为一个定量自变量,而销售商认为颜色也是影响二手车价格的一个因素,这时需要将二手车的颜色作为一个定性自变量引入模型之中。2710.5定性自变量

2810.5定性自变量——在模型中引入定性变量

对于更复杂的定性变量,记定性变量的水平数为k,那么需要定义k-1个虚拟变量。例如,在研究某品牌电脑在各商店的销售数量时,管理人员认为付款方式也是影响销售数量的一个重要因素。因为有现金支付、刷卡支付、移动支付三种付款方式,所以需要定义2个虚拟变量。每个虚拟变量被定义为如下形式,2910.5定性自变量——在模型中引入定性变量

付款方式现金支付10刷卡支付01移动支付00

在回归模型中引入定性变量有多种方式,各种方式对回归模型的影响不同。为了直观地阐释定类变量不同的引入方式对回归模型的影响,接下来以决定小时工资的基本模型

进行说明(y:工资,x1:教育水平)。30

10.5定性自变量——含有定性变量的回归(1)引入定性变量此时定性变量的不同取值改变的是模型的截距项,体现了性别和婚姻状况对小时工资的影响。将x2(性别)和x3(婚姻状况)引入基本模型(2)定性变量之间的交互作用3110.5定性自变量——含有定性变量的回归此时含有交互作用的定性变量的不同取值改变的也是模型的截距项,体现了性别和婚姻状况对小时工资的影响。将性别和婚姻状况的交互项x2x3引入模型32

10.5定性自变量——含有定性变量的回归(3)定性变量与非定性变量的交互作用此时定性变量的不同取值不仅改变了模型的截距项,还改变了模型的斜率项,体现了性别在受教育回报上的差异。将教育水平和性别的交互项x1x2引入模型33例:中国进出口贸易总额数据(1950-1984)见表10-5-2。试检验改革开放前后该时间序列的斜率是否发生变化。(数据见表10-6中国进出口贸易总额数据(1950-1984))解:由于年份数据值较大,首先将其处理为时间x1列。定义虚拟变量x2如下:以时间x1为自变量,进出口贸易总额y为因变量,为了检验改革开放前后该时间序列的斜率是否发生变化,同时引入虚拟变量x2及其与时间的交互项x1x2。

10.5定性自变量3410.5定性自变量统计软件输出的结果如表10-10和表10-11所示:表10-12模型的参数估计和检验表10-11方差分析表

由上式可知,斜率项和截距项都发生了变化;于是得出结论:改革开放前后该时间序列的斜率发生了变化。因为各系数的估计值通过检验,所以估计结果如下:

向前选择(forwardselection):从模型没有自变量开始,逐个选入自变量。步骤如下:对于因变量y的k个自变量分别建立一元线性回归模型,对于这k个模型分别计算F统计量,将拥有最大且显著F统计量的模型的自变量选入模型;对剩余的k-1个自变量分别加入模型,计算F统计量,选择使F统计量最大且显著的自变量进入模型;反复以上过程,直到自变量均无统计显著性。35

10.6变量选择与逐步回归——向前选择向后剔除(backwardelimination):与向前选择法相反,从自变量全部进入模型开始,逐个剔除自变量。步骤如下:将所有k个自变量加入模型进行拟合,然后建立k个剔除一个自变量的回归模型,每个模型都含有k-1个自变量。计算k个模型的SSE,选择F统计量最小且不显著的自变量进行剔除;建立k-1个回归模型,每个模型中有k-2个自变量,比较每个模型增大的SSE值,选择F统计量最小且不显著的自变量进行剔除;反复以上过程,直到删除任何自变量SSE均有显著变化为止。36

10.6变量选择与逐步回归——向后剔除逐步回归(stepwiseregression):综合了向前选择和向后剔除两种方法进行自变量的选择。步骤如下:前两步与向前选择相同,但是在加入一个自变量之后,要对之前所有自变量进行考察,确定是否需要剔除变量。如果在增加了一个自变量后,之前的某个自变量对模型的作用不再显著,则需要剔除变量;反复进行这个过程,不断增加变量和剔除变量,直到增加变量不会导致SSE显著减小为止。37

10.6变量选择与逐步回归——逐步回归38例:城镇居民的平均工资受多种因素的影响,如教育水平、直接投资、基础设施、外资开放度、第三产业增量,等等。为分析平均工资的影响因素,选取2016年31个省市的国家统计数据,如右表所示,用逐步回归法建立回归方程。省市编号平均工资教育水平直接投资基础设施外资开放度产业结构11199280.03474276.29540.07731.18430.80232863050.04173751.94970.09730.74580.56443553340.0208742.50880.03680.22720.41544537050.0260680.42190.03400.28340.55455610670.021866.74410.01040.18550.43786560150.02882574.16280.03840.76190.51557560980.0295620.24280.02720.26070.42458524350.024672.33150.01310.27470.540491199350.026719014.30860.07892.81810.697810715740.027821651.13470.02730.72280.500011733260.02275000.71630.02550.72890.509912591020.0235874.80690.03010.22730.410513619730.02473917.76860.02640.98400.428814561360.0282773.12360.02400.37400.419715625390.02525477.53760.03500.41940.466816495050.02483288.67060.03350.19910.417817598310.0305707.07120.02210.27480.439418582410.0226416.94020.02220.21160.463719723260.021731237.70830.02341.48030.520120578780.0207646.92800.02200.24480.395621616630.0255479.93510.02950.65630.542522655450.03032214.05790.02530.31310.481323639260.02192074.23920.00950.31490.472324662790.019420.19620.01870.12830.446725604500.017032.37730.00940.27640.4668261032320.01340.00610.00070.20500.526727596370.03671434.37150.02240.30690.423528575750.02211.70410.00900.28870.514129665890.01280.27550.00320.17100.428130655700.021729.71430.01960.20550.454031637390.016412.99010.00350.15280.451210.6变量选择与逐步回归——逐步回归3910.6变量选择与逐步回归——逐步回归解:由统计软件输出的逐步回归结果如下各表所示模型标准估算的错误1.795.632.61910778.995表10-15

模型概要模型已输入变量已除去变量方法1产业结构.步进(准则:进入的概率F<=.050,删除的概率F>=.100)。表10-14变量的进入和移出模型平方和df均值差值FSig.1回归5790869774.07115790869774.07149.841.000b残差3369415317.34829116186735.081

总计9160285091.41930

表10-16方差分析表4010.6变量选择与逐步回归——逐步回归解:由统计软件输出的逐步回归结果如下各表所示根据以上的回归结果,该模型最终的估计方程为:

模型非标准化系数标准系数tSig.标准误差1(常量)-12372.86911410.429

-1.084.287产业结构162636.32223036.894.7957.060.000表10-17模型的参数估计和检验模型tSig.偏相关共线性统计容忍度1教育水平-.128-1.073.292-.199.889直接投资.1211.012.320.188.890基础设施.080.543.591.102.606外资开放度.2621.789.084.320.551表10-18模型移出变量41例:在此沿用上例,对城镇居民的平均工资进行预测,统计软件的输出结果如右表所示10.7利用回归模型进行预测省市编号平均工资点估计值置信下界置信上界预测下界预测上界1119928118113.78102790.02133437.5491265.64144961.9228630579412.7674066.9384758.5956728.34102097.1835533455179.3949941.6760417.1032520.2077838.5745370577811.3172765.4882857.1455195.71100426.9156106758834.6854220.2063449.1536311.3981357.9665601571459.0167295.4575622.5749023.7793894.2675609856672.6251707.3061637.9334074.8479270.3985243575518.9470855.5580182.3352985.5898052.299119935101113.8290471.35111756.2976633.89125593.76107157468939.9564941.3772938.5346534.7491345.17117332670548.8666459.1474638.5848127.2092970.52125910254382.6248990.9959774.2631687.3777077.88136197357365.1052518.1962212.0034793.0579937.15145613655893.5150788.8260998.1933264.7078522.31156253963540.6559455.2467626.0541119.7785961.52164950555579.1850416.5560741.8232937.2478221.13175983159082.0754503.9963660.1636566.2281597.93185824163049.1258926.3267171.9140621.4085476.83197232672210.7467974.7876446.7149761.9594659.54205787851972.4746084.5557860.3929154.2274790.72216166375858.9071142.7480575.0653314.5698403.24226554565902.9361930.3669875.5043502.3488303.52236392664446.7260417.9468475.5042036.1086857.34246627960281.5455867.6464695.4337798.4982764.58256045063544.8459459.7367629.9441124.0285965.652610323273289.4368932.6177646.2450817.5195761.34275963756497.6951501.6461493.7533893.1579102.24285757571231.9167088.2275375.6048800.3493663.47296658957254.0852388.5662119.6034678.0379830.14306557061464.5457191.0365738.0639008.6383920.45316373961004.8556679.4765330.2338539.0283470.69城镇居民平均工资预测表42点估计值表示给定自变量值的条件下对应的因变量的预测值,例如,第31组数据实际平均工资为63739,利用回归方程预测的平均工资为61004.85;置信下界和置信上界表示平均值的置信区间的下界和上界,预测下界和预测上界表示个别值的预测区间的下界和上界,例如,实际工资为63739的省市,均值95%的置信区间为[56679.47,65330.23],个体预测95%的预测区间为[38539.02,83470.69]。10.7利用回归模型进行预测43回归系数的进一步解释偏效应(partialeffect)是指在其他自变量保持不变条件下,某自变量(解释变量)对因变量(被解释变量)的效应。在获取样本时,我们很少能够奢侈到限制某些变量使其保持不变。多元回归分析的作用在于,尽管不能在其他条件保持不变的情况下收集数据,但它提供的系数仍然可以做其他条件不变的解释。多元回归使我们在对自变量的值不施加限制的情况下,能有效地模拟施加限制时的情况。使得我们能够在非实验的环境中,去做自然科学家在受控实验室中所能做的事情:保持其他因素不变。10.8利用回归模型进行因果分析44

10.8利用回归模型进行因果分析2018年9月30日上映的由庄文强执导的犯罪动作电影《无双》,赢得了口碑、票房的双丰收2017年7月27日,由吴京执导的动作类电影《战狼2》,更是霸屏各类网站头条,以56.8亿元雄踞国产片电影榜首2017年8月上映的由王宝强执导的处女作《大闹天竺》,未播先火,王宝强,岳云鹏,柳岩,王祖蓝,刘昊然,黄渤等都是票房号召力演员,最终却烂尾收场似乎光靠广告、明星、导演就可以吸金的时代已不复存在,互联网的发展,社会化网络的普及(微信、微博)使得观众评价信息更快速地传播,其作用也日益彰显。为此,研究观众评价如何影响电影票房及其趋势是一个亟需解决的问题,对制片方以及出品方更具有直接的现实意义。45中国电影票房案例分析—案例背景本案例以中国2011-2017年豆瓣上映的1246部电影为样本,运用多元线性回归模型,分析观众评价对电影票房的作用及其变化趋势。模型包括电影票房、评分、票价和移动网民数量等13个变量。46变量描述数据来源票房电影i的总票房艺恩数据库评分电影i的豆瓣评分豆瓣网移动网民数量对应年份移动网民数量中国互联网络信息中心首映日票房电影i的首映日票房艺恩数据库首映日排座数电影i的首映日排座数艺恩数据库票价电影i的平均票价艺恩数据库电影时长电影i的播出时长豆瓣网明星影响力虚拟变量,至少有一位明星在福布斯中国名人榜则为1福布斯中国名人榜发行商虚拟变量,属于中国十大发行商则为1艺恩数据库假期虚拟变量,电影i在假期上映则为1豆瓣网续集虚拟变量,电影i为续集电影则为1豆瓣网国外电影虚拟变量,电影i为国外制片则为1豆瓣网上映年份虚拟变量,电影i在当年上映年份则为1豆瓣网中国电影票房案例分析—数据及其说明为了概括性地描述数据的特征,对本案例的连续变量进行了描述性统计。票房、首映日票房、首映日排座数以及电影时长的波动性较大。因此对以上变量进行取对数处理(ln),这不仅使数据变得平滑同时易消除异方差的问题。47变量个数最小值最大值均值标准差票价(元)12466.0047.0030.254.01票房(万元)12461.10567877.409677.0829690.13首映日票房(万元)12460.0235600.001080.762686.21首映日排座数(个)1246867199455371652593.792662311.37电影时长(分钟)12467315397.9511.98评分12462.109.104.581.48移动网民数量(千万)12463.567.535.721.26中国电影票房案例分析—数据及其说明使用本章所学的内容,对2011-2017年1246部豆瓣上映的电影进行多元线性回归分析,主要实现两个目的:对数据中的因变量“票房”与自变量“评分”、“移动网民数量”、“首映日票房”和“首映日排座数”等进行回归分析,刻画观众评价等因素对电影票房的影响作用。在多元线性回归方程中加入观众评价与移动网民数量、首映日票房、首映日排座数的交互项,分析网民数量、首映日票房、首映日排座数对观众评价的票房影响力的调节作用。48中国电影票房案例分析—数据分析使用SPSS来分析上述问题,统计软件输出的结果如表10-21所示表10-21(a)模型汇总表10-21(b)方差分析49模型平方和自由度均方F显著性1回归7298.86615486.5911180.970.000残差506.79312300.412

总计7805.6591245

因变量:电影票房模型R

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论