实训五用Excel进行统计相关回归分析._第1页
实训五用Excel进行统计相关回归分析._第2页
实训五用Excel进行统计相关回归分析._第3页
实训五用Excel进行统计相关回归分析._第4页
实训五用Excel进行统计相关回归分析._第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实训五用Excel进行统计相关分析目的与要求:掌握利用相关系数对相关关系进行测定, 并且掌握相关 系数的性质,明确相关分析与回归分析各自特点以及它们的区别与联 系,建立回归直线方程,计算估计标准误差,理解估计标准误差的意 义。案例15:用EXCEL进行相关与一元线性回归分析一、用EXCEL绘制散点图例1近年来国家教育部决定将各高校的后勤社会化。某从事饮 食业的企业家认为这是一个很好的投资机会,他得到十组高校人数与周边饭店的季销售额的数据资料,并想根据高校的数据决策其投资规 模。操作过程:打开Excel工作簿,输入原始数据如图7-1所示, 该表为相关表。图7-1从“插入”菜单中选择“图表”选项,

2、 打开“图表向导”对话框如 图7-2所示。在“图表类型”列表中选择 XY散点图,单击“下一步” 按钮。图7-27-3在数据区域中输入 B2:C11,选择“系列产生在一列”,如图 所示,单击“下一步”按钮。图7-3打开“图例”页面,取消图例,省略标题,如图7-4所示图7-4单击“完成”按钮,便得到 XY散点图如图7-5所示图7-5二、计算相关系数用EXCE计算相关系数有两种方法,一是利用相关系数函数,另 一种是利用相关分析宏。例210个学生身高和体重的情况如下:学生身高(公分)体重(公斤)117153216756317764415449516955617566716352815247917258

3、1016050要求对身咼和体重作相关和回归分析。 操作步骤如下:首先把有关数据输入EXCEL的单元格中,如图7-6kMia -cr aExcvL Bo okl I在EXCEL中,提供了两个计算两个变量之间相关系数的方法, CORRE函数和PERS0函数,这两个函数是等价的,这里我们介绍用 CORRE函数计算相关系数:第一步:单击任一个空白单元格,单击插入菜单,选择函数选项, 打开粘贴函数对话框,在函数分类中选择统计,在函数名中选择 CORREL单击确定后,出现CORRE对话框。第二步:在arrayl中输入B2: B11,在array2中输入C2 C11, 即可在对话框下方显示出计算结果为 0.

4、896。如图7-7所示:CORRELArr&yl |B2:B11Arrays C2:C11 二 fl71;16T;177;154iJ=53;56;64 4955;(返回两俎数值的相关系数虹”论第-廻数值单元格区域.=0 396027605计算结果=0 636027805确定|取消图7-7 CORREL对话框及输入结果2. 用相关系数宏计算相关系数第一步:单击工具菜单,选择数据分析选项,在数据分析选项中 选择相关系数,弹出相关系数对话框,如图7-8所示:图7-8相关系数对话框第二步:在输入区域输入$B$1:$C$1,分组方式选择逐列,选择 标志位于第一行,在输出区域中输入$E$1,单击确定,得输

5、出结果如 图7-9图7-9 相关分析输出结果在上面的输出结果中,身高和体重的自相关系数均为1,身高和体重的相关系数为0.896,和用函数计算的结果完全相同。三、用EXCEL进行一元线性回归分析EXCEL行回归分析同样分函数和回归分析宏两种形式,其提供 了 9个函数用于建立回归模型和预测。这 9个函数分别是:INTERCEPT返回线性回归模型的截距SLOPE返回线性回归模型的斜率RSQ返回线性回归模型的判定系数FORECAS返回一元线性回归模型的预测值STE YX计算估计的标准误TREND计算线性回归线的趋势值GROWT返回指数曲线的趋势值LINEST返回线性回归模型的参数LOGEST返回指数曲

6、线模型的参数用函数进行回归分析比较麻烦,我们这里介绍使用回归分析宏进 行回归分析。第一步:单击工具菜单,选择数据分析选项,出现数据分析对话 框,在分析工具中选择回归,如图 7-10图7-10数据分析对话框第二步:单击确定按钮,弹出回归对话框,在 丫值输入区域输入 $B$2: $B$11,在X值输入区域输入$C$2 $C$11,在输出选项选择新 工作表组,如图7-11所示:图7-11回归对话框第四步:单击确定按钮,得回归分析结果如图7-12所示#Haitt E(E) MAO)书式 UD IMtt)魏菇血 曲口 ft)需肋00丽岂 刈E A zl a!0B J U二三三閒% , ToJQ0 +於C

7、_ f ” ”&二|= MMMA討 OUTPUT*Rc0EFG1UrJ234MuO t o pOD.5R SquareD. 3 025666AdjustedDDJJ224?标难谨誉4. 02林们现测值wto.1 adfssMSFjo if f eanee Ft?I523.235?523.2S57J2. 5315Cl. 000451J3I2. 7143d.2142?149653IS卫Coeffieien-标雇復雄t StatP-a LmeLq阻r病列Dgf騎J4T限财.OJJiFt 9X刖1?Intercept列,2跖7IL 90627S.2669553.-45&-057上 91265125.S

8、345 7Db 91265125.SS45iaX VrUbl1.2255110. 21523J.IOfl 020. 000450.7 3223ft1. 724901 0.1J22H1.7249012 Cl211221MIh kl E*hisi石呈刑Id.* hcctSVShEEt G /Ehcetl /Ehcet2 /Sheets / 1Hldr因五笔型I卜-丨戏和=2屿備閃盟MUI I 图7-12 EXCEL回归分析结果在上面的输出结果中,第一部分为回归统计,该部分给出了回归分析 中的一些常用统计量,Multiple指相关系数,R Square指判定系数, Adjusted指调整后的判定系数

9、,标准误差指估计的标准误,观测值 指样本容量;第二部分为方差分析,该部分给出了自由度(df),回归平方和、残差平方和、总平方和(SS,回归和残差的均方(MS, F检验的显著性水平(Significance F ),p值(F),该部分在主要 作用是对回归方程的线性关系进行显著性检验;第三部分是参数估计 的有关内容,包括回归方程的截距(Intercept)、斜率(X Variable 1) Coefficient 指系数,用于检验的回归系数的t统计量(t stat)、P_ 值(P-value),以及截距和斜率的置信区间 (Lower 95%和 Upper95%。案例16多元线性回归分析我们以中国民

10、航客运量预测为例进行多元线性回归分析。第一步 确定因变量。我们以预测目标一一中国民航客运量, 作 为因变量。第二步 确定自变量。在定性分析的基础上,我们确定国内生产 总值(X1)、实际利用外资额(X2)、民航线里程(X3 )、来华旅游入 境人数(X4 )为自变量。搜集样本资料如表7.4.1所示。表741年份民航客运量(万人)y国内生产总值(亿元)X1实际利用外资额(亿美元)X2民航线里程(万公里)X3旅游入境人 数(万人)X419833915934.519.8122.91947.71984554717127.0526.021285.219857478964.446.4727.721783.31

11、98699710202.272.5832.432281.91987131011962.584.5238.912690.21988144214928.3102.2637.383169.51989128316909.2100.5947.192450.11990166018547.9102.8950.682746.21991217821617.8115.5455.913335.01992288626638.1192.02383.663811.51993338334634.4389.696.084152.71994403846759.4432.13:104.564368.41995511758478.

12、1481.37112.94638.71996555567884.6548.04116.655112.81997563074462.6644.08142.505758.81998575578345.2585.57150.586347.81999609482067.5526.59152.227279.62000672289442.2593.56150.298344.42001752495933.3496.72155.368901.3依据上述样本资料,计算出因变量y与每个自变量xj的相关系数Ryj , 利用Excel软件得到下列相关系数Ryj (见表7.4.2)表 7.4.2XX2X3Xy0.991

13、5570.9549220.984550.965219“确定”在“输 输入A1单元格-“确 其余相关系数以此类利用Excel计算相关系数的步骤如下:“工具”-“数据分析” -“相关系数” 入区域”输入y与xi数字区域在“输出区域” 定”就得到y与xi之间的相关系数0.991557, 推。第二步建立模型,进行参数估计。由表7.4.2知,自变量国内生产总值、实际利用外资额、民航线 里程、来华旅游入境人数分别与因变量y间的简单线性相关系数都较 高,都在0.95以上。不妨我们建立四元线性回归模型:依据表741中的样本资料,利用Excel软件计算有关结果如输出结 果743所示(操作步骤如一元线性回归)。输

14、出结果7.4.1回归统计Multiple R0.994469R Square0.988968Adjusted R Square0.985816标准误差282.3387观测值19方差分析dfSSMSFSign ifica nee F回归分析41E+0825011161313.75681.58E-13残差14111601279715.12总计18 1.01E+08Coefficients 标准误差 t Stat P-valueIntercept-139.555 232.7273-0.599650.55832X Variable 10.036356 0.0142192.5568060.022814X

15、 Variable 21.611444 1.4682661.0975150.290935X Variable 37.515343 9.55849 0.786248 0.444827X Variable 40.212519 0.142665 1.489633 0.158502第四步进行有关统计显著性检验从F统计量角度看,四元线性回归模型通过检验(Significanee F1.57571E-13 7.05 )。从t检验角度看,只有国内生产总值 治通过t 检验(P-value = 0.022814 0.05)。不妨我们先剔除t统计量(t Stat )最小的那个自变量,重新建 立回归模型。因为 ta

16、 =0.786248 “X Variable 3 t Stat ” (0.786248) 最小,所以我们先剔除自变量民航线里程X3,重新建立三元线性回归 模型。利用Excel软件计算出三元线性回归模型有关信息如输出结果 7.4.2所示。输出结果7.4.2回归统计Multiple R0.994224R Square0.988481AdjustedR Square 0.986177标准误差278.7221观测值19方差分析dfSSMSF Sig nifica nee F回归分析残差3 99995365 33331788 429.057715 1165290 77686.03Coefficients

17、标准误差t Stat P-valueIn terceptX Variable 1X Variable 2-54.3332 203.3073 -0.26725 0.7929190.038591 0.013754 2.805766 0.0133042.427005 1.025848 2.3658530.03188X Variable 30.265121 0.124392 2.1313460.05001从F统计量角度看,三元线性回归模型通过检验(Significance 9.32E-150.05 )。从t检验角度看,国内生产总值 花通过t检验(P-value = 0.0133040.05)和实际利用

18、外资额x?通过t检验(P-value = 0.03188 0.05),而来华旅游入境人数X3没有通过t检验 (P-value = 0.050010.05),但相差很小。如果我们再剔除华旅游入境人数这个自变量,重新建立二元线性回归模型的话会降低整体模型的优良性。(见输出结果7.4.3 )输出结果7.4.3回归统计Multiple R0.992468R Square0.984992AdjustedR Square0.983116标准误差308.0371观测值19方差分析dfSSMSFSigni fica nee F回归分析2 99642465 49821233 525.05932.57E-15残差

19、161518190 94886.86总计18 1.01E+08Coefficie nts标准误差t StatP-valueIn tercept315.5839 117.0166 2.696916 0.015872X Variable 10.064319 0.007285 8.828926 1.51E-07X Variable 21.382271 0.995942 1.387903 0.184192型:y =-54.3332 0.038591X, 2.427005x2 0.265121 x3 u式中,y代表民航客运量;为代表国内生产总值;X2代表实际利 用外资额;X3代表来华旅游入境人数。第五步

20、进行预测1、点预测当国内生产总值为X01 = 100000亿元,实际利用外资额为X02 = 600 亿美元,来华旅游入境人数X03 = 9000万人次时,民航客运量为:? -54.33320.038591 1000002.427005 600 0.265121 9000=7647 (万人)2、区间预测(1) 个别值的区间预测若给定了显著水平:=0.05,个别值在95%概率保证下的区间预测为:Y0 _l(n _m)比.1 Xo(XTX)-1XT其中,伉nS (y?i)2 =278.7221i丄t,n- m)=to.o% (15) = 1.7531 X0(XTX)JX0T =1.173434Xo=

21、(11000006009000)T1(X X)二5320627942.55301E-05-0.001208829-0.0002779062.55301E-052.4351E-09-1.4878E-07-1.9329E-08-0.001208829-1.4878E-071.35464E-057.84874E-07-0.000277906-1.9329E-087.84874E-071.99177E-07 X(XTX)X0T =0.376948即 7647_1.753 X 278.7221 X 1.17343470748220之间(2) 平均值的区间预测均值在95%概率保证下的区间预测为Y0 _t:

22、2(n-m);:?X0(XTX)X0TnZ (y -?)2 =278.7221i占t炳(n m)二 5,16) = 1.753JX0(XTX)X0T =0.614即 7647_1.753 X 278.7221 X 0.61473477947之间附:矩阵的运算(1) 矩阵乘法按住鼠标左键拖放选定存放结果的单元格区域,输入计算公 式二MMULT( A,B)按 Ctrl+Shift+Enter复合键确认。(2) 矩阵转置按住鼠标左键拖放选定存放结果的单元格区域,输入计算公 式二TRANSPOSE( A)按 Ctrl+Shift+Enter复合键确认(3) 逆矩阵按住鼠标左键拖放选定存放结果的单元格区

23、域,输入计算公式二MINVERSE(A )按 Ctrl+Shift+Enter复合键确认案例17非线性回归分析非线性回归模型具体形式很多,由于篇幅所限,在此不一一介绍, 仅通过例题说明其应用思想。例7.5.1 设有12个同类企业的月产量与单位产品成本资料如 表7.5.1所示。试配合适当的回归模型分析月产量与单位产品成本之 间的关系。表 5.1.1编号产量XLgY单位成本丫1102.2041201602162.1789771513202.0569051144252.1072101285311.929419856361.959041917401.875061758451.880814769511.

24、8195446610561.7781516011601.7853306112651.77815160根据表7.5.1资料,将月产量与单位产品成本作散点图如图7.5.1所示。图 7.5.1由图7.5.1可以看出月产量与单位产品成本之间可以配合一条指 数曲线:y = abx两边取对数得:log y = log a - xlogb利用ExceI软件,进行回归分析运行结果如输出结果7.5.1所示(操作步骤如一元线性回归)。输出结果7.5.1回归统计Multiple R0.96097R Square0.923463Adjusted RSquare0.91581标准误差0.045212观测值12方差分析S

25、ign ificadfSSMSFnee F0.246630.24663090120.656回归分析11626.68E-070.02044残差1010.002044080.26707总计112Coeffici标准误en ts差t StatP-value2.261086.74E-1In tercept30.031509 71.75913565-0.0083-10.9843616.68E-0X Variable 110.000756157由输出结果7.5.1 知,lga = 2.261083,lgb=-0.00831r =0.923463 ,熄= 0.045212 , ESS= 0.246631,

26、RSS= 0.020441,F= 120.6562 Sig nifica nee F = 6.68E-07t1 =-10.98436115 P-value = 6.68E-07对lga = 2.261083 lg b = -0.00831分别求反对数得a = 182.4246 b=0.981051利用Excel软件求反对数的操作步骤如下:点击粘贴函数 fx f POWER10 2.261083 确定(182.4246)例7.5.2 某面粉厂近一年的面粉销售利润率、工人劳动生 产率、单位成本资料如表7.5.2所示。我们知道,劳动生产率的提高和单位成本的降低,能使利润增加。 因此我们认为,利润率与

27、劳动生产率成正比,与单位成本成反比。设 利润率为y,劳动生产率为 刘,单位成本为X2,建立回归模型为:y 二 m 輕 b2表 7.5.2年份利润率()y劳动生产率(吨/人)X1单位成本(兀/吨)X219921.573669.071993 :1.974687.1619942.156646.5219951.935057.531996 11.613878.9319971.373599.7819981.794868.121999 :2.225486.2320001.393459.892001 :1.635048.8320022.276585.94设 X2 二舟,则?bo %1 b2X2利用Excel软

28、件,进行回归分析运行结果如输出结果7.5.2所示。由输出结果 7.5.2 知, 7 = 0.104077 0.000227x1 12.3916x2F= 179.0624 Significanee F = 2.28E-07 0.05 t 检验没通过 12= 7.88228 P-value =4.86E-05 0.05 t 检验通过 r= 0.989014输出结果7.5.2回归统计Multiple R0.989014R Square0.97815Adjusted RSquare0.972687标准误差0.053186观测值11方差分析dfSSMSFSig nifica n ce F回归分析21.0

29、130610.50653179.06242.28E-07残差80.022630.002829总计101.035691Coefficien ts标准误差t StatP-valueIn tercept0.104077 0.094529 1.101007 0.302915X Variable 10.000227 0.000334 0.679686 0.515885X Variable 212.3916 1.572084 7.88228 4.86E-05根据上述检验,两个自变量中只有单位成本对利润率的影响显著, 而劳动生产率对利润率的影响并不显著。 这是因为两个自变量单位成 本和劳动生产率之间存有多重

30、共线性。不妨我们删去劳动生产率这个 因素,重新建立回归模型。利用ExceI软件,进行回归分析运行结果如输出结果 7.5.3所示 输出结果7.5.3回归统计Multiple R0.988376R Square0.976888Adjusted R Square0.97432标准误差0.051572观测值11方差分析dfSSMSFSign ifica nee F回归分析11.011754 1.011754 380.40361.133E-08残差90.023937 0.00266总计101.035691Coefficie nts标准误差t Stat P-valueIn tercept0.0901870

31、.089492 1.007767 0.339891X Variable 113.346420.684293 19.50394 1.13E-08由输出结果7.5.3 知,?=0.090187+13.34642 x2F= 380.4036 Significanee F = 1.133E-08 0.05t= 19.50394 P-value =1.13E-08 0.05r = 0.988376模型统计显著性检验通过。【实训五上机练习】1.单位成本与产量的关系(见表7.1)表7.1 铸铁件产量及单位成本年月铸铁件产量(吨)单位产品成本(元)上年1月8106702月5477803月9006204月P53

32、08005月5407806月8006757月8206508月8506209月60073510月69072011月70071512月860610今年1月9205802月8406303月1 000570要求:(1)绘制铸铁件产量与单位产品成本散点图, 计算其相关系数; (2)拟合回归方程。2.已知某地区1978年2003年的国内生产总值GDP与货运周转量的 数据如表7.2所示。年 份GDP(亿元)货运周转量 (亿吨公 里)年 份GDP(亿 元)货运周转量 (亿吨公 里)19785.09.0199144.032.019798.712.0199247.034.0198012.014.0199354.0

33、37.0198116.015.0199456.540.0198219.017.0199556.044.0198322.020.0199657.043.5198425.020.5199759.043.5198528.023.5199863.043.5198636.030.0199966.544.0198740.035.0200067.045.5198841.032.0200170.547.0198932.024.0200270.646.0199034.028.0200373.052.0要求:(1)绘制散点图;(2)试对其进行一元线性回归分析(即 计算相关系数、建立回归方程);(3)若2005年国

34、内生产总值GDP达 到80亿元,试对其货运周转量做出预测(:一5%)(包括点预测和区间 预测)3. 教育经费支出与学生成绩的关系学生教育达到的水平与学生所居住的洲在教育方面的经费支出多 少有关系吗?在许多地区,这个重要问题被纳税人提出;而纳税人又 被他们的学区请求增加用于教育方面的税收收入。在这种情况下,为了确定在公立学校中教育经费支出和学生成绩之间是否存在某种关 系,你将被邀请去参加教育经费支出和学生学习成绩的数据分析。美国联邦政府的全国教育进展评价(NAEP计划常常被用来测 量学生的教育水平。对于参加NAEP计划的35个洲,表1给出了每名 学生每年的经常性教育经费支出和 NAEP!试综合分

35、数的统计数据。 综合分数是数学、自然科学和阅读三门课程1996年(阅读课是1994年)NAEP测试分数的总和。参加测试的是 8年级学生,只有阅读课 是4年级学生,满分是1300分。对于未参加NAEP+划的13个洲, 表2给出了每名学生每年的经常性教育经费支出。表1参加NAEP计划的洲每名学生每年的经常性教育经费支出和NAEF测试综合分数洲序号教育经费支 出(美元)综合分数(分)洲序号教育经费支 出(美元)综合分数(分)14049581194521629234235822065546383491758021533863945532580224483641543046032347726446377

36、7604245128649746636112532806508493461126551565794097614277629657104060614286413658116208615295410660123800618305477661134041618315060665145247625324985667156100625336055667165020626344374671174520627355561675188162628表2未参加NAEP+划的洲每名学生每年的经常性教育经费支出洲序号教育经费支出(美元)洲序号教育经费支出(美元)1360285438240679558834265106

37、26944658116391551641265796529713789075387要求:(1)对这些数据做出数值的和图示的概述。(2) 利用回归分析研究每名学生的教育经费支出和NAEP测试综合分 数之间的关系,对你的调研结果进行讨论。(3)根据这些数据求出估计的回归方程,你认为能利用它来估计未 参加NAEF计划洲的学生的综合分数吗?(4)假定你只考虑每名学生的教育经费支出在 4000美元至6000美 元之间的洲,对于这些洲,两变量之间的关系与根据 35个洲的全部 数据所得出的结论显现出任何不同吗?讨论你发现的结果, 如果将教 育经费支出少于4000美元或者多于6000美元的洲删除,你是否认为 删除是合理的?(5)对未参加NAEP计划洲,求出学生综合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论