版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、应用数理统计多元线性回归分析第一次作业学院: 姓名: 学号: 2021年12月交通运输业产值的多元线性回归分析摘 要:本文基于?中国统计年鉴?2021年版统计数据,寻找影响交通运输业开展的因素,包括工农业开展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。关 键 字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1, 引言交通运输业指国民经济中专门从事运送货物和旅客的社会生产部
2、门,包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成局部,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业开展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的开展,制定相关政策方案提供依据。根据经验交通运输业的开展受到工农业开展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上根本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模
3、型就是一种有效的方式。变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。通过对训练数据
4、进行回归分析得出经验公式,利用经验公式就可以在自变量的情况下预测因变量的取值。实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。本文查找2021年?中国统计年鉴?取1996年-2021年共16年间的数据,利用SPSS软件对影响交通运输业开展的因素进行讨论构造多元线性线性回归模型。以探求影响交通运输业开展水平的各个因素,得到最优线性回归模型。随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。2,根底知识及相关理论2.1 回归分析回归分析研究的主要对象是客观事物变量间的
5、统计关系,它是建立在对客观事物进行大量试验和观察的根底上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。在实际问题回归分析模型的建立和分析中有几个重要的阶段:l 根据研究的目的设置指标变量回归分析模型主要是揭示事物间相关变量的数量联系。首先要根据所研究问题的目的设置因变量Y,然后再选取与Y有统计关系的一些变量作为自变量。l 收集、整理统计数据回归分析模型的建立是基于回归变量的样本统计数据。当确定好回归模型的变量之后,就要对这些变量收集、整理统计数据。l 确定理论回归模型的数学形
6、式当收集到所设置的变量的数据之后,就要确定适当的数学形式来描述这些变量之间的关系。如果因变量与自变量的散点图近似一条直线,可考虑用线性回归模型去拟合这条直线,如果二者之间无线性关系,那么需要使用非线性模型构造回归模型。l 模型参数的估计回归理论模型确定之后,便可以利用收集、整理的样本数据对模型的未知参数给出估计。位置参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。l 模型的检验当模型的位置参数估计出来后,需要通过对模型的检验才能决定参数估计是否适宜。模型的检验一般需要进行统计检验和模型经济意义的检验。统计检验是对回归方程的显著性检验、以及回归系数的显著性检验,还有拟合优度的检验,残
7、差的独立性检验等。l 回归模型的运用当一个问题的回归模型通过了各种统计检验,且模型具有合理的经济意义时,就可以运用这个模型来进一步研究此问题。在客观问题的研究中,我们需要参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在客观问题研究中得到正确运用。2.2 多元回归分析一元线性回归模型研究的是某一个因变量和一个自变量之间的关系问题,但在实际中,因变量的变化常常受到不止一个自变量的影响,可能同时有两个或两个以上的自变量对因变量的变化产生影响。这种研究某一个因变量和多个自变量之间的相互关系的理论和方法就是多元线性回归分析方法,它是一元线性模型的拓展。设随机变量Y与P(P2)个一
8、般变量X1,X2,XP的线性回归模型可表示为:Y=0+1X1+2X2+PXP+0称为回归常数,1,P称为偏回归系数,他们决定了因变量Y与自变量X1,X2,XP的线性关系的具体形式;是随机误差,满足N(0,2)。如果获得满足条件=12nn×1 Y=X+E=0,D=2In Q22(n-p-1)的n组观测数据(xi1,xi2,xip;yi),其中i=1,2,n,那么线性回归模型可表示为yi=0+1xi1+2xi2+PxiP+i其中i=1,2,n。上式写成方程组形式为y1=0+1x11+2x12+Px1P+1y2=0+1x21+2x22+Px2P+2yn=0+1xn1+2xn2+PxnP+n
9、记Y=y1y2ynn×1,X=1x11x12x1p1x21x22x2p1xn1xn2xnp,=01p(p+1)×1,=12nn×1那么回归模型成为Y=X+E=0,D=2In。2.3 逐步回归法在实际问题中, 人们总是希望从对因变量 y有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优回归方程以便对因变量进行预报或控制。所谓“最优回归方程, 主要是指希望在回归方程中包含所有对因变量y影响显著的自变量而不包含对y影响不显著的自变量的回归方程。逐步回归分析正是根据这种原那么提出来的一种回归分析方法。它的主要思路是在考虑的全部自变量中按其对y的作
10、用大小, 显著程度大小或者说奉献大小, 由大到小地逐个引入回归方程, 而对那些对y作用不显著的变量可能始终不被引人回归方程。另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行F检验, 以保证在引人新变量前回归方程中只含有对y影响显著的变量, 而不显著的变量已被剔除。由此可见,逐步回归法是一种向前法和向后法的一种结合,具体步骤是预先给定一个出和进或出和进,为防止死循环,要求出 进:1逐步回归法的前两部与向前法的前两步相同,并假定已建立了不完全的相关模型;2当引入变量X2XL2后
11、,对X1XL1做偏F检验,看X1是否需要剔除即为向后法: <1>如果 L1>出,那么不剔除XL1,并继续引入下一个变量; <2>如果 L1<出,那么从模型中剔除XL1,再继续引入下一个变量。重复上述步骤,直到所有模型外的变量都不能引入,模型内的变量都不能被剔除为止。3,模型建立本文查询了1996年至2021间共16的交通运输业增加值,详细分析了影响交通运输业开展的相关因素,利用统计软件SPSS逐步回归法尝试建立交通运输业增加值与各个因素间的线性回归模型。3.1 设置变量近年来,国内交通运输业得到了大力开展,交通运输业产值可以作为衡量交通运输业开展水平的重要指
12、标,本文设置交通运输业产值作为指标变量。交通运输业作为为国民经济效劳的第三产业,其开展受到工农业的开展、能源生产的影响,同时国内外贸易交流水平近年来也深刻影响了运输业的开展,作为交通运输主要对象的居民,居民消费水平、旅游花费等也影响了运输业的开展。经过分析,本文选择农业生产总值、工业生产总值、能源生产总量、进出口总额、居民消费价格指数、国民旅游总花费以及交通运输年客运量共7个因素作为解释变量研究交通运输业的开展。各变量具体设置为:解释变量:X1:农业生产总值亿元X2:工业生产总值亿元X3:能源生产总量万吨标准煤X4:进出口总额亿元X5:居民消费价格指数X6:国民旅游总花费亿元X7:客运量万人指
13、标变量:Y:交通运输增加值亿元3.2 数据收集和整理本文所用数据均来源于?中国统计年鉴?2021年,选取1996年-2021数据作为回归模型样本。数据见表1所示。表 1 1996年-2021年各变量数据x1x2x3x4x5x6x7y年份农业生产总值/亿元工业生产总值/亿元能源生产总量/万吨标准煤进出口总额/亿元居民消费价格指数国民旅游总花费/亿元客运量 /万人交通运输增加值/亿元1996133032124535719971334601326094199812983413787171999358613193513944132000135048147857320011438751534122200
14、215065616081502003171906158749720041966481767453200521621918470182006232167202415820072472792227761202126055228678922021274619297689820212969163269508202131798735263194,数据处理与分析本文基于表1数据样本建立多元线性回归模型并进行检验,研究思路为:首先对解释变量进行相关性分析筛选主要影响因素,然后利用逐步回归法,取显著性水平采用SPSS软件对回归系数进行估计,最后从回归方程显著性、拟合度以及残差三个方面对模型进行检验,证实模型的
15、有效性。4.1 初步确定理论回归模型研究指标变量与各个解释变量的相关性可以利用散点图直观分析剔除相关性不显著的因素,也可以利用SPSS软件直接计算Pearson相关系数筛选主要影响因素。本文利用SPSS软件计算各因素相关系数如表2所示。表 2 各影响因素与指标变量的相关系数x1x2x3x4x5x6x7yx1Pearson 相关性1.997*.972*.963*.352.976*.992*.985*显著性双侧.000.000.000.181.000.000.000N1616161616161616x2Pearson 相关性.997*1.983*.978*.336.967*.990*.995*显著
16、性双侧.000.000.000.204.000.000.000N1616161616161616x3Pearson 相关性.972*.983*1.990*.347.922*.961*.988*显著性双侧.000.000.000.187.000.000.000N1616161616161616x4Pearson 相关性.963*.978*.990*1.388.921*.947*.985*显著性双侧.000.000.000.138.000.000.000N1616161616161616x5Pearson 相关性.352.336.347.3881.308.290.305显著性双侧.181.204.
17、187.138.246.275.251N1616161616161616x6Pearson 相关性.976*.967*.922*.921*.3081.957*.952*显著性双侧.000.000.000.000.246.000.000N1616161616161616x7Pearson 相关性.992*.990*.961*.947*.290.957*1.982*显著性双侧.000.000.000.000.275.000.000N1616161616161616yPearson 相关性.985*.995*.988*.985*.305.952*.982*1显著性双侧.000.000.000.000
18、.251.000.000N1616161616161616*. 在 .01 水平双侧上显著相关。中度相关,0.3<|r|<0.5低度相关,|r|<0.3相关程度极弱,可视为不相关。从表2中可知,Y与X5相关系数为0.305,相关程度很弱,在建立回归模型中可以忽略该因素的影响;而Y与其他因素都高度相关,从相关性选取回归模型主要影响因素X2、X3和X4。图1与图2分别表示指标变量Y与解释变量X5和X2的散点图,从图中也可直观分析出影响Y变量的X变量的线性相关性。图 1 Y与X5散点图 图 2 Y与X2散点图交通运输业产值与居民消费价格指数相关性很弱,这是因为居民消费价格指数反映的
19、是一定时期内城乡居民做购置的生活消费品和效劳价格变动趋势和程度,居民消费水平受到多种因素影响,不能以它作为影响交通运输业开展的主要线性因素。而交通运输业的开展主要受益于工业水平的开展,以及能源生产水平的开展,近年来受国内外贸易交流影响增大,应选这三个主要因素作为回归模型分析。回归模型建立为:4.2 模型参数估计确定主要影响因素X2、X3和X4后,采用逐步回归法,取显著性水平使用SPSS软件对原始数据作线性回归分析,得到最优回归方程,逐步回归法得到回归系数表如表3所示。表 3 模型回归系数表模型非标准化系数标准系数tSig.B标准 误差试用版1(常量).000x2.113.003.995.000
20、2(常量).000x2.080.012.709.000x4.024.009.293.020a. 因变量: y逐步回归模型中采用F检验引入解释变量显著性水平阈值,剔除解释变量显著性水平。从表3可知逐步回归得到两个模型,其中模型2为最优模型,回归方程为:由回归方程可知,对Y有显著影响的是X2和X4,即影响交通运输业产值的主要因素时工业产值与进出口总额,换句话说就是影响交通运输业开展的主要因素时工业水平的开展与国家进出口贸易水平。回归方程中回归系数都为正值,说明工业水平的开展与国家进出口贸易水平的开展都有利于开展交通运输业。直观而言,交通运输业的开展离不开一个国家的工业开展,工业的开展一方面为交通运
21、输业提供了流通的产品与资源,使得交通运输业得以生存开展;另一反面工业的开展为交通运输业提供了大量先进快速的交通工具,加速了交通运输业的开展。另一个重要的影响因素进出口贸易水平是近年来我国与国外市场贸易交流得到大力开展,国内大量产品外销海外,这极大的刺激了交通运输业的开展,可以预见这一因素在将来将越来越重要的影响到交通运输业的开展。表 4 逐步回归模型排除变量模型Beta IntSig.偏相关共线性统计量容差1x3.304b.042.530.033x4.293b.020.593.0442x3.115c.588.567.167.015a. 因变量: yb. 模型中的预测变量: (常量), x2。c
22、. 模型中的预测变量: (常量), x2, x4。值得注意的是,如表4所示,最优模型2中将X3这一因素剔除,说明交通运输业的开展一定程度上与能源生产总量没有显著性关系。从这一个层面说明能源的开展水平并没有限制交通运输的开展,从市场供求关系而言国内交通运输业的开展需求大于现有运力的供应。4.3 模型检验4.3.1 回归方程的显著性检验对回归方程的显著性检验就是要看自变量X1、X2、XP从整体上对随机变量Y是否有明显的影响,显著性检验有两种方法:一是回归方程显著性的F检验,二是回归系数显著性的t检验。这里仅对F检验进行论述,t检验原理相同。F检验原假设H0假定自变量系数1=2=P=0当所构造F检验
23、统计量F>F(n-p-1)时拒绝原假设,认为回归方程显著;或P=PF>Fn-p-1<时,拒绝原假设,回归方程显著。选定显著性水平,利用SPSS软件计算出的方差分析表如表5所示。表 5 方差分析表模型平方和df均方FSig.1回归1.000b残差14总计152回归2.000c残差13总计15a. 因变量: yb. 预测变量: (常量), x2。c. 预测变量: (常量), x2, x4。从表5可知,显著性P值即表中Sig值均小于0.05,因此拒接原假设,回归方程线性回归效果显著。4.3.2 拟合度检验拟合度用于检验回归方程对样本观测值的拟合程度,其值越大说明随机误差所占的比重越
24、小,回归的效果越显著。可决系数也称拟合优度定义为:通产定义r为相关系数:它描述了指标变量与解释变量之间的线性相关程度。与值越接近1,说明回归方程对样本观测值拟合得很好,表6所示为模型相关系数值。表 6 模型相关系数表模型RR 方调整 R 方标准 估计的误差更改统计量R 方更改F 更改df1df2Sig. F 更改1.995a.989.988.989114.0002.996b.993.992.004113.020a. 预测变量: (常量), x2。b. 预测变量: (常量), x2, x4。c. 因变量: y由表6可知,模型2相关系数和比模型的相关系数大,说明模型2拟合效果最好,模型2得到的回归方程是最优方程。4.3.3 残差检验如图3和图4分别是残差分布直方图和观测量累计概率P-P图。在回归分析中,总是假定残差服从正态分布,这两个图就是根据样本数据的计算结果显示残差分析的实际情况。从图3残差分布的直方图与附于其上的正态分布曲线的比拟,可以观察出残差分析的正态性。观测量累计概率P-P图也是用来比拟残差分布与正态分布差异的图形,图4的纵坐标为期望累计概率分布,横坐标为观测累计概率分布,图中的斜线对应着一个均值为0的正态分布,从而证明样本确实是来自正态总体。否那么应疑心随机变量残差的正态性。图 3 残差分布直方图图 4 观测量累计概率P-P图4.4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 岑溪市消防救援大队2026年公开招聘政府专职消防员备考题库及1套参考答案详解
- 企业企业社会责任合规管理指南
- 岳阳楼区珍珠山幼儿园2026年春季教师招聘备考题库及参考答案详解
- 2026年山西体育职业学院单招职业倾向性考试模拟测试卷必考题
- 2026年常州信息职业技术学院单招职业适应性考试模拟测试卷及答案1套
- 2026新疆博尔塔拉州博乐市灵壤网约车有限公司招聘30人参考题库及答案1套
- 平凉市静宁县公开招聘2026届国家公费师范生和国家优师计划师范生13人备考题库及参考答案详解1套
- 2026年延安大学专职辅导员招聘(15人)备考题库附答案
- 平谷区消防救援支队2025年度招录26名政府专职消防员备考题库及参考答案详解一套
- 2026年大学入团测考试题库带答案ab卷
- 科室紧急情况下护理人力资源调配方案
- 企业社会责任实践与品牌建设策略
- 出租车顶灯设备管理办法
- 安全技术与管理毕业论文
- 2025年新疆中考数学真题试卷及答案
- 温岭市恩力天金属表面处理有限公司年处理10万吨磷化金属表面技改项目环评报告
- 职务侵占罪法律培训
- 【2025版】人教版(PEP)三年级下册英语教学工作计划(及进度表)
- 劳动仲裁申请书电子版模板
- JJF 1183-2025 温度变送器校准规范
- 2024“五史”全文课件
评论
0/150
提交评论