




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
重庆科技学院 毕业设计(论文) 题 目 基于线性最优预测模型的石油消费量预测 院 (系) 数理学院 专业班级 应数普2008-01 指导教师 严羿鹏 职称 讲 师 评阅教师 职称 2012年 5 月 30 日学生毕业设计(论文)原创性声明本人以信誉声明:所呈交的毕业设计(论文)是在导师的指导下进行的设计(研究)工作及取得的成果,设计(论文)中引用他(她)人的文献、数据、图件、资料均已明确标注出,论文中的结论和结果为本人独立完成,不包含他人成果及为获得重庆科技学院或其它教育机构的学位或证书而使用其材料。与我一同工作的同志对本设计(研究)所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 毕业设计(论文)作者(签字): 年 月 日重庆科技学院本科毕业设计 摘要摘要当今时代,能源问题仍然是世界各国普遍关注的一个战略问题。目前我国已成为世界第二大能源消费国,而石油工业是我国国民经济的重要基础和支柱产业,在宏观经济的发展中占有举足轻重的地位。研究中国石油消费量,对于未雨绸缪的实现中国能源战略安全,保证中国经济社会稳定发展,具有重大意义。本文主要介绍了线性模型和时间序列预测模型在中国石油消费量预测中的应用。首先建立一般线性模型,根据模型残差项的不同情况,选择不同的模型和方法对石油消费量进行预测;然后建立时间序列预测模型,选择自回归模型对石油消费量进行预测;最后,结合参考文献,对各模型的预测结果进行分析对比。研究结果显示,建立的模型既符合统计学意义也符合经济学意义,各模型预测结果的相对误差都在可接受范围内,可以很好地对石油消费量进行短期预测。在应用中可以结合实际情况,分别在企业、政府的各职能部门工作中应用不同的模型和方法。关键词:线性模型 时间序列模型 经典预测 最优预测ii重庆科技学院本科毕业设计 abstractabstractin modern period, energy issue is still a strategic issue of common concerning to countries in the world. at present, china has become the second largest energy consumer country, and oil industry is the crucial foundation and pillar industry of our national economy, which plays a decisive role in the macroeconomic development. it is of great significance for achieving state energy security and guaranteeing the stable development of economy and society to study on chinas oil consumption.this article mainly introduces the application of linear models and time series forecasting model in the prediction of china oil consumption. first, we established a general linear model, and then we chose different models and methods to predict oil consumption according to the different situations of model residuals respectively. second, we built a time series forecasting model, and choose the regression model to predict oil consumption. finally, we compared and analyzed predictions results, and gave a objective analysis of the pros and cons of the article combined with references.the results show that: the model not only conforms to the statistical significance but also accord with economics. the relative error of the predicted results is within an acceptable range, and it can be well on oil consumption short-term forecast. applications can be combined with the actual situation, enterprises, government departments with different models and methods. also, it will provide some reference for future research.keywords: linear model;time series models;classical prediction;optimal prediction重庆科技学院本科毕业设计 目录目录摘要iabstractii1 绪论11.1研究现状11.2研究意义21.3研究思路22 基本概念和理论42.1线性模型42.1.1一般线性模型42.1.2多元线性回归模型42.1.3线性预测模型52.2统计检验52.2.1拟合优度检验62.2.2回归方程显著性检验62.2.3回归系数显著性检验72.2.4线性模型的残差检验72.3模型预测82.3.1经典预测82.3.2最优预测82.4时间序列趋势预测模型92.4.1模型特征分析92.4.2模型的建立与识别112.4.3模型预测123 石油消费量的线性预测133.1解释变量选取及数据收集133.1.1解释变量选取133.1.2数据收集和处理133.1.3数据初步分析143.2多元线性回归模型153.2.1多元线性回归153.2.2逐步回归分析163.2.3残差检验163.2.4经典预测173.3线性预测模型183.3.1模型建立183.3.2残差相关性分析183.3.3残差的自相关模型193.3.4最优预测203.4时间序列预测模型213.4.1数据分析和处理213.4.2建立时间序列模型233.4.3自回归模型预测244 模型比较和分析254.1结果分析254.2模型评价26参考文献27致谢28附录29附录一:原始数据29附录二:r程序31b重庆科技学院本科毕业设计 1绪论1 绪论1.1研究现状20世纪 70 年代爆发的“石油危机”使得各国学者纷纷关注能源经济问题的研究,将各种建模方法1引入能源经济系统的研究当中。国内外许多相关机构已经对经济增长与能源消费做过研究,得出了一些比较实用的建模方法。部门分析法2,它是根据经济增长速度和能源消费量之间的关系,直接测算一定经济增长速度和能源利用率下各部门的能源消费量的一种方法。该方法将国民经济分成若干部门,分别计算各个部门的能源消费量,然后加总,得到能源消费总量。部门划分越细,预测的准确率就越高。时间序列趋势法3,它是以预测对象的历史时间序列数据为基础,运用数学建模方法使其时间维度向外延展,预测变量未来的发展变化趋势。使用时间系列预测法的前提是假定事物的未来发展与过去的发展趋势基本相同。但由于实际情况变化较大,因此,这个方法长期预测结果的误差较大。能源弹性系数法4,它是根据石油消费量年增长率与国民生产总值年增长率之间的比例关系来预测未来的石油消费量。石油消费弹性系数不但与一个国家的经济结构、科学水平、生产模式等因素有关,而且与地理条件、人民生活习惯、国家发展政策等因素有关。因此,能源消费弹性系数与影响它的因素之间存在着复杂的关系,可能是高度非线性关系。确定石油消费弹性系数时主要有类比推测法、假定法以及回归分析法等,所以预测结果不可避免地存在较大的误差,但是在相关条件变化不大或有确定规律可循的一定时期内其结果比较精确。投入产出法5,它是综合考察、分析国民经济各部门之间的数量依存关系以及消费积累的综合比例的一种方法。它既可以作为综合统计分析和计划综合平衡的重要工具,也是进行能源需求预测的一种方法。应用投入产出分析法进行能源需求预测,需要具有一份实物型投入产出表。因数分析法6,它是根据事物之间的因果关系,建立变量之间的函数关系,通过确定己知变量来预测未知变量的方法。相关关系预测法是用统计分析方法找出现象与石油消费之间的因果关系或结构比例关系,并根据这些关系来预测石油消费的方法。由于石油需求往往受到许多因素的制约,并且这些因素之间又保持着错综复杂的关系,因此运用因果模型或结构比例关系预测石油需求一般比较困难,即使能够预测,也往往由于相关因素未来值的不确定,而使预测结果不够准确。国内实证研究的文献,有直接对经济与能源消费数据进行比较分析的。如:陈书通,耿志成,董路影(1996)7研究了两者相互关系的产生原因。又如:马舒曼,吕永波,韩晓雪(2004)8根据我国历年能源消费的供需比、消费结构等数据以及与其他国家相关数据的比较,归纳出我国能源消费存在利用率低、消费结构不合理、供需矛盾加剧等问题。通过分析经济发展状况及其与能源消费的关系,指出了我国应该走可持续发展的新型工业化道路,并提出相应的政策建议。近年来,国内学者对线性预测模型在经济金融领域的应用也颇有研究:白艳(2005)通过将汽车的各项客观解释变量作为回归分析的解释变量,驾驶者的各项主观评价作为回归分析的因变量,建立多元线性回归模型,并建立t检验来辨别各项回归系数的显著性,从而得出了一套相对客观的汽车操纵稳定性评价体系9。高云霞(2006)结合离子选择电极分析方法所得到的实验数据,建立多元线性回归模型进行分析,从而解决了在有共存离子干扰的情况下,同时测定cd2+和pb2+,相对于传统的分析方法提高了测定效率10。吴曾(2009)通过广义多元线性回归模型对奥林巴斯售后服务满意度进行分析,从而证实了当变量是非数值变量时,回归分析不再适用,但是依然可以通过统计方法将非数值变量量化,创造条件使用多元回归模型。1.2研究意义能源是社会经济发展的源动力,也是保障人类生存的基本条件。当今时代,能源问题仍然是世界各国,特别是各大国普遍关注的一个战略问题。目前我国已成为世界第二大能源消费国,而石油工业是我国国民经济的重要基础和支柱产业,在宏观经济的发展中占有举足轻重的地位。凡是预则立,不预则废。只有高屋建瓴,把握整体局势,谋定而后进,善于抓住每一次机遇,精于资源调配,才能使我国石油实现稳定持续供应,使我国经济持续发展,使国家永葆强盛的生命力。研究中国石油消费量,对于未雨绸缪的实现中国能源战略安全,保证中国经济社会稳定发展,具有重大意义。1.3研究思路本文就中国石油消费市场的石油消费量进行短期预测研究。第一、寻找影响中国石油消费量的因素,收集、整理、分析因变量与自变量(也称为解释变量)的样本资料;第二、建立模型。线性模型是数理统计中一类重要的模型,其主要包括线性回归模型、方差分析模型、协方差分析模型、方差分量模型、线性预测模型等。研究方向主要包括模型拟合与预测两个方面的内容。在应用领域,我们不仅需要了解历史数据的拟合趋势,而且还希望利用过去的数据预测未来,这时可以根据不同的侧重点选择不同的模型。线性回归模型是研究现象之间相关性的具体形式,通过规定因变量和自变量来确定变量之间的因果关系,寻求因变量与自变量之间客观存在的依赖关系。对于预测问题,线性预测模型是一种适当的选择。线性预测模型和线性回归模型的区别在于,前者假设误差项要具有相关性,而后者要求误差项具有独立性。我们考虑先从线性回归模型入手,然后考虑误差项的相关性,进一步做深入研究分析。我们首先画出数据的矩阵散点图,由散点图显示的各变量之间的相关关系,初步选择对石油消费量有显著影响的解释变量参与模型,根据数据求解模型的各个参数,得到拟合方程,并进行评价。在发现某些变量对因变量的效果不显著时,运用逐步多元回归剔除不合理的自变量,使建立的回归方程既符合统计学意义又符合经济学意义。对线性回归模型进行残差检验,即对残差作独立性、等方差性和正态性的三个假设的检验。在残差满足独立性时,我们利用经典预测方程,对石油消费量进行预测,并做出结果分析。如果残差项是相关的,满足线性预测模型的假设条件,进一步考虑作最优预测。首先判断残差是否满足arma模型,即画出残差数据的时间序列图、及其自相关和偏自相关函数分析图,根据自相关和偏自相关函数分析及信息准则法确定残差的arma模型和相应的阶数。最后用最优预测方程对石油消费量进行了预测。我们还考虑了针对石油消费量仅随时间的变化而变化的情况。首先画出石油消费量原始数据的时间序列图、及其自相关和偏自相关函数分析图,根据图形判断原始数据是否具有随机性、平稳性和周期性。采用差分法对数据进行处理后,画出差分数据的时间序列图、及其自相关和偏自相关函数分析图。然后根据自相关和偏自相关函数分析图及信息准则法确定模型,检验模型是否合适,最后进行石油消费量的预测。第三、模型比较。根据各模型的预测值及其相对误差,对模型进行比较,并给出相应的建议。26重庆科技学院本科毕业设计 2 基本概念和理论2 基本概念和理论2.1线性模型2.1.1一般线性模型一般线性模型的形式: (2.1)其中,表示因变量的阶观测向量,表示解释变量的阶观测矩阵,为阶模型系数,为解释变量数目,为残差项。通常假设列满秩。残差项通常有两种情况,一种是残差项相互独立,另一种是残差项具有相关性。2.1.2多元线性回归模型(1)模型基本概念和假设在应用问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这种主要分析因变量与多个自变量之间的因果关系的模型就叫做多元线性回归模型。多元线性回归模型满足以下假设:解释变量是确定性变量,不是随机变量;解释变量之间互不相关,即无多重共线性;残差项是独立的,服从0均值、等方差的正态分布,与解释变量之间不相关;系数矩阵x列满秩。(2)模型的参数估计在满足线性模型基本假设的条件下,多元线性回归模型可采用普通最小二乘法估计参数,具体步骤如下:多元线性回归模型的总体回归方程: (2.2)只是理论上存在,通过有限样本是无法求得的12,因此,我们只能利用样本回归方程: (2.3)对参数进行推断,即用作为总体回归系数的估计量。根据最小二乘原理可知,要求出总体回归系数的最佳估计量,应使残差平方和达到最小。根据多元函数的极值原理,是下列方程组的解:解得:,即为的最小二乘估计(ols)。2.1.3线性预测模型建立模型2.1,除了要根据已有的样本数据拟合得出值,还要根据拟合结果对因变量做预测。假设为因变量预测值,则应满足: (2.4)其中,表示因变量预测值,表示解释变量观测矩阵,为模型系数, 为残差项。当2.1式中残差项和2.4式中残差项满足以下关系时:模型2.1即称为线性预测模型。残差的相关性这一假设是线性预测模型区别于线性回归模型的关键之处。2.2统计检验最小二乘法只是一种单纯的数学方法,存在着一定的缺陷,即不论变量间有无相关关系或有无显著线性相关关系 ,用最小二乘法都可以找到一条直线来拟合变量间关系。另外由于在求解模型的过程中,对残差做了正态性、等方差性、独立性等假设,所以当多元线性回归模型的参数估计任务完成并建立其样本回归方程之后,还需要进一步对该样本回归方程进行统计检验和残差检验。2.2.1拟合优度检验(1)判定系数在多元线性回归模型中,使用判定系数来衡量样本回归方程对样本观测值的拟合优度。判定系数可表示为:,其中表示回归平方和,表示总离差平方和。作为检验样本回归方程与样本观测值拟合优度的解释变量,越大,表明样本回归方程与样本观测值拟合的越好;反之,拟合的越差。但在应用过程中发现,的大小与模型中的解释变量个数有关,随着解释变量个数的增加,往往是增大的。因此在多元线性回归模型之间比较拟合优度,还可以采用下面的指标。(2)校正判定系数对判定系数进行调整的方法是用残差平方和与总离差平方和分别除以各自的自由度,以消除解释变量个数对拟合优度的影响。调整后的判定系数用表示,即:其中,为残差平方和的自由度;为总离差平方和的自由度。2.2.2回归方程显著性检验回归方程总体线性的显著性检验是对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。方程的显著性检验普遍使用的方法是检验。按照假设检验的原理,提出的原假设与备择假设分别为:在原假设成立的条件下,统计量为:因此,给定显著性水平,查分布表,得到临界值,并根据样本观测值求出统计量的值。若,则拒绝,接受,认为回归方程总体上线性关系显著成立;若,则接受,认为回归方程总体上的线性关系显著不成立。2.2.3回归系数显著性检验在求出回归系数后,需要进行回归系数的显著性检验。回归系数的显著性检验一般是用检验。按照假设检验的原理,提出的原假设与备择假设分别为:在原假设成立的条件下,统计量为:给出显著水平,查表得出临界值,根据样本观测值求出检验值。判断:若,则拒绝原假设,接受,说明回归系数是显著的。若,则接受原假设,说明回归系数是不满足显著性假设。2.2.4线性模型的残差检验由于在利用最小二乘法原理求解线性模型时,对残差实际上是做了独立性、等方差性和正态性的三个假设。为判断线性模型是线性回归模型还是线性预测模型,我们将运用以下几种方法对残差进行检验。(1)正态性w检验法正态性w检验法19是利用shapiro-wike w统计量做正态性检验。在r软件中,函数shpiro.test()提供w统计量和相应的p值,设定显著水平,一般设定显著性水平为0.05。当p值大于时,则认为样本满足正态性,否则认为样本不满足正态性。(2)残差图检验法为检验线性模型是否满足线性回归模型的假设,通过拟合值与残差的散点图来检验。画拟合值与残差的散点图,或者画出回归值与标准残差的散点图。其图形可能会出现下面三种情况:(a)正常情况 (b)异方差情况 (c)非线性情况对于图(a)的情况,不论回归值的大小,残差具有相同的分布,并满足模型的各种假设,如果大部分点落在中间部分,而只有少数几个点落在外边,则这些点对应的样本可能有异常值存在;对于图(b)的情况, 表示回归值的大小与残差的波动大小有关系,即等方差性假设有问题;对于图(c)的情况, 表示表示线性模型不适合,应考虑非线性模型。(3)残差自相关图检验法由参考文献20,根据残差的自相关图和偏自相关图可以直接判断残差是否相关。如果残差是相关的,即用偏自相关函数可以初步判定自回归模型的阶数,用自相关函数可以初步确定移动平均模型的阶数,综合考虑即可确定arma模型。2.3模型预测2.3.1经典预测当2.1式中残差项满足独立性,等方差性,正态性假设时,模型2.1即为多元线性回归模型,可以做经典预测。经典预测的预测值实际上是条件期望值。对于2.1式,估计的样本回归方程为: (2.5)给定,则可得出预测值,即有经典预测模型: (2.6)2.3.2最优预测当2.1式中残差项和2.4式中残差项满足以下关系时:模型2.1为线性预测模型,可做最优预测。最优预测需要考虑残差的相关性。由于残差项具有相关性,进一步假设残差项存在阶自相关形式: (2.7)给定,则可得出预测值。如果只考虑一步向后预测,则有: (2.8)2.8式展开式为: (2.9)最优预测模型为: (2.10)2.4时间序列趋势预测模型 随机时间序列模型是一种精度较高的时间序列短期预测方法,模型有三类基本形式:自回归模型ar、移动平均模型ma、自回归移动平均模型arma,本节主要介绍自回归模型和移动平均模型。如果时间序列是它的前期值和随机项的线性函数,即可表示为 (2.11)其中,是独立同分布的随机变量序列,并且对于任意的,都有。则称时间序列服从阶自回归模型,记为ar(p),称为自回归系数。如果时间序列是它的前期值和随机项的线性函数,即可表示 (2.12)则称时间序列服从阶自回归模型,记为ma(q),称为自回归系数。2.4.1模型特征分析(1)自相关构成时间序列的每个序列值之间的简单相关关系称为自相关。自相关程度由自相关系数度量,表示时间序列中相隔期的观测值之间的相隔程度。 (2.13)其中,是样本量,为滞后期,代表样本数据的算术平均值,且越接近1,自相关程度越高。(2)偏自相关偏自相关是指对于时间序列,给定的条件下,与之间的条件相关关系。其相关程度用偏自相关系数度量, (2.14)其中,是滞后期的自相关系数。(3)随机性如果一个时间序列是纯随机序列,意味着序列没有任何规律性,序列诸项之间不存在相关性,即序列是白噪声序列,其自相关系数应该与0没有显著差异。可以利用置信区间理论进行判定。测定序列的随机性,多用于模型残差以及评价模型的优劣。(4)平稳性若时间序列满足:对任意时间,其值恒为常数;对任意时间和,其自相关系数只与时间间隔有关,而与和的起始点无关。那么这个时间序列就称为平稳时间序列。序列的平稳性也可以利用置信区间理论进行判定。需要注意的是,只有平稳时间序列才能直接建立arma模型,否则必须经过适当处理使序列满足平稳性要求。(5)季节性时间序列的季节性是指在某一固定的时间间隔上,序列重复出现某种特性。比如地区降雨量、旅游收入和空调销售额等时间序列都具有明显的季节变化。判断时间序列季节性的标准为:月度数据,考察时自相关系数是否与0有显著差异。若自相关系数与0没有显著差异,说明各年中同一月(季)不相关,序列不存在季节性,否则存在。2.4.2模型的建立与识别在需要对一个时间序列建模时,应在消除季节趋势后,运用序列的自相关和偏自相关对序列适合的模型类型进行识别,确定适宜的阶数以及。(1)ma(q)的自相关与偏自相关函数自协方差函数为: (2.15)是白噪声序列的方差。样本自相关函数为: (2.16)ma(q)序列的自相关函数在以后都是0。这种性质称为自相关函数的步截尾性;偏自相关函数随着滞后期的增加,呈现指数或者正弦波衰减,趋向于0,这种特性称为偏自相关函数的拖尾性。(2)ar(p)的自相关与偏自相关函数是步截尾的。偏自相关函数: (2.17)自协方差函数满足;自相关函数满足。它们呈指数或者正弦波衰减,具有拖尾性。(3)arma(p,q)的自相关与偏自相关函数均是拖尾的。(4)aic阶数判定准则aic准则既考虑拟合模型对数据的接近程度,也考虑模型中所含特定参数的个数,关于模型,aic函数形式为: (2.18)aic准则定阶方法可写为: (2.19)其中,为arma模型阶数的上限,一般取为或。2.4.3模型预测若模型经检验是合适的,也符合实际意义,可用作短期预测,本节只介绍ar()模型的预测。根据模型2.11式,对于观测值,经过计算,我们容易得到: (2.20)进一步地,可以得到: (2.21)方程2.20即为模型2.11的预测方程,代入相关系数和样本数据即可得出预测值。重庆科技学院本科毕业设计 3 石油消费量的线性预测3 石油消费量的线性预测3.1解释变量选取及数据收集3.1.1解释变量选取影响石油消费量的因素有很多,我们根据中国石油消费量预测模型研究与应用12,中国石油消费预测模型研究与应用13,选取石油消费量为因变量,原油产量,原油净进口量为自变量;再根据我国能源消费产生的环境问题研究14,选取民用汽车数量为自变量;联系经济学中的消费理论,选取石油的价格为自变量;随着我国经济不断发展,工业消费持续增长,石油消费量也加速增长,因此石油消费量有一定的时间趋势性,故时间也可以作为自变量参与模型。最终确定石油消费量为因变量,原油产量、石油净进口量、石油价格、民用汽车数量和时间趋势为自变量:原油产量作为衡量国内石油市场供给情况的解释变量;石油净进口量作为衡量国外对国内石油市场供给情况的解释变量;石油价格作为衡量石油消费价格变动的情况;民用汽车总数可以作为衡量市场需求大小的解释变量;时间趋势作为衡量固定时间段国内经济发展趋势。客观的说由于时间、经费等多方面的约束,我们选取的解释变量可能不是很全面,导致建立的回归模型较小。但是根据统计预测与决策20,大型模型的预测精度并不比小型模型的预测精度高,而且没有哪一种预测方法或模型适合于各种情况或在各种情况下都比其它方式或模型效果好。3.1.2数据收集和处理确定解释变量后收集数据,通过互联网利用国家统计局15、中国海关总署16和index mundi17分别找到原油、汽油、煤油、柴油、民用汽车的月度产量,原油、石油的进出口量,原油的月平均价格这些解释变量从2005年7月份到2011年11月份共77个月的月度数据。从各网站收集的数据不是我们需要的直接数据,只有经过处理后才能引入模型。根据石油消费的主要途径,我们把汽油、煤油、柴油的产量和加上石油的净进口量作为石油的消费量。时间趋势变量是离散的,我们用1除以12将它变成连续变量。石油消费量和民用汽车数量这两个解释变量数据不全,从2006年到2011年,每年1月份的数据缺失,缺失值基本是定距型的,我们用缺失值前后两个月的平均值填补缺失值。假设和分别为石油消费量和民用汽车数量的缺失值,其中则有模型引用的各解释变量的符号和单位如表3.1:表3.1:符号说明(万吨)(万吨)(万吨)元/吨(万辆)石油消费量原油产量石油净进口量石油价格民用汽车数量时间趋势3.1.3数据初步分析用r软件19画出数据的散点图,如图3.1:图3.1:变量散点矩阵图从图3.1可以看到:(1)自变量(原油产量)、自变量(石油净进口量)、(民用汽车数量)、自变量(时间趋势)与因变量(石油消费量)之间存在良好的线性关系,可以引入多元线性回归模型;(2)自变量(石油价格)与因变量(石油消费量)之间存在一定的线性关系,散点分布趋势并不均匀,可能存在其他变量的影响,但是基本上可以引入多元线性回归模型进行进一步分析;由此可知,可以以为因变量,为自变量建立线性回归模型,进一步分析他们之间的线性关系。3.2多元线性回归模型假设石油消费量与各解释变量之间有如下拟合关系: (3.1)其中,是回归系数,为解释变量,为随机误差,满足,是单位矩阵。即残差满足独立性、等方差性和正态性的假设。 3.2.1多元线性回归我们将与石油消费量具有线性关系的自变量原油产量、石油净进口量、民用汽车数量、时间趋势全部变量引入多元线性回归模型。针对以上自变量,使用从2005年7月到2011年10月共76组数据进行多元线性回归,2011年11月份的数据作为真实值和预测值进行对比,进而得出模型预测结果的好坏。通过计算,得出方程的判定系数为0.8968,校正后的判定系数为0.8894说明该多元线性回归模型的拟合优度很好,有将近90%的数据可以用该模型加以解释;模型总体的检验统计量为且值为2.2e-16远远小于0.01,说明至少一个自变量的回归系数不为0,所建立的回归模型具有统计学意义。各解释变量的拟合系数如表3.2:表3.2:各解释变量的系数和检验值变量系数值标准差t值p值常数-11010026770-4.0710.000114x10.84040.17994.2190.0000672x20.112130.060052.30.054141x30.026620.010632.6580.016782x40.54970.600110.320302x554.9313.384.0670.000115由表3.2的输出结果看到:原油产量、时间趋势对石油消费量的影响是非常显著的,石油净进口量、石油价格对石油消费量的影响也相对显著。唯一不足的是,民用汽车数量对石油消费量的影响不显著,没有通过t检验。模型还有待优化,应该从所有变量中选出对石油消费量有显著影响的变量重新建立方程。总体上,该模型的方程和各系数都基本通过检验,模型的拟合效果是比较好的,我们可以得出回归方程: (3.2) 3.2.2逐步回归分析由于方程(3.2)中,民用汽车的t检验值为0.320302,没有通过显著性检验,说明该变量对石油消费量没有显著的影响,所以我们用逐步回归分析剔除对石油消费量没有显著影响的变量,重新建立新的回归模型。通过计算,得出逐步回归方程的判定系数为0.8956,校正后的判定系数为0.8897,和前面的多元线性回归的拟合结果相比,其决定系数和校正决定系数并没有很大的改变,都非常接近90%的;模型总体的检验统计量为152.3且值为2.2e-16远远小于0.01,模型总体通过方程的检验,所建的模型具有统计学意义。逐步回归后的解释变量的系数见表3.3:表3.3:解释变量的系数和检验值变量系数值标准差t值p值常数-12140024530-4.9480.000114x10.88580.18274.8470.0000713x20.14280.056932.5080.0144x30.025250.010632.3580.0215x560.5312.294.9250.00053由表3.3的输出结果可知,去掉解释变量即民用汽车数量后,重新建立回归模型,在新的模型中,各项解释变量的值都小于显著性水平0.05,表明各自变量具有统计学意义,能够对因变量造成显著影响20。综上所述,该回归模型可用。由此可以得出拟合方程: (3.3) 3.2.3残差检验下面我们对残差作独立性、等方差性、正态性的检验,从而判断模型是否合理,模型是否适合做预测。(1)正态性检验根据正态性w检验原理,利用r软件得出结果w=0.9852 ,p值为0.5218大于0.05,说明不能拒绝原假设,所以残差满足正态性。(2)独立性和等方差性检验画出回归值与普通残差的散点图,同时画出回归值与标准残差的散点图。利用r软件计算普通残差和标准化残差,并画出相应的散点图,如图3.2、3.3: 图3.2拟合值与残差的散点图 图3.3拟合值与标准残差的散点图从图3.2、3.3可以看出,残差具有相同的分布且满足模型的各种假设条件。标准化残差近视服从正态分布,大约95%的样本点都在区间-2,2中,所有点均在宽度为4的水平带中,且不呈现任何趋势。由此说明残差满足假设独立性,等方差性和正态性。所以线性回归模型合理的,但残差的独立性说明各数据之间是相互独立的,没有相关性,由此说明该模型并不适合做石油消费量的最优预测,只能做经典预测。 3.2.4经典预测根据理论部分2.8式,将原油产量、石油净进口量、石油价格、民用汽车数量、时间趋势五个解释变量2011年11月的数值代入初步回归估计方程3.2式;将原油产量、石油净进口量、石油价格、时间趋势四个解释变量2011年11月的数值代入逐步回归的估计方程3.3式。得出经典预测结果如表3.4所示:表3.4:经典预测结果模型预测值实际值相对误差多元回归模型2276.6522390.64.76%逐步回归模型2281.982390.64.54%作为一个经济领域的预测模型而言,预测值误差在20%以内都是允许的1。两个模型的预测结果相对误差均小于5%,分别对石油消费量进行了较为精确的预测,且很好的反应了各变量对石油消费量的影响。由表3.4的结果容易看出该模型预测结果的误差在可接受范围内。所以在满足假设条件的情况下,该模型是合理的。3.3线性预测模型3.3.1模型建立当残差相互独立时,模型2.1为多元线性回归模型,模型主要侧重的是各变量之间的横向分析,可以做内推预测,不适合做外推预测。当残差项具有相关性时,考虑建立线性预测模型作外推预测。从经济角度看,考虑到经济消费结构中供求关系的密切性,加上石油消费在整个国家运作过程中的不可替代性,或许过多的考虑一些非主要因素反而会影响预测的精度。从模型角度看,图3.2和图3.3表明模型残差是相互独立的,说明前面引入的自变量建立的模型的残差是不相关的,因此需要重新选择自变量建立新的模型。而且考虑过多的因素有可能会弱化残差的相关性,把原本有相关性的残差独立化,模型偏离实际,预测缺乏实际意义。通过多次试验,我们找到了残差相关的线性预测模型,即只引入石油消费量和原油产量两个变量建立模型: (3.4)利用2005年7月到2011年10月石油消费量和原油产量的76组数据进行拟合,得出拟合估计方程: (3.5)由经典预测模型2.8式可知,根据3.5式我们可以先做出该模型的经典预测值。以便下面对模型做比较,将2011年11月份的原油产量代入上述拟合估计方程,得到石油消费量的经典预测值,结果见表3.5。3.3.2残差相关性分析模型3.5是通过最小二乘法拟合得出的拟合方程,是否能做最优预测,取决于残差是否相关。根据3.5式得出2005年7月到2011年10月的石油消费量的拟合值,还有石油消费量的原始数据,由公式,得出模型3.4的残差值,并将其定义为时间序列,画出残差的自相关图和偏自相关图,如图3.4:图3.4:残差自相关偏自相关图从图3.4中可以看到自相关函数2步平稳,可以初步确定模型为ma(2),偏自相关函数1阶以后平稳,可以初步确定模型为ar(1)。由此可知,残差具有相关性,并且可能符合一种时间序列模型。3.3.3残差的自相关模型(1)模型确定和定阶由上一小节的分析结果,再根据信息准则法原理,求得准则值分别为:当确定模型为一阶自回归模型时,aic为950.83;当确定模型为二阶移动平均模型时,aic为946.88。由于ar模型比ma模型的数学处理要容易,同时模型阶数小比模型阶数大更容易处理,因此在模型的aic值相差不大的情况下,选择ar(1)模型比ma(2)更理想。故将模型的残差定义为ar(1)模型: (3.6)其中,是白噪声,是相互独立的,满足残差的基本假设。(2)模型检验检验模型的有效性主要是检验。如果残差序列是白噪声序列,则意味着模型能够提取观测值序列中几乎所有的样本相关信息,否则,意味着残差序列中还残留着相关信息未被提取。根据自回归模型的理论基础,用r软件得出自回归模型3.6式的相关系数为,并得出模型诊断图3.5:图3.5:模型诊断图图3.5是由r软件命令得出的,其中包含标准残差的时间序列图、残差的自相关图、残差的qq图、l-b检验图。标准残差的时间序列图显示残差没有明显的趋势,几个奇异点也在标准误差的范围之内;残差的自相关图显示残差基本介于两个标准差之间,两个奇异值也在模型假设范围内;残差的qq图显示绝大部分点在直线附近。l-b检验图显示检验值p值都在虚线上方,表明残差满足随机性和独立性。综上所述模型的残差项是白噪声,模型3.6是有效的。3.3.4最优预测根据2.12式,有经验方程: (3.7)将拟合系数代入3.7式即有估计方程: (3.8)根据向后一步预测法2.9式,将2011年11月份原油产量和2011年9月份的残差代入3.8式,得出线性预测模型中石油消费量的最优预测值。结果见表3.5:表3.5:预测结果模型结果预测值实际值相对误差一元线性回归模型2083.822390.612.83%线性预测模型2205.652390.67.73% 表3.5的结论说明,我们在考虑到误差的相关性后,线性预测模型的预测精度相对于一元线性回归模型有了明显的改进。3.4时间序列预测模型线性模型注重横向统计,侧重的是因果分析。而时间序列模型是针对序列按时间的变化做纵向统计分析,以预测对象的历史时间序列数据为基础,运用数学建模方法使其时间维度向外延展,预测变量未来的发展变化趋势。为完善本文石油消费量的预测研究,我们考虑建立石油消费量的时间序列模型。3.4.1数据分析和处理我们利用从2005年7月到2011年10月的76组石油消费量数据来做预测分析,首先画出石油消费量原始数据折线图如图3.6,自相关和偏相关分析图如图3.7:图3.6:石油消费量原始数据折线图由图3.6可以明显地看出数据的特征,石油消费量随时间呈现出明显上升趋势,所以我们可以判定该序列是非平稳的。图3.7:自相关和偏自相关图从图3.7的自相关分析图,我们也可以看出大部分自相关函数不在置信区间内,所以该序列不具有随机性;同样很多自相关函数落在置信区间外和自相关函数衰减很慢也说明了该序列不具有平稳性;自相关函数的波动情况可以看出,序列具有明显的年度季节周期性。为了得到一个具有平稳性且不具有季节性的石油消费量序列,我们对原始序列进行一阶差分,并画出的序列图和自相关偏相关分析图如图3.8、图3.9:图3.8:差分序列图从图3.8可以看到,没有明显的时间趋势,所以可以说序列是平稳的。图3.9:差分后自相关和偏自相关图同图3.7的分析原理,通过图3.9的自相关分析图可以看到自相关函数基本都落在置信区间之内自相关函数衰减很快,所以该序列具有随机性和平稳性。3.4.2建立时间序列模型从图3.9中可以看到自相关函数3步截尾,可以初步确定模型为ma(2)或ma(3),偏自相关函数2阶以后平稳并有拖尾现象,可以初步确定模型为ar(2)或ar(3)。根据信息准则法,求各模型得aic准则的值如下:当确定模型为二阶移动平均模型时,aic为787.12;当确定模型为三阶移动平均模型时,aic为787.95;当确定模型为二阶自回归模型时,aic为788;当确定模型为三阶自回归模型时,aic为786。由此可知各模型的aic值都差不多。由于ar模型比ma模型的数学处理要容易一些,故选择ar模型;同时模型阶数小比模型阶数大更容易处理,最后我们确定ar(2)模型: (3.9)同模型3.6,计算自回归模型3.9式的系数为:得出该模型诊断图如下:图3.10:模型诊断图图3.10是运用r软件包得出,其中包含标准残差的时间序列图、残差的自相关图、残差的qq图、l-b检验图。标准残差的时间图显示残差没有明显的趋势,几个奇异值也在标准误差的范
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业与劳动者签订劳动合同的保密协议与竞业限制条款
- 离婚双方股份分割与共同财产分割合同
- 物业管理公司员工劳动争议调解及仲裁协议
- 广告创意落地执行代理合同
- 注重团队建设提升团队执行力
- 促进话叫员工团队协同
- UML理论概述方案
- 零售业销售策略制定方案
- 2025重庆市万州区沙河街道办事处公益性岗位招聘1人笔试备考试题及答案解析
- 供给侧改革下农业企业融资策略研究-以江苏省农垦集团有限公司为例
- 《时尚品牌市场调研》课件
- 2025-2030年地域风味酱板鸭行业跨境出海战略研究报告
- 2025年一季度全院难免压疮风险评估上报总结分析(二篇)
- 网页设计的交互设计研究-洞察分析
- 微信零钱被冻结的保全复议申请书
- 2025-2030年中国微晶玻璃面板行业规模分析及投资前景规划研究报告
- 《矿山安全技能培训》课件
- 小学生班级安全小卫士
- 虚开增值税专用发票罪的入罪标准解读
- 2025年江苏南京市国企集团招聘笔试参考题库含答案解析
- GB/T 33761-2024绿色产品评价通则
评论
0/150
提交评论