货运量预测的多元线性回归模型验证与改进研究.doc_第1页
货运量预测的多元线性回归模型验证与改进研究.doc_第2页
货运量预测的多元线性回归模型验证与改进研究.doc_第3页
货运量预测的多元线性回归模型验证与改进研究.doc_第4页
货运量预测的多元线性回归模型验证与改进研究.doc_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

合肥工业大学硕士学位论文货运量预测的多元线性回归模型验证与改进研究姓名:刘平申请学位级别:硕士专业:物流工程指导教师:王庆军2011-06 5 The research of freight volume forecasting multiple linear regression model validation and improve Abstract As the logistics industry restructuring and revitalization of the planning promulgated,logistics industry as the ten major revitalization of the development of industry are highly.Cargo is an important indicator for analysising logistic needs of region.It is the main basis for determining the scale of the logistic infrastructure and making industrial policies. Because information comprehensive and operation simple, multivariable linear regression model to be the first choice of the vavios cargo froreast models.Cargo as a kind of economic activities, its predictions of the linear regression model would have surely existed.To study the model of cargo froreast iis a rewarding job. Based on the read of home and abroad relevant documents,this article analysed the cargo of multivariable linear regression model,summaried of the model has some Characteristics, such as comprehensive,highly Goodness of Fit, explanation of the indicators and so on.It is also pointed out the contradictions of that model and flaws of the regression. points out that the improved method brought by information the result predicted delete the incomplete of ideals shortage .According to multiple linear regression model of freight and econometrics improvement method shortcomings deficiency. this paper is based on the theory of system clustering multivariate linear models improvement method, using correlation analysis theory of independent comprehensive index data matrix, establishing monadic linear regression model. Finally in empirical analysis on the basis of fitting ability index, forecasting ability index data, etc. this paper summarizes advantages of aspects of content and which needs to be improved. In this paper, the work baseing on system clustering methods of improvement belong to create type of research. Application system clustering theory of multiple linear regression model was improved, it overcome regression problems and construct the freight volume forecasting model . the research content of studies also did not involve at home and abroad, which make this paper content more creative. Keyword:Freight volume ;Multivariate linear regression model; System clustering ;Econometrics ; 8 插图清单 图1-1 文章结构图.7 图4-1 计量经济学改进思路图.27 图5-1 自变量与因变量散点图.41 9 插表清单 表3-1 货运量及其影响指标数据表.22 表3-2 检验指标数据表.23 表3-3 货运量预测结果表.24 表4-1 共线性检验指标数据表.29 表4-2 变量之间相关系数表.29 表4-3 person相关系数表.29 表4-4显著性检验表.30 表4-5 货运量预测结果表.31 表5-1 数据初始化结果.36 表5-2 两两级差表.37 表5-3数据表.38 表5-4 ri数据表.39 表5-5 显著性检验表.41 表5-6模型显著性检验结果表.42 表5-7 自变量显著性检验结果表.42 表5-8 货运量预测结果表.43 表5-9 拟合能力对比表.44 表5-10 预测能力数据比对表.45 表5-11 检验指标信息比对表.46 3 独 创 性 声 明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 合肥工业大学 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签字: 签字日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解 合肥工业大学 有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权 合肥工业大学 可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书) 学位论文者签名: 导师签名: 签字日期: 年 月 日 签字日期: 年 月 日 学位论文作者毕业后去向: 工作单位: 电话: 通讯地址: 邮编 56 特别声明 本学位论文是在我的导师指导下独立完成的。在研究生学习期间,我的导师要求我坚决抵制学术不端行为。在此,我郑重声明,本论文无任何学术不端行为,如果被发现有任何学术不端行为,一切责任完全由本人承担。 学位论文作者签名: 签字日期: 年 月 日 1 第一章 绪 论 1.1研究背景 随着经济全球化的不断发展,全球范围内采购、生产、销售和客户服务趋势的加强,现代服务业尤其是物流产业的地位日益显著,物流正在成为拉动国家或地区国民经济发展的重要力量。另一方面,全球服务贸易的迅猛发展及新一轮的国际产业转移,使物流产业的发展迎来了良好的发展机遇,也要求各国加快发展现代物流产业,完善物流服务体系,提高物流服务能力,应对日益激烈的全球竞争。 进入新世纪以来,我国物流产业作为服务经济中的一个新兴产业,也步入了新的发展阶段。中央和地方政府也越来越重视现代物流产业的发展,继出台“十一五”物流产业振兴规划之后,2009年4月24日国家发改委发布物流产业调整和振兴规划1,号召全国各地区各地区、各部门要把思想和行动统一到党中央、国务院的决策部署上来,切实按照规划要求,确保规划目标的实现,促进物流产业健康发展。各地区目前都在响应中央的号召,正在进行紧锣密鼓的规划当中。 虽然目前物流产业的发展态势良好,对促进国民经济建设的作用也日益明显。但是我们也看到由于缺乏可靠货运量预测基础上制定的物流规划所导致的物流建设目标因缺乏依据而过高,计划难以实现,物流市场供需失衡,重复建设等问题。 货运量预测是物流规划制定的基础,预测的多元线性回归模型是政府或相关部门使用最为频繁的预测模型,但货运量预测的多元线性由于其本身的矛盾性和回归性等问题严重影响着预测的精准度,目前针对货运量预测模型的改进主要是基于计量经济学的理论,针对其回归问题中的多重共线性、异方差性和自相关性等问题加以研究,但改进效果未知,改进过程繁杂。因此对货运量预测的多元线性回归模型加以研究很有必要。 1.2研究问题的提出 1.2.1 研究的必要性 新世纪以来我国物流产业得到迅猛的发展。2000年我国第一部城市物流规划深圳市“十五”及2015年现代物流产业发展规划出台,该规划将物流产业作为深圳市支柱产业之一来发展。在此之后,我国上海、北京等城市先后制 2 定了符合本市特色的物流发展规划。2009年,国家出台物流产业调整和振兴规划将物流产业作为我国十大振兴产业,这使物流产业在国家战略层面得到重视。物流规划是物流产业发展的指导性文件,是在预测物流需求为基础制定出来的。货运量作为物流需求的主要指标,其预测的精准度严重影响着政府或相关部门物流规划的合理性和可行性。对货运量预测模型进行研究,提高模型预测精准度,关系到政府和企业资源的合理配置、产业结构的合理调整、区域经济的发展。 1.2.2 研究问题的产生 对于多元线性模型的改进理论在计量经济学领域理论研究得非常深入,其基本思想是消除多元线性回归模型中的回归问题,以达到稳定预测模型,提高预测能力的作用。但是基于计量经济学的改进方法还存在着删除变量指标和预测结果非完全理想化等特点。是否存在一种方法即能保留多元线性回归模型中信息全面性和拟合度高的特点,又能克服计量经济学改进方法中的缺点达到提高预测能力的作用。因此,本文拟以全国货运量预测作为事例,从系统聚类的理论加以研究,以期能建立一种新的模型来改进多元线性回归模型,达到提高预测能力的作用。 1.3 研究意义 对货运量预测方法进行改进研究具有十分重要的意义: 1.3.1理论方面 (1)丰富了多元线性回归模型改进方法。多元线性回归模型的改进方法主要是基于计量经济学理论的模型改进方法,其核心思想是对回归模型中的多重共线性、异方差性和自相关性等问题采用复杂的数学公式进行逐一改进,其改进步骤繁杂,工作任务量大。基于系统聚类的改进模型通过应用系统聚类理论进行指标转化,合成综合指标矩阵,构建一元线性回归方程的方法消除多元线性回归模型中存在的问题。基于系统聚类的改进方法为多元线性回归模型改进方法提供了一种新的思路。 (2)提供了一种新的货运量预测方法。基于系统聚类的货运量改进模型是一种新的货运量预测模型,它是应用系统聚类的理论对货运量进行预测,该模型的提出,在改进多元线性回归模型回归问题的基础上,也为货运量提供了一种新的预测方法。 3 1.3.2 实践方面 (1)为物流需求量预测提供可靠的依据。 物流产业是融合运输业、仓储业、货代业和信息业等复合型产业,涵盖第一、二、三产业几乎所有领域和部门,是国民经济的重要组成部分。全社会的物资、商品都需要通过物流来实现流通和资源的合理配置。物流货运量是物流需求影响的重要指标。因为在物流的整体活动中,运输是其很重要的部分并且是与其他物流活动联系最紧密的一个部分,运输量的多少也就反映了其他物流活动的频繁程度,运输量的变化也在一定程度上反映了物流需求量的变化。因此对货运量预测模型的改进研究,提高货运量预测的精确度也就是为更为精确的物流需求量的预测提供了可靠的依据。 1.4国内外研究现状 1.4.1 货运量预测方面 我国自20世纪20年代从西方发达国家引入物流理念以来,对于物流领域的研究取得了一定的水平,但在物流预测方面研究还不是很多,更多的是借鉴国外的研究成果。国内关于物流预测方面的研究主要有: 2001年张存禄等在武汉地区物流发展水平灰色预测一文中系统分析了武汉物流中心发展规划中的出现的问题,总结了影响武汉物流中心发展的各种因素,运用灰色系统预测模型对武汉的物流规模进行了预测,得出未来五年的武汉货运量年增长率2。 2005年刘芳等在灰色序列模型在物流园区货运量预测中的应用中运用灰色系统理论建立了货运量的灰色预测模型,并通过实例对货运量进行了预测,该方法具有运用少量数据及精度较高的优点3。 2009年宋彩平等在货运量影响因素分析多元线性回归分析中应用年国内生产总值、社会消费品零售总额、固定资产总投资额、运输邮电部门固定资产投资额作为自变量建立多元线性回归模型,对哈尔滨市年货运量总额进行预测,并对该模型进行分析,再结合定性分析的基础上,提出了提高哈尔滨年货运量的建议4。该多元线性回归模型自变量指标的选取为本文提供了良好的借鉴。 2010年黄勇等在关于铁路货运量货运预测研究中采用灰色关联分析方法选取影响铁路货运量变化的宏观影响因素,运用多变量灰色MGM(1,4)模型预测未来年铁路货运量,预测结果通过后验差检验,精度较好5。 关于货运量预测研究,国外研究较之国内研究要早且研究的比较多,因此国外物流预测的理论及其实践比较成熟。国外学者对货运量预测研究主要如下: 4 1991年Box和Jenkins在研究交通流量中,构建了一个合理的ARIMA模型,并阐述了构建该模型的三个步骤,即模型的识别、估算和检验。美国学者Brockweil.RJ和DaviS.R.A.随后又指出,在单变量预测模型中MSE较大的时候,选取ARIMA模型是最有效的6。 1992年Cullinance构建了Box-Jenkins模型,用于短期货运量预测。在随后几年,许多学者又把Box-Jenkins模型用于货运指数7。 2000年GregoryAGodfrey和WarrenBPowell提出了一系列基于指数平滑的预测模型,这些模型在实际操作和应用中比基于ARIMA方法的Box-Jenkins模型简单,且在预测更精确8。 2003年加拿大学者BashirZ和EI-HawarylvLE在加拿大电子与计算机工程国际会议上提出的一种由五个固定单元组成的动态神经网络模型,在交通流量预测方面表现了良好的预测性能9。 2004年William H.K.Lam、Pan L.Ng等学者针对香港港口货运吞吐量预测中提出采用神经网络预测模型进行预测,研究结果表明神经网络模型过去采用回归分析模型更可靠、更精确10。 2006年Paulo SAFreitas和Antonio JLRodrigues讨论了不同的神经网络预测模型或者基于神经网络预测模型的联合预测方法。他们在模型方法中考虑了高斯径向基函数网络,从不同模型中拓展了常用的线性联合估计模型的框架11。 综上所述,国内外学者对物流预测的理论、方法上已经做了很多的研究,并且取得了一定的成果,但更多的是研究某一种预测方法或模型在货运量预测中的应用,但对为何选择该理论、模型进行货运量预测并未做解释,在多元线性回归模型中的一些缺陷也很少做出研究或改进。因此本文对多元线性回归方法的一些缺陷进行改进研究,并做比较分析,以提高模型应用的灵活性和预测的精准度,为国内各城市或地区物流规划当中的物流货运量预测提供一种新的模型。 1.4.2 多元线性回归模型改进方面 对多元线性回归模型改进研究主要是从计量经济学角度加以研究的,并且研究成果已经成熟。 2006年王升在计量经济学导论一书中明确的提出了关于计量经济学理论的多元线性回归模型存在的问题及改进步骤:多重共线性检验修正异方差性检验修正自相关性检验修正。并且明确提出了各个检验指标及修正方法,为多元线性回归模型的计量经济学改进提供了良好的思路12。 2007年沈卉卉在自相关性的DW检验及模型检验详细介绍了自相关性 5 检验的DW检验理论,分析了检验方法的弊端,重点研究了局部调整模型,并应用该模型应用到货币流通量模型中,是货币流通量模型减轻了自相关性13。 2007年郁菁在回归模型的异方差性检验和消除研究以spss为分析工具一文中介绍了异方差性检验的必要性极其严重后果,针对异方差性以加权最小二乘法为理论基础,应用spss软件进行了改进研究。该文软件工具的使用为文本的统计计算工作提供了良好的借鉴14。 2008年王立平、万伦来等人在计量经济学理论与应用一书中系统的阐释了回归问题的产生原因,检验方法和解决方案15。 2009年国亮在改进多元线性回归模型在某油田产量预测中的应用应用逐步回归法对预测模型进行改进并进行实证对比,实例证明改进模型效果良好16。该改进方法为本文在消除自变量多重共线性问题时提供了较好的思路。 1.4.3 系统聚类方面 聚类分析方法是核心思想是“物以类聚”,它主要包括系统聚类法、逐步聚类法、逐步分解法、最有分割法等。聚类方法在指标分类中无可比拟的优越性使得系统聚类的理论得到越来越多的人的重视和研究。 2003年姜明辉等人在基于系统聚类和功能综合比较的技术定价方法一文中通过系统聚类的理论在定价方法中选择相似的技术来确定定价方法16。 2005年张世强在关于数理统计中系统聚类法的讨论一文中介绍了系统聚类的理论,阐述了系统聚类的数学转换方法,并分析了指标聚类过程和样本聚类的过程17。该文为本文章在指标聚类过程提供了较好的借鉴。 2006年刘华、刘玉芳在系统聚类统计分析法在油气田开发中的应用一文中介绍了系统聚类的基本理论,并以胜利油田为例,运用系统聚类的方法进行油田的开发层次划分,取得了良好的效果18。 2007年柳卓在系统聚类方法在洪水预报中的研究一文中以降雨量作为聚类指标,应用6种系统聚类的方法进行比较分析,并得出聚类平均算法所确定的结构与数据间的拟合程度最高的结论19。 2007年胡雷芳在五种常用系统聚类分析方法及其比较一文中系统的介绍了单连接法、完全连接法、平均连接法、组平均连接法和离差平方和法等内容,分了这五种方法的优缺点,总结各方法的应用条件20。该比较分析为本文系统聚类的方法提供了较好的思想借鉴。 2009年张燕、张建华等人在主成分分析与系统聚类法在农业用地优先度评价中的应用一文中,先后用主成分分析法和系统聚类法对农业用地的影响因素进行总结,并对这两种方法得出的结论进行比较分析21。 6 1.5研究方法 本文特别关注多种研究方法的综合应用,以获得较为准确的研究结果,主要体现在以下几个方面: (1)文献研究方法。文献研究是本论文采用的一种重要方法。本文在写作前期阅读了大量的国内外关于货运量预测方面的文献,并总结出国内外研究现状,从而借鉴其他研究者的经验。本论文理论框架的形成,很大一部分来自于对前人文献研究的启示。 (2)理论与实证研究相结合方法。本文在充分掌握多元线性回归的基础上,分析多元线性回归模型的不足之处,并对模型进行改进。然后通过查找收集全国货运量数据对模型进行检验与验证。事实证明只有理论与实证研究相结合,才能得到比较有说服力的研究结果。 (3)定性与定量相结合方法。在多货运量预测的多元线性回归模型进行改进的过程本文先后应用多元线性回归模型、系统聚类思路、相关性分析理论和计量经济学方法进行了大量数据计算与处理,对模型进行用拟合系数、误差绝对值、等数据定量的比较分析。同时在分析模型时也应用了定性分析方法进行比较判别,只有将定量分析与定性分析相结合,这样得出的结论才能够科学可靠。 1.6论文框架 本论文主要是在大量相关文献的研究成果和多元线性回归模型基本理论的基础上,分析了货运量多元线性回归模型的特征、不足之处以及模型的改进方法,构思了货运量多元线性回归模型改进的思路,通过几种货运量预测模型的对比,对多元线性回归模型进行改进。论文的主要内容如下: 第一章绪论。这是全文的总起,引出全文所要研究的问题及意义,总结国内外相关研究,概括了本文的研究内容、方法及笔者所做的主要工作。 第二章是理论概述。首先概述了预测的基本理论,其次详细的介绍了回归分析的基本理论和系统聚类理论。 第三章介绍了货运量多元线性回归模型,用实证分析了货运量多元线性回归模型的特点及模型的缺陷。 第四章介绍了基于计量经济学的货运量多元线性改进方法及其实例研究,分析了该改进模型的优缺点。 第五章首先介绍了研究了基本假设。其次介绍了基于系统聚类的改进思路,最后以全国货运量预测为实例,对基于系统聚类的改进预测模型与多元线性改进模型和基于计量经济学的改进模型进行对比分析,验证了改进模型的预测精 7 度大大提高,体现了本论文的研究价值。 第六章为结论与展望。对本论文的结论和局限进行总节,并对货运量的多元线性回归模型的改进研究提出展望。 图1-1 文章结构图 1.7主要工作 在研究和借鉴国内外研究成果的基础上,本文拟对多元线性回归模型改进展开较深入的研究,其主要工作内容体现以下几个方面: 一、研究角度的选择。目前我国大多数对多元线性回归模型的改进方法基研究背景 相关理论 多元线性回归模型预测实例优缺点 基于系统聚类的改进方案并进行实证分析 优点 缺点 系统聚类 理论 高拟合性 指标全面性 矛盾性 回归问题性 计量经济学模型预测实例优缺点 8 本上是从计量经济学的角度出发的,采取消除自变量数据的方式修正多元线性回归模型的回归问题;本文采用基于系统聚类的理论加以研究,保留了原始数据信息,又能显著的提高货运量预测精度。 二、研究方法的创新。本文在分析、梳理前人研究成果的基础上,总结出多元线性回归模型的优缺点,针对多元线性回归模型的不足之处提出了基于系统聚类的改进方法,并与多元线性回归模型进行比较分析,同时也将基于系统聚类的改进方法同多元线性回归模型的其他改进方法相比较分析,以判断基于系统聚类的改进模型的优缺点。 9 第二章 理论概述 2.1 预测基本理论 预测是指在掌握现有信息的基础上,依照一定的方法与规律对客观事物的未来发展进行行预料、估计、分析、判断与推测,以预先了解客观事物未来发展的结果。22预测活动普遍存在于人类社会和现实生活中。预测与主观臆断不同,预测是运用科学的知识、方法及手段,分析研究历史和现实资料。 预测主要解决两个基本问题:一是在一定时期内预测对象能够达到什么样的水平,即预测对象未来一定时间内所要完成的任务量;二是,达到任务量需要获得多少人力、物力、财力、技术等的支持,来实现目标任务量。对于货运量预测来说,主要是解决未来一定时期内货运量能够达到多大,从而为物流规划提供依据。加强货运量预测,能够提高物流需求预测精度。 预测内容及其广泛,包括政治、经济、文化等各个方面。为了进一步掌握预测的概念,可以依据不同的方法对预测进行分类,常用分类方法有以下几种23: (1)按照预测时间分类,可分三类即长期预测、中期预测、短期预测。这其中的“长”、“中”、“短”也是相对的,但在国内各类规划的实践中,长期预测一般在5年以上,中期预测为1-3年,短期预测为1年以内。实践表明,在预测中,长、中、短预测适合的方法不一样,中短期预测比较准确,长期预测比较失真。 (2)按预测的方法不同,可分为定性预测和定量预测。定性预测是根于已经掌握的信息资料和直观材料,依据具有丰富经验和分析能力的专家,运用主观经验做出主观的推断和估计24;定量预测,根据历史数据和现有的信息、资料,运用一定的数学方法预测未来。定性预测方法简单易行,节省时间,通常在所掌握的资料不够全面、数据难以量化的情况下使用,但只能对事物的发展状况、趋势做出大概的预测,结果准确性比较差。而定量预测方法以历史数据为基础,受主观因素的影响较少,但模型复杂,不易灵活掌握及运用,预测结果对信息资料质量要求较高。 (3)按预测的范围划分,预测可分为宏观预测和微观预测。宏观预测,是一全社会为研究对象,预测全社会未来的发展动态与趋势;微观预测,是以个别的生产单位为研究对象,预测其未来的发展方向机趋势。但无论宏观预测还是微观预测,都为政府或企业编制规划、计划,提供了依据。 预测是对未来事物的研究,其本身就存在不同程度的误差,因此要遵循一定的原则,以降低预测的误差,提高预测的精确度。一般来说主要遵循以下几 10 个方面: (1)客观性原则。预测根本上是借助过去和现在的统计资料运用创造性思维来推断未来的事物,这就要求人们在预测过程中,要充分的掌握历史数据和现有的资料,从客观实际出发,认真分析研究现状,找出事物本质的、必然的联系。否则凭主观想象或是不真实的数据进行研究,来推测未来,即使得出结果也毫无意义。 (2)连贯性原则。所谓连贯性原则,就是指把未来同过去和现在联系起来。因为从时间上考虑,事物的发展是一个连续的过程,也就说将来时现在和过去演变而来的,是过去和现在的延续。因此,在进行预测时,必须从过去和现在的资料入手,推测未来。具体主要表现在两个方面,一是预测要遵循事物发展趋势的特征在一段时间内呈现延续性,二是在一定时期内,预测目标和某些环境的结构和相互关系按照一定的格局延续下去。 (3)系统性原则。从哲学角度来说,任何事物都是由各种要素组成一个系统,系统的各要素都是相互联系、相互作用、相互矛盾的统一体。系统原则就要求在看待事物时候要看到事物的各个要素以及各要素之间复杂的关系。应用到预测方面就是指在预测时,尽量避免只考虑单因素或少量因素进行预测,要综合考虑影响预测对象的各种因素及各因素之间的关系,从而做出全面科学的预测。 (4)类推性原则。类推性原则是指事物的发展尤其内在的结构,而这种结构对过去、现在即未来都同样适用。因此,在进行预测时,可以依据类推原则预测未来。类推原则有三种形式,一是依据历史上曾经发生过的失去类推当前或未来;二是,依据其他地区或国家曾经发生过的事件进行类推;三是依据局部类推总部。 预测的步骤可以分为以下三个阶段。 (1)准备阶段。 准备阶段是预测三阶段的基础,是预测目标实现的前提,在准备阶段主要完成以下几个方面的工作。 1 明确目标 明确预测目标是预测工作的首要环节,在通过对事物活动进行分析的基础上明确预测的目标,目标的确定要从实际需要出发,以解决具体现实问题。只有明确目标,这样才能制定合理的计划,科学的任务分配。25 2 收集信息及数据 信息时预测的基础,只有收集到对预测目标有影响的指标才能准确的进行预测。收集的信息和数据越全面,预测的精准度越高。 3 信息及数据处理 收集到的信息和数据必须加以整理,去粗取精,去伪存真,从中获取对预 11 测目标有用的信息。对信息和数据的一般要求是准确、完整、简要适用26。 (2)预测阶段 1 构建模型 根据选取指标处理后的数据构建模型。模型的种类多种多样,主要有因果预测模型和时间序列模型等,这些模型应用范围各不相同,要结合数据信息的实际情况运用不同种类的预测模型,只有选择合适恰当的数学模型,预测结果才能为相关部门或企业提供决策信息。 2 模型检验 对建立的模型还需要进行检验,主要包括模型的显著性检验和参数的显著性检验两种,模型的检验用于判断构建的模型是否能够正确反应自变量与因变量之间的数学关系,参数的显著性检验用于判断自变量指标对因变量的解释能力。 3 进行预测 通过检验的模型也可用于预测,根据原始数据信息进行相关预测,并对预测结果进行相关说明。 (3)分析总结阶段 提交报告。预测报告中应包含预测的目的,主要活动过程,相关因素选取的过程及结果及预测的结果和分析结论。 2.2 回归模型 回归分析预测法的基本思想是根据预测的相关性原则找出影响预测目标的各因素,并用数学的方法找出这些因素与预测目标之间的函数关系的近似表达的一种方法。回归分析预测模型有多种类型。依据相关关系中自变量的个数不同分类,可分为一元回归预模型和多元回归预测模型。在一元回归分析预测模型,自变量只有一个,而在多元回归预测模型中,自变量有两个或两个以上。依据自变量和因变量之间的相关关系不同,又可分为线性回归预测模型和非线性回归预测模型。其中回归分析中应用最多的是一元线性回归模型及多元线性回归模型对事物发展趋势进行预测27。 2.2.1 一元线性回归模型 (1)一元线性回归模型 是指设X为自变量,Y为解释变量,他们之间的关系满足: 其中、是常数,服从正态分布N(0,2),X与Y的这种关系称为一元线性回归模型。当 12 时,则称Y对X的回归方程,其中称为回归系数28。 其中 ni2(x)(y)()iiniixyxx= *yx=- (2)模型的检验 其中主要的模型检验方法主要为: R(相关系数)29:反应了自变量与因变量之间的线性程度,计算公式为: 2222()()()iiiiiiiinxyxyRnxxnyy= 当R=1时,说明自变量与因变量之间存在着完全正相关的线性关系。 当0R1时,说明自变量与因变量之间存在着正相关的线性关系。 当R=0时,说明自变量与因变量之间不存在线性关系。 当-1R0时,说明自变量与因变量之间存在着负相关的线性关系。 当R=-1时,说明自变量与因变量之间存在着完全负相关的线性关系。 R2(拟合优度):即相关系数的平方,是回归分析的决定系数,说明自变量和因变量形成的散点与回归曲线的接近程度,数值介于0和1之间,这个数值越大说明回归的越好,也就是散点越集中于回归线上。 Sig.(significant )值是回归关系的显著性系数,sig.是F值的实际显著性概率即P值。当sig. 0.05,说明二者之间用当前模型进行回归没有统计学意义,应该换一个模型来进行回归。 显著性检验。显著性检验主要包括t检验与F检验。t检验也可以说是检验自变量和因变量是否有显著影响,在一定的显著性水平下。如果估计量 不为零,回归方程有意义;如果在该显著水平上为零,那么方程就没有意义了。其中 13 n2i*i=1t=x-x-(),*为估计的标准误差 服从自由度等于2的t分布。 当 2ttn-(2) 时,认为回归系数与有显著性差异。 当 2ttn-(2) 时,认为回归系数与无显著性差异。 2.2.2 多元线性回归模型 (1)多元线性回归模型 设x1, x2,x3,xn是自变量,y是因变量,如果他们之间存在着如下关系: 01122nn+x+x+x+Y=u 其中0、1、2n是常数,u服从正态分布2(0,)N的随机变量,则可以称为他们之间的关系为多元线性回归模型30。 当对两边取数学期望时得 01122nn+x+x+xY= 则称之为多元线性回归方程,其中0、1、2n称为回归系数。 (2)模型的检验 拟合优度是指模型与原始数据的拟合程度。主要通过R2和修正样本决定系数2R来进行统计表示。其中 222iiy=e+iTSSESSRSSy=+= 22i222iie=1-1yyiyESSRSSRTSSTSS= 可见0R21,R2越接近1,表明回归方程对原本的拟合度越好;R2越接近0,表示拟合度越差31。由于受样本含量和自变量数目的影响,随着样本含量和自变量数目的增加,即使新增加的自变量对y的影响并不大,也将使增大,导致R2只增不减,而不能正确评价回归模型的效果。因此,应用中常采用修正样本决定系数2R来进行统计表示, 14 21=1-1RSSnkRTSSn- 其中,(n-k-1)为残差平方和的自由度,(n-1)为总离差平方和的自由度。2R与R2具有以下关系 22(1)=1-(1)(1)nRRnk- 回归方程的显著性检验(F检验)31,是指在一定的显著性水平下,从总体上判断自变量与解释变量之间的线性关系是否显著成立的统计性检验。其中,统计量 1ESSkFRSSnk=- 服从自由度为(k,n-k-1)的F分布。当计算结果为Fkn-k-1F(,)时,则认为该模型线性关系成立,通过显著性检验;当计算结果为Fkn-k-1F(,)时,则认为该模型线性关系不成立,未能通过显著性检验,需要更换新的模型或对模型进行修改。 解释变量的显著性检验(t检验)31,是指在一定的显著水平()下,检验模型的自变量是否对因变量产生显著性影响的检验方法,它不同于一元线性回归方程的解释变量的显著性检验。在多元线性回归方程中,需要对每个自变量进行显著性检验,从而将对因变量影响不显著的自变量从模型中删除。在一定的显著性水平下,若 2ttn-(2) 则,认为该自变量对因变量具有显著性影响。若 2ttn-(2) 则,认为该自变量对因变量不具有显著性影响,需要将该自变量从模型中删除,以便建立更加合理的多元线性回归模型。 2. 3 经验回归问题 一般来说,在运用线性回归模型时都默认了这样的一个前提,模型满足古典假设的前提。即满足下面六个条件:32 15 1、 Y与X之间的关系是线性的。 2、 变量间非线性,在两个或多个自变量之间没有精确的线性关系。 3、 同方差性,即总体回归方程的随机扰动项同方差。 4、 相互独立性,即不同观测值的误差项之间相互独立。 5、 所有观测值得误差项的期望值为0。 6、 误差服从正态分布。 但是在实际应用中,由于指标之间可能存在着相关关系,或者预测模型的随机扰动项的方差不相同等结果,这就造成了理想中的线性回归模型在现实的预测中很难出现。在实际预测中,回归模型往往会出现多重共线性、自相关性、异方差性等问题。 2.3.1多重共线性 多重共线性是指回归模型中变量之间存在着线性关系。即存在这一组不全为0的常数项123n,, 使得 11innii+=0X ,则称该模型存在着多重共线性。当回归模型中存在着多重共线性时,会影响最小二乘法估计值,造成自变量单独影响效果不明及模型预测精度降低和显著性检验失效后果。 多重共线性的检验主要有以下方法:相关系数法,求出两两自变量之间的的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性;显著性检验法,单个回归系数的显著性检验不能通过但方程整体显著性检验能够通过,说明自变量对因变量的解释能力没有被分开,自变量之间存在多重共线性;综合统计检验法。方程的拟合优度系数较大,其他参数的估计值的显著性检验值较小,则说明模型存在多重共线性;方差膨胀因子(VIF)法,2i1=1-VIFR,当VIF 10时,则认为模型存在这多重共线性33。 克服回归模型的多重共线性的方法多种多样,但究其根本,这些方法最核心的方法就是删除相关性或可替代性强的自变量,本文主要介绍其中的一种方法:逐步回归法。它是指从所有解释变量中先选择显著性最大的作为自变量建立模型,然后按照显著性的高低逐步增加自变量数目,每增加一次,都要对所有变量进行显著性检验,并从中删除不显著的变量。直到不能再增加新的变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论