版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于多元线性回归的养老床位市场需求规模预测分析计算案例目录TOC\o"1-3"\h\u14560基于多元线性回归的养老床位市场需求规模预测分析计算案例 1229021.1多元线性回归概述 146761.2多元线性回归模型的建立 2212131.3回归诊断 6245681.4基于多元线性回归的养老床位需求预测 9235881.5养老床位市场需求预测总结 151.1多元线性回归概述回归分析是处理变量与之间的关系的一种统计方法和技术。本文所研究的变量之间的关系是指统计关系,即给定的值,的值无法确定,只能通过一定的概率分布来描述。于是,定义给定时的条件数学期望 (2-1)为随机变量对的回归函数,或称为随机变量对的均值回归函数。式(2-1)从平均意义上刻画了变量,之间的统计规律。在实际问题中,把称为自变量或预测变量,称为因变量或响应变量。若要进行预测,可利用,的观察值,即样本观测值 (2-2)来建立一个函数,当给定值后,便可通过此函数进行响应变量的预测。而多元线性回归分析,则是以多个预测变量的最佳线性组合构成的回归方程来对响应变量进行预测的回归分析。一般来说来说,单个响应变量与预测变量的线性回归模型为如下形式: (2-3) (2-4)式中是个未知参数,为回归常数,称为回归系数,是随机误差项。而线性指的是均值为未知参数的线性函数,但预测变量在模型中不一定是一阶项。若将模型用的个观测值和与之相联系的诸值来表示时,则整个模型变为 (2-5)写成矩阵形式为: (2-6)或 (2-7)为方便进行模型的参数估计,对回归方程式(2-6)做出如下基本假定:预测变量是确定性变量,不是随机变量,且要求。这里,表明矩阵中的自变量列之间不相关,样本量的个数大于预测变量的个数,是满秩矩阵。随机误差项具有零均值和等方差的性质,即
(2-8)
该假定也被称为高斯—马尔科夫条件。正态分布的假定条件为:
(2-9)
对于多元线性回归的矩阵模型式(2-7),此条件可写为:
(2-10)
由上述假定和多元正态分布的性质可知,随机向量服从维正态分布,回归模型式(2-7)的期望向量
(2-11)
(2-12)
因此
(2-13)
1.2多元线性回归模型的建立1、养老床位需求指标体系构建本文以预测养老床位研究目标,选择与之相关的如下指标,并从国家统计年鉴以及国家民政部统计公报中获取数据进行统计分析。将响应变量定义为养老服务床位数量,记作,以国内生产总值、居民消费价格指数、人均国内生产总值、城镇居民人均可支配收入、人口出生率、人口死亡率、人口自然增长率、老年儿童比例、老年抚养比、在职职工参加养老保险人数、离退人员参加养老保险人数、老年人口数、参加养老保险人数、年末参加生育保险人数、年末总人口、性别比等变量作为预测变量,并选取各指标从2006年到2019年的14组数据(见附录)进行回归分析。现假设预测变量以及响应变量均服从正态分布。且响应变量的方差为常数,不随预测变量的变化而变化,即满足方差齐次性。在建立模型之时,首先对预测变量数据进行预处理,选出相关程度较高的指标,如表2-1所示。 表2-1养老床位数影响指标及符号说明指标单位符号养老服务床位数万张国内生产总值亿元居民消费价格指数人均国内生产总值元城镇居民人均可支配收入元人口出生率人口死亡率人口自然增长率老年儿童比例老年抚养比在职职工参加养老保险人数万人离退人员参加养老保险人数万人老年人口数万人参加养老保险人数万人年末参加生育保险人数万人年末总人口万人性别比2、描述性统计分析通过2006年到2019年各指标统计数据,可以计算出各个变量的极大极小值、均值、标准差、偏度和峰度,如表2-2所示。 表2-2描述性分析结果极小值极大值均值标准差偏度峰度153.5775476.2071224.620190.033-1.703219438.5988528.9568987.3429240597.88440.213-0.99599.3105.9102.67141.745070.3350.386167387058141880.714317087.721380.171-1.05711759.542358.825865.17149788.979430.198-1.1460.10480.12950.1196640.0060249-1.3272.6630.06810.07160.0708430.0009835-1.1394.4470.03340.05860.0488210.0062589-1.3732.5180.40130.74930.5706360.1110607-0.144-1.0391117.813.4642861.2.068450.723-0.59714130.931177.522992.56435694.74322-0.15-1.3054635.412310.48020.71432564.127920.346-1.142104191760313329.35712298.823060.49-0.84818766.396753.963150.278631563.39412-0.514-1.7266458.921417.314773.20644786.56488-0.409-1.028131448140005135799.78572814.668940.009-1.2651.04451.06291.05290.0058760.625-0.82通过上表2-2可看出,从2006年到2019年,居民消费价格指数、人口出生率、人口死亡率、人口自然增长率、老年儿童比例、性别比的取值波动程度较小。
3、相关性分析通过相关分析探索各类养老床位总数与各自变量之间的相似度,如表2-3。 表2-3养老床位指标体系相关系数指标指标0.9730.949-0.3020.9820.9740.9750.9800.965-0.2070.9370.5960.967-0.2930.9870.966-0.900当相关系数的绝对值大于0.8时,认为这两个变量之间高度相关。根据上表得知:养老床位数与居民消费价格指数、人口出生率、人口死亡率、人口自然增长率之间的相关性较弱,故、、、将指标剔除。其余12个指标与各类养老床位总数之间的相关系数的绝对值均大于0.8,因此,我们选择根据剩余的12个指标用于预测养老床位数。4、基于逐步回归的养老床位需求预测对预测变量进行初步筛选之后,我们运用统计软件对响应变量与选择出的预测变量构建回归模型。常见的多元线性回归方法有前进法、后退法以及逐步回归法等。其中前进法对于新预测变量的情况拟合效果较差,而后退法的计算量较大且不再接纳剔除的变量,而逐步回归法则是对前进法和后退法进行了扬长避短的改进[7]。因此,我们采用逐步回归法法建立回归模型。对于逐步回归法(Stepwise),其主要思路力图选择重要的预测量而不考虑所有可能性,而那一些作用不显著的变量可能不会被引入模型。除此之外,已被纳入模型的预测变量在引入新变量后也可能失去其重要性,从而将之从模型中剔除。依据逐步法的回归原理及下表中所示数据,我们可以看出,在选取的这些因素当中,只有人均国内生产总值、城镇居民人均可支配收入和年末总人口三个变量进入了回归模型,且多元线性回归方程为: (2-14)图2-1回归过程中的统计量1.3回归诊断1、共线性诊断
若预测变量数值矩阵不满秩,则会产生共线性。而多重共线性大体可分为两类,一类是预测变量矩阵的列向量间存在近似线性相关,则,利用最小二乘法进行估计时,观测误差的波动性变大;而另一类是预测变量之间存在某种相关关系,利用最小二乘法进行估计时,估计量的波动性较大[19]。而多重共线性的判断方法大致有三种,其一,可计算预测变量之间的相关系数,若相关系数的值都较高,则存在较严重的多重共线性,其二,考察可决系数[19]和检验的数值,若某一方程存在较高的可决系数,而各个回归系数的检验大都在统计上不显著,就可能存在严重的多重共线性[19],其三,计算方差膨胀因子,预测变量的方差膨胀因子记为,即 (2-15)式中,是以为因变量对其他预测变量回归的可决系数。若,则表明,可认为存在多重共线性,其四,特征根判定法,其基本原理是矩阵行列式的值等于其特征根的积[7],因此当时,矩阵至少有一个特征根约为零,从而回归设计矩阵的列向量存在近似线性相关(即多重共线性)。对多重共线性的处理方法主要有两种,一种是设法找出引起多重共线性的预测变量,将其剔除以消除多重共线性。另一种是通过变量定义参数估计方法的选取来克服,以减轻多重共线性。在此次建立的模型(2-14)中,采用方差膨胀因子法,可知人均国内生产总值、城镇居民人均可支配收入和年末总人口的值都远大于10。因此考虑先将值最大的城镇居民人均可支配收入剔除,此时的纳入模型的预测变量与的值相等但仍远大10。而预测变量的检验的值较大,故而考虑将其剔除。最后只有变量年末总人口纳入模型,此时模型中的值小于1,且各参数都通过了检验,因此将响应变量与预测变量重新建立回归方程,如图2-1所示。从表2-5可得回归方程为: (2-16)2、回归方程的显著性检验
对于回归方程的显著性,此处采用检验,故而其检验的基本步骤为:(1)作出假设。 原假设; 备择假设(2)在原假设成立的条件下,计算统计量F。 (2-17)(3)将计算统计量与临界值进行比较,进行统计决策。对于原假设,根据样本观测值计算统计量。给定显著性水平,通过查询分布表得临界值。当时,拒绝,则认为回归方程显著成立;当时,接受,则认为回归方程无显著意义。又或可通过值进行检验,若,拒绝,则认为回归方程显著成立。在模型(2-16)中,利用统计软件做方差分析,得方差分析表,如表2-2所示,显然值(近似值),由此可得回归方程显著成立。图2-2方差分析表 3、回归系数的显著性检验
若回归方程显著成立,说明整体上预测变量对响应变量的影响是显著的,但并不意味着每个预测变量对响应变量的影响都是重要的。若某个预测变量对响应变量的影响并不显著,则可从回归模型中将其剔除,重新建立回归方程,以便于更加准确的预测与分析。因此还要对回归系数是否显著进行检验,此处采取检验法。具体来说,对回归系数进行检验,具体步骤如下:
(1)提出检验 原假设 备择假设(2)构造统计量 (2-18)当成立时,统计量。其中,为的标准差,为自变量个数。(3)给定显著性水平,通过查询分布表,得临界值(4)若,则拒绝,接受,即认为显著不为零。若,则接受,即认为显著为零。而对于模型(2-16),从表中可看出,回归系数的值都是大于,因此拒绝原假设,认为预测变量与响应变量的关系显著,这表明预测效果不错。另一方面,检验的值也都近似为0.000。综上,对于模型(2-16)的回归系数是显著的。拟合优度检验为检验回归方程与样本拟合值的拟合效果,可采取拟合优度检验法。对于多元回归方程,其样本决定系数为复决定系数或多重决定系数,用表示,简记为,即 (2-19)根据,则有 (2-20)故作为拟合优度检验的检验指标:越大,表示回归方程与样本拟合得越好;反之,回归方程与样本值拟合得越差。但在使用时,可以发现的大小与模型中的预测变量的数目有关,随着模型中变量个数的增多,值不断增大,致使残差自由度减小,这导致估计的可靠性降低。为消除这种倾向,引入调整后的,记为,即 (2-21)其中,为样本容量,为预测变量的个数。由上式可看出,预测变量个数增加时,未必增大,这样便可消除对预测变量个数的依赖倾向。如图2-3所示,模型(2-16)的调整后的为0.974,拟合效果很好,且其F统计量的值约为0.000,而另外两个模型的F统计量的值都显著大于0.05。 图2-3拟合过程1.4基于多元线性回归的养老床位需求预测对于建立的多元线性回归模型(2-14),通过回归诊断,建立最终的回归模型: (2-16)由此为预测未来10年内养老服务床位需求,需对变量进行未来10年的时序预测,故而通过统计软件对其分别进行曲线拟合以及时间序列预测,以比较其预测效果。1、曲线拟合预测
对预测变量年末总人口的曲线拟合,本文选取线性、一次、二次、三次增长模型进行拟合,从中选取拟合效果最佳的模型进行变量年末总人口的时序预测。拟合结果如下图2-4所示,其曲线拟合系数检验、方差分析如图2-5所示。图2-4曲线拟合效果图 图2-5曲线拟合系数检验与方差分析显然,根据曲线拟合效果图、拟合系数检验以及方差分析,线性模型的拟合效果最佳,据此对预测变量年末总人口进行线性拟合预测,其拟合预测结果如下表2-4所示。 表2-4线性拟合预测结果年份真实值拟合结果年份真实值拟合结果2006131448131428.28572019140005140171.28572007132129132100.82422020140843.82422008132802132773.36262021141516.36262009133450133445.90112022142188.90112010134091134118.43962023142861.43962011134735134790.9782024143533.9782012135404135463.51652025144206.51652013136072136136.0552026144879.0552014136782136808.59342027145551.59342015137462137481.13192028146224.13192016138271138153.67032029146896.67032017139008138826.20882030147569.20882018139538139498.74732、时间序列预测通过软件中时间序列预测中的专家建模器方法,对变量年末总人口进行时序预测,其拟合结果如下图2-6所示,相关模型摘要与模型统计量见图2-7与图2-8所示。图2-6时序拟合图2-7相关模型摘要图2-8相关模型统计量根据时序拟合图对预测变量年末总人口进行预测,其拟合结果如下表2-5所示。 表2-5时序预测结果年份真实值拟合结果年份真实值拟合结果2006131448131448201914000514006820071321291321292020140472200813280213281020211409392009133450133475202214140620101340911340982023141873201113473513473220241423402012135404135379202514280720131360721360732026143274201413678213674020271437412015137462137492202814420820161382711381422029144675201713900813908020301451422018139538139745根据变量年末总人口的曲线拟合以及时间序列预测结果,对未来十年养老服务床位数进行预测,预测效果如图2-9所示,图2-9的预测效果Matlab代码见附录,预测数据见表2-6。图2-9养老服务床位数Y预测效果图 表2-6养老服务床位数预测数据单位:万张年份养老床位数实际值由线性拟合数据预测养老床位数由时间序列预测值预测养老床位数2006153.5162.8095714164.36712482007212.8215.9401099218.16587372008234.5269.0706484271.9652009266.2321.2.011868324.50000152010314.9375.3317253373.71700462011353.2428.4622637423.80300132012416.5481.5928022474.91599952013493.7534.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2022届威海银行校园招聘笔面试押题及超详细答案解析
- 2026抖音平台官方客服考核真题及答案无水印电子版
- 2026年内科护理年度考核必考试题及满分答案
- 2020互联网数分岗面试时间序列分析试题及答案
- 2023年国企风控岗面试历年真题及高分答题技巧
- 2023IPA对外汉语笔试案例分析题真题及参考答案
- 江苏南京市、盐城市2026届高三下学期第一次模拟考试地理试卷(含解析)
- 小自考协议书班是什么
- 儿科流行性感冒预防方案
- 夭折协议书是什么意思
- 2025年高考真题-化学(湖南卷) 含答案
- 土壤有机碳分布规律及其空间与垂向特征的解析研究
- 数字化转型对企业信息披露质量的影响机制研究
- 浆砌片石劳务施工合同
- 五年级语文阅读理解32篇(含答案)
- 人民版劳动教育二年级下册全册课件
- 2025年统计学多元统计分析期末考试题库:多元统计分析综合试题
- 《小石潭记》对比阅读-2024-2025中考语文文言文阅读专项训练(含答案)
- 江岸区2023-2024学年下学期期中七年级数学试卷(含答案)
- 核聚变材料研究进展-深度研究
- 互联网十创新创业项目计划书
评论
0/150
提交评论