




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计系课程实验论文基于回归分析的人口数量预测 学 号:2014962005姓 名:李洋年 级:2014级专 业:统计学课 程:回归分析指导教师:姜喜春完成日期:2016年6月19日目 录摘 要I前 言1第1章 一元线性回归21.1 指标的选择21.2 样本确定21.3 一元回归分析31.3.1 绘制总人口与粮食产量的散点图31.3.2 设定理论模型41.3.3 回归诊断4第2章 多元线性回归52.1 数据中心化标准化52.2 多元回归模型建立52.3 逐步回归法62.4 多重共线性72.3.1 多重共线性检测82.4 主成分分析92.4.1 主成分分析模型建立9第3章 非线性模型113.1 曲
2、线回归113.1.1 曲线拟合113.2 Logistic模型13结 论15参考文献16理学院 统计系 课程实验论文摘 要回归分析法是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。同时依据事物发展变化的因果关系来预测事物未来的发展走势,它是研究变量间相互关系的一种定量预测方法,又称回归模型预测法或因果法,应用于经济预测、科技预测和企业人力资源的预测等。回归分析可以说是统计学中内容最丰富、应用最广泛的分支。这一点几乎不带夸张。包括最简单的t检验、方差分析也都可以归到线性回归的类别。而卡方检验也完全可以用logistic回归代替。众多回归的
3、名称张口即来的就有一大片,线性回归、logistic回归、cox回归、poission回归、probit回归等等。关键词:线性回归;非线性回归;logistic回归I前 言最早的形式回归的方法是最小二乘法 ,这是在1805年出版的勒让德 ,和高斯在1809年。 勒让德和高斯都采用的方法确定的问题,从天文观测,有关Sun的机构(主要是彗星,但后来也新发现的小行星)的轨道。 1821年,高斯发表最小二乘法理论的进一步发展,在包括高斯-马尔可夫定理的一个版本。弗朗西斯·高尔顿在十九世纪的“回归”是杜撰来描述一种生物现象。 这种现象是高度高大的祖先的后代往往倒退下来,对一个正常的平均水平(这
4、种现象也被称为向均值回归 )。 对高尔顿,回归只有这个生物意义,Udny圣诞节和皮尔逊但他的工作,后来扩展到更一般的统计范围内。 在圣诞节和Pearson,工作的响应和解释变量的联合分布被假定为高斯 。 这个假设RA费舍尔在1922年和1925年,他的作品被削弱。费舍尔认为的响应变量的条件分布为高斯分布,但联合分布不一定要。在这方面,费舍尔的假设是高斯1821年制定的。在20世纪50年代和20世纪60年代,经济学家旧机电台计算器,计算回归。 1970年以前,有时长达24小时接收从一个回归的结果。 回归方法继续是一个活跃的研究领域。 在最近的几十年中,新的方法已经制定了稳健回归 ,回归涉及的相关
5、反应,如时间序列 曲线和增长曲线 ,回归的预测或响应变量的曲线,图片,图表或其他复杂的数据对象,容纳不同的回归方法丢失的数据, 非参数回归 , 贝叶斯方法进行回归,回归的预测变量的测量误差,预测变量的观测回归,回归和因果关系的推论与类型。第1章 一元线性回归 1.1 指标的选择影响人口增长的主要因素经济因素,经济因素对人口自然增长的作用主要表现在它决定了人口的增殖条件和生存条件,通过改变人口的出生率和死亡率来影响人口的自然增率。一般情况下,当人口数量不能满足经济发展对劳动力的需求时,人口自身的再生产必将会刺激;当人口数量超越了经济发展所能提供的消费总数后,人口自身的再生产必将受到遏制。在现代生
6、产力水平下,人口的自然增长率往往随着经济水平的提高而下降。经济因素对人口机械增长也有重要影响。通常情况下,经济发达或发展速度较快的地区,对人口具有一种吸引力和凝聚力,人口机械增长为正值;相反,经济落后或经济发展速度缓慢的地区,对人口会产生一种排斥力和离散力,人口机械增长一般为负值。与此同时粮食产量、出生率、死亡率,也是影响人口增长的因素。符号说明:用、表示粮食产量、GDP、出生率、死亡率。表示总人口。1.2 样本确定通过查阅中国政府网,得到了1980年到2014年各因素的数据。表1-1 样本数据年份粮食产量(万吨)GDP(亿元)出生率(%)死亡率(%)总人口(万人)201460702.6163
7、5910.212.377.16136782201360193.84588018.812.087.16136072201258957.9753412312.17.15135404201157120.85484123.511.937.14134735201054647.7140890311.97.11134091200953082.08345629.211.957.08133450200852870.92316751.712.147.06132802200750160.28268019.412.16.93132129200649804.23217656.612.096.81131448200548
8、402.19185895.812.46.51130756200446946.95160714.412.296.42129988200343069.53136564.612.416.4129227200245705.7512100212.866.41128453200145263.67110270.413.386.43127627200046217.5299776.314.036.45126743199950838.5890187.714.646.46125786199851229.5384883.715.646.5124761199749417.179429.516.576.511236261
9、99650453.571572.316.986.56122389199546661.861129.817.126.57121121199444510.148459.617.76.49119850199345648.835524.318.096.64118517199244265.827068.318.246.64117171199143529.321895.519.686.7115823199044624.318774.321.066.67114333198940754.917090.321.586.54112704198839408.115101.122.376.64111026198740
10、297.712102.223.336.72109300198639151.210308.822.436.86107507198537910.89039.921.046.78105851198440730.57226.319.96.82104357198338727.55975.620.196.9103008198235450533322.286.61016541981325024898.120.916.36100072198032055.54551.618.216.34987051.3 一元回归分析定义1.1 回归分析(regression analysis)是确定两种或两种以上变量间相互依赖
11、的定量关系的一种统计分析方法。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。1.3.1 绘制总人口与粮食产量的散点图图1-1 粮食产量与总人口散点图1.3.2 设定理论模型根据图1-1随着粮食产量的增加,总人口的数量增加,且各样本点大致落在一条直线附近,故可以采用公式: (1-1)一元线性回归理论模型,对数据进行一元回归分析。1.3.3 回归诊断表1-1 模型摘要模型RR 平方調整後 R 平方標準偏斜度錯誤1.909a.826.8214985.99669a. 預測值:(常數),粮食产量(万吨)根据表1-1模型摘要表可以看到,
12、说明以粮食产量为唯一因变量与总人口的拟合程度很高。表1-2 系数模型非標準化係數標準化係數T顯著性B標準錯誤Beta1(常數)53054.4045500.0139.646.000粮食产量(万吨)1.468.117.90912.513.000a. 應變數: 人口(万人)根据表1-2系数表,将系数带入公式(1-1)可得出回归模型公式:用一元回归模型对2014年的总人口进行预测,的到的预测值第2章 多元线性回归定义2.1 在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更
13、有效,更符合实际。2.1 数据中心化标准化数据中心化和标准化在回归分析中的意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。图2-1 标准化结果2.2 多元回归模型建立多元回归模型公式:对数据进行多元回归分析,结果如图2.2表2-1 模型摘要模型RR 平方調整後 R 平方標準偏斜度錯誤1.972a.944.9362967.56830a. 預測值:(常數),死亡率(%), 出生率(%), 粮食产量(万吨), GDP(亿元)表2-2 變異數分析a模型平方和df平均值平方F顯著性1迴歸4448849243.98441112212310.996126.295.000b殘差264193847
14、.616308806461.587總計4713043091.60034a. 應變數: 人口(万人)b. 預測值:(常數),死亡率(%), 出生率(%), 粮食产量(万吨), GDP(亿元)表2-3 係數a模型非標準化係數標準化係數T顯著性B標準錯誤Beta1(常數)124574.66721501.7295.794.000粮食产量(万吨)1.045.152.6476.893.000GDP(亿元)-.005.008-.078-.635.531出生率(%)-1460.798262.207-.496-5.571.000死亡率(%)-4060.2723649.700-.091-1.112.275a. 應
15、變數: 人口(万人)根据表2-1可知R=0.972,拟合度高,所以能用该模型进行预测,同时模型的检验P值sig<0.05,说明该模型显著可信;根据表2-3得到多远线性回归方程: 同时,根据方程得到14年总人口预测值,与真实值相差.2.3 逐步回归法定义2.2 逐步回归法:逐步回归的基本思想是有进有出。具体做法是将变量一个一个的引入,每引入一个变量后,对已引入变量进行逐个检验,当原引入变量因后引入变量变得不显著时,对其进行剔除,保证最后所得的回归子集是最优回归子集。根据图2.2可知,变量GDP与死亡率未通过显著性检验,因此采用逐步回归的方法对方程进行优化。表2-4 逐步回归係數a模型非標準
16、化係數標準化係數T顯著性B標準錯誤Beta1(常數)165146.3883543.31346.608.000出生率(%)-2687.949210.086-.912-12.794.0002(常數)108407.8058355.07212.975.000出生率(%)-1534.270211.155-.521-7.266.000粮食产量(万吨).816.116.5057.052.0003(常數)134678.87814308.5429.412.000出生率(%)-1366.202213.615-.464-6.396.000粮食产量(万吨)1.012.141.6267.184.000死亡率(%)-56
17、81.5572580.897-.127-2.201.035a. 應變數: 人口(万人)根据图表2-4,经过逐步回归,剔除了GDP这一变量得到一个拟合度更好的方程:同时得到2014年总人口的预测值 与真实值相差对比一般多元回归方法的出的模型预测值与运用了逐步回归后的预测值,发现不用逐步回归的预测值更接近真实值;其原因主要有三方面:1.我国的人口普查为10年一次,其数据主要也是通过预测的出,所以数据本身存在较大的误差;2.在实际问题中,自变量之间通常存在相关性,当相关程度严重时称为多重共线性。自变量之间的多重共线性会对回归产生极大的影响;3.人口预测不适合采用线性多元回归的方法进行预测。2.4 多
18、重共线性定义2.3 多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。多重共线性产生原因:(1)经济变量相关的共同趋势;(2)滞后变量的引入;(3)样本资料的限制。影响:(1)完全共线性下参数估计量不存在;(2)近似共线性下OLS估计量非有效,多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)如果方差膨胀因子值越大,说明共线性越强。相反 因为,容许度是方差膨胀因子的倒数,所以,容许度越小,共线性越强。可以这样记忆:容许度代
19、表容许,也就是许可,如果,值越小,代表在数值上越不容许,就是越小,越不要。而共线性是一个负面指标,在分析中都是不希望它出现,将共线性和容许度联系在一起,容许度越小,越不要,实际情况越不好,共线性这个“坏蛋”越强。进一步,方差膨胀因子因为是容许度倒数,所以反过来;(3)参数估计量经济含义不合理;(4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外;(5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。2.3.1 多重共线性检测用SPSS 22.0对数据进行多重共线性检测表2-5 共線性診斷a模型維度特徵值條件指數變異數比例(常數)出生率(%)粮食产量(万
20、吨)死亡率(%)111.9721.000.01.012.0288.447.99.99212.9291.000.00.00.002.0686.557.00.18.063.00333.7981.00.81.94313.9271.000.00.00.00.002.0707.506.00.17.03.003.00336.436.15.79.74.034.00186.828.85.04.24.97a. 應變數: 人口(万人)检测结果表2-5显示:(1)特征值有3个接近0,表明存在多重共线性;(2)条件指数有3个>10,表明可能存在多重共线性;(3)在相关系数矩阵中,死亡率数值接近1可能存在多重共线
21、性;表2-6 排除共线性变量后的係數a模型非標準化係數標準化係數T顯著性共線性統計資料B標準錯誤Beta允差VIF1(常數)165146.3883543.31346.608.000出生率(%)-2687.949210.086-.912-12.794.0001.0001.0002(常數)108407.8058355.07212.975.000出生率(%)-1534.270211.155-.521-7.266.000.4002.502粮食产量(万吨).816.116.5057.052.000.4002.5023(常數)134678.87814308.5429.412.000出生率(%)-1366.
22、202213.615-.464-6.396.000.3492.868粮食产量(万吨)1.012.141.6267.184.000.2414.146死亡率(%)-5681.5572580.897-.127-2.201.035.5531.808a. 應變數: 人口(万人)根据表2-6,剔除GDP这一变量后,其余变量的VIF全部小于10,排除变量间存在多重共线性的原因,不需要再次剔除变量。得到剔除共线性后的多元线性回归方程:2.4 主成分分析定义2.4 主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线
23、性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。主成分分析的主要原理是寻找一个适当的线性变换:(1)将彼此相关的变量转变为彼此独立的新变量;(2)方差较大的几个新变量就能综合反应原多个变量所包含的主要信息;(3)新变量各自带有独特的专业含义。住成分分析的作用是:(1)减少指标变量的个数;(2)决多重相关性问题2.4.1 主成分分析模型建立运用SPSS
24、22.0对数据进行主成分分析表2-7 各变量所占权重元件起始特徵值擷取平方和載入總計變異的 %累加 %總計變異的 %累加 %13.04076.00476.0043.04076.00476.0042.72718.17694.1793.1523.79397.9724.0812.028100.000擷取方法:主體元件分析。根据主成分分析结果可以看出前两个变量所占比重最多,二者的和所占比例为,所以可以采用前两个变量建立回归模型。表2-8 回归係數a模型非標準化係數標準化係數T顯著性B標準錯誤Beta1(常數)53075.7119733.1915.453.000粮食产量(万吨)1.468.235.908
25、6.252.000GDP(亿元)2.494E-5.009.000.003.998a. 應變數: 人口(万人)根据表2-8,得到回归方程: 根据回归方程预测出2014年人口万人。因为:1.主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。 2.主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数通常应明显小于原始变量个数(除非本身较小),否则
26、维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。所以预测的结果出现了更大的误差第3章 非线性模型3.1 曲线回归定义3.1 非线性回归是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。确定两个变数间数量变化的某种特定的规则或规律;估计表示该种曲线关系特点的一些重要参数,如回归参数、极大值、极小值和渐近值等;为生产预测或试验控制进行内插,或在论据充足时作出理论上的外推。3.1.1 曲线
27、拟合对国内总人口的拟合,选取总人口指标为因变量,单位为万人,拟合总人口关于时间t的趋势曲线。以1980年为基准年,取值为,2014年。绘制总人口与变量的散点图,如图3-1所示。图3-1 总人口对的散点图从散点图可以看到,总人口大致符合三次函数形式,当人口的增长速度大致相同时,其趋势线就是三次函数形式。图3-2 拟合曲线图通过观察图3-2,发现三次曲线模型拟合度最好,其次为线性和复合模型,故根据公式: 建立三次曲线模型。表3-1 模型摘要RR 平方調整後 R 平方標準偏斜度錯誤1.000.999.999365.498自變數為 时间。表3-2 變異數分析平方和df平均值平方F顯著性迴歸470890
28、1835.39031569633945.13011749.732.000殘差4141256.21031133588.910總計4713043091.60034自變數為 时间。表3-3 三次曲线系数非標準化係數標準化係數T顯著性B標準錯誤Beta时间1849.09465.5011.60928.230.000时间 * 2-17.6834.196-.571-4.214.000时间 * 3-.070.077-.076-.908.371(常數)96103.588276.157348.004.000根据图表3-1,得到三次函数模型的,说明拟合程度非常好;同时根据表3-2可知,方程整体都通过了显著性检验;根
29、据表3-3可知,不但方程整体通过了显著性检验,每个不同次幂的也经过了显著性检验,所以建立的三次方程式完全符合实际情况的。根据第三个表建立出三次函数方程:同时得出2014年预测值万人,预测值与真实值相差万人。预测值与真实值相差程度远小于运用线性多元回归方法、逐步回归法和主成分分析后的预测值与真实值之间的差异,进一步证明建立的三次函数模型符合实际情况。3.2 Logistic模型Logistic模型增长公式为: 其中为时刻的人口总数,为人口极限规模,为自然对数的底,为时刻长度,、为待定参数。Logistic模型考虑到人口总数增长的有限性,提出了人口总数增长的规律即随着人口总数的增长,人口增长率逐渐
30、下降,但对于在短期内如30-50年内人口增长可能呈上升趋势如人口生育率上升、死亡率下降等原因而导致人口呈上升趋势。Logistic模型在应用中对时间长,人口数据变化大,因此误差较大且不稳定。而小城镇人口的变化就存在人口数据变化较大的特点,所以Logistic模型对小城镇人口的预测并不适合。用对人口进行Logistic曲线拟合,运用命令: x=2014 2013 2012 2011 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 1990 198
31、9 1988 1987 1986 1985 1984 1983 1982 1981 1980y=136782 136072 135404 134735 134091 133450 132802 132129 131448 130756 129988 129227 128453 127627 126743 125786 124761 123626 122389 121121 119850 118517 117171 115823 114333 112704 111026 109300 107507 105851 104357 103008 101654 100072 98705 x=x'
32、y=y'st_ = 2000 127627 1;(在x,y内任意取的数)ft_ = fittype('a/(1+b*exp(-k*(x-1980)' ,. 'dependent','y','independent','x',. 'coefficients','a', 'b', 'k');cf_ = fit(x,y,ft_ ,'Startpoint',st_)最后运行出的结果:cf_ = General model: cf_(x)
33、 = a/(1+b*exp(-k*(x-1980) Coefficients (with 95% confidence bounds): a = 1.217e+005 (1.144e+005, 1.29e+005) b = 1.176e+005 (-4.741e+009, 4.742e+009) k = 13.21 (-4.032e+004, 4.035e+004)根据运行结果,得到Logistic拟合方程: 其中a为人口上线的估计值,因为在1995年人口的实际值就已经超过了预测上限,所以该模型不是和用于预测未来的人口。造成模型不准确的原因主要是数据过少,且人口数据多数来自抽样调查,数据本身存在一定误差。结 论通过不同的模型建立方法对获得的人口数据建立了多个不同的预测模型;经过对比发现三次曲线模型是最符合实际运用的;导致其他模型不适用的原因主要为:(1)目前我国的人口出生率低、死亡率低、自然增长率低这表明我国将进入“低、低、低”现代人口再生产类型的行列;即我国今后的人口数量趋势大致会成为一条水平线。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 桥隧工中级练习题及答案(附解析)
- 2024年工业废水中级模拟考试题(附答案解析)
- 2023年6月美容师初级练习题与答案(附解析)
- 稀土金属压延加工的残余应力分析考核试卷
- 节能技术项目在钢铁行业的节能减排措施考核试卷
- 电池制造中的工业应用与能源储存技术考核试卷
- 2025年其他未列明电子设备项目合作计划书
- 2025年热固化油墨项目发展计划
- 经济型酒店业客户体验优化考核试卷
- 聚苯并噁唑改性纤维制备考核试卷
- 2025年江苏交通控股有限公司招聘笔试参考题库含答案解析
- 中国国际工程咨询有限公司招聘笔试冲刺题2025
- 《伤逝》课件.教学课件
- 周转轮系传动比计算实例机械设计基础课件讲解
- 【 课件】上海普通中小学课程方案
- 弱电项目安全施工应急预案(3篇)
- 院感防控应急演练方案
- 第四讲大力推进现代化产业体系建设-形势与政策
- 有限空间安全技术交底
- 打混凝土劳务清包工合同
- 社区卫生服务中心十四五发展规划
评论
0/150
提交评论