




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、理学沈统计系课程实验论文基于回归分析的人口数量预测学号:2014962005姓名:李洋年级:2014级专业:统计学课程:回归分析2016年6月19日指导教师:姜喜春完成日期:摘要I.刖H1第1章一元线性回归21.1 指标的选择21.2 样本确定21.3 一元回归分析31.3.1 绘制总人口与粮食产量的散点图31.3.2 设定理论模型41.3.3 回归诊断4第2章多元线性回归51.1.1 数据中心化标准化51.2.1 多元回归模型建立51.3.1 逐步回归法61.4.1 多重共线性72.3.1多重共线性检测82.4主成分分析92.4.1主成分分析模型建立9第3章非线性模型11曲线回归11曲线拟合
2、11Logistic模型13结论15参考文献16摘要回归分析法是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。同时依据事物发展变化的因果关系来预测事物未来的发展走势,它是研究变量间相互关系的一种定量预测方法,又称回归模型预测法或因果法,应用于经济预测、科技预测和企业人力资源的预测等。回归分析可以说是统计学中内容最丰富、应用最广泛的分支。这一点几乎不带夸张。包括最简单的t检验、方差分析也都可以归到线性回归的类别。而卡方检验也完全可以用logistic回归代替。众多回归的名称张口即来的就有一大片,线性回归、logistic回归、cox回归、
3、poission回归、probit回归等等。关键词:线性回归;非线性回归;logistic回归、儿刖百最早的形式回归的方法是最小二乘法,这是在1805年出版的勒让德,和高斯在1809年。勒让德和高斯都采用的方法确定的问题,从天文观测,有关Sun的机构(主要是彗星,但后来也新发现的小行星)的轨道。1821年,高斯发表最小二乘法理论的进一步发展,在包括高斯-马尔可夫定理的一个版本。弗朗西斯高尔顿在十九世纪的“回归”是杜撰来描述一种生物现象。这种现象是高度高大的祖先的后代往往倒退下来,对一个正常的平均水平(这种现象也被称为向均值回归)。对高尔顿,回归只有这个生物意义,Udny圣诞节和皮尔逊但他的工作
4、,后来扩展到更一般的统计范围内。在圣诞节和Pearson工作的响应和解释变量的联合分布被假定为高斯。这个假设RA费舍尔在1922年和1925年,他的作品被削弱。费舍尔认为的响应变量的条件分布为高斯分布,但联合分布不一定要。在这方面,费舍尔的假设是高斯1821年制定的。在20世纪50年代和20世纪60年代,经济学家旧机电台计算器,计算回归。1970年以前,有时长达24小时接收从一个回归的结果。回归方法继续是一个活跃的研究领域。在最近的几十年中,新的方法已经制定了稳健回归,回归涉及的相关反应,如时间序列曲线和增长曲线,回归的预测或响应变量的曲线,图片,图表或其他复杂的数据对象,容纳不同的回归方法丢
5、失的数据,非参数回归,贝叶斯方法进行回归,回归的预测变量的测量误差,预测变量的观测回归,回归和因果关系的推论与类型。第1章一元线性回归指标的选择影响人口增长的主要因素经济因素,经济因素对人口自然增长的作用主要表现在它决定了人口的增殖条件和生存条件,通过改变人口的出生率和死亡率来影响人口的自然增率。一般情况下,当人口数量不能满足经济发展对劳动力的需求时,人口自身的再生产必将会刺激;当人口数量超越了经济发展所能提供的消费总数后,人口自身的再生产必将受到遏制。在现代生产力水平下,人口的自然增长率往往随着经济水平的提高而下降。经济因素对人口机械增长也有重要影响。通常情况下,经济发达或发展速度较快的地区
6、,对人口具有一种吸引力和凝聚力,人口机械增长为正值;相反,经济落后或经济发展速度缓慢的地区,对人口会产生一种排斥力和离散力,人口机械增长一般为负值。与此同时粮食产量、出生率、死亡率,也是影响人口增长的因素。符号说明:用Xi、X2、X3、X4表示粮食产量、GDP出生率、死亡率。y表示总人口。样本确定通过查阅中国政府网,得到了1980年至I2014年各因素的数据。表1-1样本数据年份粮食产量(万吨)GDP(亿元)出生率(%)死亡率(%)总人口(万人)201460702.61635910.212.377.16P136782201360193.84588018.812.087.161360722012
7、58957.9753412312.17.15P135404201157120.85484123.511.937.14134735201054647.7140890311.97.11134091200953082.08345629.211.957.08133450200852870.92316751.712.147.06132802200750160.28268019.412.16.93P132129200649804.23217656.612.096.81131448200548402.19185895.812.46.51P130756200446946.95160714.412.296.42
8、129988200343069.53136564.612.416.4129227200245705.7512100212.866.41128453200145263.67110270.413.386.43127627200046217.5299776.314.036.45P126743199950838.5890187.714.646.46125786199851229.5384883.715.646.5P124761199749417.179429.516.576.51123626199650453.571572.316.986.56122389199546661.861129.817.12
9、6.57121121199444510.148459.617.76.49119850199345648.835524.318.096.64118517199244265.827068.318.246.64117171199143529.321895.519.686.7P115823199044624.318774.321.066.67114333198940754.917090.321.586.54112704198839408.115101.122.376.64111026198740297.712102.223.336.72109300198639151.210308.822.436.86
10、107507198537910.89039.921.046.78105851198440730.57226.319.96.82P104357198338727.55975.620.196.9103008198235450533322.286.6P1016541981325024898.120.916.36100072198032055.54551.618.216.3498705一元回归分析定义1.1回归分析(regressionanalysis)1确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种
11、回归分析称为一元线性回归分析。绘制总人口与粮食产量的散点图140000.00-130000M-1人口(万人)izoDootxr11000000-10000000-9000000-T3000084000000500000060000.00双击以方活DDO.OO图1-1粮食产量与总人口散点图设定理论模型根据图1-1随着粮食产量的增加,总人口的数量增加,且各样本点大致落在一条直线附近,故可以采用公式:y=?oX;(1-1)一元线性回归理论模型,对数据进行一元回归分析。回归诊断表1-1模型摘要模型RR平方整彳爰R平方襟型偏斜度1.909a.826.8214985.99669a.值:(常数),粮食产量(
12、万吨)根据表1-1模型摘要表可以看到,r=0.909,说明以粮食产量为唯一因变量与总人口的拟合程度很高。表1-2系数模型非襟型化彳系数襟型化彳系数TMI著性BBeta1(常酚53054.4045500.0139.646.000粮食产量(万吨)1.468.117.90912.513.000a.鹰燮数:人口(万人)根据表1-2系数表,将系数带入公式(1-1)可得出回归模型公式:y=53054.4041.468x用一元回归模型对2014年的总人口进行预测,的到的预测值夕=142165.8355第2章多元线性回归定义2.1在回归分析中,如果有两个或两个以上的自变量,就称为多元回归事实上,一种现象常常是
13、与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。数据中心化标准化数据中心化和标准化在回归分析中的意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。Zx1|IZx2|Zx3|Zx4-,23311-714811.16627-J1643-76404-724001.29641-,61155-.94884-734851.49411-.23069-.82678-751201.73436.07400-.98409760991.50913.60719115429-767911.16127.30251-.76739-77780875
14、97.46485*104223-.78462.94855.75954*149194-.788131.47159-.33303*1.89644*790601.12873-1.2970919577179239.45304137326图2-1标准化结果多元回归模型建立多元回归模型公式:yuB0x,:2乂2,.,:pXp;对数据进行多元回归分析,结果如图2.2表2-1模型摘要模型RR平方整彳爰R平方襟型偏斜度i.972a.944.9362967.56830a.值:(常数),死亡率(%,出生率(%,粮食产量(万吨)GDP(亿元)表2-2燮昊敷分析模型平方和df平均值平方F骸著9
15、8441112212310.996126.295.000b残差264193847.616308806461.5874713043091.60034a.鹰燮数:人口(万人)b.道刚值:(常数),死亡率(%,出生率(%,粮食产量(万吨),GDP(亿元)表2-3保数a模型1(常旭粮食产量(万吨)GDP(亿元)出生率(%死亡率(%非襟型化彳系数襟型化彳系数TMI著性BBeta124574.66721501.7295.794.0001.045.152.6476.893.000-.005.008-.078-.635.531-1460.798262.207-.496-5.571.000-4060.27236
16、49.700-.091-1.112.275a.鹰燮数:人口(万人)根据表2-1可知R=0.972,拟合度高,所以能用该模型进行预测,同时模型的检验P值sig0.05,说明该模型显著可信;根据表2-3得到多远线性回归方程:夕=124574.6671.045x10.005x21.460.798x34060.272x4同时,根据方程得到14年总人口预测值夕=138182.2403,与真实值相差e=1400.25403.逐步回归法定义2.2逐步回归法:逐步回归的基本思想是有进有出。具体做法是将变量一个一个的引入,每引入一个变量后,对已引入变量进行逐个检验,当原引入变量因后引入变量变得不显著时,对其进行
17、剔除,保证最后所得的回归子集是最优回归子集。根据图2.2可知,变量GDP与死亡率未通过显著性检验,因此采用逐步回归的方法对方程进行优化。表2-4逐步回归保数模型非襟型化彳系数襟型化彳系数TMI著性BBeta1(常/出生率(%165146.388-2687.9493543.313210.086-.91246.608-12.794.000.0002(常/108407.8058355.07212.975.000出生率(为-1534.270211.155-.521-7.266.000粮食产量(万吨).816.116.5057.052.0003(常/134678.87814308.5429.412.00
18、0出生率(%-1366.202213.615-.464-6.396.000粮食产量(万吨)1.012.141.6267.184.000死亡率(%-5681.5572580.897-.127-2.201.035a.鹰燮数:人口(万人)根据图表2-4,经过逐步回归,剔除了GDP这一变量得到一个拟合度更好的方程:?=134678.8781012x1-1366.202x3-5681.55次4同时得到2014年总人口的预测值?=138506.21662与真实值相差e=172.21662对比一般多元回归方法的出的模型预测值与运用了逐步回归后的预测值,发现不用逐步回归的预测值更接近真实值;其原因主要有三方面
19、:.我国的人口普查为10年一次,其数据主要也是通过预测的出,所以数据本身存在较大的误差;.在实际问题中,自变量之间通常存在相关性,当相关程度严重时称为多重共线性。自变量之间的多重共线性会对回归产生极大的影响;.人口预测不适合采用线性多元回归的方法进行预测。2.4多重共线性定义2.3多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。多重共线性产生原因:(1)经济变量相关的共同趋势;(2)滞后变量的引入;(3)样本资料的限制。影响:(1)完全共线性下参数估计量不存在;(2)近似共线性下OLS估计量非有效
20、,多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(VarianceInflationFactor,VIF)如果方差膨胀因子值越大,说明共线性越强。相反因为,容许度是方差膨胀因子的倒数,所以,容许度越小,共线性越强。可以这样记忆:容许度代表容许,也就是许可,如果,值越小,代表在数值上越不容许,就是越小,越不要。而共线性是一个负面指标,在分析中都是不希望它出现,将共线性和容许度联系在一起,容许度越小,越不要,实际情况越不好,共线性这个“坏蛋”越强。进一步,方差膨胀因子因为是容许度倒数,所以反过来;(3)参数估计量经济含义不合理;(4)变量的显著性检验失去意义,可能将重要的解释变量
21、排除在模型之外;(5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。多重共线性检测用SPSS22.0对数据进行多重共线性检测表2-5共性模型雉度特徵值修件指数燮累敷比例(常/出生率(为粮食产量(万吨)死亡率(%111.9721.000.01.012.0288.447.99.99212.9291.000.00.00.002.0686.557.00.18.063.00333.7981.00.81.94313.9271.000.00.00.00.002.0707.506.00.17.03.003.00336.436.15.79.74.034.00186.828.85.0
22、4.24.97a.鹰建数:人口(万人)检测结果表2-5显示:(1)特征值有3个接近0,表明存在多重共线性;(2)条件指数有3个10,表明可能存在多重共线性;(3)在相关系数矩阵中,死亡率数值接近1可能存在多重共线性;表2-6排除共线性变量后的保数模型非襟型化彳系数襟型化彳系数TMI著性共性统言十资料BBeta允差VIF1(常酚165146.3883543.31346.608.000出生率(%-2687.949210.086-.912-12.794.0001.0001.0002(常酚108407.8058355.07212.975.000出生率(%-1534.270211.155-.521-7.
23、266.000.4002.502粮食产量(万吨).816.116.5057.052.000.4002.5023(常酚134678.87814308.5429.412.000出生率(%-1366.202213.615-.464-6.396.000.3492.868粮食产量(万吨)1.012.141.6267.184.000.2414.146死亡率(%-5681.5572580.897-.127-2.201.035.5531.808a.鹰燮数:人口(万人)根据表2-6,剔除GDP这一变量后,其余变量的VIF全部小于10,排除变量问存在多重共线性的原因,不需要再次剔除变量。得到剔除共线性后的多元线性
24、回归方程:134678.8781.012x1-1366.202x3-5681.557x42.4主成分分析定义2.4主成分分析(PrincipalComponentAnalysis,PCA),是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。主成分分析的主要原理是寻找一个适当的线性变换:(1
25、)将彼此相关的变量转变为彼此独立的新变量;(2)方差较大的几个新变量就能综合反应原多个变量所包含的主要信息;(3)新变量各自带有独特的专业含义。住成分分析的作用是:(1)减少指标变量的个数;(2)决多重相关性问题2.4.1主成分分析模型建立运用SPSS22.0对数据进行主成分分析表2-7各变量所占权重元件起始特徵值摄取平方和载入燮昊的%累加%燮昊的%累加%13.04076.00476.0043.04076.00476.0042.72718.17694.1793.1523.79397.9724.0812.028100.000撷取方法:主元件分析。根据主成分分析结果可以看出前两个变量所占比重最多,
26、二者的和所占比例为948%,所以可以采用前两个变量建立回归模型。表2-8回归保数模型非襟型化彳系数襟型化彳系数TMI著性BBeta1(常酚53075.7119733.1915.453.000粮食产量(万吨)1.468.235.9086.252.000GDP(亿元)2.494E-5.009.000.003.998a.鹰燮数:人口(万人)根据表2-8,得到回归方程:?-53075.7111.468x12.494*10Jx2根据回归方程预测出2014年人口p=142180.52727万人。因为:.主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保
27、持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。.主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的利”可能抵不过主成分含义不如原始变量清楚的弊”。所以预测的结果出现了更大的误差130000.00-1ZOOM.OCTIIOOOOOG-iQOWOOC-*0000.00-第3章非线性模型3.1曲线回归定义3.1非线性回归是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自
28、变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。确定两个变数间数量变化的某种特定的规则或规律;估计表示该种曲线关系特点的一些重要参数,如回归参数、极大值、极小值和渐近值等;为生产预测或试验控制进行内插,或在论据充足时作出理论上的外推。3.1.1曲线拟合对国内总人口的拟合,选取总人口指标为因变量,单位为万人,拟合总人口关于时间t的趋势曲线。以1980年为基准年,取值为t=1,2014年t=35。绘制总人口与变量t的散点图,如图3-1所示。14000000-
29、图3-1总人口对t的散点图从散点图可以看到,总人口大致符合三次函数形式,当人口的增长速度大致相同时,其趋势线就是三次函数形式。:反Mhmift,修口型通过观察图3-2,发现三次曲线模型拟合度最好,其次为线性和复合模型,故根据公式:y=b0btb2t233建立三次曲线模型。表3-1模型摘要RR平方整彳爰R平方襟型偏斜度1.000.999.999365.498自燮时间表3-2燮昊数分析平方和df平均值平方F骸著性帚4708901835.39031569633945.13011749.732.000残差4141256.21031133588.9104713043091.60034自燮时间表3-3三次
30、曲线系数非襟型化彳系数襟型化彳系数TMI著性BBeta时间1849.09465.5011.60928.230.000时间*2-17.6834.196-.571-4.214.000时间*3-.070.077-.076-.908.371(常知96103.588276.157348.004.000根据图表3-1,得到三次函数模型的R=1.000,说明拟合程度非常好;同时根据表3-2可知,方程整体都通过了显著性检验;根据表3-3可知,不但方程整体通过了显著性检验,每个不同次幕的t也经过了显著性检验,所以建立的三次方程式完全符合实际情况的。根据第三个表建立出三次函数方程:1849.094-17.683t
31、2-0.077t3同时得出2014年预测值?=136174.94841万人,预测值与真实值相差e=607.0516万人。预测值与真实值相差程度远小于运用线性多元回归方法、逐步回归法和主成分分析后的预测值与真实值之间的差异,进一步证明建立的三次函数模型符合实际情况。3.2Logistic模型Logistic模型增长公式为:Pt=Pm.1(1eabt)其中Pt为时刻的人口总数,Pm为人口极限规模,e为自然对数的底,t为时刻长度,a、b为待定参数。Logistic模型考虑到人口总数增长的有限性,提出了人口总数增长的规律即随着人口总数的增长,人口增长率逐渐下降,但对于在短期内如30-50年内人口增长可
32、能呈上升趋势如人口生育率上升、死亡率下降等原因而导致人口呈上升趋势。Logistic模型在应用中对时间长,人口数据变化大,因此误差较大且不稳定。而小城镇人口的变化就存在人口数据变化较大的特点,所以Logistic模型对小城镇人口的预测并不适合。用对人口进行Logistic曲线拟合,运用命令:x=20142013201220112010200920082007200620052004200320022001200019991998199719961995199419931992199119901989198819871986198519841983198219811980y=1367821360
33、7213540413473513409113345013280213212913144813075612998812922712845312762712674312578612476112362612238912112111985011851711717111582311433311270411102610930010750710585110435710300810165410007298705x=x;y=y;st_=20001276271;(在x,y内任意取的数)ft_=fittype(a/(1+b*exp(-k*(x-1980),.dependent,y,independent,x,.co
34、efficients,a,b,k);cf_=fit(x,y,ft_,Startpoint,st_)最后运行出的结果:cf_=Generalmodel:cf_(x)=a/(1+b*exp(-k*(x-1980)Coefficients(with95%confidencebounds):a=1.217e+005(1.144e+005,1.29e+005)b=1.176e+005(-4.741e+009,4.742e+009)k=13.21(-4.032e+004,4.035e+004)根据运行结果,得到Logistic拟合方程:o1.217e005?二11.176e005*exp(-13.21*(x-1980)其中a为人口上线的估计值,因为在1995年人口的实际值就已经超过了预测上限,所以该模型不是和用于预测未来的人口。造成模型不准确的原因主要是数据过少,且人口数据多数来自抽样调查,数据本身存在一定误差。结论通过不同的模型建立方法对获得的人口数据建立了多个不同的预测模型;经过对比发现三次曲线模型是最符合实际运用的;导致其他模型不适用的原因主要为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年滨州邹平怀远学校教师模拟试卷及完整答案详解
- 2025河南开封市兰考县不动产登记中心就业见习生招聘6人模拟试卷及答案详解(必刷)
- 2025年临沂兰陵县教育系统部分事业单位公开招聘教师(5人)模拟试卷及一套参考答案详解
- 2025年3月湖北东津国投集团及子公司社会招聘拟聘用人员模拟试卷及参考答案详解
- 2025广西南宁上林县白圩镇中心卫生院招聘村卫生室公共卫生服务协助人员5人考前自测高频考点模拟试题及答案详解(网校专用)
- 班组安全培训教育
- 2025内蒙古工业大学招聘20名博士学位事业编制工作人员模拟试卷及答案详解(考点梳理)
- 2025北京大兴区妇幼保健院临时辅助用工招录岗位12人模拟试卷及答案详解(有一套)
- 2025广东省高校毕业生三支一扶计划招募3000人模拟试卷附答案详解(典型题)
- 2025年春季中国邮政储蓄银行合肥市分行校园招聘模拟试卷(含答案详解)
- 电商行业员工行为规范与工作手册
- 借款合同中国农业银行担保借款合同3篇
- 创新方法大赛理论知识考核试题题库及答案
- 《认识几种常见的岩石》说课稿、教案和教学设计
- 黑布林英语阅读初一年级16《柳林风声》译文和答案
- 广东省监理从业人员网络继续教育平台题库
- YY/T 1268-2023环氧乙烷灭菌的产品追加和过程等效
- 平地机操作规程
- HY/T 0302-2021沸石离子筛法海水提钾工程设计规范
- GB/T 710-2008优质碳素结构钢热轧薄钢板和钢带
- GB/T 18591-2001焊接预热温度、道间温度及预热维持温度的测量指南
评论
0/150
提交评论