版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、摘要人口预测是一个非常重要的理论和实践问题,人口的合理建模是人口预测、控制与管理的基础工作,是当前人口研究的热点问题之一.为此,准确的预测人口信息,是制定未来人口发展目标和生育政策等有关人口政策的基础,对研究制定地方经济和社会发展决策具有重要的参考价值.本文主要研究山东省人口自然增长率,分析预测其未来趋势,并对与之有关的因素进行分析.传统的线性模型不能反映人口数据中所存在的非线性特征,变系数模型不仅能克服线性模型的不足,而且能够克服高维数据“维数祸根”的问题.本文分析方法如下:首先,利用变系数模型局部线性拟合方法来估计每一年的模型参数的数值,在这一过程中,要用到最优带宽,通过交叉证实法来确定.
2、其次,利用得到的参数值求得每一年的人口自然增长率的预测值,由预测值与实际值之间的相对误差及二者关系图都可以看出,变系数模型对人口自然增长率的拟合效果是非常好的,并且根据变系数模型具有解释性这一特点得出各变量对人口自然增长率的影响大小. 最后,利用变系数局部线性估计方法对2007年的人口自然增长率进行预测,预测值3.9367,实际值3.58.可见,变系数模型对被解释变量的预测效果也是很好的. 关键词:变系数回归模型,带宽,局部线性估计,交叉证实法,人口自然增长率ABSTRACTPopulation forecast is a very important theoretical and prac
3、tical issue, a reasonable modeling of population is a basic work of population forecast, control and management, is one of the hot issues of the current population study. To this end, projecting the information on population accuratelyis the basic work for making the population policy, such as the g
4、oal of the future population developmentand reproductive policy, is also of great reference value of making the local economic and social development information.This paper studies the natural population growth rate ofShandongProvince, analysis and forecast its future trends and the related factors
5、for analysis. The traditional linear model can not reflect the non-linear characteristics which exist in the demographic data, variable coefficient model can not only overcome the the inadequacy of linear models, and be able to overcome the high-dimensional data dimension curse problem.This paper is
6、 as follows: First of all, the use of local linear variable coefficient model fitting method to estimate model parameters for each year of the value, in this process, the optimal value of bandwidth is determined through cross-validation. Secondly,use the parameter values which have been obtained to
7、estimate each years predictive value of natural population growth rate, by the relative error between predictive value and the actual value and the relationship between the two can see that the variable coefficients model of the natural population growth rate fitting results well, and for the explan
8、ation characteristic of varying-coefficient regression model,we obtain the effect that each variable work on the natural population growth rate.Finally, use the local linear estimation of variable coefficients model to predict the natural growth rate of population in 2007, the predictive value of 3.
9、9367, the actual value of 3.58 . It can be seen that the model of variable coefficients on the explanatory variable of the forecast is also a very good effect.KEY WORDS: varyingcoefficient regression model, bandwidth, local linear estimate, cross-validation, the natural population growth rate目录前 言1第
10、1章 预备知识31.1 线性回归模型的建立及其矩阵表示31.2非参数回归模型51.2.1两种常用的非参数估计方法51.2.2 最优带宽的选择.7第2章 变系数回归模型92.1 理论背景92.2变系数回归模型的发展102.3变系数回归模型的参数估计112.3.1函数系数的估计122.3.2变系数回归模型的局部线性拟合13第3章实证分析143.1 数据来源及处理143.2模型拟合及分析153.3预测20第4章 结 论21参考文献22致 谢24附 录25诚信声明35前 言人口是制约社会和经济发展的瓶颈,人口的合理建模是人口预测、控制与管理的基础工作,是当前人口研究的热点问题之一.人口问题是当今世界共
11、同关心的一个重大问题,特别是发展中国家的快速增长引起了国际社会的普遍关注.我国是世界上人口最多的国家,人口问题一直是制约中国经济和社会发展的首要因素.为此,准确的预测人口信息,是制定未来人口发展目标和生育政策等有关人口政策的基础,对研究制定地方经济和社会发展决策具有重要的参考价值.人口预测是根据一个国家或一个地区的人口现状和以往人口发展的规律性,以及对影响人口发展的各种因素的假设,对未来人口发展状况进行的推算,是人口决策的重要依据,也是国家或地区经济稳定、高效、协调发展的重要保证.对人口系统而言,影响其增长的因素既有社会经济的,也有自然环境的,还有科学技术方面的,但最主要的影响因素是人口的自然
12、增长率.如何根据一个国家或地区的人口数据增长率,建立特定国家或地区的人口模型,一直是人口学界普遍关心的问题.对于人口增长问题,传统的方法有增长曲线模型2、灰色系统模型4、系统动力学模型、自回归模型等1,3,5 .增长曲线模型预测方法相对简单,但是精度不高;灰色系统模型主要是对人口增长趋势波动进行分析,它在预测资料不全或资料的波动太大、不平稳的发展趋势时效果较好;系统动力学模型在分析问题、收集资料、建立模型和求证的过程中都要消耗一定的财力、物力和人力,还需要占用大量的计算机工作时间,而且建模人员的专业水平也直接影响模型的质量和结果;自回归模型由于是线性参数化形式,难以较好的解决人口增长预测这一非
13、线性问题.传统的人口预测模型不能反映人口数据中所存在的非线性特征,不能将模型的解释能力,描述动态数据之间的关系,模型拟合精度等方面较为理性的结合起来.与之对应的非参数方法不仅能克服线性模型的不足而且因其建模的灵活性而成为研究非线性模型的重要方法.非参数模型假设变量的关系未知,其回归函数形式可以是任意的,因而是比参数模型更符合现实的模型.非参数方法尽管在处理一维数据时显示了强大的处理能力,但是在处理高维数据时却出现了所谓的“维数祸根”问题.而变系数模型则是为了克服高维数据“维数祸根”问题而产生的一类模型.本文主要应用变系数模型对山东省19532006年的人口自然增长率建立数学模型,对2007年的
14、人口自然增长率做外推预测.应用变系数模型时,对模型参数的估计采取的方法是局部线性拟合.局部线性拟合方法是局部多项式拟合方法的特例,具有很多优势:局部线性估计具有相对较小的偏差和方差,没有边际效应,有很高的极小极大估计.正是基于这些方面的优点,本文利用局部线性拟合方法来分析人口自然增长率,一方面,能够体现局部特点,另一方面能够较好的克服边际效应.但是,对人口增长的分析并不能够仅仅停留在对人口自然增长率的分析,而应该结合与人口有关的诸多因素,比如文中数据所涉及的男性人口,女性人口,农业人口,非农业人口,人口密度,普通高等教育毕业生数,年底就业人员数,卫生机构数,地区生产总值等因素来进行综合考虑分析
15、,以期达到最理想的效果.本文正是基于这一思想,结合各个因素,使用MATLAB, Excel 和sas软件拟合关于人口自然增长率的变系数模型,并进行相关的分析. 本文第一章介绍了线性回归模型及非参数模型方面的知识,作为变系数模型的预备知识,在非参数模型这一节,介绍了两种常用的估计方法:核估计和局部线性估计;第二章集中讨论变系数模型,包括其理论背景,发展,主要是最优带宽的选择及参数估计;第三章结合具体的实例,利用变系数模型来探究一些有意义的结论.第1章 预备知识1.1 线性回归模型的建立及其矩阵表示假设被解释变量是解释变量和随机误差项 的线性函数,与的关系可表示如下:. (1-1)其中是未知参数;
16、是均值为零,方差为的不可观测的随机变量.本文均假定.该模型称为线性回归模型,也称为因变量,为自变量.要建立上述线性回归模型,首先要估计未知参数.为此,进行()次独立观测,得到组数据(称为样本).它们应满足式(1-1),也即,(1-2)其中相互独立且均服从分布.这个模型相应的矩阵表达形式是.(1-3)其中,,,.这里:-被解释变量样本观测值的阶向量;-被解释变量样本观测值的阶矩阵,它的每个元素都有两个下标,第一个下标表示相应的列(第个变量),第二个下标表示相应的行(第个观测值),矩阵X的每一列表示一个解释变量的个观测值向量,截距项对应的观测值等于1;-未知参数的阶列向量;-随机误差项的阶列向量.
17、由于参数都是未知的,我们可以利用样本观测值对它们进行估计.假设计算得到的样本统计量为,它们是相应的未知参数的估计值,于是可得到与(1-1)式相应的估计的回归方程. (1-4) 矩阵表达形式为. (1-5)其中这里:-被解释变量样本观测值的阶拟合值列向量;-未知参数的阶估计值列向量.线性回归模型中,参数被视为常值,即认为产生样本观测值的结构在观测过程中保持不变,解释变量对被解释变量的影响不变.但是,这种假设有时是不符合实际的.比如,现实中地区之间的差异是客观存在的,但线性回归模型处理空间资料时掩盖了这种事实.处理的资料若是时间序列资料,那么相关的因素有可能会在观测时间内发生变化,从而使得一般线性
18、回归模型得到的结果只是一种评价的分析.作为弥补一般线性回归模型不足的一种方法,变系数模型得到了广泛的关注.对变系数模型的介绍将在第二章进行.1.2非参数回归模型参数估计就是假定函数总体分布是已知的,只需估计未知参数就行了.它的前提条件是要求模型具有某种特定的数学形式.随着时代的发展许多参数估计方法已不能满足实际应用的需要,这时非参数方法就显得尤为重要了.非参数估计是相对于参数估计而言的,它并不假定具体的函数形式,也不设置参数,它是根据在每一点的值来确定函数.由于它对模型的需求甚少,解释变量和被解释变量的分布也很少受限制.所以,它比参数回归模型有更大的适应性,而且具有稳健性和效率高的特点,因此越
19、来越成为实用的统计方法.对非参数回归分析,可简单叙述如下:设为所关心的变量,其间满足关系:. (1-6)其中称为自变量或回归变量,且为随机或非随机的,称为因变量,为随机误差项,称为回归函数,对函数的具体形式不作任何假定或只作一些简单的光滑性要求,依靠观测数据拟合,模型(1-6)称为非参数回归模型.在非参数回归中,对函数的估计常用的是核估计、局部多项式估计、样条估计、级数估计(傅里叶级数估计,小波级数估计)等方法.下面,将会对文中涉及的两种方法做出介绍.这些方法本质上讲都是局部估计或局部光滑.这些方法都是对所观察数据的回归曲线进行拟合的光滑技术.实践中,如何选择估计方法,则要针对所处理问题的不同
20、需求.其中,核估计是比较传统的估计方法,局部多项估计修正了核估计的边界效应,样条方法估计出的函数一般比较光滑,小波估计比较适应于回归函数不连续或不光滑的情况. 两种常用的非参数估计方法6.核估计设是上的一个给定的概率密度函数且,是一个与有关的常数,满足,对任意的,定义核权函数为,. (1-7) 易见,.则的核估计定义为,即. (1-8)其中,为核函数,称为带宽.从上式可知,核估计既同样本有关,又同核函数和带宽的选取有关.在给定样本后,一个核估计的统计性能的好坏,主要取决于核函数和带宽的选择.一般的核函数为对称的,具有紧支撑的密度函数.常见的核函数核函数 形式Epanechinikov Biwe
21、ight Triweight Gaussian Uniform 在核估计中,不同的核函数对核估计的效果影响不是很大.在本文统一使用高斯核函数.带宽在估计的偏差与方差之间起平衡的作用,控制着核估计的光滑程度,因此,最优带宽的选择是至关重要的.我们将在下节讨论.由于核估计是局部加权平均,所以核估计在边界点的性质和内点处的性质不同.由核估计的定义,很明显,核估计在边界点的偏差将大于内点处的偏差,因而核估计在边界点的收敛速度将慢于在内点处的收敛速度,也就是核估计存在边界效应问题.而局部线性估计是对局部化的线性回归模型进行加权的最小二乘估计,在边界点的收敛速度与内点处的一样,也就是不存在边界效应问题.下
22、面主要介绍局部线性估计:.局部线性估计.(1-9)其中是期望为0,方差为的随机变量,并假定回归函数是二阶连续可微函数,设为观测值,对于定义域内任一点,由泰勒公式, (1-10)在处的局部线性估计,即估计,使得, (1-11) 达到最小,其中为核函数,为最优带宽,令,和由加权最小二乘法估计的估计值为.(1-12)从而在处的局部线性估计为. (1-13)其中,核函数可取高斯核函数.最优带宽的选择带宽在非参数回归估计中起着相当重要的作用.带宽越小,核估计的偏差越小,但核估计的方差越大;带宽越大,核估计的方差越小,但核估计的偏差大.因此寻求合适的带宽是非参数估计最重要的任务之一.最佳带宽h的取法有很多
23、:方法之一:使得积分均方误差(AMISE)达到最小.最小,在实证工作中,我们通常选择,(1-14)这里为非条件方差,为样本量,为解释变量的个数5.方法之二:交叉证实法 .(1-15)其中为在光滑参数为时,去掉第组观测数据后,利用局部线性拟合所得到的在点处的估计值.选择使得. (1-16)则以作为的估计值.交叉证实法的关键是在样本中剔除观测点,如果不剔除的话,由于核函数在这一点处达到最大值,就会使这一点的重要程度过分夸大而其它观察点的重要程度降低.所以,采用交叉证实法就避免了因没有剔除观察点而将有用数据排除在外的情况.另外还有经验选择法.在本文中使用的是交叉证实法.第2章 变系数回归模型非参数回
24、归模型在处理一维数据时显示了强大的处理能力,但是随着维数的增加,回归变量x局部邻域所包含的样本数据大大减少.此时,要估计这样的一般多元函数就显得十分困难.其原因就是所谓的“维数祸根”问题.变系数模型就是现代数理统计中为克服高维数据时遇到的困难,即“维数祸根”(curse of dimension)而产生的一类模型.这类模型既部分地继承了非参数回归的稳健性等特点,同时又保留了线性模型的直观、容易解释等优点.因此,近年来,对它的研究逐渐受到人们的极大关注并把它广泛地应用于生物学、医学、金融保险等方面.2.1理论背景14参数统计推断总是需要一些模型假设,线性假定是其中一种.尽管其性质得到了很好的确定
25、,但是,在实际的应用中,线性模型通常是不真实的.而非参数模型虽然在模型的说明上不做任何的假设,但可能会丢掉许多的信息,由此导致对未知函数估计的大的偏差.更糟糕的是所谓的“维数祸根”,即当变量的维数高时,它呈现的标准非参数模型在实践中是不能达到的.为了改善这一问题,许多模型提议减少维数,其中包括投影寻踪8,片逆回归9,单指数模型10和其它模型.这里模型都有下面的基本形式(2-1)是一个响应变量,是一个维协方差,是一个随机误差,是一个整数,并且希望它比小很多.然而模型(2.1)有它自己的局限性,当大的时候,“维数祸根”仍然存在.实际上,如果样本量大并且大于3的话,(2.1)并不是很实用.另一种方法
26、是放松加在传统参数模型上的条件,并且探究隐藏的结构.例子包括附加模型11,变系数模型12,13,部分线性模型14等.在以上这些模型中,变系数模型在许多文章中都出现过,它已经很成功的被应用于多维的非参数回归,广义线性模型,非线性时间序列分析等.变系数模型有着很重要的实际意义.在许多需要统计学的科学领域,传统的参数模型在某种意义上是合理的.然而,它们中的大部分忽视了在数据集中可能存在的动态特征.为了探索变化特征并更好的拟合数据,我们可以让参数带着特定的特征进行演变,这样就会导致不同的变系数模型.如将参数看成发展状况的函数则会导致标准的变系数模型.另外,在逻辑斯蒂回归中将不变的系数变为函数系数会导致
27、广义变系数模型.在应用方面,尤其在许多科学领域的动态模式方面,变系数模型是很有用的探索工具.在理论方面,它是避免“维数祸根”的有用的半参数模型.它也可作为新的统计方法的检验模型.22 变系数模型的发展对来自实践的一组数据,建立合适的统计模型去解释它,并利用模型来预测未来,一直是统计学家追求的目标.纵观各类统计模型的诞生与发展,从参数回归模型、半参数回归模型到非参数回归模型,无一不是一个从实践到理论,再从理论到实践的过程.最初使用一元线性回归模型. (2-2)来拟合数据,其中.但是在大部分情况下,随机变量和之间并不具有线性关系,这就带来很大的模型偏差.为了克服这一问题,人们提出了增加参数的方法,
28、即用多项式拟合它们之间的关系,这就是多项式回归模型. (2-3)但是多项式回归也相应产生一些问题.比如多项式函数具有任意导数,而要拟合的曲线如果不具有这一性质,那么模型就是不合理的.另外,多项式的阶数过大则带来参数的增加和模型的不稳定性,过小则导致模型误差的增加,异常值也会对多项式的形式产生影响.为了克服参数回归的弱点,统计学家又研究了非参数回归模型: (2-4)其中是未知函数,具有一定的光滑性(这是关于随机变量和之间关系的一种最自然的假设),.模型的主要问题是估计函数.为此人们提出了许多切实可行的方法,如核估计、局部多项式估计、正交级数方法、样条方法等.但是响应变量用一个一元变量来解释往往还
29、不够,比如生物医学领域,老年疾病的预防和控制往往和多个因素有关联,这就需要多元变量来解释,这就推广到了多元非参数回归,即假设.理论上一元非参数回归的估计方法可以直接推广到多元非参数回归.但是由于解释变量个数的增加,使得收敛速度相当慢,而且估计变得很不稳定,在统计上这一现象被称为“维数祸根”.对此,人们又提出了各种多元模型来克服维数祸根的问题.其中,变系数模型引起许多统计学家的关注.变系数模型(varying coefficient model)也称为函数系数模型(functional coefficient model)是一般线性模型的一种有用推广.假定在参变量处自变量与因变量满足线性关系.其
30、中,为一维(或多维)实变量的有界连续函数,且具有连续导数,称,为变系数.假定是某指定点附近的个点,在每个点处作观察,得到样本观察值,.模型.(2-5)其中. ,,称为变系数回归模型由于变系数模型能够涵盖许多常见的模型,因而引起了许多统计工作者的研究兴趣,但由于存在“维数祸根”问题,模型在实践中处理问题不太可行,因此,常常将取成相同的一元协变量,如表示时间,并且针对不同的情况作了一些处理.变系数模型对回归函数的结构提出了一些限制.可是,尽管变系数模型看起来比较具体,实际上它是一个非常一般的模型,它既部分保留了非参数回归稳健性的特点,又具有结构简单,容易解释等优点.2.3 变系数回归模型的参数估计
31、变系数模型是经典线性模型的一种有用的推广,它已被广泛地应用于经济学、生物医学、流行病学、环境科学等学科中,有关模型(2.5)式中函数系数的估计,已有几种方法,当具有相同的光滑度时,文献15给出的局部最小平方方法是一种简单而有用的方法,所得到的估计量是最优的,Hastie(1993)在文献16中给出了光滑样条和核方法;Fan(2000),Tsang(2001)提出了局部多项式和光滑样条的两步估计方法17,18,使得光滑参数的选择可以因系数的不同而不同.唐庆国等在文献19中提出了一步估计方法用以估计变系数模型中具有不同光滑度的未知函数.卢一强、曾林蕊20考虑变系数模型,得到的样条估计,并证得估计达
32、到最优收敛速度的条件.巩永丽、张德生研究了人口增长率的非参数自回归预测模型22花俊洲、梅长林、吴冲锋23提出了一类有广泛应用背景的变系数广义线性模型,基于局部加权最大似然估计方法,讨论了此模型的拟合和统计推断等问题.又在文献24中提出了半参数可变系数广义线性模型,讨论了向后拟合估计.函数系数的估计假设我们有一个样本,来自.(2-6),并且.对每一个给定的,的局部线性估计是与下式的最小值相符的部分, (2-7)是一个核函数,这里取为高斯核函数:,是最优带宽.通过节介绍的方法(交叉证实法)来确定.令,,,,,我们有. (2-8) 是一个维的单位矩阵,是一个维的零矩阵.变系数模型的局部线性拟合变系数
33、模型的表达式可记为:.(2-9)其中. ,.那么,对随机变量序列,用局部线性模型方法来估计系数函数,对于每个点,近似函数如下:,在的邻域内,由此计算下列的最小值.(2-10)令,,由前面结论得,. (2-11)表示在k处为1,长度为的单位向量.得.第3章 实证分析3.1 数据来源及处理本文数据来源于山东统计年鉴(2008)(/统计年鉴/山东统计年鉴2008/index.html).选取了男性人口,女性人口,农业人口,非农业人口,人口密度,普通高等教育毕业生数,年底就业人员数,卫生机构数,地区成产总值共九个解释变量,被解释变量是人口自然增长率(数据详见附录2)
34、.数据从1953到2007年,以年份来统计,共55个年份,可以按照从1到55给它们编号.在本文的研究中,将数据看为两个部分,第一部分从1953年到2006年,第二部分是2007年.将第一部分的数据作为原始数据,用于对模型的估计,第二部分的数据作为实验数据,用以检验预测的准确性,也就是说,前54个数据用于估计,最后一个数据用于预测.首先,把原始数据做如下处理:原始数据中“普通高等教育毕业生数”这一变量中,有两年的数据是缺失的,为了分析方便,文中把缺失年份前后两年的加权平均值作为这一年的数据.另外,对于男性人口、女性人口、农业人口、非农业人口,可以分别用二者的比例来代替,这样会使所要分析的数据数值
35、变小,便于操作.另外,鉴于各变量的名称较长,在下面的分析时,我们用它们的简称来代述.下表,将经过处理的原始数据及各变量的意义做一说明:表 3-1 变量说明变量解释单位密度人口密度人/每平方公里教育普通高等教育毕业生数千人就业年底就业人数千万人卫生卫生机构数千个GDP地区生产总值亿元男女比女性人口/男性人口%非农比农业人口/非农业人口/10%增长率人口自然增长率第二个问题是变量选择问题:在一个实际问题中,为了建立某个指标的关系表达式,往往可以提出许多可能与有关的变量,但这些变量却未必是非常必要的,所以,我们在建立最优模型时,要考虑以下两个条件:(1)为了使所建立的模型能更好的用于预测的目的,回归
36、方程应包含所有对显著地变量;(2)为了保证模型的精度及稳定性,对影响不显著的变量应尽量排除在模型之外为了将有用变量选入模型中,我们在SAS系统中得到被解释变量与各解释变量之间的相关系数表:表3-1 相关系数表密度 教育就业卫生GDP男女比非农比增长率-0.6497.0001-0.41460.0016-0.6635.0001-0.25740.0577-0.46990.00030.5932.00010.7422.0001从表3-1可以看出,人口自然增长率与密度、教育、就业、卫生、GDP之间都是负相关的,也就是说,在一个地区,人口密度越高,受教育人数越多,就业人数越多,卫生机构数越多,GDP值越大,
37、人口自然增长率就越低.其中,就业与人口增长率的负相关程度最大,为-0.6497,其次是密度为-0.6497,GDP为-0.4699,这三者的可信度也是很高的.这说明,一个地区的生活质量对人口增长率的影响是很大的.人口自然增长率与教育之间的相关程度为-0.4146,接近中度相关,可信度也较高,这说明受教育人数越多,人口增长率会越低,这可能是因为人们思想改变从而降低了出生率.卫生这一变量与人口自然增长率之间的相关系数只有-0.2574,且置信度也很低.所以,下面的分析中我们将考虑把这一变量删除,以保证模型的精度与稳定性.另外,表中还有两个与人口增长率成正相关的变量:男女比和非农比.非农比与人口增长
38、率的相关性很大,为0.7422,可信度也很高.众所周知,山东省是一个农业大省,农业人口占多数,当非农比,也即农业人口与非农业人口之比增大时,意味着农业人口增多,从而使得人口增长率增大.最后一项男女比与人口增长率的相关系数为0.5932,且可信度也很高.当女性人口与男性人口的比例增大,也即女性人口数量增多时,会有更多的女性达到婚育年龄,从而使得人口增长率增大.下面,我们对人口自然增长率的变系数模型进行拟合并进行相关分析与预测.3.2 模型拟合及分析在2.3节已经介绍过,进行函数系数估计时核函数取为高斯核函数,带宽的选择使用交叉证实法.首先,在0,10范围内以0.01的步长逐次使用带宽,由交叉证实
39、法确定最优带宽=2.42(程序见附录1).然后利用节介绍的变系数模型的局部线性模型方法来估计系数函数,并得到每一年的人口自然增长率的拟合值及相对误差(结果见附录3).从拟合值及相对误差可以看出,变系数模型对人口自然增长率的拟合效果是很好的,拟合值与实际值之间的误差很小,相对误差也是非常小的.这也是我们能够使用变系数模型来进行人口预测的原因.模型的拟合效果可以通过下面的变系数局部线性拟合图来更清晰地展示.图3-1变系数模型局部线性拟合图图3.1是利用MATLAB软件得到的变系数模型的局部线性估计的拟合图(程序见附录1),其中,星号代表的是原始数据,加号代表的是拟合值.由图可以看出,总体来说,变系
40、数模型局部线性拟合对人口自然增长率的拟合效果是非常好的.只是在个别人口增长率出现急剧变化的转折点拟合效果不是很好.同时可以观察到,在1960年前后,人口自然增长率出现了急剧下降和急剧上升的现象,在1957年之前,全省经济得到较快发展,人民生活普遍改善,这是一次生育高峰时期.而从1958年到1961年,也就是三年困难时期,人民生活水平显著下降,以1960年最为困难.这一点,从图中也可以看出,在1960年,人口自然增长率处于最低点,而且此时的值为负数,说明人口出现了负增长.从1962年开始,国民经济逐步恢复,而此时人口也开始出现补偿性增长,大约在1964年人口自然增长率达到最高峰,这又是一次生育高
41、峰期此后一段时期,人口自然增长率一直处于下降趋势.1973年,全国范围内实行计划生育政策,人口自然增长率继续下降.这一趋势一直持续到1985年,此后,又出现了上升,这是因为在1962年开始的人口补偿性增长阶段出生的人群陆续进入生育年龄,从而又导致了一个生育高峰,此外,这次人口的上升也与政策中允许农村独女户生育二胎的政策有关.自1988年严格实行计划生育以来,人口增长率得到了遏制.1990年以后,人口自然增长率一直处于平缓的波动时期,这说明现在人口是比较稳定的.为了具体分析各个解释变量对人口自然增长率的影响,我们利用估计系数函数得到的矩阵(见附录3)作各解释变量的系数随时间变化的图形.这里没有做
42、出常数项,这是因为常数项相较其它变量的系数而言数值较大,它的出现会遮盖其它变量的变化趋势.而这也说明了人口的历史基数对人口自然增长率的影响是很大的.对于六个解释变量,针对其系数矩阵的数值大小特点,为了更清楚地表示其变化特征,我们将其分成两组,分别在两个图中展示.第一组:密度项、GDP项和男女比项,它们的数值相较剩余的变量的数值而言较大;第二组:教育项、就业项、非农比项,相对的数值较小.首先考虑第一组:图3-2第一组的系数变化图从图3-2可以看出,在这三个变量中,男女比这一项的系数发生的变化最大,相应的,它对人口自然增长率的影响的变化程度应该是最剧烈的.这种变化在1960年之前,1970年前后和
43、1990年前后表现最为明显.结合图3-1,人口自然增长率在1960年达到最低点,且是负值.在1990年,人口增长率达到1970年以来的最高点.这三个时期恰是在图3-1中提及的三次生育高峰期.可以得出,当男女比的变化率发生大的变化时,人口增长率也会发生大的变化.在这里,当男女比的变化率发生大的变化时,人口增长率是增大的.在1957年之前,全省经济发展快,人民生活水平提高,男女比对人口增长率的影响是很大的,所以在图3-2中,男女比项的系数变大.而从1958年到1961年的三年困难时期,人民生活水平下降,男女比对人口增长率的影响不再重要,所以男女比项的系数急剧下降,所以,男女比项对人口增长率的影响是
44、与生活水平相关的.在图中对应着,2000年以后,生活水平持续增高,男女比项的系数也在变化,但变动较小,这说明现在男女比项对人口增长率的影响比以前小,这可能是计划生育政策的成效.1990年以后,男女比项的系数出现了一次负向的大的变化,与之相应的,在图3-1中,人口增长率也出现了一次大的降低.这些都说明,男女比项对人口增长率的影响是很大的.相较男女比这一变量,GDP值和密度虽有变化但都不是很明显,只在1960年之前先过大的变化.鉴于男女比的变化范围很大,为了更清楚的观察GDP和密度的变化,我们重新做二者的关系图如下:图3-3 密度、GDP的系数变化图图3-3可以清楚地看到密度及GDP的系数的变化,
45、在1960年之前,二者系数变化都是很大的,GDP项的系数先急剧增加后急剧减少,它此时的变化与图3-1中人口增长率的变化是对应的,当GDP项的系数变大时,人口增长率有增大的趋势,此后系数变小,增长率也出现了减少,这说明,1960年之前,GDP项对人口增长率的影响也是较大的,这也可以联系到当时的实际情况,经济发展时期与三年困难时期对应着GDP增加和减少,也就对应着GDP对人口增长率的影响.但是此后,GDP的系数变化较小,可近似认为是不变的,也即此后GDP项对人口增长率的影响几乎不变.人口密度的系数波动明显比GDP要大,在1960年之前,密度项的系数先负向增大后减小,说明它对人口增长率的影响是先增大
46、后减小的,总体来说,密度项的系数变化要明显大于GDP项的系数变化.下面考虑第二组:图3-4 第二组的系数变化图教育项、就业项、非农比项这三者的系数变化范围都很小,都在1之内.非农比这一项的系数在1960年之前和1990年之后都有大的波动,这也是与图3-1中人口增长率的变化相对应的.但是,相对前面分析的几个变量而言,它对人口增长率的影响还是较稳定的.就业这一项的系数只在1960年之前有过一次相对大的变动,此后一直波动很小,即1960年以后就业对人口增长率的影响几乎是不变的.教育项的系数变化最不明显,只在1960年之前出现过小幅波动,之后近似为一条直线,也说明它对人口增长率的影响几乎是固定的.综合
47、以上分析,我们可以得出,对所研究时段内的人口自然增长率影响最大的变量是男女比,人口密度,GDP在1960年之前对人口增长率的影响是较大的,但此后,影响几乎是固定的.非农比,就业,教育对人口增长率的影响近似是不变的.3.3预测在3.1节已经说明,原始数据分两部分,一部分用来拟合模型,第55个数据,也即2007年的人口自然增长率用来检验模型的预测效果.下面,运用变系数模型的局部线性拟合来预测2007年的人口自然增长率(程序详见附录1),经MATLAB计算得2007年的人口自然增长率为3.9367,而实际值为3.58,接下来,我们运用在1.1节介绍的的线性回归模型对2007年的人口增长率进行预测(程
48、序详见附录1),经SASv8系统计算得2007年的人口增长率为5.6425,可以得出,变系数模型的预测效果优于一般的线性回归模型.下图是用MATLAB软件作出的变系数模型和一般回归模型对人口增长率的拟合图 图3-5 两种模型的比较图从图3-5可以看出,变系数模型局部线性拟合图的拟合效果明显优于一般线性回归.第四章 结 论人口自然增长率的分析在人口预测中是非常重要的.传统的人口预测模型不能反映人口数据中所存在的非线性特征,不能将模型的解释能力,描述动态数据之间的关系,模型拟合精度等方面较为理性的结合起来.与之对应的非参数方法不仅能克服线性模型的不足而且因其建模的灵活性而成为研究非线性模型的重要方
49、法.非参数方法处理一维数据时有强大的处理能力,但是在处理高维数据时却出现了“维数祸根”问题.而变系数模型则是为了克服高维数据“维数祸根”问题而产生的一类模型.本文通过运用变系数模型对山东省人口自然增长率进行分析和预测,得出了以下结果:(1)变系数模型局部线性拟合方法能够很好的对人口自然增长率进行拟合,拟合的相对误差是很小的.(2)对本文所研究的影响人口自然增长率的几个因素,文中通过变系数模型局部线性拟合方法求出其模型参数,通过每个变量系数随时间变化的曲线可以看出,各个变量对人口自然增长率的影响程度是不同的.就所研究的数据来说,在所限定的这个时间段内,对人口自然增长率影响最大的因素是男女比这一项
50、,最小的是教育这一项.(3)最后,运用变系数模型对2007年的人口自然增长率进行预测,得出的预测值为3.9367,与实际值之间的误差是很小的.且其拟合效果明显优于一般线性回归模型.本文主要研究了变系数模型及其应用,在应用方面,本文的研究是很肤浅的,但是变系数模型的应用是很广泛的,而且也不可避免的存在许多有待解决的问题,具体体现在:(1)在用变系数模型分析研究多个变量的时间序列问题时,如何有效地选择能够显著解释被解释变量的问题还有待研究.(2)在非参数回归中,各解释变量之间的共线性问题也是一个需要考虑的问题.(3)光滑参数的选择,运用严格的数学理论进行证明也是进一步需要研究的问题.(4)影响某个
51、地区人口自然增长率的因素的重要程度是不同的,对不同的地区及不同的时间,人口自然增长率的预测模型都可能是不同的.因此,对特定的地区特定的时间段如何选择合适的模型也是一个需要研究的问题.参考文献1李永胜.人口预测中的模型选择与参数认定J.财经科学,2004,2:68-72.2 李华中.Logistic模型在人口预测中的应用J.江苏石油化工学院学报,1998,10(2):32-34.3 阿拉腾图雅,金良.人口预测模型J.内蒙古科技与经济,1999,4:21-27.4 郝永红,王学萌.灰色动态模型及其在人口预测中的应用J.数学的实践与认识,2002,32(5):813-820.5 熊建平,吴建华,万国
52、金.AR模型在人口增长预测中的应用J.计算机与现代化,2005,10:11-126 叶阿忠.非参数计量经济学M.天津:南开大学出版社,2003:39-82.7Huber,P. J. (1985). Projection pursuit (with discussion). Ann. Statist, 13, 435-525.8Li, K.-C. (1991). Sliced inverse regression for dimension reduction (withdiscussion). J. Amer. Statist. Assoc.,86, 316-342.9Hardle, W. a
53、nd Stoker, T. M. (1989). Investigating smooth multiple regression by the method of average derivatives. J. Amer. Statist. Assoc., 84, 986-995.10Hastie, T. J., and Tibshirani, R. J. (1990), Generalized Additive Models, London: Chapman and Hall.11Hastie, T. J. and Tibshirani, R. J. (1993). Varying-coe
54、±cient models. Jour. Roy. Statist. Soc.B., 55, 757-796.12Fan, J. and Zhang, W. (1999). Statistical estimation in varying coe±cient models. Ann. Statist.,27, 1491-1518.13Wahba, G. (1984). Partial spline models for semiparametric estimation of functions of several variables. In Statistical A
55、nalysis of Time Series, Proceedings of the JapanU.S. Joint Seminar,Tokyo, 319329. Institute of Statistical Mathematics, Tokyo.14Jianqing Fan and Wenyang Zhang Statistical Estimation in Varying-Coefficient ModelsJ . Ann. Volume 27, Number 5 (1999):1491-1518.15CLEVELAND W S,GROSSSE E,SHYU W M.Local Regression Model A.CHAMBERSJM,HASTIETJ.StatisticalModelsinS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 猎户座介绍教学课件
- 狼性团队培训
- 2026年智能遮阳风雨感应器项目公司成立分析报告
- 2025年西藏中考语文真题卷含答案解析
- 《铁路路基工程施工质量验收标准》试题含答案
- 物业公司保洁部年终工作总结
- 2025年注册安全工程师安全评价专项试卷(含答案)
- 污水处理知识试题题库及答案
- 《2025年企业人力资源管理师(三级)技能操作试卷含答案》
- 楼承板施工方案
- 内镜院感培训课件
- 2026中征(北京)征信有限责任公司招聘13人考试题库附答案
- 期末重点易错知识点复习(课件)-2025-2026学年一年级上册数学北师大版
- 2026年杨凌职业技术学院单招职业技能考试题库含答案详解
- 2025云南昆明元朔建设发展有限公司第二批收费员招聘9人笔试考试参考题库及答案解析
- 国开本科《国际法》期末真题及答案2025年
- 2025年榆林神木市信息产业发展集团招聘备考题库(35人)及完整答案详解1套
- 2025新疆能源(集团)有限责任公司共享中心招聘备考题库(2人)带答案详解(完整版)
- 2026年中考作文备考之10篇高分考场范文
- 2025年自考专业(学前教育)真题附完整答案
- 比亚迪维修试车协议书
评论
0/150
提交评论