基于回归分析的人口预测_第1页
基于回归分析的人口预测_第2页
基于回归分析的人口预测_第3页
基于回归分析的人口预测_第4页
基于回归分析的人口预测_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计系课程实验论文 基于回归分析的人口数量预测 学学 号 号 2014962005 姓姓 名 名 李洋 年年 级 级 2014 级 专专 业 业 统计学 课课 程 程 回归分析 指导教师 指导教师 姜喜春 完成日期 完成日期 2016 年 6 月 19 日 目 录 摘 要 I 前 言 1 第 1 章 一元线性回归 2 1 1 指标的选择 2 1 2 样本确定 2 1 3 一元回归分析 3 1 3 1 绘制总人口与粮食产量的散点图 3 1 3 2 设定理论模型 4 1 3 3 回归诊断 4 第 2 章 多元线性回归 5 2 1 数据中心化标准化 5 2 2 多元回归模型建立 5 2 3 逐步回归法 6 2 4 多重共线性 7 2 3 1 多重共线性检测 8 2 4 主成分分析 9 2 4 1 主成分分析模型建立 9 第 3 章 非线性模型 11 3 1 曲线回归 11 3 1 1 曲线拟合 11 3 2 Logistic 模型 13 结 论 15 参考文献 16 摘 要 回归分析法是在掌握大量观察数据的基础上 利用数理统计方法建立因变量与 自变量之间的回归关系函数表达式 称回归方程式 同时依据事物发展变化的因果 关系来预测事物未来的发展走势 它是研究变量间相互关系的一种定量预测方法 又称回归模型预测法或因果法 应用于经济预测 科技预测和企业人力资源的预测 等 回归分析可以说是统计学中内容最丰富 应用最广泛的分支 这一点几乎不带 夸张 包括最简单的 t 检验 方差分析也都可以归到线性回归的类别 而卡方检验 也完全可以用 logistic 回归代替 众多回归的名称张口即来的就有一大片 线性回归 logistic 回归 cox 回归 poission 回归 probit 回归等等 关键词关键词 线性回归 非线性回归 logistic 回归 前 言 最早的形式回归的方法是最小二乘法 这是在 1805 年出版的勒让德 和高斯 在 1809 年 勒让德和高斯都采用的方法确定的问题 从天文观测 有关 Sun 的机 构 主要是彗星 但后来也新发现的小行星 的轨道 1821 年 高斯发表最小二 乘法理论的进一步发展 在包括高斯 马尔可夫定理的一个版本 弗朗西斯 高尔顿在十九世纪的 回归 是杜撰来描述一种生物现象 这种现象是 高度高大的祖先的后代往往倒退下来 对一个正常的平均水平 这种现象也被称为 向均值回归 对高尔顿 回归只有这个生物意义 Udny 圣诞节和皮尔逊但他的 工作 后来扩展到更一般的统计范围内 在圣诞节和 Pearson 工作的响应和解释 变量的联合分布被假定为高斯 这个假设 RA 费舍尔在 1922 年和 1925 年 他的 作品被削弱 费舍尔认为的响应变量的条件分布为高斯分布 但联合分布不一定要 在这方面 费舍尔的假设是高斯 1821 年制定的 在 20 世纪 50 年代和 20 世纪 60 年代 经济学家旧机电台计算器 计算回归 1970 年以前 有时长达 24 小时接收从一个回归的结果 回归方法继续是一个活跃的研究领域 在最近的几十年中 新的方法已经制定了稳 健回归 回归涉及的相关反应 如时间序列 曲线和增长曲线 回归的预测或响应 变量的曲线 图片 图表或其他复杂的数据对象 容纳不同的回归方法丢失的数据 非参数回归 贝叶斯方法进行回归 回归的预测变量的测量误差 预测变量的观 测回归 回归和因果关系的推论与类型 第 1 章 一元线性回归 1 1 指标的选择 影响人口增长的主要因素经济因素 经济因素对人口自然增长的作用主要表现 在它决定了人口的增殖条件和生存条件 通过改变人口的出生率和死亡率来影响人 口的自然增率 一般情况下 当人口数量不能满足经济发展对劳动力的需求时 人 口自身的再生产必将会刺激 当人口数量超越了经济发展所能提供的消费总数后 人口自身的再生产必将受到遏制 在现代生产力水平下 人口的自然增长率往往随 着经济水平的提高而下降 经济因素对人口机械增长也有重要影响 通常情况下 经济发达或发展速度较快的地区 对人口具有一种吸引力和凝聚力 人口机械增长 为正值 相反 经济落后或经济发展速度缓慢的地区 对人口会产生一种排斥力和 离散力 人口机械增长一般为负值 与此同时粮食产量 出生率 死亡率 也是影 响人口增长的因素 符号说明 用 表示粮食产量 GDP 出生率 死亡率 表示 1 x 2 x 3 x 4 xy 总人口 1 2 样本确定 通过查阅中国政府网 得到了 1980 年到 2014 年各因素的数据 表 1 1 样本数据 年份 粮食产量 万吨 GDP 亿元 出生率 死亡率 总人口 万人 201460702 61635910 212 377 16136782 201360193 84588018 812 087 16136072 201258957 9753412312 17 15135404 201157120 85484123 511 937 14134735 201054647 7140890311 97 11134091 200953082 08345629 211 957 08133450 200852870 92316751 712 147 06132802 200750160 28268019 412 16 93132129 200649804 23217656 612 096 81131448 200548402 19185895 812 46 51130756 200446946 95160714 412 296 42129988 200343069 53136564 612 416 4129227 200245705 7512100212 866 41128453 200145263 67110270 413 386 43127627 200046217 5299776 314 036 45126743 199950838 5890187 714 646 46125786 199851229 5384883 715 646 5124761 199749417 179429 516 576 51123626 199650453 571572 316 986 56122389 199546661 861129 817 126 57121121 199444510 148459 617 76 49119850 199345648 835524 318 096 64118517 199244265 827068 318 246 64117171 199143529 321895 519 686 7115823 199044624 318774 321 066 67114333 198940754 917090 321 586 54112704 198839408 115101 122 376 64111026 198740297 712102 223 336 72109300 198639151 210308 822 436 86107507 198537910 89039 921 046 78105851 198440730 57226 319 96 82104357 198338727 55975 620 196 9103008 198235450533322 286 6101654 1981325024898 120 916 36100072 198032055 54551 618 216 3498705 1 3 一元回归分析 定义定义 1 1 回归分析 regression analysis 是确定两种或两种以上变量间相互依赖 的定量关系的一种统计分析方法 如果在回归分析中 只包括一个自变量和一个因 变量 且二者的关系可用一条直线近似表示 这种回归分析称为一元线性回归分析 1 3 1 绘制总人口与粮食产量的散点图 图 1 1 粮食产量与总人口散点图 1 3 2 设定理论模型 根据图 1 1 随着粮食产量的增加 总人口的数量增加 且各样本点大致落在一 条直线附近 故可以采用公式 1 1 01 yx 一元线性回归理论模型 对数据进行一元回归分析 1 3 3 回归诊断 表1 1 模型摘要 模型 R R 平方調整後 R 平方標準偏斜度錯誤 1 909a 826 8214985 99669 a 預測值 常數 粮食产量 万吨 根据表 1 1 模型摘要表可以看到 说明以粮食产量为唯一因变量与0 909r 总人口的拟合程度很高 表1 2 系数 非標準化係數標準化係數 模型 B 標準錯誤 BetaT 顯著性 常數 53054 4045500 0139 646 0001 粮食产量 万吨 1 468 117 90912 513 000 a 應變數 人口 万人 根据表 1 2 系数表 将系数带入公式 1 1 可得出回归模型公式 53054 404 1 468yx 用一元回归模型对 2014 年的总人口进行预测 的到的预测值 142165 8355y 第 2 章 多元线性回归 定义定义 2 1 在回归分析中 如果有两个或两个以上的自变量 就称为多元回归 事实上 一种现象常常是与多个因素相联系的 由多个自变量的最优组合共同来预 测或估计因变量 比只用一个自变量进行预测或估计更有效 更符合实际 2 1 数据中心化标准化 数据中心化和标准化在回归分析中的意义是取消由于量纲不同 自身变异或者 数值相差较大所引起的误差 图 2 1 标准化结果 2 2 多元回归模型建立 多元回归模型公式 01 122 pp yxxx 对数据进行多元回归分析 结果如图 2 2 表2 1 模型摘要 模型 R R 平方調整後 R 平方標準偏斜度錯誤 1 972a 944 9362967 56830 a 預測值 常數 死亡率 出生率 粮食产量 万吨 GDP 亿元 表2 2 變異數分析a a 模型平方和 df 平均值平方 F 顯著性 迴歸 4448849243 98441112212310 996126 295 000b 殘差 264193847 616308806461 587 1 總計 4713043091 60034 a 應變數 人口 万人 b 預測值 常數 死亡率 出生率 粮食产量 万吨 GDP 亿元 表2 3 係數a 非標準化係數標準化係數 模型 B 標準錯誤 BetaT 顯著性 常數 124574 66721501 7295 794 000 粮食产量 万吨 1 045 152 6476 893 000 GDP 亿元 005 008 078 635 531 出生率 1460 798262 207 496 5 571 000 1 死亡率 4060 2723649 700 091 1 112 275 a 應變數 人口 万人 根据表 2 1 可知 R 0 972 拟合度高 所以能用该模型进行预测 同时模型的检 验 P 值 sig10 表明可能存在多重共线性 3 在相关系数矩阵中 死亡率数值接近 1 可能存在多重共线性 表2 6 排除共线性变量后的係數a 非標準化係數標準化係數共線性統計資料 模型 B 標準錯誤 BetaT 顯著性允差 VIF 常數 165146 3883543 31346 608 0001 出生率 2687 949210 086 912 12 794 0001 0001 000 常數 108407 8058355 07212 975 000 出生率 1534 270211 155 521 7 266 000 4002 502 2 粮食产量 万吨 816 116 5057 052 000 4002 502 常數 134678 87814308 5429 412 000 出生率 1366 202213 615 464 6 396 000 3492 868 粮食产量 万吨 1 012 141 6267 184 000 2414 146 3 死亡率 5681 5572580 897 127 2 201 035 5531 808 a 應變數 人口 万人 根据表 2 6 剔除 GDP 这一变量后 其余变量的 VIF 全部小于 10 排除变量间 存在多重共线性的原因 不需要再次剔除变量 得到剔除共线性后的多元线性回归 方程 134 134678 878 1 0121366 2025681 557yxxx 2 4 主成分分析 定义定义 2 4 主成分分析 Principal Component Analysis PCA 是一种统计方 法 通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量 转 换后的这组变量叫主成分 在实际课题中 为了全面分析问题 往往提出很多与此有关的变量 或因素 因为每个变量都在不同程度上反映这个课题的某些信息 主成分分析首先是由 K 皮尔森对非随机变量引入的 尔后 H 霍特林将此方法推 广到随机向量的情形 信息的大小通常用离差平方和或方差来衡量 主成分分析的 主要原理是寻找一个适当的线性变换 1 将彼此相关的变量转变为彼此独立的新变量 2 方差较大的几个新变量就能综合反应原多个变量所包含的主要信息 3 新变量各自带有独特的专业含义 住成分分析的作用是 1 减少指标变量的个数 2 决多重相关性问题 2 4 1 主成分分析模型建立 运用 SPSS 22 0 对数据进行主成分分析 表2 7 各变量所占权重 起始特徵值擷取平方和載入 元件總計變異的 累加 總計變異的 累加 13 04076 00476 0043 04076 00476 004 2 72718 17694 179 3 1523 79397 972 4 0812 028100 000 擷取方法 主體元件分析 根据主成分分析结果可以看出前两个变量所占比重最多 二者的和所占比例为 所以可以采用前两个变量建立回归模型 94 18 表2 8 回归係數a 非標準化係數標準化係數 模型 B 標準錯誤 BetaT 顯著性 常數 53075 7119733 1915 453 000 粮食产量 万吨 1 468 235 9086 252 000 1 GDP 亿元 2 494E 5 009 000 003 998 a 應變數 人口 万人 根据表 2 8 得到回归方程 5 12 53075 711 1 4682 494 10yxx 根据回归方程预测出 2014 年人口万人 142180 52727y 因为 1 主成分分析中 我们首先应保证所提取的前几个主成分的累计贡献率达到 一个较高的水平 即变量降维后的信息量须保持在一个较高水平上 其次对这 些被提取的主成分必须都能够给出符合实际背景和意义的解释 否则主成分将空 有信息量而无实际含义 2 主成分的解释其含义一般多少带有点模糊性 不像原始变量的含义那么清 楚 确切 这是变量降维过程中不得不付出的代价 因此 提取的主成分个数 通常应明显小于原始变量个数 除非本身较小 否则维数降低的 利 可mpp 能抵不过主成分含义不如原始变量清楚的 弊 所以预测的结果出现了更大的误差 第 3 章 非线性模型 3 1 曲线回归 定义定义 3 1 非线性回归是在掌握大量观察数据的基础上 利用数理统计方法 建立因变量与自变量之间的回归关系函数表达式 称回归方程式 回归分析中 当研究的因果关系只涉及因变量和一个自变量时 叫做一元回归分析 当研究的 因果关系涉及因变量和两个或两个以上自变量时 叫做多元回归分析 确定两个变数间数量变化的某种特定的规则或规律 估计表示该种曲线关系 特点的一些重要参数 如回归参数 极大值 极小值和渐近值等 为生产预测或 试验控制进行内插 或在论据充足时作出理论上的外推 3 1 1 曲线拟合 对国内总人口的拟合 选取总人口指标为因变量 单位为万人 拟合总人口 关于时间 t 的趋势曲线 以 1980 年为基准年 取值为 2014 年 1t 35t 绘制总人口与变量 的散点图 如图 3 1 所示 t 图 3 1 总人口对 的散点图t 从散点图可以看到 总人口大致符合三次函数形式 当人口的增长速度大致 相同时 其趋势线就是三次函数形式 图 3 2 拟合曲线图 通过观察图 3 2 发现三次曲线模型拟合度最好 其次为线性和复合模型 故根据公式 23 0123 ybbtb tb t 建立三次曲线模型 表3 1 模型摘要 R R 平方調整後 R 平方標準偏斜度錯誤 1 000 999 999365 498 自變數為 时间 表3 2 變異數分析 平方和 df 平均值平方 F 顯著性 迴歸 4708901835 39031569633945 13011749 732 000 殘差 4141256 21031133588 910 總計 4713043091 60034 自變數為 时间 表3 3 三次曲线系数 非標準化係數標準化係數 B 標準錯誤 BetaT 顯著性 时间 1849 09465 5011 60928 230 000 时间 2 17 6834 196 571 4 214 000 时间 3 070 077 076 908 371 常數 96103 588276 157348 004 000 根据图表 3 1 得到三次函数模型的 说明拟合程度非常好 同时1 000R 根据表 3 2 可知 方程整体都通过了显著性检验 根据表 3 3 可知 不但方程整 体通过了显著性检验 每个不同次幂的 也经过了显著性检验 所以建立的三次t 方程式完全符合实际情况的 根据第三个表建立出三次函数方程 23 1849 09417 6830 077yttt 同时得出 2014 年预测值万人 预测值与真实值相差 136174 94841y 万人 607 0516e 预测值与真实值相差程度远小于运用线性多元回归方法 逐步回归法和主成分分析后 的预测值与真实值之间的差异 进一步证明建立的三次函数模型符合实际情况 3 2 Logistic 模型 Logistic 模型增长公式为 1 a bt tm ppe 其中为时刻的人口总数 为人口极限规模 为自然对数的底 为时刻 t p m pet 长度 为待定参数 ab Logistic 模型考虑到人口总数增长的有限性 提出了人口总数增长的规律即随着 人口总数的增长 人口增长率逐渐下降 但对于在短期内如 30 50 年内人口增长可 能呈上升趋势如人口生育率上升 死亡率下降等原因而导致人口呈上升趋势 Logistic 模型在应用中对时间长 人口数据变化大 因此误差较大且不稳定 而小城 镇人口的变化就存在人口数据变化较大的特点 所以 Logistic 模型对小城镇人口的 预测并不适合 用对人口进行 Logistic 曲线拟合 运用命令 x 2014 2013 2012 2011 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 1990 1989 1988 1987 1986 1985 1984 1983 1982 1981 1980 y 136782 136072 135404 134735 134091 133450 132802 132129 131448 130756 129988 129227 128453 127627 126743 125786 124761 123626 122389 121121 119850 118517 117171 115823 114333 112704 111026 109300 107507 105851 104357 103008 101654 100072 98705 x x y y st 2000 127627 1 在 x y 内任意取的数 ft fittype a 1 b exp k x 1980 dependent y independent x coefficients a b k cf fit x y ft Startpoint st 最后运行出的结果 cf General model cf x a 1 b exp k x 1980 Coefficients with 95 confidence bounds a 1 217e 005 1 144e 005 1 29e 005 b 1 176e 005 4 741e 009 4 742e 009 k 13 21 4 032e 004 4 035e 004 根据运行结果 得到 Logistic 拟合方程 1 217005 1 176005 exp 13 21 1980 1 y e ex 其中 a 为人口上线的估计值 因为在 1995 年人口的实际值就已经超过了预 测上限 所以该模型不是和用于预测未来的人口 造成模型不准确的原因主要是 数据过少 且人口数据多数来自抽样调查 数据本身存在一定误差 结 论 通过不同的模型建立方法对获得的人口数据建立了多个不同的预测模型 经过 对比发现三次曲线模型是最符合实际运用的 导致其他模型不适用的原因主要为 1 目前我国的人口出生率低 死亡率低 自然增长率低 这表明我国将进入 低 低 低 现代人口再生产类型的行列 即我国今后的人口数量趋势大致会成 为一条水平线 2 自 20 世纪 70 年代初期大力推行计划生育政策以来 中国人口过快增长的 势头得到了有效遏制 由于中国人口基数大 青少年的比重较高 在今后一段较长 的时期内 人口总量还将持续增长 在经历高峰期后 人口总数才会呈缓慢下降的 趋势 本次分析采用的数据为 1980 年到 2014 年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论