版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
时间序列的模型法和数据挖掘两种方法比较分析研究实验目的:通过实验能对时间序列的模型法和数据挖掘两种方法的原理和优缺点有更清楚的认识和比较.实验内容:选用1952-2006年的中国GDP,分别对之用自回归移动平均模型(ARIMA)和时序模型的数据挖掘方法进行分析和预测,并对两种方法的趋势和预测结果进行比较并给出解释.实验数据:本文研究选用1952-2006年的中国GDP,其资料如下日期国内生产总值(亿元)日期国内生产总值(亿元)2006-12-312094071997-12-31747722005-12-311830851996-12-3168593.82004-12-311365151995-12-3158478.12003-12-31116898.41994-12-3145005.82002-12-31105172.31993-12-3134634.42001-12-3197314.81992-12-3126638.12000-12-31894041991-12-3121617.81999-12-31820541990-12-3118547.91998-12-31795531989-12-3116909.21988-12-3114928.31969-12-311937.91987-12-3111962.51968-12-311723.11986-12-3110202.21967-12-311773.91985-12-318964.41966-12-3118681984-12-3171711965-12-311716.11983-12-315934.51964-12-3114541982-12-315294.71963-12-311233.31981-12-314862.41962-12-311149.31980-12-314517.81961-12-3112201979-12-314038.21960-12-3114571978-12-313624.11959-12-3114391977-12-313201.91958-12-3113071976-12-312943.71957-12-3110681975-12-312997.31956-12-3110281974-12-312789.91955-12-319101973-12-312720.91954-12-318591972-12-312518.11953-12-318241971-12-312426.41952-12-316791970-12-312252.7表一国内生产总值(GDP)是指一个国家或地区所有常住单位在一定时期内生产活动的最终成果。这个指标把国民经济全部活动的产出成果概括在一个极为简明的统计数字之中为评价和衡量国家经济状况、经济增长趋势及社会财富的经济表现提供了一个最为综合的尺度,可以说,
它是影响经济生活乃至社会生活的最重要的经济指标。对其进行的分析预测具有重要的理论与现实意义。实验步骤:1.选用1952年到2001年这50个数据参与自回归移动平均模型(ARIMA)建模(所用的工具是Eviews).根据博克斯-詹金斯提出的建模思想,具体步骤为:对原序列进行平稳性检验。在以年份为横轴,以山东省GDP为纵轴的坐标系中作曲线图如图1所示。图一从图1中可以看出全国的GDP不具有明显的周期变化和季节波动,但呈现出明显的增长趋势,他的相关系数和偏相关系数如图二所示Date:02/24/08Time:15:16Sample:19522001Includedobservations:50ACPACQ-StatProbAutocorrelationPartialCorrelationI■」|ACPACQ-StatProbI■」|匚|匚i匚i匚212223240.8970.89742.6530.0000.794-□.□5276.766□.□□□0.692-0.048103.290.0000.584-0.097122.570.0000.475-□.□73135.60□.□□□0.369-0.060143.630.0000.275-0.009148.210.0000.2040.044150.780.0000.150□.□28152.21□.□□□0.109□.□13152.980.076-0.016153.370.0000.047-□.□31153.520.019-□.□41153.54□.□□□0.007-0.025153.540.0000.0280.000153.600.0000.046-0.005153.760.0000.063154.08□.□□□0.077-0.006154.550.0000.088-0.014155.210.0000.099-□.□22156.05□.□□□0.109-0.024157.120.0000.119-0.021158.420.0000.128-0.018160.000.0000.136-0.016161.850.000从图二中可以看到,他的自相关系数是拖尾的,而偏相关系数是截尾的。对样本数据用ADF进行单位根检验的到结果如图三AugmentedDickey-FullerUnitRootTestonGDPADFTestStatistic0.8946271%CriticalValue*-3.57135%CriticalValue-2.922810%CriticalValue-2.5990*MacKinnoncriticalvaluesforrejectionofhypothesisofaunitroot.图三这里ADF值大于三个不同检验水平下的临界值,故而可以判断出,我国GDP序列是非平稳的。这就需要对GDP序列进行差分以使序列变得平稳。由图一可以看出,GDP序列明显带有指数性质,因此现对该序列进行对数变换在eviews中输入genrlngdp=ln(gdp)生成新的序列lngdp,并对新序列进行平稳性检验。Lngdp的相关系数和偏相关系数如图四所示,CqiteDate:02/24/08Time:22:36Sample:19522001Includedobservations:50AutocorrelationPartialCorrelationACPACQ-StatProbI11110.9390.93946.7970.000I11120.878-0.03588.5320.000I111130.815-0.049125.230.000I111140.749-0.054156.940.000I11150.683-0.041183.880.000I111160.615-0.055206.230.000I1170.550-0.017224.520.000I1180.489-0.008239.300.000I11190.431-0.014251.060.000I1111100.373-0.043260.080.000I二11110.315-0.039266700.000I11120.260-0.031271.310.000I■i11130.206-0.027274.300.000I■i11140.156-0.019276.050.000IJi11150.110-0.006276.950.000I1i111160.064-0.043277.260.000I11111170.018-0.046277.280.000I11118-0.0220.001277.320.000I[11119-0.0560.005277.590.000I[11120-0.088-0.023278.260.000I111121-0.119-0.035279.540.0001匚11122-0.149-0.031281.610.0001匚11123-0.178-0.034284.670.0001匚11124-0.204-0.025288.850.000图四对lngdp用ADF进行单位根检验的结果如图五AugmentedDickey-FullerUnitRootTestonLNGDPADFTestStatistic1.2510231%CriticalValue*-3.5713*5%CriticalValue-2.922010%CriticalValue-2.5990*MacKinnoncriticalvaluesforrejectionofhypothesisofaunitroot.图五这里lngdp的ADF变成了1.251,依然大于三种不同检验水平下的临界值。从中可以看出,对GDP序列进行对数处理后,序列lngdp序列依然不平稳。需要再对lngdp序列进行差分处理。在eviews中输入genrdlngdp=d(lngdp)生成新序列dlngdp。并对dlngdp进行平稳性分析。其自相关系数和偏自相关系数如图六所示CorrelDate:02/24/00Time:23:04Sample:19522001Includedobsen/ations:49AutocorrelationPartialCorrelationACPACQ-StatProb1i|10.5760.57617.2780.0001■i|匚i20.183-0.22219.0660.0001[i1i3-0.049-0.07019.1950.000111□<40.0030.17019.1950.0011■liO50.2080.21021.6590.0011_1i1i60.3160.06027.4490.0001i1i70.2900.06432.4610.000111|匚i80.084-0.11932.8080.00011i1i90.0050.10132.8900.000111i1i100.0340.04032.9630.00011|匚|110.018-0.17532.9040.00111|1|12-0.021-0.09633.0130.00111|■|130.0200.14633.0420.00211|1|140.019-0.06933.0670.00311111150.0370.01533.1650.004111l・116-0.085-0.22333.7140.0061匚11117-0.1470.01935.3940.0061匚11118-0.177-0.00537.9150.0041111119-0.117-0.01039.0480.004111日120-0.096-0.21639.8410.005图六其ADF检验如图六AugmentedDickey-FullerUnitRootTestonDLNGDPADFTestStatistic-3.8683911%CriticalValue*-3.57455%CriticalValue-2.924110%CriticalValue-2.5997^MacKinnoncriticalvaluesforrejectionofhypothesisofaunitroot.图六这是ADF值为-3.87小于在1%校验水平下的临界值,即可以得出dlngdp序列为平稳序列的结论。通过计算能够描述序列特征的一些统计量(如自相关系数或非自相关系数),来确定ARMA模型的结束p和q,并初始计算时选择尽可能少的参数。从dlngdp序列的自相关系数和偏自相关系数图中可以看出,该序列可以用ARMA模型来表示,且由于自相关系数与偏自相关系数都是一阶截尾的,故取p=1,q=1,采用ARIMA(1,1)模型。第三步,估计模型的未知参数,并检验参数的显著性,以及模型本身的合理性。在eviews中输入lsdlngdpcAR(1)MA(1)得到结构如图七所示DependentVariable:DLNGDPMethod:LeastSquaresDate:02/24/08Time:23:49Sample(adjustecl):19542006Includedobservations:53afteradjustingendpointsConvergenceachievedafter41iterationsBackcast:1953VariableCoefficientStd.Errort-StatisticProb.C0.1026040.0202065.0779430.0000AR⑴0.3582530.2114321.6944130.0964MA⑴0.3238630.2253711.4370230.1569R-squared0.358230Meandependentvar0.104488AdjustedR-squared0.332559S.D.dependentvar0.087466S.E.ofregression0.071457Akaikeinfocriterion-2.384510Sumsquaredresid0.255303Schwarzcriterion-2.272984Loglikelihood66.18952F-statistic13.95475Durbin-Watsonstat1.887874Prob(F-statistic)0.000015InvertedARRoots.36InvertedMARoots-.32图七从图中可以看出,估计出的方程模型C值,AR(1)值的可信度较高,而MA(1)的估计值可信度相对低一些。总体方程具有很高的可信度。对模型进行残差序列分析得到如图八所示
CorrelogramofRESIDDate:02/25/08Time:10:49Sample:19522008Includedobservations:53AutocorrelationPartialCorrelationACPACQ-StatProb11|10.0270.0270.03950.84211|11120.0620.0610.25600.8801匚1匚13-0.201-0.2052.60620.45611114-0.012-0.0042.61520.6241]11J150.0850.1173.05250.6921J111160.1160.0733.88960.6921□11□l70.1950.1826.30450.505111180.0020.0206.30470.61311119-0.041-0.0346.41600.6981111■l100.1130.1967.28560.6931]1111110.0440.0337.41810.764111匚112-0.032-0.1287.49120.8241]11□1130.0940.1398.12340.8351111114-0.021-0.0398.16060.8811J1111150.1250.0629.35900.8581匚1匚116-0.132-0.11610.7310.826111111170.030-0.06110.8020.8671匚|L118-0.116-0.08811.9180.8511111119-0.013-0.03611.9340.8881]1111200.048-0.02312.1410.91111匚121-0.043-0.10612.3070.931111111220.0400.04912.4570.9471[11123-0.070-0.02012.9370.953|E1■124-0.101-0.13113.9530.943图八最右侧Probe列中的数字表示相应自由度条件下卡方统计量取值大于相应Q值的概率。因为这一列概率值都大于0.05,说明模型的随机误差序列是一个白噪声序列。模型均值及自相关系数的估计都通过显著性检验,模型本身也通过了残差自相关检验。因此模型可以用来预测。则,该方程的表达式为:rt=0.358rt_1+0.103+at_0.324at_12用时序算法的数据挖掘方法对数据进行挖掘(选取1952-2001年的数据),得到趋势图.具体步骤为:创建数据仓库创建数据源和数据视图,搭建挖掘环境对已经建
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年阜新高等专科学校单招(计算机)测试备考题库及答案1套
- 2026年鄂州职业大学单招(计算机)测试模拟题库附答案
- 2026年陕西艺术职业学院单招综合素质考试题库及答案详解一套
- 2026年鹤壁汽车工程职业学院单招职业适应性考试题库附答案
- 2025湖南岳阳市岳阳楼区卫健系统事业单位招聘23人(公共基础知识)测试题附答案解析
- 2026年乐山职业技术学院单招职业倾向性测试题库及答案详解一套
- 2026年锦州师范高等专科学校单招职业技能测试模拟测试卷附答案
- 2026年重庆工贸职业技术学院单招职业技能测试题库带答案详解
- 2026年濮阳职业技术学院单招(计算机)测试备考题库及答案1套
- 2026年郑州旅游职业学院单招职业技能考试题库附答案
- 医院四级电子病历评审汇报
- 医院收费主任年终工作总结
- 全球卫生导论
- 骨科伤口感染护理查房
- 玉米种宣传课件
- 2026年高考英语专题复习:必背近10高考英语高频词汇表
- 肿瘤病人疼痛护理
- DB64-T 2120-2025 托育机构安全防范管理指南
- 沪科版九年级物理各单元测验卷(全一册含解析)
- 贷款装修协议合同
- DBJ50- T-445-2023建筑边坡工程监测技术标准
评论
0/150
提交评论