2014年sas大赛第三题_第1页
2014年sas大赛第三题_第2页
2014年sas大赛第三题_第3页
2014年sas大赛第三题_第4页
2014年sas大赛第三题_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

题目:数据集timeser_com中存放着某地区每个电信基站的通话时长和短信包信息。date代表时间变量,Cell代表基站编码,tcherl和sms分别代表通话和短信量。问题如下:(1)根据date创建时间变量date_new;(2)清理数据,根据CELL和date_new变量剔除重复记录,对tcherl和sms使用三次样条曲线进行插值;(3)ARIMA过程步识ARIMA(p,d,q)滞后阶数并简要说明确定该模型的原因(提示:通过单位根检验检验差分阶数的合理性);(4)估计得到的模型系数,对每个基站的tcherl和sms两个变量进行向前30步的预测数据。解答:(1) 程序:data timese; set voice; date_new= input(put(date,8.),yynndd8.) ; format date date9.; run;原数据集 新建的date_new变量(2) 删除重复记录:程序:proc sort data = timese out = timese; by date cell; run; data times_new; set timese; by date cell; if first.cell then delete; run; 三次插值(考虑站点cell=D37C072)频数分布情况:程序:proc freq data=times_new; table cell; run; D37C0631330.0498673.15D37C0712140.07100813.22D37C0722140.07102953.29D37C0732140.07105093.36D37C0811330.04106423.40D37C0821330.04107753.44D37C0831330.04109083.48三次插值:程序:proc iml; a = shape(1,226,1); create dates from acolname=date_new; append from a; run; quit; data dates; set dates; date_new= intnx(day,04may09d,_n_-1) ; format date_new date9.; run; proc sql ; create table date_new as select date_new from dates where date_new not in (select date_new from date); run; data date_new; set date_new date; run; proc sort data=date_new; by date_new; run; proc expand data = date_new out=date_new2 method=spline; id date_new; run; 未插值前数据: 插值之后:(3) 程序:proc gplot data=data_f; plot tcherl*time; symbol color=red L=1 i=spline; run; Tcherl*time;程序:proc arima data=data_f; identify var=tcherl; run; data data_f; set data_f; z=dif(tcherl); run; 可以看出自相关函数出现缓慢衰减,而且后面的值并没有在两倍标准误差的范围内所以不认为它是平稳的序列从偏自相关函数可以看出7阶截断,P0.05,拒绝原假设,所以认为它是非白噪声序列,即对序列建模是有意义的。可以发现AR6,MA6的值3.687501最小,ARMA(6,6)的BIC信息量最小,所以选择ARMA(5,6)模型拟合原序列由于是非平稳的 所以做一阶差分程序:data data_f; set data_f; z=dif(tcherl); run; proc gplot data=data_f; plot tcherl*time=1 z*time=2/overlay; symbol1 c=red l=1 i=spline; symbol2 c=green l=1 i=spline; run; 程序:proc arima data=data_f; identify var=tcherl(1); run;、检验其自相关函数,偏自相关函数、发现自相关函数下降的很快,很快接近于零,而且lag=3后面的值基本落在2倍标准误差里面,所以可以认为是平稳的。而且是非白噪声序列Proc arima data_f;Identify var=tcherl stationarity=(adf=1);run;ADF检验中,三个模型只要有一个拒绝原假设,就可以认为序列式平稳的;显然后面两个模型,P值0.05,所以残差序列是白噪声序列,说明模型提取信息是充分的。即ARIMA(6,1,0)是适应的。最后写出这个模型:程序: proc arima data=data_f; identify var=tcherl(1) minic p=(0:6) q=(0:6); estimate p=6 method=cls; forecast lead=30 id=time out=result; run; 程序:proc gplot data=result1; plot for

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论