ARMA模型在传染病预测中的应用_第1页
ARMA模型在传染病预测中的应用_第2页
ARMA模型在传染病预测中的应用_第3页
ARMA模型在传染病预测中的应用_第4页
ARMA模型在传染病预测中的应用_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、贵州民族学院毕业论文目 录引言1第1章 arma模型21.1 定义21.2 建模步骤31.3 数据的处理31.4 模型的识别、定阶与参数估计3第2章 实证分析42.1 平稳性检验42.2 白噪声检验52.3模型拟合62.4模型择优112.4.1 根据信息量准则择优112.4.2 预测值与实际值的比较112.5对2010年发病率的预测12第3章 小结与讨论13成果声明14参考文献15附录:1619贵州民族学院统计学专业毕业论文:arma模型在传染病预测中的应用arma模型在传染病预测中的应用张齐兰摘要: 探讨arma模型在传染病预测中的应用,以1975年至2009年全国肾综合征出血热发病率资料为

2、例,应用平稳时间序列分析方法,选用条件最小二乘估计法,根据信息量准则aic和sbc确定arma的参数,应用sas统计软件进行数据处理,并对模型进行分析和预测。关键词: arma模型 时间序列 发病率 arma models in infectious disease prediction zhangqilanabstract:arma models of infectious disease prediction to the country from 1975 to 2009 the incidence of hemorrhagic fever with renal syndrome inf

3、ormation, for example, application of stationary time series analysis method, used conditional least squares estimation method, according to information criteria aic and sbc to determine the parameters of arma, application sas statistical software for data processing, and analysis and forecasting mo

4、del.keywords: arma model time series incidence rate 贵州民族学院统计学专业毕业论文:arma模型在传染病预测中的应用引言在医学卫生领域中,传染病发病会受到许多因素的影响,而且影响因素之间又存在着错综复杂的联系,很难运用结构式的因果模型加以解释。肾综合征出血热是20世纪30年代初被发现和认识的,是危害我国人民身体健康的重要的自然疫源性疾病1。肾综合征出血热是由hfrs病毒引起,由鼠类等传播的自然疫源性急性病毒性传染病。以往此病在中国和日本被称为流行性出血热,在朝鲜和韩国被称为朝鲜出血热,在前苏联被称为远东出血热和出血性肾炎。1980年世界卫生组

5、织将其统一命名为什综合征出血热。流行性出血热又称肾综合证出血热为我国法定乙类传染病,是由汉坦病毒引起的一组以发热、出血及肾功能损害为主要临床表现的急性自然疫源性疾病。该病主要传染源为鼠类,通过皮肤粘膜伤口、吸入被病毒污染的尘埃、食入或饮用被鼠尿、鼠粪污染的食物和水以及鼠蚤、革螨叮咬人体感染。疫区与疫源地:hfrs疫区分布相当广泛,但有其独特的地理分布特征,特别是鸡鼠型疫区,有沿水系分布的特点。以往认为多在海拔400米以下的地势低洼潮湿杂草灌木丛生的地方,但是1992年以来,研究和事实都证明了在海拔1600m以上,甚至2500米左右的高原地区或高山林地中存在有hfrs的微小疫源地,一定情况下,可

6、引起暴发流行。这为许多旅游胜地做好hfrs的防治工作提供了依据。另外,疫区尚具有相对稳定性和局限性特点。1995年国内对疫区、疫源地的统一命名如下:(1)鸡鼠型疫区;(2)家鼠型疫区;(3)混合型疫区。我国大部分地区的疫区类型为混合型疫区。传播途径:hfrs是多传播途径的,目前研究认为以气溶胶通过呼吸道传播为主要途径,其他尚其经消化道,经破损皮肤,经虫媒和垂直传播等。另外有人认为其传播途径可能为携带hfrs-v的螨被吸入肺组织内裂解释放出hfrs-v而引起感染。明确某地区hfrs流行的主要传播途径,以便采用针对性的预防措施。本文采用arma模型对全国重点防制的肾综合征出血热发病趋势进行了拟合研

7、究,为深入开展疾病预警预测奠定基础,也为制定防制策略及措施提供理论依据。第1章 arma模型1.1 定义把具有如下结构的模型称为自回归移动平均模型,简记arma(p,q):若=0,该模型称为中心化arma(p,q)模型。缺省默认条件,中心化arma(p,q)模型可简写为:默认条件与ar模型、ma模型相同。引进延迟算子,arma(p,q)模型简写为: 式中: , 为p阶自回归系数多项式。 , 为q阶移动平均系数多项式。显然,当q=0时,arma(p,q)模型就退化成了ar(p)模型;当p=0时,arma(p,q)模型就退化成了ma(q)模型.所以,ar(p)模型和ma(q)模型实际上是arma(

8、p,q)模型的特例,它们统称为arma模型。而arma(p,q)模型的统计性质也正是ar(p)模型和ma(q)模型统计性质的有机组合。1.2 建模步骤假如某个观察值序列通过序列预处理,可以判定为平稳非白噪声序列,我们就可以利用模型对该序列建模。(1)求出该观察值序列的样本自相关系数(acf)和样本偏自相关系数(pacf)的值。(2)根据样本自相关系数和偏自相关系数的性质,选择阶数适当的arma(p,q)模型进行拟合。(3)估计模型中未知参数的值。(4)检验模型的有效性。如果拟合模型通不过检验,转向步骤(2),重新选模型再拟合。(5)模型优化。如果拟合模型通过检验,仍然转向步骤(2),充分考虑各

9、种可能,建立多个拟合模型,从所有通过检验的拟合模型中选择最优模型。(6)利用拟合模型,预测序列的将来走势。1.3 数据的处理时间序列的平稳性可通过其时序图和自相关图来判断,如果观察序列的时序图显示出该序列有明显的趋势性或周期性,那它通常不是平稳序列。如果自相关函数在前面少数几个值后下降为0,则序列是平稳的;如果在前面几个值后,自相关函数没有下降为0,而是逐次减少,则序列不平稳。1.4 模型的识别、定阶与参数估计对arma(p,q)模型的阶数识别,基本采用它的统计性质(拖尾、截尾)。参数估计通常有极大似然估计、最小二乘估计、条件最小二乘估计方法,一般用aic、sbc准则。aic准则是由日本统计学

10、家akaike于1973年提出的,它的全称是最小信息量准则。它是拟合精度和参数个数的加权函数: 为了弥补aic准则的不足,akaike于1976年提出bic准则,而schwartz在1978年根据bayes理论也得出同样的判断准则,称为sbc准则: aic和sbc函数值达到最小的那个模型作为最终的拟合模型,而这样得到的最优模型就是一个相对最优模型。第2章 实证分析以1975年至2009年全国肾综合征出血热疫情报告资料2为例,数据见表1:年份发病率/10万年份发病率/10万年份发病率/10万年份发病率/10万19752.021984 8.8719933.9420022.4619761.67198

11、510.02 1994 5.1420031.6819771.80198611.0619955.302004 1.9319781.5819876.1419963.6520051.6019792.1919884.7819973.6020061.1519803.1219893.6619983.7720070.8419814.2619903.6619993.9320080.6419826.1519914.3220003.0520091.0519838.4019924.0320012.83 表1 1975-2009年全国肾综合证出血热发病率2.1 平稳性检验1、绘制1975-2009年全国肾综合证出血热

12、发病率的自相关图(见图1)。图1全国肾综合征出血热序列自相关图由自相关图(图1)知,自相关系数衰减向零的速度比较快,因而该序列是平稳序列。2.2 白噪声检验对1975-2009年全国肾综合证出血热发病率序列做白噪声检验,输出结果如下(见图2): 图2 白噪声检验结果该序列白噪声检验输出结果(图2)显示在延迟6阶下lb检验统计量的p值非常小(.0001),所以可以断定该序列属于非白噪声序列。综合序列时序图、自相关图和白噪声检验可以断定该序列是平稳非白噪声序列。因此可以对该序列拟合arma模型。 2.3模型拟合对1975-2009年全国肾综合证出血热发病率序列进行定阶,绘制自相关图、偏自相关图(见

13、图3) 图3 1975-2009年全国肾综合证出血热发病率序列自相关图、偏自相关图由自相关图及偏自相关图看出:自相关系数为2阶截尾、偏相关系数为1阶截尾。因此可以尝试拟合ar(1)、arma(1,1)、ar (2)模型。(1)选取ar (1)模型对1975-2009年全国肾综合证出血热发病率序列进行拟合,输出的结果如下:由上图可知,残差白噪声检验显示延迟6阶、12阶、18阶、24阶lb检验统计量的p值均显著大于0.05,因此该模型显著有效;在三个参数中常数项的t检验统计量的p值大于0.05,不显著,其他两个参数的t检验统计量的p值小于0.05是显著的,所以要除去常数项。(其中 aic=111.

14、1408,sbc=114.1935)ar(1)模型除去常数项后运行得如下结果:由上结果得知aic=112.4837,sbc=114.01,参数的t检验统计量的p值小于0.05是显著的,残差白噪声检验显示延迟6阶、12阶、18阶、24阶lb检验统计量的p值均显著大于0.05,因此该模型显著有效。因此ar (1)模型为:(2)选取arma(1,1)模型对1975-2009年全国肾综合证出血热发病率序列进行拟合,输出的结果如下: 由上图可知,残差白噪声检验显示延迟6阶、12阶、18阶、24阶lb检验统计量的p值均显著大于0.05,因此该模型显著有效。在三个参数中ma1,1的t检验统计量的p值为0.0

15、618大于0.05,不显著,其他两个参数的t检验统计量的p值均小于0.05是显著的,arma(1,1)模型除去不显著的参数后就是ar(1)模型,结果和上个拟合的模型一样。(3)选取ar(2)模型对1975-2009年全国肾综合证出血热发病率序列进行拟合输出的结果如下: 由上图可知:参数显著性检验结果显示三参数t统计量的p值均小于0.05,然而这三个参数均显著;残差白噪声检验显示延迟6阶、12阶、18阶、24阶lb检验统计量的p值均显著大于0.05,因此该模型显著有效的。(其中aic=108.7482,sbc=113.3273)ar(2)模型为: 2.4模型择优2.4.1 根据信息量准则择优综上

16、所述,在尝试拟合的模型中有ar(1)、ar(2)显著有效,根据信息量准则,aic、sbc越小越好,通过比较两种模型的aic、sbc值(见表2)可得出最理想的模型为ar(2)模型。ar(2)模型为: 模型aicsbcarma(1,0)111.1408114.1935arma(2,0)108.7482113.3273 表2两种模型的aic、sbc值2.4.2 预测值与实际值的比较用ar(1)、ar(2)模型分别对2009年年发病率作出预测,比较实际值与预测值,以了解ar(2)模型的预测精度。(1)ar(1)模型对2009年年发病率作出的预测,输出结果如下:由上结果知该模型对2009年年发病率的预测

17、值为0.7578/10万人。(2)ar(2)模型对2009年年发病率作出的预测,输出结果如下:由上知该模型对2009年年发病率的预测值为0.8029/10万人。在资料的数据表中知2009年年发病率的实际值为0.84/10万,两种模型所得的预测值中与实际值最接近的ar(2)模型(表3),因此ar(2)模型为最理想的模型,其预测值与实际值的相对误差分别为0.0371。ar(2)模型为:年 度预测值 实际值arma(1,0)arma(2,0) 2009年 0.7578 0.8029 0.84 表3两种模型预测值与实际值的比较2.5对2010年发病率的预测ar(2)模型为:2008年、2009年全国肾

18、综合证出血热发病率分别为0.64,0.84。因此可预测2010年肾综合征出血热发病率为3.45/10万人。第3章 小结与讨论 由于刚才所用的历史资料,主要来源于法定传染病报告系统和死因报告系统,时间跨度大,其间报告系统经历了数次变革,因此应充分考虑其完整性和可信度,对其结果的解释和利用要审慎。本文对肾综合征出血热进行了“年”发病率的预测,预测精度较大,但肾综合征出血热作为季节性很强的传染病,在实际工作中往往需要以月为单位进行预测,如果预测精度不够大,将失去实际意义。丁守銮3采用arma方法以月为单位对肾综合征出血热发病率进行预测,实际值与预测值绝对误差最大值达到2.5/10万。随着基础资料质量

19、的提高,以月甚至以周为单位进行预测必然是发展方向。预报提前期是实际预测的时点距当前最新一个历史值的时间,提前量太短是预测可能在应用中丧失其实际意义4。本研究在选取预报提前期时,采取的是经验法,并没有对提前期进行筛选。综上所述,arma模型对样本容量和概率分布没有严格要求,模型简单,是一种预测精度较高的预测模型,适合于流行因素较稳定的疾病进行中短期预测。成果声明本人郑重声明:所呈交的毕业论文是本人在指导老师的指导下独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。本文的研究和撰写对做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律责任由本人承担。另外:本文版权属贵州民族学院所有。 论文作者签名: 张齐兰 日期: 2010年6月10日 致谢非常感谢蔡静老师在我大学的最后学习阶段毕业论文阶段给自己的指导,从最初的定题,到资料收集,到写作、修改,到论文定稿,她给了我耐心的指导和无私的帮助。为了指导我们的毕业论文,她放弃了自己

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论