(应用数学专业论文)部分线性自回归模型及其应用研究.pdf_第1页
(应用数学专业论文)部分线性自回归模型及其应用研究.pdf_第2页
(应用数学专业论文)部分线性自回归模型及其应用研究.pdf_第3页
(应用数学专业论文)部分线性自回归模型及其应用研究.pdf_第4页
(应用数学专业论文)部分线性自回归模型及其应用研究.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 论文题目:部分线性自回归模型及其应用研究 学科专业:应用数学 研究生:王淑霞签名: 指导教师:张德生教授签名: 摘要 本文主要研究部分线性模型中自回归模型的估计及其应用问题,包括部分线性自回 归模型的核估计及偏核光滑估计。主要内容包括: 1 对线性自回归模型中的滞后阶数的选择方法及该模型的几种参数估计进行了分 类,并对几种估计方法做了比较分析。然后,将该模型应用于我国原煤产量月度预测分 析问题中,结果表明:线性自回归模型比较简单,不能很好的体现实际问题中影响因素 的特点,使得预测结果误差较大。 2 对部分线性自回归模型在挑选显著变量、确定最佳带宽及对未知量估计的方法上 做了一些研究。并应用于我国原煤产量月度预测分析问题中,结合线性自回归模型中的 定阶方法,确定了模型的参数变量和非参数部分变量;然后对这一实际问题建立的模型 与直接建立的自回归模型,从拟合和预测两个方面作比较,结果得出:部分线性自回归 模型因为考虑了非线性因素的影响,其拟合和预测精度都比较高。从而可以为我国原煤 产量未来预测提供一个可行的方法或依据。 3 给出了部分线性自回归模型的偏核光滑估计及模型参数部分的估计偏差,并通过 构造广义的交叉核实函数对模型中的带宽进行选择。然后,利用所得结果建立了煤油电 企业商品价格指数的部分线性自回归模型,从模拟计算结果可以看出该模型模拟效果较 好,从而验证了此偏核光滑估计是一个有效估计。 关键词:a r 模型;部分线性自回归模型;核估计;偏核光滑估计 签 a b s t f a c t t i t l e :p a r t i a l l yl i n e a ra u t o r e g r e s s i o nm o d e l sa n d i t sa p p l i c a t i o n m a j o r = a p p l i e dm a t h e m a t i c s n a m e :s h u x i aw a n g s u p e r v i s o r = p r o f d e s h e n gz h a n g a b s t r a c t s i g n a t u r e : s i g n a t u r e : s o m ee s t i m a t e sa n da p p l i c a t i o no fp a r t i a l l yl i n e a rt i m es e r i e sm o d e l sh a v eb e e ns t u d i e d , w h i c hi n c l u d e sk e m e le s t i m a t i o na n dp a r t i a lk e r n e ls m o o t h i n ge s t i m a t eo fp a r t i a l l yl i n e a r a u t o r e g r e s s i o nm o d e l sa n dt h e s ea p p l i e da n a l y s i s t h ec o n t e n t so ft h et h e s i sa r ea sf o l l o w s : 1 :a rl i n e a rr e g r e s s i o nm o d e li ss t u d i e di nt h i sp a p e r ,w h i c hi n c l u d e st h ec l a s s i f i c a t i o no f t h ec h o i c eo fm e t h o d si ne s t i m a t i o nb a s e do na rm o d e l s ,a n dc o m p a r e dw i t hs e v e r a lm e t h o d s t h e n ,t h em o d e li sa p p l i e dt oc h i n a sc o a lp r o d u c t i o nf o r e c a s tm o n t h l ya n a l y s i s ,r e s u l t s s h o w e dt h a t :s i n c et h el i n e a rr e g r e s s i o nm o d e li sr e l a t i v e l ys i m p l e ,n o tv e r yw e l lr e f l e c t e di n t h ep r a c t i c a lf a c t o r s ,s oi tw i l lc a u s et oab i g g e rf o r e c a s t i n ge r r o r 2 f i r s t l y ,t h i sp a p e rh a v ed o n es o m er e a s e r a c ho nt h es e l e c t i o no fs i g n i f i c a n tv a r i a b l e s 、 d e t e r m i n i n gt h eo p t i m a lb a n d w i d t ha n dt h ee s t i m a t i o no fp a r a m e t e r sa n dn o n p a r a m e t r i co n p a r t i a l l yl i n e a ra u t o r e g r e s s i o nm o d e l s f i t t i n gw i t ht h em i n i m u mm e a ns q u a r ee r r o ro f t h i n k i n gi nt h es e m i - p a r a m e t r i cr e g r e s s i o nm o d e ls i g n i f i c a n tv a r i a b l e si d e n t i f i e dm e t h o d , a n dc o m b i n a t i o no fl i n e a rr e g r e s s i o nm o d e lo ft h eb a n d ,u l t i m a t e l yd e t e r m i n et h ep a r a m e t e r s a n dn o n p a r a m e t e r so ft h ep a r t i a l l yl i n e a ra u t o r e g r e s s i o nm o d e l s 3 p a r t i a lk e r n e ls m o o t h i n ge s t i m a t ea n di t sd e v i a t i o ni np a r t i a l l yl i n e a ra u t o r e g r e s s i o n m o d e lh a v es t u d i e d ,a n dt h ew i n d o w sp a r a m e t e ri sc h o i c e db yu s eo fg e n e r a l i z e d c r o s s - v a l i d a t i o nf u n c t i o n f i n a l l y , t h ep a r t i a l l yl i n e a ra u t o r e g r e s s i o nm o d e lb a s e do nc o r p o r a t e g o o d sp r i c ei n d i c e so f c o a l 、o i la n de l e c t r i c i t yi se s t a b l i s h e d ,a n dt h eb e r e rr e s u l t sp r o v e dt h a t o u rm e t h o d st ob ea ne f f e c t i v ee s t i m a t e k e yw o r d s :l i n e a ra u t o r e g r e s s i v em o d e l ;p a r t i a l l yl i n e a ra u t o r e g r e s s i o nm o d e l ;k e m e l e s t i m a t i o n ;p a r t i a lk e r n e ls m o o t h i n ge s t i m a t e 独。创性声明 秉承祖国优良道德传统和学校的严谨学风郑重申明:本人所呈交的学位论文是我个 一 、, 人在导师指导下进行的研究i 作及取得的成果:+ 尽我所知j 除特别加以标注和致谢的地 芳外,- 论文中木包含其他入的研究成果与我二同工作的同志对本文所论述的工作和成 果的任何贡献均已在论文中作了明确的说明并已致谢。 本论文及其相关资料若有不实之处;1 由本人承担一切相关责侄 论文作者签名f 至盗坠蹙丝哆。年多月叼吝 学位论文使用授权声明 一。炉, 本人垒醴巨:。在导师的指导下创作完成毕业论文啦本人已通过论文的答辩,了并 已经在西安理工大学申请博士硕士学位令本人作为学位论文著作权拥有者;一同意授权 西安理工大学拥有学位论文的部分使用权:,即:ii 矿已获学位的研究生按学校规定提交 印刷版和电子版学位论戈”学校可戗采用影印r 缩印或其他复制手段保存研究生上交的 学位论文可以将学位论文的全部或部分内容编入有关数据库进行检索:,:2 ,为教学和 科研目的,。学校可以将公开的学位论文或解密后的学位论文作为燹料在图书馆、jr 资科室 等场所或在校园网上供校内师生阅读、浏览争, 本人学位论文全部或部分内容的公布( 包括刊登) 授权西安理工太学研究生部办 理。, ( 保密的学位论文在解密后;适用本授权说明) 做作者签名f 趣j 导师槐戳j 如榫拍彳日 第一章绪论 1 绪论 1 1 研究现状 1 1 1 非线性时间序列 人们为了了解周围的世界,常常以时间顺序做一系列的观测。将来的数据通常以某 种随机的方式依赖于现在得到的观测值。观测值的这种相依性使得利用过去预报未来成 为可能。时间序列分析处理以时间顺序所得的记录,数据的顺序是重要的。时间序列分 析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理 论和方法。它一般采用曲线拟合和参数估计方法进行。时间序列的一个显著特征是记录 的相依性,它的应用背景非常广泛,在实际问题中,它已经在天文学、生物学、经济学、 金融、环境研究、工程等的一些领域被广泛的应用。 六十多年来,线性时间序列作为时间序列的一种最简单的特殊类型已被深入研究, 取得了系统和丰富的成果,但是在实际问题中,现实中经济变量或者其它变量之间的关 系未必是线性关系或者可线性化的参数型非线性关系,此外,变量之间的参数型非线性 关系又很难确定,传统线性或参数型非线性模型在实际应用中还往往存在模型的设定误 差,不能满足经济和管理等应用研究的需要,因而对非参数和半参数时间序列模型的研 究应运而生。 在二十世纪八十年代早期,非线性时间序列分析( n t s a ) 开始在文献中受到广泛 关注,t o n g ( 1 9 9 0 ) i 】全面阐释了2 0 世纪8 0 年代n t s a 的主要发展,这一阶段参数模型 的发展占主导地位。过去四十多年里,非参数回归分析为研究变量之间的一般关系提供 了一种较为通用的方法而受到人们的大量关注。非参数自回归模型首先由j o n e s ( 1 9 7 8 ) 引入,之后随着t o n g ( 1 9 9 0 ) 专著的出版发表,非参数技术已广泛地应用于非线性时间序 列数据建模,在h 各t r d l e ,l t l t k e p o h la n dc h e l a1 9 9 7 t 2 1 ;t o n g2 0 0 2 t l l ;g a oa n dt o n g2 0 0 4 t 3 l ; f a na n dy a o2 0 0 2 f 4 】等文章中都有一定程度的研究。 近十几年来,非参数半参数时间序列分析越来越受到人们的重视。n t s a 中非参数 方法和后来半参数方法的出现和发展至少有以下四个原因【1 儿5 1 。( 1 ) 处理独立同分布 ( i i d ) 数据集非参数方法的发展,如核光滑方法、局部线性光滑方法、样条光滑方法 和小波光滑方法:( 2 ) 时间序列数据的复杂性使得经典的参数方法拟合误差较大,而非 参数方法的灵活性使其能够较好的予以拟合;( 3 ) 当代计算能力的飞速发展使人们有可 能对潜在动态的产生机理做出越来越少的假定;( 4 ) 当数据充分多时,非参数或半参数 方法有时有助于人们选择一个适当的参数模型。显然,非参数自回归建模有一定的灵活 性和优越性,但是在发展过程中它也遇到一些困难,主要有以下两个方面: 西安理工人学硕+ 学位论文 ( 1 ) “维数祸根”( c u r s eo f d i m e n s i o n a l i t y ) 。所谓“维数祸根”,没有确切的定义, 一般是指非参数估计多元回归函数的不确切性【6 】,换句话说,是指当估计目标是不具可 加结构的众多变量的一般函数时,非参数光滑估计量的收敛速度变得相当慢f 7 1 。从理论 上讲,p 元回归问题可由一元回归问题推广解决,非参数方法也会给出回归函数的渐近 相合估计。但是,利用非参数方法估计回归函数存在两大问题。p 2 时,高维回归 函数不能给出相依变量( 或响应变量或被解释变量) 和解释变量之间回归关系的直观几何 描述;甚至当样本容量珂1 0 0 0 时,样本点在高维空间中的分布也是非常稀疏的,这 给非参数光滑方法的应用造成了一定的困难【8 】。然而,由于非参数a r 0 ) 模型拟合时间 序列数据通常是不适当的,所以在非参数时间序列分析中也常常会遇到“维数祸根问 题。 ( 2 ) 非参数回归中的估计理论。虽然可以借鉴独立数据的非参数回归中的估计方法, 但由于时间序列数据的相依性使得建立相应估计理论难于独立数据的非参数回归中的 估计理论,这也是非参数时间序列分析滞后于独立数据的非参数回归分析的一个重要原 因。 为了避免或减少“维数祸根”和增加建模的灵活性,一些减少“维数祸根”的方法 是对回归函数附加一定的结构,于是产生了许多模型,比如,r o b i n s o n ( 1 9 8 8 ) f 9 】提出的 半参数时间序列模型,x i aa n dl i ( 1 9 9 9 a ) t 1 0 l 提出的函数系数线性模型和x i aa n dl i ( 1 9 9 9 b ) l l q 提出的单指标系数回归模型,x i a , t o n ga n dl i ( 1 9 9 9 ) i 垃1 提出的推广的部分线性 单指标模型,g a oa n dy e e ( 2 0 0 0 ) 1 1 3 l 提出的部分线性可加自回归模型。 1 1 2 半参数回归模型 e n g l ee ta 1 ( 1 9 8 6 ) t 1 4 1 在研究天气和电力销售之间关系时首先引入了半参数回归模 型,r o b i n s o n ( 1 9 8 8 ) 9 j 贝0 首次将半参数回归模型引入时间序列。关于模型l = 置ff l + g ( ) + 毛i = l ,2 ,n 。自e n g l ee ta l ( 1 9 8 6 ) t 1 4 1 在研究气候条件对电力需求影响这一实际问题 时提出上述模型以来,己出现一系列研究成果。 s c h i c k ( 1 9 8 6 ) t 5 1 应用b i c k e l ( 1 9 8 2 ) 的一些结论研究了上述模型的一类特殊情形中, 的渐近有效估计的构造;h e c k m a n ( 1 9 8 6 ) t 1 6 】研究了( x i ,t ,) 是i i d ( 独立同分布) 随机样 本,且 置 和 t 是相互独立的,并且g ( ) 的估计取一类样条估计时,的加权最小 二乘估计危的渐近正态性;r i c e ( 1 9 8 6 ) 1 1 7 1 研究了( 五,f ,) 是固定设计点列,其g ( ) 的估 计取一类样条时, 的估计的协方差函数的渐近性质;c h e n ( 1 9 8 8 ) 1 1 8 】研究了当 矗,( t ) = e ( x ,it = t ) 关于x 满足口( 0 口1 ) 阶l i p s c h i t z 条件,且甙) 的估计取一逐点 多项式估计时,的加权最小二乘估计厦的渐近正态性及其g ( ) 的估计的弱收敛速度; 2 第一章绪论 其后,一些学者还研究了当g ( ) 的估计取一些样条估计时,的若干估计的性质,具 体可参见h e c k m a n ( 1 9 8 8 ) ,c h e n & s h i a n ( 1 9 9 1 ) ,e u b a n k ,e t a l ( 1 9 8 9 ,1 9 9 0 a ,1 9 9 0 b ,1 9 9 0 c ) 等。 关于未知函数g ( ) 取核估计的情形,s p e c k m a n ( 1 9 8 8 ) | 1 9 】和r o b i n s o n ( 1 9 8 8 ) t 9 1 分别 独立地研究了,当h j ( t ) = e ( 五,i t = f ) 关于t 满足口( o 口1 ) 阶l i p s c h i t z 条件,且g ( ) 的估计取p a r z t n r o s e b l a t t 核估计时,的加权最d , - 乘估计厦的渐近正态性及其度 和包( g 的估计) 的弱收敛速度,该文去掉了s p e c k m a n ( 1 9 8 8 ) 1 9 l 中对核函数所附加的一些 不易验证的条件;而后g a o 又进一步研究了当g 的估计取一类核估计序列时,的加 权最d , - 乘估计厦的渐近正态性及其g ( ) 的估计的最优强收敛速度。与此同时, g a o ( 1 9 9 0 ) 2 0 和h o n g ( 1 9 9 0 ) t 2 l 又研究了模型i = 置rf l + g ( t i ) + qi = l ,2 ,n 中当g ( ) 的估计取一类近邻估计时的扉渐近正态性众和雪。( g 的估计) 的弱收敛速度,得到了一些 深刻的结果。 我国学者对模型i = 置7 p + g ( t i ) + 毛i - 1 ,2 ,n 在估计的渐近有效性,m 一估 计的渐近正态性,参数分量估计的渐近分布的b e r r y - 一e s s e e n 界限及其重对数律等方面 的研究上又作了一些相当深刻的工作。l i a n g ( 1 9 9 2 ) 2 2 】系统地研究了下述若干情形时的 渐近有效估计构造: ( i ) 毛的分布密度未知,而置分布密度己知,且 五 和“ 是相互独立的; ( i i ) 乞和置的分布密度均是未知的,且 墨) 和 ) 是相互独立的; ( i i i ) 乞和五的分布密度均是未知的,且 置 和 f ,) 不是相互独立的。 同时,l i a n g ( 1 9 9 2 ) 研究了t l r 2 = e 毛2 的渐近正态估计的构造;的加权最d , - 乘估计夕( 由 c h e n ( 1 9 8 8 ) i i s l 中定义) 是的渐近有效性估计的充要条件;的伪极大似然估计矽m ,是 的b a h a d u r 渐近有效性估计的条件;的高阶渐近有效性估计的构造:的二阶渐近有 效性估计与的加权最d , - 乘估计度之间的关系。 1 1 3 部分线性自回归模型 部分线性自回归模型的一般形式为 z = 7 i v , + g ( z ,) + e 其中,置= ( 墨l ,一,) 。,五,( f - 1 ,p ) 和z ,为r r 的滞后值,= ( 届,辟) 。为未 知参数向量,p 是正整数,g 为未知可测函数, s ,) 为i i d 随机变量序列,均值为0 , 方差为仃2 ,且q 与工( f _ l ,p ) 和z r 独立。 g a o ( 1 9 9 5 ) t 2 3 1 考虑模型r = r l + g ( r 一2 ) + 毛( f 3 ) ,基于g 的核光滑研究和盯2 的 估计量的渐近性质;g a oa n dl i a n g ( 1 9 9 5 ) 1 2 4 】也对g a o ( 1 9 9 5 ) 2 3 1 研究的模型予以考虑,基 于g 的分段多项式估计研究的估计量的渐近正态性,同时还研究了的伪最小二乘估 西安理工人学硕i :学位论文 计量和误差方差仃2 的估计量的渐近正态性;g a o ( 1 9 9 8 ) t ”】在研究半参数自回归模型中提 出非参数函数的有限级数近似,研究了级数近似中求和数的适应选择并给出了大样本性 质;s c h i c k ( 1 9 8 6 ) 1 5 】应用b i c k e l ( 1 9 8 2 ) q b 的一些结论研究了上述模型的一类特殊情形中, 的渐近有效估计的构造;s c h i c k ( 1 9 9 9 ) 2 6 l 在v 一致历经条件下建构g a o ( 1 9 9 5 ) 1 2 3 1 研究 的模型中参数的有效估计,还考虑了局部渐近j 下态性和局部渐近最小最大性;b o s qa n d s h e n ( 1 9 9 8 ) 2 7 1 介绍了半参数模型中非参数部分是线性的或参数部分是线性的两种特 殊情况下对参数和非参部分的估计方法,并证明了估计函数的一致收敛性。g a oa n dy e e ( 2 0 0 0 ) 2 8 】基于非参数函数的核估计给出部分线性自回归模型中参数估计的渐近正态性; g a oa n dr o d n e yw o l f fa n dv oa n h ( 2 0 0 1 ) 2 9 】给出了在部分线性回归模型中对于回归 参数成员选择的c v 标准,并且证明了标准的连续一致性;o u y a n ga n dd o n g l ia n dq i ( 2 0 0 6 ) 3 0 】在非参数模型中基于核估计方法或是k 近邻估计方法给出了c v 选择函数,可 以借鉴来在半参数回归模型中对变量的参考应用;g a oa n dt o n g2 0 0 4 2 1 给出半参数模型 中参数和非参数部分带宽选择函数c v z ,决定参数和非参数部分最小可能的滞后阶数 及最小带宽的选择。与此同时g a o ( 2 0 0 5 ) 3 l 】对c v 函数进行改进,提出了m c c v 函数对 决定参数和非参数部分最小可能的滞后阶数及带宽提高了一定的精确性; l i n t o na n dm a m m e n ( 2 0 0 3 ) t 3 2 】研究一类半参数( ) 模型,基于核光滑和p r o f i l e d l i k e l i h o o d 提出一种估计方法,建立参数的分布理论和非参数函数的逐点分布,讨论参 数部分和非参数部分的有效性。h s , r d l e ,l i a n ga n dg a o ( 2 0 0 0 ) t 3 3 j 对部分线性模型作了系 统的介绍。另外,对于因变量如果现实生活中受其它因素的影响也比较大的时候,统计 学家们提出了可加外生变量的部分线性自回归模型,该模型不但考虑了受自身因素的影 响,也引入了其它相关变量及其滞后值。关于此类模型的理论知识和应用在非线性时间 序列中都是一个新的挑战领域。z h u 和a n ( 1 9 9 4 ) 3 4 】及l i a n g ( 1 9 9 6 ) ”】对该模型中未知 函数的光滑性和外生变量的有限支撑进行了约束,削弱了该模型的应用范围,拟对放松 约束的更一般的模型予以估计研究。 部分线性自回归模型的优点是它不仅集中了主要部分( 即参数分量部分) 的信息并具 有较强的解释能力【3 6 1 ,而且能有效地减少或克服“维数祸根”问题,但是,正如陈希孺 所言,半参数模型的“复杂度和难度,都超过了单一性质的回归模型。因此可以说,它 实在是一个在实用上有重大意义且在理论上富有挑战性的领域” 3 6 1 。 1 1 4 估计方法概述 对于来自实践的一组数据,为了分析它们,首先要对它们的物理意义和属性进行研 究,然后在此基础上,建立用于分析数据的统计模型。然而,统计模型只是对总体的一 个近似,一个好的模型能够比较好的解释数据,预测未来。如何建立一个更加接近现实 的模型是统计工作者不断追求的目标。回归模型一直受到人们的重视,从参数回归模型, 4 第一章绪论 非参数回归模型到本文所要研究的部分线性回归模型。一般来说模型中包含未知参数和 未知函数,那么想要建立更合适的模型,首先要寻找合理的估计方法去估计这些未知参 数和未知函数。 非参数时间序列模型的估计方法与线性回归模型和参数型非线性回归模型的估计 方法不同,常用的估计方法有核估计、局部多项式估计、样条估计和小波估计,前两种 估计统称为核类估计,是局部估计方法,样条估计和小波估计则是全局估计【5 2 】。此外, 还有一些其它估计方法,如:文酬5 3 1 研究了最近邻估计方法,文献【5 4 】【5 5 1 讨论了条件均 值函数的局部平均估计;文献【2 5 】【5 6 1 分别在研究半参数自回归模型和可加随机回归模型中 使用了级数估计方法;c h e n ,r a n dt s a y ,r s 在非线性可加自回归模型中利用了向后 拟合算法( b a c k t t i n ga l g o r i t h m s ) ,t j s t h e i m 和a u e s t a d ( 1 9 9 4 ) 以及m a s r y 和t j s t h e i m ( 1 9 9 7 ) 在非线性可加自回归模型中研究了投影估计量( p r o j e c t i o ne s t i m a t o r ) ,w o n g ,c m a n d k o h n ,r 在研究可加非参数自回归模型估计和预报中利用t b a y e s 方法s i m o n o ( 1 9 9 6 1 详细介绍了几种常用的非参数光滑方法。 1 2 本文研究的主要内容 对于单指标自回归模型,线性自回归模型包括自回归模型a r ( p ) ;滑动平均模型 m a ( q ) 和自回归滑动平均模型a r m a ( p ,q ) 。非线性自回归模型包括求和自回归滑动平 均模型a r m a ( p ,q ) 和季节求和自回归滑动平均模型a r 眦( p ,q ) 、非参数自回归模 型、函数系数自回归模型、部分线性自回归模型【5 】等。用这些模型来控制或预测时首先 就是要确定模型的滞后阶数,然后根据数据特征属性选择合适的模型,确定需要建立什 么样的模型后,最主要的工作就是对模型中的未知量进行估计。在线性自回归模型中要 对模型中的未知参数进行估计,在部分线性自回归模型中,因为在模型中不仅要对线性 的未知参数进行估计,还要对模型中的非线性部分进行估计。而非线性部分的未知函数 因为表达式是不能具体表达出来的,所以,对它的估计一直是研究的重点和难点。 本文主要研究部分线性模型中自回归模型的估计及应用问题,包括部分线性自回归 模型的核估计及偏核光滑估计。主要内容是: ( 1 ) 对于线性自回归模型进行研究,讨论了线性自回归模型中滞后阶数的选择方 法及线性自回归模型的几种参数估计。最后,通过我国原煤产量月度数据的数据特征分 析,得到线性自回归a r ( 2 ) 模型。并用图表的方式给出了该方法在对我国原煤产量数 据进行分析的结果。 ( 2 ) 对部分线性自回归模型在挑选显著变量、确定最佳带宽及最后对参数部分及 非参数部分进行估计的方法上做了一些研究。结合最小均方拟合误差的思想在半参数回 归模型中确定显著变量的方法上的应用,本文对我国原煤产量时间序列数据结合线性自 回归模型中的定阶方法,确定了模型的参数变量和非参数部分。最后对我国月度原煤产 西安理工大学硕十学位论文 量这一实际问题建立的部分线性自回归模型拟合和预测结果与直接建立季节自回归模 型拟合和预测结果,从拟合和预测两个方面作比较,从比较结果得出:部分线性自回归 模型因为考虑了非线性因素的影响,其拟合和预测精度都比较高。从而可以为我国原煤 产量未来预测提供一个可行的方法或依据。 ( 3 ) 给出了部分线性自回归模型的偏核光滑估计及模型参数部分的估计偏差,并 通过构造广义的交叉核实函数对模型中的带宽进行选择。然后,利用所得结果建立了煤 油电企业商品价格指数的部分线性自回归模型,并与核估计方法进行比较,从模拟计算 结果可以看出该模型模拟效果较好,从而用实例验证了偏核光滑估计是一个有效估计。 并对实际生活中具有相似特征属性的数据进行分析提供了依据和参考。 1 3 本文研究的知识背景 1 3 1 原煤产量预测重要性及其研究现状 原煤是我国的主要能源,除了用作生活燃料外,还用于发电炼焦化工等生产建设。 我国已探明的储量为8 6 0 0 多亿吨,可开采2 0 0 多年。但是煤炭为非再生性能源资源,开 采一点就会少一点。故此,研究原煤开采数量变化并模拟时间序列的动态模型,这对于 煤炭资源实现计算机信息管理、达到有计划的合理开采利用是十分必要的。由于政治、 自然及人为因素的影响,从1 9 4 9 年至1 9 9 8 年长达4 9 年,我国原煤产量出现了几次大 起大落。但从2 0 0 0 年以后基本处于稳定状态,所以对于2 0 0 0 年以后的原煤产量月度数据 进行分析,找到合适的模型,最终得到较为准确的预测数据,是非常有实际意义的。 对于原煤预测问题,已有方法主要是用统计的方法进行分析的,比如尹子斟 】利用 主成分分析方法,对于影响原煤产量的主要影响因素( 1 ) 掘进进尺;( 2 ) 掘进机械化水平; ( 3 ) 采煤机械化水平;( 4 ) 煤层生产能力等1 0 个因素中分析出影响原煤产量的显著因素, 通过建立原煤产量的回归模型,实现了计划期原煤产量的预测。王新利【38 】等对原煤产量 年数据通过计算机处理模拟出时间序列动态模型,主要模型为l o g i s t i c 曲线、指数函数 曲线、二次抛物线、双曲线、理查德曲线等4 5 个中筛选出7 个极显著最优模型并以模型 对未来年份原煤产量进行预测。魏晓平【3 9 】利用时间序列的有关理论利用求和自回归移动 平均模型( a r i m a ) 对煤炭生产量进行预测。孙广民,郝全明( 2 0 0 6 ) 【4 0 j 应用灰预测理论 及可变季节指数法,基于灰色预测性质中部分信息己知,部分信息未知的、将一切随即 变量看作是一定范围内变化的,仅于时间有关的灰色过程系统的特有特征建立了灰色预 测模型g m ( 1 ,1 ) 及可变季节指数模型利用2 0 0 1 2 0 0 5 年的原煤产量季度数据对未来产量 进行预测,并对两种预测方法进行组合预测,比较其效果;孙永波( 2 0 0 5 ) 【4 l j 等利用煤炭 资源的现实可供量与趋势可供量之间的变化关系,根据专项储备用于补充可供量与需求 6 第一章绪论 量之间差距的作用,通过建立储备量模型对不同方案的拟合来合理确定煤炭的储备,对 煤炭的产量预测起了很大的借鉴意义。 1 3 2 偏核光滑估计的理论基础 近年来,半参数模型引起广泛的关注,因为在大量实际问题中,影响因变量的因素 可以分为两部分。根据历史资料或经验可知一部分因素与因变量存在一定的线性关系, 而另外一部分因素与因变量的关系是未知的,但由于其影响是系统性的,也不宜归入误 差项。这样一来将参数模型与非参数模型结合起来就形成了半参数模型。本文第5 章节 所研究的是一种广义的半参数模型部分线性自回归模型【l3 】【4 9 】的偏核光滑估计。该偏 核光滑估计是基于非参数模型的核估计方法的理论基础,并在考虑了线性部分的因素, 用参数逼近的思想把模型中非参数部分先用参数逼近,然后分两步估计模型中的参数与 非参数部分。 核回归i 妇n a d a r a y a ( 1 9 6 4 ) 和w a t s o n ( 1 9 6 4 ) 独立地提出,之后还出现了一些其它的 核方法,i :匕! t 1 p r i e s t l e y 和c h a o ( 1 9 7 2 ) 以及g a s s e r 和m a u l l e r ( 1 9 7 9 ) 的核估训5 0 】,但是, 最常用的是n a d a r a y a - w a t s o n 核估计由于核估计是局部加权平均,所以,核估计在边 界点的性质与在内点处的性质不同,核估计在边界点的偏差大于内点处的偏差,因而核 估计在边界点的收敛速度慢于在内点处的收敛速度,即核估计存在边界效应问题【5 】虽 然如此,核估计方法仍然是常用的非参数光滑方法该方法的应用虽然较早,然而,时 间序列回归曲线核估计理论的研究却进展较缓,r o b i n s o n ( 1 9 8 3 ) 5 1 】第一个给出了非线性 时间序列模型中非参数函数的核估计量的渐近理论【l 】。 1 3 3 预测方法 预测方法一般分为两类:( 1 ) 解释性预测方法,即回归分析方法;( 2 ) 时间序列分 析方法。前者是认为系统的输入量与输出量之间存在着某种因果关系,以此来构造预测 模型进行预测。该模型对输入变量的精度及可靠性要求较高。后者是把系统看作一个“暗 箱”,可以不管其影响因素,而只关心预测和预测的结果,其预测过程只依赖于历史观 测数据。 而对于符合时间序列特征的一些数据,而其影响因素因果关系比较复杂时,可以采 用后者。比如根据我国原煤产量的月度变化特性,即原煤产量的随机性、趋势性及周期 性,可知道该数据是一串随时间变化而相互关联的数字序列( 动态数据) ,序列中不同 时刻的随机变量彼此之间有一定的相互关系,因此该数据序列符合时间序列分析方法建 模的条件,可以采用时间序列分析方法建模。又因为原煤产量的时间尺度为月的数据序 列存在很强的季节性,并非平稳序列。模拟和预报这种季节性序列的模型主要有三种【4 2 1 7 西安理工大学硕士学位论文 用季节性a r i m a 模型( 简称为s a r i m a ) ;除季节性a r m a 模型,即先除去原流量序 列中的季节性均值与方差,再对除季节性序列拟合a r m a 模型;周期a r i a 模型( 简 称为p a r m a ) ,包括周期a r 模型。在实际应用中,这三种模型通过提取趋势项、周期项 和随机项,分别加以处理和迭加进行预报,本质上仍然是线性的【4 5 1 。部分线性回归模型 中不受模型“相互独立假定条件的约束,因此可以消除或改进普通回归预测中由自变 量选择、多重共线性、序列相关性等造成的困难。因此分别建立我国原煤产量的部分线 性自回归模型和季节性自回归模型进行预测,可以某些部门提供参考,也可以为部分线 性自回归模型的实证分析提供依据。 自回归模型所要研究的数据是一串随时间变化而相互关联的数字序列( 动态数据) , 序列中不同时刻的随机变量彼此之间有一定的相互关系。因此对于自回归模型预测是根 据包括现在的和以往的所有观察资料,对未来时刻的取值作出估计。所以在具体预测方 法上怎么使用已有数据得出最优预测结果也是关键的一步。下面主要描述在本文中所采 用的一种预报方法b i n - - 最佳预测方法: 设 y ,) 是一平稳序列,实际观测值是y 。,y :,y t ,要对未来数值y t + ,进行预测,预测 值记作多,( ,) ,称为在起始时刻f 向前,步的预测值预测时希望预测误差的方差达到最 小,即希望: e ( 以“一允( ,) ) 2 = m i n ( 1 1 ) 并称满足( 1 1 ) 式的只( ,) 是m + ,的最小方差预测,简称最佳预测 在m ,y 2 ,只发生的条件下,只+ ,的条件期望: 或( ,) = e y t + ,lm ,y :,y t 】 由条件期望的有关性质可知: y t + ,的最佳预测允( z ) 是 ( 1 2 ) ( 1 ) 现在或过去的观测值m 一,之条件期望就是其观察值( 已知的) ; ( 2 ) 未来观测值m + ,的条件期望就是它的预测值 即就是c 2 ,式满足:研乃一y l , y 2 , , y t ,= 羔,;至吕。 ( 3 ) 1 4 小结 本章首先阐述了非线性时间序列的研究现状,然后给出了本文所要研究的部分线性 模型在国内外的理论研究与应用现状。最后给出了本文主要研究内容,以及课题主要依 据的知识背景。 第二章数据的平稳性检验及预处理 2 数据的平稳性检验和预处理 2 1 平稳性检验 检验时间序列的平稳性,是我们建立适当的系统模型的重要前提,在此介绍三种常 用的平稳性检验方法【4 3 1 。 ( 1 ) 直观判断法 平稳数据的主要特点是它的一阶和二阶统计性质不随时间改变,即均值和方差为常 数。反映在图象上就是所有的样本曲线皆在某一水平直线( 即均值) 上下随机地波动。 这种方法具有简单、直观、运用方便等优点。 但是,对于一个实际过程,仅仅从系统的先验知识和观测数据的来检验时间序列的 平稳性只不过是一种定性判断,更何况有时从数据本身直接判定是很困难的。因此,还 需要一些统计方法来检验时间序列的平稳性。 ( 2 ) 非参数检验法 平稳性的非参数检验法又称为游程检验法( 或轮次检验法) 。该方法只涉及一组实 测数据,而不需要假设数据的分布规律,因此本方法具有很好的实用性。 在保持序列原有顺序的情况下,游程定义为具有相同记号的序列,这种记号把观察值分 成两个互相排斥的类。游程检验所判断的原假设为:“样本数据出现的顺序没有明显的 趋势”。我们采用的样本统计量有 m = 一种记号( 如+ ) 出现的总数。 = 另一种记号( 如) 出现的总数。 厂= 游程的总数。 其中作为检验统计量,把1 和2 小于或等于1 5 认为是小样本量,否则为大样本量。对 于显著水平口= o 0 5 的双边检验,游程检验用,分布表给出了概率分布左右两侧为 口2 = 0 0 2 5 时的上限巧,和下限吒。如果,在界限以内则接受原假设,否则拒绝原假设。 当l 或超过1 5 时可认为是大样本量,这是可以采用正态来近似,即可利用正态 分布表来定出检验的接受域和否定域。统计量为 游程数一游程的期望数,一, 。 游程的标准差盯 其中 :2n1n2t-1la r2 下。 9 西安理工大学硕十学位论文 q - 筹 l ,2 , n = l + n 2 对于口= 0 0 5 的显著水平,z i 1 9 6 ,则可接受原假设。 ( 3 ) 参数检验法 根据统计参数来检验时间序列的平稳性,必须检验以下两个内容:一是序列的均值 和方差是否为常数,二是序列的自相关函数是否仅与时间间隔有关,而与此间隔的端点 位置无关。 设样本序列五,恐,h 足够长,取n = k m ,m 是一个较大的正整数,k 也是一个 正整数。把样本序列分成k 个子序列 五l ,2 ,五m ; x 2 1x 2 2 ,恐m ; 以l ,坼2 ,o 对于以上的k 个子序列,分别计算它们的样本均值、方差和自协方差函数 j i :吉兰嘞, 薯2 万备嘞 砰2 万1 善m ( 嘞一写) 2 , 似) = 万1 蔷m ( 一i 慨+ f _ - ) 群 t = i ,2 ,k ;r = 1 ,2 ,m ,m m 由平稳性的假设,以上各统计量对不同的子序列t 不应有显著的差异,否则就应否 定“) 是平稳序列的假设。 2 2 平稳化预处理 由于序列非平稳性表现的多样性和复杂性, 同形式的非平稳性,应采取不同的平稳化方法。 ( 1 ) 差分 平稳化的方法也是多种多样的。对于不 常用的方法是4 3 】: 对于时间序列 墨 ,做一次差分后记为v x , = 置- x , - l ,如果对一阶差分结果再进 行差分,则称为高阶差分,差分的次数称为差分的阶,d 阶差分记为v d 置。 l o 第二章数据的平稳性检验及预处理 当d = 2 时,有v 2 置= 五- 2 置一l + 一一:, d v d 置= 1 + ( 一1 ) a b 】一。 七= 1 一般而言,若某序列具有线性的趋势,则可以通过对其进行一次差分而将线性趋势 剔除掉;若序列具有二次趋势,则两次差分后可变换为平稳序列;若序列具有d 次多项 式趋势,则d 次差分后可变换为平稳序列。 ( 2 ) 季节差分 设 置) 为一含有周期为s 的周期性波动序列,则一,z + s ,墨+ :为相应周期点的 值,它们则表现出非常相近或呈现出某一趋势的特征,如果把每一观察值同上一周期相 应时刻的观察值相减,这就叫季节差分。它可以消除周期性的影响,季节差分常用v 。表 示,v s 置= 置一一一s ,其中,s 为周期。 ( 3 ) 对数变换与差分运算的结合运用 如果序列含有指数趋势,则可以通过取对数,将指数趋势转化为线性趋势,然后再 进行差分以消除线性趋势,也就是做变换z = l o g ( x t x , 一。) 。 数据进行平稳化处理后,再次利用“游程检验”和“参数检验”进行平稳性检验,直到 通过平稳性检验为止,然后对平稳序列进行估计和预报。 2 3 原煤产量数据的平稳性检验及其预处理 图2 1 我国2 0 0 1 2 0 0 6 年每月的原煤产量数据,很明显可以看出序列是非平稳序 列,并且根据实际情况还存在一定的季节性。因此经过一阶自然对数季节差分后的序列 如图2 2 所示。从图中可以看出样本曲线在一条直线上下波动,直观可初步判断序列是 平稳的,由于平稳性的参数检验法需要样本序列足够长,所以本文中采用平稳性的非参 数检验法。检验结果通过m a t l a b 编程计算可得:,= 2 1 ,1 = 2 9 , = 3 1 ,故可认 为是大样本量,其中, u , ,统计量z

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论