已阅读5页,还剩59页未读, 继续免费阅读
(计算机软件与理论专业论文)动态时间序列周期分析预测模型.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
郑州大学顺1 1 论文 y 互磁8 8 6 8 摘要 t 数据库知识发现( k d d ) 是涉及统计学、数据库等学科的。门相当活跃的研究领 域是从数据集中识别出有效的、新颖的、潜在有效的以及最终r u 理解的模式的非平 。 凡过科。动态时间序列周j c i j 分析预测模型是从数理统计的角度对值为连续刑的时问序 列进行分析,发现规律,从而成功预测未来。7 。, 本文首先介绍- r 我国控制论专家韩忠刚先生运h 控制理论叶 的系统辨识方法提供 的一种预测理沦一一多层递阶方法。多层递阶方法摒弃了一般统计预测方法中所使川 的刊定参数预测模型,而将预测对象看成是随机动态的时变系统,把时变系统的状态 预测分离成为对时变参数的预测和在此基础上对系统状态的预测两部分,对时变参数 的预测导致状态预测误差的减小。 , ( 但是,住多层递阶预测模型中,各子间的相对餐值是衡晕备因子对j 日测模础贡 献人小的最重要的依据之一,j j 冈子对预测蕈的影响样艘反而关系不人。而在同门分 析中, | 般而言,某个因7 ,与预测量的关系越密切,相关程度越高,则它在分析 预测模刑叶j 的作i 就越人,其对模刑的贡献就越人,i 酊这恰是多层递阶方法的不足之 处。多层递阶旧门分析预测模型止是将多层递阶方法与川门分析方法台为一,以求 、 取k 补恕。7 时问序列的周期分析是现代竺过甄捌:差的一个吐要分支,而多层递阶方法无论从 理论角度还是从应州角度来讲都是目前描述动态系统的一种比较理想的统计方法。冈 此本文提出r 塑查堕闻痘到周期分析预测模型,它是将多层递阶方法与逐步同门刷_ ! j j 分析的基本原理相结合,使之既可以有效地选取时间序列的各个隐含周_ f | 】,也可以利 片j 所选取的隐含周期作较陡的时间预测。 关键词:动态时问序列周期分析预测,数据j 荦知识发现i ,数据挖掘:统计学,多层递 阶y 时变参数,阿l 门分析v 型l 叁型生型二一 a b s t r a c t k n o w l e d g ed i s c o v e r y i nd a t a b a s ei sar a t h e ra c t i xe r e s e a r c hd o m a i nt h a t i n v o l v e ss t a f t s t i c s d a t a b a s e ,e t c i t i sa nn n u s n a l p l o c c s st h a t l i n d so u tt h e e f f e c t i v e ,f r e s l l ,l a t e n t e f f e c t i v em o d ew h i c hc a l l b e f i n a l h a p p r e h e n s i b l e t h e d v n a m i ct i m es e r i e sp e r i o da n a l y s i sa n dp r e d i c t i o nm o d e la n a l y s e sas e r i a l t y p e d t i m es e r i e sf r o mt h ep o i n to fs t a t i s t i c s f i n d i n go u tt h ek 1 h er l c b s u c c e e d i n gi n p r e d i c t i n gt h ef u t u r e i nt h i s p a p e rt h e a u t h o rf i r s ti n t r o d u c e sak i n do l p 1 1 e d i c t i o nt h e o r y t h e m u l t i p l a y e r t r a n s f e rm e t h o d ,w h i c hw a sp r o p o s e db yz h i g a n g 1 a n ,a nd o m e s t i c e x p e r t o nc y b e r n e t i c s i ti st h er e s u l to fa p p l y i n gt h es y s t e n l d i s t i n g u i s h e d m e t h o do u to f c o n t r o l l i n gt h e o r yt op r e d i c t i o ns p u r n i n gt h es t a t i o n a r yp a r a m e t e r p r e d i c t i o nm o d e l t h em u l t i p l a y e r t r a n s f e rm e t h o dr e g a r d st h ep r e d i c t e dv a r i a b l e a sar a n d o m ,d y n a m i c ,t i m e c h a n g i n gs y s t e m i td e c o m p o s e st h et i m e 。c h a n g i n g s t a t u sv a r i a b l e p r e d i c t i o n i n t ot w os t e p s :f i r s t ,p r e d i c t i n gt h et i m e c h a n g i n g p a l a m e t e r s ;s e c o n d o nt h eb a s i so ft h ef i r s ts t e p p r e d i c t i n g t h e s y s t e ms t a t u s v a r i a b l e1 、h ef i r s ts t e pw i l l l e a dt ot h ed e c r e a s eo f t h ed l e d i c t i o i le r r o r b u tw i t ht h em u l t i p l a y e r t r a n s f e rp r e d i c t i o nm o d e l o n eo i l h em o s ti m p o r t a n t b a s e si nm e a s u r i n gt h ee f f e c to fi n d i v i d u a lf a c t o rt ot h cp r e d i c t i o nm o d e li st h e c o m p a r a t i v ev a l u ea m o n gt h ef a c t o r s c o n v e r s e l y ,t h ed e g l e eo ft h ef a c t o r i n f l u e n c i n g t h e p r e d i c t i o n v a r i a b l eh a sb e e n n e g l e c t e d t oa l a r g e e x t e n ti n r c g r e s s i o na n a l y s i s 、g e n e r a l l ys p e a k i n g ,t h em o r ei n t i m a l c ai j i c t o i i sw i t ht h e p r e d i c t i o nv a r i a b l e t h em o r e e f l e c t i v ei tw i l lb ei 1 1t h ep r o d i c t i o i lm o d e l ,a si st h e v e r y f a u l to fm u l t i p l a y e r t r a n s f e rm e t h o dt h em u l t i p l a 3 ,e f t t a n s l ) r - r e g r e s s i o n a n a l y s i s a n dp r e d i c t i o nm o d e lc o m b i n e st h e r e g r e s s i o na n a l y s i s m o d e lt ot h e m u l t i p l a y e r ,t r a n s f e rm e t h o d t i m es e r i e sp e r i o da n a l y s i si sa ni m p o r t a n tb r a n c ho l o l o d e lns t a t i s t i c s7 f h e m u l t i p l a y e r t r a n s f e rr n e t h o di sar e l a t i v e l yi d e a ls t a t i s t i ci n e t h o da tp r e s e n t ,b o t h f r o mt h ep o i n to f t h e o r ya n dt h a to fa p p l i c a t i o nt h u st h j s1 ) a p cz p u t s1 b r w a r dt h e d y n a m i ct i m es e r i e sp e r i o da n a l y s i sa n dp r e d i c t i o nm o d e j1 1c o n l b i n e st h eb a s i c p r i n c i p l eo ft h es t e p w i s er e g r e s s i o np e r i o da n a l y s i s t ot i l e n m h i p l a y e r t r a n s f e r m e t h o d 1 tc a nn o to n l ye f f e c t i v e l ys e l e c te v e r yj a t e n tp m i o d0 fat i m es e r i e s b u t a l s ot a k ea d v a n t a g eo ft h es e l e c t e dl a t e n tp e r i o d st om a k cal o n g t e r mp r e d i c t i o n k e vw o r d s :d y n a m i ct i m es e r i e sp m i o d a n a l y s i s a l l d p l e d i c t i n n k n o w l e d g e d i s c o v e r y i nd a t a b a s e d a t a m i n i n g s t a r i s t i c s 1 1 1 u i t i p i a e l i l a r l s e t ir i l e c h a n g i n g p a r a m e t e r , r e g r e s s i o na n a l y s i s 塑型查兰堡生堡皇一 第1 章绪论 1 1 引言 随着数据库技术的迅速发展以及数据库管理系统的广泛应刖,人们积累的数据越 来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的 分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查 询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未 来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了”数据爆炸但知识贫乏” 的现象。这就需要新的技术来“智能地”和“自动地”分析这些原始数据。正是在这 种情况下,数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,简称k d d ) 廊运而生 1 】。k d d 是在1 9 8 9 年8 月于美国底特律召开的第1 1 届国际人工智能联合会议专题讨 论会上首次提出的。 1 2 什么是数据库知识发现k d d 2 数据库知识发现是一个众多学科诸如人i 智能、机器学习、模式识别、统计学、 数据库和知识库、数据可视化等相互交义、融合所形成的一个新兴的且具有广阔麻用 前景的领域。 知识发现的研究始于从数据库中发现有用的模式这一概念,并先后有着不同的术 语,如数据挖掘( d a t am i n i n g ) 、信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 、信息发现( i n f o r m a t i o n d i s c o v e r y ) 、知识发现( k n o w l e d g ed i s c o v e r y ) 、数据库知识发现等。当前通常认为k d d 是从数据库中发现知识的全部过程,而数据挖掘则是k d d 中的一个特定步骤。 目前比较公认的定义是f a y y a d 等给出的:k d d 是从数据集中识别出有效的、新 颖的、潜在有用的以及最终可理解模式的高级处理过程 【f a y y a d ,p i a t e t s k y y s h a p i r o ,e t c 1 9 9 6 】。 1 3 数据库知识发现包括以下步骤【3 : 1 1 确定业务对象 1 塑型莶兰塑兰丝苎 清晰地定义出业务问题,认清数据库知识发现的目的是数据库知识发现的重要一 步。知识挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了挖掘而挖 掘则带有盲目性,是很难成功的 2 1 数据准备 k d d 的处理对象是大最的数据,这些数据一般存储在数据库系统中,是长期积累 的结果。但往往不适合直接在这些数据上面进行知识挖掘,需要做数据准备j :作,一 般包括数据的选择( 选择相关的数据) 、净化( 消除噪音、冗余数据) 、推测( 推算缺 失数据) 、转换( 离散值数据与连续值数据之间的相互转换,数据值的分组分类,数据 项之间的计算组合等) 、数据缩减( 减少数据量) 。如果k d d 的对象是数据仓库,那么 这些工作往往在生成数据仓库时已经准备妥当。数据准备是k d d 的第二个步骤,也是 比较重要的个步骤。数据准备是否做好将影响到数据挖掘的效率和准确度以及最终 模式的有效性。 3 ) 数据挖掘 数据挖掘是k d d 最关键的步骤,也是技术难点所在。研究k d d 的人员中大部分 都在研究数据挖掘技术。采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、 神经网络、遗传算法等。数据挖掘根据k d d 的目标,选取相应算法的参数,分析数据, 得到可能形成知识的模式模型。 4 ) 评估、解释模式模型 上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能是其 不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估, 确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直 接用数据来检验其准确性。这个步骤还包括把模式以易于理解的方式呈现给用户。 5 ) 巩固知识 用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。同时还要注 意对知识做一致性检查,解决与以前得到的知识互相冲突、矛盾的地方使知识得到 2 塑坐! 查兰堡主堡兰 巩闺。 6 1 运用知识 发现知识是为了运用,如何使知识能被运用也是k d d 的步骤之一。运用知识有两 种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持:另一 种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优 化。 k d d 过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到 前面的步骤,重新调整,重新执行。k d d 过程分步实现,不同的步需要有不同专长的 人员,他们大体可以分为三类: 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据 定义和挖掘算法的业务需求。 数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转 化为数据挖掘的各步操作,并为每步操作选择合适的技术。 数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。 从上可见,数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高 投入的过程 1 4 数据挖掘的任务 4 】 数据挖掘是k d d 中最重要的一步,它是从数据中发现模式。模式是一个用语言l 来表示的一个表达式e ,它可用来描述数据集f 中数据的特性,e 所描述的数据是集 合f 的一个子集f e 。e 作为一个模式要求它比列举数据子集f e 中所有元素的描述方 法简单。例如,”如果成绩在8 1 9 0 之间,则成绩优良”可称为一个模式,而”如果成绩 为8 i 、8 2 、8 3 、8 4 、8 5 、8 6 、8 7 、8 8 、8 9 或9 0 ,则成绩优良”就不能称之为一个模式。 模式有很多种,按功能可分有两人类:预测型( p r e d i c t i v e ) 模式和描述型( d e s c r i p t i v e ) 模式。 预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用 郑州人学颁上论文 的数据也都是可以明确知道结果的。例如,根据各种动物的资料,可以建立这样的模 式:凡是胎生的动物都是哺乳类动物。当有新的动物资料时,就可以根据这个模式判 别此动物是否是哺乳动物。 描述型模式 描述模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。 描述型模式不能直接用丁+ 预测。例如,在地球上,7 0 的表面被水覆盖,3 0 是十地。 在实际庶用中,往往根据模式的实际作用细分为以一f6 种: 分类模式 分类模式是一个分类函数( 分类器) ,能够把数据集中的数据项映射剑某个给定的 类上。分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满 足的分支往上走,走到树叶就能确定类别。 - 回门模式 同归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散 的,回归模式的预测值是连续的。如给出某种动物的特征,可以用分类模式判定这种 动物是哺乳动物还是鸟类:给出某个人的教育情况、工作经验,可以用回归模式判定 这个人的年j :资在哪个范围内,是在6 0 0 0 元以下,还是在6 0 0 0 元到l 万元之间,还 是在i 万元以上。 时间序列模式 时间序列模式根据数据随时间变化的趋势预测将米的值。这里要考虑到时间的特 殊性质,像一些周期性的时间定义如星期、月、季节、年等,不同的日子如再假日可 能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相 关性( 过去的事情对将来有多大的影响力) 等。只有充分考虑时间因素,利崩现有数 据随时间变化的一系列的值,才能更好地预测将来的值。 聚类模式 聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能 4 郑州人学顺上论文 小。与分类模式不同,进行聚类前并不知道将要划分成几个绍和什么样的组,也不知 道根据哪一cj l ) 个数据项来定义组。一般来说,业务知识丰富的人应该可以理解这 些组的含义,如果产生的模式无法理解或不可用,则该模式可能是无意义的,需要同 到上阶段重新组织数据。 关联模式 关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则:”在无力偿 还贷款的人当中,6 0 的人的月收入在3 0 0 0 元以f 。” - 序列模式 序列模式与关联模式相仿,而把数据之间的关联性与时间联系起来。为了发现序 列模式,不仅需要知道事件是否发生,而且需要确定事件发生的时间。例如,在购买 彩电的人们当中,6 0 的人会在3 个月内购买影碟机。 在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式是使用最普 遍的模式。分类模式、回归模式、时间序列模式也被认为是受监督知识,因为在建立 模式前数据的结果是已知的,可以直接用来检测模式的准确性,模式的产生是在受监 督的情况下进行的。一般在建立这些模式时,使用一部分数据作为样本,用另一部分 数据来检验、校正模式。聚类模式、关联模式、序列模式则是非监督知识,冈为在模 式建立前结果是未知的,模式的产生不受任何监督。 1 5 数据挖掘技术演变 3 数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些 方法来实现自动决策支持,当时机器学习成为人们关心的焦点机器学习的过程就是将 一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结 并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题随后,随着 神经网络技术的形成和发展,人们的注意力转向知识i :程,知识l 程不同于机器学习那 样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则, 而计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得到的成果, 郑州人学坝1 。论文 但它有投资犬、效果不甚理想等不足。8 0 年代人们义在新的神经网络理论的指导r , 重新同到机器学习的方法上,并将其成果应用r 处理大型商业数据库。随着在8 0 年代 末新的术语k d d 的提山,它泛指所有从源数据中发掘模式或联系的方法,a f i j 接受了 这个术语,并片jk d d 来描述整个数据发掘的过程,包括最开始的制定业务目标到最终 的结果分析,而用数据挖掘( d a t am i n i n g ) 来描述使用挖掘算法进行数据挖掘的子过 料。最近人们逐渐开始使用统计方法来完成数据挖掘中的许多1 :作,并认为最好的策 略是将统计方法与数据挖掘有机地结合起来。 1 6 数据挖掘的应用 数据挖掘的典型应用是在商业领域,其典型方法和技术在其它领域的应州,现在 似乎已有突破,如将其应用于医疗领域。实际上气象部fj :作人员长期以米一直在自 己的领域中从事着这方面的工作,只是没有提出“数据挖掘”这个概念。总之,有人 量数据产生的活动,就会有应州相关技术的可能。随着技术发展的深入和相关领域知 识的渗透,数据挖掘在诸多方面的潜在应用的可能性是应该存在的。 1 7 主要研究内容 数理统计学是一门关于数据资料的收集、整理、分析和推理的科学,在时f 的数 据挖掘热潮中,数理统计方法仍是一种不可或缺的方法【5 】【6 】。 根据数理统计学的观点,由于时间序列中的每一时刻的数值都可以视为事物内部 状态的过去变化与外部所有冈素共同作用的结果,该时刻的状态量反映了事物本身的 过去所有信息和外部影响信息,因此,一旦当采集时刻足够多,也即样本长度足够长 时,状态变量就能包含该事物发展的全部信息 7 】f 8 】。换句话说,从时间序列分析的观 点对数据所含信息进行假设,认为只要当序列长度足够长时,它就包含了能制作朱来 预测的全部信息。这一假设是统计预测方法的重要基础。在此基础上进行数据挖掘, 发现事物的演变规律,可以成功地预测米来【9 】。 由丁计算机技术的飞速发展,使得定量预测有了强有力的计算i :具,冈而对于定 最预测的理论和方法的研究也有了很大进展,目前备类预测方法已丛二、四百种f j o 7 。 6 郑卅大学硕士论文 然而,目前通用的各种定量预测方法,都或多或少地存在着缺点,其主要表现是预测 误著较人,随着预测时间( 步长) 的增长,这种误差也很快增长,从而使这些预测方 法的虑川受到了很火的限制。发生这种现象的重要原因之一是动态系统的时变性与进 行预测的数学模型参数非时变之间的差异,即在预测过程中,把一个时变参数系统看 成了1 时变参数系统,用一个非时变的预测模型来预测一个时变动态系统的状态或输 出,其预测误差必然会随着预测时间( 步长) 的增加而迅速增加 1 i 】【1 2 】。 为了克服经典预测理论和方法中存在的上述缺点,8 0 年代初我国控制论专家韩志 刚先生运用现代控制理论中的系统辨识方法提供了一种新的预测理论多层递阶预 测方法【1 8 。然而,预测问题有着自己的特殊性,如果我们忽略了这种特殊性,l j 处理 控制问题的观点和方法来处理预测问题,就会使预测效果受到影响。冈而应用控制理 论中的数学模型进行动态系统的辨识和预测,也应该有相应的特殊方法,这就是多层 递阶建模方法的思想基础。 多层递阶预测方法摒弃了一般统计预测方法中所使用的| 古| 定参数预测模型,而将 预测对象看成是随机动态的时变系统,其基本思想是把时变系统的状态预测分离成为 对时变参数的预测和在此基础上对系统状态的预测两部分【1 3 】【1 4 】,对时变参数的预测 导致状态预测误差的减小。多层递阶方法就是把动态系统看成是一个一维的或多维的 时间序列,从系统的外部特征着手,建立它的输入输出模型。它依据大量的历史 资料进行时间序列的多层分析,使预报模型的建模过程所依据的信息人大增加,使所 得的模型能较好地反映系统的历史演变规律,从而有利于提高模型对于长期预测的适 应性;另一方面,时间序列的多层分析还有可能使我们避免某些非线性模型,从而可 以避免由于非线性模型所带来的某些复杂现象。 本文中,仅考虑单输出的动态系统。 1 8 论文的组织 本文分成七章,其内容组织如下: 第一章绪论 7 郑州人学硕士论文 给出了数据库知识发现产生的背景,其执行过程包括的主要步骤,以及其最重要 的一步数据挖掘的任务、技术演变及应用,介绍了本文所研究的主要内容。 第二章资料的整理 为了使后面的内容易于理解,介绍了一些常用的统计术语,内容涉及资料的表示 方法、基本统计蕈概念和统计量的分布检验。 第二章时变参数的辨识准则及其估值算法 给出了时变参数的辨识准则一一满足后验残差一致小准则,并推出了时变参数的 估值算法。 第四章多层递阶建模 给山了时间序列多层分析的方法,建立了线性单输出系统预测模型,并对系统模 型中的因子预处理进行了讨论。 第五章多层递阶回归分析 介绍了多层递阶回归分析的建模思路,为便于理解,还介绍了回归分析的方法要 点,给出了多层递阶回归分析的基本数学模型及建模步骤。 第六章多层递阶周期分析 介绍了多层递阶周期分析的基本原理,给出了用均值生成函数实现多层递阶周期 分析的具体步骤,并通过实例计算验证了它的效果。 第七章结束语 说明了此方法有待进一步完善的地方,指出以后应该努力的方向。 8 塑! ! ! 查兰堡主堡塞 第2 章资料的整理 一般来说,统计预测的基本步骤包括:预测目标分析、资料的收集和处理、预测 方法选择、建立预测模型、预测计算以及检验与评价。在整个预测过程中,对预测的 成败影响最大的是两个方面:一是对收集到的资料进行分析和筛选,这直接影响到预 测模型的建立;预测模型是否能反映出事物发展的规律性,取决丁它在建立过程中所 用资料的质量。二是选用合适的预测方法建立预测模型。 资料是进行预测的依据。对于收集到的各种信息资料一定要进鉴别和整理加工, 判别资料的真实性和可用程度,去掉那些不真实的以及与预测对象关系不密切的或不 能说明问题的资料。对于任何一项具体的预测,都需要根据预测对象的性质、决策对 预测结果的要求,并考虑所能收集到的数据资料情况,去选择合适的预测方法,并_ i j 所选择的预测方法建立用于预测的模型。选择的预测方法是否合适,利用它们建立的 模型是否能反映预测对象的实际发展状况,对预测的效果都将产生重要影响。这就要 求预测者既要掌握多种统计预测方法,义要熟悉领域知识,能灵活应用这些预测方法。 为使后面内容易于理解,在此介绍一些统计术语 1 5 】1 1 6 】。 2 1 资料的表示 1 ) 单个变量 我们要研究的每个要素( 因子或预测量) 就是一个变量。 单个变量记为x ,取它某一时间段的资料记录作为样本,样本中包含一个数据, 记为 一( f = 1 , 2 ,脬) ( 2 ,1 ) n 称为样本容量,每一个资料称为所抽取的一个样品。 在气象上,如果取某要素月平均值的 年资料,那么这些数据就是一串随时间变 化的序列。 9 郑州大学硕士论文 x = 1 。x :1 1xxil2:,xx:l# c z z , i = i 1 擎n , x = x l ,五,x p ) ( 2 4 ) 2 ) 标准差和方差 标准差是描述样本中资料与平均值差异平均状况的统计量,它用来衡量资料围绕 平均值的变化幅度。 某变量x ( 含h 个资料的样本) 的标准差的计算公式为 s ,=氍磊 更常用的是标准差的平方,称之为方差,记为 1 0 ( 2 5 ) 郑州大学钡+ 论文 s ,2 = 丢喜c x ,一i ,2 c z 6 , 在实际应用中,各个要素( 变量) 的单位不一样,平均值及标准差也有所不同, 为使它j f j j t l 在同一水平上进行比较,常使用标准化的方法,使它们变成同一水平的无 单位的变茸,这种变萤就称为标准化变量。对单变量样本容最为 的资料,标准化变 量的时间序列为 蔓兰生兰兰型( 2 7 ) s 。! s 。! ? s 。 3 ) 协方差与相关系数 协方差和相关系数是衡量任意两个变量之间关系的统计最。 对变量和。,如果均取 个资料样本,它们的协方差定义为 & = 去喜( 训矿i ) ( 2 s ) 协方差是反映两个要素异常关系的平均状况,表征了两个变最变化的止、负相关 系数。 协方差是带单位的统计量,在比较不同变量时常常带来不便,可先把原变量变成 标准化变量以消除单位,然后再计算它们的协方著。这种协方差不带单位,便丁比较, 称为相关系数。 相关可能是正的,也可能是负的。正相关表示一个变量在相关变量取高值时也取 高值。负相关表示一个变量在相关变量取低值时反而取高值。 对任意两个变量以、x ,其相关系数计算公式为 铲吉c 警,c 警, 。, 塑型查兰堡! 堡苎 ( - i d ( x 。一i ) 霭焉器焉 ( 2 1 0 ) 变量自身对自身的相关系数为i ,即 = 丢( 警) 2 - 相关系数绝对值变化在0 到1 之间,即 0 l r i 1 4 ) 峰度系数和偏度系数 峰度系数和偏度系数是用来衡量随机变量分布密度曲线形状的数字特征,前者描 述曲线渐进丁横轴时的陡度,后者描述曲线峰点对期望值偏离的程度,记偏度系数为 g ,峰度系数为9 2 ,则它们和样本中心矩的关系为 铲纛霸2 薏 式中m 2 ,m 3 和m 4 分别为二阶,三阶和四阶中心矩。k 阶中心矩表示为 = 去喜( 矿秽 ( - 2 ,3 ,4 ) 二阶中心矩就是变量的方差:三阶中心矩是j l j 来描述变量概率密度分布非对称性的, 如果其计算值为正值,表明密度分布曲线的峰点在平均值的右方,反之表明峰点在平 均值的左方:四阶中心矩用来描述分布曲线的陡度,如果其计算值小,反映观测值与 平均值靠近,分布就比较陡,反之。则表明分布曲线平缓。对遵从正态分布的变量而 言,对应的偏度和峰度值应为零。因此对任一变量,可以通过计算其偏度和峰度值, 考察它们偏离零的程度,以便确定它们是否遵从正态分布。 2 3 统计量的分布检验 郑i + 1 人学硕十论义 我们选定一定的样本进行统计分析,所得到的结果是否具有普遍意义呢? 例如, 我们为了研究某地夏季某几年的冷害对农业的影响,分析出这几年夏季的天气形势场 在该地上游地区高空有一低槽,高度场特别低,那么这儿年该区域的低值是否较常年 显著地低,会不会是随机抽样的偶然性结果? 这就需要进行概率统计中的限制性检验。 一般的显著性检验过程是给定一个假设,寻找与假设有关的统计量及其遵从的概 率分布函数,用具体的一次抽样的样本数据代入统计量,在给定的显蒋水平f ( 气象 上常取5 ) 作出对假设的否定和接受的判定。当然,这种判定也有一定的错误,即所 谓第一类错误( 否定假设时所发生的) 和第二二类错误( 接受假设时所发生的) 。这两类 错误的概率不等,由于第一类错误的概率较小,一般情况f 以拒绝假设的结论为好, 即犯错误的可能性较小。 住统计方法中,我们经常假定随机变量人多遵从止态分布。若原总体不是止态分 布,则根据中心极限定理【1 7 】,当样本容量很人时,其平均值近似地服从止态分布 仃j u ( m ,下) ,其中m ,盯分别是总体平均值( 数学期望) 与均方著。 胛 2 3 1 变量的分布检验 如上所述,统计方法中的随机变量多假设为遵从正态分布,为了在使用方法时能 符合这种假设的条件,严格来说,应对研究的变量进行分布检验。 在样本容量很大的情况下,随机变量若遵从正态分布,它的偏度系数和峰度系数 亦遵从正态分布,它们分布的数学期望为零,均方差分别为 及 s 9 1 = s 9 2 = f6 0 2 ) w n 十i ) + 3 ) 2 4 n ( n 一2 ) ( 疗一3 ) w - + 1 ) 2 ( 胛+ 3 ) ( 厅+ 5 ) 式中n 为样本容量,因此,对某一变量作正态性的检验可如f 进行:假设要检验的变 塑型查堂堡生丝兰 量是遵从正态分布,分别用一次抽样的样本计算偏度系数及峰度系数,若在显著水平 口= 0 0 5f 及 蚓儿怕焉6 ( n - 2 ) 蚓乩,s 层磊 竹砖x 蒜n - 2 ”,爷r ( _ ) ,:兰鱼 r 么 1 4 郑州人学硕 。论文 厂p ) a r :下1 、万 = 击罢v + l t :历,兰 1 一r 2 ( 2 1 1 ) 遵从自由度为”一2 的t 分布。 如对某地1 2 月和1 月的气温资料,计算其相关系数为,= o 3 5 2 ,资料样本数为 = 3 0 ,计算 i ,i = b s z = 1 9 9 查自由度行一2 = 2 8 时,显著水平口= 0 0 5 的i 晦界值,。= 2 0 4 8 现i t f ,则通过显著性的t 检验。求的过程如r :由( 2 1 1 ) 式,在指定显著水 平口r ,通过显著性检验计算的t 值应至少等于在af 否定域的起点值f 。故有 f 。= 式中就是刚巧通过检验的相关系数临界值。由上式解出 志v 竽 势 学 辱 郑州大学硕士论文 = 例如,需要从n = 4 2 的样本容量中检验一批因子,在口= o 0 5 时f o0 0 5 = 2 0 2 1 ,计算 得相关系数临界值为 4 22 鬻0 21 ) 一o ,、一+ ( 2 2一 凡大于o 3 0 4 的相关系数都通过检验。 2 4 小结 本章介绍了一些统计学中常用的术语,并介绍了对变量进行正态分布检验的方法 和对两个变量相关性进行检验的方法。凡在变量符合正态分布且变最相关系数人丁某 个临界值的情况f ,所得出的统计分析结果才具有普遍意义,才可以用于指导以后的 l :作。 1 6 塑丛查堂堡兰堡苎一 第3 章时变参数的辨识准则及其估计算法 3l时变参数的辨识准则及其估计算法 解决动态系统的预测问题是从资料的收集和分析着手,在此基础上通过适当地应 用辨识方法,建立起系统的数学模型。在此,我们首先来讨论关于时变参数辨识准则 的确定问题。 为不失一般性,设所考虑的单输出的动态系统的数学模型为: y ( k ) = f y k 。u k ,曰( 女) ,k 】+ e ( k ) ( 3 1 ) 其中: 耳一。= y ( 0 ) ,y ( 1 ) ,y ( 2 ) ,一,y ( k 1 ) u 。= “( o ) ,“( 1 ) ,“( 2 ) ,“( t ) y ( k ) 是一维的输出,u ( k ) 是p 维的输入,o ( k ) 是m 维的随时问变化的参鼍, e ( k 1 是n 维的随机噪声,是离散的流动时间。 对于模型( 3 1 ) 而言,系统输出的向前一步预测公式为 多( 七1 0 ) = , 乓l ,u t ,口( | i ) ,t 】 ( 32 ) 相应的预测残差为 e ( k ,0 ) = y ( k ) 一多( 1 0 ) = y ( k ) 一厂【k + u 。,口( ) ,k 】 由于y ( k ) 是被预测量,它是未知的,从而仅可能有资料k l 和u 女,所以应j _ j 般的估值算法仅能得到臼( 一1 ) 的估值毋( 一1 ) 。于是,对于模型( 3 1 ) 而言,一般 所谓自适应预测算法,仅能具有如下形式: 多( 七i 百( 女一1 ) ) = ,【k 一,u 。,台( t 1 ) ,女】 ( 3 3 ) 1 7 塑型查兰堡主堡苎一 如果系统的参数是快时变的,即曰( ) 和目( 女一1 ) 有较大的著别,则( 3 3 ) 式的算法将 产生较人的预测误著。 为了减少这一误差,我们要设法得到臼( ) 的某种估值日+ ( t ) ,进而把预测算法写 成 多( i 舀( t ) ) = ,【。,u 。,舀+ ( 七) ,k l ( 3 4 ) 并称之为含有参数预测值的预测公式。 此时,预测的残差为 s ( k i 谷+ ( ) ) = y ( 女) 一f y k l ,u t ,占+ ( 七) ,j i ( 3 5 ) 以r 我们称( 3 5 ) 式为后验残差,其中0 + ( ) 是o ( k ) 的依赖于k 和u 女的估值。 设臼d :艿) 是一族含有参量j 的关于动态系统参量口( 七) 的估值算法,如果对 丁任何的s 0 ,皆有j 。a ( a 为常数集合) 和n 0 ,使得当k n 时,由算法 a d 所得出的参量估值秽( j i ) 恒满足 l 占( | i ,占( 七) 0 m a x ( u ,) “,( 盯+ 七) 1 “? ( + _ j ) r 则引入u 。1 所对应的变量进入方程。这个变量若在以f 的变最剔除的f 检验中不被剔除,则认为它就是时间序列长度为,的第一周期。 对相关矩阵作变换计算 ( f - k ,j = 七) ( i = k ,j 七) ( f k ,= 女) ( f t ,j t ) ( 是方差贡献最大的备选因子的序号) 计算除已被选入方程的变量以外的各变量的e , ( 6 1 7 ) 叫”= 节( i ) x 2 2 扩已入选因子的标号) 选u 。1 计算的f 值作显著性检验,若f c 则引入u 1 所对应的变量进入方程, 并对相关矩阵作变换。这个变量若在以下的变量剔除的f 检验中不被剔除,则认为它 就是时间序列长度为1 2 的第二周期。 4 7 譬 = o u 一一矿一矿 警 一 0 矗 塑型查堂堡兰堡苎 一一 重复步骤,继续引入第三个变量,并对相关矩阵作变换计算 对已选进的第一、二变量分别作f 检验,即比较【,”。选出其中最小者u 。2 计算,值作显著性检验。 如= 器 若 只,则剔除该变量并作矩阵变换计算 ( 扛,j = ) ( i = k ,j ) ( i k ,j = ) ( f ,j | ) ( 6 1 9 ) ( 6 2 0 ) 重复步骤、( 此时要引入的变量中不包括上一步刚被剔除的变量,中要进 行剔除检验的变量不包括最近刚引入的一个变量) ,直到既没有变量能够被剔除也没有 变最能够被引进为止。如果进行了,步,选得m 个变量,这m 个变量是均值生成函数 因此它们就是时间序列( t ) 隐含的主要周期或称作显著周期分量,分别记做 工( 女) , ( 女) ,j ( j ) 。 6 5 建模方法 已知多层递阶周期分析的基本数学模型为 y ( ) = 口,( ) ,( 女) + p ( t ) = l 应用上面介绍的计算方法,通过对时间序列涉( i ) 的延拓均值生成函数的逐步回归筛 上一矿p一矿 警 一 2 塑型查兰塑! :堡苎一 选,可得到关于时间序列( ) ) 的肌个显著周期分量z ( ) ,疋( ) ,f a k ) 。这样 建立多层递阶周划分析预测模型剩下的问题就是时变参数的估值与预测。 若置 ( t ) = z ( 七) , ( ) ,一,:( ) 】” 目( 七) = 口,( 七) ,口2 ( 七) ,一,耐。( 七) j 则多层递阶周期分析预测模型可写成 y ( k ) = ( ) 7 护( ) + 口( 七) ( 6 2 1 ) 其中( 七) 为时间序列涉( 七) 的显著周期分量的集合向鼍。 引进时变参数递推算法公式 鲰州( 肛1 ) + 击矽眇叫桫文) 】 ( 6 2 2 ) 由历史资料,利用( 6 2 2 ) 式对预测系统的时变参数进行跟踪,则可得到一系列与显著 周期分量z ( ) 相对应的参数跟踪估值序列。 对模型( 6 2 1 ) 而言,( 6 2 2 ) 式亦可写成 西,( 七) = 西,( 七一1 ) + ( :( 七) ) 2 :( j i ) 【y ( 后) 一舀。( t 1 ) ,( 七) 】 ( 6 2 3 ) 在多层递阶周期分析预测模型中,其预测因子即为时间序列的显著周期分鼙。由丁i 在 多层递阶方法中时变参数与其相应的因子量值成正比,因此一般来说,其所对庶的时 变参数估值序列往往表现为一定的周期性波动变化特征,此时宜采用分段周期变量法 或选点法a r 模型进行时变参数预测是比较适宜的。 分段周期变量法预测公式为 4 9 塑型查兰堡主笙苎 n 川,= 击善蜘小绷 虮棚,2 毒善嘶协俐 z a , 咖+ z ) = 可1 缶h j q ( n + i 一只) 其中r t 为资料样本数,l 为对应的显著周期分量的周期长度,h ,= j 7 1 ( 詈) 。 选点法a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 28245-2025自动锻压机噪声限值
- 2025年清远辅警协警招聘考试真题附答案详解(轻巧夺冠)
- (完整版)圆柱、圆锥的表面积和体积练习试题
- 2025年郴州辅警协警招聘考试真题附答案详解(培优)
- 2025年荆州辅警招聘考试真题含答案详解(达标题)
- 2025年莆田辅警招聘考试题库有完整答案详解
- 2025年舟山辅警协警招聘考试真题及答案详解(基础+提升)
- 2025年荆州辅警招聘考试真题含答案详解(完整版)
- 2025年湘潭辅警招聘考试真题含答案详解(模拟题)
- 2025年甘南州辅警招聘考试真题含答案详解(基础题)
- 医院感染暴发与处理流程规范
- 医学影像技术职业生涯规划书
- 妇科超声新进展
- 《家政服务业职业技能大赛-家政服务赛项技术文件》
- 高校思政说课课件
- 2025年福建省事业单位教师招聘考试地理学科专业知识试卷
- 肿瘤常见症状管理
- 2025电力企业技改大修项目全过程管理
- 医疗质量安全核心制度落实情况监测指标
- 赌博补偿协议书范本
- 《智能设备故障诊断》课件
评论
0/150
提交评论