(控制理论与控制工程专业论文)复杂动态系统的预报方法研究.pdf_第1页
(控制理论与控制工程专业论文)复杂动态系统的预报方法研究.pdf_第2页
(控制理论与控制工程专业论文)复杂动态系统的预报方法研究.pdf_第3页
(控制理论与控制工程专业论文)复杂动态系统的预报方法研究.pdf_第4页
(控制理论与控制工程专业论文)复杂动态系统的预报方法研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(控制理论与控制工程专业论文)复杂动态系统的预报方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 复杂动态系统由于其发展过程中所反映出的信息有多种不确定性,要研究复 杂动态系统的功能和运行机制,预测其发展趋势,还是有相当难度的。本文从两 个角度对复杂动态系统可预报性进行研究。主要研究工作如下: 1 本文先从预测学的基本层面考虑,根据鞅等相关概念进行初步理论分析, 试图给出复杂动态系统可预报的定义。 2 本文对时间序列数据挖掘三个重要领域进行探讨,对欧几里德距离和动态 时间弯曲距离进行了对比分析,指出其各自的优缺点。对时间序列分类各种方法 进行比较,指出神经网络分类需要较长的训练时间等缺点。 3 经验模式分解方法是一种基于局部信号特征的分解方法,但其端点效应问 题始终没有得到根本解决,本文对此问题举出三种有效的处理方法并进行比较。 本文提出了将经验模式分解和主成分分析相结合的方法,应用主成分分析方法提 取模式中的主要成分,作为r b f 神经网络输入的节点。实验证明,将经验模式分 解和主成分分析相结合提取主要成分后,优化了输入变量,从而降低了网络训练 周期,而且预测精度也比使用单一r b f 神经网络进行预测要高,仿真取得了较好 的效果。 关键词:鞅;经验模式分解;可预报性;主成分分析 黑龙江大学硕士学位论文 a b s t r a c t t h ec o m p l e x 由m a m i cs y s t e mh a sk i n d so fu n c e r t a i n t i e s ,s oi t i sv e r yd i f f i c u l tt o r e s e a r c ht h ef u n c t i o n sa n do p e r a t i o n a lm e c h a n i s ma n dt op r e d i c ti t sd e v e l o p m e n t t r e n d t h i sa r t i c l es t u d i e st h ep r e d i c t a b i l i t yo ft h ed y n a m i cc o m p l e xs y s t e mf r o mt w o a s p e c t s t h em a i nr e s e a r c hw o r k sa r ea sf o l l o w s : 1 t h i sa r t i c l ef i r s t l yc o n s i d e r st h eb a s i ca s p e c to ft h ef o r e c a s ts c i e n c ea n dm a k e s a np r e l i m i n a r yt h e o r e t i c a la n a l y s i sa c c o r d i n gt ot h em a r t i n g a l ea n dr e l a t e dc o n c e p t s ,t h e n d e f i n e st h ed y n a m i cc o m p l e xs y s t e m sp r e d i c t a b i l i t y 2 t h i sa r t i c l ee x p l o r e st h r e ei m p o r t a n ta r e a so ft i m es e r i e sd a t a ,c o n t r a s t sa n d a n a l y s e se u c l i d e a nd i s t a n c ea n dd y n a m i ct i m ew a r p i n gd i s t a n c e ,a n dp o i n t so u tt h e i r a d w a n t a g e sa n dd i s a d v a n t a g e sr e s p e c t i v e l y i ta l s oc o m p a r e sv a r i o u sm e t h o d so ft i m e s e r i e sc l a s s i f i c a t i o n sa n dp o i n t so u td i s a d v a n t a g e so ft h en e u r a ln e t w o r kc l a s s i f i c a t i o n s u c ha sl o n gn e t w o r kt r a i n i n gc y c l e 3 e m p i r i c a lm o d ed e c o m p o s i t i o nm e t h o di sad e c o m p o s i t i o nm e t h o db a s e do nt h e l o c a l s i g n a l sc h a r a c t e r i s t i c s ,b u tt h ee n d p o i n t se f f e c t h a sn o tb e e nf u n d a m e n t a l l y r e s o l v e d t h i sp a p e rp r e s e n t sa n dc o m p a r e st h r e ee f f e c t i v em e t h o d st od e a lw i t ht h e p r o b l e ma b o v e t h em e t h o do fc o m b i n i n gt h ee m p i r i c a lm o d ed e c o m p o s i t i o nw i t h p r i n c i p a lc o m p o n e n ta n a l y s i s i s p r e s e n t e d t h ep r i n c i p a lc o m p o n e n t s w h i c ha r e e x t r a c t e db yt h ep r i n c i p a lc o m p o n e n ta n a l y s i sa r eu s e d a si n p u tn o d e so ft h er b fn e u r a l n e t w o r k s t h ee x p e r i m e n t ss h o wt h a tt h em e t h o do fc o m b i n i n gt h ee m p i r i c a lm o d e d e c o m p o s i t i o n 、析t l lp r i n c i p a lc o m p o n e n ta n a l y s i so p t i m i z e st h ei n p u tv a r i a b l e sa n d r e d u c e st h en e t w o r kt r a i n i n gc y c l e f u r t h e rt h em e t h o dh a sh i g h e rp r e d i c t i o na c c u r a c y t h a nt h em e t h o dt oa p p l ys i n g l er b fn e u r a ln e t w o r k s o m es i m u l a t i o ne x a m p l e ss h o w t h e i re f f e c f i v e n e s s k e y w o r d s :m a r t i n g a l e ;e m p i r i c a lm o d ed e c o m p o s i t i o n ;p r e d i c t a b i l i t y ;p r i n c i p a l c o m p o n e n ta n a l y s i s i i 独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得墨蕉江丕堂或其他教育机构的 学位或证书而使用过的材料。 学位论文作者签名:三彳耋劫木签字日期:舢7 年 月7 日 学位论文版权使用授权书 本人完全了解墨蕉婆盔堂有关保留、使用学位论文的规定,同意学校保留并 向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本 人授权墨蕴堑盔堂可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或其他复制手段保存、汇编本学位论文。 学位论文作者签名:习耄孑夸 签字日期m 夕年夕月7 日 学位论文作者毕业后去向:哆郑 翩躲幻 答字日期:一年朋7 日 工作单位翼厄;2 煺设磁司郦刁电话:。一目2 岁。p 占肛 通讯地址:f 幻遘务醒勿瑟熏尹知号 邮编 i 玉w 跏 第1 章绪论 1 1 研究背景和意义 第1 章绪论 随着科学进步和社会发展,人们所预测的系统多数是复杂的、庞大的、不确 定的。这种系统信息繁多、涉及多种因素、各种因素间关系复杂,系统发展过程 中所反映出的信息含有多种不确定信息,它们有时交叉出现,有时同时呈现。要 理想地研究复杂的不确定性系统的功能和运行机制,揭示其内在规律,预测其发 展趋势,单独考虑某种不确定性信息的处理是不全面的,因此,应综合处理不 确定性信息。至2 0 0 0 年,全球数据存储容量己达30 0 00 0 0 t b ,在这些保存的数 据中,绝大部分是呈现时间序列类型的数据。所谓时间序列数据就是按照时间先 后顺序排列的各个观测记录的数据集。时间序列在社会生活的各个领域中都大量 广泛存在,如科学记录:包括天文观测,气象图像等。金融和商业交易记录:如 股市每天的交易价格及交易量,超级市场每种商品的销售情况等。电信行业运营 记录:如某个节点流量随时间变化情况等。病历记录:包括病人的每次看病的病 情记录以及心电图等扫描仪器的数据记录等。时间序列几乎无处不在,随着科学 技术的不断发展,计算机以及存储设备的存储容量日益增大,时间序列数据库也 越来越大,如何对这些海量的时间序列进行分析处理、挖掘其背后蕴涵的价值信 息等对于揭示事物发展变化的内部规律,发现不同的事物之间的相互作用关系是 至关重要的。 从原始数据发现有用的模式或知识通常称之为数据库中的知识发现,简称 k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) u 引。所谓k d d 是指在数据库中识别正确 的、新颖的、有潜在实用价值并最终可以理解的模式的复杂过程。而数据挖掘【4 】 是知识发现整个过程的一个特定步骤,是知识发现最核心的部分。数据挖掘是利 用统计学、机器学习、模式识别、神经网络、信号处理等各个学科领域的先进技 术对大量历史数据进行分析处理。数据挖掘不仅能对过去进行查询和遍历,并且 能对将来的趋势和行为进行预测,从中提取隐含的事先未知的和有价值的知识, 黑龙江大学硕士学位论文 为人们的分析决策提供更高层次的技术支持。相对于数据挖掘较成熟的部分而言 ( 如关系数据库中的关联规则和分类规则挖掘等) ,针对时间序列数据挖掘【5 】的研究 是数据挖掘领域中一个较新的分支,自从2 0 世纪9 0 年代以来发展迅速,其研究 内容涵盖了时间序列的相似性度量【6 】、相似性搜索同、时间序列聚类【8 】、时间序列 分类 9 - 1 1 1 、时间序列异常检测和时间序列预测【1 2 】等。 本文重点研究针对非线性和非平稳的复杂动态系统,应用时间序列预测方法 进行建模和预测。针对非线性复杂时间序列很难使用单一预测模型建模的问题, 本文将复杂时间序列用e m d 分解【1 3 】成为一系列平稳、对称的非线性时间序列,然 后对每个分量进行数据预处理,在每个分量上进行r b f 神经网纠1 4 】建模型,最后 将每个分量上的预测结果进行集成。这一工作对研究金融和商业、电力负荷预测 系统、电信行业运营等都有广泛的应用前景,因此无论是从理论研究,还是从应 用研究的角度考虑,复杂动态系统的基于时间序列预测方法的研究都具有重要的 应用价值和学术意义。 1 2 时间序列预测研究现状 所谓时间序列预测,就是用历史数据构造时间序列模型,然后借助模型外推 以预测未来。但是伴随而来的问题是,即使模型对数据匹配得相当好,有时也无 法做出准确的预测,何况我们在对非线性和非平稳的复杂动态系统进行预测时, 能否建立与数据匹配的模型都是非常值得我们研究的问题,那么能否认为时间序 列预测失去其价值了么? 这个问题涉及到了整个预测学的基础。任何预测,无论 是时间序列预测还是其他预测,都有一个先决条件:要预测的事物存在某种趋势, 当趋势不存在时,要作出准确的预测是相当困难的。本文将给出一个时间序列是 否可预测的定义。 在自然科学领域,预测是相当准确的,而在商业经济领域,由于人类行为的 变化和人类对未来时间的影响能力,趋势的存在是不确定的。预测趋势越长趋势 发生改变的机会就越大,这是因为人们的行为和态度可以改变,他们有较多的时 间利用预测改变未来,以达到他们期望的目的,这种情况发生在金融领域,尤其 第1 章绪论 在股票预测方面,人们总是希望找到股票发展的规律以达到投资的最大收益,但 是这种规律往往很难达到。现在有很多软件希望实现这种预测,但是实际结果大 都不理想,于是许多人对于不能准确预测这类金融领域变化和环境地质变化等表 示不满,这一不满也被许多评论文章所支持。我们的看法是,预测不是神机妙算, 它只是人们借助大脑和数学模型对未来做出的力所能及的估计和判断。针对复杂 动态系统的预测并不能消除未来的高度不确定性,它的最大价值在于向决策者提 供事物按照过去和现在的趋势发展下去,将会达到一个什么样的境地。 传统的时间序列预测方法主要为线性模型,有自回归模型( 、移动平均模 型 饮) 、自回归移动平均模型( a r m a ) 及混合自回归移动平均模型( a r i m a ) 等, 而现实的时间序列一般是非线性和非平稳的,所以传统的线性模型显然不太适合 来进行预测,需要采用非线性方法来进行时间序列预测建模型。最近一段时间广 泛采用的新方法主要有: ( 1 ) 广义神经网络方法。广义神经网络是d o n m df s p e c h t 在1 9 9 1 年提出的一种 新型的神经网络,它建立在数理统计的基础上,能够根据样本数据逼近其中隐含的 映射关系,即使样本数据稀少,网络的输出结果也能够收敛于最优回归表面。目前, 该神经网络在系统辨识和预测控制等方面得到了应用,但是国内还没有发现对该 神经网络的应用研究。 ( 2 ) 局部模型方法。利用局部模型【1 5 】的方法进行混沌时间序列预测,针对局部 模型对参数敏感的问题使用交叉验证方法来优化参数设置,减少使用者选择参数 负担和提高了预测精度。 ( 3 ) k i i i 神经网络法。使用i i 神经网络【1 6 】进行时间序列预测,k i i i 神经网络用 三层k i i 网络构造一个前馈或反馈网络,而不同参数设置的1 4 i i 网络可以表现为正、 负和零吸引子的非线性动力系统,当k i l l 系统被调整到自我平衡状态时,k i l l 系统 将保持为非周期动力系统。i i 神经网络模型的优点是可以很好地模仿非线性动力 系统,缺点是结构复杂、训练时间复杂度高,所以i i 神经网络模型的未来发展方 向之一为如何平衡系统结构和动态系统性能二者关系。 ( 4 ) 支持向量机方法。支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 【】刀是近 黑龙江大学硕士学位论文 年来机器学习研究的一项重大成果。根据v a p n i k & c h e r v o n e n k i s 的统计学习理论, 如果数据服从某个( 固定但未知的) 分布,要使机器的实际输出与理想输出之间的偏 差尽可能小,则机器应当遵循结构风险最小化原理,而不是经验风险最小化原理, 通俗地说就是应当使错误概率的上界最小化。支持向量机正是这一理论的具体实 现。与传统的人工神经网络相比,支持向量机不仅结构简单,而且各种技术性能 尤其是泛化( g e n e r a l i z a t i o n ) 能力明显提高,这已被大量实验证实。根据非线性时间 序列数据相关性随时间变化的特点提出c a s c e n d i n gs v m 算法,离预测点近的数据 给予更高的权值,得到了比标准s v m 时间序列模型更高的精度。 ( 5 ) 经验模式分解方法1 1 s , 1 9 1 。美国华裔教授n o r d e ne h u a n g 于1 9 9 8 年提出了经 验模式分解( e m p i r i c a lm o d ed e c o m p o s i t i o n , 简称e m d ) 方法,并引入了基于h i l b e r t 变换的h i l b e r t 谱的概念和h i l b e r t 谱分析的方法。美国宇航局将该方法命名为h h t 变 换f 2 0 1 ,该变换由两步组成:第一步将任意信号分解为若干本征模式分量和一个余 项,该步骤称为经验模式分解法;第二步对每个本征模式或余项进行希尔伯特谱 分析。该方法虽然能有效地分析非线性、非平稳信号,但是其存在一个比较重要 的问题就是端点效应问题,此问题一直是e m d 方法的一个研究热点问题,本文也 对此问题进行讨论。 1 3 本文主要工作和内容安排 本文首先介绍随机过程及概率论一些基本相关概念,从预测学的基础层面考 虑,进行初步分析,试图给出对复杂动态系统可预报的理论依据,然后采用某一 具体方法对某一具体事件进行预报。本文将采用e m d 方法进行模式分解然后结合 主成分分析方法,在此方法上进行i 迅f 神经网络建模。e m d 是一种经验的方法, 所以一直缺少数学模型,建立e m d 方法的数学模型是现在研究的热门问题,但该 部分的研究一直没有什么进展。e m d 的一个比较重要的问题就是端点效应问题, 在运用e m d 方法对非平稳信号进行分解时,在数据的两端会产生发散现象,并且 这种发散的结果会逐渐向内“污染”整个数据序列而使所得分解结果严重失真,而且 在对i m f 分量进行h i l b e r t 变换时,信号两端也会出现严重的端点效应。所以端点效 第1 章绪论 应问题一直是e m d 方法的一个研究难点和热点问题。径向基函数( r b f ) 网络是一种 典型的局部逼近神经元网络,它具有全局逼近性质和最佳逼近性能。r b f 网络结构 上具有输出权值线性关系,同时训练方法快速易行,不存在局部最优问题。 所以本文将对复杂时间序列用e m d 分解成为一系列平稳、对称的非线性时间序列, 然后对每个分量上进行数据预处理,再对处理筛选后的分量进行i 淝f 神经网络建模 型,将每个分量上的预测结果进行集成。本文内容如下: 第一章:主要介绍了时间序列数据挖掘的国内外研究近况,并对本文方向时 间序列预测新兴方法进行评述。 第二章:根据概率论等相关概念对复杂动态系统可预报性进行初步分析,给 出系统可预报的定义。 , 第三章:主要介绍时间序列数据挖掘的基础理论,包括其主要的技术和应用 领域。 第四章:主要介绍本文时间序列预测算法的实现过程,对复杂时间序列提出 经验模式分解、主成分分析和i 出f 神经网络结合的方法进行预测。 黑控江大学硕士学位论文 第2 章复杂时间序列可预报性初步分析 时间序列预测就是用反映被预测事物过去和现在变化规律的观测数据来构造 时间序列模型,然后借助模型以预测未来。随着科技的进步,预测学已经从以往 的自然科学领域发展到商业经济领域,由于人类行为的变化无常和对未来事件进 行干预的能力,趋势的存在是不稳定的。所以由于众多不确定性因素的存在对复 杂的系统例如金融领域进行准确的预测是有难度的。我们对预测应该有正确的认 识,预测是人们借助大脑或数学模型对未来作出的力所能及的判断和估计。预测 的最大价值在于向决策者提供了事物按照过去和现在的趋势发展下去,将会达到 的状况,但并不能消除未来的高度不确定性。本章将从预测学基本层面考虑进行 初步分析,给出可预报定义。 2 。1 预报理论基础 设有时间序列 五) 闰如,由该序列前刀个随机变量五,五,鼍所产生的 万一体可以表示成:留= 留( 五,砭,k ) ,其构成方法如下: 一维情形时:设( q ,矿,尸) 是一个概率空间,x 是一个随机变量, = x _ 1 ( 劈) i 留 ,这里是一个b o r e lo - 一体,x 。1 ( 留) = c o lx ( 缈) 留) ,就 有由p 生成的仃一体留( ) ( 实际上留( 夕) = ) 被称为是由随机变量x 生成的 矿一1 本。 同样我们定义以五,五,以) ,这里( 五,x n ) = i 是玎维随机变量。对 于任意的拴维b o r e l 集合劈”,置 x 4 ( 留”) = l ( x i ,x 2 ,x 。) 留”) ( 2 - 1 ) 和 ”= x ( 留”) i 留”a ”( 2 2 ) 其中”是以维的b o r e l 盯一体。于是由”生成的盯一体就称为,z 个随机变量 第2 章复杂时间序列可预报性初步分析 五,x 2 ,x 。所导出的莎一体,记作留= 留( 五,x 2 ,托) 。 定义2 1 设】,是一个随机变量,z 是与之有关的一组观测数据,】,( z ) 是】,依 据于z 的一个估计,如果对于切其他的估计,( z ) 皆有 e ( 】,一多( z ) ) r ( 】,一p ( z ) ) e ( 】,一】,( z ) ) 7 ( y 一,( z ) ) ) ( 2 3 ) 则说y ( z ) 是】,的一个最小方差估计。 定义2 2 设】,是一个随机变量,z 是与之有关的一组观测数据,r ( z ) 是】,依 据于z 的一个估计,如果 e 】厂( z ) = e n( 2 - 4 ) 则说】,( z ) 是】,的一个无偏估计。 定义2 3 设( q ,矿,尸) 是一个概率空间,设留是矿的一个子盯一体,x 是一个 可积实值随机变量,则x 关于留的条件数学期望是一个可积留一可测的随机变量 e xi 留) 或e 碧 x ) ,使得对每个肜留有: e x l 留 a p = l x d p ( 2 5 ) 注意由条件数学期望的定义知e x i 矿 是矿一可测的,并有以下性质: ( 1 ) e e xi 昂l 囝= e xl 昂a s ( 2 ) e e xi 昂) = e x ) a s ( 3 ) 设x 是一个彳一可测的随机变量,a t 是可积的,就有 e x y l 昂= x e y i 昂a s ( 4 ) 随机变量e x i 昂是耳一可测的,如果x 也是彳一可测的,就有 e xi 。邪= x 口j 定理2 1 设 五) 是一个随机序列,h 是一个正整数,乙是 置) 在时刻,2 以前 的观测数据,x m ( 乙) 是该时间序列依据乙向前h 步的最小方差无偏估计值,则 黑龙江大掌硕士学位论文 必有 e + ( 乙) = e 以+ 。i 乙) ( 2 6 ) 其中e 疋+ 。l 乙) 是曩+ 在条件乙之下的条件数学期望。 证明无偏性显然。 来证明公式( 2 6 ) ,为此设x ( z 。) 是该随机序列依据z 。向前h 步的任一估计,则有: e ( k 柏一r ( z :妒。0 柏一r ( z :”) = 耳( k 一以iz :1 ) + 耳鼍锄i2 :1 ) - r 亿矿 一躺mi 乙 + e l 乙) 一r ( 乙) ) ) = e ( 义肿 一e ( 叉 iz :) ) ,( 咒曲一取柏l2 :) ) ) ( 2 7 ) 埘( 耳k 厅i 乙) 一r 皈矿( 鼍砌一e k 1 乙) ) ) 饱 ( 一以ki 乙炉( 既肭i2 :1 ) 一r 亿) ) ) 十e ( e 柏i 乙) 一r 眩炉( e 瓯。l 乙) _ r 亿) ) ) 由条件数学期望的性质得: e ( e k + 。l 乙卜x ( 乙) ) r ( 鼍+ 。- e ( x + 。i 乙) ) ) = 以( e k + 妇l 乙 一x ( 乙”r 置+ 。)( 2 8 ) 一e ( 昱 鼍柚l 乙) 一x 。( z n ”丁取x 舢l 磊 ) 而 e ( e 以i 乙 一x ( 乙) ) r e k 。i 乙) ) = 互 昱 ( e 五+ 。lz 。) 一x ( 乙) ) 7 鼍砌1z 。) ( 2 9 ) = 以( e 以+ l 乙) _ z ( 乙) ) r 以+ 。 所以 e ( e x 辨。lz 。卜一x ( z 糟) ) 7 ( j 巳锄一昱 x 。柏iz 。 ) = 0 ( 2 - 1 0 ) 同样的有 e ( x 。 一e ( x 。+ | i ,lz 。) ) 7 ( e x 。 iz 。 一x ( z 。) ) ) = 0( 2 一1 1 ) e ( 一r ( 乙矿( k r ( 乙) ) ) = e ( 以+ 。一e 以+ l 乙 ) 7 ( 以柏一e e + 。l 乙) ) ) + 歇( e 瓦+ l 乙 x + ( 乙) ) 1 ( e 咒+ 。i 乙) 一x + ( 乙) ) )( 2 一1 2 ) 第2 章复杂时间序列可预报性初步分析 由此可见,只有当x ( z 。) = e 以+ iz 。) 时,方差 耳q 厂肿 一x + ( 乙) ) 7 ( 五+ 一x ( 乙) ) ( 2 1 3 ) 才能达到最小。 以上定理说明了条件均值预报就是最小方差预报。如果能够找到条件数学期 望( 条件均值) e 以+ 。i 五,五,以 = 戤鼍+ i 留( 五,五,咒) 的具体表达式,则 时间序列 x , = l ,:,向前厅步的预报问题就完全得到了解决。但遗憾的是除正态过 程外这种表达式很难找到,甚至不可能找到。如果上述过程是平稳的,则我们可 以导出简单的预报公式,并且只利用均值、方差,这就是线性预报。 我们仅考虑根据随机变量】,对x 进行预报,已知两个随机变量具有均值 以,以,方差一,蠢及协方差e ( x 1 t x ) ( y 一所) ) = ,考虑】,的线性函数 x + = a + b y 或等价地x = a + b ( y 一所) 作为x 的可允许预报,此处口,b 为任意实 数。下面将证明,最优预报的系数口,b 仅依赖于它们的均值、方差,而不需要关于 它们的联合分布的全部知识。 我们证明,x 基于y 的线性最小方差无偏预报( 称为最优线性无偏预报) 为: 龛= 纨+ 等( y 一以) 2 - 1 4 ) 为证明上式,令x 。= 口+ 6 ( 】,一所) ,则x x = a + 6 。( 】厂一所) ,其中a = 如- a , b :缉一b ,如同定理2 1 ,我们证明 c r e ( x x + ) 丁( x x + ) ) = e ( 石一x ) 2 + 2 e ( x x ) ( x x 。) ) ( 2 - 1 5 ) + e ( x x ) 2 ) 上式右端第二项 e ( x x ) ( x x ) ) = e 【( x 一以) 一等( 】,一以) 【口+ b ( 】,一所) 】 = 口。e ( x 一以) 一旦孚( 】,一所) ) + b e ( x l u x ) ( y 一胁) 一旦孚( y 一所) 2 ) 仃。i t 一 黑龙江大学硕士学位论文 = d + 6 ( 一) ( 2 1 6 ) = 0 所以e ( x x + ) r ( x x 。) ) = e ( x x ) 2 ) + 以( 工一x + ) 2 ,当x 在线性预报类中变 动时上式右端只有当x = x 是达到最小,所以x 是x 基于】,的线性最小方差预 报。 2 2 随机时间序列的可预报问题 因为留( 墨,五,k ) 是由一切与五,x :,e 有关的事件形成的盯一体,所 以可以认为留( 五,五,k ) 包含了与墨,x :,x 。有关的所有信息,即包含了时 间序列 置 ,司如所反映的所有发展过程和规律。于是可得出: 定义2 4 时间序列 五b ,2 ,说是一步完全可预报的,如果存在正整数吖使得 对一切7 m ,恒有 留( 五,五,瓦) = 留( 五,五,以,+ ,) ( 2 1 7 ) 否则说 置k | 2 是非完全可预报的。 非完全可预报的过程可分为两类:部分可预报的和完全不可预报的,人们往 往把完全可预报的过程和部分可预报的过程统称为可预报的过程。 定义2 5 时间序列 置) j = l ,2 。说是办步完全可预报的,如果存在正整数m 使得 对一切玎m ,恒有 留( 工,五,k ) = 留( 五,五,鼍,以+ 。) ( 2 1 8 ) 下述命题理论上是成立的,但实践上不一定能够成立。 命题2 1 如果时间序列 五 闰厶是一步完全可预报的,则必是办步完全可预报 的。 证明 由于时间序列 置 阊玉一是一步完全可预报的,存在整数m ,当刀m 时,有 留( 五,五,鼍) = 留( 五,置,兄,以+ ,) 第2 章复杂时间序列可预报性初步分析 所以 留( 五,五,以+ ,) = 历( 五,五,以,以+ :) 留( 五,x z ,以+ h - i ) = 留( 五,五,鼍,k + 。) ( 2 1 9 ) 留( 五,置,鼍) = 历( 五,五,咒,以+ )( 2 2 0 ) 依据上述命题,时间序列只要是一步完全可预报的,它就是任意步完全可预报的, 所以称之为完全可预报的。 定理2 2 一个定义在( q ,罗,尸) 上的时间序列 置) 乩2 ,它可预报的必要与充 分条件为:存在正整数m 使得对一切, m ,x 棋是历,x 2 ,以) 一可测的。 下面我们通过一些例子给出可预报的直观意义。 短期气象数据;如一周内的降水趋势、每天的最高、最低气温都可以认为是 完全可预报的。 赌徒的赌注:一个赌徒玩的赌局数用玎= o ,l ,2 ,来表示,我们用毛来表示每 次赌博后的结果,赌徒每局压的赌注用来表示。因而随机变量只有当时间是刀 的时候才能知道,随机变量吼必须在时间以之前知道。如果我们定义一个一体: 留= 留( 五,五,疋一。) ,按赌徒的心理来看,应该是可预知的,也就是说是完 全可预报( 但按一般人的心理来看此事则是不对的) 。 可预报性引导我们给出如下鞅变换的概念。 定义2 6 设 男,刀n ) 是定义在一个概率空间( q ,矿,尸) 上的仃一体族,随机过 程 k ,, l n ) 是一个可预报过程, 4 ,, ) 是一个磊一鞅,就有过程k : n - i e = x o a o + 鹭+ 。( 4 + 。一4 ) i = 0 n - i = k 以+ 置+ ,口;q ( 2 - 2 1 ) 式中,口m = a i + 。- a j ,是彳经:i 批变换的鞅变换,用】,= x a 来表示。如下的定 理来陈述任意过程 以, n 在什么情况下是可预报的。 黑龙江大学硕士学位论文 定理2 3 设( q ,矿,尸) 是一个概率空间, 。刀n ) 是定义在此概率空间上的 盯一体族,为了使一个随机过程 以小以 是并一可测的充分必要条件是使每个 有界的鞅匕满足 其中圪= l i m 艺,e x 。 = e e f f + ,以+ 。l 昂 = 肼k ,e f t + ,l 昂) = e k 鼍+ 1 ( 2 - 2 3 ) e 善艺( 以+ 一以) 2 足l i r a 。e 善艺( 以+ - 一以) = l i m 脚- ( 磁墨r e k 咒) = 舯n = 0 ( 职+ 咒+ - 一e k 以) = l ,i m e y x x x 置 “一 = e 圪以 充分性设式( 2 - 2 2 ) 被任意有界鞅艺所满足,就有 e y o ( x , 一k ) + x ( 五一五) + + k ( 叉_ + l 一义0 ) + 一e 圪叉二= 0 ( 2 - 2 3 ) e 以+ 。( - y + 。) = o n = 0 ( 2 2 4 ) 我们知道一个停止鞅对于任意停时f 也是一个鞅,因而一个停止序列 刀) 也是一个并一鞅。式( 2 2 4 ) 也适用于f = 七时的停止鞅,、,我们得到 瓯+ 1 ( k k + 1 ) = 0 七= o ,1 ,2 , ( 2 - 2 5 ) 在满足公式( 2 2 2 ) 的情况下,式( 2 2 5 ) 显示了对于任意有界鞅k 由公式( 2 2 2 ) 给出的 第2 覃复杂时间序列可预报性初步分析 等价的存在性。因而 e e x 。+ ,( k + ,一k ) i 昂= 0 ( 2 - 2 6 ) 由于乓是一个壤一鞅,从式( 2 2 6 ) 得出五+ 。是最一可测的。 现实世界中的复杂动态系统由于种种因素的干扰,未必都能满足定理2 3 ,下 面我们先给出独立性定义,然后证明不可预报的判定定理。 定义2 7 设( q ,矿,p ) 是一个概率空间, 昂f - 1 ,2 ,刀 是瘌子t 7 - 4 5 ,如果 对于所有的4 昂4 昂,4 男,事件4 ,4 ,4 ,是独立的,那么子仃谁是 独立的。 定义2 8 设x ,】,是两个随机变量,如果o r 一体留( x ) 和留( 即是独立的,我们 说x ,】,是独立的。 定理2 4 一个定义在( q ,矿,p ) _ l i n 时i n 序列 置k 如,如果对于某个 o , “与k ,瓦巾,五是独立的,则k + ,关于k ,书,五是不可预报的。 证明 由瓦,瓦。,五生成的仃一体为:留( 五,五,以) 而由k 舻瓦,k 一,五生成的仃一体为:留( 墨,x 2 ,咒,鼍+ 。) 由于瓦+ 。与,k _ ,五是独立的,可知由它们生成的仃一体:留( 妊+ 。) 和 历( 五,置,瓦) 也是独立的,则: 历( 五,x :,瓦,以+ 。) = 留( 留( 五,x 2 ,x u ) u 留( + 。) ) 留( 工,五,) ( 2 - 2 7 ) 即变量瓦+ 。所生成的盯一体留( “+ 。) 旺留( 五,x 2 ,) ,可知不存在正整数m 使 得m ,k + 1 是留( 五,x 2 ,x u ) 一可测的,即证得k + ,关于k ,瓦巾,五是 不可预报的。 2 3 股票指数的可预报性分析 股票市场价格波动是股市运行的基础,也是投资者关注的焦点,股价的波动受 到各种经济因素和非经济因素的影响。分析这些因素的影响,可为投资者作出正 黑龙江大学硕士学位论文 确的投资决策提供一定的理论依据。虽然影响股价的因素众多,但股价本身有其 内在价值,股价围绕其内在价值上下波动,股价波动是各种因素相互作用的结果。 股票指数的可预报性是有其基础的: ( 1 ) 市场行为包括一切。未来股价趋势取决于供求双方力量的变化,如果供不 应求,股价上涨,供求差额越大,股价上涨幅度也越大,相反,股价下跌幅度也 越大。所以任何影响市场供求力量的因素,包括经济的、社会的、心理的、政治 的以及其它方面因素,会立即体现在股价上。 ( 2 ) 历史会重演。在不同的时间里,当人们面对相同的状况,会做出相同的反 应。在股票市场里,经过长期统计特征,会发现许多规律性和经验性的东西,一 旦同样的状况再次出现,人们就会做出类似的反应。 ( 3 ) 股价变化有一定趋势。一支处在上涨阶段的股票,如果大部分投资者对其 丧失信心,那么这支股票将呈现下跌趋势,这主要是股民的心理作用。但是一旦 股民对某支股票建立信心,这支股票即将上涨且能持续一段时间。 但是,并不是所有情况下股票指数都是可预报的,因为影响股票价格的因素 很多,般可以分为:宏观因素、微观因素、市场因素和非经济因素等。 ( 1 ) 宏观经济因素从不同的角度直接或间接地影响到公司的经营,影响到居民 的收入和心理预期,而对股市的供求产生相当大的影响。宏观经济因素包括:利 率、财政政策、产业政策、监督政策、经济周期、通货变动和国际贸易支出等。 ( 2 ) 微观经济因素主要指上市公司本身的经营水平,公司业绩反映当前企业的 经营水平,体现为股价,而公司的成长性则反映企业未来前景,决定股价的长期 走势。分析公司的成长性,要从公司所处行业、竞争地位及经济效率等方面考虑。 评价公司业绩主要考虑公司净资产、盈利水平、营业额、股本扩张、增资和减资 等相关信息。 ( 3 ) 市场反映股票供求的环境包括:市场的需求、市场总价格的波动、市场投 资者的构成、市场交易心理、交易制度和工具等都会影响到股价。市场因素包括: 供求关系、投资者构成、交易制度、市场操作和市场心理预期等。 ( 4 ) 非经济因素主要指自然灾害、战争、政局变动和庄家操纵等。自然灾害对 第2 章复杂时间序列可预报性初步分析 股价的影响来源于灾害对实物资产的损害。灾害发生时影响生产,股价会下跌, 另一方面,灾后重建时刺激生产的扩张,相关行业的股价会有一定程度的上升。 庄家是指参与股市操纵的证券、金融、保险等资金雄厚的机构,庄家构成了股市 的主力,它们的操纵意图对股市的趋势起着决定作用。 在以上影响股价的因素中,前面三种因素之间是存在某种关联关系的,这些 关系有些是线性的,有些是非线性的,将股票市场看作一个复杂的动态系统,这 些影响因素之间也相互影响,利用事物发展过程中的相关性,我们可以建立预测 模型,进行一定精度的预测。但是由于第四种因素,即非经济因素,尤其是庄家 的操纵,会对股票交易的行为产生直接的影响,从而导致股价波动,股价走势变 幻莫测,难以把握。庄家每次的操纵是不包含在过去股价变化趋势当中的,也可 以说是庄家的操纵与其他因素之间是不存在相关性的,此时系统便是不可预报的。 即如果用表示股票的某种数据,以表示三种因素形成的数据总和,圪表示 四种因素所形成的数据,1 2 是时间参数。一般的可以认为: k = 以+ 圪( 2 - 2 8 ) 根据前面分析,x 。可以认为是一个完全或部分可预报的过程,但圪一般地说 是不可预报的。所以一般地说是不可预报的。然而圪的作用是分阶段随机产生 的,当它不起作用时,就有: 艺= x 。( 2 - 2 9 ) 所以此时股票数据又是可预报的了。 2 4 本章小结 本章主要分为三部分:第一部分是预报理论原理,主要介绍仃一体、无偏估计、 最小方差估计和条件期望等基本概念。第二部分是时间序列可预报性分析,在此 给出了系统可预报的定义及判定条件,同时分析当事件或随机变量呈现出独立性 时,系统即是不可预报的。第三部分分析股票系统的可预报性,指出股票系统是 存在可预报性的基础的,但当系统出现非经济因素影响例如庄家的操纵时,系统 就失去可预报性。经过本章的分析,由于股票系统存在可预报性,在后面我们先 1 5 黑龙江大学硕士学位论文 用经验模式分解方法和r b f 神经网络相结合的方法进行预测,再单独使用r b f 神 经网络的方法进行预测,通过比较二者的预测误差来评价两种方法的预测能力。 第3 章时间序列数据挖掘 第3 章时间序列数据挖掘 在第2 章我们对复杂时间序列是否可预报进行了讨论,给出了可预报的初步 分析,那么后面我们将对某一个具体可预报的时间序列进行预报,本文主要采用 e m d 和r b f 神经网络相结合的方法对股票数据等复杂时间序列进行预报。在进行 预报之前,我们先针对时间序列数据挖掘技术进行研究。 时间序列数据挖掘技术早在2 0 世纪9 0 年代已经有人提出,那时主要针对时 间序列的相似性搜索,此后在此基础上才出现了时间序列数据库中的子序列匹配 和整体匹配的研究【2 1 1 ,但是在这些相似性计算过程中都存在时间序列数据量过大 的问题,这将大大引起搜索效率降低,因而对时间序列的有效描述【2 2 】是提高搜索 效率的主要方法。由p a v l i d i s 2 3 】最早提出分段线性化描述是用直线段来近似拟合原 始时间序列的形状,通过用直线段来代替原始数据大大减少了数据量。在相似性 的基础上,人们又发展了很多其他模式识别方法,如通过相似性计算对时间序列 进行分类f 2 4 】、聚类口5 1 和预测等。关于时间序列的数据挖掘技术除了相似性的研究 外,还有一些更接近人脑思维方式的研究方法例如模式挖掘方法【2 6 1 ,其中主要包 括时态模式挖掘和趋势预测,时态模式挖掘的主要技术是关联规则的挖掘【2 7 1 ,趋 势预测所采用的主要是分类规则的挖掘。 目前国际上对于时间序列数据挖掘的研究正在成为一个热点,但国内这方面 的研究文献还不多,比较重要的工作是1 9 9 8 年欧阳为民等从理论框架的角度对 时态数据挖掘进行分析。 3 1 时间序列相似性度量 3 1 1 时间序列的定义 时间序列是指随时间变化的事件或序列值,时间序列数据库是指由随时间变 化的事件或序列值组成的数据库。这些事件或序列值通常是在等时间间隔测得的, 其数学方式表达为如下: 黑龙江大学硕士学位论文 一组时间序列数据是指一系列记录集( ,) 笛,n 为序列值的个数,其中每个记 录为m + l 维数据,即r j = 慨,n :,t a ,c , 特性值,可以是离散实数也可以是连 续实数,而且可以是与时间有关联也可以没有。如果某特性值与时间有关,则该 特性值为动态特性,否则为静态特性,一般时间序列的研究主要是针对动态特性。 f ,是一个时间间隔的标志,例如天、月、年等。 现以股票市场每天的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论