(计算机系统结构专业论文)流数据挖掘研究及其在股票中的应用.pdf_第1页
(计算机系统结构专业论文)流数据挖掘研究及其在股票中的应用.pdf_第2页
(计算机系统结构专业论文)流数据挖掘研究及其在股票中的应用.pdf_第3页
(计算机系统结构专业论文)流数据挖掘研究及其在股票中的应用.pdf_第4页
(计算机系统结构专业论文)流数据挖掘研究及其在股票中的应用.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机系统结构专业论文)流数据挖掘研究及其在股票中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 数据库技术发展迅速且得到了广泛应用,但在2 0 世纪末,一种新的 应用模型却对它提出了有力的挑战。这种名为流数据的应用模型广泛出 现在众多领域,例如金融应用、网络监视、通信数据管理、w e b 应用、 传感器网络数据处理等,它是以连续的、有序的“流”的形式输入数据。 股票报价数据就是这种典型的流数据,所以对它的分析处理就要利用流 数据的一些分析处理方法,如滑动窗口、一次性扫描算法等。纵观当今 对股票的分析与预测,基本上都是基于单个股票的分析与预测,常用的 预测方法有神经网络、混沌理论、基于范例的推理等。但是股票之间必 然或多或少的存在某种相关性,如果孤立的去分析一支股票,那么肯定 是不全面的,本文提出的相关性理论将能较好的解决这一不足。如何挖 掘出流数据蕴涵的丰富知识,成了流数据研究中的重要内容;如何挖掘 出两股票间模式依赖关系:如何利用已有的模式依赖规律来预测未来的 走势,这些都是本文所要研究的内容。 根据上面的分析,本文研究的内容集中在以下几点: ( 1 )提出一种流数据相关性的计算方法,定量的计算出股票间相 关性的大小,利用了流数据计算的一些方法,在有限的空间里计算出源 源不断到来的股票报价数据的相关性。 ( 2 )在相关性的基础上进行模式依赖挖掘。如果发现两股票间的 相关性大,就对它进行模式依赖挖掘。由于两相关性大的股票削的某些 模式依赖有时并不是同步出现的,往往会呈现出一定的时间延迟,所以 在进行模式依赖挖掘的过程中,除了要挖掘出同步的模式依赖,还要挖 掘出具有一定时间延迟的模式依赖。并将挖掘出来的规则存入到知识库 中,以便需要时利用。 ( 3 )利用已挖掘出的模式依赖进行股票模式的即日监测,用户可 以在p d a ( 我们是用s m a r t p h o n e 来模拟的) 上实时了解股票间模式的最新 变化。 ( 4 )利用己挖掘出的模式依赖进行股票的短期预测,就是去发现 在两股票相关性大的情况下,一种股票出现一种特定模式时,另一股票 将会出一种什么样的模式。 本文提出的在相关性的基础上挖掘股票间的模式依赖,并利用移动 设备进行即时的观察和监测,是一种典型的移动数据挖掘,它的提出是 对股票研究的有益探讨,实验证明,相关性大的股票间挖掘出的模式依 华南理工大学硕士学位论文 赖规则对短期股票的预测准确率较高。 【关键词】流数据;相关性;模式依赖挖掘:股票;预测 i i a b s t r a c t a b s t r a c t c o n v e n t i o n a ld a t a b a s et e c h n o l o g i e sh a v e b e e nw e l ld e v e l o p e da n d w i d e l ya p p l i e d u n f o r t u n a t e l y ,t h e yc o u l dn o tb ea d o p t e dt oh a n d l ean e w k i n do fd a t a ,n a m e ds t r e a m i n gd a t a ,w h i c hi sg e n e r a t e df r o ma p p l i c a t i o n s s u c ha sn e t w o r kr o u t i n g ,s e n s o rn e t w o r k i n g ,s t o c ka n a l y s i se t ci nt h ee n do f 2 0 ”c e n t u r y t h es t r e a m i n gd a t ai n p u td a t a i sc o n t i n u a la n do r d e r l y “s t r e a m i n g ”ag o o de x a m p l ei ss t o c kq u o t e dp r i c e s ow es h o u l dr i s et h e m e t h o do fs t e a m i n gd a t at op r o c e s st h es o c kq u o t e dp r i c e ,s u c ha st h e s l i d i n gw i n d o w s ,t h eo n e p a s sa l g o r i t h ma n ds oo n n o w a d a y s ,t h ea n a l y s i s a n dp r e d i c t i o no fs t o c ka r eb a s e do ns i n g l es t o c k u s u a l l yt h em e t h o d sa r e t h en e u r a ln e t w o r k s ,t h ec h a o st h e o r ya n dt h ec a s e - b a s e da l g o r i t h m b u t t h e r ea r es o m ec o r r e l a t i o n sb e t w e e ns t o c k sm o r eo rl e s s i fw ea n a l y z eo n e k i n do fs t o c ka l o n e ,w ec a nn o ta n a l y z et h es t o c kt h o r o u g h l y i no r d e rt o s o l v et h i sp r o b l e mw ep r o p o s ec o r r e l a t i v et h e o r y h o wt om i n er i c hk n o w l e d g ei ns t r e a m i n gd a t ai sa ni m p o r t a n tc o n t e n t i ns t r e a m i n gd a t ar e s e a r c h h o wt om i n et h ep a t t e r nd e p e n d e n c yb e t w e e n t w os t o c k sa n dh o wt op r e d i c tt h es t o c kt r e n du s i n gt h ep a t t e r nd e p e n d e n c y r u l e sa r et h ec o n t e n t so ft h ep a p e r f r o mt h ea b o v ea n a l y s i s ,t h er e s e a r c hc o n t e n t so ft h ep a p e ra r eb e l o w : ( 1 ) p r o p o s e o n ek i n do fc a l c u l a t i o nm e t h o do fs t r e a m i n gd a t a c o r r e l a t i o n t h em e t h o dc a nc a l c u l a t et h ec o r r e l a t i o nb e t w e e nt w os t o c k s q u a n t i f i c a “o n a l l y i tc a nd ot h e s e i nt h em a i nm e m o r ya n dp r o c e s st h e e n d l e s ss t r e a m i n gs t o c kp r i c ed a t ab e c a u s eo ft h em e t h o d so fs t r e a m i n g d a t a ( 2 ) m i n es t o c kp a t t e r nd e p e n d e n c yo nt h eb a s i so fc o r r e l a t i o nb e t w e e n t w os t o c k s i fw ef i n dl a r g e rc o r r e l a t i o nb e t w e e nt w os t o c k s ,t h e nw em i n e p a t t e r nd e p e n d e n c yb e t w e e nt h e m s o m e t i m e st h ep a t t e r nd e p e n d e n c yw i l l n o tb es y n c h r o n i z a t i o n ,t h e yw i l ld i s p l a yt i m ed e l a y s oi nt h ep r o c e d u r eo f m i n i n gp a t t e r nd e p e n d e n c y ,w ew i l lm i n es o m ep a t t e r nd e p e n d e n c yw i t h t i m ed e l a ye x c e p tm i n i n gp a t t e r nd e p e n d e n c yi ns y n c h r o n i z a t i o n w ew i l l s t o r et h ep a t t e r nd e p e n d e n c yr u l e si nt h ek n o w l e d g ed a t a b a s e w h e nw e n e e dt h e s er u l e sw ec a nt a k et h e mf r o mt h ed a t a b a s e i 华南理工大学硕士学位论文 ( 3 ) u s i n gt h ep a t t e r nd e p e n d e n c yt ow a t c ht h et r e n db e t w e e nt w os t o c k s u s e r sc a nw a t c ht h et r e n di nt h ep d a ( w eo s et h es m a r t p h o n et os i m u l a t e t h ep d a ) i nt i m e ( 4 ) u s i n gt h ep a t t e r nd e p e n d e n c yt op r e d i c tt h es h o r tt e r mt r e n d i n go f s t o c k i tm e a n sw h e nw ek n o wo n es t o c k st r e n d i n g ,w ec a nu s et h ep a t t e r n d e p e n d e n c yr u l e st op r e d i c ta n o t h e rs t o c k st r e n d i n t h i sp a p e rw ep r o p o s em i n i n gp a t t e r nd e p e n d e n c yo fs t o c ko nt h e b a s i so fc o r r e l a t i o nb e t w e e nt w os t o c k sa n du s i n gm o b i l ed e v i c et ow a t c h t h et r e n db e t w e e ns t o c k si nt i m e i ti sar e p r e s e n t a t i v em o b i l ed a t am i n i n g i ti sh e l p f u lt or e s e a r c hs t o c k s f r o mt h ee x p e r i m e n t sw ed i s c o v e rt h a tt h e h i g h e rc o r r e l a t i o nb e t w e e nt w os t o c k s ,t h em o r ea c c u r a t eo ft h et r e n d p r e d i c t i o n k e y w o r d s :s t r e a m i n gd a t a ;c o r r e l a t i o n ;p a t t e r nd e p e n d e n c ym i n i n g ;s t o c k p r e d i c t i o n i v 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律后果由本人承担。 作者签名:吲i 舜 日期:时岁月弓可日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在年链密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上相应方框内打“”) 作者签名: 导师签名: 曲i 净 们 日期:加盯年朋妒日 日期:m 蛑厂月如日 第一章绪论 1 1 国内外研究概况 1 ,1 1 概述 第一章绪论 流数据( s t r e a m i n gd a t a ) 的应用模型广泛出现在众多领域,例如金 融应用、网络监视、通信数据管理、w e b 应用、传感器网络数据处理等, 对流数据的研究成了当今的研究热点,现有许多的项目研究组在专门丌 展对流数据的研究,如s t a n f o r d 大学的s t r e a m 项目组、b e r k e l e y 的 t e l e g r a p h 项目组等,为了更深入的分析和挖掘出流数据中蕴涵的丰富 知识,流数据挖掘应运丽生,它与传统的数据挖掘不同之处就在于它必 须处理大量的和快速的流数据。在对流数据的研究上,国外远远的走在 我国的前列,在这个方面我国的研究还比较少。 1 1 2 流数据研究项目现状 目前国际上很多研究机构都在进行流数据方面的研究,按照他们研 究流数据的角度,可以分为两个流派。一个流派原来是从事关系数据库 研究,因此他们从数据库的角度出发,企图从关系数据库和流数据的区 别入手,构建与传统d b m s 相匹配的通用流数据管理系统。其中的代表是 s t a n f o r d 大学的s t r e a m 项目组。另一个流派是从应用出发,他们的项 目由应用需求驱动,因此具有应用领域的专用性。其中的代表是 b e r k e l e y 的t e l e g r a p h 项目组。 对一个流数据管理系统其大概结构图卜l 所示 9 ,它主要由以下几 部分组成:( 1 ) 输入监视器 ( 2 ) 流数据的存储部分( 3 ) 查询处理器( 4 ) 输出 缓冲区,其中核心部分是流数据的存储与查询处理器,它的好坏直接关 系到整个系统的动作。 华南理工大学硕士学位论文 鞠蝴静辅 0 睡撕一o 赫 图卜1 流数据管理系统的一般结构图 下面简要介绍几个主要的流数据项目: ( 1 ) s t a n f o r d 的s t r e a m 项目 s t r e a m 项目是一个处理在多重连续流数据和关系型数据上的连续 查询的通用系统。它的高层视图如图1 - 2 : 蕾蕾皇霉墨嗣洳曩啦蕾蕈蕾喀洳_ 霉王墨墨爿跏- 瞄皇墨哼弘 _ _ _ 卜- _ _ _ - _ _ _ 卜- _ - 一 l n o u t 宝t r l 兽丑仃t s 图1 - - 2s t r e a m 项目高层视图 目前s t r e a m 提供一个直接通过h t t p 的网络系统接口,以w e b s e r v i c e 的方式通过s o a p ( s i m p l eo b j e c ta c c e s sp r o t o c o l - 简单对象访 问协议) 展示这个系统。这样,远程应用就可以用任何语言,在任何平台 2 时日唏萋詈唏b 奇繁 第一章绪论 上实现了。应用可以注册查询,以一个x m l 的流h t t p 回答的方式接收一 个查询的结果。为了允许对系统的交互式应用,系统提供了一个基于w e b 的b u i ( b r o w s e ru s e ri n t e r f a c e ) 作为注册查询和察看结果的另一个方 式,而且另外提供了一个交互式接口来可视化与修改系统行为。 ( 2 ) _ it 的a u r or a 项目 a u r o r a 项目专门针对流监控应用开发一个新的数据处理系统。 a u r o r a 系统的核心是由一个大的触发器( t r i g g e r s ) 网络组成。每个触发 器是包含一个节点的数据流图。每个数据节点是七个嵌入操作符中的 个( 按a u r o r a 的术语是:b o x e s ) 。每一个使用a u r o r a 系统的流监控应用 程序,都要产生一个应用管理者( a p p l i c a t i o na d m i n i s t r a t o r ) ,并增添 一个或多个触发器到a u r o r a 触发器网络中。a u r o r a 的触发器网络既进 行编译时优化( 例如,对操作符重新排序) ,又进行执行时优化( 例如,相 同子表达式共享状态变量) 。它的体系结构如图卜3 所示: = 令 i n p u td 棚n $ h 瞄 匕= 令 图卜3a u r o r a 项目体系结构图 ( 3 )b e r k e i e y 的t e l e g r a p h c o 项目 t e l e g r a p h c q 项目与d s m s ( d a t as t r e a mm a n a g e m e n ts y s t e m ) 有一些 共同的应用目标和基本技术思想。t e l e g r a p h c q 使用一个自适应查询引 擎来处理不稳定和不可预知环境( 例如,i n t e r n e t 上的自治数据资源, 或传感器网络) 下的查询效率问题。它的体系结构如图卜4 : 3 华南理工大学硕士学位论文 图卜4t e l e g r a p h c q 项目体系结构图 ( 4 ) 利用数据流管理进行交通状况分析系统( t c q ) 1 0 】。 本系统主要用来分析交通状况以及得到解决交通问题的一些解决方 案,结构如图1 - 5 。 图卜5 连续查询处理期间t c q 中的数据流 f i g u r el 一5d a t af l o wi nt c qd u r i n gc o n t i n u o u sq u e r i e sp r o c e s s i n g 除了上面提到的研究项目和产品以外,相关的技术还有德国d b l p 小组开发的z r i b e c a 系统和t a n g r a ms t r e a m 系统,p u b l i s h s u b s c r i b e s y s t e m ,m e s s a g eb r o k e rn e t w o r k ,i n f o r m a t i o nf i l t e r i n g ,t r i g g e r , m a t e r i a l i z e dv i e w ,w e be l i e ks t r e a m sm i n i n g 等。 1 1 3 流数据挖掘的类型 当今对流数据的挖掘主要集中在以下几个方面: 4 第一章绪论 1 )流数据关联规则挖掘:关联规则挖掘是发现大量数据项集之 间有趣的关联或相关联系,规则形式:“a 专b s u p p o r t , c o n f i d e n c e ”,例如在购买面包的用户中有8 0 会去购买牛 奶,表示为“面包牛奶”,规则的兴趣度量则利用支持度、 置信度,关联规则挖掘是数据挖掘最常用的方法也是非常有 效的方法。 2 ) 流数据分类 3 1 ,3 2 :基于训练集形成一个模型,训练集中 的类标签是已知的,使用该模型对新的数据进行分类。 3 ) 流数据聚类 3 0 :把一个给定的数据对象集合分成不同的簇, 聚类是一种无监督分类法,没有预先指定的类别。 4 ) 流数据上的其他挖掘算法如时间序列、相似性搜索等。 另一个对流数据挖掘提出挑战的是如何在线的进行挖掘,如在线股 票报价数据分析、在线传感器网络数据处理等。在 3 3 中。提出了 在线挖掘“交化点”的方法,铡如“突变模式”就是一种变化点。 1 1 4 移动挖掘与传统挖掘方法区别 本文的流数据挖掘是一种移动挖掘,它与传统挖掘方法不同,具有 很多独特的地方,它们会导致非常理想的数据挖掘算法变得完全不可行。 这种现象主要的根源是在应用上的不同,或者说,算法和系统都是为应 用量身定做 3 5 : 1 ) 传统的数据挖掘系统,面向的应用是知识发现,模式识别,决策 支持,预测预警等等,它们关心挖掘结果的正确性、完整性,这导致了 这类应用计算密集,计算时间长。 2 ) 移动挖掘,属于第四代的数据挖掘系统,面向移动的用户,这些 用户需要获得即时的挖掘结果,对于一些检测和监控的程序,甚至需要 处理实时数据,获得实时结果和反馈。例如:旅行,或者出差的时候, 无法在股票市场或者p c 机前关注自己的股票资产,但是又希望了解最 新的股票动态。通过对股市流数据挖掘,利用全局优化的方法,自动筛 选股票进行监视,并预测股票发展趋势。在交通工具上装备传感器,通 过分析传感器回传的状态数据,如果检测到可能发生严重事故的状态, 则可以提前报警或制止,阻止事故发生。 1 2 股票研究现状 股票市场最初产生于西方国家,丸十年代初,我国先后建成了上海 5 华南理上大学硕士学位论文 和深圳两大证券交易所,目前,上市股票千余支,股民突破两千万,股 票市场作为社会主义市场经济的重要组成部分,为我国的经济发展发挥 着重要作用。我国股票市场的特点具有扩张性、投机性、封闭性、政策 性、原始性、垄断性、尝试性 1 5 。 股市预测是经济预测的一个分支,是指以准确的调查统计资料和股 市信息为依据,从股票的历史、现状和规律性出发,运用科学的方法, 对股市未来发展前景的预测。进行股票预测首先是回避风险的需要。投 资者在持有股票期间,会获得与其承担的风险相对应的回报,预期回报 率与风险之间是一种正向的互动关系。其次,进行股票预测是进行入市 买卖的依据和前提。因此,选择适当的预测方法对股市以及单个股票进 行认真分析是能否降低风险、获取投资收益的关键。早期发展的技术分 析理论是股票预测的最初代表,如道氏理论、平均线理论等,在此基础 上发展了众多的技术指标及分析方法,约有一千种之多,如果再加上改 进的指标,技术指标称得上不计其数,面对如此众多的技术分析指标, 一个投资者必然无所适从,因此研究能够预测股市、辅助投资者投资的 方法,帮助投资者预测和分析股市,选择股票进行投资,优化组合投资, 降低组合投资,降低资风险,获得最大收益是非常有意义的。 当前对股票的预测分析主要是集中在单个股票上,所使用的方法主 要有以下凡种: 1 ) 神经网络 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 作为对人 脑最简单的一种找对象和模拟,是探索人类智能奥秘的有力工 具,具有良好的非线性逼近能力和对杂乱信息的综合能力。目前, 神经网络的研究可分为理论研究和应用研究两大方面。其中理论 研究包括:( 1 ) 利用神经生理与认知科学研究大脑的思维及智能 机理。( 2 ) 利用神经科学基础理论的研究成果,用数理的方法探 索智能水平更高的人工神经网络模型,深入研究网络的算法和性 能,开发新的数理理论;应用研究包括:( 1 ) 神经网络的软件模 拟和硬件实现的研究。( 2 ) 神经网络在各个领域中的应用研究。 神经网络是一种新颖的时间序列分析法。在 1 4 中利用神经 网络技术检验数据初期处理算法对预测效果的影响提出了三种 数据前期处理算法的改进方法:( 1 ) 收盘价5 日涨跌比;( 2 ) 成交 量5 日均值法;( 3 ) 日均价法。首先针对股票预测广泛的社会需 求,概述了股票预测的技术现状、常用分拆方法,以及传统预测 6 第一章绪论 方法面临的问题;其次,综合比较了改进的b p 算法和径向基函 数法、回溯期改变以及输入矢量差别对预测结果的影响,确定了 一个结构和性能良好的神经网络,能够减少外界因素对预测结果 产生的干扰,更好的体现数据初期处理算法的性能;最后,基于 选定的神经网络结构和参数,检验本文提出的三种数据初期处理 算法的有效性。其中,“日均价法”预测值对实际值的波动趋势 拟合的效果良好,可以作为股票实际操作的指导,具有一定的实 用价值。 类似的文章如 1 5 1 6 ,它们利用神经网络对个股的预测都 起到了较好的效果。 2 ) 混沌理论 混沌理论是当今世界最伟大的理论之一,它是社会科学与自 然科学最完美结合的理论。它研究如何把复杂的非稳定事件控制 到稳定状态的方法,它研究世界如何在不稳定的环境中稳定发展 的问题。混沌方法对于处理复杂多变、动荡不定的重大事件有特 殊功效 1 7 。股票市场的复杂性是非线性制约作用的结果,要想 从股票市场的动态变化中辨认出混沌现象,实际上就是寻找股市 动作的隐含规律,而这种隐含规律正是股市本身非线性机制的产 物。如果能够证实这一点,那么利用混沌理论来研究和改善股票 市场的短期预报,得到较佳的结果是可行的且具有实用价值。在 1 8 1 9 中就利用了这种理论进行个股的短期预测。 3 ) 基于范例推理 类比是人们经常运用的解决问题的方法,有人甚至认为类比 是人类问题解决过程中最主要的心理机制。人们在问题解决的过 程中,常常依赖以前解决相似问题的经验,来得到新问题的解决 办法。有时已有的问题解决方法可直接运用来获得新问题的解, 但更多的情形是经验中并没有解决新问题的现成答案,而是需要 根据问题的求解目标修改过去解决类似问题时曾用过的方法以 适应目前问题的要求,或综合曾经成功运用过的多种方法来获取 最终的勰决方案。基于范例推理( c a s eb a s e dr e a s o n i n g ,c b r ) 正是以人类解决问题的这种实际心理历程为基础的一种人工智 能范式。在 2 0 2 1 中就利用了c b r 来进行股票的预测,这种方 法较前面介绍的方法更易于理解、更加简单。 上面是一些经常用到的几种方法,另外还有像证券投资分析方法、 7 华南理工大学硕士学位论文 季节变动法、马尔柯夫法和差别分析法等定量预测方法。 1 3 数据挖掘简单介绍 流数据挖掘说到底还是一种数据挖掘,它所用到的许多方法同数据 挖掘有类似的地方,下面介绍与数据挖掘有关的基本概念和数据挖掘的 主要任务以及常用算法 2 5 。 1 3 1 数据挖掘的定义 数据挖掘( d a t am i n i n g ) 是从大量的、不完全的、有噪声的、模糊的、 随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急 剧增长,动辄以t b 计,如何从海量的数据中提取有用的知识成为当务之 急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术 是知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 的关键步骤。 1 3 2 数据挖掘的任务 数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模 式和偏差分析等。 ( 1 ) 关联分析( a s s o c i a t i o na n a l y s i s ) 关联规则挖掘是由r a k e s ha p w a l 等人首先提出的。两个或两个以上 变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存 在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因 果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度 和可信度两个闲值来度量关联规则的相关性,还不断引入兴趣度、相关 性等参数,使得所挖掘的规则更符合需求。 ( 2 ) 聚类分析( e l a s t e r i n g ) 聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相 似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的 分布模式,以及可能的数据属性之间的相互关系。 ( 3 ) 分类( c l a s s i f i c a t i o n ) 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息, 即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模 式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类 可被用于规则描述和预测。 ( 4 ) 预测( p r e d i c a t i o n ) 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来 8 第一章绪论 数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预 测方差来度量。 ( 5 ) 时序模式( t i m e s e r i e sp a t t e r n ) 时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与 回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变 量所处时间的不同。 ( 6 ) 偏差分析( d e v i a ti o n ) 在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况, 发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法 就是寻找观察结果与参照之间的差别。 1 3 3 数据挖掘对象 根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据 库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、 异质数据库以及i n t e r n e t 等。 1 3 4 数据挖掘流程 ( 1 ) 定义问题:清晰地定义出业务问题,确定数据挖掘的目的。 ( 2 )数据准备:数据准备包括选择数据一一在大型数据库和数据仓库 目标中提取数据挖掘的目标数据集;数据预处理一一进行数据再 加工,包括检查数据的完熬性及数据的一致性、去噪声,填补丢 失的域,删除无效数据等。 ( 3 )数据挖掘:根据数据功能的类型和和数据的特点选择相应的算 法,在净化和转换过的数据集上进行数据挖掘。 ( 4 )结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最 终被用户理解的知识。 ( 5 )知识的运用:将分析所得到的知识集成到业务信息系统的组织结 构中去。 i 3 5 数据挖掘的方法 ( 1 ) 神经网络方法 ( 2 ) 遗传算法 ( 3 ) 决策树方法 ( 4 ) 粗集方法 ( 5 ) 覆盖正例排斥反例方法 ( 6 ) 统计分析方法 ( 7 ) 模糊集方法 9 华南理工大学硕士学位论文 1 4 本文的研究内容及结构安排 股票种类很多,可谓五花八门、形形色色。股票个数每年都以很快 的速度增长,如1 9 9 6 年上海增加3 2 9 家,到1 9 9 7 年就增长了4 2 2 家, 可见速度是非常之快,见表卜1 2 8 。 表卜l 历年上市股票个数 年份上海个数深圳个数 1 9 9 186 1 9 9 23 83 3 1 9 9 31 2 29 5 1 9 9 42 0 31 4 2 1 9 9 52 0 01 6 1 1 9 9 63 2 9 2 7 0 1 9 9 7 4 2 2 3 9 9 股票报价数据是基于时间不断刷新的,它是一种典型的流数据,对 它的分析可以利用流数据处理方法来对待。当今得到股票即时报价已是 一件非常简单的事情,如通过电视接收股票即时报价;如果你能上网, 就可以上一些股市行情的网站,如: b ! 1 2 ;z 曼! 曼:! i ! ! q :q 墼! q e ! q ! ! 羔e ! i ! q ! k :;q ,它町以看至0 各 种股票的即时行情,并对每种股票有详细的分析。如果出差在外,可以 利用一些实用的工其如:无线移动股票彳予情接收系统( d a m b a 型) 2 9 , 它的原理是,股票数据通过l 波段卫星向地面传送,小卫星股票接收系 统( d a m b - a 型) 利用本身自带的只有光盘大小的天线对向天空,无需精确 调整方向即可接收卫星传送的即时股票数据行情。此外传送信号的卫星 提供了多达7 2 路1 2 8 k b p s 的可移动接收的数据广播,数字音频,星空放 送服务,“亚洲之星”、“非洲之星”、“美洲之星”覆盖全球8 5 人口。 相关性分析的市场涵义 2 6 :“相关性”这一概念来自于数理统计 学,主要用于揭示事物之间的关联性。如果将其运用于股票市场分析, 同样有着较高的使用价值。一般而言,市场总体的运行环境会制约个股 行情发展,这就是所谓的“多数”原理,即大势与单个股票的同步性, 但在一定条件下,某些品种可能会逆势而动,无论是显著抗跌的单个股 票,还是逆“市”上扬的品种,对于操作来说,意义相当重大,这就是 相关性分析的核心内容之所在。因此,在股票市场分析中,注重对相关 性分析的研究和运用,尤其是在大跌市中,是投资者规避市场风险的有 效方法和手段之一。在众多的股票中,各种股票之间必然存在着某种关 1 0 第一章绪论 联,特别是一些子母公司阳j 的情况就是更加如此。在股票中相关系数表 示的意义( 2 7 如下: 相关系数0 0 0 0 一0 3 0 。3 一0 5 0 5 一0 8 0 8 “1 相关程度无相关微正负相关卖正负相关显著正负相关 高度正负相关一 然而单凭我们的肉眼是不可能很清楚的看到这种相关,更不可能知道它 们之间的相关性有多大。由于股票问存在的这种相关,必然会引发两种 股票问的某些变化会具有某种依赖性,并且这种依赖性可能不是同步, 两者之间依赖可能会具有一定的时间延迟。然而在当今对股票的分析中, 做得多的是对单个股票进行分析和预测,对单个股票的分析就撇开了其 它股票对它的影响,这是一种不全面的分析和预测。 本文研究的重点是:首先对股票流数据进行相关性分析,计算出股 票间两两间的相关度;对相关度大的股票再进行模式依赖的挖掘,将挖 掘出来的模式依赖规则存储到知识库中;对挖掘出来的模式依赖规则即 时迪以图形化韵方式呈现出来;最后利用已有知识库对股票进行短期的 模式预测。 本文所提到的理论同方法,都将在“股票监铡系统”中实现。 本文的结构安排如下: 第一章绪论,主要介绍了当前对流数据研究的现状以及当前股票的 研究现状。由于后面的第四章牵涉到数据挖掘方面的知识,所以在此章 对数据挖掘进行了简单的介绍。 第二章流数据介绍,使大家对什么是流数据及怎样处理流数据有大 概的理解。 第三章流数据的相关性计算,提出了一种流数据相关性计算的方 法,使对流数据相关性计算转换为一种简单的矩阵运算。 第四章流数据间模式依赖挖掘,这是本章的核心部分,提出了一种 股票流数据间模式依赖挖掘的算法。 第五章数据库存储结构设计。 第六章股票监测系统架构。 第七章实验部分。 结论部分对本文工作进行总结,并对下一步工作提出展望。 1 5 本章小结 本章主要介绍了当前对流数据研究的现状以及当前股票的研究现 状,并对数据挖掘进行了简单的介绍。阐述了本文研究的重点内容及结 构安排。 华南理工大学硕士学位论文 第二章流数据介绍 2 1 流数据的提出 数据库技术发展迅速且得到了广泛应用。一方面,数据建模形式多 样,从层次数据库、网状数据库、关系数据库、对象数据库,直到关系 对象数据库等等;另一方面,数据规模也越来越大。传统数据库技术的 一个共同点是:数据存储在介质中,可以多次利用:用户提交数据操纵 语言( d a t am a n i p u l a t i o nl a n g u a g e ,简称d m l ) 来获取查询结果。尽管 传统数据库获得了巨大的成功,但是在2 0 世纪末,一种新的应用模型却 对它提出了有力的挑战。这种名为流数据( s t r e a m i n gd a t a ) 的应用模型 广泛出现在众多领域,例如金融应用、网络监视、通信数据管理、w e b 应用、传感器网络数据处理等,它是以连续的、有序的“流”的形式输 入数据。当前流数据在以下方面得到了广泛的应用,如传感器数据 1 ,2 、 网络通信量 3 ,4 财政报价 5 ,6 、在线拍卖 7 、交易日志如网页上 的使用目志、电话呼叫记录 8 。 2 2 流数据的特点 令t 表示任一时间戳石表示在该时间戳到达的数据,流数据可以 表示成 ,z 一,而,z m ,l 。区别于传统应用模型,流数据模型具 有以下4 点共性:( 1 ) 数据实时到达;( 2 ) 数据到达次序独立,不受应 用系统所控制:( 3 ) 数据规模宏大且不能预知其最大值;( 4 ) 数据一经 处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价 昂贵。利用传统技术处理这种模型,必须将数据全部存储到介质中,然 后通过提交d m l 语句访问存储介质来获取查询结果。但是,由于数据规 模宏大且到达速度很快,传统技术难以满足实时要求。 在很多实际应用中,例如决策支持系统、查询优化等,用户并不需 要获得确切值,而仅需要一个近似值。因此,设计一次性扫描算法 ( o n e - p a s sa l g o r i t h m ) ,实时地给出近似奄询结果就成为数据流模型下 数据处理的目标。算法的关键在于设计一个远小于数据集规模的结构, 从而可以在内存中处理数据。相对于流数据的规模而言,这种名为概要 数据结构( s y n o p s i sd a t as t r u c t u r e ) 的规模至多应该是次线性的。 1 2 第二章流数据介绍 2 3 流数据模型 流数据模型根据不同的时序范围可以划分成多种子模型,包括界标 模型( 1 a n d m a r km o d e l ) 、滑动窗口模型( s l i d i n gw i n d o wm o d e l ) 和快照 模型( s n a p s h o tm o d e l ) 。令n 表示当前时间戳,s ,e 分别是两个已知的 时间戳。界标模型的查询范围从某一个已知的初始时间点到当前时间点 为止,即( 五,z 一) 。滑动窗口模型仅关心数据流中最新的w ( w 也称 为滑动窗口大小) 个数据,其查询范围是 z m 咖一一) ,以) ,随着数据 的不断到达,窗口中的数据也不断平移。快照模型则将操作限制在两个 预定义的时间戳之间,表示为 嚣,以 。界标模型和滑动窗口模型由 于要不断处理新来的数据,更接近于真实应用,因而得到更加广泛的研 究。 2 4 现有的研究方向 ( 1 ) 流数据建模( s t r e a md a t am o d e l ) ( 2 ) 流检索查询建模( s t r e a mq u e r ym o d e l ) ( 3 ) 流数据的挖掘 2 5 流管理系统与数据库管理系统的区别 目 嗣m w “l 搠- _ _ _ 瞬间的流 持久的关系 连续的查询 一次查询( o n e t i m eq u e r y ) 序列化的访问 随机的访问 有限的主存 “无限”的磁盘空间 数据的到达顺序是关键 当前状态有效 主动的存储被动的存储 数据传输率未知相对较低的更新率 实时响应很少“实时服务” 变化的数据及数据量 访问策略由查询处理器在数据库设计时确定 华南理工大学硕士学位论文 2 6 多重流时间序列结构模式挖掘的研究 2 。6 。1 时间序列的定义 在a g r a w a l 等人的文章中,时间序列定义为“a no r d e rs e to fr e a l v a l u e ”。这是指一类有序的,复杂的对象的集合,时间序列数据挖掘主 要是通过一系列的方法,从大量的时序数据中发现特定的规律和有价值 的知识。如“相似性搜索”,“模式发现”,“趋势预测”等。 时间序列首先要解决的问题是时序数据的形式化表示,目前的方法 有:事件表示和状态表示。 当前对时间序列的研究集中在单一时间序列内部关系的发现如:趋 势、序列模式、相似性模式的搜索,关联规则、周期的发现等等。 2 6 2 多重流时序的定义 所谓“多重流”,是指系统中的多个数据流,或信息流。如电子商务 中的“奖金流”,“商品流”,“信息流”。多重流时序就是各单个流时序按 照事件发生的时间关系组成的集合,s = s i ,s2 ,s ; ,s 。= ( i 流的 事件x , ,多重流时序如图卜6 所示,实际中很多连续的数据流可以通 过不同的值对应不同的事件来离散化,得到离散的集合,如图卜6 2 2 。 图1 - 6 多重流时序及连续事件的流数据 文献 2 3 对多重流时序进行了研究,提出了m s d d 算法,发现事件 的依赖关系。由于该算法不能对中间产生的模式进行及时、有效的剪技, 使访问空间很大。多重流时序的挖掘有其自身的特点,其它单一数据流 的挖掘算法不能用在对多重流时序的挖掘上。 2 4 在此基础上,提出了 时间窗口移动筛选算法( t w m a ) ,对多重流数据情况下的依赖模式发现进 行了研究。 2 7 本章小结 本章主要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论