版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、熬南昌大学200胺3级硕士学位论暗文文献综述报告爸基于股票时间序隘列数据的关联规奥则挖掘研究肮Study o八n Minin板g Assoc伴iation 芭Rules f扒rom Sto办ck Time瓣 Series扳 Data 八系 别:霸 计算机科学与坝技术系稗专 业:凹 计算机应用技办术办研究方向: 人颁工智能碍研 究 生: 爸汪廷华半导 师:鞍 程从从(教授胺)捌2005年03袄月一引言霸随着计算机信息白系统的日益普及版,大澳容量存储技术的埃发展以及条形码埃等数据获取技术霸的广泛应用,人捌们在日常事务处背理和科学研究中稗积累了大量的各罢种类型的数据。跋在这些数据中,啊有很大一部分是
2、拌呈现时间序列(半time se颁ries)类型笆的数据。所谓时皑间序列数据就是八按时间先后顺序邦排列各个观测记笆录的数据集1澳,如金融证券懊市场中每天的股柏票价格变化;商霸业零售行业中,捌某项商品每天的八销售额;气象预版报研究中,某一捌地区的每天气温拌与气压的读数;岸以及在生物医学柏中,某一症状病盎人在每个时刻的傲心跳变化等等。拜然而,我们应该班注意到:时间序版列数据不仅仅是翱历史事件的记录澳,更重要的是蕴敖藏这案些数摆据其中不显现的胺、有趣的模式。熬随着时间推移和啊时间序列数据的熬大规模增长,如般何对这些海量数板据进行分析处理傲,挖掘其背后蕴皑藏的价值信息,阿对于我们揭示事疤物发展规律变化
3、皑的内部规律,发盎现不同事物之间阿的相互关系,为傲人们正确认识事扒物和科学决策提败供依据具有重要般的实际意义。俺时间序列数据分啊析按照不同的任伴务有各种不同的扒方法,一般包括埃趋势分析、相似佰性搜索、与时间袄有关数据的序列颁模式挖掘、周期颁模式挖掘等2阿。本综述是针板对证券业中股票凹时间序列分析的扳,试图肮通过列举、分析鞍有关证券业中股般票时间序列数据半分析的原理、方案法与技术,着重百探讨数据挖掘敖中基盎于股票时间序列笆数据的关联规则把挖掘的概念、原癌理技术、实施过胺程及存在的障碍袄和问题,以期能背有新的发现和领把悟。鞍二股票时间序澳列传统研究方法叭概述笆随着我国市场经伴济建设的发展,扳人们的
4、金融意识案和投资意识日益把增强。股票市场鞍作为市场经济的斑重要组成部分,敖正越来越多地受按到投资者的关注氨。目前股票投资斑已经是众多个人般理财中的一种重板要方式。不言而跋喻,如果投资者爸能正确预测股票氨价格、选准买卖盎时机,无疑会给岸投资者带来丰厚碍的收益。于是,般在股票的预测和敖分析方面出现了板大量的决策分析坝方法和工具,以拔期能有效地指导傲投资者的投资决俺策。目前,我国傲股市用搬得较矮多的方法概括起邦来有两类3伴:一类是基本分班析和技术分析,败另一类是经济统搬计分析。鞍1基本分析和扒技术分析爸在股票市场上,版当投资者考虑是败否投资于股票或岸购买什么股票时懊,一般可以运用稗基本分析的方法澳对
5、股市和股票进笆行分析;而在买白卖股票的时机把盎握上,一般可以胺运用技术分析的埃方法4。安基本分析指的是埃通过对影响股票稗市场供求关系的摆基本因素(如宏柏观政治经济形势啊、金融政策、行伴业变动、公司运办营财务状况等)把进行分析,来确拜定股票的真正价案值,判断未来股扮市走势,是长期摆投资者不可或缺拜的有效分析手段霸。袄技术分析是完全扮根据股市行情变奥化而加以矮分析白的方法,它通过熬对历史资料(成芭交价和成交量)笆进行分析,来判袄断大盘和个股价皑格的未来变化趋矮势,探讨股市里艾投资行为的可能吧转折,从而给投啊资者买卖股票的邦信号,适合于投蔼资者作短期投资霸。目前技术分析版常用的工具是各凹种各样的走势
6、图摆(K线图、分时败图)和技术指标蔼(MA、RSI把、OBV等)。艾2经济统计学笆分析把主要针对时间序稗列数据进行数学扮建模和分析。传佰统的时间序列数坝据分析已经是一啊个发展得相当成斑熟的学科,有着笆一整套分析理论阿和工具,是目前吧时间序列数据分昂析的主要方法,碍它主要俺用经济统计学的叭理论和方法对经伴济变量进行描述靶、分析和推算。跋传统阿时间胺序列数据分析的八研究目的在于拌5:敖俺分析特定的数据扒集合,建立数学吧模型,进行模式颁结构分析和实证捌研究;斑扮预测时间序列的哀未来发展情况。氨传统的时间序列跋数据分析最基本啊的理论是40年拜代分别由Nor隘bor Wie吧ner和And斑rei Ko
7、l扒mogomor奥提出的。20世瓣纪70年代,G巴.P.Box和绊G.M.Jen隘kins发表专叭著时间序列分盎析:预测和控制八,对平稳时间耙序列数据提出了澳自回归滑动平均皑模型(ARMA懊),以及一整套胺的建模、估计、靶检验和控制方法奥,使得时序数据懊分析得以广泛运靶用于各种工程领扳域。其基本思想俺是根据各随凹机变笆量间的依存关系拜或自相关性,从爸而由时间序列的懊过去值及现在值笆来预测出未来的佰值。该模型以证叭券市场为非有效艾市场为前提,当斑期的股票价格变矮化不仅受当期随扮机因素的冲击,般而且受前期影响澳。换句话说,就啊是历史信息会对哀当前的股票价格瓣产生一定程度的拌影响。采用的方霸法一般
8、是在连续靶的时间流中截取袄一个时间窗口(袄一个时间段),癌窗口内的数据作熬为一个数据单元凹,然后让这个时懊间窗口在时间流拔上滑动,以获得俺建立模型所需要百的训练集6摆。般7基于股票坝时间序列是一种摆混沌时间序列的疤认知,提出一种挨新颖的非线性时盎间序列预测模型佰,即滑动窗口二板次自回归(MW巴DAR)模型,巴该模型使用部分啊的历史数据及其班二次项构造自回按归模型,模型参叭数用最小二乘法澳估计。其基本理败论基础是:一个啊线性模型不能描百述混沌时间序列捌的全局性特征,吧但在一个小的时芭间间隔内,系统挨的行为却可以用拜某种线性模型近碍似。8则提哎出了一种基于嵌拔入理论和确定集靶上的预测误差的爸混沌时
9、间序列预啊测方法,并探讨哎了在股票价格预扒测上的应用。拌可以看出,经济皑统计学为问题的罢探索解决方案提埃供了有用而实际氨的框架;模型是矮经济统计学的核懊心,模型的选择叭和计算往往被认八为是次要的,是暗建立模型的枝节瓣。经济统计学本矮质上是从事扒“伴确定性鞍”稗分析的,可以说败统暗计方佰法是败“斑目标驱动稗”半的。但是,在大傲量数据集中往往癌存在一些未被人伴们预期到但又具傲有价值的信息,盎人们为发现大量胺数据中隐藏的规办律和模式,就需埃要新的具有稗“哀探索性翱”班的分析工具。显翱然,数据挖掘就般是这样的一门工懊具。捌三数据挖掘技罢术应用于股票时爸间序列分析的研把究现状拌数据挖掘(DM把,Data
10、 M凹ining),把也称为数据库中安的知识发现(K芭DD,Know佰ledge D岸iscover板y in Da靶tabase)熬是数据库技术和般机器学习等人工拜智能技术相结合笆的产物,是一门暗新兴的数据智能芭分析技术9斑。20世纪80唉年代末,随着数哀据库、互联爱网技板术的迅速发展以颁及管理信息系统败(MIS)和网唉络数据中心(I百DC)的推广应胺用,数据的存取拌、查询、描述统稗计等技术已日臻奥完善,但高层次拜的决策分析、知颁识发现等实用技办术还很不成熟,拌导致了版“隘信息爆炸哎”爸但跋“拌知识贫乏邦”拜的现象。到了9岸0年代,人们提翱出在数据库基础昂上建立数据仓库拜,应用机器学习霸和统
11、计分析相结碍合的方法处理数爸据,这两者的结笆合促成了数据挖案掘技术的诞生。跋所谓数据挖掘,唉简单地说,就是蔼从大量数据中提罢取或挖掘知识班2;详细一点安可以描述为主要班利用某些特定的扳知识发现算法,扮在一定的运算效跋率的限制下,从袄大量的数据中抽八取出潜在的、拔有价白值的知识(模型半、规则和趋势)版的过程稗。佰挖掘算法的好坏版直接影响到知识柏发现的质量和效搬率,因此目前大百多数研究都集中百于数据挖掘算法埃及其应用上。拌1相关技术介暗绍埃(1)关联规则艾挖掘搬关联规则是美国袄IBM Alm巴aden Re碍search 板Center的盎 Rakesh阿 Agrawa爸l等人于199扮3年首先提
12、出来扮的KDD研究的败一个重要课题吧10。关联规跋则挖掘本质是从哀大量的数据中或暗对象间抽取关联敖性,它可以揭示芭数据间的依赖关般系,根据这种关办联性就可以从某矮一数据对象的信摆息来推断另一对皑象的信息。哎它可以做如下形懊式化定义:盎设笆I叭 皑=扳 埃i阿1案,败i拔2柏,挨.唉,傲i班m颁胺是一组项的集合柏(例如一个商场俺的物品),班D瓣是一组事务集百(昂称之为事务数据跋库岸)罢。版D版中的每个事务胺T巴是项的集合,且按满足拌T爱I俺。称事务伴T胺支持物品集坝X百,如果拔X笆T矮。关联规则是如巴下形式的一种蕴拔含式澳:X绊颁Y搬,其中盎X百I摆,班Y巴I矮,且霸X拌按Y=班 矮。蔼(1)爱
13、 称关联规则叭X扒稗Y懊在事务数据库板D案中具有大小为昂s坝的支持度,如果板物品集蔼X翱拔Y碍的支持度为芭s%扳,即suppo澳rt(俺X昂安Y扒)=P(X U爸 Y)。佰(2)柏 称规则罢X扮澳Y昂在事务数据库捌D拌中具有大小为办c绊的可信度,如果傲D挨中支持物品集翱X阿的事务中有昂c暗%翱的事务同时也支班持物皑品集爱Y般,即confi般dence(颁X邦班Y罢)=P(Y|X氨)。岸从语义的角度来啊分析,规则的可熬信度表示这条规扒则的正确程度;肮支持度表示用这案条规则可以推出袄百分之几的目标昂,即这一规则对耙于整体数据的重绊要程度。用户可芭以定义二个阈值懊,要求数据挖掘霸系统所生成的规阿则的
14、支持度和可敖信度都不小于给叭定的阈值。扳这样,就用蕴含埃式、支持度和可摆信度唯一标识了罢每一个挖掘出来办的关联规则。吧已知事物数据库敖D,关联规则的暗挖掘问题就是产捌生支持度与置信芭度分别大于用户柏给定的最小阈值胺的所有关联规则袄。该问题分两步艾来求解:第一步埃是找出事务数据唉库跋D中所有满足条盎件的具有背用户办指定最小支持度把的项目集。具有佰最小支持度的项啊目集称为频繁项办集败。第二步是从频疤繁项集中构造可稗信度不低于用户敖要求的规则。形吧式地,对于每一版个频繁项目集皑A,找出A的所碍有非空子集a,昂如果比率sup伴port(A)安/suppor版t(a)mi霸n暗_疤conf吧(可信度)敖
15、,就生成关联规袄则a(A-a扒)。板识别或发现所有按的频繁项集是关吧联规则挖掘算法岸的核心,也是计岸算量最大的部分啊。目前已有不少按挖掘频繁项集的傲方法,其中最著耙名的是R.Ag芭rawal和R挨.Srikan笆t提出的Apr唉iori算法颁11,其核心跋是利用这样一个爸性质:频繁项集安的所笆有非傲空子集都是频繁斑的。基于这样的佰先验知识,Ap岸riori使用挨一种耙“瓣逐层搜索八“瓣的迭代方法,k版-项集用于探索懊(k+1)项集笆。首先找出频繁搬1-项集,记作矮L1;用L1找吧频繁2-项集L奥2;而L2用于矮找L3,如此下百去,直到不能找按到频繁k-项集胺。霸虽然Aprio罢ri算法能最终芭
16、挖掘出所有的关把联规则,但由于癌处理的数据量非隘常大,因而算法艾的效率显得十分班重要。后来的一隘些研究人员对算搬法的连接和剪枝皑过程进行各种优肮化。凹如12提出跋了称为Apri白oriTid的懊改进算法,该算傲法提出了在每一班步(第一步除外癌)计算候选频繁罢项集的支持度时暗不需要瓣浏览耙整个事务数据库埃。它认为不包含拌任何k-项集的敖事务不可能包含皑任何k+1项集背,这样,这种事敖务在其后的考虑胺时,可以加上标蔼记或删除,因为巴为产生j-项集唉(jk),扫背描数据库时不再办需要它们。该算捌法的本质是压缩摆进一步迭代扫描鞍的事务数。蔼而13提出半的Aprior氨iPro算法,岸其基本思想与A挨p
17、rioriT稗id是一致的,爸也是减少对数据懊集的扫描,不同班的是Aprio熬riPro算法哎是通过在原有的芭数据集上增加一佰个属性,通过这袄个属性的取值来八减少对某些事务傲的扫描。霸14是结合熬Apriori斑和Aprior案iTid两种算斑法,提出了颁一种疤混合挖掘算法A斑prioriH凹ybrid,其隘基本思想是在扫疤描的早期使用A癌priori算拌法,当候选模式搬集中记录条数小百到可以放进内存癌时就转向Apr办ioriTid跋算法。芭这些改进算法虽疤然比Aprio摆ri算法在挖掘瓣效率上有一些提扮高,但本质上没八有什么区别,都摆要在挖掘过程中埃生成大量的候选霸模式集。袄“盎有没有这样的
18、算敖法,挖掘全部的案频繁项集而不产柏生候选?佰”懊 1999年H岸an等人提出F背P-Growt爱h算法15哎,以及 Agr挨awal等人提袄出的树投影(伴Tree Pr疤oject)耙16关联规则爸挖掘算法就是这邦样的算法,它们熬在霸性能办上均获得了突破搬,与Aprio暗ri算法相比,癌挖掘效率有了数巴量级的提高。利般用FP-Tre奥e 可以压缩事吧务数据集,压缩笆有的达到100板多倍;而树投跋影方法从原理上扒讲是适应任何数搬据集的,无论其爸据量多大该算法碍都能有效运行,芭从而使得关联规邦则挖掘可以应用版于海量数据的挖颁掘和稠密数据集敖的挖掘。蔼除了上述关联规叭则挖掘的经典算氨法之外,人们着
19、搬重在以下几个方绊面对关联规则进爱行了研究。胺(1)继续通过按各种手段提高挖伴掘效率。这方面凹包括对原有算法鞍的进一步改进板17,18;背提出一些并行挖搬掘算法19,跋20、增量算拌法21以及罢带约束的关稗联规邦则挖掘策略(元扮规则制导关联规靶则挖掘)22艾,23。傲(2)不同形式啊关联规则的研究癌。关联规则最早扳是由购物篮分析败开始的,但是随耙着研究的扩展和爸深入,关联规则皑的应用范围不断吧扩大,因此出现岸了多种形式关联唉规则的研究。由叭最简单的单维、肮单层、布尔关联袄规则逐渐向复杂吧形式扩展。在基隘本关联规则的基稗础上提出了布尔巴型加权关联规则白和广义模糊型加斑权关联规则算法奥24,由单瓣
20、层的关联规则扩败展为多层次关联暗规则的研究2艾5等等。关联爸规则形式的多样唉化,反映了人们暗从不同角度认识板同一事物的不同傲视点,加深了对奥关联规则的认识稗与研究。拌(3)结合艾其它百理论(如软计算稗理论)对关联规瓣则进行研究。引吧入粗糙集概念,般使关联规则发现阿的模式具有较高皑的解释能力和精奥确度26;矮通过引入神经网班络的概念,提出扒用相互激活与竞摆争网络来进行数埃据库中的关联规百则的发现27败;还有基于遗伴传算法的多维关唉联规则挖掘2板8等。可以看耙出通过引入其他斑领域的先进理论袄,丰富了关联规隘则研究的内容,扮提高了算法的有碍效性。翱(4)关联规则盎的价值评判标准坝研究。如29疤背分别
21、讨论了关联爱规则的客观评价叭指标(支持度、拌可信度和相关强暗度)和主观评价笆指标(新颖性、佰用户感兴趣性和碍简洁性),在此肮基础上给出了一瓣种关联规澳则的拔综合自动评价方稗法。捌(5)关联规则癌的应用研究。理俺论从实践中来,拌但最终是为了指碍导实践。关联规哀则自提出以来,佰经过无数学者的昂研究努力,广泛扒应用于社会生产版和科研的各个方把面,产生了巨大稗的效益按30,31,3凹2,33败。扮(2)序列模式按挖掘捌序列模式(Se半quentia八l Patte癌rn)挖掘最早佰也是由R.Ag拜rawal首先巴提出来的34半。设有一个交跋易数据库D,每柏个顾客可在不同艾时间购买不同物芭品,每次购买活
22、般动称为交易(T稗ransact啊ion)。这里凹,顾客、交易时把间和所购物品分癌别以Custo隘mer_ID、靶Transa柏ction_T扒ime和Ite颁mset标识。袄如果以Cust霸omer_ID拔为第一关键字,白Transac拜tion_Ti凹me为第二关键癌字对数据库D排哀序,那么,对每白一顾客而言,他摆进行的所有交易绊是以交易时间的靶升序排列的,从坝而构成一个序列哎,称这种序列为颁顾客序列CS(绊Custome袄r Seque巴nce)。一般办地,令某顾客的稗各次交易时间为昂t1,t2,t翱3,百敖,tn,该顾客白在交易时间ti皑购买的物品集记伴为itemse阿t(i),于是斑
23、该顾客的CS序埃列为items把et(t1),拔 itemse哀t(t2), 拔itemset靶(t3),办柏, 碍itemset蔼(tn)。相应拌地,可以认为上熬述交易数据库D埃已转换为顾客序八列数据库。如果隘某序列s包含在鞍某顾客的CS序捌列中,那么称该癌顾客支持(Su暗pport)该耙序列s。某序列拌的支持度为支持安该序列的顾客数氨与顾客序列数据胺库中顾客总数之巴比。序列模式就懊是在上述顾客序背列数据库中满足把用户指定最小支胺持度的最长序列颁。袄序列模式的问题吧定义与关联规则熬很相似,它们之疤间的区别可以用暗下列例子描述,蔼关联规则描述的扳是在一次购物中耙所购买物品之间百的关联关系,而按
24、序贯模式则是描颁述同一顾客在不氨同次购物所购物绊品之间可能存在按的某种关联关系案。换句话说,关芭联规背则仅哎仅发现事务内部稗(intra-啊transac昂tion)的模拔式,而序列模式伴则是发现事务之百间(inter凹-transa扮ction)的把模式。皑序列模式的发现啊方法与关联规则伴的发现方法大致板相同,R.Ag疤rawal在A般priori算伴法的基础上提出氨了三个盎序列模式的挖掘班算法Aprio耙riAll、A扒prioriS霸ome和Dyn肮amicSom搬e34颁。Aprior版iAll算法采巴用哈希树储存候跋选序列,将所有白的候选序列均储案存在哈希树的叶俺子节点中;将候碍选序
25、列的记数划袄分为向前及向后哎两阶段:向前阶稗段跳跃性地产生爸所有特定长度的拜频繁序柏列,袄而向后阶段找出般在向前阶段未考柏虑的频繁序列。把 在3百536中氨提出了挖掘具有矮概念分层、滑动翱时间窗口及最大板和最小时间约束唉的 GSP(挨General办ized Se半quentia疤l Patte芭rns熬)算法。该算法岸也采用哈希树存碍储候选序列,仍胺将候选序列的记疤数分为向前及向矮后阶段,但此法吧划分向前阶段与半向后阶段的目的哀与实现均与 A蔼prioriA爱ll 算法不同袄。笆 PSP阿(白Perfect埃ly Sequ扮ential 蔼Pattern柏s疤)算法在37靶中提出,该算案法采
26、用了前缀树哎结构(而非哈希埃树)存储候选序唉列,靶从而敖导致该算法的候靶选序列集的产生挨和记数均不同与柏GSP算法; 绊同时,由于前缀敖树的每个节点只版存储事务中的一肮项,故与哈希树傲结构相比较大的隘节省了内存空间昂。靶(3)敖软计算方法邦软计算(Sof挨t Compu艾ting)是方癌法论的集合,这板些方法集互相协耙作,并以一种形案式或其它某种形隘式为现实中的模败糊情况提供灵活按信息处理功碍能38翱。它的目的是为疤了获得易处理的爱、粗糙的、低成胺本的解决方法而隘对不确定的数据鞍进行处理。遵从澳的原则是以追求敖近似解决模糊/绊精确问题,并低办成本地设计解决凹方案。软计算方袄法主要包括模糊凹逻辑
27、、Roug暗h集、遗传算法袄、盎神经鞍网络等。模糊逻疤辑是处理不确定伴性概念及其推理半机制的过程,R哀ough集和神搬经网络常被用来绊分类和规则抽取摆,遗传算法包括吧最优解和搜索过芭程,像问题最优隘解和样本选择。鞍针对时间序列挖傲掘,软计算方法拜的应用研究简要奥介绍如下:挨模糊逻辑是最早斑、应用最广泛的芭软计算方法,模暗糊逻辑的发展导绊致了软计算方法八的出现。39哎在挖掘时间序啊列数据时使用了般模糊语言概化;矮40邦针对商业销售的皑智能分析需求,佰提出了一种基于半模糊集合的数据哀挖掘时间序列模艾式算法。柏神经网络是一个奥黑箱问题,它先扮前被认为不适合班应用于数据挖掘熬,且在符号格式敖中,它并不
28、能获氨得艾有用八信息,但却适合百进行解释。近年扮来,挖掘训练过敖的网络中的嵌入爱知识,已广泛地柏应用于数据挖掘瓣中。它对属性或奥逐个或合并地进奥行判别,这对于疤决策或分类是非俺常重要的。它对岸数据挖掘的贡献背是在规则提取和败自组织性上。版遗传算法是可调把节的、鲁棒的、昂有效率的搜索方拌法,它适应于搜捌索大空间集。它矮相对数据挖掘的俺标准来优化功能把,并达到搜索最瓣优解的目的。挨41提出了一阿个基于小生境遗霸传算法和模式缓摆存的时间序列中奥频繁结构模式的搬发现算法,该算板法具有轻便、灵蔼活、可扩展性好蔼的特点,可根据拔实际情况合理配叭置计算时间和所摆占用的内存资源叭,可实现挖掘结岸果的耙实时盎动
29、态更新输出,疤并通过在在实际盎时间序列数据上碍的实验证明了该氨算法的有效性。癌 拔Rough集理颁论由波兰逻辑学安家Pawlak佰教授在20世纪班80年代提出,俺是一种处理含糊唉和不确定问题的办新型数学工具,靶其出发点是根据唉目前已有的对给把定问题的知识将罢问题的论域进行肮划分,然后对划奥分的每一部分确唉定其对某一概念鞍的支持程度:即伴肯定支持此概念跋,肯定不支持此爱概念和可能支持罢此概念,并分别傲用三个近似集合俺来表示为正域、哀负域和边界。它半能有效地分析不八精确、不一致、盎不完整等各种不阿完备的信息,还奥可以对数据进行矮分析和推理,从翱中发现隐含的知坝识和潜罢在的奥规律。同时,R案ough
30、集理论哀在处理大数据量板,消除冗余信息氨等方面有着良好唉的效果,因此广唉泛应用于数据挖版掘的数据预处理挨(数据约简)、耙规则生成等方面拌42,43霸。把股票时间序列摆挖掘拔股票市场高风险半和高收益并存,唉因此对于股票数背据知识发现的研扮究一直受到人们哎的关注。目前对啊股票时间序列的般数据挖掘方法大邦致集中在以下三暗个方面。翱(1)相似性的氨研究罢。爸该方法是在时间癌序列数据库中找稗出与给定查询序搬列最接近的数据哀序列,它包含了板全序列匹配和子班序列匹配两种问凹题。子序列匹配笆就是找出与给定啊模式序列相似的盎所有子序列,而安全序列匹配就是暗找出澳彼此皑间相似的序列。柏具体的操作时将扳时间窗口在时
31、间哎序列上滑动,通傲过距离计算从一氨个时间序列和多颁个时间序列中寻摆找相似的时间序伴列模式进行聚类哎形成相似组群,氨当有一个新的时跋间序列需要分析昂时,可以从相似笆组群中寻找与它爸最相似的类来匹败配。一般有两个瓣研究方向,一种叭是将时间序列从罢时间域(tim靶e domai肮n)到频率域(八frequen阿cy doma鞍in)后在进行唉相似性匹配。至把于为什么要进行拌这种数据变换,挨主要是基于许多白信号分析技术(罢如离散傅立叶变俺换DFT和离散摆小波变换DWT班)需要数据来自八频率域2。斑另一种则是直接凹在时间域上研究爱。主斑要应拔用是从股票数据哎中识别具有相似败变化趋势的模式背,以预测新数
32、据霸在未来的发展行班为。在时间序列阿相似性方面的研碍究文献有44捌,45,46,百47。唉(2)趋势分析翱与值预测研究碍。罢趋势分析研究时澳间序列的变化趋懊势,其理论基础唉是将时间序列视罢为一个动力系统皑,认为在其过去碍的波动中蕴涵有巴可用于预测未来岸的信息。给定一碍组值(Y白1挨,Y安2扳,Y埃3袄,氨盎),确定数据趋搬势的方法通常有柏两种2:一哎种是N阶的移动搬平均值,即 (岸)/n,(翱)/n,(吧)/n,澳百。移动平均可以盎降低数据集中的安变化总量,用移瓣动平均替代时序碍,可以减少不希澳望出现的波动,盎故它也称为时序板的平滑。另一种澳是最小二乘法,昂即以最好的拟合熬曲线C作为最小阿二乘
33、曲线,即曲鞍线具有最小的柏,其中偏差或误隘差d办i佰是指点(x隘i笆,y氨i安)岸的值y爸i奥与对应曲线C的颁值之间的差值。瓣趋势分析可以用拌来值预测,除此矮之外,用得较多柏的是神经网络稗48,49。疤这种预测方法由盎于是基于时间序鞍列的具体数值,伴而这些数据往往伴含有许多干扰数瓣据,因此该值预搬测方法的抗干扰班能力较弱。板(3)时间序列版中关联规则的抽捌取扮。案Gautam 傲Das等对从时扮间序列中发现关扮联规则进行了研暗究50,这艾里规则是对时间搬序列中不同模式办间关系的一种描澳述,50的稗主要贡献在于给把出了一个将原始爱时间序列转换成霸有各个模式表示霸符组成的符号序背列的一般方案,拜该
34、方案由三部分案组成,即分割,坝聚类和符号替换把。然后采用序列案模式发现算法实绊现了符号序列中班规则的发现。敖针对股票时间序皑列的特殊性,许皑多学者在经典关罢联规则挖掘算法捌的基础上,又提隘出了许多新的算邦法。1996年袄R.Strik扒ant给出了关邦系数据库中数量肮关联规则的挖掘佰算法鞍51;19办98年H.Lu鞍对股票变动的预昂测以及内联相关把性分析进行了研拜究52;1吧999年M.G澳arofala背kis提出了具跋有约束限制的时坝序数据挖掘5稗3;2002哀年 Y.Che隘n对时序数据库暗的多维回归分析背进行了研究5瓣4。国内学者爱在这方面也做了八相当的研究,暗55对股票时伴间序列的挖
35、掘,爱分别探讨了一维笆和二维关联规则碍的发现;56哎通过一个具体碍的实例描述了从捌股票时间序列中暗挖掘一维关联规班则的方法;5安7提出了延迟爸关联规则的概念爸,并在股票时间凹序列上实现挖掘暗该规则的算法;巴58在时间凹序列中引入多重澳时间粒度胺,以模糊规则的白形式给出数据挖鞍掘的结果。哀Rough集理阿论在数据挖掘领笆域的应用主要体爸现在数据约简和巴关联规则的抽取办上,这方面的研隘究已经有了少量绊的文献。59拔提出的一种基绊于Rough集摆的时间序列数据疤挖掘策略,显然柏适用于股票时间败序列的挖掘;凹60则提出将安正则化神经网络哀与Rough集埃理论相结合应用巴于股票时间序列爱数据库的挖掘。翱
36、该方法融合了正哀则神经网络优良澳的泛化性能和R敖ough集理论吧的规则生成能力罢,充分展示了软埃计算方法应用于叭时间序列数据分摆析的新颖性。四总结与展望伴从大的方面来说霸,时间序列数据袄的挖掘技术可分凹为统计分胺析法和数据挖掘靶。众所周知,统氨计学是数据挖掘靶的三大支柱之一碍(另两种是数据柏库和人工智能)俺;同时,数据挖败掘在统计学的基澳础上另有扩充和跋发展,这使得数岸据挖掘技术成为袄一种更具优势性办的研究方法。统颁计学为问题的探扒索解决方案提供版了有用而实际的佰框架;模型是现爸代统计学的核心背,模型的选择和懊计算往往被认为扳是次要的,是建扳立模型的枝节。皑统计学本质上是哀从事肮“败确定性斑”
37、蔼分析的,可以说熬统计方法是蔼“稗目标驱动奥”耙的。但数据挖掘爱却不同,它的核袄心是算法,当然办也考虑模型和可佰解释性问题,但拔算法及可实现性搬是第一位的。它板所强调的首先是佰发现,其次才是绊解释。数据挖掘皑,作为很多学科癌交叉的结果,继扒承了机器学习的办“岸冒险俺”疤态度,比统计学爸更强调实践性、奥探索性和灵活性柏。爱证券市场是国民矮经济的晴雨表,佰是政府主管部门艾、券商和广大投凹资者的兴趣中心稗。长期以来各券埃商的交易系统一扳直走在IT技术伴应用革新的前沿把,同时也积累了鞍大量的数据;拔挖掘、开发和利板用这些数据一方败面可以有效指导懊证券投资者的投傲资,另一方面可哎以使证券公司进拔行最适合
38、的定位懊,从而使企业长拜期的积累得以充凹分发挥,树立竞埃争优势扒。作为数据挖掘疤的主要组成部分扒之一,关联规则板挖掘获得了广泛柏的研究,但从关跋联规则的角度进哀行股票时间序列扮分析,从学术上把来说具罢有一定的新颖性鞍,其终极目标是碍以极大的概率预安测股价的未来走安势。股票的涨跌疤不是各自互不影芭响的,传统意义颁上的扳“矮板块联动板”肮就是极好的证明矮。考察股票价格暗之间的涨跌关系啊,如能在传统分袄析方法的基础上坝,采用先进的数笆据挖掘技术,挖澳掘出股票之间的奥价格联动关联规肮则,显然具有十肮分重要的意义。啊Rough集理捌论是一种处理含把糊和不精确性问胺题的新型数学工芭具,是采用精确稗的数学方
39、法分析矮不精确系统的一傲种理想方法。大胺量文献已经说明翱Rough集理敖论是从数据集中笆提取关联规则的岸有效方法,其中霸主要的原因应归柏功于Rough笆集理论强大的数笆据约简能力。应瓣用R瓣ough集理论敖对股票时间序列笆数据进行建模、白约简、规则抽取坝,显然又是一个摆极具新颖和创新叭的研究领域。参考文献 搬1 安鸿志凹,陈兆国,杜金笆观,潘一民. 瓣时间序列的分析巴与应用. 科学按出版社 198邦3.盎2 Jia扳wei Han吧,Michel挨ine Kam八ber. 数据版挖掘: 概念与班技术.北京:机埃械工业出版社2般001.36颁、27828敖5.罢3 贝政新肮,陈瑛. 证霸券投资通
40、论. 办上海:复旦大学扒出版社,199哎8.百4 安妮.凹 股票投资技术靶方法与应用. 摆深圳:海天出版哎社,199袄5.蔼5 王耀动疤,张德远,张海白雄. 经济时间碍序列分析. 上蔼海财经大学出版安社 1996.盎6 李民,白邵建中,李俊平傲等. 用ARM案A模型预测深沪扮股市. 长沙铁爱道学院学报,2啊002,18(啊1):788熬4.疤7 李爱国半,覃征. 滑动坝窗口二次自回归岸模型预测非线性皑时间序列. 计板算机学报,第2袄7卷,第7期2拔004年7月.氨8 孙宏义把,朱梅. 混沌芭时间序列预测及笆在股票市场中的扮应用. 安徽工半程科技学院学报盎,第18卷,第挨4期2003年邦12月.
41、瓣9 李菁菁邦,邵培基,黄亦鞍潇. 数据挖掘坝在中国的现状和伴发展研究.耙 管理工程学报艾 2004年第啊3期.傲10 R.唉Agrawal暗, T.Imi胺elinski爸, A.Swa疤mi. Min八ing Ass捌ociatio捌n Rules爱 Betwee安n Sets 坝of Item隘s in La巴rge Dat岸abases唉C. Pro唉ceeding吧s of AC板M SIGMO霸D Int搬盎1 Conf.把 Manage俺ment of罢 Data, 靶Washing扮ton D.C盎., 1993搬.20721矮6. 柏11 R.败Agrawal班, R.Sri
42、柏kant. F巴ast Alg盎ori皑thms fo翱r Minin翱g Assoc罢iation 把RulesJ扳. VLDB艾94, San碍tiago, 版Chile,1氨994:478瓣499.按12 Ma斑nnila H拌, Toivo霸nen, In按keri Ve瓣rkamo A凹. Effic邦ient al澳gorithm版s for d瓣iscover疤y assoc绊iation 熬rules. 伴In Proc凹eedings斑 of AAA盎I Works罢hop on 拜Knowled拜ge Disc巴overy i芭n datab敖ase. Ju凹ly 199
43、4哀.181瓣192.芭13 Ha白nnu Toi般vonen, 背Mika Kl凹emettin稗en, Pir敖jo Ronk扳aine et坝al. Pru稗ning an矮d group阿ing 芭discove昂red搬 associ扒ation r捌ules. I袄n Mlnet蔼 worksh霸op on S捌tatisti挨cs, Mac百hing Le隘arning 敖and Dis绊covery 斑in Data摆base. H稗eraklio拌n, Rete般. April蔼 1995.版14 Ag扳rawal R稗, Srika阿nt R. F办ast Di疤scove
44、ry哎 of Ass巴ociatio败n Rules伴. In Fa霸yyad.肮爸 1996.啊15 吧J.Han, 拜J.Pei. 拜Mining 伴Frequen摆t Patte捌rns Wit芭hout Ca盎ndidate斑 Genera跋tion阿.凹 In Pro敖c. 2000耙 阿ACM-SIG熬MOD Int办l. Conf岸. on Ma哎nagemen背t of Da俺ta(SIGM昂OD2000拔) Dalla般s TX 20败00芭,办1板班12傲.搬16 俺R.Agarw蔼al搬,八 C.Agga吧rwal癌,坝 V.Pras俺ad搬. 班A T哀ree Pro般
45、jection摆 Algori扒thm for袄 Genera芭tion of把 Freque胺nt班 懊Itemset霸s昂.笆 Journa白l of Pa把rallel 捌and Dis板tribute罢d Compu唉ting Sp凹ecial I版ssue on颁 High P哀erforma八nce翱 拌Data Mi巴ning 20傲01拜,半350-371凹.搬17拌 叭倪旻皑,斑徐晓飞捌,矮邓胜春伴,凹赵政. 隘基于频繁项目对按支持矩阵的唉Apriori肮优化算法.小型按微型计算机系统把.班Vol.25 暗No.5澳, 百May 200爱4岸.版18 唉邓砚谷,王丽绊珍. 败
46、对FP-Tre阿e头表节点数据般结构的改进八.唉计算机工程与应稗用. 2004按,25.啊19 盎R.Agraw把al, J.S百hafer败.埃 Parall绊el Mini摆ng of A扮ssociat耙ion Rul巴es啊. 笆IEEE Tr捌ans.On 版Knowled跋ge and氨 爱Data En拔gineer 坝1996,96碍2般皑969傲.般20 鞍张兆功,李建中俺,张艳秋.岸 颁海量数据上挖掘斑关联规则的并行奥算法拌. 哈尔滨工业坝大学学报,20翱04年05期埃.稗21百 盎朱红蕾,李明.埃 拌一种高效维护关扮联规则的增量算耙法拌.叭 计算机应用研败究,叭2004年
47、09皑期.扒22 捌M.Kambe背r,矮 把J.Han肮,罢 J.Y.Ch肮iang柏.扳 Metaru蔼le-Guid蔼ed Mini捌ng of M绊ulti-De翱mension笆al Asso摆ciation搬 案Rules U氨sing Da阿ta Cube班s In Pr斑oc.1997暗 Intl. 瓣Conf. K暗nowledg矮e Disco般very an败d Data 斑Minin K碍DD1997昂 半 Newpo稗rt Beac案h CA. 1半997,207伴-210吧.俺23 程继把华,郭建生,施罢鹏飞. 元规则盎指导的挨知识发现方法研埃究. 计算机工拌程与应
48、用,19盎99年第10期哀.稗24 陆建绊江. 数据库中奥布尔型及广义模矮糊型加权关联规啊则的挖掘癌.系统工程理论皑与实践,200敖2,2:28绊32.哀25 程继昂华,施鹏飞. 氨多层次关联规则扳的有效挖掘算法案.软件学昂报,1998,巴9(12):9翱37941.板26 程 瓣岩,黄梯云.粗肮糙集中定量关联昂规则的发现及其暗规则约简的方法班研究.管坝理工程学报,2搬001,15(爱3):737澳7.摆27 倪志败伟,蔡庆生,方艾瑾.用神经网络按来挖掘数据库中敖的关联规则摆.系统仿真学隘报爸,2000,1稗2(6):68翱5687.爱28 拌高坚. 靶基于免疫遗传算凹法的多维关联规霸则挖掘扮
49、. 计算机工程八与应用. 20案03年32期.靶 斑29 苏占扒东,游福成,杨版炳儒.办 关联规则的综百合评价方法研究柏与实例验证计算吧机应用. 20斑04年10期.埃30 李虹暗,蔡之华. 哀关联规则在医疗斑数据分析中的应稗用皑. 微机发展.爱 2003年0跋6期.扒31 胥桂跋仙,高旭,于绍澳娜. 爸关联规则算法在哎中文文本挖掘中绊的应用研究. 扳中央民族大学学氨报(自然科学版皑). 2004隘年04期.唉32白 敖姜南,唐晓青.艾 艾应用关联规则构傲建质罢量活动链模型澳.背 瓣北京航空航天大坝学学报,200碍4年05期. 安33搬 半普杰信,薛冰冰霸. 绊加权关联规则在霸网络入侵检测系巴
50、统中的应用. 俺2004年04案期.摆 熬34 Ag懊rawal R摆, Srika靶nt R. M板ining S颁equenti摆al Patt捌erns. I蔼n Proc.暗95 Int扳摆1 Conf 鞍Data En哀gineeri袄ng, Tai按bei,Tai芭wan. Ma板rch,5,1岸995.敖35半 Tamakr罢ishnan 霸Srikant斑, Rakes柏h Agraw袄al袄.靶 Mining拌 Sequen熬tial Pa蔼tterns:凹 扮General瓣ization坝s and傲 半 昂Perform暗ance Im鞍proveme八nts唉.盎36
51、 吧Ramakis熬hnan Sr胺ikant隘.巴 Fast A安lgorith按ms for 哎Mining 柏Associa翱tion Ru拔les and按 Sequen半tial Pa奥tterns八,斑 班 捌Chapter芭 5 Mini蔼ng Sequ盎ential 班Pattern扒s p113-扒146版.凹37 柏F.Masse氨glia, F盎.Cathal蔼a, P.Po隘ncelet伴.敖 The笆 PSP Ap白proach 挨for Min爱ing Seq八uential哎 Patter斑ns扒.捌38 L.办 A. Zad傲eh. Fuz哀zy logi艾c,
52、 neur般al netw稗orks, a昂nd soft鞍 comput疤ing, 邦Commun.霸 ACM, V扒ol. 37,哀 pp. 77拔-84, 19芭99.矮39 昂D. A.Ch袄iang, L扮.R.Chow霸,Y.E.Wa邦ng皑.岸 Mining碍 time s败eries d碍ata by 跋a fuzzy阿 lingui拜stic su扒mmary s笆ystem. 挨Fuzz百y Sets 背Syst. V拌ol. 112扮, pp.41斑9-432, 澳2002.爸40柏 吴煲宁,林天办,孙志挥,汪晓半刚.懊 一种基于模糊八集的时间序列挖氨掘算法的设计与袄实现
53、. 计算机氨工程与应用,2板002年20期按.吧 绊41 李斌扮,汪祖媛,高清背维,庄镇泉. 巴基于遗传算法的笆时间序列中频繁败结构模式发现研敖究. 电路与系斑统学报. 第九昂卷,第四期,2疤004年8月.挨42 拔刘清. Rou把gh集及Rou巴gh推理. 科挨学出版社,20办01.罢43 韩中熬华,吴成东,刘霸海涛. 数据挖矮掘技术研究进展哀. 工控智能化唉,2003(1拜0), pp.皑 18-23.稗44 Da坝s G, Gu扳nopulos胺 D. Fin疤ding si按milar t昂ime ser扳ies. In熬 Proc. 拌Of the 把Confere肮nce on 半Princip把les of 唉Knowled芭ge Disc坝overy a哀nd Data盎 Mining办, Trond肮heim, N霸orway, 叭1997:12蔼4-135. 佰45 Ea耙monn Ke啊ogh. A 叭Tutoria拔l on In昂dexing 扮and Min巴ing Tim挨e Serie按s Data.版
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- BMS-442606-生命科学试剂-MCE
- 油制氢装置操作工创新思维模拟考核试卷含答案
- 幻灯机与投影机维修工安全演练测试考核试卷含答案
- 妇幼保健员班组管理能力考核试卷含答案
- 剧装工诚信道德知识考核试卷含答案
- 印品整饰工安全生产规范测试考核试卷含答案
- 钻井液工岗前价值创造考核试卷含答案
- 重冶浸出工安全操作竞赛考核试卷含答案
- 2026年音乐理论知识学习与提高
- 牛羊屠宰加工工操作安全考核试卷含答案
- 肝素类抗凝药药理及临床应用指南
- 腹直肌分离教学课件
- 微生物基因组测序分析方法
- 钢结构高栈桥施工监测监控措施
- 水电站工程电气二次设备安装施工方案
- 2025版煤矿安全规程学习培训课件
- 工地安全用电知识培训课件
- 基于单片机的云端宠物喂食器
- 砌墙合同协议书
- 2025年新牙科退款协议书
- 学堂在线 雨课堂 学堂云 社会创新与创业 章节测试答案
评论
0/150
提交评论