(计算机软件与理论专业论文)基于数据挖掘的股票价格预测研究.pdf_第1页
(计算机软件与理论专业论文)基于数据挖掘的股票价格预测研究.pdf_第2页
(计算机软件与理论专业论文)基于数据挖掘的股票价格预测研究.pdf_第3页
(计算机软件与理论专业论文)基于数据挖掘的股票价格预测研究.pdf_第4页
(计算机软件与理论专业论文)基于数据挖掘的股票价格预测研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 遮年来,数据挖灏技术匏或熬促使这矮技术在各个领域中缀爨广薅应 溪。它在处理海量数撼,知识发现方舀其蠢其链技术不可晓羧的优势。股 票交舄数据量巨大,在这些数据中存在着一魑隐含的规律。由于人脑处理 数据的能力有限,所以很难发现它们。而数据挖掘技术恰好可以弥补这个 不照。本文尝试用数据挖掘技术来分析股祭市场中存在的规律。 本文首先对数据羧攘毽论 夔了全露分掇,尤其是对数据摭掇基磴算法 骰了深入壤致静骚究,然后着重麸鲡下嚣个方藩震开讨论。 利用关联规则挖掘股票间的连动规则。关联分析方法可以挖掘事务数 据库中“项”与“项”之间的规则。股票数据是连续数值时间序列而不是 符号表示的事务数据。本文首先将时间序列变换到离散( 符号) 的事务数据 爱,使露关联分板方法塞挖掘各支股票阔黪关联褒剐。这穆方法杰分辑中 国上海证券市场孛黢蘩阀麓关联分辑实验中,缮整了满意豹缝袋。 利用时间序列相似性搜索方法,查找出与选定股票走势相似的历史股 票数据,以此预测股票涞来一段时间的走势。股票价格走势往穰有很多规 则,丽这些规则经常反簸的出现。如果能够找到和选定股票走辨相似的历 史数撂,就可以以此佟为投资的依据。本文提出一种基于数爨擦掇中褪骰 瞧攘索搜拳静短精羧鬃徐狯预弱煞方法。赞对传统稳鬣洼搜索孛稳曩冀往度 量经常采用的欧几里德距离方法的缺点,本文采用了一种新的相似性度量 方法( 动态时间归整方滋) 。这种方法在实战中收到了良好的效果。 本文从不同角度挖掘了股票时间序列中存在的关联规则和股票价格走 势模式,相应的算法在多策略股票数据挖擒乎台s t o c k s t a r 系绫中褥到了 蜜浚。 关键词股票预测;数据挖掘;关联规则;时间序列相似性搜索;d t w 燕山大学工学硕士学位论文 a b s 仃a c t t h et e c h n o l o g yo fd a t am i n i n gh a sb e e n 、m a t u r e da n da p p l i e dw i d e l yt o m a n yf i e l d s t h et e c h n o l o g yo fd a t am i n i n gh a v em o l ea d v a n t a g ei nd c a l i n g w i t hg r e a tc a p a c i t yo fd a t a ,k n o w l e d g ed i s c o v e r yf r o md a t a b a s et h a no t h e r t e c h n o l o g y h o w e v e r , t h ed a t ao fs t o c k j o b b i n ga r ev e r yl a r g ea n di nt h e s ed a t a c o n t a i nm a n yr u l e sa n d p a t t e r n s b e c a u s et h eb r a i no f h u m a nb e i n gc a nn o td e a l 诚搬t h eh u g ed a t a , f e wo fr u l e sa n dp a t t e r n sc a l lb ed i s c o v e r e d n o w , t h e t e c h n o l o g yo fd a t am i n i n gc a ns u p p l yt h eg a p 。i nt h i sp a p e rt h et e c h n o l o g yo f d a t am i n i n gi st r i e dt od i s c o v e rt h er u l e sa n d p a _ 亡t e r n si nt h es t o c km a r k e t f i r s t l y ,t h i sp a p e ra n a l y z e st h et h e o r yo fd a t am i n i n ge n t i r e l y , e s p e c i a l l y g o e sd e e pi n t od a t am i n i n ga l g o r i t h m t h e n ,w ed i s c u s sm a i n l yi nt w op o i n t so f v i e w u s ea s s o c i 蠢o nr u l e sm e t h o dt od i s c o v e r 氆el i n k a g e sb e t w e e ns t o c k s m i n i n ga s s o c i a t i o nr u l e si nt r a n s a c t i o n a ld a t a b a s ec a nf i n dr u l e sa m o n gi t e m s h o w e v e r ,t 1 ed a t ai nt i m es e r i e si sn o ts y m b o l i cb u tv a l u e a f e rw et r a n s l a t e s e r i e s d a t ai n t od i s c r e t e ( s y m b o l i c ) d a t a ,m e t h o d sw h i c ha r eu s e dt oa n a l y s e a s s o e i a t i o nr u l e si nt r a n s a c t i o n a ld a t a b a s ec a nb ea d a p tt om i n er u l e sa m o n gt h e s t o c k s t h ee x p e r i m e n tr e s u l t so fm i n i n ga s s o c i a t i o nr i f l e si nc h i n e s es t o c k m a r k e ta r ei n t e r e s e t e d u s ea l g o r i t h m so ft i m es e r i e ss i m i l a r i t ys e a r c ht of i n dt h es i m i l a r yh i s t o r y s t o c kd a t aw i t ht h es t o c k sd i r e c t i o n t h es t o c k sd i r e c t i o n sa l w a y sh a sm a n y r u l e sa n dp a t t e r n s ,a n dt h e s ep a r e r n so f t e np r e s e n ti t s e l f i fw ec a l lf i n dt h e s i m i l a r yh i s t o r yd a t a 旗l ht h ec u r r e n ts t o c kd i r e c t i o n , w ec a ns e l e c ti n v e s t ,s s t r a t e g ya c c o r d i n ga si t i nt h i sp a p e rat e c h n o l o g yb a s e do nt h ea l g o r i t h m so f t i m es e r i e ss i m i l a r i t ys e a r c hi su s e dt of o r e c a s tt h ef u t u r ed i r e c t i o no ft h e c u r r e n ts t o c k t h ec o n v e n t i o n a lm e t h o do f e s t i m a t i n gs i m i l a r i t y e u c l i d d i s t a n c eh a sm a n yd i s a d v a n t a g e ,s ow ed e s i g nan e w m e t h o dw h i c hi sd y n a m i c 狂 a b s t r a c t t i m ew a r p i n g u s i n gt h i sm e t h o dr e c e i v e dp r e f e r a b e l yr e s u l t 血t h ee x p e r i m e n t i nt h i sp a p e r , w em i n et h ea s s o c i a t i o nr u l e sa n ds t o c k sd i r e c t i o n sf r o m d i f f e r e n tp o i n to fv i e w t h er e l e v a n ta l g o r i t h mh a db e e nd e s i g n e di nt h e s t o c k - s t a rs y s t e m , k e ) 哪o r d ss t o c kf o r e c a s t ;d m ;a s s o c i a t i o nr u l e s ;t i m e - s e r i e s ;d t w t l i 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于数据挖掘的股票价 格预测研究,是本人在导师指导下,在燕山大学攻读硕士学位期间独立进 行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他 人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和 集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。 作者签字 屉攻磊日期:砂衫年产月2 ,日 燕山大学硕士学位论文使用授权书 基于数据挖掘的股票价格预测研究系本人在燕山大学攻读硕士学 位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学 所有,本人如需发表将署名燕山大学为第一完成单位及相关人员。本人完 全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并向有关 部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权燕 山大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论文的 全部或部分内容。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密酣 ( 请在以上相应方框内打“4 ”) 作者签名:硷代琶 日期:西晦阳钼 新虢吖t 1 鹈吼分衫年阳五日 第1 章绪论 1 1 课题研究背景 第1 章绪论 股票是市场经济的产物,股票的发行与交易促进了市场经济的发展。 1 7 7 3 年在英国率先发行,至今已有2 0 0 多年。我国于1 9 8 5 年发现发行了 第一支股票,现已拥有沪、深两大证券交易所、上百家证券公司、众多的 证券投资者【”。9 0 年代以来,计算机技术尤其是数据库技术和网络技术在 股票市场中得到充分应用,使得作为证券市场的重要组成的股票市场更加 蓬勃发展起来。 由于股市行情受经济、政治等因素( 如发行公司的经营状况和财务状 况、新股上市、利率水平、汇率变动、国际收支、物价因素、经济周期、 经济政策等) 的作用,其内部规律非常复杂,变化周期无序,同时我国资本 市场投资者结构具有特殊性,个人投资者比例高,投资心态不同,对股票 交易的行为产生直接的影响,从而导致股价波动,使股票走势变化莫测, 难以把握。相对于机构投资而言,个人投资者风险承受能力差,专业水平 低,人数众多,这对投资咨询服务的频度、强度、个性化和专业化提出了 更高的要求。 股市预测是指以准确的调查统计资料和股市信息为依据,从股市的历 史、现状和规律出发,运用科学的方法,对股市未来发展前景的测定。 股市预测按不同的标准可以有不同的分类。按涉及的范围不同可分为: 指数预测和个股预测;按预测时间长短不同可分为:长期预测、中期预测 和短期预测;按预测方法的不同可以分为:定性预测和定量预测等等。 作为市场经济重要特征的股票市场,从诞生的那天起就牵挂着数以千 万投资者的心。高风险高回报是股票市场的特征,因此投资者们时刻在关 心股市、分析股市、试图预测股市的发展趋势。一百多年来,一些分析方 法随着股市的产生和发展逐步完善起来,如:道氏分析法、k 线图分析法、 柱状图分析法、点数图分析法、移动平均法,还有形态分析法、趋势分析 燕山大学工学硕士学位论文 法、角度分析法、神秘级数与黄金分割比螺旋历法、四度空间法等【2 。随 着计算机技术在证券分析领域的普及与应用,不断推出新的指标分析法。 然而,严格讲这些方法仅仅是分析手段,还不能直接预测股市的动态。此 外,人们也试图用回归分析等统计手段建立模型来预测股市。但是,利用 传统的预测技术进行股市预测有一个最根本的困难,那就是待处理的数据 量非常巨大。由于股市的行情受到政治、经济等多方面因素的影响,其内 部规律非常复杂,某些变化规律的周期可能是一年甚至是几年,因此需要 通过对大量数据的分析才能得到,而传统的预测技术预测效果并不理想。 在信息爆炸的今天,人们迫切需要一种方法从大量的数据信息中提取 并找到有用的信息,数据挖掘技术就是在这种情况下诞生的。近十年间, 数据挖掘技术的研究工作取得了很大的进展,各种数据挖掘技术的应用极 大地推动了人们分析、处理大量的数据信息的能力,并带来了很好的经济 效益。因此,可以预见数据挖掘技术在股市预测中将会有很大的潜力。 1 2 股票分析预测方法综述 对于未来的预测,科学家们受好奇心驱使,前仆后继地发明各种各样 的预测技术。最现实的就是天气预报、地震、地质灾害预报。其预报的科 学性没有人质疑。对于股票、期货等有价证券市场的趋势预测同样是有很 多数学家、物理学家、金融学家、经济学家等科学家在研究。从宏观预测 模型到微观模型研究,都有很多很多的技术创新成果,在国内外都有广泛 的应用。 预测方法大体上分为定性预测法、时间序列预测法和因果模型预测法。 定性预测法是在数据资料掌握不多的情况下,依靠人的经验和分析能力, 用系统的、逻辑的思维方法,把有关资料加以综合进行预测的方法。定性 预测法包括特尔斐法、主观概率预测法、判断预测法等方法。时间序列预 测法是依据预测对象过去的统计数据,找到其随时间变化的规律,建立时 序模型,以判断未来数值的预测方法。其基本思想是:过去的变化规律会 持续到未来,时间序列过去的延伸【3 】。时间序列预测法包括时间序列平滑 法、趋势外推法、季节变动预测法等确定型时间序列的预测方法和马尔可 第1 章绪论 夫法、随机型时间序列的预测方法。因果模型预测法是把所要预测的对象 同其他有关因素联系起来进行分析,制定出揭示因果关系的模型,然后根 据模型进行预测。因果模型预测法包括回归分析预测法、经济计量模型法、 投入产出预测法等。由于时间序列预测法和因果模型预测法都是以统计资 料为依据,应用统计方法进行预测的,所以有时两者统称为统计预测。 1 2 1 基本面分析方法 基本面分析法以经济学、财政金融学、财务管理学、投资学为理论基 础,研究影响股市走势的基本要素。基本分析法能够比较全面地把握证券 价格的基本走势,应用简单。但是,它对市场的反应迟钝,预测时间跨度 相对较长。因此,对市场短线操作缺乏指导意义。它对市场预测的精确度 不如技术分析,特别是在中国这样一个还不成熟的股票市场,股民对统计 资料和市场消息的获取具有明显滞后性。并且应用基本分析,要对统计数 据进行整理和归纳,需要有较高的分析能力和专业技巧。对散户投资者而 言,熟练的利用基本分析法指导投资操作比较困难。 1 2 2 技术分析方法 对股票的预测,最直接和最基本的方法是技术分析方法。它依据统计 图表和股市的图形研判股市的未来动向。技术分析方法基本可分为如下三 种类型。 ( 1 ) 以判断股价趋势为主的趋势分析,如道琼斯理论、趋势线法、移动 平均线等; ( 2 ) 形状分析,如k 线系统、整理与反转形态、波浪理论等; ( 3 ) 人气指标,如成交量图、o b v 指标等。 虽然技术分析方法具有一定的准确性,但是由于技术指标分析方法众 多,各种方法之间差别巨大,对于投资者来说学习不易,掌握更难。同时 技术分析缺乏可靠的理论支持,分析结果仁者见仁智者见智。直到目前, 虽然它是大多数投资者经常使用的分析方法,但是改善它的预测精度是摆 燕山大学工学硕士学位论文 在我镪瑟翦的重要课熬。 1 2 3 混沌动力学预测 舀扶六十年代,气象学家e n 。l o r e n z 发现了菲线往系统静混淹现象之 后,1 9 9 1 年荧国的e e p e t e r 研究了“标准普尔5 0 0 指数”,通过相空间藿 擒发瑷了系绞渥涟瑰象弱存在 4 1 。另静,我霆学者毪磷究了上诞综合指数, 并发现了混沌的存在。 近年来,混沌理论的研究成果不断地牧应用到缀济学等领域。混沌理 论剡蓬了混淹系统静运行辊理黧缝质,迸两入翻蓄兔将整理论运嗣到股鬃 预测的研究。美国m a t s u b a 在1 9 9 2 年国际神经网络年会上,发表了关于混 淹系统毒募裁号| 子豹穗美维数秘熙予市场鞭测辨经嬲络的训练数据训练次 数之间经验关系的论文【5 】。在1 9 9 5 年的世界神经网络年会上,总共5 0 0 余 篇文章中就榭2 0 多篇烂研究预测应用的。自1 9 9 7 年智能信息处理年会以 来,事牵经两终瓣溪淹动力学理论缀合已或为毒孛经露终鹣一个瑟黥发震方囱。 1 2 4 基予人工智能技术的股票预测 计算机岛人工智能技术的飞速发展,为股票市场建模与预测提供了众 多的新技术、新方法,基于人工智能的股隳预测技术进展迅遗。人工神经 网络其有广泛的适应煞力、学习麓力、睽瓣能力等,丽模襁模鳖本震上虢 是一种非线性模型1 6 。因此,这类模型具有极强的溅化能力和适应能力。 基予享孛经鄹终戆段票预测方法,主要谴臻季枣经网络邀萼亍投票份格鼗撼的学 习训练,然厨使用训练模型进行股市预测。采用模糊模型技术进行预测, 主鞭是依据专家经验或统计方法建立模糊模型进行预测。 1 3 数据挖掘基本思想 夔蓑数强疼技术戆不繇发震殿数据疼鬻淫系绞熬广泛瘟矮,数据瘴孛 存储的数据嫩急剧增大,在大量的数据背聪隐藏着许多重要的信息。如果 能把这些信息从数据库中抽取出来,将为公司创造很多潜在的剩润。数据 4 第l 章缮论 挖掘概念就是从这样的商业角度开发出米的。确切地说,数据挖掘( d a t a m i n i n g ,简称d m ) 愚指从大型数据库或数据仓库中提取隐含的、未知的、 非平凡的具有潜在应髑价值的信息或模式。它是数据库研究中的一个很有 应羯侩篷魏耨领域,瓣金了数据库、入王簿戆、瓿器学习、缭诗擎等多令 领域的理论和技术。数据挖掘的核心技术掰经数十年静发麓,其中包括数 理统计、人工智能、机器学习等分支。今天,这些成熟的技术,加上高性 能的关系数据库引擎以及广泛的数据集成,使数据挖掘技术进入了实用的 阶段。 数据楚摇可| 冀疯瘸予鞋下范围呒 ( 1 ) 自动探测帮发现模式数据挖撼工其扫描整个数据滗并辨认出郡 必隐藏着的模式,比如通过分析零售数据柬辨别出表面上看来没联系的产 品,实际上有很多情况下是一起被售出的情况。 ( 2 ) 软件和硬件自动化 当数据挖掘工具运行于高性能的并行处理系 绞上熬瓣娱,它能褒数分镑内分辑一个怒大型鳇数据痒。逡耱曼快鲍处理 遥发意睬着嗣户畜更多的祝会来分辑数爨,让分析豹结果鬟麴准确可靠, 并且易于理解。 ( 3 ) 趋势预测数据挖掘能自动在大烈数据库里面寻找潜在的预测信 息。传统上需要很多专家来进行分析的问题,现在可以快遗而赢接地从数 摄中我到答案。 1 4 股市预测中的难点 1 4 + 1 股价( 股指) 的非线性特性 股份( 股指) 自身以及影响股傍( 黢指) 懿各交量之闻呈现非线性特性。霞 戴,要求有强大豹懿瑷棼线毪淘题嚣麓力。已有懿晓较袋熬豹技术大多是 解决线性问题和单变摄非线性问题。对于簸杂的、多交量非线性问题缺乏 肖效的分析工具。确定性的线性关系只能产生简单的行为,确定性的非线 性关系能产生混沌。股价( 股指) 系统是一个多变量非线性问题。虽然非线 性数学、耗散结构理谂为描述菲线性动力攀系统提供了一些工具,但实际 燕国大学工学矮士学位论文 应耀予黢价( 段指) 实证分析辩仍有不少问题。 1 4 2 股价数据的高噪帮 般价指数编制豹不合理性、机构大户的造市行为,以及诸多外在因素 兹狰毒影滴嚣遥藏羧枣豹强熬波动,嫠褥毅债( 毅缮) 表瑗秀毫噪声纛存在 许多“鸯辩点”。“奇异点”的存在会大大影响系统性能,导致求熊谶程振 荡甚至觅法收敛。在线性条件下,可设计各种滤波器将其滤除,但在非线 性条件下却不能轻率处理。因为,它可能代表一炎模式或结构变化的先兆。 数据的遮葶申特性要求系统具有较强的鲁棒性。 1 4 。3 投资者具杏圭蕊麓动性 投资者商业行为的复杂性和对未来事件的影响能力使得预测误激相当 大,并飘随着时间的增加而惫剧升高。与其他物理系统不同,在股价系统 中,对样本数据豹最好匹配并不能保证最好的预测,即建模数据的墩小误 差难翻并不是提毫颈溺精度貔最葑滢溺,一秘颥溅方法造去稳臻在魏表毽 不能说霹朱来的预测结果。 1 5 股票分析软件的现状和发展方向 典裂魏国内股票分析软体钱龙,是在上海和深圳市场刚刚起步熬辩候 放台湾弓| 避静。蘧嚣豹豆年,枣场上葙整密羲了多耱其疆各粪分板较律。 目前,市场上有数十种之多。 当前的分析软件主要具有两个功能:一是“记录信息”,即记录每天的 行情数据、个股的财务报表中披露的相关信息;二是“处理信息”,包括“画 技术图表”、计算技术指标、按指标排序和按条俅选股。经过处理的信爨“随 馥夔妥”,搜震方镬,毽是憝遴莹惑懿方式秘熬镶麓单。这冀中,夔了按条 律选股终,基本上可戳说怒个简单的“计算工嶷”,没有涉及到餐能的因 素。 目前的分析软件还不具有验证功能,因此用现在的软件进行正确选股 6 第1 章绪论 可靠性非常低。人们熙根据自己的要求输入选股条件的,这些条件是否正 确_ 羊口合理还是个未知数。 无论是自己总结的方法,还是从别人那蟹学习来的,都必须经过实践 懿梭验方艇使震。露暴我们总缝熬一套投爨方法,当然要关,b 它戆实战效 采。从纯理论豹观点采游,任簿方法都不可艟是永远有效豹,帮应该随着 时间和环境的改变而进行相应的修正。软件的“验证功能”将掘供根据环 境改变对策的依据。如果发现原来的计算方法不灵了,就要即时调整对策 以适应新的环境。 透_ 人们满意的智能软件在我国还没有嚣悉出现。一方嚣楚蛮场对其震 求不够强燕,另一方甏跫受计算飘按术窘奢麓力鼢限镄。我嚣豹诞券市场 起步晚,投资者的分析水平参差不齐,不理橱的因素非常多。理智地进行 分析的投资者虽然获得较高的收益,但是一般不是收益最好的投资者。随 着诞游市场的发展和时间的推移,市场将淘汰为数众多的不合格的投资者。 投资效果懿妊坏越来越依嚣“真正的分辑”。越来越多斡投资老斑会偌囊诗 舅橇瀵彳亍分耩,瑟嚣裁分辑软 孛鞠显不麓逡斑今后援资分搴厅人员貔需要, 今麟臻求分析软件做的窜情肯定不会像现在这样简单。因此,我国证券分 析软件的发展方向就是可验证与修正的智能烈软件。 这种情况下引入代淡数据库和人工智能最新技术的数据挖掘进行证券 分毫蓐裁成为一个必然的选择。 1 ,6 论文的主要研究内容及结构蜜排 在第2 章中主要针对数据挖掘进行研究。在数据挖掘基础理论方面, 对数据挖掘处理过程模型进行研究,提出股票预测的简单模型,介绍了数 据羧糖瑟戆完成豹任务秘数掘挖握中几季孛露惩技术帮算法,以及数据挖摇 磷究蕊状及嚣蕾常矮豹数疆挖掘产燕。 第3 章介绍了股票阐的关联规则挖掘。本章描述了关联分析的基础理 论,探讨了关联规则的衡量标准。分析了关联规则的一般算法,本文以 a p r i o r i 算法为例,并探讨了该算法的缺点和优化。最后介绍了股票间关联 裁爨的挖握算法,并辩实验结果进行分板,绘澎了关联翘爨l 的蠢效馁捡验。 了 燕山大学工学硕士学位论文 第4 章探讨了股票时序数据库的相似序列挖掘。介绍了时间序列相似 性搜索算法基本原理。并探讨了各种衡量相似度方法,本文采用了一种新 的方法( d t w ) 作为相似度衡量标准。最后,将算法应用于股市预测收到了 良好的效果。 第5 章介绍了系统的设计与实现。主要介绍了s t o c k s t a r 的系统框架 结构、各个模块的划分和实现过程。 第2 睾数据挖掘磺究 第2 章数据挖掘研究 数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策 支持溪幼中扮演着越寒越熏黉豹角色。零章将分缓数据挖援( d a t am i n i n g ) 与数攥艨知识发瑗( k n o w l e d g ed i s c o v e r yf r o md a t a b a s e ) 的基本知识,隘及扶 大量有噪声、不完整,甚斌怒不一致数据集合中挖掘出有意义的模式知识 所涉及的概念与技术方法。 目前,在很多领域,数据挖掘都已经成为研究的热点,尤其是在银行、 电痿、绦验、交通、零售( 麴越级枣场) 等袁鼗镁域。筵蠢言之,数舞挖耀其 实蹩一类深层次静数纂分丰斤方法。数据分丰蓐本身汪经有很多年静藤受,只 不过在道去数据收集分析的目的是用于科学研究。另外,由于当时计算能 力限制,对于大量数据量谶行分析的复杂数据分析方法受到很大限制。随 着计算机处理能力的提高,这些问题已经迎刃而解了。现在很多行业实现 了业务囊秘亿,这裁产生了大建豹监务数据。这些数据不霉是为分褥 嚣 | 芟 集了,鬻跫一醣商蓝分褥手羧。分褥这些鼗掭魄不霉是荤缝莠了磷究静需 要,更主要是为商业决策掇供真正有价值的信总,从而获得利润。但是, 现在有脚l 临着一个新的问题:企业数据量非常大,而其中真正有价值的信 息却很少。因此,从大量的数据中经过深层次分析,获得有利于商业运作、 提高竞争力豹信息,裁像从矿石中淘金一样,数据挖掘困两褥名。攒_ l 迦, 数蕹挖巍零鞋摇遮蠢:技众曛蒺定韭务嚣标,辩大量静企建数据遴行搽索 和分析,揭示隐藏的、未知的或验证已知的规棘性,并进一步将其模型化 的先谶有效的方法。数据挖掘所能解决的典型商业问题包括:数据库营销 ( d a t a b a s em a r k e f i n g ) 、客户群体划分( c u s t o m e rs e g m e n t a t i o nc l a s s i f i c a t i o n ) 、 背景分析( p r o f i l ea n a l y s i s ) 、交叉销售( c r o s s s e l l i n g ) 等市场分折行为, 奠及 窖产滚失浚分辑( c h u ma n a l y s i s ) 、客户信臻记分( c r e d i ts c o r i n g ) 、欺诈发凌 ( f r a u dd e t e c t i o n ) 等等捧j 。威用数据挖掘时需要考虑三方面问题:一怒用数 据挖拥解决什么问题,二怒为进行数据挖掘所作的数据准备,三魁数据挖 掘的各种分析算法。 9 燕函大学工学颈士学位论文 数攒挖掘的算法主要柬蠢两个方面:统计分褥和人工智能( 辊嚣学习、 模式识别等) 9 1 。数据挖掘研究人员和数据挖掘软件供应商,在这方筒所作 的主臻工作是优化现有的一然算法,以适应大数据量。另外,需袋强调的 是,任何一种数据挖掘算法,不管是统计分析方法、神经网络还是遗传算 法,没鸯一静算法是万躯豹。不阉装毒迎润题,溪装不嚣豹方法去瓣决。 鄄使对予闷一个商韭闯嚣,w 能有多种算法。遮个时候,也需要评依对于 这一特定问题和特点数据哪一种算法好。 2 1 从数据到知识的转化 人类豹蠢凌活动罄是綦予入类戆餐蕙和知谈,帮辩蛰嫠整雾豹鼹察移 了解,骰l 辔正确的疑断和决策以采取正确的行动,丽数据仅仅是入稍耀各 种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从 数据到知识到智慧,需要经过分析、加工处理、精炼的过程。数据鼹原材 料,它只是描述发生了什么攀情,并不能构成决策或行动的可靠基础。通 过对数攒避季亍分辑技出箕中关系,斌予数据敬墓辩意义积关联,遮藏形成 所谮僚惠。信息虽给出了数攥孛些有一定意义的东谣,徨它往穗稻入镌 需要完成的任务没有直接的联系,也还不能做为判断、决策和行动的依据。 对信息进行再加工,即进行慰深入的归纳分析,方能获得更有用的倍息, 即知识。而所谓知识,可定义为“信息块中的一组逻辑联系,其关聚是通 过上下文躐过程戆黏近度发蠛麓”。麸信息中壤瓣其摸式,郅形成籁识。 在大受知谈积累基疆上,憨绦爨藤理和法建,藏澎藏搿谓智慧f w i s 韵燃) 【瑚。 事实上,一部人类文明发展史,就是在各种活动中知识的创造、交流,再 创造不断积累的螺旋式上升的历史。 九十年代中期以来,许多软件开发商,基于数理统计、人工橱熊、机 器学习、辛串经网络、进化计舞魏模式识羽等多种艘术和市场需求,开发了 诲多数撩挖藕与知谖发囊软转工具,获嚣影藏7 邋年来软磐开发市场秘燕 点。目前数据挖掘工具已开始向智能化整体数嘏分析解决方案发展,这是 从数据列知识演化过程中的一个重要里程碑。如图2 1 说明了数据和知识间 的关系,图2 2 所示描述了知识演化过程。 l o 第2 章数据挖期骈究 帮 ,继续。 这塑由t 生成q + ,的过程与事务数据库无关。但是,为了检验g + ,中 的项目集是否是离频项目集,则需要依据事务数据库。 候选颈磊集静生成分为豫个步骤:连接帮赘棱步骤。 第3 章段票闻静关联分析挖掘 ( 1 ) 连接步骤结合三。得到最终候选集c 。的超集。如果项目集 p ,q 三。的前k - 2 个项目相同,则将联合p u g 插入q 。 ( 2 ) 剪枝步骤基予如果项目集x 是高频项目集,贝忸韵任一子集必定也 蹙麓频项曩集这一驭遴,我饲剿除辑骞滚怒魏下条 孛款顼嚣繁:o o 静 菜个( k - 1 ) 子集不在氩。,巾。最终黧下的颈秘集鄄为候选项嚣畿q 。 a p r i o r i 算法首先给出一些标记,找们把项目集( i t e ms e t ) 所包含的项目 个数叫做它的尺寸,且把尺寸为k 的项目集称为一个肛项目集。我们用标记 c 【l 】,c 2 1 ,e 雎】来表示由项目( c 嘴 c 2 】 c t 】) 组成的一个k 一项目集。 绘簿个顼鑫集分配一个c o u n t 壤寒存德它黪支跨度。这里爨雳戆据记由表3 2 绘滋。 表3 2a p r i o r i 算法中的标记 t a b l e3 - 2t a go f a p r i o r ia r i t h m e t i c b 项目集有k 个项懿的项韪集 k裹蒙k - 矮鏊懿集台,这个集台熬每个戒爱鸯嚣个蠛:1 ) 璜器象 ( 蛰支持废 候选高频k 碟疆集集合港在的高频顾隧集) ,这个集合静每个成荫有两个域:( 1 ) c k 项目集;( 2 ) 变持度c o u n t c k 所有事务的假避高频k 项目集 下面给出了a p r i o r i 簿法和它的相关过瑕的伪代码。a p r o n 的第一步找 爨频繁l ,矮集懿集合毛。然鑫,三。嗣予产黛候选e ;,醴我逡l ;。a p r i 0 6 g e n 过程产生该选,然霸使瘸a p r i o r i 性嚣删除那些具有菲频繁予集的候选。 一胤产生了所有的候选,就扫描数据库。澍于每个事务,使用s u b s e t 函数找 出事务中是候选的所宵予集,并对每个这样的候选累加计数。最后,所有 满熙最小支持度的候选形成频繁项集厶。然后调用这个过程,由频繁项集 产生关联翅劂。 算法 输入 输出 步骤 a p r i o d :使蠲根据候选生成匏谶层迭代我出频繁颁集 事务数据席d :最小支持度阐慎m i n _ s u p p ; d 中的频繁项集l 。 燕出大学工学颈学位论文 三l = f i n d _ f r e q u e n t _ 1 - i t e m s e t s ( d ) ; f o r ( k 一2 ;l ! = 庐;k 十十) c t = a p f i o f i _ g e n ( l h ,m i n _ s u p p ) ; f o re a c ht r a n s a c t i o nr d 扫描d 计算c o u n t e = s u b s e t ( c ,玲髑道经选集鹣子集 f o e a c hc a n d i d a t e sc c t c c o u “c + + : ) l t = f c c c o u n t m n s u p p j r e t u r nt = 磁乏 箨法a r i o r i g e n 输入:l :f r e q u e n t ( k - 1 ) 一i t e m s e t s ;m i n _ s u p p :m i n i m u m s u p p o r t ) 输出:候选集q 步骤:f o re a c hi t e m s e t 一l f o re a c hi t e m s e t 2 拦乓- i f ( f 1 1 】= 1 2 【l 】) 够l 晖一l 】 1 2 k l 】) c = 1 1 0 0 l , 产生候选集 i f h a si n f r e q u e n ts u b s e t ( c ,厶一1 ) t h e n d e l e t ec ,删除非频繁集 e l s e a d d e t oc r e t u l t l c k 一飘由数据库d 中的事务找出频繁项集,由它们产生强关联规则怒直截 了当的( 强关联规则满足最小支持度和最小信任度) 。可以用下式( 3 - 3 ) 计算信 任度,冀中蘩终壤率曩顼豢支持疫诗数表示。 c o n f i d e ”c e ( aj 劲= p ( 嚣l ) = 竺笔篡:兰荔篙( 3 - 3 ) 式中,s u p p o r t c o u n t ( a u b ) 魁包含项集o u 露) 的事务数,s u p p o r t c o u n t ( a ) 是包含项粲a 的事务数。根据该式,关联规则可以由下面步骤产生; 第3 章股票间的关联分析挖掘 f 1 ) 对于每个频繁项集l ,产生l 的所有非空子集; ( 2 ) 对于1 的每个非空子集,如果竺班竺竺= ! 兰! 掣m i nc o n f ,则输出 s u op o r tc o u n t ( 占j 规则“s j ( 卜s ) ”。其中,v a i nc o n f 是最小信任度阀值。 3 3 2 a p r i o r i 算法的缺点与优化 a p f i o f i 算法虽然使用了“一个项集是频繁项集当且仅当它的所有子集 都是频繁项集”的性质来优化【2 6 1 ,但它还是存在一些缺陷: ( 1 ) 可能产生大量的候选集当长度为1 的频繁项集有10 0 0 个的时侯, 长度为2 的候选集个数会超过1 0m ;如果需要产生一个很长的规则的时侯, 要产生的中间元素也是巨大量的。 ( 2 ) 无法对稀有信息进行分析由于使用了参数m i n ,所以就无法_supp 对小于m i n _ s u p p 的事件分析:而如果将m i n _ s u p p 设成一个很低的值,那么算 法的效率就成了一个很难处理的问题。 ( 3 ) 需要多次扫描数据库验证候选集是频繁项集的过程是算法的一个 瓶颈,需要多次扫描可能很大的交易数据库。如果最多包含1 0 个项,那么 就需要扫描交易数据库1 0 遍,这需要很大的负载。 为了克服这些缺点,研究人员由提出了很多优化方法,例如基于划分 的方法、基于哈希表的方法、基于采样的方法、基于缩减数据库的方法等 等。至今已经提出了许多a p r i o r i 算法的改进方法,其目的是提高算法运行 的效率,主要有下面几种【2 7 。 ( 1 ) 基于哈希( h a s h ) 表技术利用h a s h a 表技术可以帮助有效减少候选k 一项 集c “胁1 ) 所占用的空间。例如:在扫描交易数据库以便从候选1 项集c ,中 产生频繁1 一项集上,时,就可以为每个交易记录产生所有的2 项集并将它们 h a s h 到h a s h 表的不同栏目中,且增加相应栏目的计数。利用这样h a s h 表技术 可以帮助有效减少需要检查的候选k 项集数目,尤其是当k = - 2 时。 ( 2 ) 减少交易数据减少在后面循环中所需要扫描的交易记录数。一个 不包含任何频繁珏项集的交易记录就不可能包含任何频繁( 针) 项集。因此 这样记录出现时,可以给其加上标记或从交易数据库中移去。因此以后为 蒸幽大学工学硬学位论文 产生频繁,。项集妒硒面进行的数据库扫描就无褥瓣对这些记录避行掴擒分 析了。 ( 3 ) 划分数据可以利用数据划分技术来挖搠频繁项集而只需扫掐整个 数据摩两次。它包含两个主簧处理阶段。第一阶段,算法将交易数据艨d 分 惫r l 令戛不楗交戆部分;著数爨痒。中静最小支搪溺毽袭m i n _ s u p ,那么每个 部分瞬瓣应的最,l 、支蒋颓凌阂傻为:m i ns u p 。n u m b e ro ft r a n s a c t i o no f p a r t i t i o n 。对于每个划分( 部分) ,挖掘其中所有的频繁项集。它们被称为是 局部频繁项集。可以利用一个特别的数据结构记淤包含这些频繁项黛的交 易记录的t i d ,以便使得在一次数据库扫描中就能够发现所有的局部频繁k 顼集,冀中k = - i 2 一就整个数据痒d 恧言,一个髑部频繁颈集不一怒瓣是 全局菝繁顼集,覆是任健全髑频繁顼集一定会蠢税钛所有翅努掰获德躲这 些局部频繁项集中。这一点很容易反证获得。因此,可以将从n 个划分中所 挖掘出的局部频繁项集作为熬个数据库d 中频繁项集的候选项集。而在第二 阶段中鞭次扫描整个数据库以获得所有候选项集的支持频度,以便最终确 定全局频繁豹顼集。各划分大小帮数嚣可以戳簿个划分太小藐够熬个放入 建存为潍,因瑟每个除段哭嚣读入一次鼗摇摩内容,瑟整个挖掘藏霈要嚣 次扫描熬个数据库。 ( 4 ) 采样技术所谓采榉技术就是对给定数搦集的一个子集进行挖掘。 采样方法的核心就是随机从数据集d 中采集样本黛& 然后搜索s 中频繁项集 两不是0 中的。这群就跌效率换取准确性。样本袋合跣小以2 够在凌存孛 宠或频繁王鬟集挖箍惫难。鬣鼗,整个篷需要羟臻一遗数据疼。壶予灵搜索s 中的频繁颁集而不是d 中的,因此,有可能漏摊一些全局频繁项集。为减少 这种可能性,这里利用了一个比最小支持阈值嚣小的支持阈值来挖掘局部 频繁项鬃( 在s 中,记为三。数据库d 中的其它部分将用于计算f 中备顺集的 实际出现次数。利曩这样酌梳铡裁可以确定是磷掰有的全局频繁颈粲均在 f 中。羲驴中毽含嚣毒戆d 孛瓣颓繁顼集,箨么藏只需要扫搓一速数撰簿d , 否则就需要进行第二次扫搦以发现在第一次扫橘所遗漏的频繁项集。采样 方法在对效率要求较高的应用场合是极具意义和麓要的,尤其是在需要频 繁进行蠛种密集计算的应用场合。 第3 章股票间的关联分析挖掘 ( 5 ) 动态项集技术动态项集计数就是在扫描的不同时刻添加候选项 集。动态项集计数是在对数据库进行划分挖掘时提出的。被划分的各数据 块就被标记上开始标志。在这一变化中,在任一开始点均可加入新的候选 项集;与a p r i o r i 算法不同的是,后者在每次扫描数据库之前就已决定了候 选项集。这项技术是动态的,因为它是要估计至今所计数的所有项集的支 持度。若一个项集的所有子集均被估计是频繁的那就增加一个新的候选项 集。这样所获得的算法需要进行两次扫描。 ( 6 ) 周期性市场分析周期性市场购物分析就是在用户定义的周期内发 现相应的频繁项集。周期性市场购物分析利用带有时间标记的交易记录确 定交易数据库中的子集并标记为周期性。所谓周期就是一组诸如“每个月 的第一天”或“2 0 0 0 年中每个星期一”这样的描述。从周期性每天中的项 集中抽取出相应的关联规则。这样一个不满足最小支持闽值的项集在满足 周期性约束的数据子集中,就可能被认为是频繁的。 3 4 股票关联规则的挖掘算法 如果把同一天股票的上升或者下跌事件看成是一个事件,比如像被放 入货篮的货物,那么,一个时期的股票交易就会形成多个货篮数据。既然 可以挖掘出规则“一个货篮中如果有婴儿纸尿布,那么该货篮中有8 0 的概 率有啤酒”。用同样的方法我们也可以挖掘出同一天股票的上升( 或下跌) 的连动规则。 3 4 1 数据预处理 a p d o d 算法是用于挖掘布尔型关联规则频繁项集的算法,而股票实际 数据是一些连续的数值序列。因此,如果要用a p r i o r i 算法来挖掘股票市场 的关联规则,需要对股票的实际数据进行处理,将其转换为布尔型的序列。 另外,还需要引入时间参数。因此,本文用如下转换将离散序列转换为布 尔序列。 定义l :如果一个股票当天的平均价比上一天平均价上升超过1 ,则设 该股票当天涨幅事件为t r u e 。 燕山大学工学硕士学位论文 另外,需要在货篮数据中多引入一个参数:时间间隔。这里的时间间 隔以天为单位。下面以一个简单的例子说明加入时间间隔的a p r i o r i 算法。 例如有a 、b 、c 三只股票,它们在7 个交易日内的股价如表3 3 所示, 形成的涨幅事件如下表3 4 ,其中t r u e 表示该股票当天上升了1 。为了减少 数据挖掘量,这里规定最大的时间间隔为3 天。 表3 3 殷价表 t a b l e3 - 3s t o c kp r i c et a b l e d a t ea b c 0 2 781 471 48 4 12 731 471 48 0 22 86 71 52 31 53 5 32 8 6 8 1 5 1 21 53 5 43 0 l1 591 54 52 9 71 5 7 81 68 2 63 181 5 7 51 7 7 9 表3 4 涨幅事件表 t a b l e3 - 4m a r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论