(计算机应用技术专业论文)关联规则挖掘在股票预测中的应用研究.pdf_第1页
(计算机应用技术专业论文)关联规则挖掘在股票预测中的应用研究.pdf_第2页
(计算机应用技术专业论文)关联规则挖掘在股票预测中的应用研究.pdf_第3页
(计算机应用技术专业论文)关联规则挖掘在股票预测中的应用研究.pdf_第4页
(计算机应用技术专业论文)关联规则挖掘在股票预测中的应用研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)关联规则挖掘在股票预测中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 数据挖掘是当今国际上人工智能和数据库研究方面最富活力的新兴领域, 从大型数据库中挖掘关联规则的问题已经成为近年来数据挖掘研究领域中的一 个新热点。股票投资风险与机遇并存。如何把握风险,投资回报最大化? 是投 资者追求的目标t 而股票行情受经济、政治等因素的作用,其走势变化莫测, 难以把握。现有的股票分析软件其可靠性有待验证。在股票行情数据库中积累 了大量历史交易数据,如何充分利用这些历史数据,从关联规则挖掘领域进行 新的研究和探索变得很有意义。 本文基于国内外研究成果,首先介绍了数据挖掘的理论,引入关联规则挖 掘技术,对频繁项集生成算法a p r i o r i 进行了分析。针对股票数据的特点和关联 规则算法a p r i o r i 存在的不足,提出一种基于比特向量和h a s h 技术的频繁项集 生成优化算法,并将其嵌入开源数据挖掘工具w e k a 中。 同时对股票行情数据库的原数据文件进行分析,结合w e k a 数据格式的特 点设计了预处理模块。 最后使用改进后w e k a 挖掘工具对预处理后股票数据进行挖掘。对挖掘出 的股票规则进行了分析,为股票投资者预测股票未来的走势提供了有价值的参 考。 关键词:频繁项集,股票预测,w e k a ,数据预处理 a b s t r a c t d a t am i n i n gi st h em o s t d e v e l o p i n g ,m a i na n dv i g o r o u sr e s e a r c hc o n t e n ti na r t i 6 c i a l i n t e l l i g e n c ea n dd a t a b a s er e s e a r c h a s s o c i a t i o nr u l em i n i n gf r o ml a r g ed a t a b a s ei s n e wh o tp o i n ti nd a t am i n i n g i th a sv e n t u r ea n do p p o r t u n i t yi ns t o c ki n v e s t i t u l e h o wt o g e tm em o s ty i e l da n dh o l dt h ev e n t u r e ? i n v e s t o rh a l l l ( e r e df o rt h e m h o w e v e r , s t o c kp r i c ew a sa l w a y sf l u c t u a n tf o rc o m p l e xp o l i t i c sa n de c o n o m y a m d d e p e n d a b i l i t ya b o u ts t o c ka n a l y s i ss o f t w a r en e e dv a l i d a t e w i t ht h ed e v e l o p m e n to f t h es t o c km a r k e t ,l o t so fh i s t o r yt r a n s a c t i o nd a t ah a v eb e e ns t o r e di ns t o c kd a t a b a s e i tb e c o m e ss i g n i f i c a t i o nu s i n ga s s o c i a t i o nr u l em i n i n gt e c h n o l o g yt o a n a l y z e da n d f o r e c a s tt h es t o c km a r k e t t h i sa r t i c l eb a s e do nt h ed o m e s t i ca n df o r e i g nr e s e a r c hr e s u l t s ,f i r s ti m r o d u c e dm e t h e o r yo fd a t am i n i n ga n da n a l y z e da l g o r i t h ma p r i o r i ,t h r o u g ht h ea n a l y s i so nt h e i n s u f f i c i e n c yo ft h et r a d i t i o n a la s s o c i a t i o nr u l ea l g o r i t h ma n ds p e c i a l t yi ns t o c kd a t a p r o d u c e da no p t i m i z e da l g o r i t h mi nf r e q u e n ti t e m st h a tb a s e do nb i tv e c t o r 趾dh a s h t e c h n o l o g yw h i c hi n s e r t e dt h ed a t am i n i n gt o o lw e k a 。 s i m u l t a n e i t y , d e s i g n e da n di m p l e m e n t e dd a t ap r e p r o c e s s i n gm o d e lt h r o u g ha n a l y s i s s t o c kr e s o u r c ed a t aa n dw e k a d a t at y p e f i n a l l ye x p l a i n e dt h ep r o c e s sa b o u ts t o c k a n a l y z e da p p l i c a t i o nm e r i t so fs t o c kr u l e s i t i n v e s t o rf o r e c a s ts t o c ke a ta n df l o w r u l e su s i n gm o d i f i c a t i o nw e k aa n d s u p p l i e dau s e f u lr e f e r e n c ef o rs t o c k k e y w o r d s :f r e q u e n ti t e m s ,s t o c kf o r e c a s t ,w e k a , d a t ap r e p r o c e s s i n gm o d e l i i 学位论文独创性声明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得直昌太堂或其他教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 一 正- 学位论文作者签名( 手写) :茭0签字日期:如可年1 2 月7 0 日 学位论文版权使用授权书 本学位论文作者完全了解直邑太堂有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权直昌态堂可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究 所将本学位论文收录到中国学位论文全文数据库,并通过网络向 社会公众提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:鬟k 朽导师签名勃参节 , f 签字日期:) x 年l2 月3 。日 签字日期: 稚年j 明弘日 第1 章绪论 1 1 选题意义 第1 章绪论 数据挖掘是当今国际上人工智能和数据库研究方面最富活力的新兴领域, 其目标是为了满足用户目标,自动处理大量的原始数据,从中识别重要和有意 义的模式,并将其作为知识加以表达。关联规则是数据挖掘研究领域的一个重 要分支。从大型数据库中挖掘关联规则的问题已经成为近年来数据挖掘研究领 域中的一个新热点。 股票投资风险与机遇并存。如何把握风险,投资回报最大化? 是投资者追 求的目标。投资者时刻在关心股市、分析股市、试图预测股市的发展趋势。而 股票行情受经济、政治等因素( 如发行公司的经营状况和财务状况、新股上市、 利率水平、汇率变动、国际收支、物价因素、经济周期、经济政策等) 的作用, 其内部规律非常复杂,变化周期无序,同时我国资本市场投资者结构具有特殊 性,个人投资者比例高,投资心态不同,对股票交易的行为产生直接的影响, 从而导致股价波动,使股票走势变化莫测,难以把握。 因此,研究和开发能帮助投资者分析股市。预测股票走势,辅助投资者投 资的软件变得非常有意义,而目前,大部分的股票分析软件是基于传统的统计 分析技术,如k 线图分析法、柱状图分析法、点数图分析法、移动平均法,还 有形态分析法、趋势分析、基本面分析等,智能化水平不高,一般投资者一下 很难掌握并且其分析的可靠性还要进一步实践修正,真正的投资专家并不单纯 以它为投资的依据,往往实践经验更重要。在这种情况下,针对海量股票数据, 从数据挖掘和人工智能领域进行新的研究和探索,显得很有意义。 1 2 国内外的研究动态 关联规则挖掘及其挖掘算法是由i b ma l m a d e nr e a e a r c hc e n t e r 的a g r a w a l 首先提出的【1 1 ,因此,国外对挖掘频繁项集的算法研究比较深入和成功。i b m a l m a d e nr e a e a r c hc e n t e r 的a g r a w a l 等1 9 9 4 年提出关联规则挖掘的经典算法 第1 章绪论 a p f i o n 算法之后a g r a w a l 和s f i k a n t 在此基础上提出了a p f i o f i t i d 算法,美国的 p a r k 在19 9 6 年提出的d h p ( d i r e c th a s h i n ga n d p r u n i n g ) 算法、加拿大的z a k i 在 1 9 9 7 年提出的m a x c l i q u e 算法等,都是在基于a p f i o f i 算法的基础上提出的改 良算法。2 0 0 0 年,德国的o z d e n 在“c y c l i c a s s o c i t i o nr u l e s 一文中提出了周 期关联规则发现算法。但算法的时间段是人为确定的,从而得到的关联规则不 能充分反映数据的内在规律。a p r i o r i 算法在实际数据挖掘系统中得到了很好的 应用,例如,i b m 公司a l m a d e n 研究中心开发的q u e s t 系统,s g i 公司开发 的m i n e s e t 系统,加拿大s i m o n f r a s e r 大学开发的d b m i n e r 系统。然而试验结 果,类a p d o r i 算法在最初的两次数据库扫描时开销很大,导致了算法的效率瓶 颈【5 1 。 国外已是研究热门,并已经达到一定的水平投入了应用领域,而国内对关 联规则挖掘的研究还处于起步阶段。国内的部分学者对关联规则挖掘进行了大 量的研究,但提出的算法也都是基于国外所提出算法的改进算法。中科院计算 所的欧阳为民首先引入国外关联规则挖掘的概念和思想,并在基于a p r i o r i 算法 的基础上提出了时态约束的关联规则。中科院计算机研究所的智能信息处理重 点实验室研制开发的多策略数据挖掘平台m s m i n e r 系统,将关联规则挖掘算法 集成到此系统中。复旦大学研制开发的a r m i n e r 系统,是专门针对智能化的 p o s 系统开发的关联规则挖掘工具,此系统的关联规则挖掘算法是基于a p r i o r i 的改进算法。虽然已经取得了相当的成功,但目前在处理极大数据量时,如何 提高算法效率;如何迅速更新数据;在挖掘的过程中,如何提供一种与用户进 行交互的方法,以便把用户的领域知识结合在其中等等都是尚待研究和解决的 问题【2 1 。 1 9 9 1 年,数据挖掘的出现为股票投资分析研究提供了一种新的方式和思路。 国内外许多学者纷纷采用数据挖掘技术,对原始的股票数据进行处理,挖掘蕴 含在交易数据背后,反应股市变化的潜在规则,以实现对股票市场未来变化趋 势进行分析并期望达到指导股票投资者进行理性投资的目的。 在国内,香港科技大学的b e a tw u t h r i c h 开发了基于因特网的股票预测系统, 这个系统根据几个金融网站( 例如w w w w s j c o m ,w w w f t c o m , w w w a s i a n u p d a t e t o m 等) 提供的实时数据,通过基于规则的方法,预测恒生等 指数的升斛1 8 j 。 国际方面,m o r g a n 、s t a n n l o g 等人已经开发了a i ( a u t o m a t e di n v e s t o r ) 系统。 2 第1 章绪论 该系统通过采用聚类、可视化和预测技术来寻求最佳投资时机。d a l w as e c u r i t i e s 利用m a t l a b 强大的模拟仿真能力建立了一个有价证券管理系统,旨在分析 大量的证券数据。g o l a n r 和z i a r k o w w 应用r o u g hs e t ( 粗糙集理论) 方法分析 了十年间股票的历史数据,研究股票价格和经济指数之间的依赖关系,且所获 得的预测规则得到了华尔街证券交易专家认可。l o c k h e e dm a r t i n 公司的人工智 能中心开发的r e c o n 系统,利用数据库对数据集合进行离散化、归一化,然后 通过专家系统和先验知识获得初始规则,并自动分析、搜索数据库对规则进行 调整( 加入新规则,合并冗余规则) ,这个系统可用来辅助预测某种股票的趋势 或判断是否可能出现异常变化等【2 0 1 。 1 3 本文的研究内容 本文研究的主要内容有以下几点: 一、介绍了关联规则技术在国内外的研究发展及数据挖掘技术在股票预测 方面的应用现状,分析了应用关联规则挖掘技术进行股票预测的重要意义。 二、阐述了数据挖掘的基本理论、主要技术,深入研究了关联规则挖掘技 术,分析了经典关联规则挖掘算法,指出了该算法存在的优、缺点。 三、提出了一种基于比特向量和哈希项关联规则挖掘优化算法,将事务数 据库转换成比特向量表示形式,通过向量的与运算来计算项集的支持度,在挖 掘过程中只需扫描一遍数据库;运用哈希技术,在第一次扫描数据库的过程中, 直接生成频繁2 项集,提高算法的执行效率。 四、介绍了数据挖掘工具w e k a ,分析了w e k a 的源码,e c l i p s e 平台下实现 了关联规则挖掘优化算法的嵌入。 五、结合股票数据源文件的特点,设计股票预处理模块并加以实现。 六、用改进的w e k a 工具对股票数据进行挖掘。在将关联规则挖掘技术应 用到股票数据分析中,详细阐述了数据集、预处理、关联规则挖掘的过程。对 生成的股票规则进行了详细分析,得出了对股票投资很有价值的结论。 1 4 本文组织结构 本文的篇章结构安排如下: 第1 章绪论 第1 章绪论,简述了数据挖掘研究的意义和技术背景、论文的选题依据、 研究背景以及主要的研究内容和文章篇章结构安排。 第2 章数据挖掘理论,介绍了数据挖掘的概念、功能和步骤。 第3 章关联规则挖掘技术,介绍了关联规则挖掘的基本概念、分类,深入 研究了关联规则挖掘算法,对a p r i o r i 算法性能进行分析。 第4 章股票预测知识,介绍了股票预测基础与理论。 第5 章基于股票预测的特点关联规则挖掘优化算法,分析了股票事务数据 库的特点,提出了一种应用比特向量和哈希项的关联规则优化算法。并对算法 性能进行了分析。 第6 章w e k a 平台下的关联规则挖掘算法实现,介绍了应用w e k a 进行关 联规则挖掘过程,对w e k a 源码分析 第7 章总结与展望,对本论文的研究进行总结,讨论了它的可取与不足之 处,展望了未来进一步的研究工作。 4 第2 章数据挖掘理论 第2 章数据挖掘理论 2 1 数据挖掘基本概念 伴随着数据获取和存储技术的提升,人类生活的各个领域都随之产生了大 量的大型数据库。例如超级市场的交易数据、信用卡的使用记录、通信行业的 交通记录、股票市场的交易数据等。如何处理这些海量数据,如何从这些存储 了海量数据的数据库中提取出对我们有用的信息,成为我们面临的一个主要问 题,数据挖掘技术正是针对这种需求应运而生。 人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数 据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、 图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是 数学的,也可以是非数学的:可以是演绎的,也可以是归纳的。发现了的知识可 以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身 的维护。 数据挖掘的定义在学术界一直存在一定的争议,没有一个完全统一的精确 定义,针对本文的应用研究,数据挖掘引用如下的定义:数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现提 取隐含在其中的、人们事先未知的、但又是潜在有用信息和知识的非平凡过程 【4 】。 2 2 数据挖掘功能 数据挖掘任务一般可以分为两类:描述与预测。描述性挖掘刻划数据库中数 据的一般特性。预测性挖掘在当前数据上进行推断,以进行预测。数据挖掘通 过预测未来趋势及行为,做出前瞻性的、基于知识的决策。数据挖掘的目标是 从数据库中发现隐含的、有意义的知识,主要有以下六类功能1 4 j : ( 1 ) 概念类描述。概念描述就是对某类对象的内涵进行描述,并概括这类对 象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的 第2 章数据挖掘理论 共同特征,后者描述不同类对象之间的区别。 ( 2 ) 分类与预测。分类指的是从数据库中选出类标号已知的训练集,对该训 练集运用数据挖掘的分类技术,建立分类模型,利用该模型对类标号未知的数 据进行分类。预测与分类类似,不同之处在于,分类处理的是离散型变量,而 预测处理的是连续型变量。 ( 3 ) 关联分析。若两个或多个变量的取值之间存在某种规律性,就称为关联。 关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中 隐藏的关联网,从而决定哪些事情将一起或按顺序发生。 ( 4 ) 聚类分析。聚类是将数据对象分组成多个类或簇,在同一个簇中的对象 具有较高的相似度,而不同簇中的对象差别较大。聚类和分类的区别是聚类不 依赖于预先定义好的类,不需要训练集。 ( 5 ) 孤立点分析。在大量数据中可能包含一些数据对象,这些数据与数据的 一般行为或模型不一致,这些数据对象成为孤立点。通常这些数据对象被视为 噪声或异常而丢弃,但有时候这种数据很有用( 如在信用卡欺骗检测中,以付款 数额特别大来发现信用卡的欺骗性使用) 。 ( 6 ) 演变分析。数据演变分析描述行为随时间变化的对象的规则或趋势,并 对其建模。演变分析包括时间序列数据分析、周期模式匹配和基于相似性的数 据分析。 2 3 数据挖掘的步骤 一般而言,数据挖掘过程分为四步1 5 l : ( 1 ) 数据准备( d a t ar e p a r a t i o n ) :数据准备包括数据集成( d a t ai n t e g r a t i o n ) 和数 据选择与预分析( d a t as e l e c t i o na n dp r e a n a l y s i s ) 。通过数据集成,从操作环境 中提取并集成数据,解决语义二义性问题,消除脏数据等。数据选择和预分析 缩小数据范围,提高数据挖掘的质量。 ( 2 ) 挖掘( m i n i n g ) :利用数据挖掘方法分析数据库中的数据。 ( 3 ) 表述( p r e s e n t a t i o n ) 。将挖掘获取的信息以便于用户理解和观察的方式反 映给用户。 ( 4 ) 评价( a s s e s s ) 。评定分析结果的满意程度。 可用图2 1 流程图【5 】表示。 6 第2 章数据挖掘理论 卜一i 鼍囊参斗t 曩拓箍- 一嫱肇曩承羞群捧一 躅2 1 数据挖獬金过稷 7 第3 章关联规则挖掘技术 3 1 关联规则挖掘 第3 章关联规则挖掘技术 关联规则挖掘( a s s o c i a t i o nr u l em i n i n g ) 是数据挖掘研究中的一个重要分 支,关联规则是数据挖掘的众多知识类型中最为典型的一种。该问题是a g r a w a l 等在19 9 3 年在对市场购物篮问题( m a r k e tb a s k e ta n a l y s i s ) 进行分析后首次提出 的,用以发现商品销售中的顾客购买模式。购物篮问题源于这样一个普通的例 子:美国加州某个超级连锁店对记录着每天销售信息和顾客基本情况的数据库 中的数据进行分析,发现在下班后前来购买婴儿尿布的顾客多数是男性,而且 往往也同时购买啤酒。于是这个连锁店的经理当机立断,重新布置货架,把啤 酒类商品布置在婴儿尿布货架附近,并在二者之间放上土豆之类的佐酒小食品, 同时把男士们的日常生活用品也就近布置。这样一来,上述几种商品的销量大 大增加了。 关联规则挖掘可以发现交易数据库中项目( i t e m s ) 或属性( a t t r i b u t e s ) 之间的 有趣联系,这些联系是预先未知的,不能通过数据库的逻辑操作( 如表的联接) 或统计的方法得出。这说明它们不是基于数据自身的固有属性( 如函数依赖关 系) ,而是基于数据项目的同时出现的特征。关联规则的特点是形式简洁、易于 解释和理解,并可以有效地捕捉数据间的重要关系。最为典型的例子是“在购 买面包的顾客中有8 0 也购买了黄油 。大型商场和超市的数据库中保存了大 量的顾客的购买信息,从中发掘黄油一面包这类有趣的关联关系,可以指导商 家制定正确的销售决策,又如通过交叉购物、贱卖分析、目录设计、商品陈列 等,使他们在市场竞争中取得更大的主动权。其实,关联规则的应用不仅仅局 限于市场菜篮分析,它有着广泛的应用领域,如商业与金融、人口普查数据分 析、工程技术数据分析、医疗、财政、宏观决策支持、电子商务、网站设计互 联网等等。理论上讲,关联规则挖掘是指从一个大型的数据集( d a t as e t ) 中发现 有趣的关联( a s s o c i a t i o n ) 或相关( c o r r e l a t i o n ) 关系,即从数据集中识别出频繁出现 的属性值集( s e t so f a t t r i b v a l u e ) ,也称为频繁项集( f r e q u e n ti t e m s e t s ,简称频繁 集) ,然后再利用这些频繁集创建描述关联关系的规则的过程【5 】。 8 第3 章关联规则挖掘技术 3 2 关联规则挖掘基本概念 关联规则的挖掘是对给定的一个交易数据库d ,求出所有满足最小支持度 和最小置信度的关联规则的过程。该问题可分解为两个子问题( 1 ) 根据给定的最 小支持度,按项目数自小而大的顺序找出数据d 中频繁项目集;( 2 ) 根据频繁项 目集和指定的最小置信度生成关联规则。 设有i = i l ,i 2 ,i m ) 是由m 个不同的项组成的集合。给定一个事务数据 库d ,其中每一个事务t 是i 中一组项的集合,即t c i ,t 有一个唯一的标识 符t i d 。若项集a c i 且a ct ,则称事务t 包含项集a 。如果项集a 中包含 k 个项,则称为k 项集【l j 。 定义3 1 :关联规则是形如a b 的蕴涵式,其中a ci ,b c i ,a nb = 。关联规则a j b 在事务数据库d 中成立,具有支持度s ,其中s 是d 中事 务包a u b 的百分比,记作:s u p p o r t ( a j b ) = p ( a u b ) 。通常用户指定最小支持 度,记为m i n s u p i i j 。 定义3 2 :关联规则a jb 在事务数据库d 中的置信度是d 中包含a 的 事务同时也包含b 的百分比,它是条件概率p ( bla ) ,记 作:c o n f i d e n c e ( a j b ) = p ( bia ) 。通常用户指定最小置信度,记为m i n c o n f 【l j 。 定义3 3 : 若s u p p o a ( a = b ) m i n s u p ,且c o n f i d e n c e ( a = b ) 一m i n c o n f , 则称关联规则a j b 为强关联规则【l j 。 定义3 4 : 如果一个项目集a 满足最小支持度阐值m i n s u p ,即s u p p o r t ( a ) , m i n s u p ,则称它为频繁项集( f r e q u e n ti t e m s e t ) 。频繁k - 项集通常记为l k 。反 之,如果一个项目集a 不满足最小支持度,则称为非频繁项集。 定义3 5 :候选项集是潜在的频繁项集,是频繁k 1 项集的超集( s u p e r s e t ) , 含有k 项的候选项集表示为c k ,由它构成频繁k 项集l k 。 定义3 6 :如果事务数据库d 中有e 的事务支持项集b ,e 称为关联规 则a j b 的期望可信度( e x p e c t e dc o n f i d e n c e ) 。期望可信度描述了在没有任何条 件影响时,项集b 在所有事务中出现的概率有多大。如果某天共有1 0 0 0 个顾 客到商场购买物品,其中有2 0 0 个顾客购买了黄油,则上述的关联规则的期望 可信度就是2 0 。 定义3 7 :作用度( 1 i f t ) 是可信度与期望可信度的比值。作用度描述项 集a 的出现对项集b 的出现有多大影响。因为项集b 在所有事务中出现的概率 9 第3 章关联规则挖掘技术 是期望可信度;而项集a 在项集a 出现的事务中出现的概率是可信度,通过可 信度对期望可信度的比值反映了在加入“项集a 出现”的这个条件后,项集b 的出现概率发生了多大的变化。 关联规则挖掘的任务就是在数据库中挖掘出所有强关联规则。即在事务数 据库中找出所有具有用户给定的最小支持度m i n s u p 和最小置信度m i n c o f 的关 联规则。这样,每一条被挖掘出来的关联规则就可以用一个蕴含式,两个阀值 唯一标识。 置信度是对关联规则正确程度的衡量,表示规则的强度;支持度是对关联规 则重要性的衡量,表示规则的频度。规则的支持度说明它在所有事务中有多大 的代表性,其值越大,关联规则越重要。如果关联规则的置信度很高,但支持 度很低,说明该关联规则实用机会很小;如果支持度很高,而置信度很低,则 说明该规则不可靠。 例如,在购物篮分析中,购买计算机也趋向于同时购买财务管理软件可以 用以下关联规则表示: c o m p u t e rj f i n a n c i a l _ m a n a g e m e n t _ s o f t w a r e s u p p o r t = 2 ,c o n f i d e u c e 2 6 0 】 ( 3 1 ) 上述规则中s u p p o r t = 2 表示所有事务中有2 的顾客同时购买计算机和财 务管理软件;c o n f i d e u c e = 6 0 表示购买计算机的顾客中6 0 的顾客也购买了财 务软件。 置信度是对关联规则的准确度的衡量,支持度是对关联规则重要性( 或适 用范围) 的衡量。支持度说明了这条规则在所有事务中有多大的代表性,显然支 持度越大,关联规则越重要,应用越广泛。 期望置信度描述了在没有项集a 的作用下,项集b 本身的支持度,作用度 描述了项集a 对项集b 的影响力的大小。作用度越大,说明项集b 受项集a 的影响越大。一般情况,有用的关联规则的作用度都应该大于1 ,只有关联规 则的可信度大于期望可信度,才说明a 的出现对b 的出现有促进作用,也说明 了它们之间的某种程度相关性;如果作用度不大于l ,则关联规则也就没有意义 了。综合如表3 1 l o 第3 章关联规则挖掘技术 表3 1 关联规则参数( t h ep a r a m e t e ro fa s s o c i a t i o nr u l e s ) 名称描述 公式 置信度在项集a 出现的前提下,b 出现的概率p ( bia ) 支持度项集a 、b 同时出现的概率 p ( a u b ) 期望置信度项集b 出现的概率 p ( b ) 作用度可信度对期望可信度的比值 p ( bia ) p ( b ) 3 3 关联规则的分类 根据不同的标准,关联规则有多种分类方法: ( 1 ) 根据规则中所处理的值类型。 如果规则考虑的关联是项的在与不在,则它是布尔关联规则b o o l e a n a s s o c i a t i o nr u l e ) ,例如规则3 2 c o m p u t e rjf i n a n c i a l _ m a n a g e m e n t _ s o f t w a r e s u p p o r t = 2 ,c o n f i d e u c e 2 6 0 】 ( 3 2 ) 如果规则描述的是量化的项或属性之间的关系,则它是量化关联规则 ( q u a n t i t a t i v ea s s o c i a t i o nr u l e ) 。在这种规则中项或属性的量化值划分为区间,例 如规则( 3 3 ) a g e ( x , 3 0 3 9 ”) a i n c o m e ( x , 4 2 k 4 8 i ( ) j b u y s ( x ,“h i g h _ r e s _ t v ”) ( 3 3 ) 其中量化属性a g e 和i n c o m e 已经离散化,x 代表顾客。 ( 2 ) 根据规则中涉及的数据维。 如果规则的项或属性每个只涉及一个维,则它是单维关联规贝j ( s i n g l e d i m e n s i o n a la s s o c i a t i o nr u l e ) ,例如规贝l l ( 3 4 ) b u y s ( x ,c o m p u t e r ) b u y s ( x ,f i n a n c i a lm a n a g e m e n t _ s o f t w a r e ) ( 3 4 ) 它是单维关联规则,因为它只涉及一个维b u y s 。 如果规则中涉及两个或多个维,则它是多维关联规则( m u l t id i m e n s i o n a l a s s o c i a t i o nr u l e ) ,例如规贝j j ( 3 3 ) 就是一个多维关联规则,因为它涉及三个维a g e , i n c o m e 和b u y s 。 第3 章关联规则挖掘技术 ( 3 ) 根据规则集所涉及的抽象层。 有些挖掘关联规则方法可以在不同的抽象层发现规则。例如,假定挖掘的 关联规则集包含下面规则: a g e ( ) ( ,“3 0 3 9 ”) jb u y s ( x ,“l a p t o pc o m p u t e r ”) ( 3 5 ) a g e ( x ,“3 0 3 9 ”) jb u y s ( x , c o m p u t e r ”) ( 3 6 ) 在规则( 3 5 ) 和( 3 6 ) 中,购买的商品涉及不同的抽象层( 即“c o m p u t e r 在比 “l a p t o pc o m p u t e r 高的抽象层) 。称所挖掘的规则集由多层关联规贝, 1 ( m u l t i l e v e l a s s o c i a t i o nr u l e ) 组成。反之,如果在给定的规则集中,规则不涉及不同抽象层的 项或属性,则该集合包含单层关联规贝l j ( s i n g l el e v e la s s o c i a t i o nr u l e ) 。 3 4 关联规则挖掘算法 关联规则挖掘算法实现可以分解为两个子问题的求解: 1 求出数据库d 中满足最小支持度m i n s u p 的所有频繁项目集。 2 利用频繁项目集生成所有关联规则。 其中子问题2 的解决方法较为简单,对每个频繁项目集l ,对x 的每个非 空子集a ,考察规则a j ( l a ) ,如果该规则满足最小支持度和最小信任度则输 出此规则。子问题1 的求解是关联规则发现的关键部分。 1 9 9 3 年r a g r w a a l 等人提出的a p r i o d 算法【1 1 ,该算法是一种挖掘布尔关联 规则频繁项集的算法。该算法是基于以下两个事实: 1 如果项目集l 是频繁项目集,则l 的任一非空子集也必定是频繁项目 集。 2 如果项目集不是频繁l 项目集,则l 的任何超集也必定不是频繁项目集。 3 4 1 候选项集找频繁项的算法a p r i o r i 算法 讨论a p r i o d 算法前要先明确一些符号的意义,如表3 2 所示。a p r i o d 算法 主要利用频繁项集性质的先验知识,使用一种称为逐层搜索的迭代方法来找出 所有的频繁项集。其主要步骤如下: 1 产生所有的频繁1 项集的集合l l 。扫描数据库d ,对每个事务的数据 项进行处理。若该数据项第1 次出现,则将其加入候选1 项集的集合c l 中,并 将它的计数值设为l 若该数据项已在c l 中,则将它的计数值加上1 。数据库事 1 2 第3 章关联规则挖掘技术 务扫描完后得到所有的候选1 项集。将c l ,中所有计数值小于m i n s u p 的项集 删除,就得到了频繁1 一项集的集合l l 。 2 通过l k - i 与自己连接产生候选k - 项集的集合c k 。对于任意的l l l k 1 和 1 2 l k - i 若 i l 【l 】= 1 2 【l 】) 八( 1 l 2 】爿2 2 】) a ( 1 t 啡一2 = 1 2 k 一2 a l l 【k 一1 m i n s u p ) 满足最小支持度形成频繁项集 ( 1 0 ) ) ( 1 1 ) r e t u r nl = u kl k o 算法二:产生频繁1 项集函数 f i n d _ f r e q u e n t _ l i t e m s e t s ( d :t r a n s a c t i o nd a t a b a s e ) ( 1 ) f o re a c hi t e m s e ti k d ( 2 ) i f i kc o u n t m i n _ s u p ( 3 ) a d di kt ol 1 算法三:通过( k 1 ) 频繁项目集产生k 项候选项集 a p r i o r i g e n ( l k 1 :f r e q u e n t _ ( k - 1 ) 一i t e m s e t s ( d ) ;m i n _ s u p ) ( 1 ) f o re a c hi t e m s e ti i l r 1 ( 2 ) f o re a c hi t e m s e t1 2 l k - i ( 3 ) i f ( 1 1 【l 】= 1 2 【1 】) 八( 1 l 【2 】= 1 2 【2 】) 八八( 1 1 k - 2 1 2 1 2 k 一2 】) 八l l k 一1 。其中 c ,d ) 不是频 繁2 项集l 2 的元素。因而该候选项必定不是频繁的。把 a ,b ,d ) 从c 3 删除。 ( 6 ) 候选项 b ,c ,e 的2 - 项子集是 b ,c ) , c ,e ) , b ,e ) 。其中 c ,e ) 不是频繁 2 项集l 2 的元素。因而该候选项必定不是频繁的。把 a ,b ,d ) 从c 3 删除。 ( 7 ) 候选项 b ,d ,e 的2 一项子集是 b ,d , d ,e , b ,e 。其中 d ,e ) 不是频 繁2 一项集l 2 的元素。因而该候选项必定不是频繁的。把 a ,b ,d ) 从c 3 删除。 最后得n - - 个候选项,如表3 1 0 表3 1 0 剪枝后的候选3 一项集i 。 扫描事务数据库d ,对每个候选项计数,如表3 1 1 所示: 表3 1 1 频繁3 一项集计数 把候选项集集合c 2 的支持度与最小支持度m i n s u p = 2 进行比较,得到频繁 3 项集l 3 如表3 1 2 所示。 1 8 第3 章关联规则挖掘技术 表3 1 2 频繁3 一项集l 3 项集 支持度计数 a ,b ,c 2 a ,1 3 ,e 2 使用i i 。1 2 连接,产生候选4 - 项集 a ,b ,c ,e ,该项集的一个子集 b ,c ,e 不 是频繁3 项集l 3 的元素。因而该候选项必定不是频繁的。把 a ,b ,c ,e 从c 4 删 除。c 4 = c i ) ,算法停止。找出了所有的频繁项集。 3 4 2 a p r i o r i 算法性能分析 a p f i o f i 作为经典的频繁项集生成算法,在关联规则研究中具有里程碑的作 用。虽然a p f i o f i 算法能找出所有的频繁项集,其侯选“产生一检查方法大幅 度压缩了候选项集的大小,提高了算法的效率。然而,其缺点还是比较突出的, 主要在以下几方面: ( 1 ) a p r i o r i 算法会产生大量的候选项集。由于剪枝的作用,产生的候选3 项集以后的候选项数会减少。但生成候选2 项集时,产生的候选项数仍比较庞 大,如有1 0 4 个频繁1 项集,会产生多达1 0 7 个候选2 项集。因此,该算法适 合于最大频繁项目集相对较小的数据集中的关联规则挖掘问题。 ( 2 ) 在每个循环中事务集的个数也将影响整个算法的效率,在数据量比较大 的时候问题尤其突出,如何缩短每一次循环中的事务集也需要进一步改进。反 映在上面的算法中,主要是体现在利用c k 生成l k 时,效率较低,而且为了计 算c k 中每个候选元素的支持度,不得不利用事务数据库d 中的所有事务来比 较一次;并且每循环一次就得重新比较一次,这样这个算法的时间复杂度增加, 效率降低了。 ( 3 ) l k 1 自连接生成c k 产生大量的时间开销。 3 4 3 由频繁项集产生关联规则 产生频繁项集后,可由他们产生强关联规则,强关联规则就是满足最小支 持度和最小置信度。最小置信度可用下面公式计算: s u p p o r t _ c o u n t ( aub ) c o n f i d e n c e ( ajb ) = p ( aib ) 2 面鬲再面万 ( 3 7 ) 1 9 第3 章关联规则挖掘技术 其中s u p p o r t _ e o u n t ( a u b ) 是含项集a u b 的事务数,s u p p o r t _ e o u n t ( a ) 是 包含项集a 的事务数。 产生关联规则的具体步骤如下: ( 1 ) 对每个频繁项集l ,产生l 的所有非空子集。 工1 梧 j b 六2 隹击。田supportcount(aub ) m i n c o n f ( 2 v 4 于l 的每个非空子集s ,如果面品磊五五万n 1 , 则输出规则s j ( 1 - s ) 。m i n c o n f 表示最小置信度阀值。 以上例得出的频繁3 项l = a ,b ,e ) ,说明可以产生哪些关联规则: l 的非空子集有 a ,b ) , a ,e ) , b ,e ) , a ) , b ) , e 。产生的关联规则有 ( 1 ) a 入bjec o n f i d e n c e = 2 4 = 5 0 ( 2 ) a 入e j ec o r t f i d e n c e = 2 2 = 1 0 0 ( 3 ) b 八e j ac o r t f i d e n c e = 2 2 = 1 0 0 ( 4 ) a j e 八bc o n f i d e n c e = 2 6 = 3 3 ( 5 ) b j a 八ec o r t f i d e n c e = 2 7 = 2 9 ( 6 ) e j a 八bc o n f i d e n c e = 2 2 = 1 0 0 如果设最小置信度阀值为7 0 。则输出的强关联规则是2 、3 、6 。 第4 章股票预测知识 第4 章股票预测知识 4 1 股市影响因素分析 股票市场价格波动是股市运行的基础,也是股票投资者关注的焦点。股价 的波动受各种经济因素和非经济因素的影响,分析这些因素的影响,可为投资 者做出正确的投资决策提供一定的依据。虽然影响股价波动的因素很多,但股 价有其内在价值,股价围绕其内在价值波动,内在价值决定论是基本分析法的 基础;股价随投资者对各种因素的心理预期的变化而波动,心理预期理论是技术 分析的基础;股价波动是各种因素形成合力作用的结果。 影响股票价格的因素比较多,可根据内容和性质分为宏观因素、微观经济 因素、市场因素和非经济因素等四个方面。 1 宏观经济因素 宏观经济因素从不同的方向直接或间接地影响到公司的经营及股票的获利 能力和资本的增值,从不同的侧面影响居民收入和心理预期,而对股市的供求 产生相当大的影响。宏观经济因素包括:经济周期、通货变动、国际贸易支出、 国际收入、利率、财政政策、产业政策、监督政策等方面。 2 微观经济因素 在影响股价波动微观经济因素中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论