



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关联规则在股票分析中的应用 本文介绍了在数据挖掘中关联规则的基本概念和属性,进一步讨论了关联规则在股票信息数据挖掘中的应用.股票的行情交易数据库在经过一定的预处理后,用Aprorio算法挖掘出隐藏在数据背后的有用的规则,为投资者提供了有效的决策支持. 关键词:数据挖掘;关联规则;股票分析;知识发现; 作者:曾朝霞等 数据挖掘又称知识发现,是指从大量数据中提取可信的、新颖的、有效的并最终能被人们理解的模式处理过程1,2.它系统地应用机器学习、统计分析、归纳学习,以及其他计算机科学技术和工具等抽取、表示和分析存在于一个大型数据库中的知识,成为近年来热门的研究领域. 在数据挖掘的知识模式中,关联规则是比较重要的一切.关联规则挖掘从大量数据中发现有趣的关联关系,可以帮助制定决策,如分类设计、交叉购物和投资分析. 1关联规则的定义和属性 关联规则是美国IBMAlmadenResearchCenter的RakeshAgrawal等人于1993年首先提出来的KDD研究的一个重要课题3.现实中一个比较典型的例子是购物篮分析.超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品,物品的数量及金额等.这些数据中常常隐含形式如下的关联规则:在购买牛奶的顾客当中,有60%的人同时购买了面包.这些关联规则很有价值,商场管理人员可以根据这些关联规则有选择地安排货架,能够促进销售. 引理设I=i1,i2,im是项的集合.设任务相关的数据D是数据库事务的集合,D中每个事务T是项的集合,即T?I.设A是一个项集,当A?T,则称事务T支持项集A.关联规则是如下形式的一种蕴含:A?B,其中A?I,B?I,且AB=.关联规则的兴趣度度量用两个参数来表示: (1)置信度 设D中包含项集A的事务中,有c%的事务同时也包含项集B,c%称为关联规则A?B的置信度.即: confidence(A?B)=p(B|A) (2)支持度 设D中有s%的事务同时包含项集A和B,s%称为关联规则AB的支持度.即: support(A?B)=P(AB)置信度和支持度比较能够直接形容关联规则的性质.事实上人们一般只对满足一定的支持度和置信度的关联规则感兴趣.因此,为了发现有意义的关联规则,需要给定两个阀值:最小支持度(min_sup)和最小置信度(min_conf).这些阀值可以由用户或专家设定.同时满足最小支持度和最小置信度的规则称作强规则. 有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合.但经过一定的预处理后,仍然可以像售货数据那样进行关联规则的挖掘和分析.比如股票的交易行情,每天有数以千万计的交易数据存入行情库,我们对这些数据进行过滤和清理,挖掘出我们感兴趣的规则. 2关联规则挖掘在股票信息中的应用 在股票交易的事务处理中,每天有以交易为主的大量数据汇入数据仓库.上市公司之间由于存在合作、竞争等关系,因此某些股票价格在一定时间内会出现相似或相反的趋势.挖掘这些数据或股票之间的关联规则有利于投资者了解各种股票的走势及股票之间有关系,进一步分析上市公司的各种政策和方案,从而做出正确的投资决策.下面用xx年2月到4月沪市中的部分上市股票进行分析为例来说明. 2.1数据预处理定义1设股票行情数据库D=R1,R2,Rn. 其中Ri记录了D中股票i的历史行情(1in),Ri=Ci,S1,R2,Sm,Ci是Ri的股票代码,m为所记录的即时行情个数,Sj记录Ri的第j个即时行情,1jm. Sj中可包含时间,开盘价,收盘价,最高价,最低价,涨幅,成交量,成交额等内容,其中的一小部分见表1. 现在我们想通过数据挖掘找出类似于“T时间内,当A股票价格上涨时,B股票价格也会随之上涨”的关联规则.所以我们主要关心股票交易的时间和涨跌幅,其他如开盘价,成交量等可以认为是一些无关信息,因此从数据源中挑选股票代码、交易时间、涨跌幅做进一步分析.为减小计算量,引入最小涨幅Zmin,|Zmin|10%. 定义2设股票交易集T=T1,T2,Ts. 其中Ti=Ci1,Ciz,Cik,1is,且如果k1 将交易行情库的数据进行预处理后的数据如表2所示.在转换后的数据之上,就可以挖掘关联规则. 2.2挖掘关联规则 定义3如果项集的出现频率大于或等于最小支持度(min-sup)与D中事务总数的乘积,则该项集满足最小支持度,称它为频繁项集(frequentitemset). 关联规则的挖掘是一个两步的过程: (1)找出所有的频繁项集. (2)利用频繁项集生成所需要的关联规则. 挖掘关联规则整个执行过程中第一步是核心问题.由于股票代码属于布尔型变量,相当于售货数据库中的商品,我们可以直接采用Apriori算法进行挖掘分析4:第一步,简单统计所有含一个元素的项目集出现的频率,并找出那些不小于最小支持度的项目集,即频繁1项集.从第二步开始循环处理直到再没有频繁项集生成.循环过程是:第k步中,根据第k-1步的频繁k-1项集产生k侯选k项集,然后对数据库进行搜索,得到侯选项目集的项集支持度,与最小支持度比较,从而找到频繁k项集.由此我们输入预处理后的数据库D和最小支持度阈值min-sup,可以得到频繁项集,用最小置信度对生在的频繁项集过滤,得到强规则. 2.3实验结果 本文选择了xx年3月中旬到5月中旬沪市中的部分上市的股票进行关联规则的挖掘分析,得到了许多有意义的规则.如60016?600131(support=2%,confidece=60%),在支持度为2%.置信度为60%的条件下,代码为60016和600131的两支股票有同时上涨的趋势,进一步分析称们可以看到这两支股票同为西部地区的电力股. 在上述挖掘结果的基础上,我们可以进行二次挖掘,进一步分析各支股票之间趋势变化的周期性和多维相似性等,得到更多有用的结果. 3结语 本文简单介绍了关联规则及其在挖掘股市有效信息的应用,通过股票
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化肥厂电路改造制度
- 教育培训机构收费标准合同协议
- 3.1铁及其化合物-利用覆铜板制作图案 教学设计 2024-2025学年高一上学期化学人教版(2019)必修第一册
- 高中地理 第3单元 第2节 城乡规划与土地利用说课稿 鲁教版选修4
- 八年级语文下册 团结互助 第十二课 姐弟情深 第七课时 阅读理解与科普阅读说课稿 新教版(汉语)
- 九年级语文下册 第五单元 任务一 阅读与思考说课稿 新人教版
- 奎文区安全执法培训班课件
- 2025年钻孔灌注桩施工标准合同范本
- 中医试题及答案
- 中医考试题集及答案
- 2023年广东生物高考第18题光合作用说题课件
- 除锈剂MSDS参考资料
- 6社会体育导论
- 部编版七年级历史与社会下册《第三课中华文明探源》评课稿
- 中考英语作文预测(范文20篇)
- 选煤厂原煤分级筛技术操作规程
- 方物电子教室q2用户手册
- 消防管道支架工程量计算表
- GB/T 700-2006碳素结构钢
- 腹腔镜下肾癌根治术
- 如何学好初中数学-课件
评论
0/150
提交评论