(计算机应用技术专业论文)关联规则算法在股票分析预测中的应用研究.pdf_第1页
(计算机应用技术专业论文)关联规则算法在股票分析预测中的应用研究.pdf_第2页
(计算机应用技术专业论文)关联规则算法在股票分析预测中的应用研究.pdf_第3页
(计算机应用技术专业论文)关联规则算法在股票分析预测中的应用研究.pdf_第4页
(计算机应用技术专业论文)关联规则算法在股票分析预测中的应用研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机应用技术专业论文)关联规则算法在股票分析预测中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

普北电力人。学硕 :。学何论文摘要 摘要 关联规则是数据挖掘领域研究的重要课题,常应用于零售业、电信业、财务金 融业、保险业及医疗服务业等领域。本文主要研究了关联规则算法a p r i o r i 及一些改 进算法,重点针对支持度置信度框架下关联规则挖掘算法存在的不足,引入 h e c k e n n a n 确信因子来增强规则度量,通过研究生成规则间的特点,给出了新的规 则定义,改进了a p r i o r i 算法,使用测试数据集对算法进行了实验验证,实验结果证 明了算法的有效性。最后将改进算法应用于对股票数据的分析预测领域,获得一些 预测结果,进一步分析表明分析结果也是正确的。 关键词:数据挖掘,关联规则,a p r i o r i 算法,股票分析 a b s t r a c t a s s o c i a t i o nr u l e si sa ni m p o r t a n ts u b je c ti nt h er e s e a r c hf i e l do fd a t am i n i n g ,o r e n u s e di nm er e t a i l ,t e l e c o m m u n i c a t i o n s ,f i n a n c i a li n d u s t r y ,t h ei n s u r a n c ei n d u s t r ya n d m e d i c a ls e r v i c e s ,a n do t h e rf i e l d s t h i sp a p e rs t u d i e st h ea s s o c i a t i o nr u l e sa l g o r i t h m , i n c l u d i n ga p r i o r ia n ds o m ei m p r o v e da l g o r i t h m ,f o c u s i n go nt h es h o r t c o m i n g so ft h e m i n i n ga s s o c i a t i o nr u l e sa l g o r i t h mi n t h e s u p p o r t - c o n 6 d e n c ef r a m e w o r k ,u s i n g h e c k e m a n - c e r t a i nf a c t o rt oe n h a n c et h ec o n d i t i o n so fm l e s ,a tt h es a m et i m e i n d e p t h s t u d yt h ec h a r a c t e r i s t i c so ft h er u l e s ,g i v e san e wd e n n i t i o no ft h em l e s ,i m p r o v e s a p r i o r ia l g o r i t h m ,f i n a l l yt a k et h ei m p r o v e da l g o r i t h mi nt h ea p p l i c a t i o no fa n a l y s i sa n d f 0 r e c a s t i n gs t o c kd a t a ,t h ei n t r o d u c t i o no ft h en e ws t o c kd a t ap r e p r o c e s s i n gm e t h o d s , r e s u l t ss h o w st h a tt h ei m p r o v e da l g o r i c h mi se f f e c t i v e w a n gy h m e i ( c o m p u t e ra p p l i c a t i o n7 r e c h n o l o g y ) d i r e c t e db ya s s o c i a t ep r o f e s s o rh uc h a o j u k e yw o r d s :d a t am i n i n g ,a s s o c i a t i o nr u l e s ,a p r i o r ia l g o r i t h m ,s t o c ka n a l y s i s 普北l 岂力人。学硕 :。学何论文摘要 摘要 关联规则是数据挖掘领域研究的重要课题,常应用于零售业、电信业、财务金 融业、保险业及医疗服务业等领域。本文主要研究了关联规则算法a p r i o r i 及一些改 进算法,重点针对支持度置信度框架下关联规则挖掘算法存在的不足,引入 h e c k e n n a n 确信因子来增强规则度量,通过研究生成规则间的特点,给出了新的规 则定义,改进了a p r i o r i 算法,使用测试数据集对算法进行了实验验证,实验结果证 明了算法的有效性。最后将改进算法应用于对股票数据的分析预测领域,获得一些 预测结果,进一步分析表明分析结果也是正确的。 关键词:数据挖掘,关联规则,a p r i o r i 算法,股票分析 a b s t r a c t a s s o c i a t i o nr u l e si sa ni m p o r t a n ts u b je c ti nt h er e s e a r c hf i e l do fd a t am i n i n g ,o r e n u s e di nm er e t a i l ,t e l e c o m m u n i c a t i o n s ,f i n a n c i a li n d u s t r y ,t h ei n s u r a n c ei n d u s t r ya n d m e d i c a ls e r v i c e s ,a n do t h e rf i e l d s t h i sp a p e rs t u d i e st h ea s s o c i a t i o nr u l e sa l g o r i t h m , i n c l u d i n ga p r i o r ia n ds o m ei m p r o v e da l g o r i t h m ,f o c u s i n go nt h es h o r t c o m i n g so ft h e m i n i n ga s s o c i a t i o nr u l e sa l g o r i t h mi n t h e s u p p o r t - c o n 6 d e n c ef r a m e w o r k ,u s i n g h e c k e m a n - c e r t a i nf a c t o rt oe n h a n c et h ec o n d i t i o n so fm l e s ,a tt h es a m et i m e i n d e p t h s t u d yt h ec h a r a c t e r i s t i c so ft h em l e s ,g i v e san e wd e n n i t i o no ft h em l e s ,i m p r o v e s a p r i o r ia l g o r i t h m ,f i n a l l yt a k et h ei m p r o v e da l g o r i t h mi nt h ea p p l i c a t i o no fa n a l y s i sa n d f 0 r e c a s t i n gs t o c kd a t a ,t h ei n t r o d u c t i o no ft h en e ws t o c kd a t ap r e p r o c e s s i n gm e t h o d s , r e s u l t ss h o w st h a tt h ei m p r o v e da l g o r i c h mi se f f e c t i v e w a n gy h m e i ( c o m p u t e ra p p l i c a t i o nt b c h n o l o g y ) d i r e c t e db ya s s o c i a t ep r o f e s s o rh uc h a o j u k e yw o r d s : d a t am i n i n g ,a s s o c i a t i o nr u l e s ,a p r i o r ia l g o r i t h m ,s t o c ka n a l y s i s 声明尸明 本人郑重声明:此处所提交的硕士学位论文关联舰则算法在股票分析预测中 的应用研究,是本人在华北电力大学攻读硕士学位期问,在导师指导下进行的研 究工作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其 他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名:王王蜂 日 期:塑d 墨生兰目垃日 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权 保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或 其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校 可以学术交流为目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同 媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:王玉卑 日 期:型旌3 刮伯 导师签名: 日期: 形 怦【嵫 z ) 2 伪解了月j 斗目 华北电力人学顾卜学何论文 1 1 研究背景 第一章绪论 随着我国市场经济的发展,越来越多的投资者关注于金融市场。经过一百多年 的发展,在金融证券市场中进行分析与预测有很多传统的方法。随着计算机的发展 和普及,这些传统的分析方法尽可能用股票软件来实现,这也导致了传统方法的公 开化和商业化。与此同时随着股票市场复杂性的增加,这些方法就显得过于片面, 对投资者的参考价值不大。然而,金融证券市场是一个受多种因素影响的、庞大的 系统,具有非常复杂的运动规律,其中股票数据则是其综合外在表现形式之一,其 中必定蕴含了许多客观规律信息。在此背景下,许多金融证券机构开始运用更先进 的信息技术与智能决策支持技术,对业务系统中积累的海量数掘进行深入分析,以 发现各种有价值的规律,给投资者以较好的参考。其中,采用数据挖掘、人工智能 等技术挖掘海量数据中间有趣的联系及规律,就具有尤为重要的意义。 而在金融市场股票交易的事务处理中,每天有以交易为主的大量数据汇人数据 仓库,上市公司之间由于存在合作、竞争等关系,因此某些股票价格在一定时间内 会出现相似或相反的趋势。挖掘这些数据或股票之间的关联规则有利于投资者了解 各种股票的走势及股票之间有关系,进一步分析上市公司的各种政策和方案,从而 做出正确的投资决策,同时,经济学家分析不同层次用户的投资行为和各种股票之 间的关系,以及及时发现股市中的非正常行为;各上市公司和政府部门出台新的方 案等诸多方面具有重要的参考价值。 因此,本文选择将一种数据挖掘技术一一关联规则挖掘运用到股票数据分析 中,有助于发现数据中新的规律和特征,不但对证券市场的一些新应用提供支持, 同时,新的技术可能也会对金融领域的一些新的应用支持提供新的思想和方法。 1 1 1 数据挖掘的产生与发展 近些年,由于数据采集技术的发展,自动录入、条形码、遥感卫星等工具的应 用,使得我们可以收集到大量的数据,但是随之而来的问题是:如何才能把大量的 数据转变成有用的信息和知识? 快速增长的海量数据,已经远远地超过了人们的理 解能力,如果不借助强有力的工具,很难弄清大堆数据中所蕴含的知识。 一门新兴的自动信息提取技术数据挖掘技术( d a t am i n i n g ) 正是在这样的 需求背景下应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。1 9 8 9 年8 月召开的第1 1 届国际人工智能联合会议上首次提出了k d d ( k n o w l e d g ed i s c o v e r y 华北i 岜力人学硕1 j 。学何论文 i nd a t a b a s e ,数据库中的知识发现) 的概念,随后引起了固际人工智能和数据库等 领域专家的广泛关注。数据挖掘( 也称知识发现) 就是从火量数据r f l 提取和挖掘知 识的过程。目自订,数据挖掘的研究已经取得了丰硕的成果。从技术方面来看,数 掘挖掘是指从数据库或数据仓库中的数据非平凡地提取隐含的、以前未知的、具有 潜在应用价值的信息的过程,“非平凡”的意思是采用一定的技术和工具进行挖掘。 数据挖掘作为一门新兴的边缘学科,汇集了来自数据库技术、统计学、机器学习、 高性能计算、模式识别、神经网络以及管理信息系统等各学科的研究成果。特别要 指出,数据挖掘技术从一丌始就是面向应用。它不仅是面向特定数据库的简单检索 查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理, 以指导实际问题的求解,企图发现事件问的相互关联,甚至利用已有的数据对未来 的活动进行预测。这样一来,就把人们对数据的应用,从低层次的木端查询操作, 提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。 数据挖掘技术是人们长期对数据库技术进行研究和丌发的结果。起初各种商业数据 是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展 到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅 能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促 进信息的传递。在不久的未来,数据挖掘技术在商业应用中应该就可以投入使用, 因为对这种技术进行支持的三种基础技术已经发展成熟,他们是:海量数据搜集, 强大的多处理器计算机,数据挖掘算法。商业数据库现在j 下在以一个空前的速度增 长,并且数据仓库正在广泛地应用于各种行业;对计算机硬件性能越来越高的要求, 也可以用现在已经成熟的并行多处理机的技术来满足;另外数据挖掘算法经过了这 1 0 多年的发展也已经成为一种成熟、稳定且易于理解和操作的技术。 1 1 2 数据挖掘的概念 数据挖掘比较公认的定义是由u m f a y y a d 【3 】等人提出的:数据挖掘就是从大型 数据集( 可能是不完全的、有噪声的、不确定的、各种存储形式的) 中提取出人们 感兴趣的知识,这些知识是隐含的、先前未知的、对决策有潜在价值的。提取的知 识表示为概念、规则、规律和模式等形式。还有很多相近似的术语,如从数据库中 发现知识( k d d ) 、数据分析、数据融合( d a t af u s i o n ) 及决策支持等。人们把原 始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的, 如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是 分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的, 可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理、查询优化、决 策支持、过程控制等,还可用于数据自身的维护。因此,数据挖掘是一门很广义的 交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可 2 华北l u 力人学硕f :学f 眵论文 视化、并行计算等方面的学者和工程技术人员。 1 1 3 数据挖掘的研究现状 19 9 5 年数据挖掘界召开了第一届知识发现与数据挖掘国际学术会议【4 】【5 】。19 9 8 年数据挖掘研究界建立起一个新的学术组织a c m s i g m o d ( s p e c i a l i n t e r e s tg r o u p o nk n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 。1 9 9 9 年a c m s i g m o d 组织了第五届知识发 现与数据挖掘国际学术会议( k d d 9 9 ) 。专题杂志d a t am i n i n ga n dk n o w l e d g e d i s c o v e r v 自19 9 7 年起由c l a w e r s 出版社出版。涉及数据挖掘研究的论文集有 a c m s i g m o d 数据管理国际会议( s i g m o d ) ”,“超大型数据库国际会议( v l d b ) ”, “a c m s i g m o d s i g a r t 数据库原理研讨会( p o d s ) ”,“数据工程国际会议 ( i c d e ) ”,“扩展数据库技术国际会议( e d b t ) ”。涉及数据挖掘的杂志有:i e e e 知识与数据工程汇刊( t k d e ) ,a c m 数据库系统汇刊( t o d s ) ,信息系统, v d l b 杂志,数据与知识工程,智能信息系统国际杂志( 儿i s ) 等。 与国外相比,国内对数据挖掘的研究稍晚。19 9 3 年国家自然科学基金开始对数 据挖掘研究进行支持。l9 9 9 年在北京召开的第三界亚太地区k d d 国际会议 ( p a k d d 9 9 ) 推动了数据挖掘在我国的发展。 目前国内有许多高校和科研单位正在从事数据挖掘的基础理论和应用研究,如 清华大学利用概念格对数据挖掘的研究,北京大学对数据立方体的研究,中国科技 大学对序贯模式的研究以及系统工程研究所、上海交通大学、华中理工大学、复旦 大学、浙江大学等对关联规则的研究。 数据挖掘是当今许多研究领域的热点,许多数据挖掘系统已问世,并获得成功, 当前主要有以下系统: ( 1 ) i b m 公司a 1 m a d e n 研究中心开发的q u e s t 是一个集成的数据挖掘系统。 系统提供了专门在大型数据库上进行各种挖掘的功能,包括:关联规则挖掘、序列 模式挖掘、时间序列聚类、决策树分类、递增式主动挖掘等。 ( 2 ) m i n e s e t 是由s g i 公司和美国s t a n d f o r d 大学联合开发的集成数据挖掘系 统。m i n e s e t 集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地挖掘、 理解大量数据背后的知识。m i n e s e t 2 6 中使用了6 种可视化工具来表现数据和知识; 提供了多种数据挖掘模式,包括分类器、回归模式、关联规则、聚类等。 ( 3 ) d b m n i e r 是加拿大s i m o nf r a s e r 大学开发的一个集成数据挖掘系统,它的 前身是d b l e a m 。该系统设计的目的是把关系数据库和数据挖掘集成在一起,以面 向属性的多级概念为基础挖掘各种知识。系统能够完成泛化规则、特性规则、关联 规则、分类规则、演化知识、偏离知识等多种知识的挖掘。系统中综合了多种数据 华北电力人学硕一p :何论文 挖掘技术,如面向属性的归纳、统计分析、逐级深化挖掘多级规则、元姚则引导挖 掘等;提出了一种交互式的类s q l 语言一数据丌采查询语言d m q l ;实现了基于 客户服务器体系结构的u n i x 和p c ( w i n d o w s n t ) 版本的系统。 ( 4 ) 美国s a s 研究所推出的s a se n t e r p r i s em i n e r ,系统提供了包括支持关联、 聚类、决策树、神经元网络和统计回归在内的广阔范围的模型数据挖掘工具;提供 了数据获取、取样、筛选、转换工具来构造要挖掘的数据集。 ( 5 ) 美国s p s s 公司推出的c 1 e m e n t i n e 系统,系统为用户提供了功能强大易用 的数据挖掘工具平台。它含有6 个节点区,分别是源数据节点( s o u c r e s ) 、记录处 理节点( r e c o r do p s ) 、字段( 变量) 处理节点( f i e l do p s ) 、图形节点( g r a p h s ) 、 建立模型节点( m o d e l i n g ) 、输出节点( o u t p u t ) ,用户建立模型的过程就是把各个 节点区的节点以连线的方式连在一起;系统针对具体应用领域推出了多个应用模 版,以简化应用丌发过程。 ( 6 ) i b m 公司推出的i b md b 2i n t e l l i g e n tm i n e r 系统。 ( 7 ) n c rt e r a d a t a 公司推出的w a r e h o u s em n i e r 系统。 ( 8 ) 美国m i c r o s o r 公司推出的s o ls e v e r r 2 0 0 0 数据挖掘组件。 ( 9 ) o a r c l e9 id a t am i n i n g 系统。 1 9 9 9 年s a s 宜布全球5 0 0 家大型企业中有9 8 的企业是使用该公司的数据挖 掘产品进行分析、运筹、和决策,提高了企业的效益。 目前,数据挖掘作为数据库技术、统计学、人工智能、机器学习、信息科学等 学科研究及应用领域的新的延伸,被认为具有十分广阔的应用前景。 1 1 4 数据挖掘分析方法 数据挖掘利用的技术越多,得出结果的精确性就越高。原因很简单,对于某一 种技术不适用的问题,其他方法可能奏效,这主要取决于问题的类型以及数据的类 型和规模。数据挖掘方法有多种,其中比较典型的有关联分析、序列模式分析、分 类分析、聚类分析等u j 。 ( 1 ) 关联分析 关联分析,即利用关联规则进行数据挖掘。在数据挖掘研究领域,对于关联分 析的研究开展得比较深人,人们提出了多种关联规则的挖掘算法,如a p r i o r i 、a i s 、 d h p 等算法。关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库中 形如“9 0 的股票a 在股票b 上涨后上涨之类的知识。 4 华北电力人学硕卜学何论文 ( 2 ) 序列模式分析 序列模式分析和关联分析相似,其日的也是为了挖掘数据之| 日j 的联系,但此分 析的侧重点在于分析事件的f j 订后序列关系,发现诸如“在购买商品a 后,一段时问 罩顾客会接着购买商品b ,而后购买商品c 的知识,形成一个客户行为的a b c 模式。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是 按照交易时问排列的一组交易集,挖掘序列函数作用在这个交易序列数掘库上,返 回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要由用户输入最 小置信度m i n c o n f 和最小支持度m i n s u p 。 ( 3 ) 分类分析 设有一个数据库和一组具有不同特征的类别( 标记) ,该数据库中的每一个记 录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。 分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建 立分析模型或挖掘出分类规则,然后用这个分类规则对其他数据库中的记录进行分 类。举一个简单的例子,信用卡公司的数据库中保存着各持卡人的记录,公司根据 信誉程度,已将持卡人记录分成三类:良好、一般、较差,并且类别标记已赋给了 各个记录。分类分析就是分析该数据库的记录数据,对每个信誉等级做出准确描述 或挖掘分类规则,如“信誉良好的客户是指那些年收入在5 万元以上,年龄在4 0 5 0 岁之间的人士”,然后根据分类规则对其他相同属性的数据库记录进行分类。目前 已有多种分类分析模型得到应用,其中几种典型模型是线性回归模型、决策树模型、 基本规则模型和神经网络模型。 ( 4 ) 聚类分析 分类与聚类不同。聚类把没有分类的记录,在不知道应分成几类的情况下,按 照数据内在的差异性大小,合理地划分成几类,并确定每个记录所属类别。它采用 的分类规则是按统计学的聚类分析方法决定的。比如,面对数据库中“消费额”、“购 买频率”,“收入水平”等多个评价指标,没有办法按照一个指标去分类,就可以通 过聚类按照数据i 、日j 的自然联系把分散的记录“聚 成几“堆”,然后再对每堆进行 深入分析。数据挖掘融合了数据库,人工智能,统计学等多个领域的理论和技术, 对数据进行标准化、抽象化、规范化分类、分析,从而淘出所需要的“金”。在技 术上,客户关系管理系统采用数据挖掘系统的方式,可以自动地产生一些所要的信 息。深度的数据挖掘,还需要企业有统计学、决策科学、管理学、计算机科学方面 的专业人才,制定出切合实际的管理制度,才能给企业带来较大的经济效益【2 3 1 。 1 1 5 关联规则问题的提出 华北电力人。簟硕卜学何论文 在数据挖掘领域,关联规则的挖掘有着广泛的应用背景。关联舰则的挖掘是山 a g r a w a l 等人提出来的【6 ,7 1 。关联肌贝0 是描述数据库中数掘项之间某种潜在关系的规 则,它已成为数据挖掘中非常重要的一个方向。关联规则挖掘的对象般是大型事 务数据库。 关联规则是数据挖掘领域的个重要分支。随着大量数据不停地收集和存储, 许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。比如在零售、业 中,关联规则可发现交易数据库中不同商品( 项) 之间的联系,这些规则找出顾客 购买行为模式,如购买了某一商品对购买其他商品的影响。发现这样的规则可以应 用于商品货架设计、货存安排以及根据购买模式对用户进行分类。 自a g r a w a l 等于1 9 9 3 年首先提出了挖掘顾客交易数据库中项集问的关联规则问 题以后,诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包 括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则 的效率,对关联规则的应用进行推广。 还有一些文献中o 】在挖掘关联规则时采用了新的方法:首先将属性值对 ( a t t r i b u t e s v a l u ep a i r ) 映射到二维欧拉平面上,然后在该平面上发现优化区域 ( o p t i m i z e dr e g i o n ) ,再在这些优化区域上挖掘关联规则。 1 1 6 关联规则挖掘的应用及发展前景 数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并 且加以分析,获取有意义的信息,归纳出有用的结构,作为企业进行决策的依据。 其应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用挖掘工具进行 有目的的发掘分析。 关联规则可以广泛应用于各个领域,既可以检验行业内长期形成的知识模式, 也能够发现隐藏的新规律。有效地发现、理解、运用关联规则,是完成数据挖掘任 务的一个重要手段。常见的应用案例多发生在零售业、电信业、财务会融业、保险 业及医疗服务业等: ( 1 ) 零售业,1 2 】 零售业是数据挖掘应用较为活跃的一个领域。了解客户的购买习性和趋向,对 于零售商制定销售策略是至关重要的。销售分析人员运用关联规则挖掘技术对大量 的销售数据进行分析,可以发现顾客购买模式和趋势,改进服务质量,取得更好的 顾客保持力和满意程度,提高货品销售比率,设计更好的货品运输与分销策略,减 少商业成本。 ( 2 ) 电信业【1 3 - 1 6 】 6 普北【乜力人学硕 :。学何沦文 电信业务领域的全面丌放。激烈竞争使得目i j ,j 的中国电信市场烽烟i j 【j 起。在海 量的业务数据肇础上,如何发现隐含着的商业规律。利用关联规则i 叮以帮助电信业 务企业做到有针对性营销,实现从数据到知识再到价值的提升。同时由于电信行业 的特殊性,需要面临同益复杂而庞大的电信网络,而且要求较高的安全性,网络中 会产生大量的告警信息,利用关联规则有利于更好的处理告警信息,提高网络的安 全性。 ( 3 ) 财务会融业【1 7 ,1 8 】 由于金融业中的数据相对比较完整,质量较高,因此,数据挖掘在这一领域中 的应用相对比较成熟,也取得较好的社会效益和经济效益。金融事务需要搜集和处 理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客 户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。 比如在银行中,对于银行提供的多项服务,可利用关联规则挖掘来分析客户可 能需要哪些服务。 ( 4 ) 保险业【1 9 】 随着社会保障体系的同益健全,保险业取得了蓬勃的发展,发挥着越来越重要 的作用。保险是一项风险业务,保险公司的一个重要工作就是进行风险评估。通过 研究证明,可以利用数据挖掘技术来进行风险分析。例如不寻常的多项保险申请可 能是欺诈行为。保险公司通过关联规则挖掘辨别出可能的欺诈行为,成本风险减少, 提高利润。 ( 5 ) 医疗服务【2 0 2 2 】 关联规则在医学上的应用也有重大意义,可以预测一次手术、药物检验、药物 治疗的效果。 综上所述,数据挖掘中的关联规则侧重于数据中不同领域之问的联系,找出满 足给定条件的多个域之间的依赖关系,有着广泛的应用前景。数据挖掘已经越来越 多地用于大中型企业、商业、银行、保险业和医疗服务业等部门,并表现出极强的 发展潜力。数据挖掘技术必将在我国得到广泛的应用。 1 1 7 关联规则挖掘问题的国内外研究现状 在过去的3 0 年中,计算机硬件稳定的、令人吃惊的进步导致了功能强大的计 算机、数据收集设备和存储介质的大量供应。这些技术大大地推动了数据库和信息 产业的发展,使得大量数据库和信息存储用于事务管理、信息检索和数据分析。 数据发掘和知识发现作为一门新兴的研究领域,涉及到机器学习、模式识别、 7 华北l 乜力人学硕十! 学化论文 统计学、数据库和人工智能等学科。特别地,它可看作数捌库理论和机器学习的交 义学科,作为一种独立于应用的技术,受到了广泛的关注,有着广泛的应h j 前景, 可以应用于商业管理、科学研究、智能决策、故障诊断等方面。而关联规则挖掘是 数据挖掘任务中最重要的一种,关联规则挖掘首先由r a g r a w a l 等人提出,经过近 十年的发展,国内外都对关联规则的发现方法进行了积极深入地研究,提出了很多 算法。其中最有影响的算法由r a g r a w a l 等在文献中给出的a p r i o r i 算法,其余算法 大多是以a p r i o r i 为核心,或是其变体,或是其扩展。如增量更新算法【2 3 乏4 1 、并行 算法等【2 5 - 2 7 1 。 目前的研究重点是找出频繁项目集。典型的关联规则采掘算法有a p “o r i 算法和 d h p 算法等,它们都属于数据库遍历类算法。r a g r a w a l 提出的a p n o r i _ h y b r i d 算法, p a r k 等人提出的d h p 算法使用哈西( h a s h i n g ) 技术有效地改进了候选集c 。的产生 过程。s a v a s e r e 等人在1 9 9 5 年提出了一种把数据库分割处理的算法,降低了采掘过 程中的i o 次数,减轻了c p u 的负担。h t o i v o n e n 使用抽样( s a m p l i n g ) 的方法可 以用较小的代价从大型数据库中找出关联规则。这些算法的提出不同程度地改进了 关联规则发现过程。由于算法通常需要遍历数据库,求取支持度【2 8 。3 1 】,在算法的执 行过程中需要不断利用s q l 语句进行数据库的操作,以及大量的i 0 操作以及应用 程序与o d b c 接口之问的频繁通讯成为系统提高效率的瓶颈。 最近也有独立于a p r i o r i 的频集方法的工作,以避免频集方法的一些缺陷,探索 挖掘关联规则的新方法。同时随着a p r i o 技术的成熟和应用,将o l a p 和关联规 则结合也成了一个重要的方向。还有一些工作注重于对挖掘到的模式的价值进行评 估,他们提出了一些值得考虑的研究方向【3 1 ,3 2 1 。 目前,数据挖掘关联规则已经取得了令人瞩目的成绩,但在实际应用中的下列 问题将是具有挑战性的工作: ( 1 ) 开发更高效的采掘算法 随着数据库规模的不断增大,不仅增大了采掘算法的搜索空间,而且也增加了 盲目发现的可能性。因此我们必须利用领域知识去提取与我们发现任务有关的数 据,删除无用数据,有效地降低问题的维数,设计出更加有效的采掘算法。在这方 面,基于约束的关联规则采掘具有广阔的前途。 ( 2 ) 可视化采掘 设计个灵活方便的用户界面,允许用户与采掘系统进行交互,并对所采掘的 结果进行很好的可视化表示,使非领域专家也能够进行采掘。 ( 3 ) 基于不同媒体的采掘 8 华北电力人学硕_ 学位论文 目前大多数采掘关联规则算法都是基于关系数据库或事务数据库的算法,设计 应用于其它类型数据库( 如面向对象数据库、多维数据库、数据仓库等) 关联规则 采掘算法也将是十分有意义的工作。 ( 4 ) 制定更为合理的衡量标准 如前所述,目前的关联规则的衡量标准可能会产生一些冗余的、虚假的和非采 掘者关心的关联规则,因而很有必要制定一些新的衡量标准,但这些标准的制定可 能要具体问题具体分析,这f 是本文的一个研究重点。 ( 5 ) 与其它系统的集成 这里的集成包括与其它采掘方法的集成和与其它系统( 如专家系统、决策支持 系统等) 的集成。 1 2 本文的组织结构 第一章,介绍了课题中数据挖掘和关联规则的研究背景以及本文的组织结构。 第二章,概括介绍了关联规则挖掘的基本理论,其中详细介绍了经典的a p r i o r i 算法思想,并对其的一些改进算法进行了分析,发现其中的局限性。 第三章,主要是详细分析了a p r i o r i 算法的不足,介绍了据此的一些改进算法, 并分析了其改进算法存在的不足。 第四章,是本文的研究重点。第三章提出的问题,针对a p r i o “算法的不足,利 用规则间的特性,对算法进行了改进。主要思想是:引入h e c k e m a n 确信因子,增 强规则生成条件,对规则进行进一步度量,过滤无效的甚至是错误的规则,同时根 据新的规则定义,分别生成不同的规则。 第五章,将改进算法应用于股票数据分析预测中,同时采用了一种新的股票数 据预处理算法对股票数据进行预处理,从而更好的进行分析预测,证明了改进算法 的有效性。 第六章,对全文进行总结,并对今后的工作进行了展望。 1 3 本章小结 主要介绍了本文的研究背景,即数据挖掘的概念、研究现状以及常用的分析方 法,以及关联规则的研究现状。 9 华北i 乜力人学硕1 :学f 市论文 第二章关联规则挖掘的基本理论 关联规则足美国i b ma l m a d e nr e s e a r c hc e n t e r 的r a k e s ha g r a w a l 等人于1 9 9 3 年首先提出来的k d d 研究的一个重要课题 3 3 】。现实中一个比较典型的例子是购物 篮分析。超级市场利用自仃端收款机收集存储了大量的售货数据,这些数据是一条条 的购买事务记录,每条记录存储了事务处理时i 日j ,顾客购买的物品,物品的数量及 金额等。这些数据中常常隐含形式如下的关联规则:在购买牛奶的顾客当中,有6 0 的人同时购买了面包。这些关联规则很有价值,商场管理人员可以根据这些关联规 则有选择地安排货架,如此一来,可以大大的提高销售量。关联规则挖掘可以发现 存在于数据库中的项目( i t e m s ) 或属性( a t t r i b u t e s ) 间的有趣关系,这些关系是预 先未知的和被隐藏的,也就是说不能通过数据库的逻辑操作( 如:表的连接) 或统 计的方法得出。这说明他们不是基于数据自身的固有属性( 如函数依赖关系) 。而 是基于数据项目的同时出现特征。所发现的关联规则可以辅助人们进行市场运作、 决策支持及商业管理,网站设计。 由于关联规则挖掘形式简洁、易于理解和解释并可以有效的捕捉数据间的重要 关系,因此从大型数据库中挖掘关联规则的问题己经成为近年来数据挖掘研究领域 的一个热点。 2 1 关联规则的基本概念 根据上小节的例子,可以归纳出关联规则的基本概念。 a g r a w a l 等人首先定义了事务数据库中挖掘关联规则的问题【3 ”。 设,= f l ,f :,f 。 为数据集合;设d 为与任务相关的数据集合,即数据库事务的 集合;其中的每个交易是一个数据项子集,即r ,;每个交易均包含一个识别编 号t i d 。 定义2 1 假设项目集a 是i 中项目的集合,如果a 包含k 个项目,那么称a 为k 项集。 例2 1 客户在某次交易中购买了“牛奶”、“面包”和“黄油”,则“牛奶”、“面 包 和“黄油就代表了三个不同的项目,并且这个交易为:f “牛奶”,“面包, “黄油) 。 “牛奶”,“面包”,“黄油 ) 、 “牛奶) 、 “牛奶”,“面包”) 、 “面 包”,“黄油 ) 等都是项目集,但只有 “牛奶,“面包”,“黄油 ) 才是一个交易。 项目集 “牛奶”,“面包”,“黄油”) 的维数或长度为3 ,记作3 项目集。 定义2 2 如果项集彳丁,则我们称事务t 满足项集a ;项集a 在事务数据库 1 0 华北l u 力人学硕 = ! 学何论文 d 中的支持度( s u p p o r t ) ,记为s l 仰d ( 彳) ,即事务数据库d 中满足项集a 的市务 数。 定义2 3 如果项集a 在事务数据库d 中的支持度不小于用户或专家给定的最 小支持度阈值,那么称项集a 为大项集或频繁项集;反之称之为小项集或非频繁项 集。 定义2 4 一条关联规则就是形如彳jb 的蕴涵式,其中彳c ,bc , 彳n b = o 。a 称为规则的前件,b 称为规则的后件。关联规则么jb 成立的条件是 满足:支持度观印d 一,即数据库中包含项集a 同时包含项集b 的记录数与数据 库所有记录数的比;置信度c d 以疗如,z c e ,即数据库中包含项集a 同时包含项集b 的记录数与数据库中包含项集a 的记录数的比。 同时满足最小支持度阈值和最小信任度阈值的关联规则就称为强关联规则。关 联规则的挖掘问题就是在事务数据库d 中找出满足用户或专家给定的最小支持度和 最小置信度的强关联规则。通常为方便起见,都将最小支持度阈值简写为m i n s u p ; 最小信任度阈值简写为m i n c o n f 。频繁k 项集的集合通常记作。 2 2 关联规则的分类 传统的关联规则挖掘形式是购物篮分析,但关联规则绝不仅此一种。根据不同 的标准,关联规则可以分为不同的类型。 2 2 1 根据所处理值的类型分类 根据所处理的值的类型分类,关联规则可分为布尔关联规则和量化关联规则。 ( 1 ) 御尔关联规则 布尔关联规则( b o o l e a na s s o c i a t i o nr u l e ) 处理的是离散的、种类化的数据,它 考虑的是相关联的项的存在与否的关系。例如: s e x ( x ,“女”) j p r o f e s s i o n ( x ,“秘书) 其中,x 是代表某人的变量。 ( 2 ) 量化关联规则 量化关联规则( o u a n t i t a t i v ea s s o c i a t i o nr u l e ) 处理的是数值型数据。在这里, 需要将数值型数据进行分割,把它划分为不同的区间。当然,量化关规则中也可以 包含种类变量。例如: s e x ( x ,“女 ) p r o f e s s i o n ( x ,“秘书 ) ja g e ( x ,“1 8 2 5 ) 华北电力人。、硕卜! 学f 声论文 其中,x 是代表某人的变鼍,量化属性a g e 已经离散化。 2 2 2 根据所涉及的抽象层分类 根据所涉及的抽象层分类,关联规则可以分为单层关联规则和多层关联规则。 ( 1 ) 单层关联规则 单层关联规则( s i n g l e l e v e la s s o c i a t i o nr u i e ) 不考虑现实生活中的数据实际上 具有多个不同的层次,不涉及不同抽象层的项或属性。例如: b u y s ( x ,“光明牌牛奶”) j b u y s ( x ,“洛杉奇牌面包”) 其中,x 是代表某人的变量,光明牌牛奶和洛杉奇牌面包是属于同一概念层次 上的数据。 ( 2 ) 多层关联规则【3 4 ,3 5 】 多层关联规则( m u l t i l e v e la s s o c i a t i o nr u l e ) 充分考虑现实生活中数据的多层 性,规则涉及数据不同抽象层的项或属性。例如: b u y s ( x ,c o m p u t e r ) = b u y s ( x ,“p r i n t e r ”) ( 2 - 1 ) b u y s ( x ,“i b mc o m p u t e r ”) = 争b u y s ( x ,“s o n yp “n t e r ”) ( 2 2 ) b u y s ( x ,“i b mc o m p u t e r ”) j b u y s ( x ,“p r i n t e r ”) ( 2 - 3 ) 其中,c o m p u t e r 和p r i n t e r 属于同一抽象层,i b mc o m p u t e r 和s o n yp r i n t e r 属于 同一抽象层,c o m p u t e r 在比i b mc o m p u t e r 更高的抽象层,p r i n t e r 在比s o n yp r i n t e r 更高的抽象层。规则( 2 3 ) 揭示了一个细节层次i b mc o m p u t e r 和较高层次p r i n t e r 之间的多层关联规则,这种关联规则又称作交叉层关联规则。 项或属性之间的关系如图2 1 所示。 图2 1 概念分层图 1 2 华北i 乜力人学硕f :学何论文 “如何根据概念分层图束有效挖掘多层关联规则l 屺? ”基于支持度一置信度框架 的多层关联规则挖掘方法一。般采用自顶向下的深度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论