(计算机软件与理论专业论文)关联规则挖掘算法研究(2).pdf_第1页
(计算机软件与理论专业论文)关联规则挖掘算法研究(2).pdf_第2页
(计算机软件与理论专业论文)关联规则挖掘算法研究(2).pdf_第3页
(计算机软件与理论专业论文)关联规则挖掘算法研究(2).pdf_第4页
(计算机软件与理论专业论文)关联规则挖掘算法研究(2).pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机软件与理论专业论文)关联规则挖掘算法研究(2).pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 y s e e t 。 数据携獭楚近年采邋速发袋静穰悫楚疆技零。数据挖掇f o a t am i n i n g ) 就是鼠大 量的、不完套的、肖噪声的、模糊的、噫桃的数据中,提取隐含在其中鲍、人们攀 先不知道的、但又怒潜在有用的信息和知识的过程。 挖掘关联规刘蹙数攒挖掘中一个重要组成部分。关联规则蹙单向的,它是指 菜类顼莛或姆薤与另一类项瑟或姆筵露掰存在豹攀淘影璃关系。a g r a w a l 等予 1 9 9 3 年【l 】酋先提国了挖掘顾骞交易数据摩中磺集阗静关联规嬲瓣题,以麓诸多螅 研究人员对关联规则豹挖掘问题避行了大量的研究,包括对原有的算法进行优 化,如引入隧机采样、势撂黔思想镶,以挺舞舞法挖撼攥则弱效率;对关联援剃 的应用进行推广。 本论文蘩一部分对数据拣掘技术进行了总体介绥,说明了綦本概念、功能和 系统总体框强瑷及发震中的赡点和研究方面;第二鬻对关联规煲| j 基本概念的进行 了介绍,提如了关联攫则黪努类方法;第三掌探讨了挖援各秘关联骥爨鐾懿算法, 从挖掘单维单层布尔关规则的经典的a p r i o r i 歼始,分析了挖掘雌维、多层关联舰 赠瓣筹法,多维关毅撬粼静冀法妥多维多僮藩往关联规燹| j 的算法。文中掇豳算法 优化方法,势对其性能遴好了实验测试;第题端分、第五部分谨缨分绍了旗于美 系避数獬库的关联规刚挖掘系统的设计构思,根据关联飙则挖搠系统结构框架, 实糕了旗予v i s u a lf o x p r o 静关联黼弼擦籀系统,箕于采用了一个颛型酌萋于关 系数据摩的关联规则挖搋簿法,提离了挖掘效搴,并详缨分提了程廖设计戆各个 功能模块,最后就设计中遗留的问蹶进行了进一步的分析。 关键测:关联溉戴獗繁硬集挖瓣算法关系整数据库 a b s t r a c t d a t am i n gi sa ni n f o r m a t i o np r o c e s s i n gt e c h n o l o g y , w h i c hi sd e v e l o p i n gv e r y f a s ti nr e c e n t y e a r s u s i n g d a t a m i n i n g ,p e o p l e c a l la b s 订a c ti n f o r m a t i o na n d k n o w l e d g ef r o m ag r e a td e a lo f d a t aw h i c hi si n c o m p l e t e ,n o i s yd a r ka n dr a n d o m t h e i n f o r m a t i o na n dk n o w l e d g ew e g e tw a si g n o r e da n dh a dn o tb e e nk n o w n b e f o r eb u t p o t e n t i a lu s e f u l 。 a s s o c i a t i o nr u l em i n i n gi sa ni m p o r t a n tp a r to fd a t em i n i n g a s s o c i a t i o nr u l ei s u n i l a t e r a l ,i t sa b o u tr e l a t i o n s h i po fu n i l a t e r a li n f l u e n c ew h i c hi sb e t w e e no n ei t e r no r c h a r a c t e ra n do t h e ri t e m so rc h a r a c t e r s a g r a w a la n do t h e r sf i r s tb r o u g h tf o r w a r d m i n i n ga s s o c i a t i o nr u l ei n1 9 9 3 ,t h e nm a n y r e s e a r c h e rd oal o to fw o r ki na s s o c i a t i o n s u c ha sb r i n g i n gi nr a n d o m s a m p l ea n dp a r a l l e lt h o u g h t t oi m p r o v et h ed e f i c i e n c yo f m i n i n g a n d p o p u l a r i z ea p p l i a n c eo f a s s o c i a t i o n r u l e t h ef i r s tc h a p t e ri nt h i sp a p e r p r o v i d e sas u r v e yo fd a t am i n i n gt e c h n o l o g y , a n de x p l a i n sb a s i cc o n c e p t s ,f u n c t i o na n dt h ew h o l ef r a m e w o r ko fd a t a m i n i n ga n dd i f f i c u l t i e s i n d e v e l o p i n g a n ds o m ef u t u r ed i r e c t i o n si n e s s o c i a t i o nr u l eg e n e r a t i o n :t h es e c o n d c h a p t e ri n t r o d u c et h eb a s i c c o n c e p t s ,b r i n g sf o r w a r dac l a s s i f i c a t i o no fa s s o c i a t i o nr u l e :t h et h i r d c h a p t e rg i v ead e e pr e s e a r c ho na l g o r i t h m so fe v e r yk i n do fa s s o c i a t i o n r u l e ,i n c l u d em i n i n gs i n g l e d i m e n s i o n a ls i g n a l l e v e la s s o c i a t i o nr u l e a n dm u l t i d i m e n s i o n a lm u l t i l e v e la s s o c i a t i o nr u l e ,i td e s c r i b e st h e s e a l g o r i t h m ,p o i n to u ts o m em e t h o dt oo p t i m i z et h i sa l g o r i t h ma n dt e s ti t s q u a l i t yw i t he x p e r i m e n t s :t h ef o u r t ha n df i f t hc h a p t e ri n t r o d u c et h e d e s i g n sa b o u ta s s o c i a t i o nr u l em i n i n gs y s t e mb a s i n go nr e l a t i o nd a t a b a s e v i s u mf o x p r oi nd e t a i l :a c c o r d i n gt os y s t e mf r a m eo ft h ea s s o c i a t i o nr u l e m i n i n g ,a c t u a l i z ean e wm i n i n ga l g o r i t h m sa n da n a l y s e se v e r yf u n c t i o n m o d u l eo fp r o g r a m ,a t1 a s tf u r t h e ra n a l y s e st h el e f tp r o b l e m si nd e s i g n s k e yw o r d s :a s s o c i a t i o nr u l e f r e q u e n t i t e m m i n i n ga l g o r i t h m r e l a t i o nd a t a b a s e 第一章绪论 第一章绪论 1 1 数据挖掘( d a t am in e ) 技术概述 1 1 1 数据库技术的演化导致了数据挖掘技术的出现 数据挖掘( d a t am i n e ) 技术是信息技术自然进化的结果。 自2 0 世纪6 0 年代以来,数据库和信息技术已经系统地从原始的文件处理演化 到复杂的、功能强大的数据库系统。自7 0 年代以来,数据库系统的研究和开发已 经从层次和网状数据库系统发展到开发关系数据库系统、数据建模工具、索引和数 据组织技术。此外,用户通过查询语言、用户界面、优化的查询处理和事务管理, 可以方便、灵活地访问数据。联机事务处理( o ”p ) 对于关系技术的发展作出了重要 贡献。自8 0 年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发 新的、功能强大的数据库系统。这些使用了先进的数据模型:扩充关系模型、面向 对象模型、对象一关系模型和演绎模型,包括空间的、时间的、多媒体的、主动的 和科学的数据库、知识库、办公信息在内的面向应用的数据库系统百花齐放,涉及 分布性、多样性和数据共享问题被广泛研究。异种数据库和基于i n t e r n e t 的全球 信息系统,如w w w 也已出现,并成为信息产业的生力军。 计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集设备 和存储介质的大量供应。这些技术大大推动了数据库和信息产业的发展,使得大量 数据库和信息存储用于事务管理、信息检索和数据分析。 现在数据可以存放在不同类型的数据库中。数据仓库就是一种多个异种数据源 在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库的定义是 w l i i n m o n 在“b u i l d i n gt h ed a t a w a r e h o u s e “一书中首先给出的:数据仓库是 面向主题的、整合的、稳定的,并且时变的收集数据以支持管理决策的一种数据决 策形式。数据仓库具有如下特征: ( 1 ) 主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。 ( 2 ) 数据进入数据仓库之前,必须经过加工与集成,对不同的数掘来源进行统 一数据结构和编码,将原始数据由面向应用转向面向主题。 ( 3 ) 数据仓库中存储大量的历史数据,数据经集成进入数据仓库后是极少或根 本不更新的。 ( 4 ) 数据仓库的数据时限在5 一l o 年,数据的编码包含时间项,因此仓库要时变 地收集数据。 葵一辈辩论 ( 5 ) 邋鬻的数撼仓库数搬爨为i o g b 缀,媚当予一般数掇痒i o o m b 沟1 0 0 倍, ( 6 ) 数据仓瘁支持o l a p ( o n l ,i n ea n a l y t i c a lp r o c e s s i n g ) 、决策分析及数据挖 摅,o l a p 决策分辑纛数稽擦援绘蠹羧据食霹中数攒瓣多缀逻辑橇豳,镪含交互式焱 询翻对数据翡分耩,提供分耩懿建模臻麓,生成橇话数瓣、聚集、鼹次,支持瑰辘 模型进行预测、趋势分析、统计分析操作。 数擐瘁技零鲍演化溺: 2 第一章绪论 数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为“数 据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型和大量数据库中, 没有强有力的工具,理解它们已经远远超出了人的能力,结果收集在大型数据库中 的数据变成了“数据坟墓”难得再访问的数据档案。这样,重要的决定常常不 是基于数据库中信息丰富的数据,而是基于决策者的直觉,因为决策者缺乏从海量 数据中提取有价值知识的工具。此外,当前的专家系统技术依赖用户或领域专家人 工地将知识输入知识库,这一过程常常有偏差和错误,并且耗时、费用高。数据挖 掘工具进行数据分折,可以发现重要的数据模式,支持决策。数据和信息之间的鸿 沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。 数据挖掘是从大量数据中提取或“挖掘”知识。 1 2 数据挖掘模式的类型 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可 以分两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性。预测性挖 掘任务在当前数据上进行推断,以进行预测。 数据挖掘功能以及它们可以发现的模式类型介绍如下: 1 2 1 概念类描述:特征化和区分 数据可以与类或概念相关联。这种类或概念的描述称为类概念描述( c l a s s c o n c e p t i o nd e s c r i p t ) 。这种描述可以通过下述方法得到:1 ) 数据特征化,一般地 汇总所研究类( 通常称为目标类( t a r g e tc l a s s ) ) 的数据;2 ) 数据区分,将目标类与 一个或多个比较类( 通常称为对比类( c o n t r a s t i n gc l a s s ) ) 进行比较;3 ) 数据特征 化和比较。 数据特征化( d a t ac h a r a c t e r i z a t i o n ) 是目标类数据的一般特征或特性的汇总。 数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据立方体和 包括交叉表在内的多维表。结果描述也可以用概化关系( g e n e r a l i z e d r e l a t i o n ) 或 规则形式( 称作特征规则) 提供。 数据区分( d a 2 a d i s c r i m i n a t i o n ) 是将目标类对象的一般特性与一个或多个对 比类对象的一般特性比较。目标类和对比类由用户指定,而对应的数据通过数据库 查询检索。用于数据区分的方法与用于数据特征化的类似。 1 2 2 关联分析 关联分析( a s s o c i a t i o na n a l y s i s ) 发现关联规则,这些规则展示属性一值 频繁地在给定数据集中一起出现的条件。关联规则x = y 解释为“满足x 中条件的 第一章绪论 数据库元组多半也满足y 中条件”。 近年来,已经提出了许多有效的关联规则挖掘算法。 1 2 3 分类和预测 分类( c l a s s i f i c a t i o n ) 找出描述并区分数据类或概念的模型( 或函数) ,以便能 使用模型预测类标记未知的对象类。导出模型是基于对训练数据集( 即其类标记已 知的数据对象) 的分析。 分类用来预测数据对象的类标记。当被预测的值是数值数据时,通常称之为预 测( p r e d i c t i o n ) ,预测也包含基于可用数据的分布趋势识别。 分类模式常用分类树表示,如下图: 1 2 4 聚类分析 聚类( c l u s t e r i n g ) 分析数据对象,用于产生类标记。对象根据最大化类内的相 似性、最小化类间的相似性的原则进行聚类或分组,使得在一个簇中的对象具有很 高的相似性,而与其他簇中的对象很不相似。聚类分析结常用如下着色图表示: 第一章绪论 1 2 5 孤立点分析 数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些 数据对象是孤立点( o u t l i e r ) 。大部分数据挖掘方法将孤立点视为噪声或异常而丢 弃。然而,在一些应用中( 如欺骗检测) ,罕见的事件可能比正常出现的那些更有趣。 孤立点数据分析称作孤立点挖掘( o u t li e rm i n i n g ) 孤立点可以使用统计试验检测。它假定一个数据分布或概率模型,并使用距离 度量,到其他聚类的距离很大的对象被视为孤立点。基于偏差的方法通过考察一群 对象主要特征上的差别识别孤立点,而不是使用统计或距离度量。 1 2 6 演变分析 数据演变分析( e v o l u t i o na n a l y s i s ) 描述行为随时间变化的对象的规律或趋 势,并对其建模。 1 3 典型方法及工具 1 3 1 神经网络( n e u r a ln e t w o r k ) 神经网络基于自学习数学模型,通过数据的编码及神经元的迭代求解,完成复 杂的模式抽取及趋势分析功能。神经网络系统由一系列类似于人脑神经元一样的处 理单元( 称之为节点,n o d e ) 组成,节点间彼此互连,分为输入层、中间( 隐藏) 层、输出层。 神经网络通过网络的学习功能得到一个恰当的连接加权值,较典型的学习方法 是b p 法( b a c k p r o p a g a t i o n ) 。通过将实际输出结果同期望值进行比较,调整加 权值,重新计算输出值,使得误梯度下降。不断重复学习过程,直至满足终止判断 条件。 神经网络系统具有非线性学习、联想记忆的优点,但也存在一些问题:神经网 络系统是一个黑盒子,不能观察中间的学习过程,最后的输出结果也较难解释,影 响结果的可信度及可接受程度。其次,神经网络需要较长的学习时间,对大数据量, 性能出现严重问题。 1 3 2 决策树( d e c i s i o nt r e e ) 决策树是通过一系列规则对数据进行分类的过程。采用决策树,可以将数据规 n , - i 视化,也不需要长时间的构造过程,输出结果容易理解,精度较高,因此决策 树在知识发现系统中应用较广。 然而,采用决策树方法也有其缺点。决策树方法很难基于多个变量组合发现规 则。不同决策树分支之间的分裂也不平滑。 第一章绪论 1 3 3 联机分析处理( o l a p ) 联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 主要通过多维的方式对 数据进行分析、奄询和报表。o l a p 应用主要是对用户当前及历史数据进行分析,辅 助领导决策。主要是进行大量的查询操作,对时间的要求不太严格。目前常见的o l a p 主要有基于多维数据库的m o l a p 及基于关系数据库的r o l a p 。 1 3 4 数据可视化( d a t av i s u a l i z a t i o n ) 可视化工具能很好地向用户理解数据及解释发现的知识,其本质是对数据子集 进行拓扑变换,将规则映射到拓扑。通过定义的标准接口,知识发现系统和数据可 视化工具应很好地协作。由于数据处理阶段的数据量大,知识发现系统通过设定富 有成效的探索起点并按恰当的可视化方式表示数据,可视化后的数据,将使用户可 以直观地发现数据特征与数据隐含的依赖关系,为数据分析人员提供很好的帮助。 对于发现的知识,通过可视化工具,帮助用户好地理解与评价知识的功用性。 1 4 在何种数据上进行数据挖掘 原则上,数据挖掘可以在任何信息存储上进行,包括关系数据库、数据仓库、事 务数据库、高级数据库系统、展开文件和w w w 高级数据库系统包括面向对象和对 象一关系数据库:面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数 据库和多媒体数据库。 1 5 数据挖掘研究历史与现状 1 9 8 9 年8 月举行的第1 1 届国际联合人工智能学术会议上,第一次提出了数据库 中的知识发现与数据挖掘一词。迄今为止,由美国人工智能协会主办的k d d 国际研 讨会已经召开了8 次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十 人到七八百人,论文收录比例从2 x l 到6 x l ,研究重点也逐渐从发现方法转向系统应 用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1 9 9 9 年, 亚太地区在北京召开的第三届p a k d d 会议收到1 5 8 篇论文,空前热烈。i e e e 的 k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术专刊。并行 计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发 现列为专题和专刊讨论,数据挖掘已成为当前计算机科学界的一大热点。 在i n t e r n e t 上有不少k d d 电子出版物,如k n o w l e d g ed i s c o v e r y n u g g e t s 。目前,世界上比较有影响的典型数据挖掘系统有:s a s 公司的e n t e r p r i s e m i n e r 、i b m 公司的i n t e l l i g e n tm i n e r 、s g i 公司的s e t m i n e r 、s p s s 公司的 c l e m e n t i n e 、s y b a s e 公司的w a r e h o u s es t u d i o 、r u l e q u e s tr e s e a r c h 公司的s e e 5 、 第一章绪论 还有c o v e r s t o r y 、e x p l o r a 、k n o w l e d g ed i s c o v e r yw o r k b e n c h 、d b m i n e r 、q u e s t 镰。读者爵班访h t t p :醐驿d a t a m i n i n g l a b 。c o m + 弼站,该璃棼嶷供了诲多数援挖 掘系统和工具的性能测试报告。 与黧终楣毙,国内慰d m k d 鹣磅究鞘浚,没巍形或熬髂力量。1 9 9 3 年国家鑫然 科学基金首次支持了对该领域的研究项目。目前,国内的许多科研单位和高等院校 毙相开嶷期识发现豹基硪理论及其应弱龌究,这魈单位锻括清华大学、中辩院访舞 技术研究所、空攀第三研究所、海军装镛论证中心等。麓中,北京系统工程研究所 澍模糊方法在知识发现中的应用进行了较深入的研究,j b 京大学也在开展对数据立 方体代数的研究,华中瓒工大学、复虽大学、浙江大学、中国科技大学、中科院数 学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、 蹭川联合大学帮上海交通大学等单位搽l 寸、研究了非缩构化数攒的知谈发现以及 w e b 数据挖掘。 蕞遥,g a r t n e rg r o u p 酶一次高级技术调查将数据擦箍和人工餐能硼必“宋来 三到五年内将对工业产生深远影响的五大关键技术”之黼,并且还将并行处理体系 秘数据挖瓣列舞来来五零内投资焦点静十大薪兴技术嚣嚣位。裰撵最近g a r t n e r 静 h p c 研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多 逡需要采鹚藐技零来挖撼毒场敬终憝债镶,采弱燕为广溺豹荠蟹照理系统来截建凝 的商业增长点。” 1 6 数据挖撬技术巾麓重大难题冀方彝 数据挖掘技术中目前仍存在一些制约其发展的重大难题: ( 1 ) 各种数据挖掘闷遂及挖掘方法基于不丽的模鹜和技术,彼此曩稆孤立, 联系很少: ( 2 ) 缺少篱明精确瓣闯蘧撩述方法,挖掘的语义通常是由爽现方法决定静; ( 3 ) 数据挖掘系统仪提供孤立的知识发现功能,难于嵌入大型应用; ( 4 ) 数据挖攘雩| 擎与数据瘁系统是松散藕合,t 。i m i e l i n s k ij 乖曩硅m a n n i l a 称 其为”文件挖掘( f i l em i n i n g ) 系统”,它没有提供应用独巍的操作原语。 垂嚣髓为壹,数援挖瘸蟹韭楚毫度分散戆,余霹蠢磷究穰梅猿立嚣发各鑫豹数 据挖掘系统和平街,没有形成开放性的标准;同时数据挖掘本身楚- - n 多学科综合 跨度嚣鬻大弱技零,这磁点是上述翊嚣存在藜摄本暴困。 数据挖掘技术的发展方向: 当前,d m k d 研究正方兴未艾,3 黉计在2 l 世纪还会形成燹大熬褒潮,研突焦点可钱 会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像s q l 语吉 第一章绪论 一样走向形式化和标准化:寻求数据挖掘过程中的可视化方法,使得知识发现的过 程能够被用户理解,也便于在知识发现过程中的人机交互:研究在网络环境下的数 据挖掘技术,特别是在i n t e r n e t 上建立d m 服务器,与数据库服务器配合,实现数据 挖掘:加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。 但是,无论怎样,需求牵引,市场驱动是永恒的,d m 将首先满足信息时代用户的急需, 大量基于d m 的决策支持软件工具产品将会问世。 1 7 本文的主要研究内容 本文主要阐述了数据挖掘中关联规则的挖掘的原理、主要问题与已有的解决方 案,并着重对其中的关键技术和解决方法和改进算法进行了讨论。 本文首先针对在不同类型的数据库中挖掘关联规则遇到的问题,阐述了各种关 联规则的挖掘算法,并分析了各种算法的优缺点,着重研究了在关系型数据库中发 现关联规则的算法,然后在此基础上实现了在关系数库中多维、多值关联规则挖掘 引挚,最后,对研究工作进行了总结,并说明了今后研究的课题。 第二:章挖掘靛联瀵赠靛麓本联论 第二章:挖掘关联规测静基零罐论 2 。l 关联规则的弓l 出 关联巍则擒灏就是发现大羹数据中颁集之闻鸯趣静关联或稽关联系。随着大爨 数攮不搏羹羹教繁和存储,诲多久圭辩予麸德嚣j 簿数据库中挖箍关联嚣l 蘧菇乏戆感凝趣。 疑大萤诱务事务集中发蠛有趣静关联关系,露戳帮麓诲多商务决策豹溺定,翔分类 设诗、交叉黢黪鹜购卖分掇。 关联嫒舞l 挖掘豹一令黎垄铡予是麓携簇分椽。该过稷遽遘发褒颓客羧入蓑魏耱 鏊枣瓣甭溺亵燕之阚熬联系,分攒蕨寥戆麴买弼摸。了瓣薅些麓鹣频繁戆羧臻霪弱 黩魏买,这秘关联貔发现霹戳裁劈零售巍潮定馨锩策酸。镶热,爱关联惩剿分援在 嘲一个越级枣场戆一次购物活穗中,妇爨鬏客魏哭牛奶,熊也黢罴囊苞( 葶鞋传么畿型 粒瑟毡) | ! l 冬爵戆瞧蠢多大,姨蕊帮勘零售巍毒选箨逮经镪秘安撼爨袈,这秘信感疆域 s l 露销供,如将牛奶和麟戗尽可能放近一热,掰以进一步刺激次去巍唐网时赠买 运氆巍鼹。 如果我们想象众域戆商店中可剃用的商品的集会,剃镣秘商晶商一个布尔变餐, 表示该商菇豹蠢无。每个簸子燹 j 可蹋一个帮尔翻爨表示。掰以矜辑布京穗蓬,褥鞠 反映商晶频繁关联或同时赡买的购买模式。这蟪模式可以瘸关联规则的形式表示。 铡翔,鹣饕牟翁谯趋向予潮对瑟包珂蔹鬻戳下关联甄剜焱示: m i l k = b r e a d c s u p p o r t = 2 筇,c o n f i p e n c e = 6 0 】( 2 1 ) 窥瓣韵支符溲和置信液是两个撬鬟| j 袋怒废魔黧,窀秘分掰笈浃发瑗髋鬓 j 静群翔 链餮确定佼。关联蕊鬻( 2 1 ) 熬支耨度2 意臻分橱中酌全都事务熬2 阕时瓣买牛 奶帮瑶懿,嚣嵇度6 0 弼懑昧魏买牛奶静鞭客6 0 穗魏癸甏包。必裔羁辩满踅最小支 持震阙壤帮最夺麓藩凌阂穰懿关联蔑簧才被谈梵蹙宥趣瓣。 2 2 岛关联规蒯有关的獗念 1 ) 项( i t e m ) :在弗务数攒艨中,项代表一个毒尔燮爨,我们尾i + 表示,仝嶷 l = i l ,i 2 ,i 3 ,i 4 ,i m 怒颈懿集会。设矮务捅关豹数据d 是数据事务瘴事务滟集 合,其中每个事务t 是项的集会,使褥t 谯含予l 。每一个事务窍一个标识符,称 徽t i d 。浚a 是一个顼紫,事务芎穗含a 当盈致港a 包鑫予霉。 2 ) 关联燕瓣( a s s o c i a t i o nr u l e ) :关联蕊爱g 燕形如舾 b 的蕴涵武,其中i 楚 掰鸯事褥颈靛全集,a 瞧禽予l ,8 氇毽含于i ,并且a u 转! = g : 3 ) 支持度( s u p p o r t 蕊粥a = b 在事务蒙芬串戚立,其商支持度s ,s 是蚤中 攀务惫禽a u b ( 帮a 辩b 二者) 豹疆分晓,它楚穰攀p ( a u b ) ,都s u p p o r t ( a = b ) = p ( a u b ) : 4 麓蒗度( c o n f i d e n c e ) :矮弱a = b 在事务纂釜中疑膏羲信废c ,鲡聚d 中彀 拿 第二章挖掘关联规则的基本理论 含a 的事务同时也包含b 的百分比是c ,这是条件概率p ( bla ) ,即: c o n f i d e n c e ( a = b ) = p ( bia ) : 5 ) 强关联规则( s t r o n ga s s o c i a t i o nr u l e ) :同时满足最小支持度闽值( m i n s u p ) 和最小置信度阈值( m i n c o n f ) 的规则称作强规则。 6 ) 频繁项集( f r e q u e n ti t e m s e t ) :项的集合称为项集( i t e m s e t ) 。包含k 个项 的项集称为k 一项集。项集的出现频率是包含项集的事务数,简称为项集的频率、支 持计数或计数。如果项集的出现频率大于或等于m i n s u p 与d 中事务总数的乘积, 我们就认为项集满足最小支持度m i n s u p 。如果项集满足最小支持度,则称它为频 繁项集( f r e q u e n t it e m s e t ) 。频繁k 一项集的集合通常记作l k 。 l o 第三章挖掘各种关联规则的算法分析 第三章挖掘各种关联规则的算法分析 3 1 关联规则分类与挖掘算法分类 按下面的标准,我们将关联规则分类若干种类: 根据规则中所处理的值类型:如果规则考虑的关联是项的在与不在,则它是布 尔关联规则( b o o l e a na s s o c i a t i o nr u l e ) 。购物篮分析得到的规则就是布尔关联规 则; 如果规则描述的是量化的项或属性之间的关联,则它是量化关联规则 ( q u a n t i t a t i v ea s s o c i a t i o nr u l e ) 。在这种规则中,项或属性的量化值划分为区间。 下面的规则是量化关联规则的一个例子其中:x 是代表顾客的变量。 a g e ( x ,“3 0 3 9 ”) “i n c o m e ( x ,“4 2 k 4 8 k ”) = b u y ( x ,“l c dc o m p u t e r ) 其中,量化属性a g e 和i n c o m e 已离散化。 根据规则中涉及的数据维:如果关联规则中的项或属性每个只涉及一个维,则 它是单维关联规则( s i n g l ed i m e n s i o n a la s s o c i a t i o nr u l e ) 。如: b u y ( x ,c o m p u t e r ”) = b u y ( x ,”f i n a n c i a l m a n a g e m e n t _ s o f t w a r e ”) 是单维关 联规则,因为它只涉及一个维b u y 。 如果规则涉及两个或多个维,则它是多维关联规则( m u l t id i m e n s i o n a l a s s o c i a t i o nr u l e ) ,如: a g e ( x ,“3 0 3 9 ”) i n c o m e ( x ,“4 2 k 4 8 k ”) = b u y ( x ,“l c d ,c o m p u t e r ) ,它 涉及三个维a g e ,i n c o m e 和b u y 。 将关系型数据库的每一个属性或数据仓库中的每一维看作一个谓词,则在关系 型数据库或数据仓库中挖掘关联规则时就会涉及多个属性或维词。当每一个属性或 维在规则中只出现一次时,则规则具有不重复谓词,这种关联规则称为维间关联规 则( i n t r a d i m e n s i o na s s o c i a t i o nr u l e ) ,如 a g e ( x ,“2 0 2 9 ”) o c c u p a t i o n ( x ,“s t u d e n t ) = b u y s ( x ,“l a p t o p ”) : 当规则中出现重复谓词时,称作混合维关联规则( h y b r i d d i m e n s i o n a s s o c i a t i o n r u l e ) ,如: a g e ( x ,“2 0 2 9 ”) b u y s ( x ,“l a p t o p ) = b u y s ( x ,“b wp r i n t e r ,) 。 i l 第三章挖掘各种关联规则的算法分析 当关系型数据库的各个属性或数据仓库的每一维的取值与对象的关系是一对一 时( 如:年龄、性别等只能取唯一值) ,则从中挖掘的关联规则一定是维问的关联规 则:当关系型数据库的各个属性或数据仓库的每一维与对象的关系是一 对多时,挖掘的关联规则可以是混合维的关联规则。 根据规则所涉及的抽象层:有些挖掘关联规则的方法可以在不同的抽象层发现 规则。例如,假定挖掘的关联规则集包含下面规则: a g e ( x ,”3 0 3 9 ) ”= b u y ( x ,”l a p t o pc o m p u t e r ”) a g e ( x ,“3 0 ,3 9 ”) = b u y ( x ,“c o m p u t e r ”) 在以上两规则中,购买的商品涉及不同的抽象层( 即“c o m p u t e r ”在比“l a p t o p c o m p u t e r ”更高的抽象层) ,我们称所挖掘的规则集由多层关联规则( m u l t i l e v e l a s s o c i a t i o nr u l e ) 组成。反之,如果在给定的规则集中,规则不涉及不同抽象层 的项或属性,则该集合包含单层关联规则( s i n g l e - l e v e la s s o c i a t i o nr u l e ) 。 根据关联挖掘的各种扩充:关联控制可以扩充到相关分析,那里可以识别项是 否相关,还可以扩充到挖掘最大模式( 即最大的频繁模式) 和频繁闭项集。最大模式 是频繁模式p ,使得p 的任何真超模式都不是频繁的。频繁闭项集是一个频繁的闭 的项集,其中项集c 是闭的,如果不存在c 的真超集c ,使得每个包含c 的事务也 包含c 。使用最大模式和频繁闭项集可以显著地压缩挖掘所产生的频繁项集数。 根据关联规则的分类,挖掘算法也进行了分类。 层布尔关 关联规则挖掘算法 、 布尔关联规则算法 第三章挖掘各种关联规则的算法分析 3 2 挖掘关联规则的步骤 由大型数据库挖掘关联规则是一个两步的过程: 1 ) 找出所有频繁项集:根据定义,这些项集出现的频繁性至少和预定义的最小 支持计数一样。 2 ) 由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最 小置信度。 也可以使用附加的兴趣度度量。这两步中,第二步最容易。挖掘关联规则的总 体性能由第一步决定。在以下的讨论中将只讨论第一步算法。 3 3 挖掘单维、布尔关联规则的算法分析 在事务数据库中通常挖掘布尔关联规则。事务数据库记录发生的事务,当事务 数据库的结构为:一个唯一的事务标识号t i d ,一个组成事务的项的列表,其中的 项只考虑其有无,即其取值范围宽度是2 ,这样每一个事务是布尔向量,则能够挖 掘的关联规则是单维的、布尔关联规则。这是关联规则中最简单、最经典的形式, 其算法是其它关联规则挖掘算法的基础。 3 3 1 挖掘单维、布尔关联规则的最常用的经典算法: a p r i o r i 算法 对于单维、单层、布尔关联规则的最常用的经典算法是a p r i o r i 算法,其他类 型的关联规则算法通常是在一定约束条件下的a p r i o r i 算法的变形。 a p r r o r i 算法使用频繁项性质的先验知识,逐层搜索迭代,用k 一项集产生( k + 1 ) 一项集。 a p r r o r i 算法的一个显著特点是:利用a p r i o r i 性质,压缩了频繁项集,提高 了算法的效率。 a p r i o r i 性质定理:频繁项集的所有非空子集都必须也是频繁的。根据定义如 果项集i 不满足最小支持度阈值,则i 不是频繁的,即p ( i ) ( m i n s u p ,如果项a 添加到i ,则结果项集( 即i u a ) 不可能比i 更频繁出现。因此,i u a 也不是频繁的, 即p ( i u a ) ( m i n s u p 。 第三章挖掘各种关联规则的算法分析 a p r i o r i 算法采用了连接和剪枝两步:( 1 ) 连接步:为找k ,通过l 。与自己连 接产生侯选k 一项集的候选集合,该候选项集的集合记作c 。记号l j j 表示l 。的第j 项。假定事务或项集中的项按字典次序排序,如果 l ; 1 = l 。 1 l 。 2 = l 。 2 “l 。 3 = l 。 3 l 。 4 = l : 4 “l 。 k 一2 = l 。 k 2 “l 1 k - 1 ( l 2 k 一1 ,则l 。与l 。是可连接的,连接产生的结果项集是l 。 1 l 2 l 3 l 。 k - 1 l 。 k 一1 。( 2 ) 剪枝步:c 。是l k 的超集:它的成员可以是频繁的,也可以是 不频繁的,但所有的频繁k 一项集都包含在c 。中。扫描数据库,确定c 。中每个候选的 计数,从而确定l 。( 即根据定义,计数值不小于最小支持度计数的所有候选是频繁 的,从而属于l k ) 。在压缩c 。,时,应用了a p r i o r i 性质,即任何非频繁的k l 项集 都不可能是频繁k 项集的子集。因此,如果一个候选k 项集的k 一1 项子集不属于k , 则该候选项也不可能是频繁的,从c 。中删除。 以下给出a p r o r i r 算法和它的相关过程的伪代码。a p r o r i 的第一步找出频繁卜 项集的集合l 。,在第2 一1 0 步,l 。用于产生侯选c 。,以找出l 。a p r i o r i g e n 过程产 生候选,然后使用a p r o r i 性质删除那些具有非频繁子集的候选。一旦产生了所有的 候选,就扫描数据库,对于每个事务,使用s u b s e t 函数找出事务中是候选的所有子 集,并对每个这样的候选累加计数。最后所有满足最小支持度的候选形成频繁项集 l 。然后调用一个过程,由频繁项产生关联规则。 算法:a p r o r i ( 使用根据候选生成的逐层迭代找出频繁项集) 输入:事务数据库d ;最小支持度阈值m i n - s u p 输出;d 中的频繁项集l 。; 方法: 1 ) l 1 = f i n d f r e q u e n t 一1 一i t e m s e t s ( d ) ;遍历数据库d ,产生频繁一项 集: 2 ) f o r ( k = 2 ;l 。! = o ,k + + ) ( 3 ) c k 2 a p r o r i g e n ( l k - l ,m i n s u p ) ;a p r o r i - g e n 产生侯选 4 )f o re a c ht r a n s a c t i o nt d ( s c a ndf o rc o u n t s 5 ) c t = s u b s e t ( c x ,t ) ;g e tt h es u b s e t so ftt h a ta r ec a n d i d a t e s : 6 )f o re a c hc a n d i d a t ec c 。 7 ) c c o u n t + + : 8 ) ) 9 ) l k = c c k l c c o u n t m i n - s u p 第三章挖掘各种关联规则的算法分析 1 0 ) i i ) r e t u r nl = uk l k p r o c e d u r ea p r i o r i g e n ( l h :f r e q u e n t ( k - i ) 一i t e m s e t s ;m i n s u p :m i n i m u m s u p p o r tt h r e s h o l d ) 2 )f o re a c hi t e m s e tl 2 l i 3 )i f ( l 1 1 = l 2 1 ) “( l i 2 = l 2 1 2 ) ( l 1 k - 2 = l 2 k - 2 ) ( l 1 k - 1 b ) = p ( a lb ) = s u p p o r t c o u n t ( a u b ) s u p p o r t c o u n t ( a ) 其中,s u p p o r t c o u n t ( a u b ) 是包含项集a u b 的事务数,s u p p o r t c o u n t ( a ) 是包含项集a 的事务数。 根据该式,由频繁项集产生强关联规则算法如下: 对于每个频繁项集l ,产生l 的所有非空子集: 对于i 的每个非l 的非空子集s ,如果c o n f i d e n c e m i n c o n f ,则输出规则 “s = ( l - s ) ”。其中m i n c o n f 是最小置信度阈值。 由于规则由频繁项集产生,每个规则都自动满足最小支持度。频繁项集连同它 们的支持度预先存放在散列表中,使得它们可以快速被访问。 对于经典的a p r i o r i 算法,人们提出了一些提高原算法效率的几种思路,其中 较为成熟的变形列举如下: ( 1 ) 基于散列的技术( 散列项集计数) :一种基于散列的技术可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论