基于Apriori性质的多维关联规则数据挖掘.ppt_第1页
基于Apriori性质的多维关联规则数据挖掘.ppt_第2页
基于Apriori性质的多维关联规则数据挖掘.ppt_第3页
基于Apriori性质的多维关联规则数据挖掘.ppt_第4页
基于Apriori性质的多维关联规则数据挖掘.ppt_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于Apriori性质的多维关联规则数据挖掘,由王磊报道,背景知识,关联规则和Apriori算法。数据挖掘是从大量记录的数据中提取的一种有价值的、有趣的知识,它是预先隐藏的、未知的有用信息。所提取的知识通常可以表示为概念、规则、正则表达式、规则、规则、规则、规则、规则、规则、规则、规则、规则、规则、规则、规则、规则、规则、规则、规则、规则、规则、规则关联规则是数据挖掘中的主要方法之一,它侧重于确定数据中不同字段之间的联系,并找出满足给定支持度和可信度阈值的多个字段之间的依赖关系。例如:在销售手机的商店中,70%涉及手机的交易包括充电器,56%的交易包括两种商品。因此,该规则表示为手机充电器(7

2、0%置信,56%支持),关联规则的基本概念是一组项目,任务相关数据d是一组数据库事务,其中每个事务t都是一组项目,因此每个事务都有一个标识符TID,而a是一组项目,事务t包含一个当且仅当。关联规则是一个蕴涵公式,其中规则建立在支持度为S、置信度为C的事务D中,满足最小支持度阈值和最小置信度阈值的规则成为强规则。项目的集合称为项目集,包含k个项目的集合称为k个项目集。如果一个项集满足最小支持度,则称之为频繁项集。挖掘关联规则是一个两步的过程:1 .找出所有的频繁项集。从频繁项集生成强关联规则。根据定义,这些规则必须满足最低限度的支持和信任。Apriori算法,Apriori算法是最有影响的关联规

3、则挖掘算法之一。它的核心思想是扫描事务数据库,找出所有支持度不低于最小支持度的项目,即频繁1项集。接下来的工作是循环的,每个循环分为两个步骤来连接:1)连接频繁k项目集中的项目。2)割分支:在剪枝步骤中,根据频繁项集的任何子集都应该是频繁的思想过滤连通项集,删除子集不频繁的项集,得到候选(k-1)项集,即扫描数据库,计算候选项的支持度,从候选集中删除支持度小于最小支持度的候选项。此外,还得到了频繁(k-1)项集。循环的终止条件是频繁的k项集是空的,这意味着再也找不到相关的项。例如,Apriori算法,Apriori属性,所有非空子集的频繁项集也是频繁的。例如,如果A B是一个频繁项集,AB也必

4、须是一个频繁项集,加权关联规则挖掘,传统的关联规则挖掘算法通常认为在数据库中,但是,在实践中,经常会出现这样的情况:用户对每一项的重视程度不同,有些项是用户最重视和关心的,而有些项是用户很少关心的,因此有必要引入权重的概念。加权关联规则的描述,让它成为一个项的集合,并且每个项都有一个与之对应的权重。它们的权重是w1,w2,wk(wid 0,1)。预先将最小加权支持阈值指定为wminsup和最小置信阈值minconf。对于项目集X,如果wsup(X)不匹配,那么X经常被加权。X-Y形式的关联规则的加权支持度是置信度的定义仍然遵循Apriori算法的定义,即conf(X-Y)=sup(X-Y)/s

5、up(X)。加权关联规则的描述。对于项集X,Y,X,Y=,如果存在wsup(X,Y)wmin up和conf(X Y)minconf,则XY是加权关联规则。权重设置、加权支持度(1)、平均值(2)、归一化(3)、最大值(3)、思想(1)在不考虑项目权重的情况下,使用传统的Apriori算法找出所有支持度不小于最小加权支持度的频繁项目集。由于项目集的权重小于1,项目集的加权支持度必须小于支持度,因此生成的频繁集必须是加权频繁集的超集。(2)计算生成的频繁项集中所有项集的加权支持度,删除加权支持度小于最小加权支持度的项集,得到所有加权频繁集。(3)使用加权频繁集生成所有加权关联规则。Apriori

6、算法的核心是利用频繁(k-1)项集生成候选频繁k-项集,并利用数据库扫描和模式匹配计算候选集的支持度。Apriori的瓶颈:候选集生成巨大的候选集: 104频繁1项集生成107个候选2项集要找到大小为100的频繁模式,如a1,a2,a100,必须先生成2100 1030个候选集并扫描数据库几次:如果最长的模式是n,则需要(n 1)次数据库扫描来提高Apriori的效率。事务压缩:不包含任何频繁k项集的事务,也不可能包含任何大于k的频繁集。基于分区:如果一个项集在整个数据库中是频繁的,那么它必须至少在数据库中被分区。采样:挖掘给定数据的子集,并使用小支持完整性验证方法来计数动态项目集:在添加一个

7、新的候选集之前,首先估计它的所有子集是否都是频繁的。基于哈希表的算法,未来工作,加权关联规则挖掘算法研究,项目属性加权后Apriori性质不再适用,如何优化算法。参考文献,1由范明、孟晓峰等翻译。数据挖掘:概念和技术。北京:机械工业出版社,2001。关联规则挖掘的快速算法。在1994年第:期特大型数据库的建立中。圣地亚哥,智利: VLDB捐赠,1994年3月,487499,胡和平,鲁。挖掘加权关联规则。微型计算机系统,2001,22 (3) : 347375。四月,张文显,卢剑江。加权布尔关联规则的研究。计算机工程,2003,29 (9) : 5557。许云涛。基于Apriori算法的水平加权关联规则挖掘。计算机工程与应用,2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论