数据挖掘技术大型数据库中的关联规则_第1页
数据挖掘技术大型数据库中的关联规则_第2页
数据挖掘技术大型数据库中的关联规则_第3页
数据挖掘技术大型数据库中的关联规则_第4页
数据挖掘技术大型数据库中的关联规则_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.第五章在大型数据库中挖掘关联规则;2.当自然界发生一些事情时,其他的事情也会发生,这叫做联想。反映事件之间依赖或关联的知识称为关联知识(也称为依赖)。关联分析的目的是发现给定数据记录集中数据项之间的隐藏关联,并描述数据之间的紧密程度。关联分析有两种结果:关联规则和序列模式。关联规则用于发现同一事件中出现的不同项目的相关性;序列模式是相似的,但它寻求事件之间的时间相关性。4。关联规则发现的主要对象是事务数据库。交易通常包括交易处理时间、客户购买的一组物品,有时还包括客户识别号(如信用卡号)。关联规则:是一个知识模型,它描述了事务中项目之间同时出现的规则。更准确地说,关联规则通过量化的数字来描

2、述项目X的出现对项目Y的出现有多大的影响。关联规则,5,以零售业为例,体育用品商店通常会发现这些数据往往隐含着以下规则:“70%购买篮球运动服装的顾客同时购买篮球运动服装,40%的交易同时购买篮球和篮球运动服装”等等。这些规则是关联规则。关联规则,6,关联规则度量-置信度,定义:交易数据集D中规则XY的置信度是关联规则准确性的度量。衡量关联规则的强度。也就是说,y出现在x出现的所有活动中的频率,也就是说,xy规则是多么不可避免。注:置信度(xy)计算方法:包括x和y的交易数与包括x的交易数之比:置信度(xy)=p (y x),7。关联规则度量-支持度,定义:事务数据集d中规则xy的支持度是关联

3、规则重要性的度量,反映了关联是否是一个通用规则,表明该规则存在于所有事务中。也就是说,在所有交易中同时出现x和y的频率被记录为:support(XY).计算方法:同时包含X和Y的事务数与事务数据集中所有事务的比率:支持(xy)=p (x y),8。最小置信度阈值和最小支持度阈值同时满足最小置信度阈值和最小支持度阈值的关联规则是一种强关联规则,具有一定的意义和价值。关联规则度量,9,定义:由关联规则挖掘的事务数据集被记录为d(一般事务数据库),d=t1,T2,Tk,TN,tk (k=1,2,n)被称为事务,每个事务都有唯一的标识符,并被记录为TID。元素im (m=1,2,p)称为项目。让I=i

4、1,i2,im是由d和TkI.中的所有项组成的集合。项的集合称为项集。假设x是I中的一组项目,如果是XTk,那么事务Tk包含项目集x。包含k个项目的项目集称为k-项目集。项目集出现的频率是包含项目集的事务的数量。如果项目集满足最小支持度,它们被称为频繁项目集。关联规则的形式定义,10,关联规则的形式定义,挖掘关联规则是一个两步过程:找出所有频繁项集并从频繁项集生成强关联规则,11,挖掘关联规则:一个路线图,布尔与定量关联(基于已处理数据的类型)购买(x,“SQL Server”)购买(x,“DMBook”)购买(x,“DBMiner”)0.2%,60%年龄(x,“30.39”)收入(x),42

5、.48K”)购买(x,“电脑”)1%,75%一维与多维关联(基于规则中涉及的数据维度)单层与多层分析(基于规则集中涉及的抽象层)各种扩展,12,关联规则挖掘-例如,对于A C:支持=支持(a,C)=50%置信度=支持(A,C )/支持(a)=66.6%,Apriori的基本思想是3366的任何子集13.Apriori算法中,连接:使用Lk-1自连接来获得Ck修剪:的k-项集。如果他的一个k-1项目集(他的子集)不频繁,它不可能频繁。伪代码:ck:候选项集k lk :频繁项集k L1=频繁项;对于(k=1;路克。=;k)开始Ck 1=从Lk生成的候选项;对于数据库中的每个事务t,增加Ck 1中所

6、有候选项的计数,这些候选项包含在t lk1=CK 1中的候选项中,具有min_support end返回k lk;14,Apriori算法-例如,数据库D,扫描D,C1,L1,L2,C2,C2,扫描D,C3,L3,扫描D,15,如何生成候选集,假设lk-1中的项目按顺序排列,第一步是3360自连接Lk-1插入到CK选择p. P.item2,p.itemk-1,q.itemk-1从lk-1 p,lk-1 q,其中p.item1=q.item1,p.itemk-1在层之间使用统一支持度的优点是最小支持阈值。如果一个项目集的父项目集没有最小支持度,那么它本身就不可能满足最小支持度。缺点:基础项目不会

7、成为频繁集合。如果支持度太高,底层关联规则将会丢失,并且会生成太多高级关联规则。随着级别的降低,支持度将会降低。有四种搜索策略:逐层独立层交叉单过滤层交叉K项集过滤控制层交叉单过滤,32,支持不变,支持不变多层挖掘,计算机支持=10%,笔记本电脑支持=6%,台式计算机支持=4%,第1层min_sup=5%,第2层min_sup=5%,33,支持减少:逐层独立,支持减少,多层挖掘:没有背景知识的频繁项集进行修剪,笔记本电脑台式计算机支持=4%,第1层min_sup=5%,第2层min _ sup=3%,计算机支持=10%,34层,支持递减,层交叉单过滤,支持递减,多层挖掘:如果一个节点是频繁的,

8、否则,它的后代将被搜索剪除。膝上型计算机(未调查)、台式计算机(未调查)、第1层min_sup=12%、第2层min _ sup=3%、计算机支持=10%、35、33、360层(支持减少)、交叉k-项目集过滤和多层挖掘(支持减少):第1层的k-项目集、膝上型计算机和黑白打印机支持=1%、台式计算机和黑白打印机支持=1%、第1层min_sup=5%、第2层min_sup=2%、计算机和笔记本电脑和彩色打印机支持=2%、台式电脑和彩色打印机支持=3%、36、拒绝支持:受控层交叉单项过滤、拒绝支持多层挖掘:如果满足层转移阈值,则允许检查不满足最小支持阈值的儿童。笔记本电脑支持=6%,台式电脑支持=4

9、%,第1层1分钟_秒=12%级别_通道_秒=8%,第2层2分钟_秒=3%,计算机支持=10%,37,多层关联:冗余过滤,由于”。示例台式计算机黑白打印机支持=8%,置信度=70% IBM台式计算机黑白打印机支持=2%,置信度=72%我们说第一个规则是第二个规则的祖先,如果它的支持类似于我们的“预期”支持,我们会说这个规则是多余的。,38,多维关联规则:概念,单维规则:购买(x,“牛奶”)购买(x,“面包”)多维规则:两个以上维度/谓词之间的关联规则(维度词不重复)年龄(x,“19-25”)职业(x,“学生”)“可乐”)混合维度关联规则(重复维度词)年龄(x,“19-25”)购买(x,“罂粟”)

10、购买(x,“可乐”)具有有限数量的分类属性(也称为名义属性),并且这些值之间没有顺序关系。量化属性值意味着值之间的顺序关系,39这种结构有时会产生一些错误的结果。例如:假设一家体育用品零售商调查了10000名顾客购买的商品,结果是6000名顾客购买篮球,7500名顾客购买足球,4000名顾客购买篮球和足球。假设最小支持度为30%,最小置信度为60%,可以得到以下关联规则:篮球足球(支持度=40%,置信度为66%)实际上是错误的,因为购买足球的比例为75%,甚至超过66%。事实上,购买篮球和足球之间存在负相关。规则A=B的可信度在某种程度上具有欺骗性。它只是给定的条件概率的一个估计值,并不度量A

11、和B之间隐含的实际强度,40,从相关性分析到相关性分析,根据相关性分析,挖掘数据项之间有趣的联系。Corr a,b=p (ab)/p (a) p (b)=1:项集a和b是独立的。项目集A和B是正相关的。克拉,b=p (ab)/p (a) p (b) burgers”,给定最小支持阈值25%和最小置信阈值50%,这个关联规则强吗?根据给定的数据,买热狗是否独立于买汉堡包?如果没有,它们之间的相关性是什么?42,基于约束的挖掘,使用约束的必要性在数据挖掘中经常使用几个约束:知识类型约束:指定要挖掘的知识类型,例如关联规则数据约束:指定与任务相关的数据集查找1998年12月在温哥华一起销售的产品对。

12、维度/级别约束:指定与地区、价格、品牌、客户类别相关的级别。规则约束:指定要挖掘的规则表单(如规则模板)的单价(价格$200)。兴趣约束:指定规则兴趣阈值或统计度量,如(最小支持3%,最小置信度60%)。43岁。元规则指导关联规则的挖掘。元规则使用户能够解释他们感兴趣的规则的语法形式。元规则可以根据分析师对数据的经验、期望或直觉,或者根据数据库模式自动生成。例如,p1 (x,y) p2 (x,w)购买(x,“软件”),44,具有附加规则的约束导向挖掘,假设等位电子产品的销售多维数据库具有以下关系:销售(客户名称,项目名称,交易id)生活(客户名称,地区,城市)项目(项目名称,类别,价格)交易(交易id,日期,月,年),45,具有附加规则的约束导向挖掘,“找出哪种廉价商品可以在1999年为温哥华的客户促进这种销售。”(1)将关联挖掘为(2)lives(c,_,vancouver)sales(c,i,s)=销售(c,J,T) (3)来自销售(4),其中s . year=1999t . year=1999 I . category=j . category(5)按c分组,I

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论