数据挖掘概念、技术-关联1_第1页
数据挖掘概念、技术-关联1_第2页
数据挖掘概念、技术-关联1_第3页
数据挖掘概念、技术-关联1_第4页
数据挖掘概念、技术-关联1_第5页
已阅读5页,还剩31页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘: 概念和技术 Chapter 6 翟素兰2001-11-61数据挖掘:概念和技术第6章:从大数据库中挖掘关联规则关联规则挖掘从交易数据库中挖掘一维的布尔形关联规则从交易数据库中挖掘多层次关联规则在交易数据库和数据仓库中挖掘多维关联规则从关联挖掘到相关性分析基于约束的关联挖掘小结2001-11-62数据挖掘:概念和技术什么是关联挖掘?关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用:购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等。举例: 规则形式: “Body H

2、ead support, confidence”.buys(x, “diapers”) buys(x, “beers”) 0.5%, 60%major(x, “CS”) takes(x, “DB”) grade(x, “A”) 1%, 75%2001-11-63数据挖掘:概念和技术关联规则:基本概念给定: (1)交易数据库 (2)每笔交易是:一个项目列表 (消费者一次购买活动中购买的商品)查找: 所有描述一个项目集合与其他项目集合相关性的规则E.g., 98% of people who purchase tires and auto accessories also get automoti

3、ve services done应用* 护理用品 (商店应该怎样提高护理用品的销售?)家用电器 * (其他商品的库存有什么影响?)在产品直销中使用附加邮寄Detecting “ping-pong”ing of patients, faulty “collisions”2001-11-64数据挖掘:概念和技术规则度量:支持度与可信度查找所有的规则 X & Y Z 具有最小支持度和可信度支持度, s, 一次交易中包含X 、 Y 、 Z的可能性可信度, c, 包含X 、 Y的交易中也包含Z的条件概率设最小支持度为50%, 最小可信度为 50%, 则可得到A C (50%, 66.6%)C A (50

4、%, 100%)买尿布的客户二者都买的客户买啤酒的客户2001-11-65数据挖掘:概念和技术布尔 vs. 定量 关联 (基于 处理数据的类型)buys(x, “SQLServer”) buys(x, “DMBook”) buys(x, “DBMiner”) 0.2%, 60%age(x, “30.39”) income(x, “42.48K”) buys(x, “PC”) 1%, 75%单维 vs. 多维 关联 (例子同上)单层 vs. 多层 分析那个品种牌子的啤酒与那个牌子的尿布有关系?各种扩展相关性、因果分析关联并不一定意味着相关或因果最大模式和闭合相集添加约束如, 哪些“小东西”的销售

5、促发了“大家伙”的买卖?2001-11-66数据挖掘:概念和技术第6章:从大数据库中挖掘关联规则关联规则挖掘从交易数据库中挖掘一维的布尔形关联规则从交易数据库中挖掘多层次关联规则在交易数据库和数据仓库中挖掘多维关联规则从关联挖掘到相关性分析基于约束的关联挖掘小结2001-11-67数据挖掘:概念和技术关联规则挖掘一个例子对于 A C:support = support(A 、C) = 50%confidence = support(A 、C)/support(A) = 66.6%Apriori的基本思想:频繁项集的任何子集也一定是频繁的最小值尺度 50%最小可信度 50%2001-11-68数

6、据挖掘:概念和技术关键步骤:挖掘频繁集频繁集:是指满足最小支持度的项目集合频繁集的子集也一定是频繁的如, 如果AB 是频繁集,则 A B 也一定是频繁集从1到k(k-频繁集)递归查找频繁集用得到的频繁集生成关联规则2001-11-69数据挖掘:概念和技术Apriori算法连接: 用 Lk-1自连接得到Ck修剪: 一个k-项集,如果他的一个k-1项集(他的子集 )不是频繁的,那他本身也不可能是频繁的。伪代码:Ck: Candidate itemset of size kLk : frequent itemset of size kL1 = frequent items;for (k = 1; L

7、k !=; k+) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support endreturn k Lk;2001-11-610数据挖掘:概念和技术Apriori算法 例子数据库 D扫描 DC1L1L2C2C2扫描 DC3L3扫描 D2001-11-611数据挖掘:概念和技术如何生成候选集假定 Lk-1 中的项按顺序排列第一步: 自连接 Lk-1 insert into Ckselect p.item1, p.item2, , p.itemk-1, q.itemk-1from Lk-1 p, Lk-1 qwhere p.i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论