




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/7/28,数据挖掘:概念和技术,1,第5章:挖掘频繁模式、关联和相关,5.1 基本概念和路线图 5.2 有效的和可伸缩的频繁项集挖掘方法 5.3 挖掘各种类型的关联规则 5.4 由关联挖掘到相关性分析 5.5 基于约束的关联挖掘 5.6 小结,2020/7/28,数据挖掘:概念和技术,2,什么是关联挖掘?,关联规则挖掘: 在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。 应用: 购物篮分析、交叉销售、产品目录设计、赔本销售分析(loss-leader analysis)、聚集、分类等。 举例: 规则形式: “Body Hea
2、d support, confidence”. buys(x, “diapers”) buys(x, “beers”) 0.5%, 60% major(x, “CS”) takes(x, “DB”) grade(x, “A”) 1%, 75%,2020/7/28,数据挖掘:概念和技术,3,关联规则:基本概念,给定: (1)交易数据库 (2)每笔交易是:一个项目列表 (消费者一次购买活动中购买的商品) 查找: 所有描述一个项目集合与其他项目集合相关性的规则 E.g., 98% of people who purchase tires and auto accessories also get a
3、utomotive services done 应用 * 护理用品 (商店应该怎样提高护理用品的销售?) 家用电器 * (其他商品的库存有什么影响?) 在产品直销中使用附加邮寄,2020/7/28,数据挖掘:概念和技术,4,规则度量:支持度与可信度,查找所有的规则 X for (k = 2; Lk-1 !=; k+) do begin Ck = candidates generated from Lk-1; for each transaction t in database do increment the count of all candidates in Ck that are con
4、tained in t Lk = candidates in Ck with min_support end return k Lk;,2020/7/28,数据挖掘:概念和技术,10,Apriori算法 例子,数据库 D,扫描 D,C1,L1,L2,C2,C2,扫描 D,C3,L3,扫描 D,2020/7/28,数据挖掘:概念和技术,11,如何生成候选集,假定 Lk-1 中的项按顺序排列 第一步: 自连接 Lk-1 insert into Ck select p.item1, p.item2, , p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p
5、.item1=q.item1, , p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1 第二步: 修剪 For all itemsets c in Ck do For all (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck,2020/7/28,数据挖掘:概念和技术,12,计算支持度为什么会成为一个问题? 候选集的个数非常巨大 一笔交易可能包含多个候选集,2020/7/28,数据挖掘:概念和技术,13,生成候选集的例子,L3=abc, abd, acd, ace, bcd 自连接
6、 : L3*L3 abc 和 abd 得到 abcd acd 和 ace 得到 acde 修剪: ade 不在 L3中,删除 acde C4=abcd,2020/7/28,数据挖掘:概念和技术,14,提高Apriori效率的方法,1.基于Hash的项集计数: 若 k-项集在hash-tree的路径上的一个计数值低于阈值,那他本身也不可能是频繁的。(157页图6-6) 2.减少交易记录: 不包含任何频繁k-项集的交易也不可能包含任何大于k的频繁集,下一步计算时删除这些记录。 3.划分: 一个项集要想在整个数据库中是频繁的,那么他至少在数据库的一个分割上是频繁的。 两次扫描数据。(157页图6-7
7、) 4.抽样: 使用小的支持度+完整性验证方法。在小的抽样集上找到局部频繁项集,然后在全部数据集找频繁项集。 5.动态项集计数: 在添加一个新的候选集之前,先估计一下是不是他的所有子集都是频繁的。,2020/7/28,数据挖掘:概念和技术,15,Apriori 够快了吗? 性能瓶颈,Apriori算法的核心: 用频繁的(k 1)-项集生成候选的频繁 k-项集 用数据库扫描和模式匹配计算候选集的支持度 Apriori 的瓶颈: 候选集生成 巨大的候选集: 104 个频繁1-项集要生成 107 个候选 2-项集 要找尺寸为100的频繁模式,如 a1, a2, , a100, 你必须先产生2100
8、1030 个候选集 多次扫描数据库: 如果最长的模式是n的话,则需要 (n +1 ) 次数据库扫描,2020/7/28,数据挖掘:概念和技术,16,挖掘频繁集 不用生成候选集,频繁模式增长 (FP-增长)用Frequent-Pattern tree (FP-tree) 结构压缩数据库, 高度浓缩,同时对频繁集的挖掘又完备的 避免代价较高的数据库扫描 开发一种高效的基于FP-tree的频繁集挖掘算法 采用分而治之的方法学:分解数据挖掘任务为小任务 避免生成关联规则: 分别挖掘条件数据库,2020/7/28,数据挖掘:概念和技术,17,用 FP-tree挖掘频繁集,基本思想 (分而治之) 用FP-
9、tree地归增长频繁集 方法 对每个项,生成它的 条件模式库, 然后是它的 条件 FP-tree 对每个新生成的条件FP-tree,重复这个步骤 直到结果FP-tree为空, 或只含维一的一个路径 (此路径的每个子路径对应的相集都是频繁集),2020/7/28,数据挖掘:概念和技术,18,挖掘 FP-tree的主要步骤,为FP-tree中的每个节点生成条件模式库 用条件模式库构造对应的条件FP-tree 递归构造条件 FP-trees 同时增长其包含的频繁集 如果条件FP-tree直包含一个路径,则直接生成所包含的频繁集。,2020/7/28,数据挖掘:概念和技术,19,步骤1: 建立 FP-
10、tree (159页图6-8),从FP-tree的头表开始 按照每个频繁项的连接遍历 FP-tree 列出能够到达此项的所有前缀路径,得到条件模式库,步骤2:建立条件FP-tree进行挖掘(159页图6-9),对每个模式库 计算库中每个项的支持度 用模式库中的频繁项建立FP-tree,2020/7/28,数据挖掘:概念和技术,20,为什么 频繁集增长 速度快?,性能研究显示 FP-growth 比Apriori快一个数量级, 同样也比 tree-projection 快。 原因 不生成候选集,不用候选测试。 使用紧缩的数据结构 避免重复数据库扫描 基本操作是计数和建立 FP-tree 树,20
11、20/7/28,数据挖掘:概念和技术,21,FP-growth vs. Apriori: 相对于支持度的扩展性,Data set T25I20D10K,2020/7/28,数据挖掘:概念和技术,22,FP-growth vs. Tree-Projection:相对于支持度的扩展性,Data set T25I20D100K,2020/7/28,数据挖掘:概念和技术,23,关联规则结果显示 (Table Form ),2020/7/28,数据挖掘:概念和技术,24,关联规则可视化Using Plane Graph,2020/7/28,数据挖掘:概念和技术,25,关联规则可视化Using Rule
12、Graph,2020/7/28,数据挖掘:概念和技术,26,第6章:从大数据库中挖掘关联规则,6.1 关联规则挖掘 6.2由事务数据库挖掘单维布尔关联规则 6.3由事务数据库挖掘多层关联规则 6.4由关系数据库和数据仓库挖掘多维关联规则 6.5由关联挖掘到相关性分析 6.6基于约束的关联挖掘 6.7小结,2020/7/28,数据挖掘:概念和技术,27,多层关联规则,项通常具有层次 底层的项通常支持度也低 某些特定层的规则可能更有意义 交易数据库可以按照维或层编码 可以进行共享的多维挖掘,2020/7/28,数据挖掘:概念和技术,28,挖掘多层关联规则,自上而下,深度优先的方法: 先找高层的“强
13、”规则: 牛奶 面包 20%, 60%. 再找他们底层的“弱”规则: 酸奶 黄面包 6%, 50%. 多层关联规则的变种 1 支持度不变: 在各层之间使用统一的支持度(164页图6-12) + 一个最小支持度阈值. 如果一个项集的父项集不具有最小支持度,那他本身也不可能满足最小支持度。 底层项不会成为频繁集,如果支持度 太高 丢失底层关联规则 太低 生成太多的高层关联规则 2 支持度递减: 随着层次的降低支持度递减(164页图6-13),2020/7/28,数据挖掘:概念和技术,29,多层关联规则: 支持度不变 vs. 支持度递减,3层次交叉单项过滤: (165页图6-14) 4层次交叉K-项
14、过滤: (165页图6-15) 4种搜索策略: 层与层独立 用k-项集跨层过滤 用项跨层过滤 用项进行可控跨层过滤,2020/7/28,数据挖掘:概念和技术,30,支持度不变,支持度不变多层挖掘,牛奶 support = 10%,酸奶 support = 6%,脱脂奶 support = 4%,层 1 min_sup = 5%,层 2 min_sup = 5%,2020/7/28,数据挖掘:概念和技术,31,支持度递减,支持度递减多层挖掘,酸奶 support = 6%,脱脂奶 support = 4%,层 1 min_sup = 5%,层 2 min_sup = 3%,牛奶 support
15、= 10%,2020/7/28,数据挖掘:概念和技术,32,多层关联:冗余过滤,由于“祖先”关系的原因,有些规则可能是多余的。 例子 奶制品 白面包 support = 8%, confidence = 70% 酸奶 白面包 support = 2%, confidence = 72% 酸奶占奶制品25% 我们称第一个规则是第二个规则的祖先 参考规则的祖先,如果他的支持度与我们“预期”的支持度近似的话,我们就说这条规则是冗余的。,2020/7/28,数据挖掘:概念和技术,33,数据挖掘查询的逐步精化,为什么要逐步精化 挖掘操作的代价可能高或低,结果可能过细致或粗糙 在速度和质量之间折衷:逐步精
16、化 超集覆盖特征: 预存储所有正面答案允许进一步正确性验证,而不必验证已经错误的 2或多步挖掘: 先执行粗糙的、容易的操作 (超集覆盖) 然后在减少后的候选集上进行计算量大的算法 (Koperski S是S的子模式(subpattern)且S 是S的超模式(superpattern),if 有S=S.,2020/7/28,数据挖掘:概念和技术,49,约束的有关概念(续),定义约束: C是作用于项目集I的幂集(powerset)上的谓词,C(S)=True/False; 满意模式集(satisfying pattern set) SATc(I)是指那些完全满足约束C的项目集的全体 将约束条件用于
17、频繁集的查询无非是找出那些满足C的频繁集,2020/7/28,数据挖掘:概念和技术,50,单调和反单调的规则约束,规则 Ca 是 反单调的(anti-monotone) iff 对于任给的不满足Ca的项集(模式) S, 不存在S的超集能够满足 Ca e.g: Ca : min(S)=v , v是S的一个项集 约束Cm 是单调的iff.对于任给的满足Cm的项集(模式) S, 每一个S的超集都能够满足 Cm e.g: Cm : min(S)=v, v是S的一个项集,第九章 数据挖掘的应用和发展趋势,9.1 复杂数据对象的多维分析和描述性挖掘 9.2 空间数据挖掘 9.3 多媒体数据挖掘 9.4 时
18、序数据和序列数据的挖掘 9.5 文本数据库挖掘 9.6 Web挖掘,数据挖掘:概念和技术,9.1 复杂数据对象的多维分析和描述性挖掘,结构化数据的概化 空间和多媒体数据概化中的聚集和近似计算 对象标识符和类/子类层次的概化 类复合层次的概化 对象立方体的构造与挖掘 用分而治之方法对规划数据库进行基于概化的挖掘,数据挖掘:概念和技术,9.2 空间数据挖掘,空间数据立方体构造和空间OLAP 空间关联分析 空间聚类方法 空间分类和空间趋势分析 光栅数据库挖掘,数据挖掘:概念和技术,9.3 多媒体数据挖掘,多媒体数据的相似性搜索 基于颜色直方图的特征标识;多特征构成的特征标识;基于小波的特征标识;带有
19、区域粒度的小波特征表识 多媒体数据的多维分析 多媒体数据的分类和预测分析 多媒体数据中的关联规则挖掘,数据挖掘:概念和技术,9.4 时序数据和序列数据的挖掘,趋势分析 长期或趋势变化;循环变动或循环变化; 季节性变动或季节性变化;非规则或随机变化 时序分析中的相似搜索 序列模式挖掘 周期分析 挖掘全周期模式;挖掘部分周期模式; 挖掘循环或周期关联规则。,数据挖掘:概念和技术,9.5 文本数据库挖掘,文本数据分析和信息检索 研究大量文本文档的信息组织和检索 基本度量:查准率;查全率。 文本挖掘:基于关键字的关联和文档分类,数据挖掘:概念和技术,9.6 Web挖掘,挖掘Web链接结构,识别权威We
20、b页面 Web文档的自动分类 多层Web信息库的构造 Web使用记录的挖掘,第十章 数据挖掘的应用和发展趋势,10.1 数据挖掘的应用 10.2 数据挖掘系统产品和研究原型 10.3 数据挖掘的其他主题 10.4 数据挖掘的社会影响 10.5 数据挖掘的发展趋势,数据挖掘:概念和技术,10.1 数据挖掘的应用,针对生物医学和DNA数据分析的数据挖掘 针对金融数据分析的数据挖掘 零售业中的数据挖掘 电信业中的数据挖掘,数据挖掘:概念和技术,10.2 数据挖掘系统产品和研究原型,怎样选择一个数据挖掘系统 数据类型;系统问题;数据源;数据挖掘的功能和方法;数据挖掘系统和数据仓库系统的结合;可伸缩性;
21、可视化工具;数据挖掘查询语言和图形用户接口。 商用数据挖掘系统的例子 Intelligent Miner: IBM Enterprise Miner :SAS; MineSet SGI; Clementine SPSS; DBMiner DBMiner Technology,数据挖掘:概念和技术,10.3 数据挖掘的其他主题,可视化数据挖掘 数据可视化;数据挖掘结果可视化;数据挖掘过程可视化;交互式的数据挖掘 视频和音频数据挖掘 科学和统计数据挖掘 数据挖掘的理论基础 数据挖掘和智能查询应答 例10.1,数据挖掘:概念和技术,10.4 数据挖掘的社会影响,数据挖掘是宣传出来的还是持久的稳定增长
22、的商业 数据挖掘只是经理的事还是每个人的事 数据挖掘对隐私或数据安全构成威胁么?,数据挖掘:概念和技术,10.5 数据挖掘的发展趋势,应用的探索 可伸缩的数据挖掘方法 数据挖掘与数据库系统、数据仓库系统和WEB数据库系统的集成 数据挖掘语言的标准化 可视化数据挖掘 复杂数据类型挖掘的新方法 WEB挖掘 数据挖掘中的隐私保护与数据信息安全,Chapter 8. 聚类分析,什么是聚类分析? 聚类分析中的数据类型 主要聚类分析方法分类 划分方法(Partitioning Methods) 分层方法 基于密度的方法 基于表格的方法 基于模型(Model-Based)的聚类方法 异常分析 总结,划分方法
23、: 基本概念,划分方法: 将一个包含n个数据对象的数据库组织成k个划分(k=n),其中每个划分代表一个簇(Cluster)。 给定一个k,要构造出k个簇,并满足采用的划分准则: 全局最优:尽可能的列举所有的划分; 启发式方法: k-平均和k-中心点算法 k-平均 (MacQueen67):由簇的中心来代表簇; k-中心点或 PAM (Partition around medoids) (Kaufman & Rousseeuw87): 每个簇由簇中的某个数据对象来代表。,K-平均算法,给定k,算法的处理流程如下: 1.随机的把所有对象分配到k个非空的簇中; 2.计算每个簇的平均值,并用该平均值代
24、表相应的簇; 3.将每个对象根据其与各个簇中心的距离,重新分配到与它最近的簇中; 4.回到第二步,直到不再有新的分配发生。,K-平均算法,例子,K-平均算法,优点 相对高效的: 算法复杂度O(tkn), 其中n 是数据对象的个数, k 是簇的个数, t是迭代的次数,通常k, t n. 算法通常终止于局部最优解; 缺点 只有当平均值有意义的情况下才能使用,对于类别字段不适用; 必须事先给定要生成的簇的个数; 对“噪声”和异常数据敏感; 不能发现非凸面形状的数据。,K-平均算法的变种,一些变种在下面几个方面有所不同: 初始k个平均值的选择; 相异度的计算; 计算簇的平均值的策略; 处理种类字段:
25、k-模算法 (Huang98) 用模来替代平均值; 用新的相异度计算方法来处理类别字段; 用基于频率的方法来修改簇的模; k-原型算法:综合k-平均和k-模算法,能同时处理类别字段和数值字段。,K-中心点算法,找出簇中位置最中心的对象,即中心点来代表簇 PAM (Partitioning Around Medoids, 1987) 设定一个中心点的初始集合,然后反复的用非中心点对象来替代中心点对象,以改进聚类的质量; PAM 算法在大数据集上效率较低,没有良好的可伸缩性; CLARA (Kaufmann & Rousseeuw, 1990) CLARANS (Ng & Han, 1994):
26、Randomized sampling,PAM (Partitioning Around Medoids) (1987),PAM (Kaufman and Rousseeuw, 1987) 用真实的数据对象来代表簇 随机选择k个对象作为初始的中心点; Repeat 对每一个由非中心对象h 和中心对象 i, 计算i被h替代的总代价 Tcih 对每一个有h和I组成的对象对 If TCih 0, i 被 h替换 然后将每一个非中心点对象根据与中心点的距离分配给离它最近的中心点 Until不发生变化。,PAM Clustering: Total swapping cost TCih=jCjih,CLA
27、RA (Clustering Large Applications) (1990),CLARA (Kaufmann and Rousseeuw in 1990) 该算法首先获得数据集的多个采样,然后在每个采样上使用PAM算法,最后返回最好的聚类结果作为输出。 优点: 能够处理大数据集。 缺点: 效率依赖于采样的大小; 如果样本发生偏斜,基于样本的一个好的聚类不一定代表得了整个数据集合的一个好的聚类;,CLARANS (“Randomized” CLARA) (1994),CLARANS (A Clustering Algorithm based on Randomized Search) (N
28、g and Han94) CLARANS 在搜索的每一步动态的抽取一个样本; 聚类过程可以被描述为对一个图的搜索,图中的每个节点是一个潜在的解,即k个中心点的集合;在替换 了一个中心点后的结果被称为当前结果的邻居。 如果找到了一个局部最优,算法从随即选择的节点开始寻找新的局部最优; 比PAM 和 CLARA更有效和有更好的伸缩性; 采用聚焦技术和空间数据结构等能进一步提高性能(Ester et al.95),Chapter 8. Cluster Analysis,什么是聚类分析? 聚类分析中的数据类型 主要聚类分析方法分类 划分方法(Partitioning Methods) 分层方法 基于密
29、度的方法 基于表格的方法 基于模型(Model-Based)的聚类方法 异常分析 总结,层次方法,采用距离作为衡量聚类的标准。该方法不在需要指定聚类的个数,但用户可以指定希望得到的簇的数目作为一个结束条件。,AGNES (Agglomerative Nesting),由 Kaufmann 和 Rousseeuw 提出;(1990) 使用单链接方法和差异度矩阵; 合并那些具有最小差异度的节点; Go on in a non-descending fashion 最后所有的对象合并形成一个簇。,A Dendrogram Shows How the Clusters are Merged Hiera
30、rchically,Decompose data objects into a several levels of nested partitioning (tree of clusters), called a dendrogram. A clustering of the data objects is obtained by cutting the dendrogram at the desired level, then each connected component forms a cluster.,DIANA (Divisive Analysis),由 Kaufmann 和 Ro
31、usseeuw 提出(1990) AGNES算法的逆过程; 最终每个新的簇只包含一个对象;,More on Hierarchical Clustering Methods,层次方法的主要缺点: 没有良好的伸缩性: 时间复杂度至少是 O(n2) 一旦一个合并或分裂被执行,就不能修复; 综合层次聚类和其它的聚类技术: BIRCH (1996): uses CF-tree and incrementally adjusts the quality of sub-clusters CURE (1998): selects well-scattered points from the cluster a
32、nd then shrinks them towards the center of the cluster by a specified fraction CHAMELEON (1999): hierarchical clustering using dynamic modeling,BIRCH (1996),Birch: Balanced Iterative Reducing and Clustering using Hierarchies, by Zhang, Ramakrishnan, Livny (SIGMOD96) 增量的构造一个CF树 Phase 1: 扫描数据库,建立一个初始存
33、放于内存的CF树,它可以被看作数据的多层压缩,试图保留数据内在的聚类结构; Phase 2: 采用某个聚类算法对CF树的叶子节点进行聚类; 可伸缩性: 数据集合的单边扫描产生了一个基本的聚类,额外的扫描可以进一步的改进聚类的质量。 缺点: 只能处理数值型数据;对于非球状的簇不能很好的工作。,Clustering Feature Vector,CF = (5, (16,30),(54,190),(3,4) (2,6) (4,5) (4,7) (3,8),CF Tree,CF1,child1,CF3,child3,CF2,child2,CF5,child5,CF1,CF2,CF6,prev,next,CF1,CF2,CF4,prev,next,B = 7 L = 6,Root,No
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 技术培训推动教师职业发展的重要动力
- 智慧教育大数据驱动的教学效率变革
- 探索不同国家在线教育平台的创新实践
- 教育中的心理学技巧激发学生潜能的实践
- 民办教育的规范化发展及其政策支持
- 济宁医学院《医学科研方法与论文撰写1》2023-2024学年第一学期期末试卷
- 湖南中医药高等专科学校《素描基础II》2023-2024学年第一学期期末试卷
- 2024-2025学年安徽省砀山县化学九年级第一学期期末联考模拟试题含解析
- 北京联合大学《WEB应用与工程开发》2023-2024学年第一学期期末试卷
- 2024年河南省信阳固始县联考七年级数学第一学期期末学业质量监测试题含解析
- (正式版)JBT 3300-2024 平衡重式叉车 整机试验方法
- 《无人机航迹规划》课程标准(高职)
- 团体心理咨询的主要理论专家讲座
- 养老院健康档案模板
- 骨盆骨折中医护理常规
- mil-std-1916抽样标准(中文版)
- 大学学院“十四五”师资队伍建设规划(2021-2025)
- 锂电池行业MES应用解决方案
- TCHALPA 0004-2023 民用无人机应急救援应用专业操控员合格证考试点管理办法
- 2023-2024苏教版七年级数学上册期末试卷
- 英国和美国社区居家安宁疗护服务模式及其对我国的启示
评论
0/150
提交评论