FP树、FPGrowth算法PPT课件

上传人：优*** IP属地：广东上传时间：2020-04-20 格式：PPTX 页数：15 大小：132.80KB 积分：35 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

FP树FP Growth算法 1 FP Growth算法 AProiri算法需要产生大量候选项集而且需要多次扫描数据库然后通过模式匹配检查一个很大的候选集合在挖掘长模式时算法性能退化很快 Hna提出了一种频繁模式增长算法 FP Growth 不产生候选集而直接产生全部频繁项集 FP Growth算法采用了分而治之策略首先将提供频繁项集的数据库压缩成一棵频繁模式树 FP 该树仍保留项集关联信息然后将这种压缩后的数据库划分成一组条件数据库每个数据库关联一个频繁项并分别挖掘每个条件数据库 2 FP Growth算法先举一个例子数据库中有9个事务即 D 9 如表1 1所示事务中的项按字典次次序存放表1 1有9个交易的数据库使用FP Growth算法挖掘频繁模式 3 FP树构造首先扫描事务数据库一次产生频繁项集并得到它们的支持度计数同时为了方便后期的查询创建一个表头使得每个表项通过一个节点链指向它在树中的出现初始时为空表头称为频繁项表头频繁项的表头按支持度计数的递减顺序排序频繁项的集记为L 即L I2 7 I1 6 I3 6 I4 2 I5 2 频繁项表头表项域信息item name域记录了该节点所代表的项的名字 count support域记录相应节点链中项的总的计数即该项的支持度 node 1ink域记录了指向Fp树中具与该表项相同item name域的第一个节点 4 FP树构造然后 FP 树构造如下 1 创建树的根节点用 null 标记 2 第二次扫描数据库每个事务中的项按L中的次序处理处理后的数据库见表1 2 并对每个事务创建一个分枝若节点或分枝已经存在则共享节点或分枝同时将共享前缀上的每个结点的计数加1 为前缀之后的项创建结点和链接若不存在则以根结点为父结点将该事务中的项按L中的次序依次插入扫描所有的事务之后得到的树如图1 1所示表1 2处理后的数据库 5 此后数据库频繁模式挖掘问题转化为挖掘FP 树问题图1 1FP树FP树结点域信息item name域记录了该节点所代表的项的名字count域记录了从根到此节点的部分包含的项集的计数child link和parent link域分别指向孩子和父节点node link域指向下一个具有同样的item name域的节点要是没有这样一个节点就为null 6 前缀路径集后缀路径集前缀子森林以节点N为树根的子树T包含此节点和它所有的子女定义1 2 项l1 l2 lk k 1 I1 I2 Ik 是子树T的前缀路径若每个Ij 1 J k 1 出现在从根到子树的根节点N的路径中 T称为具有前缀 I1 I2 Ik 的一棵前缀子树 I1 I2 Ik 是其前缀 T或者N称为路径 I1 I2 Ik 的后缀项集或者后缀模式定义1 2 具有相同前缀 I1 I2 Ik 的所有前缀子树表示为PSF I1 I2 Ik 作具有前缀 I1 I2 Ik 的一个前缀子森林 7 FP 树挖掘过程如下由长度为1的频繁模式开始构造它的条件模式基由FP 树中与后缀模式一起出现的前缀路径集组成代表此频繁模式的投影库然后构造它的条件FP 树并递归地在该树上进行挖掘模式增长通过后缀模式与由条件FP 树产生的频繁模式连接实现 FP 树的挖掘是至底向上进行的总结在表2 1中 I5是L中的最后一个项首先考虑I5 图1 2与I5相关的条件FP树图1 2与I5相关的条件FP树 8 表2 1通过创建条件模式基挖掘FP树的结果 9 FP树结构的优点完整性保留了频繁模式挖掘的完整信息不会破坏任何一个事务的长模式紧致性减少非相关信息非频繁项被丢弃1项集按频率降序排列不会比原始数据库大 10 FP Growth算法的优点分治策略根据当前已获得的频繁模式分解挖掘任务和DB搜索更小的数据库其它因素无需产生候选从而测试候选项压缩的数据库 FP tree结构无需重复扫描整个数据库基本操作统计局部频繁项建立子FP tree 无需模式搜索和匹配 11 FP Growth算法评估 FP Growth算法开辟了有效挖掘频繁模式的新途径然而它的时间和空间效率还不足够高仍需进一步改进 FP Growth算法的主要问题是 1 在挖掘频繁模式时它需要递归地生成条件FP 树并且每产生一个频繁模式就要生成一个条件FP 树 2 在支持度阀值较小时即使对于很小的数据库也将产生数以十万计的频繁模式动态的生成和释放数以十万计的条件FP 树将耗费大量时间和空间 3 此外 FP 树和条件FP 树需要自顶向下生成而频繁模式的挖掘需要自底向上处理由于递归地生成条件FP 树因此FP 树和条件FP 树必须双向可遍历这样 FP 树和条件FP 树的节点中就需要更多的指针从而需要更大的内存空间来维护FP 树和条件FP 树 12 FP 树的改进法一引入哈希表提高查询频繁项表的时间其中哈希函数f key 中的key为项的支持度计数表项域信息减少item name 频繁项表头表项域信息 13 算法改进对于FP树的挖掘选择置顶向下的顺序在原FP树基础上进行搜索与挖掘这样就不需要生成条件FP树由于不需要遍历结点的父结点故树的结点中不需要parent link域在时间和空间上面可以优化算法我们以例1 1进行说明 14 算法改进对项I5 我们得到长度为1的项集 I5 由于在FP 树中的项都是频繁的在以后的讨论中将忽略频繁一项集对项I4 建PSF I4 因为项I5在相对于项I4下的支持计数为0 故 I4 I5 是非频繁的对项I3 建PSF I3 项I4 I5在相对于项I3下的计数为0 故I4 I5与I3的组合都是非频繁的不需要再考虑对项I1 建PSF I1 项I3 I4 I5在相对于项I1下的计数分别是4 1 2 故 I1 I3 I1 I5 是频繁模式由于项集 I1 I4 是非频繁的故没有必要进一步挖掘建PSF I1 I3 由于在 I1 I3 下项I5的支持计数是1 小于最小支持度阀值不需要继续挖掘对项I2 建PSF I2 项I2相对于项I1 I3 I4 I5

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

FP树、FPGrowth算法PPT课件

文档简介

温馨提示

最新文档

评论

FP树、FPGrowth算法PPT课件

文档简介

温馨提示

最新文档

评论

相关文档