SPADE算法介绍

上传人：j*** IP属地：广东上传时间：2020-02-12 格式：PPT 页数：26 大小：2.05MB 积分：25 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

SPADE算法汇报姓名专业 SPADE算法 GSP算法问题由来随着迅速增长的数据信息人们受到信息爆炸的巨大压力的同时又陷入数据太多知识太少的窘境数据挖掘技术的产生与发展为人们摆脱这种困境提供了强有力的手段数据挖掘数据挖掘 DataMining 简称DM 又称为数据库中的知识发现 KnowledgeDiscoveryDatabase 简称KDD 指从大型数据库或数据仓库中提取隐舍的未知的非平凡的及有潜在应用价值的信息或者模式模式是指从生产经验和生活经验中经过抽象和升华提炼出来的核心知识体系模式 Pattern 其实就是解决某一类问题的方法论挖掘模式 SPADE GSP 分类模式序列模式关联模式 Apriori系列算法聚类模式关联模式挖掘模式算法序列模式挖掘是挖掘频繁出现的有序事件或子序列序列模式首先找出所有的频繁集这些项集出现的频繁性至少和预定义的最小支持度一样然后由频集产生强关联规则这些规则必须满足最小支持度和最小置信度支持度序列出现次数总序列数置信度序列出现次数特定子序列出现次数例 9个月以前购买奔腾PC的客户很可能在一个月内订购新的CPU芯片 SPADE算法的来历 MohammedJ SPADE AnEfficientAlgorithmforMiningFrequentSequences J MachineLearning 2001 42 31 60 MohammedJ针对Apriori算法需要多次扫描数据库和采用哈希树作为主要存储结构的缺点提出了SPADE算法主要思想利用组合性质将原始问题分解为能够在主内存中解决的子问题采用了基于序列格的搜索技术和简单的连接操作格的定义设 L 是偏序集若L中任意两个元素都存在上确界以及下确界则称 L 是格 lattice 为了方便这样的格称为偏序格格一种特殊的偏序集所考虑的元素之间具有某种顺序主要特色采用垂直ID list数据库格式将序列与它发生所在的对象和时间戳清单进行关联采用序列格方法将原始搜索空间格分解为较小的块子格子格能够独立的进行处理将问题分解与搜索模式分开在每个子格中都提供深度和广度搜索两种策略来枚举频繁序列问题说明序列 sequence 将与对象A有关的所有事务按时间戳增序排序就得到对象A的一个序列s 序列包含的项的数量记作序列的长度事件 event 序列是事务的有序列表可以记作s 项 item 事件e是一个项集可以记作e i1 i2 i3 in 序列数据库包含一个或多个序列数据的数据集子序列设序列序列 ai和bi都是元素如果存在整数1 j1 j2 jn m 使得a1 bj1 a2 bj2 an bjn则称序列为序列的子序列又称序列包含序列记为示例包含3个序列 S1 S2 S3 S1包含3个事件 8个项长度即为8 成为8序列 S2以及S3都为S1的子序列算法结构主要模块 1 频繁序列对数据库中每一项的ID list进行读取存入内存水平数据库向垂直数据库的转换扫描垂直数据库一边存入内存为遇到的每个新对象增加支持度水平垂直数据库区别在于数据库中存储数据的结构不一样因此扫描数据库的效率不一样主要特色水平数据存储格式 GSP 垂直数据存储格式主要模块垂直数据库向水平数据库转换主要模块产生k 序列候选集当前k 1频繁序列构成了k序列的原子项通过k 1序列之间的连接操作产生k序列候选集规则事件原子项 PB PD 进行连接得到PBD 事件与序列 PB P A 进行连接得到PB A 事件与事件 P A P F 进行连接得到P AF P A F P F A 主要模块计算k序列支持度只需将2个k 1序列的ID list进行简单的连接操作检查其基数随着序列变大 ID list将不断缩小进而越来越快主要模块 k 频繁序列伪代码实现频繁序列的枚举剪枝操作任一频繁项集的所有非空子集也必须是频繁的反之如果某个候选的非空子集不是频繁的那么该候选肯定不是频繁的过滤候选项集减少工作量频繁3序列候选产生候选剪枝 GSP算法由k 1项生成k项序列进行剪枝操作再遍历数据库计算支持度产生候选集首先每项加入频繁k 1序列然后进行修剪删除至少有一个子集不是频繁序列的k序列为了快速计数候选集存储在hash树中选择频繁序列遍历hash树计算支持度垂直存储结构基于格理论的连接操作 SPADE GSP 水平存储结构基于哈希树的遍历操作 GSP SPADE 采用ID list的简单连接操作序列越长处理速度越快没有采用哈希树等因此具有很好的局域性随着支持度阀值降低序列长度变长优势将更加明显采用哈希树存储序列信息不用遍历数据库加快了处理速度但是需要多次对数据库进行扫描缺陷候选集过多数据挖掘序列分析应用科学研究天文学基因工程社会发展规律人类行为规律解决社会问题市场行销数据库行销分析新用户购买的可能性货篮分析识别顾客的购买行为模式欺诈甄别总结正常行为和诈骗行为的关系产品制造控制参数和产品质量之间的关系通信网络管理警告之间的先后关系记录定位和预测故障网络应用网络信息挖掘 Web用户访问模式 MohammedJ SPADE AnEfficientAlgorithmforMiningFrequentSequences J MachineLearning 2001 42 31 60 陈黎序列挖掘算法研究 D 重庆大学 2001 Srikant R andAgrawal R Miningsequentialpatterns Gener

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

SPADE算法介绍

文档简介

温馨提示

最新文档

评论

SPADE算法介绍

文档简介

温馨提示

最新文档

评论

相关文档