序列模式挖掘.ppt

上传人：y*** IP属地：广东上传时间：2020-01-14 格式：PPT 页数：21 大小：607KB 积分：20 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

知识背景序列模式是神马 1 顾客购买产品X 很可能在一段时间内购买购买产品Y 时间序列模型 2 在某个点发现了现象X 很可能在下一个点发现现象Y 空间序列模型知识背景序列模型VS关联规则关联规则序列模型序列模型关联规则时间空间维度知识背景序列模型VS时间序列模型时间序列模型序列模型序列模型一系列研究对象在某段时间内的行为模式分析如顾客购买序列模式的发现时间序列模型一个特定对象变量在某段时间内的变化趋势具有时间自相关性如股票分析知识框架 1 1概念定性序列模式挖掘是挖掘频繁出现的有序事件或子序列定量给定一个正整数min sup 表示最小支持度阈值如果序列在序列数据库S中存在support S min sup 则序列是频繁序列也叫做序列模式 1 2 定义序列将与对象A有关的所有事务按时间戳增序排序就得到对象A的一个序列s 事务序列是事务的有序列表可以记作s 项事务e是一个项集可以记作e x1 x2 x3 xn 当只有1项时直接记作x1 序列包含的项的数量记作序列的长度长度为L的序列记作L序列序列数据库包含一个或多个序列数据的数据集子序列设序列序列 ai和bi都是元素如果存在整数1 j1 j2 jn m 使得a1 bj1 a2 bj2 an bjn则称序列为序列的子序列又称序列包含序列记为包含3个序列 S1 S2 S3 假设有S4 S1包含3个事务 8个项长度即为8 成为8序列 S2以及S3都为S1的子序列 S4则不是S1的子序列 2 1GSP算法和SPADE算法算法介绍属于类Apriori算法基于原理序列模式的每个非空子集都是序列模式基于候选产生测试模式进行挖掘主要步骤 1 扫描序列数据库得到长度为1的序列模式L1 作为初始的种子集 2 根据长度为i的种子集Li 通过连接操作和修剪操作生成长度为i 1的候选序列模式Ci 1 然后扫描序列数据库计算每个候选序列模式的支持度产生长度为i 1的序列模式Li 1 并将Li 1作为新的种子集 3 重复第二步直到没有新的序列模式或新的候选序列模式产生为止 L1 C2 L2 C3 L3 C4 L4 2 1GSP算法和SPADE算法连接操作如果去掉序列模式S1的第一个项与去掉序列模式S2的最后一个项所得到的序列相同则可以将S1于S2进行连接即将S2的最后一个项目添加到S1中其中 1 若S2的最后两个项本来属于同一个事务则合并后与S1序列的最后一个项合并为同一个同一个事务 2 否则 S2最后一项则单独成为一个事务剪切阶段若某候选序列模式的某个子序列不是序列模式则此候选序列模式不可能是序列模式将它从候选序列模式中删除频繁3序列候选产生候选剪枝 2 1GSP算法和SPADE算法 GSPVSSPADE 区别在于数据库中存储数据的结构不一样因此扫描数据库的效率不一样 2 1GSP算法和SPADE算法如果序列数据库的规模比较大则有可能会产生大量的候选序列模式需要对序列数据库进行循环扫描对于序列模式的长度比较长的情况由于其对应的短的序列模式规模太大本算法很难处理类Apriori算法存在的问题 2 2PrefixSpan算法算法介绍基于FP增长算法采用分治的思想不断产生序列数据库的多个更小的投影数据库然后在各个投影数据库上进行序列模式挖掘前缀与后缀假定序列S 则序列等都是S的前缀 S关于的后缀为 S关于的后缀为 S关于的后缀为 2 2PrefixSpan算法投影数据库设为序列数据库S中的一个序列模式则的投影数据库为S中所有以为前缀的序列相对于的后缀记为S 例序列模式的投影数据库为 2 2PrefixSpan算法主要步骤 1 得到长度为1的序列模型 2 划分搜索空间 3 找出序列模式的子集 a 找出序列数据库D关于的投影数据库 b 扫描投影数据库得到局部频繁项 c 递归过程 4 汇集 S S1 Sm S11 S1n Sm1 Smp 2 2PrefixSpan算法 1 1序列模型为 4次 4次 4次 3次 3次 3次 2 划分搜索空间根据 1 中的结果划分前缀为的子集前缀为的子集前缀为的子集等 2 2PrefixSpan算法 3 找出序列模型的子集 a 建立的投影数据库 b 扫描上述投影数据库找出局部频繁项分别为 c 递归地寻找以为前缀的序列模型 4 汇总以上挖掘的序列模型子集 2 2PrefixSpan算法 PrefixSpan算法分析 PrefixSpan算法不需要产生候选序列模式从而大大缩减了检索空间相对于原始的序列数据库而言投影数据库的规模不断减小PrefixSpan算法的主要开销在于投影数据库的构造 3 1多维多层次的序列模式挖掘购买数码相机的退休顾客很可能在一个月内购买彩色打印机购买笔记本的年轻人很可能在两周内购买打印机这些例子的序列模式挖掘都是多维多层次的多维体现在年轻人与老人多层次体现在彩色打印机与打印机 3 2基于约束的序列模式挖掘 1 序列的长度例顾客在1周内购买的商品序列 2 序列间事务的最大间隔例用户的Web页面浏

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

序列模式挖掘.ppt

文档简介

温馨提示

最新文档

评论

序列模式挖掘.ppt

文档简介

温馨提示

最新文档

评论

相关文档