序列模式挖掘_第1页
序列模式挖掘_第2页
序列模式挖掘_第3页
序列模式挖掘_第4页
序列模式挖掘_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、知识背景:序列模式是神马吗? 1 .顾客购买产品x,在有会儿之间购买产品y的可能性高(时间序列模型)2.在某一点发现现象x,在下一点发现现象y的可能性高(空间序列模型),知识背景:序列模型vs关联规则,关联规则,序列模型,序列模型=。 知识背景:序列模型vs时间序列模型、时间序列模型、序列模型、序列模型:一系列研究对象时间序列模型:具有股票分析等时间自相关性性的特定对象(变量)在一定期间内的变化趋势、知识信息帧工作:1.1概念、 定性:序列模式挖掘是挖掘频繁出现的有序上通告或子序列的定量:给出表示最小支持度阈值的正整数min_sup。 如果序列数据库s中存在support(s)()min_su

2、p,则序列是频繁的序列,也称为序列模式。1.2 :定义、序列:将对象a的所有事务按时间斯坦共和国顺序排序,得到对象a的序列s的事务:序列是事务的有序列表,s=; 项:事务e是一个项集,可以标记为e=(x1,x2,x3,xn ),只有一个项时可以原样标记为x1。 序列数据库:包含一个或多个序列数据的数据定径套子序列:序列=,序列=,ai和bi为元素,其中该序列中包含的项的数量以该序列的长度、长度l的序列为l序列。 在存在整数1=j1 j2 jn=m的情况下,a1 bj1,a2 bj2,an bjn也被称为系列的子系列,并且也被称为系列包含系列。 的双曲馀弦值。 假设s1=s2=s3=(s4=),

3、其中s1是三个事务、八个项目、长度是八个,即八个序列。 s2和s3都是s1子序列。 s4是s1的子序列,2.1 gsp算法和spade算法,算法介绍:属于apriori类算法,根据原理化学基“序列模式的每个非空子定径套序列模式”,根据“候选生成-测试”模式进行挖掘。 主要步骤: 1,通过连接操作和剪出操作,从2 .长度为i的种子定径套li产生长度为i 1的候选序列模式ci 1,其中序列数据库被扫描,并且长度为1的序列模式l1作为初始种子定径套。 然后,扫描序列数据库,补正各候补序列模式的支持度,生成长度为i 1的序列模式li 1,将li 1作为新的种子定径套。 3 .重复第二步骤,直到不能生成

4、新的序列模式或新的候选序列模式,如果删除了l1c2l2c3l3c4l4、2.1gsp算法和spade算法、连接操作:序列模式s1的第一个和序列模式s2的最后一个的序列相同,就把s1连接到s2 在此,(1)如果s2中的最后两个项目本来属于相同事务,则在合并之后与s1序列中的最后两个项目合并为相同事务(2),否则s2中的最后两个项目独立地为一个事务。 切割阶段:如果候选系列模式的子系列不是系列模式,则该候选系列模式将从候选系列模式中删除,而不是从系列模式中删除。频繁出现3系列:候选生成:候选剪枝:2.1 gsp算法和spade算法、gspvsspade,由于数据库中存储的数据的结构不同,所以扫描数

5、据库的效率不同。 2.1 gsp算法和spade算法在序列数据库的规模比较大时,有可能发生需要对序列数据库进行循环扫描的序列模式的长度比较长的情况,由于与其对应的短的序列模式的规模过大,本算法难以处理, 介绍类apriori算法有问题的算法:基于fp增长算法采用分散的思想不断生成序列数据库的多个更小的心理投射数据库,然后在各个心理投射数据库中挖掘序列模式,假定前缀和后缀:序列s=,序列,等等关于s的后缀是关于s的后缀是关于2.2 prefixspan算法,心理投射数据库:系列数据库s中的一个系列模式,则的心理投射数据库是s中前缀的系列相对的后缀,记为s|例:系列模式2.2 prefixspan

6、算法,其为主要步骤: (2)划分搜索空间;(3)找到序列模式的子定径套;(a )找到与序列数据库d相关的心理投射数据库s1,sm,s11,s1n,sm1,smp,2.2前缀区域算法, (1)1序列模型是:4 (2)搜索空间的分割: (1)基于结果来分割前缀子定径套的前缀为的子定径套前缀为的子定径套,等等2.2 prefixspan算法;(3)找到序列模型的子定径套: (a )创建的心理投射数据库(b ) 2.2 prefixspan算法,prefixspan算法分析,它扫描上述心理投射数据库,在局部发现频繁项,分别查找以:(c )递归、为前缀的系列模型(4)以上挖掘的序列模型的子定径套; prefixspan算法不需要生成候选序列模式,因此相对于检索空间大幅缩小的原始序列数据库,正在缩小心理投射数据库规模的prefixspan算法的主要开销是:心理投射数据库的结构、3.1多维、 多阶段系列的“购买电子数码的退休人员在一个月内很可能购买彩色打印机”“购买笔记本的后生子在两周内很可能购买打印机”等系列模式挖掘是多维多阶段的。 多维度在“后生子”和“老人”中体现的多阶段是“彩色打印机”和“打印机”,3.2基于制约的系列模式挖掘,1 .系列的长度示例:顾客在一周内购买的商品系列2 .序列间事务的最大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论