序列模式挖掘算法

上传人：真*** IP属地：江苏上传时间：2023-11-28 格式：PPTX 页数：93 大小：376.80KB 积分：6 举报 版权申诉

已阅读5页，还剩88页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2023/11/281第4章序列模式挖掘算法2023最新整理收集do

something2023/11/282主要内容序列模式挖掘简介序列模式挖掘的应用背景序列模式挖掘算法概述GSP算法PrefixSpan算法Disc-all算法支持约束的序列模式挖掘2023/11/283一、序列模式挖掘简介序列模式的概念最早是由Agrawal和Srikant提出的。动机：大型连锁超市的交易数据有一系列的用户事务数据库，每一条记录包括用户的ID，事务发生的时间和事务涉及的项目。如果能在其中挖掘涉及事务间关联关系的模式，即用户几次购买行为间的联系，可以采取更有针对性的营销措施。

2023/11/284

事务数据库实例例：一个事务数据库，一个事务代表一笔交易，一个单项代表交易的商品，单项属性中的数字记录的是商品ID2023/11/285

序列数据库一般为了方便处理，需要把数据库转化为序列数据库。方法是把用户ID相同的记录合并，有时每个事务的发生时间可以忽略，仅保持事务间的偏序关系。2023/11/286

问题定义项集(Itemset)是所有在序列数据库出现过的单项组成的集合例：对一个用户购买记录的序列数据库来说，项集包含用户购买的所有商品，一种商品就是一个单项。通常每个单项有一个唯一的ID，在数据库中记录的是单项的ID。2023/11/287

问题定义元素(Element)可表示为(x1x2…xm)，xk(1<=k<=m)为不同的单项。元素内的单项不考虑顺序关系，一般默认按照ID的字典序排列．在用户事务数据库里，一个事务就是一个元素。2023/11/288

问题定义序列(Sequence)是不同元素(Element)的有序排列，序列s可以表示为s=<s1s2…sl>，sj(1<=j<=l)为序列s的元素

一个序列包含的所有单项的个数称为序列的长度。长度为l的序列记为l-序列2023/11/289

例：一条序列<(10,20)30(40,60,70)>有3个元素，分别是（1020），30，（406070）；3个事务的发生时间是由前到后。这条序列是一个6-序列。2023/11/2810

问题定义设序列=<a1a2…an>，序列=<b1b2…bm>，ai和bi都是元素。如果存在整数1<=j1<j2<…<jn<=m，使得a1

bj1，a2

bj2，…，an

bjn，则称序列

为序列

的子序列，又称序列

包含序列

，记为

。2023/11/2811

问题定义序列

在序列数据库S中的支持度为序列数据库S中包含序列

的序列个数，记为Support()给定支持度阈值

，如果序列

在序列数据库中的支持数不低于

，则称序列

为序列模式长度为l的序列模式记为l-模式2023/11/2812

例子：设序列数据库如下图所示，并设用户指定的最小支持度min-support=2。SidSequence10<a(abc)(ac)d(cf)>20<(ad)c(bc)(ae)>30<(ef)(ab)(df)cb>40<(af)cbc>序列<a(bc)df>是序列<a(abc)(ac)d(cf)>的子序列序列<(ab)c>是长度为3的序列模式2023/11/2813序列模式VS关联规则问题序列模式挖掘关联规则挖掘数据集序列数据库事务数据库关注点单项间在同一事务内以及事务间的关系单项间在同一事务内的关系2023/11/2814二、序列模式挖掘的应用背景应用领域：客户购买行为模式预测Web访问模式预测疾病诊断自然灾害预测DNA序列分析2023/11/2815应用案例1：客户购买行为模式分析B2C电子商务网站可以根据客户购买纪录来分析客户购买行为模式，从而进行有针对性的营销策略。IDUsertransactionsequence1…………..2………………3……………………..4………………….图书交易网站将用户购物纪录整合成用户购物序列集合得到用户购物行为序列模式<(“UML语言”)(“Visio2003实用技巧”)>相关商品推荐：如果用户购买了书籍“UML语言”,则推荐“Visio2003实用技巧”2023/11/2816应用案例2：Web访问模式分析大型网站的网站地图(sitemap)往往具有复杂的拓扑结构。用户访问序列模式的挖掘有助于改进网站地图的拓扑结构。比如用户经常访问网页web1然后访问web2,而在网站地图中二者距离较远，就有必要调整网站地图，缩短它们的距离，甚至直接增加一条链接。Index网站入口web1web22023/11/2817应用案例3：疾病诊断医疗领域的专家系统可以作为疾病诊断的辅助决策手段。对应特定的疾病，众多该类病人的症状按时间顺序被记录。自动分析该纪录可以发现对应此类疾病普适的症状模式。每种疾病和对应的一系列症状模式被加入到知识库后，专家系统就可以依此来辅助人类专家进行疾病诊断。2023/11/2818应用案例3：疾病诊断例:通过分析大量曾患A类疾病的病人发病纪录，发现以下症状发生的序列模式：<(眩晕)(两天后低烧37-38度)>如果病人具有以上症状，则有可能患A类疾病2023/11/2819应用案例4：查询扩展查询扩展是搜索领域一个重要的问题。用户提交的查询往往不能完全反映其信息需求。一些研究工作尝试用用户的查询序列模式来辅助原始查询，其主要思想是：1）挖掘用户的查询序列模式2）用这些序列模式构造查询词关系图3）找到每个极大全连通图作为一个”概念”4)对于一个查询，和它同处于一个”概念”的查询可以作为查询扩展的选项2023/11/2820应用案例4：查询扩展给定一组查询模式：<(丰田)(雷诺)>,<(宝马)(丰田)>,<(丰田)(宝马)>,<(宝马)(雷诺)>,<(汽车)(丰田)>查询关系图如上图：丰田雷诺宝马汽车概念1：汽车品牌概念2：汽车2023/11/2821三、序列模式挖掘算法概述Agrawal和Srikant在提出这个问题时提出了三个算法，AprioriAll，AprioriSome和DynamicSome，它们都基于Apriori框架。构成了序列模式挖掘问题的基石。随后，这个领域的研究工作取得了大量的成果。2023/11/2822

序列模式挖掘算法概述类Apriori算法基于划分的模式生长算法基于序列比较的算法2023/11/2823

类Apriori算法该类算法基于Apriori理论，即序列模式的任一子序列也是序列模式。算法首先自底向上的根据较短的序列模式生成较长的候选序列模式，然后计算候选序列模式的支持度。典型的代表有GSP算法,spade算法等。2023/11/2824

基于划分的模式生长算法该类算法基于分治的思想，迭代的将原始数据集进行划分，减少数据规模，同时在划分的过程中动态的挖掘序列模式，并将新发现的序列模式作为新的划分元。典型的代表有FreeSpan算法和prefixSpan算法。2023/11/2825

基于序列比较的算法该类算法首先定义序列的大小度量，接着从小到大的枚举原始序列数据库中包含的所有k-序列，理论上所有的k-序列模式都能被找到。算法制定特定的规则加快这种枚举过程。典型的代表为Disc-all算法。2023/11/2826

四、GSP算法算法思想：类似于Apriori算法，采用冗余候选模式的剪除策略和特殊的数据结构-----哈希树来实现候选模式的快速访存。2023/11/2827

GSP算法描述扫描序列数据库，得到长度为1的序列模式L1，作为初始的种子集根据长度为i

的种子集Li

，通过连接操作和修剪操作生成长度为i+1的候选序列模式Ci+1；然后扫描序列数据库，计算每个候选序列模式的支持度，产生长度为i+1的序列模式Li+1，并将Li+1作为新的种子集重复第二步，直到没有新的序列模式或新的候选序列模式产生为止L1

……2023/11/2828

产生候选序列模式主要分两步：连接阶段：如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同，则可以将s1与s2进行连接，即将s2的最后一个项目添加到s1中修切阶段：若某候选序列模式的某个子序列不是序列模式，则此候选序列模式不可能是序列模式，将它从候选序列模式中删除L1

……2023/11/2829

候选序列模式的支持度计算：对于给定的候选序列模式集合C，扫描序列数据库，对于其中的每一条序列s,找出集合C中被s所包含的所有候选序列模式，并增加其支持度计数L1

……2023/11/2830

哈希树GSP采用哈希树存储候选序列模式。哈希树的节点分为三类：

1、根节点；

2、内部节点；

3、叶子节点。

2023/11/2831

哈希树根节点和内部节点中存放的是一个哈希表，每个哈希表项指向其它的节点。而叶子节点内存放的是一组候选序列模式。例：2023/11/2832

添加候选序列模式从根节点开始，用哈希函数对序列的第一个项目做映射来决定从哪个分支向下，依次在第n层对序列的第n个项目作映射来决定从哪个分支向下，直到到达一个叶子节点。将序列储存在此叶子节点。初始时所有节点都是叶子节点，当一个叶子节点所存放的序列数目达到一个阈值，它将转化为一个内部节点。

2023/11/2833

计算候选序列模式的支持度给定一个序列s是序列数据库的一个记录：

1）对于根节点，用哈希函数对序列s的每一个单项做映射来并从相应的表项向下迭代的进行操作2）。

2023/11/2834

计算候选序列模式的支持度

2）对于内部节点，如果s是通过对单项x做哈希映射来到此节点的，则对s中每一个和x在一个元素中的单项以及在x所在元素之后第一个元素的第一个单项做哈希映射，然后从相应的表项向下迭代做操作2）或3）。2023/11/2835

计算候选序列模式的支持度（3）对一个叶子节点，检查每个候选序列模式c是不是s的子序列.如果是相应的候选序列模式支持度加一。这种计算候选序列的支持度的方法避免了大量无用的扫描，对于一条序列，仅检验那些最有可能成为它子序列的候选序列模式。扫描的时间复杂度由O(n*m)降为O(n*t),其中n表示序列数量，m表示候选序列模式的数量，t代表哈希树叶子节点的最大容量2023/11/2836

例：下图演示了如何从长度为3的序列模式产生长度为4的候选序列模式SequentialpatternsWithlength3Candidate4-SequencesAfterJoinAfterPruning<(1,2)3><(1,2)(3,4)><(1,2)(3,4)><(1,2)4><(1,2)35><1(3,4)><(1,3)5><2(3,4)><235>2023/11/2837

GSP算法存在的主要问题如果序列数据库的规模比较大，则有可能会产生大量的候选序列模式需要对序列数据库进行循环扫描对于序列模式的长度比较长的情况，由于其对应的短的序列模式规模太大，本算法很难处理2023/11/2838五、PrefixSpan算法算法思想：采用分治的思想，不断产生序列数据库的多个更小的投影数据库，然后在各个投影数据库上进行序列模式挖掘2023/11/2839

相关定义前缀：设每个元素中的所有项目按照字典序排列。给定序列

=<e1e2…en>，

=<e1’e2’…em’>(m

n)，如果ei’

=ei(i

m-1)，em’

em，并且(em-em’)中的项目均在em’中项目的后面，则称

是

的前缀例：序列<(ab)>是序列<(abd)(acd)>的一个前缀；序列<(ad)>则不是。2023/11/2840

相关定义给定两条l-序列

和

,如果>

，那么下列条件必满足其一：

1）,

的第m项

>的第m项且

与

在其第m项之前的部分完全相同

2）,

的第m项=的第m项但

的第m项和第m-1项不在同一元素中而

的第m项则相反，并且

与

在其第m项之前的部分完全相同2023/11/2862

例：<(a,b)c>小于<acb>因为条件1),<(a,b)c>小于<abb>

因为条件2).定义序列的大小关系只是为了给序列排序，这种大小度量是相对的，没有真正的物理意义2023/11/2863

相关定义一条l-序列序列所有长度为k的子序列（1kl)中最小的一条叫做这条序列的k-最小序列.给定k-序列c为条件序列，一条l-序列序列所有大于c的长度为k的子序列（1kl)中最小的一条叫做这条序列的k-条件最小序列.2023/11/2864Disc-all算法概述该算法首先划分数据库，然后在划分数据库上执行迭代的执行Disc策略，即基于序列比较的序列模式枚举过程：首先通过适当的枚举找到所有的k-序列模式，然后根据k-序列模式找到所有的k+1序列模式。2023/11/2865

数据库划分Disc-all算法对原始序列数据库进行两层划分：一层划分：首先找到所有的频繁单项并删除所有的非频繁单项，然后进行一级划分，即对于每个频繁单项i，找到所有包含它的序列组成i划分。二层划分：找到所有的2-序列模式并删除所有的非频繁2-序列，然后进行二级划分，即对于每个2-序列模式，找到所有包含它的序列。2023/11/2866

SidSequence10<a(abc)(ac)d(cf)>20<(ad)c(bc)(ae)>30<(ef)(ab)(df)cb>40<(af)cbc>例：对如下数据库进行两层划分，给定最小支持度2，首先找到所有的频繁单项：a,b,c,d,e,f2023/11/2867

生成一层划分数据库下面给出了每个频繁单项的一层划分数据库：频繁单项划分数据库a<a(abc)(ac)d(cf)><(ad)c(bc)(ae)><(ef)(ab)(df)cb><(af)cbc>b<a(abc)(ac)d(cf)><(ad)c(bc)(ae)><(ef)(ab)(df)cb><(af)cbc>c<a(abc)(ac)d(cf)><(ad)c(bc)(ae)><(ef)(ab)(df)cb><(af)cbc>d<a(abc)(ac)d(cf)><(ad)c(bc)(ae)><(ef)(ab)(df)cb>e<(ad)c(bc)(ae)><(ef)(ab)(df)cb>f<a(abc)(ac)d(cf)><(ef)(ab)(df)cb><(af)cbc>2023/11/2868

在a-划分数据库里找到所有第一项为a的2-序列模式：<aa><(ab)><ab><ac><ad><af>，并删除非频繁的以a开头的2-序列。删除规则为：1）如果单项i和a在同一元素内且<(ai)>是2-序列模式;2）如果单项i和a不在同一元素内且<ai>是2-序列模式;

当条件1),2)全都不满足时删除i.2023/11/2869

生成二层划分数据库下面只给出根据a-划分找到的2-序列模式及其二层划分数据库，注意所有的非频繁2-序列已经被删除。频繁单项划分数据库<aa><a(abc)(ac)d(cf)><ac(bc)a><(ab)><a(abc)(ac)d(cf)><(ab)(df)cb><ab><a(abc)(ac)d(cf)><ac(bc)a><(ab)(df)cb><acbc><ac><a(abc)(ac)d(cf)><ac(bc)a><(ab)(df)cb><acbc><ad><a(abc)(ac)d(cf)><(ab)(df)cb><af><a(abc)(ac)d(cf)><(ab)(df)cb>2023/11/2870Disc策略对于每一个划分数据库，给定一组k-序列模式集合S，Disc策略通过枚举找到所有的k+1-序列模式。枚举过程如下：1)对于每个序列s,找到s的最小的k+1-子序列s’,且s’的k前缀S，将s’加入k+1序列集，记录s’的源序列s2023/11/2871 Disc策略2)对k+1序列集排序，设最小支持度为δ，排序后第δ个序列称为条件序列。3)

如果第一个序列和条件序列相等，则输出条件序列为一个k+1-序列模式，并且将所有k+1序列替换为它们源序列的条件最小k+1-序列。否则尽可能将所有k+1序列替换为条件序列，对于源序列中不含条件序列的k+1序列则替换为条件最小k+1-序列2023/11/2872Disc策略4）重复上述步骤直到k+1序列集包含的序列数目小于δ。Disc策略迭代的根据k-序列模式集找到k+1-序列模式集，然后递增k.直到没有k+1-序列模式集为空，算法终止。Disc-all算法从从k=2时开始采用Disc策略。2023/11/2873Disc策略由于Disc-all算法是在划分数据库上采用Disc策略，对于一个<i1i2>的划分，Disc策略只寻找所有以<i1i2>为前缀的序列模式。回忆之前讨论的prefixSpan算法，可以发现在这一点上二者非常相似。都是基于前缀生长的思想。不同的是prefixSpan采用递归而Disc-all算法采用迭代。2023/11/2874

考虑前面的序列数据库，对于右侧的一个基于<ab>二层划分，仍然给定最小支持度为2，下面的例子展示了Disc策略是如何找到以3-序列模式的

SidSequence10<a(abc)(ac)d(cf)>20<ac(bc)a>30<(ab)(df)cb>40<acbc>2023/11/2875

初始化3-序列集Sid3-Sequence10<abc>40<abc>20<acb>可以看出<a(bc)>是一条3序列模式。Sid为30的序列没有产生初始3-序列因为其不包含以<ab>为前缀的3-子序列Sid3-Sequence10<a(bc)>20<a(bc)>40<abc><a(bc)>为条件序列，将所有3-序列替换为源序列的条件3-最小序列并重新排序，又发现一条3-序列模式<abc>2023/11/2876

Sid3-Sequence40<acb>20<acb>10<acd>用新的条件最小3-序列替换各3-序列并排序，3-序列数据集如右侧所示。这一次没有新的3-序列模式被发现。Sid3-Sequence10<abd>40<acb>20<acb>用新的条件序列<acb>替换各3-序列并排序，3-序列数据集如右侧所示。发现新的3-序列模式<acb>.注意Sid为10的序列不含<acb>,所以用条件最小3-序列<acd>替换。2023/11/2877

重复上面的步骤，可以发现新的3-序列模式<acc>.

这时只有Sid为10的序列含有比<acc>更大的3-序列，所以算法停止。Sid3-Sequence40<acc>20<acc>10<acd>2023/11/2878 Disc-all算法分析Disc-all算法同样不生成候选序列模式，减少了计算开销。同时采用划分技术,减少了搜索空间。应用Disc策略，解决了划分效率随划分层次增加而下降的问题。Disc-all采用的划分技术不如prefixSpan高效，而且Disc策略较为复杂耗时，算法效率往往不及prefixSpan，但在处理长序列数据集时，因为Disc策略没有迭代开销同时投影技术效率有所下降，Disc-all表现反而更好。2023/11/2879Disc-all和prefixSpan的性能比较平均序列长度为20时，Disc-all和prefixSpan的性能比较2023/11/2880Disc-all和prefixSpan的性能比较平均序列长度为80时，Disc-all和prefixSpan的性能比较2023/11/2881

用户需要的往往是满足特定条件的序列模式，而传统的序列模式挖掘没有考虑用户的特殊要求，做了大量无效的挖掘。比如对于购买记录的事务数据库，用户希望得到的序列模式事务之间的时间差不能太大。

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

序列模式挖掘算法

文档简介

温馨提示

最新文档

评论

序列模式挖掘算法

文档简介

温馨提示

最新文档

评论

相关文档