版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第4章 序列模式挖掘算法10/12/20221第4章 序列模式挖掘算法10/10/20221主要内容序列模式挖掘简介序列模式挖掘的应用背景序列模式挖掘算法概述GSP算法PrefixSpan算法Disc-all算法支持约束的序列模式挖掘10/12/20222主要内容序列模式挖掘简介10/10/20222一、序列模式挖掘简介序列模式的概念最早是由Agrawal和Srikant 提出的。动机:大型连锁超市的交易数据有一系列的用户事务数据库,每一条记录包括用户的ID,事务发生的时间和事务涉及的项目。如果能在其中挖掘涉及事务间关联关系的模式,即用户几次购买行为间的联系,可以采取更有针对性的营销措施。 1
2、0/12/20223一、序列模式挖掘简介序列模式的概念最早是由Agrawal和S 事务数据库实例例:一个事务数据库,一个事务代表一笔交易,一个单项代表交易的商品,单项属性中的数字记录的是商品ID10/12/20224 事务数据库实例例:一个事务数据库,一个事务代 序列数据库一般为了方便处理,需要把数据库转化为序列数据库。方法是把用户ID相同的记录合并,有时每个事务的发生时间可以忽略,仅保持事务间的偏序关系。10/12/20225 序列数据库一般为了方便处理,需要把数 问题定义项集(Itemset)是所有在序列数据库出现过的单项组成的集合例:对一个用户购买记录的序列数据库来说,项集包含用户购买的
3、所有商品,一种商品就是一个单项。通常每个单项有一个唯一的ID,在数据库中记录的是单项的ID。10/12/20226 问题定义10/10/20226 问题定义元素(Element)可表示为(x1x2xm), xk(1 = k = m)为不同的单项。元素内的单项不考虑顺序关系,一般默认按照ID的字典序排列在用户事务数据库里,一个事务就是一个元素。10/12/20227 问题定义10/10/20227 问题定义序列(Sequence)是不同元素(Element)的有序排列,序列s可以表示为s = ,sj(1 = j = l)为序列s的元素 一个序列包含的所有单项的个数称为序列的长度。长度为l的序列记
4、为l-序列10/12/20228 问题定义序列(Sequence)是不 例:一条序列有3个元素,分别是(10 20),30,(40 60 70 );3个事务的发生时间是由前到后。这条 序列是一个6-序列。10/12/20229 10/10/20229 问题定义设序列 = ,序列 = ,ai 和bi都是元素。如果存在整数1 = j1 j2 jn = m,使得a1 bj1,a2 bj2, an bjn,则称序列为序列的子序列,又称序列包含序列,记为 。10/12/202210 问题定义10/10/202210 问题定义序列在序列数据库S中的支持度为序列数据库S中包含序列的序列个数,记为Suppor
5、t()给定支持度阈值,如果序列在序列数据库中的支持数不低于,则称序列为序列模式长度为l的序列模式记为l-模式10/12/202211 问题定义序列在序列数据库S中的支持度 例子:设序列数据库如下图所示,并设用户指定的最小支持度min-support = 2。SidSequence10203040序列是序列的子序列序列是长度为3的序列模式10/12/202212 例子:设序列数据库如下图所示,并设用户指定的最小支持度mi序列模式 VS 关联规则 问题序列模式挖掘关联规则挖掘数据集序列数据库事务数据库关注点单项间在同一事务内以及事务间的关系单项间在同一事务内的关系10/12/202213序列模式
6、VS 关联规则 问题序列模式挖掘关二、序列模式挖掘的应用背景应用领域:客户购买行为模式预测Web访问模式预测疾病诊断自然灾害预测DNA序列分析10/12/202214二、序列模式挖掘的应用背景应用领域:10/10/202214应用案例1:客户购买行为模式分析B2C电子商务网站可以根据客户购买纪录来分析客户购买行为模式,从而进行有针对性的营销策略。IDUser transaction sequence1.23.4.图书交易网站将用户购物纪录整合成用户购物序列集合得到用户购物行为序列模式相关商品推荐:如果用户购买了书籍“UML语言”, 则推荐“Visio2019实用技巧”10/12/202215应
7、用案例1:客户购买行为模式分析B2C电子商务网站可以根据客应用案例2:Web访问模式分析大型网站的网站地图(site map)往往具有复杂的拓扑结构。用户访问序列模式的挖掘有助于改进网站地图的拓扑结构。比如用户经常访问网页web1然后访问web2,而在网站地图中二者距离较远,就有必要调整网站地图,缩短它们的距离,甚至直接增加一条链接。Index 网站入口web1web210/12/202216应用案例2:Web访问模式分析大型网站的网站地图(site 应用案例3:疾病诊断医疗领域的专家系统可以作为疾病诊断的辅助决策手段。对应特定的疾病,众多该类病人的症状按时间顺序被记录。自动分析该纪录可以发现
8、对应此类疾病普适的症状模式。每种疾病和对应的一系列症状模式被加入到知识库后,专家系统就可以依此来辅助人类专家进行疾病诊断。10/12/202217应用案例3:疾病诊断10/10/202217应用案例3:疾病诊断例: 通过分析大量曾患A类疾病的病人发病纪录,发现以下症状发生的序列模式:如果病人具有以上症状,则有可能患A类疾病10/12/202218应用案例3:疾病诊断10/10/202218应用案例4:查询扩展查询扩展是搜索领域一个重要的问题。用户提交的查询往往不能完全反映其信息需求。一些研究工作尝试用用户的查询序列模式来辅助原始查询,其主要思想是:1)挖掘用户的查询序列模式2)用这些序列模式构
9、造查询词关系图3)找到每个极大全连通图作为一个”概念”4) 对于一个查询,和它同处于一个”概念”的查询可以作为查询扩展的选项10/12/202219应用案例4:查询扩展查询扩展是搜索领域一个重要的问题。用户提应用案例4:查询扩展给定一组查询模式:, , 查询关系图如上图:丰田雷诺宝马汽车概念1:汽车品牌概念2:汽车10/12/202220应用案例4:查询扩展丰田雷诺宝马汽车概念1:汽车品牌概念2:三、序列模式挖掘算法概述Agrawal和Srikant在提出这个问题时提出了三个算法,AprioriAll , AprioriSome 和DynamicSome, 它们都基于Apriori框架。构成了
10、序列模式挖掘问题的基石。随后,这个领域 的研究工作取得了大量的成果。10/12/202221三、序列模式挖掘算法概述10/10/202221 序列模式挖掘算法概述类Apriori算法基于划分的模式生长算法基于序列比较的算法10/12/202222 序列模式挖掘算法概述10/10/202222 类Apriori算法该类算法基于Apriori理论,即序列模式的任一子序列也是序列模式。算法首先自底向上的根据较短的序列模式生成较长的候选序列模式,然后计算候选序列模式的支持度。典型的代表有GSP算法, spade算法等。10/12/202223 类Apriori算法10/10/202223基于划分的模式
11、生长算法该类算法基于分治的思想,迭代的将原始数据集进行划分,减少数据规模,同时在划分的过程中动态的挖掘序列模式,并将新发现的序列模式作为新的划分元。典型的代表有FreeSpan算法和prefixSpan算法。10/12/202224基于划分的模式生长算法10/10/202224基于序列比较的算法该类算法首先定义序列的大小度量,接着从小到大的枚举原始序列数据库中包含的所有k-序列,理论上所有的k-序列模式都能被找到。算法制定特定的规则加快这种枚举过程。典型的代表为Disc-all算法。10/12/202225基于序列比较的算法10/10/202225 四、GSP算法算法思想:类似于Apriori
12、算法,采用冗余候选模式的剪除策略和特殊的数据结构-哈希树来实现候选模式的快速访存。10/12/202226 四、GSP算法10/10/202226 GSP算法描述扫描序列数据库,得到长度为1的序列模式L1,作为初始的种子集根据长度为i 的种子集Li ,通过连接操作和修剪操作生成长度为i+1的候选序列模式Ci+1;然后扫描序列数据库,计算每个候选序列模式的支持度,产生长度为i+1的序列模式Li+1,并将Li+1作为新的种子集重复第二步,直到没有新的序列模式或新的候选序列模式产生为止L1 C2 L2 C3 L3 C4 L4 10/12/202227 GSP算法描述扫描序列数据库,得到长度 产生候选
13、序列模式主要分两步:连接阶段:如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同,则可以将s1与s2进行连接,即将s2的最后一个项目添加到s1中修切阶段:若某候选序列模式的某个子序列不是序列模式,则此候选序列模式不可能是序列模式,将它从候选序列模式中删除L1 C2 L2 C3 L3 C4 L4 10/12/202228 产生候选序列模式主要分两步:L1 C2 L2 C 候选序列模式的支持度计算:对于给定的候选序列模式集合C,扫描序列数据库,对于其中的每一条序列s,找出集合C中被s所包含的所有候选序列模式,并增加其支持度计数L1 C2 L2 C3 L3 10/12/
14、202229 候选序列模式的支持度计算:对于给定的候选序列模式集合C,扫哈希树GSP采用哈希树存储候选序列模式。哈希树的节点分为三类: 1、根节点; 2、内部节点; 3、叶子节点。 10/12/202230哈希树GSP采用哈希树存储候选序列模式。哈希树的节点分 哈希树根节点和内部节点中存放的是一个哈希表,每个哈希表项指向其它的节点。而叶子节点内存放的是一组候选序列模式。例:10/12/202231 哈希树根节点和内部节点中存放 添加候选序列模式从根节点开始,用哈希函数对序列的第一个项目做映射来决定从哪个分支向下,依次在第n层对序列的第n个项目作映射来决定从哪个分支向下,直到到达一个叶子节点。将
15、序列储存在此叶子节点。初始时所有节点都是叶子节点,当一个叶子节点所存放的序列数目达到一个阈值,它将转化为一个内部节点。 10/12/202232 添加候选序列模式10/10/202232 计算候选序列模式的支持度给定一个序列s是序列数据库的一个记录: 1)对于根节点,用哈希函数对序列s的每一个单项做映射来并从相应的表项向下迭代的进行操作 2)。 10/12/202233 计算候选序列模式的支持度10/10/202233 计算候选序列模式的支持度 2)对于内部节点,如果s是通过对单项x做哈希映射来到此节点的,则对s中每一个和x在一个元素中的单项以及在x所在元素之后第一个元素的第一个单项做哈希映射
16、,然后从相应的表项向下迭代做操作 2)或 3)。10/12/202234 计算候选序列模式的支持度 10/10/202234 计算候选序列模式的支持度(3)对一个叶子节点,检查每个候选序列模式c是不是s的子序列.如果是相应的候选序列模式支持度加一。这种计算候选序列的支持度的方法避免了大量无用的扫描,对于一条序列,仅检验那些最有可能成为它子序列的候选序列模式。扫描的时间复杂度由O(n*m)降为O(n*t),其中n表示序列数量,m表示候选序列模式的数量,t代表哈希树叶子节点的最大容量10/12/202235 计算候选序列模式的支持度(3)对一个叶子节点,检查每个候 例:下图演示了如何从长度为3的序
17、列模式产生长度为4的候选序列模式Sequential patternsWith length 3Candidate 4-SequencesAfter JoinAfter Pruning10/12/202236 例:下图演示了如何从长度为3的序列模式产生长度为4的候选序 GSP算法存在的主要问题如果序列数据库的规模比较大,则有可能会产生大量的候选序列模式需要对序列数据库进行循环扫描对于序列模式的长度比较长的情况,由于其对应的短的序列模式规模太大,本算法很难处理10/12/202237 GSP算法存在的主要问题10/10/202237五、PrefixSpan算法算法思想:采用分治的思想,不断产生序
18、列数据库的多个更小的投影数据库,然后在各个投影数据库上进行序列模式挖掘10/12/202238五、PrefixSpan算法算法思想:10/10/20223 相关定义前缀:设每个元素中的所有项目按照字典序排列。给定序列 = , = (m n) ,如果ei = ei (i m - 1), em em,并且(em - em)中的项目均在em中项目的后面, 则称是的前缀例:序列 是序列 的一个前缀;序列则不是 。10/12/202239 相关定义10/1相关定义投影:给定序列和 ,如果是的子序列,则关于的投影必须满足: 是的前缀,是的满足上述条件的最大子序列例:对于 序列 =, 其子序列 = 的投影是
19、 = ; 的投影是原序列。10/12/202240相关定义投影:给定序列和 ,如果是的子序列,则相关定义后缀: 序列关于子序列 = 的投影为 = (n = m),则序列关于子序列的后缀为, 其中em” = (em - em)例:对于 序列,其子序列的投影是,则对于的后缀为。10/12/202241相关定义后缀: 序列关于子序列 = e1e2 e 例: a(ab)a(abc)10/12/202242 例: a(相关定义投影数据库:设为序列数据库S中的一个序列模式,则的投影数据库为S中所有以为前缀的序列相对于的后缀,记为S|投影数据库中的支持度:设为序列数据库S中的一个序列,序列以为前缀,则在的投
20、影数据库S|中的支持度为S|中满足条件 .的序列的个数10/12/202243相关定义投影数据库:设为序列数据库S中的一个序列模式,算法描述扫描序列数据库,生成所有长度为1的序列模式根据长度为1的序列模式,生成相应的投影数据库在相应的投影数据库上重复上述步骤,直到在相应的投影数据库上不能产生长度为1的序列模式为止分别对不同的投影数据库重复上述过程,直到没有新的长度为1的序列模式产生为止SS1SmS11 S1n Sm1 Smp 10/12/202244算法描述SS1SmS11 S1n Sm 例:对于如下的序列数据库生成一系列的投影数据库SidSequence1020304010/12/20224
21、5 例:对于如下的序列数据库生成一系列的投影数据库SidSeq 扫描序列数据库S,产生长度为1的序列模式有: : 4, :4, : 4, : 3, : 3, : 3序列模式的全集必然可以分为分别以,和为前缀的序列模式的集合,构造不同前缀所对应的投影数据库,结果如下页图所示10/12/202246 扫描序列数据库S,产生长度为1的序列模式有: : 4 PrefixProject Database 10/12/202247 PrefixProject Database(ab算法伪码PrefixSpan算法输入:序列数据库S及最小支持度阈值min_sup输出:所有的序列模式方法:去除所有非频繁的项目
22、,然后调用子程序PrefixSpan(, 0, S)10/12/202248算法伪码PrefixSpan算法10/10/202248 算法伪码子程序PrefixSpan(, L, S|)参数: . 一个序列模式 L. 序列模式的长度 S| . 如果为空,则为S,否则为的投影数据库扫描S|,找到满足下述要求的长度为1的序列模式b:b可以添加到的最后一个元素中并为序列模式可以作为的最后一个元素并为序列模式对每个生成的序列模式b,将b添加到形成序列模式,并输出对每个,构造的投影数据库S| ,并调用子程序PrefixSpan(, L + 1, S|)10/12/202249 算法伪码子程序Prefix
23、Spa Sid sequence 1 2 3 4 给定如下的序列数据库:10/12/202250 Sid sequence 1(1, 找出频繁单项:1,3,7,8;然后除去非频繁的单项:Sid sequence 1 2 3 4 10/12/202251 找出频繁单项:1,3,7,8;然后除去非频繁的单项:Sid 为频繁1序列(频繁单项)生成投影数据库:SidSuffix for prefix 13SidSuffix for prefix 12310/12/202252 为频繁1序列(频繁单项)生成投影数据库:SidSuffix SidSuffix for prefix 23SidSuffix
24、for prefix 3410/12/202253 SidSuffix for prefix 2 在上面的投影数据库中,前缀的投影数据库中还有频繁单项_3,前缀的投影数据库中还有频繁单项7. 生成频繁2序列,, 然后为其生成投影数据库.其中没有频繁项目,算法终止。SidSuffix for prefix 13SidSuffix for prefix 2310/12/202254 在上面的投影数据库中,前缀的投影数据库中还有频繁 PrefixSpan算法分析PrefixSpan算法不需要产生候选序列模式,从而大大缩减了检索空间相对于原始的序列数据库而言,投影数据库的规模不断减小PrefixSpa
25、n算法的主要开销在于投影数据库的构造10/12/202255 PrefixSpan算法分析PrefixSpan算法不PrefixSpan算法的主要改进隔层投影:使用隔层投影代替逐层投影,从而可以有效减小投影数据库的个数伪投影:当序列数据库可以直接放入内存时,可以使用伪投影操作代替实际的投影数据库,从而可以有效减少构造投影数据库的开销10/12/202256PrefixSpan算法的主要改进隔层投影:使用隔层投影代替隔层投影扫描序列数据库,产生所有长度为1的序列模式再次扫描序列数据库,构造如下图所示的下三角矩阵,得到所有长度为2的序列模式构造长度为2的序列模式所对应的扫描数据库,然后对每个投影数
26、据库,重复上面的操作,直到没有新的序列模式产生为止SidSequence1020304010/12/202257隔层投影SidSequence10a(abc)(ac)a2b(4,2,2)1c(4,2,1)(3,3,2)3d(2,1,1)(2,2,0)(1,3,0)0e(1,2,1)(1,2,0)(1,2,0)(1,1,0)0f(2,1,1)(2,2,0)(1,2,1)(1,1,1)(2,0,1)1abcdef10/12/202258a2b(4,2,2)1c(4,2,1)(3,3,2)3d(伪投影当数据库可以直接放入内存时,并不需要构造所有的序列模式对应的投影数据库,我们可以使用指向数据库中序列
27、的指针及其偏移量作为伪投影例子:假设上述序列数据库可以放入内存,在构造a投影数据库时,序列 S1 = 所对应的伪投影为:一个指向S1的指针,指针偏移设定为2。同样的,序列S1的投影数据库对应的伪投影为:一个指向S1的指针,指针偏移设定为410/12/202259伪投影当数据库可以直接放入内存时,并不需要构造所有的序六、Disc-all算法算法思想:Disc-all算法采用了Disc(Direct sequence comparing)策略。其核心思想是对于给定的k和所有k-1序列模式,通过枚举所有合适的k序列发现k-序列模式。通过引入适当的枚举策略保证算法效率。10/12/202260六、Di
28、sc-all算法算法思想:10/10/202260相关定义给定两条l-序列和 , 如果 ,那么下列条件必满足其一:1) , 的第m项 的第m项且与 在其第m项 之前的部分完全相同 2) , 的第m项 = 的第m项但 的第m项和第m-1项不在同一元素中而 的第m项则相反,并且与 在其第m项 之前的部分完全相同10/12/202261相关定义给定两条l-序列和 , 如果 ,那么 例: 小于 因为条件1), 小于 因为条件2).定义序列的大小关系只是为了给序列排序,这种大小度量是相对的,没有真正的物理意义10/12/202262 10/10/202262相关定义一条l-序列序列所有长度为k的子序列(
29、1 k l)中最小的一条叫做这条序列的k-最小序列.给定k-序列c为条件序列,一条l-序列序列所有大于c的长度为k的子序列(1 k l)中最小的一条叫做这条序列的k-条件最小序列.10/12/202263相关定义一条l-序列序列所有长度为k的子序列(1 k Disc-all算法概述该算法首先划分数据库,然后在划分数据库上执行迭代的执行Disc策略,即基于序列比较的序列模式枚举过程:首先通过适当的枚举找到所有的k-序列模式,然后根据k-序列模式找到所有的k+1序列模式。10/12/202264 Disc-all算法概述10/10/2022 数据库划分Disc-all算法对原始序列数据库进行两层划
30、分:一层划分:首先找到所有的频繁单项并删除所有的非频繁单项,然后进行一级划分,即对于每个频繁单项i,找到所有包含它的序列组成i划分。二层划分:找到所有的2-序列模式并删除所有的非频繁2-序列,然后进行二级划分,即对于每个2-序列模式,找到所有包含它的序列。10/12/202265 数据库划分Disc-all算法对原始序 SidSequence10203040例:对如下数据库进行两层划分,给定最小支持度2,首先找到所有的频繁单项:a,b,c,d,e,f10/12/202266 SidSequence10a(abc)(ac)d(cf) 生成一层划分数据库下面给出了每个频繁单项的一层划分数据库:频繁
31、单项划分数据库a b c d e f 10/12/202267 生成一层划分数据库下面给出了每个频繁单项的一层划 在a-划分数据库里找到所有第一项为a的2-序列模式:,并删除非频繁的以a开头的2-序列。删除规则为:1)如果单项i和a在同一元素内且是2-序列模式;2)如果单项i和a不在同一元素内且是2-序列模式; 当条件1), 2)全都不满足时删除i. 10/12/202268 在a-划分数据库里找到所有第一项为a的2-序列模式:aa 生成二层划分数据库下面只给出根据a-划分找到的2-序列模式及其二层划分数据库,注意所有的非频繁2-序列已经被删除。频繁单项划分数据库 10/12/202269 生
32、成二层划分数据库下面只给出根据a-划分找到的 Disc策略对于每一个划分数据库,给定一组k-序列模式集合S,Disc策略通过枚举找到所有的k+1-序列模式。枚举过程如下:1) 对于每个序列s,找到s的最小的k+1-子序列s,且s的k前缀 S,将s加入k+1序列集,记录s的源序列s10/12/202270 Disc策略对于每一个划分数据库 Disc策略2) 对k+1序列集排序,设最小支持度为,排序后第个序列称为条件序列。3) 如果第一个序列和条件序列相等,则输出条件序列为一个k+1-序列模式,并且将所有k+1序列替换为它们源序列的条件最小k+1-序列。否则尽可能将所有k+1序列替换为条件序列,对
33、于源序列中不含条件序列的k+1序列则替换为条件最小k+1-序列10/12/202271 Disc策略2) 对k+1序列集排序,设最小支持度为 Disc策略4)重复上述步骤直到k+1序列集包含的序列数目小于。Disc策略迭代的根据k-序列模式集找到k+1-序列模式集,然后递增k. 直到没有k+1-序列模式集为空,算法终止。Disc-all算法从从k=2时开始采用Disc策略。10/12/202272 Disc策略10/10/2022 Disc策略由于Disc-all算法是在划分数据库上采用Disc策略,对于一个的划分,Disc策略只寻找所有以为前缀的序列模式。回忆之前讨论的prefixSpan算
34、法,可以发现在这一点上二者非常相似。都是基于前缀生长的思想。不同的是prefixSpan采用递归而Disc-all算法采用迭代。10/12/202273 Disc策略由于Disc-all 考虑前面的序列数据库,对于右侧的一个基于二层划分,仍然给定最小支持度为2,下面的例子展示了Disc策略是如何找到以3-序列模式的SidSequence1020304010/12/202274 考虑前面的序列数据库,对于右侧的一个基于二层划分, 初始化3-序列集Sid3-Sequence104020可以看出是一条3序列模式。Sid为30的序列没有产生初始3-序列因为其不包含以为前缀的3-子序列Sid3-Sequ
35、ence102040为条件序列,将所有3-序列替换为源序列的条件3-最小序列并重新排序,又发现一条3-序列模式10/12/202275 初始化3-序列集Sid3-Sequen Sid3-Sequence402010用新的条件最小3-序列替换各3-序列并排序,3-序列数据集如右侧所示。这一次没有新的3-序列模式被发现。Sid3-Sequence104020用新的条件序列替换各3-序列并排序,3-序列数据集如右侧所示。发现新的3-序列模式.注意Sid为10的序列不含,所以用条件最小3-序列替换。10/12/202276 Sid3-Sequence402010 重复上面的步骤,可以发现新的3-序列模
36、式. 这时只有Sid为10的序列含有比更大的3-序列,所以算法停止。Sid3-Sequence40201010/12/202277 Sid3-Sequence402010Disc-all算法分析Disc-all算法同样不生成候选序列模式,减少了计算开销。同时采用划分技术, 减少了搜索空间。应用Disc策略,解决了划分效率随划分层次增加而下降的问题。Disc-all采用的划分技术不如prefixSpan高效,而且Disc策略较为复杂耗时,算法效率往往不及prefixSpan,但在处理长序列数据集时,因为Disc策略没有迭代开销同时投影技术效率有所下降, Disc-all表现反而更好。10/12/
37、202278Disc-all算法分析Disc-all算法同样不生成候选 Disc-all和prefixSpan的性能比较平均序列长度为20时,Disc-all和prefixSpan的性能比较10/12/202279 Disc-all和prefixSpan的性能比较平均序列Disc-all和prefixSpan的性能比较平均序列长度为80时,Disc-all和prefixSpan的性能比较10/12/202280Disc-all和prefixSpan的性能比较平均序列长度 用户需要的往往是满足特定条件的序列模式,而传统的序列模式挖掘没有考虑用户的特殊要求,做了大量无效的挖掘。比如对于购买记录的事务数据库,用户希望得到的序列模式事务之间的时间差不能太大。 七、支持约束的序列模式挖掘10/12/202281 10/10/202281解决办法引入约束的概念。在约束条件下做符合用户要求的序列模式挖掘。一方面利用特定约束本身的性质节省了挖掘的时间和空间,另一方面避免用户陷入大量的无用信息。10/12/202282解决办法10/10/202282约束的分类单调约束:如果一个序列满足,那么这个序列的所有超序列也满足的约束;反单调约束:如果一个序列满足,那么这个序列 的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字身份认证-第2篇-洞察与解读
- 丹棱县2025上半年四川眉山市丹棱县事业单位考核招聘博士研究生1人笔试历年参考题库典型考点附带答案详解
- 砼和钢筋砼工程的施工方案
- 东城区2025北京市东城区卫生健康委所属事业单位第二次招聘359人笔试历年参考题库典型考点附带答案详解
- 上海市2025上海市救助管理二站招聘事业单位人员2人笔试历年参考题库典型考点附带答案详解
- 上海市2025上海复旦大学基础医学院招聘工程实验人员1名笔试历年参考题库典型考点附带答案详解
- 三明市2025福建三明市国防动员办公室直属事业单位选聘1人笔试历年参考题库典型考点附带答案详解
- 黔东南苗族侗族自治州2025贵州黔东南州黄平县发展和改革局招聘1人笔试历年参考题库典型考点附带答案详解
- 2026陕西安康市紫阳县农业发展集团有限公司招聘(普通岗位)拟聘用人员笔试历年备考题库附带答案详解
- 2026江苏苏州市金服数字集团有限公司招聘37人笔试历年典型考点题库附带答案详解
- 2026年春季统编版(部编版)2024新教材二年级下册道德与法治教学计划、教学设计及教学反思(附目录)
- CT安全防护课件
- 2026年学校意识形态工作实施方案3篇
- 2026年保安员考试题库及答案(1000题)
- 固定式钢梯 防护栏 钢平台30个安全隐患附依据
- 招商金融服务协议书
- 招标代理机构选取服务方案投标文件(技术方案)
- 2025年广东省深圳市生地会考真题试卷及答案
- 2025年大学《动植物检疫-检疫法规与标准》考试模拟试题及答案解析
- GB/T 3048.8-2025电线电缆电性能试验方法第8部分:交流电压试验
- 公司买房送员工协议书
评论
0/150
提交评论