数据挖掘序列模式算法.ppt

上传人：1*** IP属地：浙江上传时间：2020-04-12 格式：PPT 页数：92 大小：561.02KB 积分：20 举报 版权申诉

已阅读5页，还剩87页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2020 4 12 1 数据挖掘序列模式算法 2020 4 12 2 主要内容序列模式挖掘简介序列模式挖掘的应用背景序列模式挖掘算法概述GSP算法PrefixSpan算法Disc all算法支持约束的序列模式挖掘 2020 4 12 3 一序列模式挖掘简介序列模式的概念最早是由Agrawal和Srikant提出的动机大型连锁超市的交易数据有一系列的用户事务数据库每一条记录包括用户的ID 事务发生的时间和事务涉及的项目如果能在其中挖掘涉及事务间关联关系的模式即用户几次购买行为间的联系可以采取更有针对性的营销措施 2020 4 12 4 事务数据库实例例一个事务数据库一个事务代表一笔交易一个单项代表交易的商品单项属性中的数字记录的是商品ID 2020 4 12 5 序列数据库一般为了方便处理需要把数据库转化为序列数据库方法是把用户ID相同的记录合并有时每个事务的发生时间可以忽略仅保持事务间的偏序关系 2020 4 12 6 问题定义项集 Itemset 是所有在序列数据库出现过的单项组成的集合例对一个用户购买记录的序列数据库来说项集包含用户购买的所有商品一种商品就是一个单项通常每个单项有一个唯一的ID 在数据库中记录的是单项的ID 2020 4 12 7 问题定义元素 Element 可表示为 x1x2 xm xk 1 k m 为不同的单项元素内的单项不考虑顺序关系一般默认按照ID的字典序排列在用户事务数据库里一个事务就是一个元素 2020 4 12 8 问题定义序列 Sequence 是不同元素 Element 的有序排列序列s可以表示为s sj 1 j l 为序列s的元素一个序列包含的所有单项的个数称为序列的长度长度为l的序列记为l 序列 2020 4 12 9 例一条序列有3个元素分别是 1020 30 406070 3个事务的发生时间是由前到后这条序列是一个6 序列 2020 4 12 10 问题定义设序列序列 ai和bi都是元素如果存在整数1 j1 j2 jn m 使得a1 bj1 a2 bj2 an bjn 则称序列为序列的子序列又称序列包含序列记为 2020 4 12 11 问题定义序列在序列数据库S中的支持度为序列数据库S中包含序列的序列个数记为Support 给定支持度阈值如果序列在序列数据库中的支持数不低于则称序列为序列模式长度为l的序列模式记为l 模式 2020 4 12 12 例子设序列数据库如下图所示并设用户指定的最小支持度min support 2 序列是序列的子序列序列是长度为3的序列模式 2020 4 12 13 序列模式VS关联规则 2020 4 12 14 二序列模式挖掘的应用背景应用领域客户购买行为模式预测Web访问模式预测疾病诊断自然灾害预测DNA序列分析 2020 4 12 15 应用案例1 客户购买行为模式分析 B2C电子商务网站可以根据客户购买纪录来分析客户购买行为模式从而进行有针对性的营销策略图书交易网站将用户购物纪录整合成用户购物序列集合得到用户购物行为序列模式相关商品推荐如果用户购买了书籍 UML语言则推荐 Visio2003实用技巧 2020 4 12 16 应用案例2 Web访问模式分析大型网站的网站地图 sitemap 往往具有复杂的拓扑结构用户访问序列模式的挖掘有助于改进网站地图的拓扑结构比如用户经常访问网页web1然后访问web2 而在网站地图中二者距离较远就有必要调整网站地图缩短它们的距离甚至直接增加一条链接 Index网站入口 web1 web2 2020 4 12 17 应用案例3 疾病诊断医疗领域的专家系统可以作为疾病诊断的辅助决策手段对应特定的疾病众多该类病人的症状按时间顺序被记录自动分析该纪录可以发现对应此类疾病普适的症状模式每种疾病和对应的一系列症状模式被加入到知识库后专家系统就可以依此来辅助人类专家进行疾病诊断 2020 4 12 18 应用案例3 疾病诊断例通过分析大量曾患A类疾病的病人发病纪录发现以下症状发生的序列模式如果病人具有以上症状则有可能患A类疾病 2020 4 12 19 应用案例4 查询扩展查询扩展是搜索领域一个重要的问题用户提交的查询往往不能完全反映其信息需求一些研究工作尝试用用户的查询序列模式来辅助原始查询其主要思想是 1 挖掘用户的查询序列模式2 用这些序列模式构造查询词关系图3 找到每个极大全连通图作为一个概念 4 对于一个查询和它同处于一个概念的查询可以作为查询扩展的选项 2020 4 12 20 应用案例4 查询扩展给定一组查询模式查询关系图如上图概念1 汽车品牌概念2 汽车 2020 4 12 21 三序列模式挖掘算法概述 Agrawal和Srikant在提出这个问题时提出了三个算法 AprioriAll AprioriSome和DynamicSome 它们都基于Apriori框架构成了序列模式挖掘问题的基石随后这个领域的研究工作取得了大量的成果 2020 4 12 22 序列模式挖掘算法概述类Apriori算法基于划分的模式生长算法基于序列比较的算法 2020 4 12 23 类Apriori算法该类算法基于Apriori理论即序列模式的任一子序列也是序列模式算法首先自底向上的根据较短的序列模式生成较长的候选序列模式然后计算候选序列模式的支持度典型的代表有GSP算法 spade算法等 2020 4 12 24 基于划分的模式生长算法该类算法基于分治的思想迭代的将原始数据集进行划分减少数据规模同时在划分的过程中动态的挖掘序列模式并将新发现的序列模式作为新的划分元典型的代表有FreeSpan算法和prefixSpan算法 2020 4 12 25 基于序列比较的算法该类算法首先定义序列的大小度量接着从小到大的枚举原始序列数据库中包含的所有k 序列理论上所有的k 序列模式都能被找到算法制定特定的规则加快这种枚举过程典型的代表为Disc all算法 2020 4 12 26 四 GSP算法算法思想类似于Apriori算法采用冗余候选模式的剪除策略和特殊的数据结构哈希树来实现候选模式的快速访存 2020 4 12 27 GSP算法描述扫描序列数据库得到长度为1的序列模式L1 作为初始的种子集根据长度为i的种子集Li 通过连接操作和修剪操作生成长度为i 1的候选序列模式Ci 1 然后扫描序列数据库计算每个候选序列模式的支持度产生长度为i 1的序列模式Li 1 并将Li 1作为新的种子集重复第二步直到没有新的序列模式或新的候选序列模式产生为止 L1 C2 L2 C3 L3 C4 L4 2020 4 12 28 产生候选序列模式主要分两步连接阶段如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同则可以将s1与s2进行连接即将s2的最后一个项目添加到s1中修切阶段若某候选序列模式的某个子序列不是序列模式则此候选序列模式不可能是序列模式将它从候选序列模式中删除 L1 C2 L2 C3 L3 C4 L4 2020 4 12 29 候选序列模式的支持度计算对于给定的候选序列模式集合C 扫描序列数据库对于其中的每一条序列s 找出集合C中被s所包含的所有候选序列模式并增加其支持度计数 L1 C2 L2 C3 L3 2020 4 12 30 哈希树 GSP采用哈希树存储候选序列模式哈希树的节点分为三类 1 根节点 2 内部节点 3 叶子节点 2020 4 12 31 哈希树根节点和内部节点中存放的是一个哈希表每个哈希表项指向其它的节点而叶子节点内存放的是一组候选序列模式例 2020 4 12 32 添加候选序列模式从根节点开始用哈希函数对序列的第一个项目做映射来决定从哪个分支向下依次在第n层对序列的第n个项目作映射来决定从哪个分支向下直到到达一个叶子节点将序列储存在此叶子节点初始时所有节点都是叶子节点当一个叶子节点所存放的序列数目达到一个阈值它将转化为一个内部节点 2020 4 12 33 计算候选序列模式的支持度给定一个序列s是序列数据库的一个记录 1 对于根节点用哈希函数对序列s的每一个单项做映射来并从相应的表项向下迭代的进行操作2 2020 4 12 34 计算候选序列模式的支持度 2 对于内部节点如果s是通过对单项x做哈希映射来到此节点的则对s中每一个和x在一个元素中的单项以及在x所在元素之后第一个元素的第一个单项做哈希映射然后从相应的表项向下迭代做操作2 或3 2020 4 12 35 计算候选序列模式的支持度 3 对一个叶子节点检查每个候选序列模式c是不是s的子序列如果是相应的候选序列模式支持度加一这种计算候选序列的支持度的方法避免了大量无用的扫描对于一条序列仅检验那些最有可能成为它子序列的候选序列模式扫描的时间复杂度由O n m 降为O n t 其中n表示序列数量 m表示候选序列模式的数量 t代表哈希树叶子节点的最大容量 2020 4 12 36 例下图演示了如何从长度为3的序列模式产生长度为4的候选序列模式 2020 4 12 37 GSP算法存在的主要问题如果序列数据库的规模比较大则有可能会产生大量的候选序列模式需要对序列数据库进行循环扫描对于序列模式的长度比较长的情况由于其对应的短的序列模式规模太大本算法很难处理 2020 4 12 38 五 PrefixSpan算法算法思想采用分治的思想不断产生序列数据库的多个更小的投影数据库然后在各个投影数据库上进行序列模式挖掘 2020 4 12 39 相关定义前缀设每个元素中的所有项目按照字典序排列给定序列 m n 如果ei ei i m 1 em em 并且 em em 中的项目均在em 中项目的后面则称是的前缀例序列是序列的一个前缀序列则不是 2020 4 12 40 相关定义投影给定序列和如果是的子序列则关于的投影必须满足是的前缀是的满足上述条件的最大子序列例对于序列其子序列的投影是的投影是原序列 2020 4 12 41 相关定义后缀序列关于子序列的投影为 n m 则序列关于子序列的后缀为其中em em em 例对于序列其子序列的投影是则对于的后缀为 2020 4 12 42 例 a ab a abc 2020 4 12 43 相关定义投影数据库设为序列数据库S中的一个序列模式则的投影数据库为S中所有以为前缀的序列相对于的后缀记为S 投影数据库中的支持度设为序列数据库S中的一个序列序列以为前缀则在的投影数据库S 中的支持度为S 中满足条件的序列的个数 2020 4 12 44 算法描述扫描序列数据库生成所有长度为1的序列模式根据长度为1的序列模式生成相应的投影数据库在相应的投影数据库上重复上述步骤直到在相应的投影数据库上不能产生长度为1的序列模式为止分别对不同的投影数据库重复上述过程直到没有新的长度为1的序列模式产生为止 S S1 Sm S11 S1n Sm1 Smp 2020 4 12 45 例对于如下的序列数据库生成一系列的投影数据库 2020 4 12 46 扫描序列数据库S 产生长度为1的序列模式有 4 4 4 3 3 3序列模式的全集必然可以分为分别以和为前缀的序列模式的集合构造不同前缀所对应的投影数据库结果如下页图所示 2020 4 12 47 2020 4 12 48 算法伪码 PrefixSpan算法输入序列数据库S及最小支持度阈值min sup输出所有的序列模式方法去除所有非频繁的项目然后调用子程序PrefixSpan 0 S 2020 4 12 49 算法伪码子程序PrefixSpan L S 参数一个序列模式L 序列模式的长度S 如果为空则为S 否则为的投影数据库扫描S 找到满足下述要求的长度为1的序列模式b b可以添加到的最后一个元素中并为序列模式可以作为的最后一个元素并为序列模式对每个生成的序列模式b 将b添加到形成序列模式并输出对每个构造的投影数据库S 并调用子程序PrefixSpan L 1 S 2020 4 12 50 给定如下的序列数据库 2020 4 12 51 找出频繁单项 1 3 7 8 然后除去非频繁的单项 2020 4 12 52 为频繁1序列频繁单项生成投影数据库 2020 4 12 53 2020 4 12 54 在上面的投影数据库中前缀的投影数据库中还有频繁单项 3 前缀的投影数据库中还有频繁单项7 生成频繁2序列然后为其生成投影数据库其中没有频繁项目算法终止 2020 4 12 55 PrefixSpan算法分析 PrefixSpan算法不需要产生候选序列模式从而大大缩减了检索空间相对于原始的序列数据库而言投影数据库的规模不断减小PrefixSpan算法的主要开销在于投影数据库的构造 2020 4 12 56 PrefixSpan算法的主要改进隔层投影使用隔层投影代替逐层投影从而可以有效减小投影数据库的个数伪投影当序列数据库可以直接放入内存时可以使用伪投影操作代替实际的投影数据库从而可以有效减少构造投影数据库的开销 2020 4 12 57 隔层投影扫描序列数据库产生所有长度为1的序列模式再次扫描序列数据库构造如下图所示的下三角矩阵得到所有长度为2的序列模式构造长度为2的序列模式所对应的扫描数据库然后对每个投影数据库重复上面的操作直到没有新的序列模式产生为止 2020 4 12 58 2020 4 12 59 伪投影当数据库可以直接放入内存时并不需要构造所有的序列模式对应的投影数据库我们可以使用指向数据库中序列的指针及其偏移量作为伪投影例子假设上述序列数据库可以放入内存在构造a投影数据库时序列S1 所对应的伪投影为一个指向S1的指针指针偏移设定为2 同样的序列S1的投影数据库对应的伪投影为一个指向S1的指针指针偏移设定为4 2020 4 12 60 六 Disc all算法算法思想 Disc all算法采用了Disc Directsequencecomparing 策略其核心思想是对于给定的k和所有k 1序列模式通过枚举所有合适的k序列发现k 序列模式通过引入适当的枚举策略保证算法效率 2020 4 12 61 相关定义给定两条l 序列和如果那么下列条件必满足其一 1 的第m项的第m项且与在其第m项之前的部分完全相同2 的第m项的第m项但的第m项和第m 1项不在同一元素中而的第m项则相反并且与在其第m项之前的部分完全相同 2020 4 12 62 例小于因为条件1 小于因为条件2 定义序列的大小关系只是为了给序列排序这种大小度量是相对的没有真正的物理意义 2020 4 12 63 相关定义一条l 序列序列所有长度为k的子序列 1kl 中最小的一条叫做这条序列的k 最小序列给定k 序列c为条件序列一条l 序列序列所有大于c的长度为k的子序列 1kl 中最小的一条叫做这条序列的k 条件最小序列 2020 4 12 64 Disc all算法概述该算法首先划分数据库然后在划分数据库上执行迭代的执行Disc策略即基于序列比较的序列模式枚举过程首先通过适当的枚举找到所有的k 序列模式然后根据k 序列模式找到所有的k 1序列模式 2020 4 12 65 数据库划分 Disc all算法对原始序列数据库进行两层划分一层划分首先找到所有的频繁单项并删除所有的非频繁单项然后进行一级划分即对于每个频繁单项i 找到所有包含它的序列组成i划分二层划分找到所有的2 序列模式并删除所有的非频繁2 序列然后进行二级划分即对于每个2 序列模式找到所有包含它的序列 2020 4 12 66 例对如下数据库进行两层划分给定最小支持度2 首先找到所有的频繁单项 a b c d e f 2020 4 12 67 生成一层划分数据库下面给出了每个频繁单项的一层划分数据库 2020 4 12 68 在a 划分数据库里找到所有第一项为a的2 序列模式并删除非频繁的以a开头的2 序列删除规则为 1 如果单项i和a在同一元素内且是2 序列模式 2 如果单项i和a不在同一元素内且是2 序列模式当条件1 2 全都不满足时删除i 2020 4 12 69 生成二层划分数据库下面只给出根据a 划分找到的2 序列模式及其二层划分数据库注意所有的非频繁2 序列已经被删除 2020 4 12 70 Disc策略对于每一个划分数据库给定一组k 序列模式集合S Disc策略通过枚举找到所有的k 1 序列模式枚举过程如下 1 对于每个序列s 找到s的最小的k 1 子序列s 且s 的k前缀S 将s 加入k 1序列集记录s 的源序列s 2020 4 12 71 Disc策略 2 对k 1序列集排序设最小支持度为排序后第个序列称为条件序列 3 如果第一个序列和条件序列相等则输出条件序列为一个k 1 序列模式并且将所有k 1序列替换为它们源序列的条件最小k 1 序列否则尽可能将所有k 1序列替换为条件序列对于源序列中不含条件序列的k 1序列则替换为条件最小k 1 序列 2020 4 12 72 Disc策略 4 重复上述步骤直到k 1序列集包含的序列数目小于 Disc策略迭代的根据k 序列模式集找到k 1 序列模式集然后递增k 直到没有k 1 序列模式集为空算法终止 Disc all算法从从k 2时开始采用Disc策略 2020 4 12 73 Disc策略由于Disc all算法是在划分数据库上采用Disc策略对于一个的划分 Disc策略只寻找所有以为前缀的序列模式回忆之前讨论的prefixSpan算法可以发现在这一点上二者非常相似都是基于前缀生长的思想不同的是prefixSpan采用递归而Disc all算法采用迭代 2020 4 12 74 考虑前面的序列数据库对于右侧的一个基于二层划分仍然给定最小支持度为2 下面的例子展示了Disc策略是如何找到以3 序列模式的 2020 4 12 75 初始化3 序列集可以看出是一条3序列模式 Sid为30的序列没有产生初始3 序列因为其不包含以为前缀的3 子序列为条件序列将所有3 序列替换为源序列的条件3 最小序列并重新排序又发现一条3 序列模式 2020 4 12 76 用新的条件最小3 序列替换各3 序列并排序 3 序列数据集如右侧所示这一次没有新的3 序列模式被发现用新的条件序列替换各3 序列并排序 3 序列数据集如右侧所示发现新的3 序列模式注意Sid为10的序列不含所以用条件最小3 序列替换 2020 4 12 77 重复上面的步骤可以发现新的3 序列模式这时只有Sid为10的序列含有比更大的3 序列所以算法停止 2020 4 12 78 Disc all算法分析 Disc all算法同样不生成候选序列模式减少了计算开销同时采用划分技术减少了搜索空间应用Disc策略解决了划分效率随划分层次增加而下降的问题 Disc all采用的划分技术不如prefixSpan高效而且Disc策略较为复杂耗时算法效率往往不及prefixSpan 但在处理长序列数据集时因为Disc策略没有迭代开销同时投影技术效率有所下降 Disc all表现反而更好 2020 4 12 79 Disc all和prefixSpan的性能比较平均序列长度为20时 Disc all和prefixSpan的性能比较 2020 4 12 80 Disc all和prefixSpan的性能比较平均序列长度为80时 Disc all和prefixSpan的性能比较 2020 4 12 81 用户需要的往往是满足特定条件的序列模式而传统的序列模式挖掘没有考虑用户的特殊要求做了大量无效的挖掘比如对于购买记录的事务数据库用户希望得到的序列模式事务之间的时间差不能太大七支持约束的序列模式挖掘 2020 4 12 82 解决办法引入约束的概念在约束条件下做符合用户要求的序列模式挖掘一方面利用特定约束本身的性质节省了挖掘的时

人人文库> 全部分类> 教育资料 > 幼儿教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘序列模式算法.ppt

文档简介

温馨提示

最新文档

评论

数据挖掘序列模式算法.ppt

文档简介

温馨提示

最新文档

评论

相关文档