版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、平均情况下的最优多模式近似匹配 Average-Optimal Multiple Approximate String Matching 在目标文本中同时搜索r个模式P1P2.Pr,找到目标文本中和这r个模式中的某一个模式最多只有k个字符不同的所有匹配结果。 最原始的多模式近似匹配算法是对r个模式分别进行单模式近似匹配 平均情况下的最优多模式近似匹配 基于散列方法的算法,只允许进行k=1的近似搜索,但对模式个数r有很强的容忍能力 分块精确搜索算法,基于这样一个事实:如果将P分成k+1块,那么目标文本中的匹配结果中至少精确包含这k+1块中的一块。这个算法将所有的模式都切成k+1块,然后使用多模式
2、精确匹配算法在目标文本中搜索这r(k+1)个模式块。 平均情况下的最优多模式近似匹配 本文介绍的算法是从单模式近似匹配最优算法Chang-Marr算法扩展而来 Chang-Marr算法的基本思想: 每个匹配结果长度至少为 m-k,如果将目标文本切成长度为b=(m-k)/2的块,目标文本中的任何一个匹配结果都至少包含其中的某一整块。 判断一个文本块不是一个匹配结果,要比判断它是一个匹配结果容易。(因此,目标文本中所包含的匹配结果越多,算法处理得越慢)平均情况下的最优多模式近似匹配 怎样判断一个长度为(m-k)/2的文本块不是一个匹配结果?首先选择一个数 ,满足1 = 建立一个表D ,其中保存了任
3、何一个长度为 的串(称为 -gram)在模式中匹配的最小错误数。因此D的大小为 在文本块中只要找到若干个互不交叠的 -gram,它们的D表元素值之和大于k,则可以肯定这个文本块不会和模式匹配k)/2-(m平均情况下的最优多模式近似匹配 本文介绍的算法基本思想是:给定待搜索的r个模式P1.Pr,我们建立和Chang- Marr算法一样的表D,D中保存了任何一个 -gram与任何一个模式的子串匹配的最小错误数。扫描目标文本的每一块,如果在某一个块以内错误数就超过了k,我们就能够确信不可能存在包含本块的匹配结果 平均情况下的最优多模式近似匹配 -gram的最优选择 最简单的办法:依次计算块中前部 -
4、gram的错误数之和。但不是最优其实只要是块内互不交叠的 -gram组成的集合,它们的错误数之和超过了k,而不管这些元素出现的位置,都可以确信本块不构成匹配结果最优选择:扫描当前块,总是选择错误数之和最大的互不相交的 -gram集合平均情况下的最优多模式近似匹配 对于不能跳过的文本块,怎样验证它确实是一个匹配结果呢? 简单的用动态规划算法逐个验证每个模式,平均情况下效率低下 层次验证平均情况下的最优多模式近似匹配 层次验证 (Hierarchical Verification) 构造一棵层次验证树,每个内部结点代表一个模式集的子集,祖先结点所代表的模式子集包含了后代结点所代表的模式子集,叶结点
5、代表单个模式,而根结点代表了整个模式集 每个结点建造一个D表,叶结点的D表构造方法同Chang-Marr算法;而内部结点的D表,每个元素取子结点D表中对应元素最小的那个值 验证的时候从根结点开始,用它的D表扫描文本块,如果验证没通过,跳过本块;否则用它的子结点依次验证。迭代这个过程直到层次验证树的叶结点,叶结点采用经典的动态规划算法验证平均情况下的最优多模式近似匹配 层次验证 (Hierarchical Verification) 如果层次验证树的各个子树所代表的模式子集存在聚类特征(即子集内的模式之间的编辑距离小于各子集间的模式的编辑距离),那么将会加速层次验证过程 作者建议,在建立层次验证树之前,采用层次聚类算法对模式进行排序,然后按聚类结果建立子树平均情况下的最优多模式近似匹配 优化措施 为了减少预处理时间,采用带标记的根树(trie)来建造叶结点的D表 为了减少算法所需
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医学教学中的临床技能竞赛设计
- 医学心理学与临床路径整合
- 医学影像技术术语与报告方法学解读
- 福建货架安全管理培训
- 2025年上半年护理核心度专项考核试题(含答案解析)
- 计算机机房突发事件应急专项预案
- 《有机化学》-第3章
- 就业指导与心理调适策略
- 小学安全教育演讲稿
- 预制构件厂培训室管理细则
- 2025四川安吉物流集团有限公司下半年招聘工作人员11人(二)笔试历年参考题库附带答案详解
- 2026届广东省东莞市三校英语高三上期末学业质量监测模拟试题含解析
- 大肠杆菌噬菌体宿主特异性的尾丝蛋白分子解码:结构、功能与机制洞察
- 2026年中学生生物奥林匹克竞赛试题
- 严厉的主奴协议书
- 2025年10月自考15040习概论试题及答案
- 医保管理制度、财务制度、统计信息管理制度、医疗质量安全核心制度
- 气道腔内球囊封堵治疗咯血专家共识(2025版)解读课件
- 部编道德与法治八年级上册全册教材习题参考答案
- 《建筑设备工程高职》全套教学课件
- 设备现场目视化管理
评论
0/150
提交评论