（计算机应用技术专业论文）基于加权模糊概念格的模式匹配算法.pdf

上传人：灰*** IP属地：宁夏上传时间：2020-01-09 格式：PDF 页数：49 大小：1.88MB 积分：12 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘面之模式匹配是数据交换的重要组成由于数据模型表达能力的欠缺准确的语义信息只有模式设计者才能真正理解模式匹配自动实现历来都是一个难以解决的问题现有的模式匹百己算法在处理复杂匹配和同名异义字段的匹配等方面以及匹配的效率方面都存在一定的不足使得模式的匹配工作经常需要用户大量参与成为数据交换应用中的瓶颈问题针对模式匹配中存在的上述问题本文主要研究了基于加权模糊概念格的模式匹配算法研究内容及成果如下 1 研究了模式分类的策略利用机器学习中重要算法贝叶斯学习法分析模式信息的语义并以此为基础提出名称分类算法描述分类算法以及类型分类策略归类模式元素 2 研究了模式信息整合方法通过形式概念分析法整合分类结果元素类型信息以及约束信息并提出了基于矩阵分析的概念格快速构建算法该算法通过对形式背景对应矩阵的深入分析找出该矩阵与形式概念之间的内在联系从而使得算法在概念的搜索过程更有目的性减少了计算步骤提高了搜索效率实验结果表明本文提出的概念格构造算法性能优于 s s p c g 及n e x t c i o s u r e 算法 3 研究了概念相似度的计算问题在传统形式概念的基础上引入了权值及模糊值提出一种针对加权模糊概念格的相似度计算模型 4 基于上述模式分类的策略模式整合方法以及相似度计算模型提出基于加权模糊概念格的模式匹配算法在对初始模式信息归类后将权值与模糊值引入传统形式概念分析法整合归类信息具体包括创建加权模糊形式背景获取蕴涵的概念确立概念问偏序关系以及生成加权模糊概念格建立加权模糊概念格的相似计算模型设定格式阈值计算最终概念之间的匹配度获取模式元素之问的匹配关系实验结果表明基于加权模糊概念格的模式匹配算法策略在问题规模大且复杂的情况下能够有效获取匹配项保证查准率与查全率减少后期人工筛选的工作量关键词模式匹配形式概念分析概念格相似计算模型 a b s t r a c t t h es c h e m am a t c h i n gi sa ni m p o r t a n tp a r to fd a t ae x c h a n g e s t h ee x a c ts e m a n t i c so ft h es c h e m a c a n n o tb ef u l l ye x p r e s s e db yt h es c h e m ai t s e l fa n d c a no n l yb eu n d e r s t o o df u l l yb yt h ed e s i g n e r s t h e r e f o r e i ti sd i f f i c u l tt op r o d u c em a t c h e sa u t o m a t i c a l l ya n dm o r ee f f o r ti sr e q u i r e dt om a t c h s c h e m a sc o m p l e t e l y t h e r ea r es e v e r a l1 1 1 1 s o l v e dp r o b l e m si nc u r r e n tm a t c h i n ga l g o r i t h m s s u c ha s c o m p l i c a t e dm a p p i n g m a t c h i n gh o m o n y m i ce l e m e n t sa n dm a t c h i n ge f f i c i e n c y w h i c hb e c o m et h e b o t t l e c e c ki nd a t ae x c h a n g ea p p l i c a t i o n s f o rt h e s ep r o b l e m sm e t i o n e da b o v e t h es c h e m am a t c h i n gb a s e do nw e i g h t e df u z z yc o n c e p t l a t t i c ei ss t u d i e di nt h i sp a p e r t h er e s e a r c h e sa n da c h i e v e m e n t sa r ea sf o l l o w s 1 t h es c h e m ac l a s s i f i c a t i o ns t r a t r e g y i ss t u d i e d t h en a m ec l a s s i f i e ra n dt h e d e s c r i p t i o n c l a s s i f i e rw h i c ha r eb u i l to nt h en a i v eb a y e st e x tc l a s s i f i e ri sa p p l i e dt oc l a s s i f yt h en a m e sa n d d e s c r i p t i o n so ft h ee l e m e n t s 2 t h es c h e m ai n f o r m a t i o ni n t e g r a t i o nm e t h o di ss t u d i e d t h ef o r m a lc o n c e p ta n a l y s i s f c a i s i n t r o d u c e dt oi n t e g r e a t et h ec l a s s i f i e dr e s u l t sa sw e l la st y p em e s s a g e sa n dc o n s t r a i n st oi n c r e a s et h e e v i d e n c e w h a ti sm o r e c o n c e p t sg e n e r a t i o na l g o r i t h mb a s e do nm a t r i xa n a l y s i si sb r o u g h tu p t h e a l g o r i t h mf i n d st h er e l a t i o n s h i pb e t w e e nt h em a t r i xa n dt h ef o r m a lc o n c e p t sa n dm a k e st h es e a r c hf u r c o n c e p t sm o r ed i r e c t l yw h i c hr e d u c e st h ew a s t eo nc o m p u t i n ga n di m p r o v e st h ee f f i c i e n c y t h e r e s u l t ss h o wt h a tt h ea l g o r i t h mp e r f o r m sm u c hb e t t e rt h a ns s p c ga n dn e x t c i o s u r e 3 t h es m i l a r i t ym e a s u r e m e n tf o rt w oe l e m e n t si sa n a l y s i s e da n dan e ws i m i l a r i t ym e a s u r e m o d e lb a s e do nt h ew e i g h t e df u z z yc o n c e p tl a t t i c ei sb u i l t t h i sm o d e ls u p p l i e st h ew a yt oc a l c u l a t e t h ed e g r e eo fs i m i l a r i t yf o rf o r m a lc o n c e p ta n a l y s i sw h i c hi so p t i m i z e db yw e i g h ta n df u z z yv a l u e a n df a c i l i t a t e sa c q u i r i n gt h ef i n a lm a t c h i n gr e l a t i o n s 4 t h ea l g o t i t h mo fs c h e m am a t c h i n gb a s e d0 1 1w e i g h t e df u z z yc o n c e p tl a t t i c ei sd e s i g n e da n d i m p l e m e n t e do nt h eb a s i so ft h es c h e m ac l a s s i f i c a t i o ns t r a t r e g y t h es c h e m ai n f o r m a t i o ni n t e g r a t i o n m e t h o da n dt h es m i l a r i t ym e a s u r e m e n tm o d e l a f t e rt h ec l a s s i f i c a t i o no fi n i t i a ls c h e m ai n f o r m a t i o n t h ew e i g h ta n df u z z yv a l u e sa r ei n t r o d u c e dt ot r a d i t i o n a lf c at oc r e a t ew e i g h t e df u z z yf o r m a lc o n t e x l a c q u i r et h ec o n c e p t si n v o l v e di nt h ef o r m a lc o n t e x t f i g u r eo u tt h ep a r t i a lo r d e rb e t w e e nc o n c e p t sa n d c o n s t r u c tt h ec o n c e p tl a t t i c e a tl a s t as t r u c t u r a ls i m i l a r i t ym e a s u r em o d e li si n t r o d u c e dt oc a l c u l a t e t h ef i n a lm a t c h e s e x p e r i m e n t a lr e s u l t sd e m o n s t r a t ef c a b a s e dm a t c h i n go u t p e r f o r m sd i r e c t m a t c h i n g w i t h o u tt h eb e n e f i to ff c a a n df i n d st h em a t c h i n ge l e m e n t se f f e c t i v e l yw h e nt h e m a t c h i n gt a s ki sc o m p l i c a t e da n dt h es c a l e i sl a r g e s a t i s f y st h et a r g e to fp r e c i s i o na n dr e c a l l r e d u c e st h eh u m a nw o r k l o a d k e y w o r d s s c h e m am a t c h i n g f o r m a lc o n c e p ta n a l y s i s c o n c e p tl a t t i c e s m a l i r i t ym e a s u r em o d e l h 东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果尽我所知除了文中特别加以标注和致谢的地方外论文中不包含其他人已经发表或撰写过的研究成果也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意研究生签名东南大学学位论文使用授权声明东南大学中国科学技术信息研究所国家图书馆有权保留本人所送交学位论文的复印件和电子文档可以采用影印缩印或其他复制手段保存论文本人电子文档的内容和纸质论文的内容相一致除在保密期内的保密论文外允许论文被查阅和借阅可以公布包括刊登论文的全部或部分内容论文的公布包括刊登授权东南大学研究生院办理善猛第l 章绪论第1 章绪论 1 1 研究背景信息化技术与通信网络飞速发展和高度融合的今天信息化的水平已经成为衡量一个国家和地区综合竞争力生产力水平和发展潜力的重要标志但是很多信息系统就像一个个信息孤岛相互间缺乏信息共享与交互造成了大量的信息资源浪费主要原因如下 1 各个信息系统在网络环境下是分布的它们很难获知其它信息系统的网络位置及其包含的数据信息发现对其有价值的信息和数据 2 各个信息系统往往使用不同的系统平台互操作困难 3 各个信息系统使用不同的数据库管理系统给数据库互访带来难度 4 各个信息系统的语义描述能力不同导致不同的信息系统难以理解其它系统中的信息数据分析和处理困难 5 网络的复杂性及防火墙等原因给网络环境下的数据传输带来难度而上述5 点的主要障碍就是模式匹配模式匹配是数据交换的核心所谓模式是通过结构联系的一系列元素的结合i l j 典型的模式有 x m ls c h e m a 数据库模式 o n t o l o g y 等模式匹配的任务是以两个模式s t 作为输入产生匹配对每个匹配对的一部分元素来自s 另一部分元素来自t 通过匹配表达式指出两部分元素是如何关联匹配集是匹配对的集合模式匹配中还会涉及到源模式与目标模式元素之间的1 对1 l 对n n 对l n 对n 的匹配这个称为匹配势根据匹配依据的内容模式匹配算法包括以下6 类 1 实例级匹配的依据是实例算法分析实例数据的内容借助语言学的技术对数据组合分割或者对某些词频率进行统计等以此为基础进行数据挖掘寻找匹配依据 2 模式 s c h e m a 级匹配的依据是模式 s c h e m a 如 x m ls c h e m a 数据库模式 o n t o l o g ys c h e m a 等信息算法主要分析模式的相关信息如模式元素名称数据类型数据描述以及模式的结构方面等 3 元素级匹配的依据是元素分析局部数据特征如属性等 4 结构级匹配的依据是结构算法分析模式数据组织结构的特征 5 语言级利用基于语言学的相关知识如分析元素名称的同义词同一范围或同一概念领域的词需要借助字典分析来自同一命名空间的元素名称对元素名称进行规范性处理分析元素名称或描述的公共字符串读音编辑距离等特性 6 约束级借助主外键约束等信息进行算法设计模式匹配在许多应用中都起着关键作用如数据仓库中的数据抽取过程需要将数据源的数据按仓库的格式转换电子商务信息交换的处理中的异构消息的映射以及数据集成中全局视图的构建由于准确的语义信息不能在模式本身中完全表达只有模式设计者才能真正掌握所以模式匹配的自动实现是一个难以解决的问题使得模式的匹配工作经常要用户大量参与成为数据交换的应用中的瓶颈问题一个高效的模式匹配算法需要一系列的基础技术的组合包括综合考虑语言学相关知识数据类型的内在关联数据实例间的关系以及领域知识等等本文主要研究的模式匹配算法分别借助了模式级结构级以及语言级三方面信息解决数据库模式之东南大硕一 j 学位论文问语义的自动匹配 1 2 研究现状针对不同的技术环境应用场景和用户需求国内外学者们提出了不同的解决方案目前模式匹配主要有基于模式内部信息的模式匹配和基于大规模数据以及背景知识的模式匹配等两类基于待匹配模式内部信息的模式匹配主要有c l i o 法 2 1 s i m i l a r i t yf l o o d i n g 法 3 1 c u p i d l 4 1 p r o b a b i l i s t i cl o g i c 澍5 1 c o n t e x t u a ls c h e m am a t c h i n 9 1 6 1 和基于字典的匹配方法 7 1 等其优点在于整合模式自身信息如深入挖掘字段名描述信息等以获取模式匹配关系其局限性在于模式自身携带语义不完备基于大规模数据以及背景知识的模式匹配主要有 s e m i n t 法1 引 d u p l i c a t e s 法 9 1 m u t u a le n h a n c e m e n t 法1 1 0 和c o r p u s 法 1 u 等该类方法的优点在于能通过对数据实例的挖掘或者以往匹配结果的学习获取关于模式更多的信息但该类算法往往不具备通用性并且大规模的学习数据较难获取上述的模式匹配的研究在一定程度上解决了模式的自动匹配问题但在实际应用中还存在以下几点问题 1 复杂匹配的处理复杂匹配是指1 n n l n n 的匹配复杂匹配是模式匹配中的难点问题模式信息如果处理不当将会成为干扰信息直接影响正确匹配对的生成算法主要表现为查全率较低例如对于s i d 一f i r s t n a m e l a s t n a m e 一n i c k n a m e 和t i d n a m e d i s p l a y n a m e 正确的匹配关系应为 s i d f n i n n n t i d f n l n 加但在不完全信息挖掘的情况下匹配算法很可能不能区分各字段名从而不能找出匹配关系或者找出类似l a s t n a m e d i s p l a y n a m e 的错误关系 2 同名异义的元素匹配即元素的名称相同但语义信息相异例如模式s 有t y p e 字段模式t 中具有b p e c a t e g o r y 字段 s 中的t y p e 与t 中的c a t e g o r y 均用整型量来描述用户所提交文本的分类 t 中的t y p e 表示用户所提交文本的风格如果不考虑完整的语义以及逻辑信息很可能就直接将s 中的t y p e 与t 中的t y p e 直接匹配算法在该项指标的欠缺主要表现为查准率较低 3 匹配效率如果待匹配模式的元素数属性数较少则算法具有较好的效率及质量实际应用在元素及属性的数目都很大的情况下效率及质量都有所下降针对出现的这些问题有必要进行新算法的研究工作从而有效解决上述难题 1 3 研究目标与内容本文主要研究数据库模式的匹配问题研究目标是设计基于加权模糊概念格的数据库模式匹配算法在算法中通过朴素贝叶斯文本分类算法对模式基本信息归类以增加字段匹配的依据通过形式概念分析整合归类阶段的输出结果并构建加权模糊概念格最后基于加权模糊概念格计算概念之间的匹配度从而得出最终的匹配结果实现模式的自动匹配具体如下 1 提出名称分类算法以及描述分类算法分类模式元素在贝叶斯文本分类算法的基础上提出名称分类算法以及描述分类算法分别根据元素名称以及元素描述将目标模式元素与相应的源模式元索归类并提供评估值作为后续的匹配度计算依据 2 提出一种基于矩阵分析的概念格快速构建算法 2 第l 章绪论概念格的构建是形式概念分析的重要结果概念格的构造效率始终是人们关注的问题本论文提出一种基于矩阵分析的概念格快速构建算法 c o n c e p t sg e n e r a t i o na l g o r i t h mb a s e do n m a t r i x a n a l y s i s c g m a 通过引入权值和模糊的概念使得在形式概念分析阶段能够从加权模糊形式上下文的输入中快速构建产生出加权模糊概念格 3 提出一种针对加权模糊概念格的相似度计算模型本文在d es o u z a 与d a v i s 相似计算模型的基础上提出针对加权模糊概念格的相似计算模型用于计算加权模糊概念格中概念之间的相似度 4 提出基于加权模糊概念格的模式匹配算法本文提出的基于加权模糊概念格的模式匹配算法 s c h e m am a t c h i n gb a s e do nw e i g h t e d f u z z yc o n c e p tl a t t i c e s m w f c l 一方面对模式信息进行深挖掘通过获取到丰富的语义信息来增加匹配的精度另一方面综合考虑并整合模式各方面的信息如结构性信息约束信息等并进行整合该算法主要解决数据库模式的匹配问题采用朴素贝叶斯分类算法对数据库模式中的字段元素的名称及描述信息预分类通过形式概念分析来整合预分类结果主外键信息及类型信息并引入权重生成加权模糊概念格最后在加权模糊概念格的基础上利用加权模糊概念格相似计算模型计算最终匹配结果算法以源数据库及目标数据库模式的x m l 文档为输入参数以两模式元素问匹配关系的x m l 文档为输出 1 4 相关知识 1 4 1 贝叶斯学习机器学习的中心问题是概念学习概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数 1 2 1 布尔函数就是待学习的概念称为目标概念记为c 一般来说 c 可以是定义在训练样例集实例集 x 上的任意布尔函数表示为c x 一 o 1 每个训练样例为x 中的一个实例x 它的目标概念值为c z x l f c x l 的训练样例被称为正例对于 c x 0 的实例为反例符号d 表示训练样例的集合一旦给定目标概念c 的训练样例集概念学习面临的问题就是假设和估计c 使用符号片来表示所有可能的假设的集合这个集合是为确定目标概念所考虑的范围通常按设计者所选择的假设表示而定日中每个假设表示x 上定义的布尔函数即h x o 1 机器学习的口标就是寻找一个假设h 使对于x 中所有工办o c x 贝叶斯学习算法是机器学习算法中的重要方法它基于如下的假定 1 2 待考查的量遵循某概率分布且可根据这些概率及已观察到的数据进行推理以做出最优的决策朴素贝叶斯学习器是贝叶斯学习方法中实用性比较高的学习器通过详细研究并比较了朴素贝叶斯学习器和其他学习算法包括决策树和神经网络后发现朴素贝叶斯分类器在多数情况下与其他学习算法性能相当而在文本分类的学习问题朴素贝叶斯学习器是最有效的算法之 1 1 2 l 3 东南大学硕土学位论义本文在朴素贝叶斯文本分类算法的基础上分别设计出名称分类算法以及描述分类算法对源模式及目标模式的元素名称及元素描述进行初始分类并计算出相似概率作为初始的分类依据以做进一步的分析 1 4 2 形式概念分析与概念格形式概念分析 f o r m a lc o n c e p ta n a l y s i s f c a 1 3 1 4 1 是一项基于概念格理论以及命题演算的数据分析方法适用于通过形式上下文也称为形式背景进行信息整合并进行形式化描述已经被应用到许多领域如软件工程知识发现策略分析和心理学等概念格或g a l i o i s 格是形式概念分析理论中的一种核心数据结构概念格的每个结点是一个形式概念由两部分组成外延即概念覆盖的实例内涵即概念的描述实例的共同属性特征概念格通过结构化的方式抽象出人类思维中的概念通常概念格通过h a s s e 图展现概念之间的泛化与特化偏序关系每个概念以结点表示如果概念a 在概念b 之上且二者有直线关联则称概念a 是概念b 的泛化即概念a 仅具有概念b 的部分属性对于图1 所示概念格概念l 为概念2 概念3 概念4 的泛化概念2 概念3 概念4 是概念l 的特化图中4 0 2 3 b 表示概念4 具有外延0 2 3 具有内涵b 3 1 2 c 6 2 b e 图l 概念格的h a s s e 图形式概念分析的相关定义如下定义l 设x 为所有对象的集合 y 为所有属性的集合形式背景是映射 x 一 o 1 如果对象x x 具有属性y y 贝j jf x y l 否则厂五y o 一个包含对象集 l 2 3 4 5 属性集口 b c d 的形式背景可用表l 表示表l 形式背景的表示定义 2 设为xx y 上的形式背景对于x s x 则 c x j r l f x y l v x x 表示x 中全体对象所共有的属性集定义3 设厂为x 上的形式背景对于j y 贝i jc r x x i 厂 x y l v yey 4 第l 章绪论表示同时具有j 中所有属性的对象集定义4 设为x j 上的形式背景 x x y 如果x c y 且y c x 则称 x 为f 上的形式概念 x 分别称为形式概念 x y 的外延和内涵以 r 表示 x 上形式背景f 的所有形式概念集定义5 设为x x y 上的形式背景如果五置 e 是厂的两个形式概念其中表示偏序关系规定 x x 2 营 x x x e 艺誓 x i x 艺称 x 为 x 2 艺的子概念置艺为一 i 的超概念显然关系是集合矗上的一个偏序关系t 它可诱导出矗 r 上的一个格结构可以证明它是一个完备格有关格结构与完备格证明见 1 5 相应的上确界与下确界定义为卜c c 拦计口 g 口 c c 其中一 r 是指标集该完备格称为形式背景的概念格在无歧义情况下仍然记为矗本文在传统的形式概念分析以及概念格的基础上针对形式背景中属性重要性的不同引入权值w o sw 1 表示属性的重要程度同时为了整合朴素贝叶斯分类算法相似度将传统的针对标准形式背景或称为单值背景的概念格扩展为模糊概念格形成本文的加权模糊概念格以便整合更多的匹配依据并最大限度的减少有效信息的丧失 1 4 3 相似计算基于几何学的相似计算模型是相似计算的一类重要模型该类模型将对象问相似性定义为各对象属性空间之间的距离属性空间是相似性计算的一种标准衡量空间 1 6 1 标准衡量空问是相似计算依据的通称是指利用一些对象在感官或心理上的描述性名词来计算对象之间的距离在这里属性空间专指一般意义上的名称属性空间旧基于几何学的基本相似计算模型是通过先验相似性d 以及后验相似性之间的关系来定义1 1 刀若a b 分别是待计算对象口 6 在属性空间上的表示通常以坐标点d 彳 b 来形式化表达a b 在属性空间上的距离 1 8 1 9 1 称为对象口 b 的先验相似性定义 f a 召 g d a 口 1 3 为对象a b 的后验相似性其中g 为某合适的单调非递减函数并满足以下条件 1 自相似 d a 彳 d b 口 2 最低限度 d a 曰 d a 彳 3 对称 d a 曰 d b 彳 4 三角定理 d a 曰 d b c d 彳 c 5 东南大学硕 l 学位论殳 t v e r s k y 与心锄乞扩川证明如果上述条件被满足并且先验相似性是属性空问上的直线距离则d 是m i n k o w s k i 距离即厂1 三 d p a b l 4 一置 9i 4 l j 其中a 4 a n b e 氐j p 0 p 是标识函数特征的常量通过对基于几何学的相似计算模型的调整以及对函数条件的修改可以衍生出多种不同的相似计算模型一般来说相似度计算模型可分为两类 2 q 连续度量空问模型以及基于集合的匹配模型前者的例子是s h e p a r d 模型 1 6 1 它是基于概率分布的后者又可以分为基于几何学基于变形基于特征以及基于联盟的模型基于几何学的模型是指利用代表两个实体的特征向量通过l 或0 来表示实体具有某一特征或不具备某一特征的距离通过n 维空间计算得来来评估相似度基于变形的模型是基于使两个实体相等而需要做出的变形的次数如 d n a 序列a c c g 需要两次变形才能变成a c g a 基于特征的模型即考虑了共有的属性也考虑了各自独特的属性典型的例子就是t v e r s k y 的对比模型 2 2 1 根据模型中利用的度量法的数目相似度计算模型还可分为单一模型与组合模型f 2 3 1 组合模型是指相似度的计算结果根据两个或两个以上度量法综合得出单一模型包括j a c c a r dc o e f f i c i e n t 模型及c o s i n em e a s u r e 模型等后者包括了m u l t i w e i g h t e dm e a s u r e 模型 2 4 1 s i m i l a r i t yf l o o d i n g 模型 3 j 以及混合计算模型等混合计算模型可以是基于语言学的计算模型与结构性相似计算模型的组合1 2 5 1 或者基于特征的计算模型与结构性相似计算模型的组合 2 6 1 5 论文主要创新点 1 提出名称分类算法描述分类算法以及类型分类策略归类模式元素 2 提出了针对加权模糊形式上下文的加权模糊概念格的快速构建算法该算法以形式上下文与其中蕴含的概念的关系为基础进行设计运行结果表明在一定量数据规模下算法执行效率优于目前的概念格构建算法 3 提出针对加权模糊概念格的相似计算模型在现有相似计算模型的基础之上研究加权模糊概念格特征设计新的针对加权模糊概念格的相似计算模型 4 提出面向数据库模式匹配的新算法该算法深入挖掘模式的语义信息及结构信息并利用形式概念分析法来整合引入的权重因子及模糊因子最大限度的防止算法处理过程中有效信息的流失实验结果表明本文提出的匹配算法在在解决复杂匹配和同名异义的问题上和效率问题上有所突破提高了匹配的查准率与查全率 1 6 论文组织结构本文首先分析了模式匹配的研究背景及现状针对现有方案的不足设计并实现了一种基于加权模糊概念格的模式匹配方案在方案的设计中提出了概念格的快速构建算法并提出以该加权模糊概念格为研究对象的相似计算模型论文的组织结构如下所示 6 第l 章绪论第l 章绪论概述本文的研究背景及研究现状分析现有方案中存在的不足简要介绍本文的研究目标内容及创新点第2 章模工弋信息分类策略介绍模式信息分类相关知识背景设计模式信息分类策略名称分类算法描述分类算法以及类型分类策略第3 章模式信息整合方法介绍模式信息整合相关知识背景提出基于加权模糊概念格的模式信息整合方法并设计了一种快速构建概念格的算法第4 章匹配度的相似计算模型介绍相似计算模型相关知识提出新的基于加权模糊概念格的相似计算模型第5 章基于加权模糊概念格的模式匹配算法详细介绍了s m w f c l 算法的执行步骤并通过与其他方案的比较评估本算法性能第6 章总结与展望对本文进行总结并指出了本文待完善之处及今后的研究方向 7 东南大学硕f j 学位论义第2 章模式信息分类策略对模式信息分类是模式匹配的第一步根据名称描述以及类型分别对模式元素进行分类将模式的每个元素定义为一个类别分别计算目标模式各元素隶属各源模式元素的隶属度若隶属度大于某阈值则将该目标模式与对应的源模式元素归为一类同时保留其隶属度值以备后用模式信息分类涉及名称分类算法描述分类算法以及类型分类策略其中名称分类算法及描述分类算法基于文献 2 7 q b 提出的朴素贝叶斯文本分类法类型分类策略以通用数据库所定义的类型为对象分类朴素贝叶斯文本分类法是贝叶斯分类法的典型应用贝叶斯分类法是机器学习中一种直接操作概率的学习方法本章首先介绍了机器学习中贝叶斯分类法的原理贝叶斯法则然后介绍了朴素贝叶斯分类法及其在文本分类中的应用最后阐述了在朴素贝叶斯文本分类法基础上的模式信息分类方法 2 1 相关概念机器学习中我们的主要问题是解决在给定的训练数据d 时确定假设空问日中的最佳假设所谓最佳假设一种方法是把它定义为在给定的数据d 以及中不同假设的先验概率的有关知识下的最可能假设贝叶斯理论提供了一种直接计算这种可能性的方法更精准的讲贝叶斯法则提供了一种计算假设概率的方法它基于假设的先验概率给定假设下观察到不同数据的概率以及观察到的数据本身尸办表示在没有训练数据前假设h 拥有的初始概率被称为h 的先验概率 p r i o r p r o b a b i l i t y 它反映了我们所拥有的关于h 是一正确假设的机会的背景知识如果该先验知识缺失那么可以简单地将每个候选假设赋予相同的先验概率尸 d 代表将要观察到训练数据d 的先验概率即在没有确定某一假设成立时d 的概率 p di 办代表假设h 成立的情况下观察到数据d 的概率在机器学习的问题中我们感兴趣的是p hj d 即给定训练数据d 时h 成立的概率 p hl 功称为h 的后验概率 p o s t e r i o rp r o b a b i l i t y 因为它反映了在看到训练数据d 后h 成立的置信度注意后验概率p hld 反映了训练数据d 的影响相反先验概率尸是独立于d 的贝叶斯法则是贝叶斯学习方法的基础以为因为它提供了从先验概率尸办以及尸 d 和 p d l 办计算后验概率p h l d 的方法贝叶斯公式砌等铲从直观上来看 p h ld 随着p h 和p d ih 的增长而增长同时也可以看出p h id 随着p d 的增加而减少这是很合理的因为如果d 独立于h 时被观察剑的可能性越大那么d 对h 的支持度越小在许多学习场景中概念学习考虑候选假设集合并在其中寻找给定数据d 时可能性最大第2 章模式信息分类方法的假设h h 如果存在多个这样的假设时选择兵一这样的具有最大n 7 能性的假设被称为极大后验假设确定极大后验假设的方法是用贝叶斯公式计算每个候选假设的后验概率更精准的说当下式成立的时候称为m a p 假设 m a x p h l d 月e 盯 m 毅幽垒出生拓片尸 d m a x p d i h p h 6 公式6 中去掉了p d 因为它是不依赖于h 的常量在某些情况下可假定h 中每个假设有相同的先验概率即对h 中任意囊和勺尸囊尸勺这时把等式进一步简化只考虑p dj 来寻找极大可能假设 p d i 办常被称为给定h 时数据d 的似然度而使p d l 矗最大的假设被称为极大似然假设 m a x i m u m l i k e l i h o o d m l 假设 m a xp dh 与机器学 3 问题相结合后我们把数据d 称为某目标函数的训练样例而把日称为候选目标函数空间 2 2 朴素贝叶斯分类朴素贝叶斯分类器是贝叶斯学习方法中实用性比较很高的学 3 器在朴素贝叶斯应用的学习任务中每个实例x 由属性值的合取来描述目标函数曲从各类别集合y 中取值提供学习器一些关于目标函数的i i l 练样例以及待学习的目标实例以属性的 l 维特征向量表示然后要求预测新实例所属的分类贝叶斯方法的新实例分类目标是在给定描述实例的特征向量下得到最可能的目标值 m a x e v i 口i 口 q 航帮掣 m a xp a a 2 巳l 尸 7 现在需要获取公式7 中p q a 2 a nl p 两项的值估计每个p 很容易只要计算每个分类出现在训练数据中的频率就可以同时朴索贝叶斯分类器给予一个简单的假定在给定分类时属性值之间相互条件独立该假定说明在给定实例的分类的情况下观察到东南大学硕上学位论文 q 以的联合概率等于每个单独属性的概率的乘积 e a 口 ql n p qi f 将其代入公式7 得 v m a x 尸耳p 口j l 其中表示朴素贝叶斯分类器的输出的分类 2 3 朴素贝叶斯分类在文本分类中的应用 8 9 所谓文本分类问题是指考虑问题空间x 包含j 所有的文本文档即任葸长度的所有司能的单词和标点字符串给定某未知目标函数厂的一组训练样例厂 x 的取值来自于某有限集合v 此任务是从训练样例中学习以预测后续文本文档的目标值利用朴素贝叶斯分类原理文献1 2 8 给出了贝叶斯文本分类算法l n b t e x a r n p l e c 与c n b t d o c 该算法基于以下两个假定 1 一个位置上出现某单词的概率独立于另外一个位置出现任何单词的概率 2 一个特定的单词出现的概率与单词所在位置无关 l n b t e x a m p l e c 与c n b t o o c 算法描述如下 l e a r n n a i v e b a y e s t e x t e x a m p l e v 收集e x a m p l e 中所有的单词标点符号以及其它记号 v o c a b u l a r y 在e x a m p l e 中任意文本文档中出现的所有单词及其记号的集合计算所需要的概率项尸和尸 i 对y 中每个目标值 d o c s 卜e x a m p l e s 中目标值为v 的文档子集 p 卜阐 d o c s t e x t y 6d o c s 中所有成员连接起来建立的单个文档刀卜et e x t 中不同单词位置的总数对v o c a b u l a r y 中每个单词m 体卜单词 i e e t e x t 中的次数 1 0 第2 章模式亿息分类方法 p i 卜可丽n k 网1 停止算法时间复杂度为d 旷i l 场c 曲甜肠秒i e x a m p l e 为一组文本文档以及它们的目标值类别矿为所有可能目标值的集合此函数作用是学习概率项尸叱iv j 它描述了从类别中的一个文档中随机抽取的一个单词为英文单词的概率该函数也学习类别的先验概率尸 c l a s s i f l l n a i v e b a y e s t e x t d o e p o s i t i o n4 在d o e 中所有单词位置它包含能在v o c a b u l a r y 中找到的记号返回 2 蛩p 旭曼尸口停止对文档d o e 返回其估计的目标值谚代表在d o e 中的第i 个位置上出现的单词在新文档中出现但不在训练集的文档中出现的任何单词将被简单的忽略 2 4 模式匹配中的信息分类方法设计本节介绍模式信息分类的名称分类算法描述分类算法以及类型分类策略 2 4 1 名称分类算法以朴素贝叶斯学习文本分类算法的核心算法l n b t e x a m p l e c 与c n b t d o e 为基础提出名称分类算法算法思想如下 1 采用分隔符如 f i r s t n a m e 分割成 f i r s t n a m e 和字段表示如 d e p n o 分割后变成 d e pn o 等两种策略对字段分割 2 将分割后得到的单词进行扩展即根据应用的领域找出单词对应的同义词形成单词集 3 以每个源模式字段为一个类别对该字段单词集中每个单词进行露段 k 为解析字符数即解析后每个子段具有k 个字符解析解析后的数据作为该字段类别的训练样例若七取值为3 则单词 a u t h o r 解析后的数据为 a u tu t h t h o h o r 不同七值对算法的评价指标运行时间和归类结果的平均估计概率产生不同的影响为确定合适的k 值考察k 分别为1 2 3 4 5 的情况七值对算法评价指标影响的实验结果如表2 所示由表2 可以看到文本分类算法在切割长度为3 的情况下既可维持较高的估计概率也东南大学硕 i 位论文具备较快的运行时间所以合适的k 值为3 表2k 值对朴素贝叶斯文本分类算法的影响 4 将目标模式字段3 段解析后的文本作为待分类数据送入已经训练好的朴素贝叶斯学习器计算出该目标字段属于各源字段类别的估计概率各源模式字段以及按概率大小降序排列目标字段共同组成一类只卜 f l m 其中m 为源模式中字段的数目刀为目标模式字段的数目本文提出的名称分类算法具体描述如下 1 根据源模式字段名称建立初始类别构建训练样例并送入学习器 s o u r c e n a m e j 烈a l y s i s s c h e m a s s o u r c e e l e s e t 卜源模式中的所有字段集用4 源模式字段数 k4 3 类别集合 c 卜a s a m p l e s 卜o 按字段命名特征选取分割策略分割s o u r c e e l e s e t 中每个字段乞 i 1 m 按选取的策略切割q 后得到的所有单词形成集合s o u r c e e l e l n i s e t 对s o u r c e e l e s e t 中每个字段q f l m q4 p 文本集z 卜o c 卜c u q 扩展s o u r c e e l e l n i s e t j 中每个单词的同义词并加入s o u r c e e l e l n i s e t 形成新集合 s o u r c e e l e s e t j s o u r c e e l e s e t 中的每个单词h t 1 s o u r c e e l e s e t i 进行七段解析 s a m p l e s 卜s a m p l e su 类别q 与文本集z 的匹配关系 t e x t 卜单词w 解析后的文本字符串巧卜z u t e x t 调用朴素贝叶斯文本文类算法l n b t s a m p l e s c 学习样例停止 2 根据目标模式字段描述建立待分类样例 t a r g e 飞奠a m e a n a l y s i s s c h e m a t t

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于加权模糊概念格的模式匹配算法.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于加权模糊概念格的模式匹配算法.pdf

文档简介

温馨提示

最新文档

评论

相关文档