(计算机软件与理论专业论文)数据模板匹配研究及在社保审计中的应用.pdf_第1页
(计算机软件与理论专业论文)数据模板匹配研究及在社保审计中的应用.pdf_第2页
(计算机软件与理论专业论文)数据模板匹配研究及在社保审计中的应用.pdf_第3页
(计算机软件与理论专业论文)数据模板匹配研究及在社保审计中的应用.pdf_第4页
(计算机软件与理论专业论文)数据模板匹配研究及在社保审计中的应用.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机软件与理论专业论文)数据模板匹配研究及在社保审计中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

h c l a s s i f i e di n d e x : u d c : ad i s s e r t a t i o nf o rt h ed e g r e eo fm e n g r e s e a r c ho nd a t at e m p l a t em a t c h i n ga n d a p p l i c a t i o no f so c i a ls e c u r i t y a u d i t c a n d i d a t e : s u p e r v i s o r : a c a d e m i cd e g r e ea p p l i e df o r : s p e c i a l i t y : d a t eo fs u b m i s s i o n : d a t eo fo r a le x a m i n a t i o n : u n i v e r s i t y : l i ug u o f e n g a s s o c i a t e - p r o f p i a ox i u f e n g m a s t e ro fe n g i n e e r i n g c o m p m e r s o t t w a r ea n dt h e o r y j a n u a r y , 2 0 1 0 m a r c h , 2 0 1 0 h a r b m e n g i n e e r i n gu n i v e r s i t y k 、a 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :奠1 圃雄 日期:0 3 0 1 0 年3 月,么日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可口在授予学位1 2 个月后口解 密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :刘阅本 导师( 签字) :1 卟磊忍 日期:o ) o t o 年3 月“日o ) o l o 年3 月,占日 k ,! 、 。 哈尔滨工程大学硕士学位论文 摘要 社会保障关系到人民群众的切身利益,因此对其进行相应的监督和审查 是审计工作的重中之重。由于社保信息系统的多样性和异构性,在将社保数 据库中的数据导入到审计数据库中时,经常会遇到数据项不一致的情况。目 前解决该问题的方法是由审计人员对双方数据模板进行分析,手工建立二者 间的对应关系。虽然该方法具有较高的准确度,却需要花费大量的时间和精 力。因此实现社保审计数据模板的半自动自动匹配,已成为审计机关亟待解 决的问题。 本文从模式匹配入手,结合已有的国内外模式匹配技术研究社保审计数 据模板匹配方法,对数据模板手工匹配遇到的匹配空间过大难于确定匹配范 围、名称不规则难于发现匹配关系等问题进行深入分析,设计出一种融合语 义的社保审计数据模板匹配模型,围绕该模型中模式分类和匹配生成两个主 要部分的构建进行研究,主要包括:模式分类部分中社保审计数据模板模式 类别划分、分类信息提取及处理、基于朴素贝叶斯模式分类方法的实现、基 于知网模式分类方法的实现以及分类结果的合并,匹配生成部分中基于语义 相似度传播的模式匹配生成以及匹配结果选择等。 最后,本文通过实验验证社保审计数据模板匹配模型,并对实验结果进 行对比分析,最终验证该模型在社会保障审计领域执行数据模板匹配过程中 的正确性与高效性。 关键词:社会保障审计;模式匹配;数据模板;知网 k t 1 _ 哈尔滨工程大学硕士学位论文 a b s t r a c t t h es o c i a l s e c u r i t yr e l a t e st ot h ev i t a l i n t e r e s t so ft h e p e o p l e ,s o i t s s u p e r v i s i o na n de x a m i n a t i o na r et h et o pp r i o r i t yo fa u d i tw o r k b e c a u s eo ft h e d i v e r s i t ya n dh e t e r o g e n e i t yo fs o c i a ls e c u r i t yi n f o r m a t i o ns y s t e m s ,i to f t e n e n c o u n t e r sd a t ai t e m si n c o n s i s t e n c yw h e nt h ed a t ai ns o c i a ls e c u r i t yd a t a b a s e i m p o r t st o a u d i td a t a b a s e c u r r e n t l y , t h em e t h o dt os o l v et h ep r o b l e mi st o e s t a b l i s ht h ec o r r e s p o n d i n gr e l a t i o n s h i pb e t w e e nt h es o u r c et e m p l a t ea n dt a r g e t t e m p l a t em a n u a l l y a l t h o u g ht h ea c c u r a c yo fm a p p i n gb e t w e e nt w ot e m p l a t e s e s t a b l i s h e dm a n u a l l yi sh i g h , i ta l w a y st a k e sm u c ht i m ea n de f f o r t s oi th a s b e c o m eas e r i o u sp r o b l e mt oi m p l e m e n ts e m i - a u t o m a t i c a u t o m a t i cm a t c h i n go f d a t at e m p l a t ei ns o c i a ls e c u r i t ya u d i t t h i st h e s i ss t u d i e st h ep a t t e mm a t c h i n gt e c h n o l o g ye x i s t i n gb o t ha th o m e a n da b r o a d ,ad a t at e m p l a t em a t c h i n gm o d e lw h i c hb a s e do ns e m a n t i ci sp r o p o s e d t od e a lw i t ht w om a j o rp r o b l e m si nt e m p l a t em a t c h i n gp r o c e s s ,t h eo n ei st h a t m a t c h i n gs p a c ei st o ol a r g et od e t e r m i n et h es c o p eo fm a t c h i n g ,t h eo t h e ri st h a ti t i sd i f f i c u l tt of o u n dm a t c h i n gr e l a t i o n sd u et oi r r e g u l a rn a m e t h er e s e a r c ho ft h e m o d e lc o n s i s t so ft w op a r t s ,p a t t e r nc a t e g o r i z a t i o na n dm a t c h i n gg e n e r a t i o n t h e p a t t e mc a t e g o r i z a t i o ni n c l u d e sc a t e g o r i e si d e n t i f i e do fd a t at e m p l a t ei ns o c i a l s e c u r i t ya u d i t ,c l a s s i f i e di n f o r m a t i o ne x t r a c t i o na n dp r o c e s s i n g ,t h ei m p l e m e n - t a t i o no fp a t t e r nc a t e g o r i z a t i o nb a s e do nn a f v e b a y e sa n dh o w n e t , a n dt h e c o m b i n a t i o no fc a t e g o r i z a t i o nr e s u l t s m a t c h i n gg e n e r a t i o nc o n s i s t so fp a t t e m m a t c h i n gg e n e r a t i o nb a s e do nt h es i m i l a r i t yf l o o d i n ga l g o r i t h ma n dt h em e t h o dt o c h o o s ec a n d i d a t e s f i n a l l y , t h em o d e lo fd a t at e m p l a t em a t c h i n gi ns o c i a ls e c u r i t ya u d i ti s c h e c k e db ye x p e r i m e n t s ,a n dt h ee x p e r i m e n t a lr e s u l t sa r ea n a l y z e dt ov e r i f yt h e 哈尔滨工程大学硕士学位论文 c o r r e c t n e s sa n de f f i c i e n c yo ft h em o d e l k k e y w o r d s :s o c i a ls e c u r i t ya u d i t ;p a t t e r nm a t c h i n g ;d a mt e m p l a t e ;h o w n e t r o ,一 , 哈尔滨t 程大学硕士学位论文 第1 章 1 1 1 2 1 3 1 4 第2 章 2 1 2 2 2 3 2 4 2 5 第3 章 3 1 3 2 3 3 3 4 第4 章 4 1 4 2 目录 绪论l 研究背景及意义1 国内外研究现状3 研究内容5 论文结构6 数据模板匹配中的关键技术概述8 模式匹配技术8 2 1 1 模式匹配概述8 2 1 2 模式匹配流程9 文本分类技术1 0 2 2 1 文本分类步骤1 0 2 2 2 朴素贝叶斯分类方法1 1 中文分词技术1 3 知网1 4 本章小结。1 4 社保审计数据模板匹配方法研究1 5 社保审计数据模板匹配中的异构问题分析1 5 现有模式匹配方法在社保审计应用中的不足1 8 融合语义的社保审计数据模板匹配模型2 0 3 3 1模式分类2 0 3 3 2 匹配生成2 2 本章小结2 3 社保审计数据模板的模式分类实现2 4 模式分类的基本思想2 4 模式分类准备2 6 4 2 1 社保审计数据模板匹配中的类别划分2 6 “ u r i 一 i 。 哈尔滨工程大学硕士学位论文 4 2 2 社保审计数据模板匹配中的分类信息选择2 7 4 2 3 社保审计数据模板匹配中的分类信息处理2 7 4 3基于朴素贝叶斯的模式分类方法2 9 4 4基于知网的模式分类方法31 4 4 1 词语相似度计算3 2 4 4 2 描述相似度计算3 4 4 4 3 文本相似度计算3 6 4 4 4 文本与类别相似度计算3 7 4 5结果合并3 7 4 6本章小结3 7 第5 章社保审计数据模板的模式匹配生成3 8 5 1基于相似度传播的模式匹配算法思想3 8 5 2基于语义相似度传播的模式匹配算法3 9 5 - 2 1匹配预处理3 9 5 2 2 初始相似度计算4 1 5 2 3 语义相似度传播4 3 5 2 4 匹配选择4 5 5 3本章小结。4 6 第6 章实验与分析4 7 6 1模式分类实验4 7 6 1 1 实验方案4 7 6 1 2 实验结果4 9 6 2匹配生成实验。4 9 6 2 1实验方案4 9 6 2 2 评价指标5 0 6 2 3 实验结果51 6 3本章小结5 2 结论5 3 参考文献5 4 攻读硕士学位期间发表的论文和取得的科研成果5 8 蜀c 谢。5 9 哈尔滨工程大学硕士学位论文 1 1 研究背景及意义 第1 章绪论 社保基金作为老百姓的保命钱,其重要性不言而喻,因此加强对社保基 金的审计监督,将有力推动基金的正常运转和社会保障体系的不断健全,并 解决人民最根本的利益问题。 随着信息技术的持续发展,手工审计已不在适应经济管理的需求,因此 用计算机来辅助审计就成为必然趋势。 与国外相比,国内计算机辅助审计开展的较晚,目前正属于尝试阶段。 由黑龙江省审计厅和哈尔滨工程大学合作、审计署社会保障审计司指导下开 发的社会保障联网审计系统,在审计机关与社会保障机构互连的基础上,适 时采集社会保障部门数据,从而实现对社保基金的动态、实时监督。联网审 计工作由下述五个阶段组成:数据模板匹配、数据抽取、数据导入、审计疑 点发现、审计疑点核实,它们之间的层次关系如图1 1 所示。 数据模板匹配 之多 数据抽取 之多 数据导入 之多 审计疑点发现 之乡 审计疑点核实 图1 1 社保联网审计流程 其中,数据模板匹配阶段是整个审计工作的起始,作为审计工作的重点 f 。一 i 哈尔滨工程大学硕士学位论文 之一,该阶段用于建立审计机关与社保机构间的数据对应关系。数据抽取阶 段则按照得到的对应关系从社保信息系统中抽取数据。数据导入阶段按照审 计机关所制定的数据接口将社保数据导入到审计系统。审计疑点发现阶段对 社保数据进行分析,生成审计疑点。审计疑点核实则是指审计人员按照所生 成的审计疑点与社保机构进行核对,生成最终审计结果。 目前该系统已在全国1 0 多个省市进行了推广,并取得了相当大的成就, 但与此同时也暴露了一些问题。例如在将从社保信息系统采集到的社保数据 导入到审计数据库中时,由于各地社保信息系统之间的异构性,因此经常会 出现双方数据项不一致、导入数据不完整、数据库表损坏等问题,给审计工 作的开展带来极大的困难。目前解决该问题的方法如下: 首先,由当地社保部门提供一个包含其数据库中部分表定义的文件( 社 保部门与审计机关称其为“数据模板 ) ,文件中包含以下内容:每个表的英 文名称及中文描述、每个表所含属性的英文名称及中文描述、属性的数据类 型、属性的长度等。 然后,由审计人员对该数据模板中的表和属性进行语义分析,手工建立 其与审计数据模板中表和属性的对应关系,并按照所得对应关系编写相应的 s q l 语句,按照审计数据模板中的表结构提取所需数据,并将其导入审计数 据库,最后运行审计软件,进行审计发现。 这种由手工建立数据对应关系的方法,虽然准确率较高,但却需要花费 大量的时间和精力,且只适用于数据模板中表和属性数量较小的情况。当表 和属性的数量增加时,手工建立对应关系显然就不是一个好的选择,不仅需 要花费更大的时间和精力,而且可能出现漏配、误配等现象,这势必阻碍审 计工作的有效开展,降低审计疑点的可信度。例如在对某市社保部门实施审 计时,其数据库中包含4 3 个表,1 3 9 0 多个属性,数据模板匹配工作花费近 1 0 天,占审计工作总时间的三分之一,严重阻碍了后续审计工作的开展。因 此实现数据模板的半自动自动匹配已经成为审计机关亟待解决的问题之一。 在某种程度上来说,数据模板匹配可视为模式匹配,社保审计数据模板 2 l 一 哈尔滨丁程大学硕士学位论文 所包含的内容即为数据库中的模式,因此本文从模式匹配的角度研究社保审 计数据模板的匹配方法。 1 2 国内外研究现状 近年来,相关领域的研究人员提出了许多模式匹配方法并开发出了半自 动自动的模式匹配系统。 s k a t 【l 】是一种基于规则的模式匹配方法。该方法需要用户对其应用领域 的匹配关系进行定义,其中包括匹配关系和非匹配关系两种,然后按照这些 定义形成匹配所需的规则,用于完成新的匹配任务。s k a t 很大程度上依赖 于用户对匹配非匹配关系定义。 s e m i n t1 2 1 是一种混合匹配方法,该方法利用神经网络技术来识别异构 数据库中属性间的对应关系。s e m i n t 支持存取多种数据库系统,并且使用 模式信息和实例信息生成自动匹配相应的属性规则。s e m i n t 还应用多个匹 配标准发现匹配关系,最具代表性的是基于约束的匹配标准和基于内容的匹 配标准。但该方法不支持基于名称的匹配或图匹配,且过分依赖于人的手工 操作。 c u p i d 【3 】是一种混合匹配方法,该方法利用元素的名称、数据类型、约束 和模式结构等信息,结合名称匹配和结构匹配算法计算元素间的相似度。匹 配过程由以下三个部分组成:首先对待匹配元素进行规范化和分类处理,并 使用领域本体计算两个元素的相似性,然后将模式以树的形式表现出来,树 中结点的相似程度由树中的叶子结点的相似度聚集得到,最后由以上两种结 果的加权平均得到元素间的最终匹配。总体来看,c u p i d 融合许多其它技术 来完善自身匹配技术,但相对于其它匹配系统来说,c u p i d 在模式匹配领域 并没有取得较大突破。 l s d 4 1 是一种基于机器学习方法的模式匹配系统。l s d 主要使用机器学 习的方法计算元素间的相似度,在匹配过程中使用了大量的实例数据。l s d 中的学习器包括名称学习器、x m l 学习器、朴素贝叶斯学习器等,每个学习 3 0 哈尔滨工程大学硕士学位论文 器通过对用户提供的匹配结果进行训练,在分类阶段产生各自的相似度预测 值,最后合并各学习器的预测值得到最终匹配结果。 c o m a 5 】是一种合成的匹配方法,它由一个承载了不同匹配器的外部知 识库和一个特殊的匹配器组成,这个特殊的匹配器用来过滤上述不同匹配器 产生的结果,从而形成最终匹配结果。但由于c o m a 只能用于发现模式间 的l :1 匹配,因此严格限制了c o m a 应用领域。 s f t 6 是一种基于结构的模式匹配方法,该方法首先将待匹配模式转换成 有向标记图的形式,并由简单的字符串匹配得到两个有向图中任意结点间的 初始相似度,然后将两个标记图按照边标记进行合并,构成用于后续计算的 传播图,并为图中每条边添加反向边和权值,最后采用定点计算和多次迭代 计算形成初始的候选匹配集合。通过使用约束、域知识对候选匹配集合进行 筛选,从而形成最终匹配结果。由于该方法通过字符串匹配获得结点间的初 始相似度,因此匹配的准确率将受相似度准确性的影响。 i m a p 7 】是一种基于模式信息和实例信息的混合匹配方法,该方法首先使 用匹配生成器对搜索空间进行检索,生成每一个属性的候选匹配集。然后利 用相似度评估器对候选匹配集中每一个候选匹配进行评分,从而得到一个候 选匹配与目标属性之间的相似度矩阵。通过应用匹配选择器确定属性的最优 匹配达到精化整个匹配过程的目的。相对于其它模式匹配系统而言,i m a p 能 够很好的发现属性间的匹配关系,但由于其匹配生成器的搜索范围过大,当 所有可能的候选匹配数量巨大时,将严重降低匹配效率,同时匹配过程需要 大量人工参与。 s m d d 8 】是一种基于数据实例的模式匹配方法,该方法利用神经网络的 分类功能,通过分析模式所包含属性的数据实例特征来训练用于分类的学习 器,然后利用训练得到的学习器找出具有相同分布特征的属性集合,最后计 算元素之间的相似度并将相似度较高的匹配结果推荐给用户。该方法的优点 在于充分考虑了模式的数据实例信息,但是s m d d 也有自身的缺点,即匹 配质量很大程度上取决于数据分布是否规律。 4 哈尔滨t 程大学硕士学位论文 2 0 0 9 年,刘强等人提出一种基于本体的模式匹配方法【9 】:首先,该方法 对待匹配模式所包含的属性名称进行规范化处理,利用w o r d n e t 的同义关 系、上下位关系计算得到属性间的初始相似度矩阵,并利用决策树算法的推 理功能对该相似度矩阵进行精化,达到排除一词多义的目的;其次,通过构 建数据类型本体计算属性数据类型间的相似度矩阵,构建语义冲突分类本体 解决属性间的精度冲突、格式冲突等问题;最后,通过构建一些轻量级 ( p a r t o f 、i s a ) 语义关系本体来发现属性间一对多的匹配,并由合并上述所 得匹配结果得到最终的匹配结果。由于该方法仅使用模式信息来发现属性间 的匹配关系,而很少考虑数据实例信息,因此在缺少模式信息的情况下,匹 配准确率不高。 目前,模式匹配工作的研究重点主要集中于特定应用领域中匹配算法的 研究【协13 1 、匹配过程中复杂匹配发现的研究1 4 1 及机器学习方法在模式匹配过 程中的应用研究,例如:贝叶斯学习【1 5 ,1 6 1 、神经网络【2 】等。此外,针对现有 匹配模型的不足,研究人员进行了相应的改进或提出新的匹配模型 1 7 q 9 1 。综 上所述,现有的模式匹配方法各具优点,但由于这些方法在实现模式匹配过 程中所采用的理论技术和面向的应用领域各自不同,导致了不存在一种通用 的模式匹配方法能够高效的解决所有领域内的模式匹配问题。 1 3 研究内容 本文应用模式匹配技术研究社保审计领域数据模板匹配方法,即通过利 用和改进现有的模式匹配技术,自动建立社保数据模板和审计数据模板所含 元素的语义对应关系,实现社保审计数据模板的半自动自动匹配。本文的工 作主要包括以下几方面: ( 1 ) 分析现有模式匹配方法,并针对各地社保数据模板中模式元素命名 规则不一、关系复杂、信息量大等特点设计一种融合语义的社保审计数据模 板匹配模型。 ( 2 ) 研究“知网 的组织结构,及其“义原 相似度、概念相似度、词 5 哈尔滨工程大学硕士学位论文 语相似度,句子相似度计算方法。给出由社保审计数据模板中属性描述所构 成的文本相似度、文本与目标模式类别相似度计算方法,进而确定社保数据 模板所含模式在审计数据模板中的所属范围。 ( 3 ) 将基于统计和语义的文本分类方法应用于社保审计数据模板匹配, 给出多策略融合的模式分类方法,及社保审计数据模板所含模式的类别划分、 分类信息提取及处理、分类方法的选择及结果确定。 ( 4 ) 通过研究基于相似度传播的模式匹配算法,改进结点间初始相似度 的获得策略,给出基于语义相似度传播的模式匹配算法,并将其应用于社保 审计数据模板匹配。 1 4 论文结构 本文共分六章,论文的结构安排如下: 第1 章介绍本课题的研究背景及意义,综述研究领域的国内外现状,最 后列出本文的研究内容及研究重点。 第2 章介绍数据模板匹配的理论背景和相关技术。主要包括:模式匹配 概述及关键技术、中文信息处理领域的分词技术、文本信息处理领域的文本 分类技术及语义相似度计算中的常识知识库知网等。 第3 章介绍社保审计数据模板匹配过程中遇到的各种问题,通过分析现 有模式匹配方法在社保审计应用中的不足之处给出融合语义的社保审计数据 模板匹配模型。 第4 章介绍社保审计数据模板的模式分类方法,从类别的划分、信息的 提取及处理、分类方法的选择及结果确定几个方面对该方法进行阐述。 第5 章介绍社保审计数据模板的模式匹配生成,分析基于相似度传播的 模式匹配算法的不足之处,给出基于语义相似度传播的模式匹配算法,从匹 配预处理,初始相似度计算、语义相似度传播、匹配选择等方面对该算法进 行阐述。 第6 章介绍本文给出的融合语义的社保审计数据模板匹配模型在社保审 6 哈尔滨工程大学硕士学位论文 计领域数据模板匹配中的实验方案及实验结果的分析。 最后,对论文的研究工作进行总结,并给出后续工作的研究方向。 7 哈尔滨工程大学硕七学位论文 第2 章数据模板匹配中的关键技术概述 数据模板匹配工作的顺利开展一般需要与多种关键技术相结合,如中文 分词、文本分类等,因此本章将对数据模板匹配过程中所用的理论知识和技 术进行介绍。 2 1 模式匹配技术 模式匹配是指把两个模式作为输入,利用模式所包含的信息来建立两个 模式元素间语义对应关系的过程【2 们。这里的模式可以是关系数据库模式 ( r e l a t i o nd a t a b a s es c h e m a ) 、x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 和本体 ( o n t o l o g y ) 等类型。 2 1 1 模式匹配概述 早在2 0 世纪8 0 年代,人们就开始致力于模式匹配的研究,但此时的模 式匹配主要是为模式集成服务。模式集成是指从一组给定且独立开发的模式 中构造一个全局视图的过程【2 l 】。由于模式大多是独立开发的,描述数据的数 据模型或存储结构经常会出现模式的不一致。因此,在进行模式集成之前就 需要对这些模式间的关系进行确定,即模式匹配。 进入2 0 世纪9 0 年代,随着信息社会的高速发展和数据库的大量应用, 模式匹配作为数据管理应用中的基础性问题则越来越受到人们的关注,如 w e b 数据集成、电子商务、数据仓库等。目前,模式匹配大多还是由系统开 发人员、领域专家、d b a 手工来完成,需要花费大量的时间和精力且准确度 较低,如何提高匹配的效率和准确率,仍是目前所关注的焦点。 针对现有的模式匹配方法来说,大致可以将其分为以下三类:基于模式 ( s c h e m a - b a s e d ) 的匹配、基于实例( i n s t a n c e b a s e d ) 的匹配和基于结构 ( s t r u c t u r e b a s e d ) 的匹配【2 0 ,2 2 】。基于模式的匹配主要考虑模式信息,例如元 8 哈尔滨工程大学硕士学位论文 素名称、描述、数据类型等。 一般情况下,基于模式的匹配可以发现复杂匹配关系。对于每一个匹配 候选,匹配器都用一个标准化的数字值来评估其相似度,以此来标识最优的 候选匹配。基于实例的匹配主要利用数据的分布、统计等特征的相似性进行 匹配,由于数据实例能够深入洞察模式内容和模式元素意义,因此在缺少模 式信息的情况下,数据实例就变得尤为重要。在一些极端的情况下,当任何 模式信息都没有给出时,可以人工或自动地由数据实例构造出模式。基于结 构的匹配主要使用图匹配算法来发掘模式间结构的相似性【9 】,通过对两个模 式的整体结构进行对比分析,找出结构中共同出现的匹配组合 2 3 1 。对于结构 中仅有部分匹配的复杂情况,还可以通过已知的等价模式来提高模式匹配的 精度。具体采用哪一种匹配方法,一般与可获取的信息相关【2 4 】。 2 1 2 模式匹配流程 匹配前,制定一个明确的匹配计划将有助于匹配工作的顺利进行。一个 完整的匹配,首先需要制定一个清晰的、规范的匹配目标,尽可能的收集匹 配所需要的信息,如目标模式和源模式的模式信息、数据实例、领域知识等, 并对获取的信息进行合理的组织和表示,以便于计算机的处理。此阶段作为 匹配流程中的重点,可能需要花费较多的时间和精力,但总体来看是值得的。 其次,对于模式匹配方法的选择,前面也曾提及,该阶段可能要与实际 获取的模式元素特征相结合,如果匹配准备阶段获取的信息以数据实例为主, 那么应优先考虑基于实例的匹配方法;如果获取的信息较充足,那么可以考 虑多种匹配方法相结合。选择适当的模式匹配方法不仅有助于匹配准确率的 提高,还有助于减少后续人工确认的工作量。 最后,呈现匹配结果,对于匹配方法所得到的结果,应将其表示成便于 用户查看的形式,返回给用户,通过用户的比较分析得到最终匹配结果,至 此完成整个匹配。 9 哈尔滨t 程大学硕+ 学位论文 2 2 文本分类技术 文本分类属于一种信息管理技术,是指利用计算机程序来识别待分类文 本与指定类别间的关系【2 5 】。最早的文本分类研究开始于2 0 世纪6 0 年代,但 直到9 0 年代才逐渐成为信息处理、数据挖掘和机器学习领域的主要研究内 容。目前,文本分类的研究主要集中于以下两个方面:( 1 ) 分类方法的研究, 其中以机器学习方法为主,包括神经网络【2 6 】、朴素贝叶斯、支持向量机【2 7 ,2 8 】 等。( 2 ) 文本分类中的特征选择研究 2 9 , 3 0 1 。 2 2 1 文本分类步骤 一个完整的文本分类过程通常由选取训练数据集、文本信息处理、文本 特征提取、训练文本分类器、分类器分类、分类结果的评价六个部分组成。 选取训练数据集是文本分类过程中的第一步,由于选取数据集的合理性 将影响到分类结果的准确性,因此选取的数据集应能较好的体现各类别间的 差异,尽量避免根据分类标准一个文本可以属于多个类别的现象。目前常用 的方法是使用公认的并由人工分类确定的语料库。 文本信息处理主要是将文本表示成计算机可以处理的形式,该阶段一般 需要对文本进行分词和停用词处理,并将切分后的词条表示成向量的形式。 文本特征提取用于对分词完成后的词条集中的进行筛选。由于经分词处 理后的文本维数往往会达到几千维,甚至上万维,如果将这些词条都作为该 文本的特征将会加大后续的计算时间【3 1 】。实际上,在这些词条当中有一部分 是可以去掉的,例如出现频率较小的词条、重复出现的词条等。 训练文本分类器用于对输入的训练文本集进行学习,确定和调整分类器 的每个参数值,并生成用于正式分类所需的分类器。 分类器分类阶段则利用训练得到的分类器对信息处理后的待分类文本进 行类别确定,将其划分到其应属的类别中。 分类结果的评价用于对分类器输出的结果进行评价,考察结果是否与预 期的分类结果相吻合,如果分类结果有误,则应对分类器进行适当的调整。 1 0 2 2 2 朴素贝叶斯分类方法 朴素贝叶斯分类方法( n a i v e b a y e s ) 是一种较常用的分类方法【3 2 ,3 3 1 。该 方法基于这样一个假设,即不同属性值对类别的影响是相互独立的。这一假 设很大程度上简化了计算的复杂度,分类的速度也得到提高,因此被称为是 “朴素 的。 朴素贝叶斯分类方法由以下几个步骤组成: ( 1 ) 提取训练数据集中每个样本,并将其表示成一个n 维特征向量 丁= ,t 2 ,乙) 的形式,其中,乞,乙表示对文本中n 个属性的玎个度量。 ( 2 ) 按照一定的分类标准将训练数据集划分成k 个类别,类别构成的集 合为c = q ,乞,咯) ,通过采用( 1 ) 中的方法,对相同类别中的文本进行 处理,那么就可以得到一个用于表示每个类别的样本向量空间。 ( 3 ) 对于一个给定的待分类文本d ,可以将其属于某个类别 q ( i = 1 ,2 ,k ) 的概率表示为p ( qid ) ,根据贝叶斯理论的极大后验假设原理, 朴素贝叶斯分类器将会把文本d 划分到p ( qd ) 值最大的类别q 当中。 ( 4 ) 由贝叶斯定理可得: p ( 小) = 掣 像1 ) p l 口j 由全概率公式可将( 2 1 ) 式改写为( 2 2 ) : 北旧2 嫠p ( c , ) 盟p ( d l q ) ( 2 - 2 ) 旺叱 由于使用朴素贝叶斯分类方法进行分类时,待分类文本d 将会被表示成 n 维特征向量丁= ,t 2 ,乙 的形式,因此,( 2 2 ) 式可转化为公式( 2 3 ) : p c q d ,2 嚣2 1 主薹耄考畿 c 2 3 , p ( q ) p ( dq )p ( q ) p ( ,f 2 ,乙iq ) u 。夕 下面分别对影响p ( qd ) 大小的每个因素进行分析。首先考虑( 2 - 3 ) 式 哈尔滨工程大学硕士学位论文 中的分母( 2 - 4 ) 式: p ( d ) = p ( c ,) p ( dlq ) = p ( q ) p ( ,t 2 ,乙lq)(2-4) 由于p ( d ) 在每个类别中取值都相同,因此,在比较大小时可以不对其进 行考虑,也就是说,实际决定p ( qi d ) 大d , n n 素应为p ( q ) 和p ( ,乞,乙i q ) 值的大小。 其中p ( c j ) 为类别q 的先验概率,对其进行估值的常用方法有两种,一种 是将类别c 中的文本数量占所有类别中总文本数量的比值作为其估计值,即 公式( 2 5 ) : 比卜姑i c , i 沼5 , “。 另一种方法是采用拉普拉斯概率对其进行估值,即公式( 2 6 ) : 比卜篇k i 协6 , + ya k 厶o , 其中,i ql 表示类别c t 中的文本个数, k ic ei 代表后个类别中的文本数量 i = 1 之和。 对于p 瓴,乞,乙iq ) 值的计算,前面曾提到朴素贝叶斯分类方法是基于 这样一个假设,即属性值对类别的影响是相互独立的。因此,在计算该值时 可以将表达式p 瓴,2 ,乙i q ) 转换为公式( 2 7 ) - p ( ,乞,乙l e ) = p ( i c , ) p ( t 2j e ) p ( 乙l q ) = r i p ( 0j q )( 2 7 ) i = l 其中,p o ,l q ) 表示特征词f ,在类别q 中出现的概率,可以采用拉普拉斯 概率对其进行估值,即公式( 2 8 ) : 1 2 哈尔滨工程大学硕士学位论文 1 1 - t r l 岛j p 够2 忑 亿i - - q o ) 、1 , 刀+ c 一。 其中,f ;表示特征词,在类别q 所有文本中出现的总次数,刀表示类别q 被表示成特征向量后的维数。 2 3 中文分词技术 中文自动分词作为中文信息处理中的一项基础性工作越来越受到人们的 关注【3 4 】,在中文文本分类、机器翻译、中文文献检索等领域都有着广泛的应 用。中文与英文有着明显的不同,英文是以词来进行区分,而中文中的字才 是最小单位,因此采用英文的分词方法来处理中文显然是不合适的。基于对 中文自身特点的分析,目前研究人员开发出了许多优秀的分词系统,这些分 词系统所采用的分词方法大致分为下三类【3 5 】: 1 基于字符串匹配的分词方法 基于字符串匹配的分词方法是目前较为常用的分词方法。由于其简单、 易实现,因此得到了大多数分词系统的青睐。按照匹配时对词语长短的考虑, 该方法又有最大匹配法和最小匹配法之分。最大匹配法的基本思想是:首先 按照词典中最长词条的长度选取待分词汉字串中与之长度相同的汉字串,然 后查找分词词典,若词典中存在该汉字串,则匹配成功,该汉字串作为一个 单独的词被切分出来;若词典中不存在该汉字串,则去掉该汉字串的最后一 个字,重新执行上述步骤,直到匹配成功。由于最小匹配法的分词效果低于 最大匹配法,因此不常使用。 2 基于理解的分词方法 基于理解的分词方法在分词同时进行语义和句法分析,利用所得到的相 关信息来处理词与词之间的歧义现象,达到提高分词准确率的目的。该方法 通常由分词程序、语义分析程序和控制程序三个部分组成。这三个部分分别 用于分词处理、语义信息和句法信息的获得、程序间的协调。通过这三部分 哈尔滨工程大学硕士学位论文 实现了人切分句子的过程。由于该方法需要使用大量的语言知识,而汉语又 相对复杂且难于组织成机器可读取的形式,因此该分词方法应用较少。 3 基于统计的分词方法 基于统计的分词方法又称无词典分词方法。由于该方法对汉字串的切分 是基于语料中字组出现的频率,而不需要像基于字符串分词方法所需的词典。 该方法基于这样一个思想,对于一个词来说,可以将其看成是稳定的字组合, 上下文中相邻词一同出现的次数越多,构成一个词的机会就越大【3 6 1 。但这种 方法还存在着一些问题,可能遇到这样的现象,即抽取到字的组合虽然频率 很高但却不是词,例如“之一”、“我的、“还是”等。 2 4 知网 知网( h o w n e t ) 是一个常识知识库【3 7 1 ,它不仅含有丰富的语义知识,而 且还为中文信息处理提供了宝贵的资源。 在知网中,有以下两个主要概念,即“义项 和“义原 。其中,“义原 是知网中的最小描述单位,知网中收录了1 5 0 0 多个义原。“义项 是对词语 语义的描述。 知网与其它语义词典有所不同,知网并不是将所有的词语组织成一棵树 的形式,而是将义原以树状结构组织起来。同时,义原之间又存在着复杂的 关系,例如:上下位关系、同义关系、反义关系等。上下位关系是义原间最 基本,同时也是最重要的关系。 2 5 本章小结 本章主要介绍与数据模板匹配相关的理论知识和技术,其中包括异构数 据集成领域中的模式匹配技术、中文信息处理领域中的中文分词技术、中文 信息管理中的文本分类技术以及中文语义计算所基于的常识知识库知网 等,本文后续的研究工作都是以此展开的。 1 4 哈尔滨工程大学硕士学位论文 第3 章社保审计数据模板匹配方法研究 社保审计数据模板匹配的目标是实现社保数据模板与审计数据模板的半 自动自动匹配,提高审计实施效率和节约时间及人力、物力。本章首先分析 社保审计数据模板匹配过程中出现的问题及现有模式匹配方法应用于社保审 计数据模板匹配中的不足之处,给出一种融合语义的社保审计数据模板匹配 模型。 3 1 社保审计数据模板匹配中的异构问题分析 一般来说,异构数据转换通常的做法是首先按照某种数据标准或规则建 立异构数据源间所包含数据的对应关系,然后才执行数据的导入操作。这主 要是由于绝大多数应用系统在开发时彼此是相互独立的,因此造成了应用系 统间结构和术语上的差异瞄j 。理想情况下,现实世界中的一个实体在不同数 据源中应具有唯一的描述,但由于异构性的存在,往往造成同一实体在不同 数据源中具有多个不同表示,给数据转换带来困难。社保信息系统就是一个 很好的例子,由于各地社保信息系统是由不同的开发商设计完成的,且不同 的人对于事物的理解存在一定差异,因此设计出的信息系统也不尽相同,最 终导致了社保数据模板间的异构。 在对社保机构实施审计时,首先要完成的工作是从社保数据库中抽取审 计所需的数据并构建审计数据库,由于双方异构性的存在,因此不能直接进 行数据导入操作。目前解决该问题的方法是由审计人员手工建立社保数据模 板与审计数据模板的对应关系,即对于社保数据模板中的一个表,审计人员 首先对该表所包含属性的语义进行分析,并在审计数据模板中确定与之相关 的几个候选表;然后对该表的每个属性,通过在几个候选表的所有属性中进 行查找,找出与之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论