(计算机软件与理论专业论文)语义web中对象共指识别方法的研究与实现.pdf_第1页
(计算机软件与理论专业论文)语义web中对象共指识别方法的研究与实现.pdf_第2页
(计算机软件与理论专业论文)语义web中对象共指识别方法的研究与实现.pdf_第3页
(计算机软件与理论专业论文)语义web中对象共指识别方法的研究与实现.pdf_第4页
(计算机软件与理论专业论文)语义web中对象共指识别方法的研究与实现.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

口 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:么隆毕日期:玉坠j 2 耳l 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 以电子信息形式刊登) 论文的全部内容或中、英文摘要等部分内容。论文的公布( 包括以电 子信息形式刊登) 授权东南大学研究生院办理。口 研究生签名 导师签鼍汐日期:删 摘要 摘要 为了实现不同组织和应用程序之间的数据集成和共享,万维网联盟( w 3 c ) 提出了语 义w e b 的设想。随着语义w e b 的发展,很多领域都出现了被人们普遍认可的本体,比如社 交领域的f o a f 本体。因此在数据发布时,人们能够使用共同的统一资源标识符( u ) 来 标识本体中的概念和属性。然而,在实例数据层,由于语义w e b 的分布式特性,不同的数 据源使用不同的u r i 来标识相同的现实世界对象的情况大量存在。这种不同的u r i 但指称 着相同对象的现象称为对象共指,导致了语义w e b 数据分散不容易集成。为了构建更好的 数据网络和实现数据源之间的互操作性,迫切需要有效的方法来识别出这些共指的u r i 。 目前,在链接数据( l i n k e dd a t a ) 的驱动下,针对对象共指的研究已经引起了语义w e b 社区的广泛关注。本文针对语义w e b 环境下的对象共指问题,从两个不同的角度提出了两 种共指u r i 的识别方法:面向实例数据集的共指识别方法和大规模的语义w e b 共指识别方 法。前者从包含实例对象的数据集出发,综合利用对象本身的信息和对象之间的语义关系, 即首先根据实例对象的文本信息计算初始相似度,然后再利用实例之间的语义关系构建候选 实例对的依赖关系图,进而对初始相似度进行精化,最终识别出数据集中的共指u r i 。后者 则是从整个语义w e b 的角度出发,充分利用语义w e b 数据的特征,通过分析具有特定性质 的语义属性导出u r i 之间的语义等价关系,然后通过迭代的方式识别出语义w e b 中大规模 的共指u r i 的集合。 基于以上的方法,本文设计与实现了一个共指u r i 识别的在线系统o b j e c t c o r e f o 此外, 设计相关实验对识别方法的效果进行评估,结果表明本文提出的识别方法在实验中是行之有 效的。 关键词:语义w e b ,对象共指,共指识别,u r i 别名,实例匹配,数据集成 a b s t r a c t a b s t r a c t w i 廿lt h ea i mo fa c t u a l i z i n gd a t ai n t e g r a t i o na n ds h a r i n ga c r o s sd i f f e r e n to r g a n i z a t i o n sa n d a p p l i c a t i o n s t h es e m a n t i cw e bh a sb e e nr a i s e db yt h ew o r l dw i d ew e bc o n s o r t i u m ( w 3 c ) w i t h t h ed e v e l o p m e n to ft h es e m a n t i cw e b ,an u m b e ro fd o m i n a n to n t o l o g i e sh a v ee m e r g e df o r s p e c i f i cd o m a i n s ,s u c ha st h ef r i e n do faf r i e n d ( f o a f ) o n t o l o g yf o rs o c i a lc o m m u n i t y t h e r e f o r e i ti sc a p a b l eo fu s i n gc o m m o nu n i f i e dr e s o u r c ei d e n t i f i e r ( u r i ) f o rt h eo n t o l o g y c l a s s e sa n dp r o p e r t i e sw h i l ep u b l i s h i n gd a t a o nt h ei n s t a n c ed a t a1 e v e l h o w e v e r d u et ot h e d e c e n t r a l i z e dn a t u r eo ft h es e m a n t i cw e b i tf r e q u e n t l yh a p p e n st h a td i f f e r e n tu 砌sf r o mv a r i o u s s o u r c e sa r er e f e r r e dt ot h es a m er e a lw o r l de n t i t i e s t h eo b j e c t si d e n t i f i e db ym u l t i p l eu r i so ft h e s a m ee n t i t ya r en a m e da sc o r e f e r e n c i n go b j e c t s w h i c hl e a dt od a t af r a g m e n t a t i o na n dc a n tb e e a s i l yi n t e g r a t e d i no r d e rt ob u i l db e t t e rd a t aw e ba n da c h i e v ei n t e r o p e r a b i l i t yb e t w e e nd a t a s o u r c e s ,i ti sr a t h e ru r g e n tt or e c o g n i z et h e s ec o r e f e r e n c i n go b j e c t s t od a t e ,d r i v e nb yt h el i n k e dd a t ai n i t i a t i v e ,s t u d i e so no b j e c tc o r e f e r e n c eh a v ea t t r a c t e d c o n s i d e r a b l ea t t e n t i o nf r o mt h es e m a n t i cw e bc o m m u n i t y i nt h i sp a p e rw ep r e s e n tt w od i f f e r e n t a p p r o a c h e sa g a i n s tt h i sp r o b l e m ,i n c l u d i n ga na p p r o a c ho fo b j e c tc o r e f e r e n c er e c o g n i t i o nf o r i n s t a n c ed a t a s e t sa n da na p p r o a c ho fl a r g es c a l eo b j e c tc o r e f e r e n e er e c o g n i t i o no nt h es e m a n t i c w e b t h ef o r m e ri sc o n c e m e da b o u tt h ed a t a s e t sc o m p o s e do fi n s t a n c eo b i e c t s a n di sb a s e do n t h eu t i l i z a t i o no fb o t ht h ea t t r i b u t e sa n dt h es e m a n t i cr e l a t i o n sb e t w e e nt h eo b j e c t st or e c o g n i z et h e c o r e f e r e n c i n go b i e c t sc o n t a i n e di nt h ed a t a s e t s s p e c i f i c a l l y i tf i r s tc o m p u t e st h ei n i t i a ls i m i l a r i t y b a s e do nt h et e x t u a li n f o r m a t i o no ft h eo b j e c t s a n dt h e nad e p e n d e n c eg r a p ho fc a n d i d a t eo b j e c t p a i r sw a sc o n s t r u c t e db a s e do nt h es e m a n t i cr e l a t i o n sb e t w e e n0 b j e c t st or e f i n e t h es i m i l a r i t y i t e r a t i v e l y t h el a t t e ri sc o n c e r n e da b o u to b j e c tc o r e f e r e n c eo nt h ew h o l es e m a n t i cw e b i tt a k e s f u l la d v a n t a g eo ft h ec h a r a c t e r i s t i c so fd a t ao nt h es e m a n t i cw e b s p e c i f i c a l l y w ee x p l o i t p r o p e r t i e sw i t hs t a n d a r ds e m a n t i c st od e r i v et h ee q u i v a l e n c er e l a t i o n sb e t w e e no b j e c t sa n dt h u s i t e r a t i v e l yr e c o g n i z et h el a r g es c a l eo b j e c tc o r e f e r e n c ec o l l e c t i o n s b a s e do nt h ea b o v ea p p r o a c h e s ,w eh a v ed e s i g n e da n di m p l e m e n t e da no n l i n es y s t e mc a l l e d o b j e c t c o r e f , w h i c hi su s e dt op e r f o r mo b j e c tc o r e f e r e n c er e c o g n i t i o nf o rt h es e m a n t i cw e b f i n a l l y ,w ed e m o n s t r a t et h ef e a s i b i l i t yo fo u ra p p r o a c hv i ae x p e r i m e n t a lr e s u l t s k e yw o r d s :s e m a n t i cw e b ,o b j e c tc o r e f e r e n c e ,c o r e f e r e n c er e c o g n i t i o n , u r ia l i a s e s ,i n s t a n c e m a t c h i n g , d a t ai n t e g r a t i o n i l 目录 目录 摘要i a b s t r a c t i i 目勇匙i i i 第一章绪论1 1 1 研究背景l 1 2 问题描述。2 1 3 研究内容。4 1 4 论文组织结构。4 第二章相关工作。5 2 1 本体及本体匹配5 2 2 实例匹配及对象共指6 2 2 1 实例匹配7 2 2 2 对象共指7 2 3 记录链接及记录去重8 第三章一种面向实例数据集的共指识别方法。l o 3 1 概述。1 0 3 2 利用对象间语义关系的共指识别方法11 3 2 1 基于文本的相似度计算1 2 3 2 2 基于语义关系构建依赖图。1 3 3 2 3 基于语义关系的相似度计算1 4 3 2 4 结果生成1 5 3 3 小结一1 5 第四章一种大规模的语义w e b 共指识别方法1 6 4 1 概述l6 4 2 基本思想16 4 3 利用特定性质语义属性的共指识别方法1 7 4 3 1 共指u r i 迭代识别算法17 4 3 2 利用i f p 的识别过程1 9 4 3 - 3 利用o w l :s a m e a s 的识别过程。2 0 4 4 ,j 、结:1 1 第五章o b j e c t c o r e f 的设计与实现2 2 5 1 概述。2 2 5 2 概要设计2 2 5 2 1 系统体系结构2 2 5 2 2 功能模块2 3 5 3 具体实现2 4 5 3 1 查询处理模块的实现2 4 5 3 2 结果生成模块的实现2 5 5 4 小结一2 7 第六章实验结果与分析2 8 6 1 评估方法与测试用例2 8 6 1 1 评估方法2 8 i 第七章总结与展望。3 5 7 1 工作总结。3 5 7 2 展望3 5 致谢3 7 参考文献。3 8 i v 第一章绪论 1 1 研究背景 第一章绪论 在过去的二十年时间里,万维网( w o r l dw i d ew e b ,简称w e b ) 的出现和蓬勃发展改 变了人们的生活方式,人们利用w e b 来浏览新闻、观看电视节目、购物和订机票,传统的 节日活动也越来越多地受到w e b 的影响。万维网是建立在i n t e m e t 上的信息系统,它允许用 户在一台计算机上访问另一台计算机的信息,包括文字、图片、声音、软件等,这些信息被 称作“资源”。因此我们可以把w e b 看成一个丰富的资源仓库,并且通过一个全局的u r l 来标识其中的资源,使得人们可以通过超链接来访问资源。 w e b 提供的资源信息相当丰富,几乎涵盖所有的知识领域,但是w e b 上资源的庞杂和 分散化,使得人们面对如此巨大的信息量而不知所措,带来了很多方面的问题。比如说,在 信息检索方面,海量的信息一方面为人们找到自己所需信息提供可能,另一方面也为准确找 到所需信息提出了挑战,因为会出现大量冗余甚至无关的信息。目前通用的查询策略是将用 户发出的查询分解为若干关键字,根据关键字计算w e b 上文档和用户的查询请求的匹配程 度,从而返回若干匹配的文档。然而简单的匹配不能解决同名异义和异名同义问题,导致的 查询的结果往往不尽人意。如果机器能够理解用户的查询和文档的内容,并且w e b 上的资 源互相联结成一个巨大的数据库,机器就可以方便的按照用户的需求自动处理和集成网上可 用的信息,从而更好的满足用户的需求。 此外,目前我们所使用的万维网,实际上是一个存储和共享图像、文本等资源的媒介, 机器所能看到的只是一堆文字或图像,对其内容无法进行识别。因此,万维网中的信息,如 果要让机器进行自动处理的话,就必须首先将这些原始信息加工成计算机可以理解的形式, 而这一过程是相当麻烦的事情。 在这样的背景下,万维网的创始人t i mb e m e r s l e e 早在9 0 年代末就提出了语义w e b ( s e m a n t i cw e b ) 的概念【l 】,并将语义w e b 看作是下一代万维网发展的方向。语义w e b 的 目标是为w e b 的信息提供形式化的含义,以实现信息在语义层的互操作,便于计算机和人 的协同工作。为了实现这个目标,语义w e b 使用共同的模型和语言将数据和现实生活中对 象对应,并将不同数据的数据源整合。这样,整个w e b 就成为一个结构严谨的知识库,它 就可以为有逻辑内涵的w e b 内容提供语义结构和相应的信息访问和集成机制,从而为构建 一个能够按需集成各种信息、完成特定任务的信息管理系统奠定基础。 语义w e b 涉及的三大关键技术包括:x m l 吲、r d f l 3 1 和o n t o l o g y 。x m l ( e x t e n s i b l e m a r k e dl a n g u a g e ,即可扩展标记语言) 可以让信息提供者根据需要,自行定义标记及属性名, 从而使x m l 文件的结构可以复杂到任意程度。它具有良好的数据存储格式和扩展性、高度 结构化以及便于网络传输等优点,再加上其特有的n s 机制及x m ls c h e m a 所支持的多种数 据类型与校验机制,使其成为语义w e b 的关键技术之一。 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 资源描述框架,是w 3 c 组织推荐使用的用来描 述资源及其之间关系的语言规范,具有简单、易扩展、开放性、易交换和易综合等特点。 r d f 的基本构造为陈述或声明( s t a t e m e n t ) ,表述形式为( 资源,资源所具有的属性,属性 值) ( 即s u b j e c t - - p r e d i c a t e - - - o b j e c t ) 的三元组。r d f 所表达的是一个数据模型,简言之就是 陈述一个事物( 资源) ,这个事物具有什么属性,这些属性应该有什么样的属性值,其中使 用u 】u 州( 统一资源标识符) 来对事物( 资源) 进行标识。值得注意的是r d f 只定义了资源 的描述方式,却没有定义用哪些数据来描述资源。r d f 由多个部分组成,比如r d fd a t a 东南大学硕士学位论文 m o d e l 、r d fs c h e m a l 5 1 和r d fs y n t a x 。 本体( o n t o l o g y ) 原本是哲学的一个概念,在近几十年里,受到信息领域的广泛关注, 并在人工智能、数据库理论、语义w e b 等研究领域中扮演重要的角色。目前对本体的理解 还没有形成统一的定义,但是一个被广泛认可的定义认为本体是“共享概念模型的明确的形 式化规范说明”。一个本体往往就是一个正式的词汇表,用于定义某一领域或多个领域内的 专业词汇和它们之间的联系,这一系列概念为交流提供一个统一的认识。出于对语义分析进 一步细化的需要,科学家规定了本体描述语言,如o w l ( w e bo n t o l o g yl a n g u a g e ,即w e b 本体语言) ,并开发了许多特定领域的本体,比如:用来描述人以及人与人关系的本体 f o a f 6 1 ,用来描述在线社区的本体s i o c ,以及用来描述分类系统和百科全书的本体s k o s 等等,正是由于这些本体的广泛应用,使得知识的搜索、积累与共享的效率大大提高,以及 真正意义上的知识共享与重用成为可能。 近十多年来,随着语义w e b 的蓬勃发展,特别是l i n k i n go p e nd a t a l ( 简称l o d ) 项 目的开展,越来越多的机构在网络上发布了大量的r d f 数据,比如维基百科的r d f 版本 d b p e d i a ,描述地理位置信息的g e o n a m e s ,描述论文出版物信息的d b l p 等。这些r d f 数 据集通过链接将数据相互关联起来,使得人们可以在不同的数据源的数据之间进行浏览和导 航。这些大规模的数据不仅丰富了语义w e b 的内容,与此同时如何有效的管理和利用这些 与日剧增的数据也已经引起了人们的研究兴趣。w 3 c 组织对语义w e b 的定位是“s e m a n t i c w e bi saw e bo f d a t a ,l ,可见语义w e b 本身就是关于数据的w e b 。结合近年来的语义w e b 的研究现状可以看出,过去是以本体为中心展开研究,目前则进入到以数据为中心的研究新 阶段,人们越来越多的关注如何能够有效的利用海量的语义w e b 数据,给生产实践带来切 实的推动作用,从而推动语义w e b 更进一步的发展。 尽管目前语义w e b 原理及相关技术在许多应用领域取得了阶段性的成功,但是它距离 真正的实际应用仍然有一个很长的过程,其中一个重要的原因就是目前语义w e b 数据的质 量还没有达到较高的水平,限制了语义w e b 的发展,比如:滥用标识符造成的u r i 别名现 象,导致了语义w e b 数据太过分散且缺乏链接,给数据集成和数据挖掘等相关应用造成了 很大的困难。这一点从l i n k i n g o p e n d a t a 项目对语义w e b 数据进行分析的结果可以看出: 在总规模超过2 0 亿条三元组的r d f 数据中,表达数据间链接的三元组仅仅只有三百万条瞄j , 数据之间缺乏链接给浏览、集成等应用带来了负面的影响。海量的语义w e b 数据,一方面 可以成为构建语义w e b 应用程序的重要数据来源,使得这些应用程序有足够的真实数据来 实现更加智能的服务,另一方面如何有效的管理和利用数据也给语义w e b 研究提出的很多 新的挑战。本文所关注的对象共指问题就是其中之一,这一问题的解决必定能够提高语义 w e b 数据的质量以及对数据集成、信息共享等领域产生积极的影响。 1 2 问题描述 本节首先提出对象共指这一问题,其次针对这一问题分析其形成的原因,接着阐述解决 这一问题的意义,最后指出语义w e b 对象的共指识别所面临的困难。 随着语义w e b 的蓬勃发展,出现了大量的语义数据,大致可以分为概念层数据和实例 层数据两部分,其中各种本体中所定义的类( c l a s s ) 和属性( p r o p e r t y ) 以及它们之间的关 系就属于概念层数据,而利用概念层所定义的类和属性来描述某个具体资源的数据则属于实 例层数据,比如:f o a f 本体中定义了人这样一个类,同时还定义了人的姓名、电子邮件、 1 h t t p :e s w w 3 o r g t o p i e s w e o l g t a s k f o r c e s c o m m u n i t y p r o j e e t s l i n k i n g o p e n d a t a 2 第一章绪论 主页等属性,这些属于概念层数据;利用该类和属性可以描述某个具体的人的信息,则属于 实例层数据,被描述的人称为类的实例( i n s t a n c e 或i n d i v i d u a l ) 。由于实例反映的是现实世 界中的对象的信息,是对象信息的载体,并且通过u r i 来对实例进行标识,因此语义w e b 对象的共指识别本质上就是共指u r i 的识别。 为了帮助用户在数据的海洋中找到自己所需要的数据,语义w e b 数据搜索引擎相继问 世满足了用户的需求。下面以搜索引擎f a l c o n s 2 为例,通过f a l c o n s 提供的对象级别r d f 数 据的搜索功能,用户通过关键字就可以找到自己所关心的实例对象,并且浏览对象的相关信 息。可以说,语义w e b 数据搜索引擎帮助用户找到了数据浏览的入1 2 1 ,由于语义w e b 的数 据是通过有类型的链接关联起来的,用户可以沿着自己关心的链接进一步的浏览数据。 由于网络的分布式特性带来了信息的分散性,不同的数据源在描述数据时无法达成共 识,它们可能以不同的方式来描述相同现实世界的对象,例如它们可以描述了相同对象不同 侧面的信息,并且使用不同的u r i 来标识对象。尽管把这些描述相同对象的不同侧面的信 息集成起来将显得很有意义,但由于对象缺乏全局唯一的u r i ,导致了信息无法轻易集成。 这种来自不同数据源的不同的u r i 却指称相同现实世界对象的现象称为对象共指。这 种现象相当普遍,举例来说:在f a l c o n s 系统中,通过搜索关键字 t i mb e m e r sl e e ”来查询 语义w e b 之父t i mb e m e r sl e e 先生的相关信息,共返回了8 2 条搜索结果,通过人工观察发 现,这些来自不同数据源的对象描述的都是t i mb e m e r sl e e 先生,而且它们的描述信息存 在着很大的重复性,然而因为对象的u r i 不同,搜索引擎无法对共指对象进行区分,导致 搜索结果包含了大量的重复信息,降低了用户的满意度。 对象共指问题的形成原因主要包括以下三个方面: 首先,从理论角度来看,语义w e b 的一个核心的思想就是资源通过u r i 来标识,并且 以u r i 为基础来实现跨应用程序、跨数据源的数据集成,这也是语义w e b 较之于万维网的 优点之一,即可以很自然通过u r i 将描述某个资源的数据来集成起来,尽管这些数据可能 分布于不同的数据源中。从这里可以看出,资源具有全局统一的u r i 在数据集成的过程中 起到了至关重要的作用。对于某个资源来说,如果不同的数据源之间没有使用共同的u r i , 那么就无法轻易的集成该资源的相关数据。然而,在语义w e b 的体系结构中,没有相关的 协议和标准来确保数据提供者能够重用已有的u r i 来标识某个已经在其他应用程序或者数 据源中描述过的资源,因此引发了大量的共指u r i 的出现。 其次,从实践角度来看,语义w e b 是一个分布式的多数据源系统,不同数据源可以独 立的为自己描述的资源或者事物选取标识符,那么从全局来看,就造成了资源或者事物缺乏 全局唯一的标识符,在不同的数据源之间不同的标识符不一定代表不同的资源或事物。此外, 语义w e b 的数据并不都是原生的,很多是从关系数据库中转换而来的,比如:d b p e d i a 。在 数据的转换过程中,往往是根据某种特定的规则来确定资源的标识符,比如:采用表格名加 编号来标识,完全没有考虑重用现有资源的u r i ,因此转换后的数据包含了很多共指u r i , 导致无法很好的和现有的数据集成起来。 最后,虽然缺乏全局唯一的标识符对于任何类型的资源都存在,包括概念层的类和属性, 但是实例层的对象的情况则更加严重,因为首先概念层的本体数量相当较少,经过优胜劣汰 的筛选,目前保留下来的本体已被人们广泛认可,使得人们能够使用一致的u r i 来标识本 体中的类和属性,然而发现不同数据源之间实例层的对象的等价关系却很困难。 对象共指导致了数据之间的联系丢失,数据无法很好的集成到一起,进而无法提供高质 量、高可靠的数据服务,因此识别出这些共指的u r i ,提出有效的方法来解决资源或者事物 无法全局统一标识的问题,必定会对那些以数据为中心的应用,包括数据集成、数据挖掘、 2 h t t p :i w s s e u e d u o n s e r v i c e s f a l c o n s 3 东南大学硕士学位论文 语义搜索、语义查询等带来很大的促进作用。 语义w 曲对象的共指识别面临很多困难和挑战,主要来自以下三个方面: 首先,共指u r i 的识别方法应该是自动化或者半自动化的,识别过程要尽可能多的减 少人工参与,并且识别的结果要具有较高的准确度。 其次,语义w e b 包含了海量对象数据,共指u r i 的识别方法必然要具有很强的可伸缩 性,同时还需要考虑到语义w e b 的数据规模正以很快的速度增长这一挑战。 最后,语义w e b 数据是由大量的研究人员和研究机构创建的,其数据的质量和完整性 无法保证,共指u r i 的识别算法必须要足够健壮,能够处理这些可能存在问题的数据。 1 3 研究内容 本文首先调查和研究对象共指这一问题,全面了解研究现状,理解该问题的本质和研究 难点。然后围绕共指u r i 识别这一问题,从两个不同的角度提出了以下两种识别方法: 第一,提出了一种面向实例数据集的共指识别方法,即在给定一组实例数据集作为输入 数据的情况下,通过综合利用实例本身的信息和实例间的语义关系来计算实例之间的相似 度,进而识别出数据集中的共指u r i 的方法。 第二,提出了一种大规模的语义w e b 共指识别方法,即从整个语义w 曲的角度出发, 以搜索引擎抓取的数据集为基础,通过分析具有特定性质的语义属性来识别出语义w 曲中 的共指u r i 。 在实验评估方面,通过选取来自真实世界的数据集,设计相关的实验来对共指u r i 的 识别方法进行评估。 另外,本文还设计和实现了一个共指u r i 识别的应用系统,将共指u r i 识别作为一种 服务提供给用户或应用程序,使得共指信息可以得到更好的重用。 1 4 论文组织结构 全文共分七章,各章节内容如下: 第一章,首先介绍了论文的研究背景,包括语义w e b 的兴起以及目前的研究与发展, 接着指出了对象共指的问题以及识别的必要性,最后阐述了本文的研究内容。 第二章,介绍了相关工作,包括语义w e b 研究领域的一些相关工作,以及其他领域相 关工作的调研; 第三章,阐述了一种面向实例数据集的共指识别方法,该方法适用于给定的实例数据集 并且数据集规模适中的情景; 第四章,阐述了一种大规模的语义w e b 共指识别方法,该方法以大规模的数据分析为 基础,通过分析具有特定性质的语义属性来识别出语义w e b 中的共指u ; 第五章,阐述了共指u r i 识别的在线系统o b j e c t c o r e f 的设计和实现; 第六章,给出了相关的实验结果,并对实验结果进行分析: 最后一章对本文的研究工作做出总结,并展望下一步的研究工作。 4 第二章相关工作 第二章相关工作 本章主要介绍与本文研究内容相关的一些工作,包括已有的一些针对语义w e b 对象共 指问题的解决途径,以及关于语义w e b 概念层本体匹配的相关方法和传统的关系数据库领 域中关于重复记录删除的方法,并且分析了这些工作的优点和不足之处,阐述了这些工作和 本文研究内容的关系。 2 1本体及本体匹配 1 9 9 3 年,斯坦福大学的g r u b e r 给出本体的一个最为流行的定义,即“本体是概念模型 的明确的规范说明”1 9 1 。b o r s t 在此基础上,给出了本体的另外一个定义“本体是共享概念 模型的形式化规范说明”【1 0 j 。s t u d e r 等对上述两个定义进行了深入的研究,认为“本体是共 享概念模型的明确的形式化规范说明”。这包含四层含义:概念模型( c o n c e p t u a l i z a t i o n ) 、 明确( e x p l i c i t ) 、形式化( f o r m a l ) 、共享( s h a r e ) 1 1 j 。“概念模型”是指通过抽象出客观 世界中的一些现象的相关概念而得到的模型。概念模型所表现的含义独立于具体的环境状 态;“明确”是指所使用的概念以及这些概念的约束都有精确无二义的定义;“形式化”是 指本体是计算机可读的,能够被计算机处理;“共享”是指本体中体现的是共同认可的知识, 反映相关领域中公认的概念集,而不是某个团体或个人的认识。本体的目的是捕获相关领域 的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形 式化模式上给出这些词汇和词汇间相互关系的明确定义。 随着语义w e b 的发展,出现了一系列基于w e b 的本体表示语言,如s h o e 、x o l 、 r d f ( s ) 、o i l 、d a m l + o i l 、o w l 1 2 j 等,这些为本体在语义w 曲研究领域的发展注入了活 力。万维网联盟w 3 c 先后推荐了r d f ( s ) 、o w l 作为本体描述的语言标准。r d f ( s ) 是r d f 和r d fs c h e m a ( 简称r d f s ) 的合称。r d f 定义了简单的模型,可以表示任意类型的数据, r d f s 为数据定义了模式。o i l 以r d f ( s ) 为起点,用丰富的本体建模原语对r d f ( s ) 进行扩 充。d a m l 扩展了r d f ,增加了更多更复杂的类、属性定义。之后d a m l 和o i l 合作,推 出了o i l + d a m l 语言,成为w 3 c 研究语义w e b 中本体语言的起点。o w l 就是在d a m l + o i l 基础上发展起来的,目的是提供更多的原语以支持更加丰富的语义表达和推理。 由于w e b 具有分散性的特点,经常在相交甚至相同领域中存在描述同一些概念的不同 本体。不同本体的存在阻碍了知识的共享和重用。这种本体间的匹配( o n t o l o g ym a t c h i n g ) 【13 】被认为是解决这种语义异构性的一种有效途径。本体匹配的过程就是发现本体间映射关 系的过程。对于使用不同但相关本体的w e b 应用程序而言,本体匹配提供了它们之间的互 操作性。这种互操作性使得应用程序之间可以实现:信息集成、数据迁移、分布式查询处理 与查询回答等功能。 为了让本体发挥最大的作用,就需要让本体得到充分的共享。为了使得开发本体时尽可 能的节省人力,就需要使得开发的本体能够被重用。因此,本体的匹配工作是本体研究的难 点和关键问题,众多文献表明:只有实现本体的匹配,本体的知识库才会得到广泛应用。 当前很多高校及研究机构对本体匹配均有研究,开发了不少算法和工具如p r o m p t b 4 i 、 o o m 【u 】、s i m i l a r i t yf l o o d i n g l l 6 l 、g l u e l l 7 j 、以及我们实验室的f a l c o n a o t l 8 l ,从不同角度 对概念的相似度进行度量。本体匹配的目标是构建本体间的映射关系,它是完成本体的发现、 联合、学习以及最终获取知识等服务的基础。 通常匹配过程中需要考虑的信息包含以下几个方面:基于语言学上的相似性的匹配方 5 东南大学硕士学位论文 法、基于结构上的相似性的匹配方法以及在有较多实例数据的情况下,考虑基于实例的匹配 方法和技术。 基于语言学相似性的匹配方法是一种采用自然语言处理技术进行匹配的方法,它通过计 算本体中元素之间的名字、标签以及注释的相似性作为元素之间是否匹配的依据。目前使用 的比较多的方法是基于字符串处理的方法和基于词典的方法。基于字符串处理的方法主要有 编辑距离、单词前后缀的相似性等等。而基于词典的方法主要有采用现成的词典( 比如: w o r d n e t 3 ) 识别出词汇间是否属于近义词、是否存在上下位关系等等。目前几乎所有的匹配 工具都会采用自然语言处理的相关技术,或者单独使用其中的一种技术或综合多种技术。例 如:在上面提到的本体匹配工具中f a l c o n - a o 就集成了基于语言学的匹配方法。该方法通过 领域对象在本体中的用法来揭示它们可能的含义,从而计算匹配结果。具体来说,就是通过 抽取本体中对象以及它邻居对象的描述信息来构建虚拟文档,然后通过向量空间模型方法计 算虚拟文档之间的相似度,从而得到对象之间的相似度。 基于结构相似性的匹配方法就是利用本体结构作为图模型所表达的信息来进行匹配,这 种方法都表达了这样一个思想,即如果一组元素的邻居元素匹配程度越高,那么这组元素匹 配的几率就越大,反之亦然。在上面提到的本体匹配算法中,s i m i l a r i t yf l o o d i n g 就是这类 方法的典型代表。需要指出的是,该方法是一个面向一般图模型的匹配,不仅适用于本体间 的匹配,也适用于其他图模型的匹配场合。其主要思想是根据图中相邻概念节点之间的相似 传递性来计算相似度,也就是说如果两个概念节点的邻居节点是相似的,那么这两个概念节 点在迭代计算的过程中也趋向于相似,即节点相似性的传播。 基于实例的匹配方法一般情况下属于综合多种学习策略的机器学习方法,通过实例的学 习寻找概念元素之间的映射关系。目前基于实例的匹配方法和工具还比较少,其中比较著名 的有g l u e 。它是美国w a s h i n g t o n 大学开发的一个本体匹配工具,其主要思想是采用概念 之间的联合概率分布来度量概念间的相似度,并且通过机器学习的方法来估计这种概率分布 情况。该方法使用了多种机器学习的策略,每种策略针对特定的实例信息或者本体所包含的 结构信息进行学习。 本体匹配是寻找概念层元素之间映射关系的过程,主要关注的是本体概念层的异构问 题,通过匹配使得异构的相交本体实现概念层的互操作。然而这些方法大多都不具有很好的 可伸缩性,在匹配概念层的时候可能能够胜任,但是面对大量的r d f 实例数据却显得有些 无能为力。即便如此,由于共指u r i 的识别是寻找u r i 的之间的映射关系,两者目标都是 寻找映射关系,因此本体匹配相关的方法对共指u r i 的识别具有很大的借鉴意义。 2 2实例匹配及对象共指 语义w e b 的数据大致可以分为概念层数据和实例层数据,鉴于寻找概念层数据之间的 映射关系的过程称为本体匹配,寻找实例之间映射关系的过程也常被称为实例匹配。另外我 们知道,实例匹配就是要识别出那些描述相同现实世界对象的匹配实例,也就是说实例匹配 和共指u r i 的识别的目标本质上是一致的,只是实例匹配通常倾向于处理局部的数据集, 而共指u r i 的识别则含义更加广泛,并且更加侧重于从语义w e b 的全局出发来解决对象共 指的问题。 3 h t t p :w o r d n e :t p r i n c e t o n e d u 6 第二章相关工作 2 2 1 实例匹配 在语义w e b 中,实例匹配是寻找实例之间的映射关系的过程,如果某对实例描述了相 同现实世界对象,那么这对实例就是匹配的。匹配的过程通常是从给定一组实例对象数据集 开始,通过某种策略计算实例之间的相似度,然后根据算出的相似度从中提取出匹配结果。 目前,已有的实例匹配的工作基本上关注的都是成对的、局部的、与领域相关的数据集之间 的匹配,比如【1 9 】。【l 川中作者提出了一种面向语义w e b 音乐数据的匹配方法,通过使用数据集本 身所配备的查询接口来进行数据层的链接。该方法首先假设目标数据集中能够和源数据集的某个 实例匹配的实例最多只有一个,其主要思想是这样的:对某个待匹

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论