(计算机软件与理论专业论文)本体复合映射发现技术研究.pdf_第1页
(计算机软件与理论专业论文)本体复合映射发现技术研究.pdf_第2页
(计算机软件与理论专业论文)本体复合映射发现技术研究.pdf_第3页
(计算机软件与理论专业论文)本体复合映射发现技术研究.pdf_第4页
(计算机软件与理论专业论文)本体复合映射发现技术研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机软件与理论专业论文)本体复合映射发现技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着语义w e b 技术研究的发展,本体应用越来越广泛,但是由 于不同用户构建的本体在形式上、结构上的差异,导致同领域内本体 在重用与交流方面存在困难,同时也限制了本体集成研究的发展,解 决这些问题的关键在于本体映射的发展,虽然现有的映射方法层出不 穷,但绝大部分方法却只考虑了简单的1 :l 映射,没有涉及到更为复 杂的复合映射问题,因此限制了映射精度的提高,本论文主要针对这 个问题探索不同本体间复合映射的发现技术问题。 首先,论文对课题的来源及语义w e b 进行了简介,由于w e b 自 身的分布性问题,同领域内的不同用户和组织构建自己的本体,导致 本体异构的产生,阻碍了本体的重用与交流。要解决异构问题关键在 于映射技术,但是现有的本体映射仅仅针对了1 :l 的映射问题,没有 涉及复合映射问题,限制了映射精度的提高,本文针对这个问题提出 了有效的复合映射发现方法。 其次,根据构成复合映射的概念之间的关系的不同,提出了基于 不同关系的复合映射发现技术,针对不同的关系采用不同的发现策略 进行挖掘。 最后,根据上述研究,本文解决了关键的技术问题、设计并实现 了相关算法。并在此基础上进行了实验,也对实验结果进行了测试评 估。实验结果表明,此方法具有良好的效果。 关键词语义w e b ,本体,本体映射,复合映射,语义相似度 a b s t r a c t w i t ht h ed e v e l o p m e n to fs e m a n t i cw e bt e c h n i q u e s o n t o l o g i e sh a v e b e e nu s e di nm o r ea n dm o r ea r e a s ,b u to n t o l o g i e sc o n s t r u c t e db yd if f e r e n t u s e r sa n do r g a n i z a t i o n sm a yd i f f e rf r o me a c ho t h e ri nf o r mo rs t r u c t u r e , w h i c hl e a d st o d i f f i c u l t y o fo n t o l o g yr e u s i n ga n dc o m m u n i c a t i o n ; m e a n w h i l e ,i ta l s ob l o c k st h er e s e a r c ho fo n t o l o g yi n t e g r a t i o n t h ek e yt o t h e s ep r o b l e m si so n t o l o g ym a p p i n g t h e r ea r em a n ym a p p i n gm e t h o d s , b u tm o s to ft h e mo n l yf o c u so ns i m p l eo n et oo n em a p p i n g ,w h i l e c o m p l e xm a p p i n gi sn e g l e c t e d ,w h i c hr e s u l t si nal o wm a p p i n ga c c u r a c y t h i st h e s i si sm a i n l ya i m i n gt h ep r o b l e mo fd i s c o v e r i n go fc o m p l e x m a p p i n g sb e t w e e n d i f f e r e n to n t o l o g i e s f i r s t l y , t h et h e s i si n t r o d u c e st h es o u r c e so ft h i st h e s i sa n ds e m a n t i c w e b b e c a u s eo ft h ed i s t r i b u t i n go fw e b ,d i f f e r e n tu s e r sa n do r g a n i z a t i o n s d e s i g nt h e i ro w no n t o l o g i e s ,w h i c hl c a d s t oo n t o l o g yh e t e r o g e n e i t y , b l o c k i n gt h er e u s ea n dc o m m u n i c a t i o no fo n t o l o g i e s c u r r e n tm a p p i n g m e t h o d so n l ys t r e s st h eo n et oo n em a p p i n g ,i g n o r i n gt h ep r o b l e mo f c o m p l e xm a p p i n g ,c a u s i n gal o wa c c u r a c yo fo n t o l o g ym a p p i n g r e s u l t s i no r d e rt os o l v et h ep r o b l e mt h i st h e s i sp r o p o s e da ne f f e c t i v ec o m p l e x m a p p i n gd i s c o v e r y m e t h o d s e c o n d l y , a c c o r d i n gt od i f f e r e n tr e l a t i o n s h i p sb e t w e e nt h ec o n c e p t s i nc o m p l e xm a p p i n g ,an e wc o m p l e xm a p p i n gm e t h o dp r o p o s e db a s e do n t h e r e l a t i o n s h i p s ,a n d d i f f e r e n t d i s c o v e r yt e c h n o l o g y a n d s i m i l a r i t y c o m p u t a t i o nm e t h o d s a r ea d o p t e df o rd i f f e r e n tr e l a t i o n s h i p s f i n a l l y , b a s e do nt h er e s e a r c ha b o v e ,t h ek e yt e c h n i q u ep r o b l e m s a r e s o l v e d ,r e l a t e da l g o r i t h m s a r ed e s i g n e da n di m p l e m e n t e d ;m o r e o v e r , e x p e r i m e n t sa r ec a r r i e do u ta n dt h er e s u l t s a r ee v a l u a t e d t h er e s u l t s s h o wt h a to u ra p p r o a c h e sa r ec o m p a r a t i v e l yg o o d k e yw o r d ss e m a n t i cw e b ,o n t o l o g y ,o n t o l o g ym a p p i n g ,c o m p l e x m a p p i n g ,s e m a n t i cs i m i l a r i t y i i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:盥纽日期:丝年上月望日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名:竖熏盟导师签名j 墼日期:丝年业月丑日 硕士学位论文第一章绪论 1 1 课题研究背景 第一章绪论 w w w 是2 0 世纪9 0 年代最引人注目的科技成就,它彻底改变了人们发布信 息和获取信息的方式,互联网以及w e b 上提供的服务成了整个i t 行业的发展动 力,促进了其飞速的发展i 。w w w 的创始人t i mb e m e r s l e e 将w w w 的演化 分为了两个阶段,第一个阶段,w w w 应该是一个有利于人们相互合作的强大工 具。而w w w 最初十年的发展也基本上实现了这个目标:它以h t m l 页面的方 式向人提供了大量的信息。第二个阶段,这种合作应该延伸到机器。即连接到 w w w 上的机器也应该能够分析w w w 上的所有的数据一包括内容、链接以及 人与机器之间的交互【2 】。如何实现第二阶段的目标是目前学术界研究的热点,即 如何实现语义网( s e m a n t i cw r e b ) 1 3 】。 t i mb e n e r s l e e 于2 0 0 0 年1 2 月在美国波士顿的国际万维网w 3 c 会议上, 提出下一代因特网的概念是语义网,并将其列为w 3 c 的三大研究主题之一,从 此w e b 的研究在全球范围内出现了新局面。 t i mb e m e r s l e e 对语义网的描述如下:语义万维网并不是一个孤立的万维 网,而是对当前万维网的扩展,语义万维网上的信息具有定义良好的含义,使得 机器之间以及人类与机器之间能够更好的彼此合作。一般而言,语义万维网定义 为:机器可以理解数据含义的下一代万维网,语义万维网中的语义表示计算机对 某个概念、术语或者符号可以理解的含义。 语义网的出现并不是偶然的,它是为了解决目前力- 维网存在的瓶颈问题,目 前万维网存在的局限有: 1 基于关键词检索的搜索引擎的检索质量和效果不能满足用户的需求: 2 信息系统的异构导致不能实现互操作性; 3 万维网的基石h t m l 提供的信息只能供人直接阅读,而机器不能自动直 接处理,也就是缺乏语义; 4 最终导致信息无法被有效的利用。 针对这些问题,语义网的研究主要是从海量的信息中挖掘与产生具有语义本 质的结构和模型,然后建立能体现自然语义,又能被机器所理解和推导的基础语 硕十学位论文第一章绪论 义结构。这是从比较宏观的方面说语义网的框架,具体从微观上其涉及的内容有: 元数据及相关内容,知识本体及其语言( 主要是o w l 基于w e b 的本体语言) , r d f 资源描述框架及r d f s ( r d f 模式) 。 本课题所研究的复合映射子系统是来源于湖南省自然科学基金项目s n a x ( 项目编号为0 6 j j 5 0 1 4 2 ) 的子项目。s n a x 实现的是一个微型的语义w e b ,涵 盖了语义w e b 技术中的方方面面,实现了其基本功能如信息检索、推理、映射 竺【4 】 口a 1 2 语义网相关研究 语义网具有以下特征【5 】: 1 语义网不同于现在w w w ,它是现有w w w 的扩展与延伸; 2 现有的w w w 是面向文档而语义网则面向文档所表示的数据的语义; 3 语义网将更利于计算机“理解与处理”,并将具有定的判断、推理能 力。 语义网是w w w 的创始人t i mb e m e r s l e e 提出的对下一代w e b 的构想, 并在x m l2 0 0 0 大会中正式提出了语义网的七层模型,如图1 。1 所示: 图1 1 语义w e b 七层模型图 u n i c o d e 和u r i 是整个语义w e b 的基础,其中u n i c o d e 处理资源的编码, u r i 负责标识资源;x m l + n s + x m ls c h e m a 用于表示数据的内容和结构;r d f + r d fs c h e m a 用于描述w e b 上的资源及其类型;o n t o l o g y 用于描述各种资源之 间的联系;l o g i c 、p r o o f t r u s t 在下面四层的基础上进行的逻辑推理操作。语义 网的核心层为x m l 、r d f 、o n t o l o g y ,这3 层用于表示w e b 信息的语义。 2 硕+ 学位论文 第一章绪论 1 3 语义网延伸领域 目前,语义网已经成为了学术界的研究热点,在其自身发展的过程中也结合 了其他的技术,如与w e b 服务【6 ,7 1 相互结合形成语义w e b 服务喁, 9 1 ,与网格技术 相互结合形成语义网格技术 1 0 , i i 】,如图1 2 所示: 1 3 1 语义网与网格技术 图1 - 2 语义网格模型 网格是一种新兴的技术,正处在不断发展和变化当中。但它的确切含义以及 其外延仍旧没有统一。网格应该是什么样、有什么标准,目前仍旧没有定论。简 单地讲,网格是利用互联网把分散在不同地理位置的电脑组织成一台“虚拟的超 级计算机”,实现计算资源、存储资源、数据资源、信息资源、软件资源、通信 资源、知识资源、专家资源等的全面共享。 将语义w e b 应用于网格环境,就形成了语义网格。语义网格小组对语义网 格进行的定义如下:语义网格就是“对当前网格的一个扩展,其中对信息和服务 进行了很好的定义,可以更好地让计算机和人们协同工作”。 语义网格的研究重点是用语义和知识工程的方法来解决目前网格平台建设 和应用中存在的各种问题,研究内容涉及智能实验室、内容表达、集成媒体等方 面。 w e b 、网格、语义w e b 和语义网格的关系如图1 3 所示:网格是w e b 在计 算能力上的提升,而语义网格是网格在语义能力上的扩展;从另一个角度说,语 义w e b 是在现有w e b 上增强了语义能力,而语义网格是语义w e b 对计算能力的 扩展。 3 硕士学位论文第一章绪论 更 丰 昌 的 语 义 语义w e b语义网格 w e b 网格 更强的计算机能力 图1 3w e b 、网格、语义w e b 和语义网格的关系 1 3 2 语义网与w e b 服务 从表面上看,w e b 服务就是一个应用程序,它向外界暴露出一个能够通过 w e b 进行调用的a p i 。这就是说,你能够用编程的方法通过w e b 调用来实现某 个功能的应用程序。 从深层次上看,w e b 服务是种新的w e b 应用程序分支,它们是自包含、 自描述、模块化的应用,可在网络中被描述、发布、查找以及通过w e b 来调用。 w e b 服务的主要特点之一是,客户端访问w e b 服务只需要通过因特网标准 协议,如h t t p 或x m l 以及s o a p ,不需要专门的协议,如r p c 或i i o p 。因为 h t t p 协议和x m l 都是与平台无关的标准协议,因此,可以被任何主流操作系 统正确理解和解释。 随着语义网和w e b 服务的发展,出现了很多将两者结合在一起的研究【1 2 , 1 3 】, 语义w e b 服务是以语义w e b 和本体论为基础的一个重要的应用基础研究领域 【1 4 】,主要目标是克服传统w 曲服务语义操作能力的局限,使服务的发现、执行 以及动态组合能够智能地完成。 1 4 本体相关介绍 语义网的核心层是x m l 、r d f 以及o n t o l o g y 这三层,其中o n t o l o g y 层的 相关技术是实现语义w e b 的关键技术,也是当前研究的热点,基于本体的相似 度计算、映射集成、本体推理以及本体搜索等技术是当i j 的研究难点。 本体的概念起源于哲学领域,即“对世界上客观存在物的系统地描述”【”】。 在人工智能界,最早给出本体定义的是n e c h e s 等人,他们将本体定义为“给出 构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些 4 硕士学位论文第一章绪论 词汇外延的规则的定义 1 1 6 1 。 后来在信息系统、知识管理等领域,越来越多的人研究本体,并给出了许多 不同的定义。其中最著名并被引用最为广泛的定义是由g r u b e r 提出的“本体是 概念模型的明确的规范说明”【1 7 】。f e n s e l 对这个定义进行分析后认为本体的概念 包括四个方面【1 8 】: 1 概念化( c o n c e p t u a l i z a t i o n ) :客观世界中现象的抽象模型; 2 明确( e x p li c i t ) :概念及它们之间联系都被精确定义; 3 形式化( f o r m a l ) :精确的数学描述; 4 共享( s h a r e ) :本体中反映的知识是其使用者共同认可的。 虽然不同研究者对本体有不同的描述,但是从内涵上来看,他们对本体的认 识是一致的,都是把本体当作某个领域内不同主体( 人、代理、机器等) 之间进 行交流( 对话、互操作、共享等) 的一种语义基础,即由本体提供明确定义的词 汇表,描述概念和概念之间的关系,作为使用者之间达成的共识。 在语义网中,本体具有非常重要的地位,是解决语义层次上w e b 信息共享 和交换的基础。构建本体的方法是当前研究中的热点问题。本体的构建多是面向 特定领域,如果没有好的方法路线指导,就难以在不同领域本体的构建中保持一 致,也不利于本体的规模化和规范建设。出于对各自问题域和具体工程的考虑, 构造本体的过程各不相刚1 9 】。目前没有一个标准的本体构造方法,最有影响的是 g r u b e r 在1 9 9 5 年提出的5 条规则1 2 0 1 : 1 明确性和客观性:本体应该用自然语言对所定义的术语给出明确、客观 的语义定义; 2 完整性:给出的定义完整,能表达特定术语的含义; 3 一致性:知识推理产生的结论与术语本身的含义不会产生矛盾; 4 最大单向可扩展性:向本体中添加通用或专用的术语时,不需要修改已 有的内容; 5 最少约束:对待建模对象给出尽可能少的约束。 目前大家公认在构造特定领域本体的过程中需要领域专家的参与和协作。 现在本体已经广泛应用于电子商务、信息检索、w e b 服务等领域,文献【2 u 的研究指出本体在信息检索中的应用能显著的提高检索的准确率和返回率【2 2 】。 5 硕士学位论文第一章绪论 1 5 主要研究内容 。语义w e b 的目标是使得w e b 上的信息具有计算机可以理解的语义,而不仅 仅是构建一个作为文本图像展示平台的w e b 。然而,语义w e b 的实现仍然面临 着本体异构、映射结果精确度不够等技术障碍,为了探索解决问题之道,我们提 出了一个基于不同关系的复合映射算法。 基于上述目标,本文的核心研究内容包括: 1 本体映射在语义网实现技术中的作用。本体是语义网的核心部分之一, 本体映射是解决本体的重用与交流问题的关键,对语义网的实现起着重要作用。 我们在详细研究了国内外现状的基础上,分析了相关的映射方法、映射系统。 2 复合映射概念的引入。阐明了复合映射的基本概念与类型,区分了复合 映射与m u l t i p l e 映射的不同,并分析总结了复合映射发现技术的难点。 3 复合映射发现方法的提出。通过分析将复合映射划分为包含关系、平级 等级关系、不规则特殊关系,提出了相关的发现方法。 4 复合映射模块的设计与实现。设计实现了复合映射算法,并解决了其中 涉及的关键技术问题。 5 模拟实验。通过将实验结果与人工获得的结果的比较,验证了本文提出 的方法的有效性。 本课题中所涉及到的许多理论、技术和方法对构建语义w e b 有同样的作用, 文中所研究的关键技术一本体复合映射不仅对于本体相关方面的研究可以提供 技术基础,而且可以在很多领域得到应用。可见,本课题的研究对于本体及其相 关技术,以及整个语义w e b 的发展是有重要意义的。 1 6 论文的组织结构 第一章是绪论部分,介绍了本文的研究背景及课题来源,本论文的课题来源 于湖南省自然科学基金项目( 项目编号:0 6 j j 5 0 1 4 2 ) 。在阐述了现代w e b 在语义 表达上的不足的基础上,介绍了语义w e b 的优势,描述了其具体的七层模型, 并简要介绍了语义w e b 相关的研究领域,如语义w e b 服务、语义网格等。 第二章详细分析了本体映射的目的,并从两大方面对映射进行了介绍:是 映射方法方面;二是映射系统方面,本文主要介绍了近两三年来在o a e i 竞赛中 取得较好结果的映射系统及其优缺点。在上述基础上提出了本体映射的挑战,并 6 硕十学位论文第一章绪论 针对本文要处理的复合映射问题进行了详细的阐述。 第三章是本文的重点,在阐明了本体映射与s c h e m a 映射不同的基础上,提 出了基于包含关系、平级等价关系以及不规则特殊关系的复合映射发现技术,并 设计了相关算法。 第四章是本文的另一个重点,全面介绍本文所提出的算法的设计和实现,并 对算法进行了有效的优化,在此基础上通过实验验证了本文所提出的发现技术的 有效性。 第五章是全文的最后_ 章,对全文所开展的工作进行了总结,并指出了进一 步的研究工作。 7 硕十学位论文第二章本体映射研究概述 第二章本体映射研究概述 本体映射是为了解决同领域内本体的重用与交流问题,该研究既可为本体 研究提供技术基础,如本体集成等,又可解决许多现实问题,如实例迁移问题 等。本章从本体映射方法与映射系统两方面详细介绍了本体映射及其发展问题, 并提出了复合映射的概念及其相关问题。 2 1 本体异构及集成 为实现语义信息共享,各个领域纷纷定义了相应的本体标准,然而w e b 本 身的分布性使得各领域,甚至同一领域的不同组织必然定义他们自己的本体来 描述数据。这时本体自身就是异构的,实现w e b 信息交互的关键也就变成本体 间映射的发现问题。 本体映射是本体重用、修正及集成的关键环节,映射的主要目的是为了解 决异构本体的重用及实现同领域内本体集成的问题。 为实现分布式本体集成,首先要解决两个异构问题:元数据异构和实例异 构【2 3 , 2 4 】。元数据异构是指本体元数据定义的异构问题,包括结构冲突和名称冲 突。相同本体可能包含不同的语义结构,这就是结构冲突。另外不同的名字可 以用来表示意义相同的概念,相同名字在不同本体中又可以用于表示不同 的概念,这就是名称冲突。 实例异构主要考虑实例的表示问题,意义相同的实例可能有不同的表示形 式,即实例冲突。例如:同一日期可以表示成“2 0 0 7 3 5 7 也可以表示成“m a r c h 5 ,2 0 0 7 7 人名可以表示成“j a c k s o nm i c h a e l ”或者“m i c h a e l ,j a c k s o n , 等等。实 例异构问题使得在语义之前进行实例规范化成为必需,例如w i e s m a n 等人就提 出基于规则的归一化方法来解决实例冲突问题1 2 5 1 。 以上所提出的本体异构发生的根本原因在于:使用不同的语言、使用不同 的专业术语以及使用不同的模型。而本体映射就是用于解决因这些原因导致的 异构问题,使本体之间得以交流与互用。 2 2 相似度计算方法分类 相似度计算方法是进行本体映射的基础,相似度计算方法有多种,如图2 1 所示。 8 硕士学位论文 第二章本体映射研究概述 相似度度量方法 一一一 独立度量方法 组合度量方法 一,歹;一 ,77 、 基卡实例内容基于模式基于公理基于词典混合方法复合方法 一7 1 、 、 元素级方法元素级方法结构级方法关系约束名称手工组合自动组合 7 、 推理规则同义词集 语言事寺法基于药束方法基于约束方法基于药束方法 描述 卜7 卜卜卜 i r 方法类型类型图匹配 词频属性属性 图2 1 计算方法分类 有: 在计算机领域对概念相似度计算进行了许多研究,常见的计算方法和模型 1 基于标识符的方法 使用标识符名称【2 6 】计算概念之间的相似度是最直接也是最基本的计算方 法,该方法使用构词法相似性来寻找概念间的相似度,主要反映了概念在语言 学上的相近程度。但当两个具有相同内涵的概念具有不同的语言形式时,该方 法将无法正确度量相似性。基于标识符计算相似度的方法非常多,主要有a 伍 x 、n g r a m 、e d i t d i s t a n c e 、向量空间模型( v s m ) 2 7 1 、机器学习的方法1 2 8 1 等。 2 基于同义词词典的方法 该方法根据同义词词典【2 9 1 将所有的概念组织在树状的层次结构中,任意两 个节点之间有且只有一条通路,这条通路的长度就作为这两个概念间语义距离 的一种度量,文献【3 0 】在利用w o r d n e t 计算概念词相似度时,除了依赖于节点间 的距离外,还考虑到了其他一些因素,例如限定了弧的数量,并且通过整个概 念树的层次深度来为节点间距离标上刻度。这种方法简单有效,但其结果受人 的主观意识影响较大。而且概念的层次结构多数并不是树状的,同时概念节点 之间可能不止一条通路。主要有基于w o r d n e t 的词典相似度计算方法与基于h o w n e t 的词典相似度方法【3 。 这种基于世界知识的方法简单有效,也比较直观、易于理解,但这种方法 得到的结果受人的主观意识影响较大,有时并不能准确反映客观事实。另外, 这种方法比较准确地反映了词语之间语义方面的相似性和差异,而对于词语之 间的句法和语用特点考虑得比较少。 3 基于特征匹配的模型 9 硕士学位论文第二章本体映射研究概述 该模型依据概念或对象的特征来判断语义相似度。文献【3 2 】从语言学角度研 究了概念相似度,提出了相似度不仅由两个概念的相同属性决定,而且由它们 的不同属性决定。其中定义了两种计算相似度的模型:差异模型和比率模型。 但这些模型没有考虑到某些属性可能对概念更加重要,那么在计算相似度时这 些属性所占的权重就应该大一些。 4 基于语义关系的模型 基于语义关系的模型【3 3 】也被称为基于语义距离的模型,是根据概念在本体 层次结构中的位置来计算语义相似度的。r a d a 认为,对于只有i s a 关系的层次 结构,任何两个节点之间有且只有一条最短路径,语义相似和语义距离是等价 的。但该模型只考虑概念之间的i s a 关系,计算的相似度值很粗糙。而且语义 距离除了受节点问的路径长度影响外,还受其他一些因素影响,如概念层次结 构的深度。如文献1 3 4 j 提出的基于s u m o 的词汇语义相似度研究。 5 基于描述逻辑的方法 描述逻辑具有清晰的模型和理论机制,有良好的语义和表示能力。一般来 说,本体中的概念是可以分层次的,而一个概念会将它的祖先概念的所有属性 都继承下来。由此基于描述逻辑的方法【3 5 】认为,如果两个概念是相同的,那么 它们很可能具有相同的祖先概念。这样,只需要计算两个概念的共同祖先概念 集合的数量,就可以来衡量这两个概念的相似性。 6 基于形式概念分析( f c a ) 的相似度计算方法 基于f c a 的相似度计算方法1 3 6 】在利用结构信息计算相似度上具有显而易 见的优势,但它忽略了其他信息,并且其结果极大的依赖于相似度方法的选取。 7 基于语料库的相似度计算方法 另一种词语相似度的计算方法是通过使用大规模的语料库来统计。例如, 利用词语的相关性来计算词语的相似度。事先选择一组特征词,然后计算这一 组特征词与每一个词的相关性,于是,对于每一个词都可以得到一个相关性的 特征词向量,然后利用这些向量之间的相似度作为这两个词的相似度。这种做 法的假设是,凡是语义相近的词,他们的上下文也应该相似。 , 基于语料库的方法比较客观,综合反映了词语在句法、语义、语用等方面 的相似性和差异。但是这种方法依赖于训练所用的语料库,计算量大,计算方 法复杂,另外,受数据稀疏和数据噪声的干扰较大,有时会出现明显的错误。 1 0 硕士学位论文 第二章本体映射研究概述 8 基于启发式规则的方法 该方法承认语义距离和概念的共同祖先对概念相似度的作用,利用两条启 发式规则【3 7 1 定性描述概念间的相似度:相似度与语义距离呈非线性单调递减关 系;以及相似度与最近共同祖先的深度是非线性单调递增的关系。并且根据上 述启发式规则得出了相似度的定量计算方法。 通过以上的分析可以得知相似度的发展主要呈以下趋势:第一,由单一的 方法向复合的方法发展【3 8 】;第二,融入了多种新的技术,实现技术的大融合, 如f c a 与粗糙集等。 在相似度计算方法中我们可以使用不同的方法来获得结果,可以在计算过 程中先后使用多个度量标准,这是混合方法。也可以分别执行各个度量算法, 然后再将结果合并,这是复合方法【3 9 1 。 不同的相似度方法利用了不同的信息,对于一个给定的任务,各有不同的 适应性和价值。因而,组合使用几种方法比单单采用一种方法会产生更好的结 果。组合的方式有两种:混合方式集成了多种标准,复合方式则合并各个独立 执行的方法的结果。组合多种度量方法也为同时进行评估提供了可能。 混合度量方法在整个过程中采用了多个标准,和多个度量方法的单独执行 比较起来,它可以提供更好的候选结果和更好的性能。另一方面,复合方法则 把几个独立执行的方法的结果合并起来,这些方法中也可以包括混合方法。这 种合并多个度量方法的能力使它比混合方法具有更大的灵活性。混合方法通常 用硬连接的方法组合同时执行或以固定次序执行多个度量方法。与之对比,复 合方法允许以模块化的方法选择所需的方法。而且复合方法在执行顺序上没有 特别的要求,可以让它们同时执行,也可以让它们顺序执行。在后一种情况下, 前面执行的匹配方法的结果可以被后面执行的方法利用,以取得更好的结果。 2 3 本体映射 2 3 1 本体映射方法概述 根据研究重点的不同,可以将本体映射相关的研究分为s c h e m a 映射、基 于上层本体的映射、基于相似度的映射、基于机器学习的映射、基于组合方法 的映射及其它映射研究等。 1 s c h e m a 映射:通过定义全局模式来描述所有的分布数据,这样数据集 成问题就变成了分布数据库模式到全局数据库模式的映射问题。然而基于本体 硕十学位论文 第二章本体映射研究概述 的信息互操作和语义集成问题是一个更加动态的知识共享过程,这种全局模式 的方法有些不太适合。但许多面向s c h e m a 映射f 4 0 j 的基本方法和技术还是可以 被借鉴到本体映射的研究中。实际上,目前很多s c h e m a 映射系统都在进行扩 展以支持本体映射。 2 基于上层本体的映射方法:通过定义上层本体( 目的是提供一个通用的 词汇集作为领域本体定义的基础) ,然后不同的领域本体分布基于这些上层本体 建立,这样不同领域本体之间的映射问题就可以利用它们和上层本体之间的关 系解决。这种方法的前提是所有领域本体必须基于上层本体建立,严重地限制 了该方法的通用性。 3 基于相似度计算的本体映射:通过计算两个实体元素之间的相似度【4 1 1 , 映射的发现问题可以看作搜索相似度最大的两个实体元素的问题。但在大多数 的情况下都只能发现局部最优的映射结果,对其进行扩展以发现全局最优映射 需要面向特定应用建立映射规则,这在一定程度上限制了该方法的普遍应用。 4 基于机器学习的映射:将映射问题转换为分类问题。分类学习的方法通 常利用一个本体中的信息学习分类模型,然后利用另一个本体中的信息预测其 每个元素可能的映射对象。通常利用已有的机器学习的方法,如使用支持向量 机( s u p p o r tv e c t o rm a c h i n e s ,s v m s ) 、贝叶斯学习( b a y e sl e a r n i n g ,b l ) 以 及神经网络( n e u r a ln e t w o r k s ,n n ) 等。但没有充分利用本体中的所有可能信 息,如元素名称、本体约束及本体结构上下文等信息。 5 组合映射:综合利用了上面的方法以提高精度,少数系统还提供了用户 交互的功能,如a n c h o r - p r o m p t 4 2 1 和c h i m a e r a f 4 3 l 。 6 其它本体映射研究:如基于语义推理的映射方法( 删、关于复杂映射的研 究、关于映射效率的研究包括q o m 4 5 】等。 2 3 2 本体映射系统 o a e i 是国际上权威的映射研究组织,参加o a e i 竞赛的映射系统逐年增 加,从2 0 0 4 年的4 个、2 0 0 5 年的7 个、2 0 0 6 年的l o 个发展直至2 0 0 7 年的1 8 个,可见映射在语义网研究中占重要一席,而且国际影响也愈加重要。 每年都有新的系统脱颖而出,如o a e l 2 0 0 5 中的f a l c o n f 4 6 1 ,0 6 年的r i m o m 4 7 1 、c o m a 4 8 1 等,2 0 0 7 中的a s m o v 4 9 1 、l i l y 【5 0 1 等,随着参赛系统的增加, 映射系统的整体水平也在逐年提高。 1 2 硕士学位论文第二章本体映射研究概述 随着参赛系统的增加o a e i 组织对各个参赛系统的评测方法也越加严格, 用于测试的实验测集也逐年增加。o a e l 2 0 0 7 的测试集有:b e n c h m a r k s 、a n a t o m y 、d i r e c t o r y 、f o o d 、e n v i r o n m e n t 、l i b r a r y 、c o n f e r e n c e 其中f o o d 、e n v i r o n m e n t 、l i b r a r y 是针对参赛系统对大本体的处理,e n v i r o n m e n t 和l i b r a r y 是新增的。 下面我们介绍几个有代表性的系统: c o m a :是将不同的匹配算法通过灵活的方式组合起来。c o m a 提供了一 个拥有大量映射匹配算法的算法库,并支持使用不同的方法来组合映射结果, 新的映射算法很容易被加入到算法库中,并与其他算法结合使用。 c o m a 的优点在于: 1 易扩充算法,可作为一个通用的框架用于对算法的比较; 2 用户可以根据需要自由、自主的选择不同的算法进行组合; 3 各个算法的结果的组合也是灵活的。 4 。用户反馈机制可以通过用户的参与增加映射对的可靠性。 5 重用已有的匹配结果可以显著的提高映射的效率,减少了人力、物力、 时间资源。 c o m a + + 【5 l 】是在c o m a 的基础上的改进,用于处理大的现实的s c h e m a 与 复杂的s c h e m a 的问题,因此它在c o m a 的基础上有相当大的改进,并在o a e 1 2 0 0 6 中取得了很好的结果。 c t x m a t c h 5 2 】:提出了一个基于逻辑的算法,处理本体0 与0 中的任意概念, k 0 ,k 0 返回它们之间的语义关系,包括:ki s ( 1 e s sg e n e r a l 、m o r eg e n e r a l 、e q u i v a l e n tt o 、c o m p a t i b l ew i t h 、i n c o m p a t i b l ew i t h ) t h a nk :与其他方法相比 较,c t x m a t c h 具有三个显著特点:引入了一个新方法,使用词法知识、领域知 识和结构知识三种不同类型的知识明确解释了本体中概念的语义;它的结果是 一组逻辑公式的集合;通过逻辑推理的方法得出映射对,并将推理应用于本体 映射中。 s i m i l a r i t yf l o o d i n g :m e l n i k 等人提出了s f 的本体映射算法【5 3 】,该算法是 一个通用的图匹配算法,首先将两个本体转换成有向图,其中点表示概念,在 计算两个点之间相似度的时候,同时考虑图中相邻节点之间的相似度。算法是 一个迭代过程,首先计算两个点之间的初始相似度,然后在每次迭代中都考虑 相邻节点之间的相似度。类似方法的其它研究还包括文献 5 4 , 5 5 1 等。 1 3 硕十学位论文 第二章本体映射研究概述 a s m o v :使用多特征迭代的方式计算概念之间的相似度,主要从t e x t u a l 描述( i d ,l a b e l ,c o m m e n t ) 、e x t e m a l 结构( 父节点、子节点) 、i n t e r n a l 结构( 类 的属性控制、类型、定义域、值域) 、i n d i v i d u a l 相似度等四个特征分析来计算 概念之间的相似度。它在预处理阶段根据本体中的信息可以自动地调整权重, 使得特征之间相互关联、相互制约也能相互促进。 a s m o v 凭借其对本体多特征的处理方式在o a e l 2 0 0 7 中取得了较好的成 绩,其自动调整权值的方式也使得它在处理缺少特征的情况时占有优势。另外 它的验证过程也极大的提高了整体上的查全率与查准率。但是它在处理大本体 方面存在缺陷,如在o a e l 2 0 0 7 的a n a t o n y 、f o o d 测试集上的结果不太理想。 l i l y :为每一个子实体都抽取出其语义子图,然后利用语言学上和结构信 息来获得初始映射,如果需要的话,可以将这些初始映射结果作为输入,继续 通过相似度传播策略产生更多的匹配。 l i l y 中运用了一下四种特殊技术: 1 语义子图:本体中的任何实体都有其特殊的意义,而捕获这些意义对 获得好的映射结果是非常重要的,l i l y 通过发现连接子图来获得其意义,使得子 图能够很精确地描述实体的意义。 2 相似度计算:l i l y 使用两种不同的描述来表达概念和属性。一种是基 本描述,由i d 、l a b e l 、c o m m e n t 等组成的文献描述;一种是语义描述,包含类 层次、相关属性与实例等的描述,对于不同的实体的描述,l i l y 计算其相关部 分的相似度,然后将各相似度结合起来。 3 相似度传播:当本体缺乏常规和清晰的字面描述时,将仅仅返回少数 的映射匹配,因此l i l y 使用相似度传播策略来作为补偿,与其他的相似度传播 方式相比,它定义了更为坚固的传播条件,并且它是基于语义子图的,使用相 似度传播策略可以寻找到更多的映射匹配。 4 自动阈值选择:人工选择的阈值无法与所有匹配条件相适应,l i l y 将 相似度矩阵看作是图像,使用经典的图像阈值选择算法来自动的选择闽值,这 样可以避免人工选择方法的缺点。 l i l y 虽然在o a e l 2 0 0 7 中取得了相当好的成绩,但其仍然存在两大缺陷: 一是大本体的处理问题,本体过大的话,语义子图的抽取与相似度的传播过程 将花费无限的时间;二是效率问题,l i l y 需要抽取出所有概念与属性的语义子 图,这是一个费时的过程,将导致效率低下。 1 4 硕士学位论文第二章本体映射研究概述 r i m o m :它集合了多种不同的映射策略,基于编辑距离的策略、基于向量 相似度的策略、基于路径的相似度策略、基于背景知识的策略等等,而且还有 三种相似度传播策略,每种策略都是基于一种特殊的本体给出的。r i m o m 高 效的寻找出高质量的映射,并且针对不同的任务采取不同的映射策略有效的提 高了映射效率。 p r i o r + t 5 6 l :是一个自动的本体映射工具,它是基于传播学理论、信息检索 技术与人工智能模式的,它的方法充分利用了本体在语言学上和结构上的信息, 并且以v s m 为模型测量了本体不同元素之间的相似度计算的区别。 而且它还根据相似度矩阵的和谐度来自适应的聚合了不同的相似度,另外 还利用了交互式的触发方式与比较神经网络的方法。 由于对s c h e m a 的映射研究要早于本体映射研究,因此在很多方面s c h e m a 的映射方法要先进于本体映射,如现在已经有比较有效的方法对s c h e m a 映射进 行验证【5 7 1 ,也有一些工具用于映射理解与设计如m u s e 5 8 1 。因此我们也可以借 鉴这些方法来解决本体映射中的相似问题。 2 3 3 本体映射的发展趋势 本体映射的发展主要呈现以下的趋势: 1 概念之间的关系明确化。以往的映射结果是一对一对的相似的概念, 现在的一些映射系统着眼于发掘概念之间更为明确的关系,不仅挖掘出概念a 和概念b 之间的相似性而且确定其具体关系如a b ,a = b 或者a _ l b , 系统如o a e l 2 0 0 6 中的c t x m a t c h 就利用了s a t 逻辑可满足性推断出概念之间的 具体关系,是本体映射的巨大进步。 2 与其他技术融合,如f c a 、数据挖掘、粗糙集等。f c a 早就应用于本 体的各个方面,如本体生成【5 9 】、导航等。现在f c a 已经运用于相似度计算俐、 本体映射甚至本体集成1 6 1 】领域。另外也有学者利用粗糙集理论和f c a 技术计算 概念之间的相似度叫以及使用l s a 潜在语义分析【6 3 1 等。 3 复合映射。随着本体映射技术的发展,各种映射系统层出不穷,映射 系统的精度也逐步提高趋于完善,但是几乎所有的映射系统都是针对l :l 的映 射并没有涉及n i l 或者n :m 等更为复杂的映射关系,这样极大的损失了映射结 果的精度,因此迸一步提高映射精度的关键在于对复合映射的处理,至今已有 少数系统考虑了复合映射的问题,但是大部分都是针对模式的复合映射发现方 法。 1 5 硕士学位论文 第二章本体映射研究概述 4 解决现实大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论