(计算机软件与理论专业论文)基于知识库的本体学习方法的研究.pdf_第1页
(计算机软件与理论专业论文)基于知识库的本体学习方法的研究.pdf_第2页
(计算机软件与理论专业论文)基于知识库的本体学习方法的研究.pdf_第3页
(计算机软件与理论专业论文)基于知识库的本体学习方法的研究.pdf_第4页
(计算机软件与理论专业论文)基于知识库的本体学习方法的研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机软件与理论专业论文)基于知识库的本体学习方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学硕士学位论文 摘要 本体是语义w e b 的核心,其学习算法逐渐成为语义w e b 的一个研究热点。已有的本体学习工 作集中在术语、同义词、概念、分类体系和关系层,而公理层的研究很少。o w ld l p 是能够转换 为一阶h o r n 逻辑的o w ld l 子集,也是r d f s 的超集。h o r r o c k s 等人的研究表明,o w ld l p 覆 盖了大部分语义w e b 本体。本文选取o w l d l p 的部分常用公理,构造了本体学习的测试基准,并 提出了一个基于关系的o w l d l p 本体学习算法。 研究o w ld l p 本体学习算法需要一个合适的测试基准,但现有的数据集都不太适合用于o w l d l p 本体学习的评价,因此构造学习o w ld l p 本体的测试基准是一个全新的工作。它不仅可以满 足本文的需要,还可以为其他研究人员提供一个学习o w ld l p 本体算法的公共测试平台。本文构 造测试基准的方法是在现有的本体上,通过分离本体的概念层和实例层,得到本体学习所必需的训 练样例和评价学习结果所必需的黄金标准本体。当本体实例不能满足学习要求的时候,使用定义生 成规则的方式自动生成实例,从而得到比较完备的测试基准。本文构造出了4 个测试基准,其中2 个的训练样例个数超过1 0 万。 为了验证这4 个测试基准是否可以为本体学习提供必需的训练样例,本文提出了一个基于关系 的o w ld l p 本体学习算法。该算法首先基于关系学习从断言集合学习一阶h o r n 子句集,再将一阶 h o r n 子句集转换为o w ld l p 本体公理。在学习规则集时,本文改进了经验式i l p 算法- f o i l 算法,使其在没有反例的情况下也能进行学习。然后通过手工的方式,将所得到的规则集映射到o w l d l p 公理。实验结果表明,此算法在本文所构造的测试基准上具有较好的精度和召回率,验证了本 文构造出的测试基准可以满足学习算法的需要。 关键词:本体学习,i l p ,学习规则集,o w ld l p 基于知识库的本体学习方法的研究 a b s t r a c t o n t o l o g yp l a y sa ni m p o r t a n tr o l ei ns e m a n t i cw e b ,a n do n t o l o g yl e a r n i n gi s 锄e 唱i i l g 勰an 唧 h o t s p o t e x i s t i n go n t o l o g yl e a r n i n ga p p r o a c h e sf o c u s e do nt h et e r m ,s y n o n y m ,c l a s s i f i c a t i o nh i e r a r c h y a n dr e l a t i o nl a y e r ,b u tf e ws t u d i e da x i o ml a y e r o w ld l pi st h es u b s e to fo w ld lt h a tc o u l db e t r a n s f o r m e di n t of i r s to r d e rh o r nc l a u s e s i ti sd i s c o v e r e db yh o r r o c k st h a to w ld l pc o v e r st h em o s tp a r t o fs 廿n a n t i cw e bo n t o l o g i e s b e n c h m a r ki su s e df o re v a l u a t i o no fo n t o l o g yl e a r n i n g ,s oi tw o u l db ev e r yb e n e f i c i a lf o ro n t o l o g y l e a r n i n gr e s e a r c h i n gi fab e n c h m a r kc o u l db ed i s c o v e r e da n df o , r t h e rs h a r e di nl e a r n i n go w ld l p o n t o l o g y i nt h i sp a p e r ,t h eb e n c h m a r kw a s c o n s t r u c t e db a s e do nt h ee x i s t i n go n t o l o g i e s w ec o u l dg e tt h e t r a i n i n gs a m p l e sa n dt h eg o l ds t a n d a r do n t o l o g yb ys e p a r a t i n gc o n c e p t sa n di n s t a n c e s i ft h ei n s t a n c e sa r e t o of e wt om e e tt h er e q u i r e m e n t so fo n t o l o g yl e a r n i n g ,m o r ei n s t a n c e sc a nb ea u t o m a t i c a l l yg e n e r a t e db y g e n e r a t i o nr u l e sw h i c hd e f i n e di nt h i sp a p e r w ec o n s t r u c tf o u rb e n c h m a r k s ,t w oo f w h i c hh a v eo v e r1 0 0 , 0 0 0t r a i n i n gs a m p l e s n i sp a p e ri m p l e m e n t e da na l g o r i t h mf o rl e a r n i n go 、。d l po n t o l o g y ,t r y i n gt of i n dw h e t h e rt h e b e n c h m a r ko w nn e c e s s a r yt r a n i n gs a m p l e sf o ro n t o l o g yl 跚 n i n g i tl e a r n sf i r s to r d e rh o mc l a u s e sb y r e l a t i o n a l l e a r n i n g , a n dt h e nt r a n s f o r m st h e mi n t o0 w ld l pa x i o m s f i r s t ,w ed e v e l o p e da ni m p o v e d f o i la l g o r i t h mt oi e a r nf i r s to r d e rh o r nc l a u s e sw i t h o u tc o u n t e r - e x a m p l e s s e c o n d , w et r a m f o r m e dt h e f l r s to r d e rh o mc l a u s e si n t o0 、礼d l pa x i o m sm a n u a l l ya c c o r d i n gt ot h er e l a t i o n s h i pb e t w e e nf i r s to r d e r h o r nc l a u s es e ta n d0 、 几d l pa x i o m s e x p e r i m e n t a l r e s u l t ss h o wt h a tt h i sa l g o r i t h mh a sg o o dp r e c i s i o n a n dr e c a l lr a t eb a s e do nt h eb e n c h m a r k s ,a n do nt h eo t h e rh a n dt h er e s u l t sv e i l f yt h a tt h e r e 踟冶e n o u g h t r a i n i n gs m a p l e si nt h eb e n c h m a r k s k e y w o r d s :o n t o l o g yl e a r n i n g , i l p ,r u l e ss e tl e a r n i n g ,o w ld l p 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:量烫日 期:2 1 2 猢瑚 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学 位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。 本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外, 允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文 的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:盈导师签名:姓日 东南大学硕士学位论文 第一章绪言 万维网( w e b ) 是一个海量的知识库,而语义w e b ( s e m a n t i cw e b ) 是下一代w e b 发 展的重要方向之一。本体作为语义w e b 的核心,其学习算法日益成为研究热点。本章首先 介绍本体学习的研究背景,然后介绍本文的工作以及内容安排。 1 1 研究背景 本节分为研究意义和应用背景两个部分。 1 1 1 研究意义 w e b 的研究正在成为- f - j 科学,即w e b 科学( w e bs c i e n c e ) ,而语义w e b ( s e m a n t i cw 曲) 是下一代w e b 发展的重要方向之一【lj 。2 0 0 1 年2 月,w 3 c 启动了“s e m a n t i cw 曲a c t i v i t y , 从此,语义w e b 的研究和应刚得到了广泛的关注,并取得了很大的进展。2 0 0 4 年2 月l o 日,与r d f s ( r d f 和r d fs c h e m a ) 和o w l 语言有关的1 2 个技术规范正式发布,这标志 着语义w e b 的本体语言及理论基础已经基本奠定。2 0 0 4 年2 月2 5 日,w 3 c 成立了 s e m a n t i c w e bb e s tp r a c t i c e sa n dd e p l o y m e n t ”工作组,并宣告“s e m a n t i cw e ba c t i v i t y 进入第二阶段。 于此同时,i s w c 自2 0 0 3 年以来每年都举办语义w e b 挑战赛( s e m a n t i cw e bc h a l l e n g e ) , 以此鼓励语义w e b 走向应用。 本体( o n t o l o g y ) 是语义w e b 的核心。按照g r u b e r 的定义,本体是感兴趣领域的共享 的概念化的显式规约【2 1 。作为一个规约,本体需要通过某种语言表达。语义w 曲中的本体 是指使用r d f s 或o w l 语言构建的本体。 本体学习( o n t o l o g yl e a r n i n g ) 是本体开发过程的自动或半自动化支持。根据s t a a b 的 定义【3 1 ,本体学习分为六个层次,分别是术语、同义词、概念、分类体系、关系、公理& 规 则,如图1 1 所示。 r 。! l 公理规则 图1 1s t a a b 等人给出的本体学习层次模型 语义w e b 得到普及取决于两大因素:一个是存在大量的本体,一个是存在大量用本体元 数据标注的资源。但现在这两个因素却相互制约:因为没有元数据,所以没有语义w e b ;因 为没有语义w 曲,所以不可能学习元数据【4 1 。同时又存在一个尴尬的情况:因为缺乏大量带 基于知识库的本体学习方法的研究 标注的资源,所以没有太多的语义w e b 应用;因为看不到对资源进行语义标注的明显益处, 所以人们就不会对资源进行语义标注【卯。所以本体学习的成功将在很大程度上改善这种情况, 可以说本体学习的成功是语义w e b 成功的关键之一。 公理层是本体学习的最高层次。根据本体学习的层次模型,“公理规则”位于本体学 习的最高层次已有的本体学习工作主要集中在术语、同义词、概念、分类体系和关系的学 习,很少对公理学习进行研究。本文的研究就是针对本体公理层的学习展开的。 1 1 2 应用背景 本文的工作是以国家自然科学基金项目“o w ld l p 本体的学习方法研究”为背景。该 项目研究o w ld l p 本体中所有概念和角色的定义公理及约束公理的学习方法。 本论文的相关研究包括:( 1 ) 构造o w ld l p 公理本体学习的测试基准;( 2 ) 基于关系 学习从断言集合学习一阶h o r n 子句集,再将一阶h o r n 子句集转换为o w l d l p 本体公理的 方法。 1 2 本文工作 本节主要介绍本文的研究目标,和本文所包括的主要内容。 1 2 1 研究目标 本文的研究目标是面向本体学习的最高层次公理层,针对能够覆盖大部分语义w e b 本体的o w ld l p 本体,提出本体学习的新方法和新技术。通过这些方法、算法、工具和 支撑技术的研究,来发展语义w e b 上的本体学习、机器学习,促进语义w e b 应用和本体 应用的发展。 1 2 2 研究内容 根据对国内外相关研究现状的考查及分析,拟定本文的研究内容包括: ( 1 ) 构造o w ld l p 本体学习的测试基准。研究从知识库中抽取个体和性质的断言集 合,从而构造训练样例集的方法;研究利用知识库中的公理生成个体和性质的断言集合,从 而构造训练样例集的方法。 ( 2 ) 基于关系学习的o w ld l p 本体学习方法。研究学习o w ld l p 本体的策略,通 过一阶h o m 逻辑间接学习描述逻辑;研宄利用测试基准的一元谓词( 4 - 体断言) 和二元谓 词( 性质断言) 集合,学习一阶h o r n 子句集合的方法。 1 3 论文安排 后续章节的安排如下: 第二章首先介绍本体学习的研究现状,主要包括本体学习的方法、本体学习的工具本 2 东南大学硕士学位论文 体、学习的评价标准以及本体学习的相关技术。第二是介绍i l p ( 归纳逻辑程序设计) 的研 究现状,主要包括i l p 的发展、i l p 系统的类型和i l p 系统的结构。 第三章介绍了o w ld l p 本体测试基准的构造方法,主要包括在构造测试基准的过程 中需要处理的约束和处理这些约束的方法和本体实例层的分离算法并通过实验生成了4 个测试基准,分别给出了这4 个测试基准的统计数据。 第四章介绍了基于关系的o w ld l p 本体学习的方法,主要包括规则集的学习算法和 o w l d l p 公理和一阶h o r n 子句之间的映射关系。并通过实验分析了这种学习算法的性能, 同时验证了第三章所生成的测试基准的合理性。 第五章总结了本文的主要工作,分析了工作中存在的不足并提出了对未来工作的展望。 3 基于知识库的本体学习方法的研究 第二章相关研究 目前关于本体学 - - j 的研究已有大量工作,综述性的文献包括【l 】【3 】【8 l g l 。以下分别就本体 学习方法,本体学习工具、本体学习的评价标准以及本体学习相关技术四个方面来介绍目前 本体学习的研究现状。 归纳逻辑程序谢- t ( i n d u c t i v el o g i cp r o g r a m m i n g i l p ) 是由机器学习( m a c h i n el e a r n i n g ) 与逻辑程序设计( l o g i cp r o g r a m m i n g ) 发展并结合所形成的一个研究领域。本体学习作为 机器学习的一个分支,可以借鉴i l p 中比较成熟的技术,从而推动本体学习的发展,本章从 i l p 的发展、i l p 系统的类型、i l p 系统的结构三个方面介绍i l p 的研究现状。 2 1 本体学习方法 本体学习问题可以根据数据源的结构化程度( 结构化、半结构化、非结构化) 以及本体 学习对象的层次( 概念、关系、公理) ,划分为9 类子问题。从学习对象的层次来看,目前 的研究t 作主要集中在概念和关系层的学习。从数据源的结果化程度来看,目前主要的研究 集中在基于非结构化数据资源的学习。所以本节将从这两个方面来介绍本体学习的研究现状。 2 1 1 基于非结构化数据的本体学习 非结构化数据包括纯文本,图像,声音等等。其中纯文本是大量存在的一类非结构化数 据,也是本体学习最重要的数据资源。目前,基于非结构化数据的研究主要都集中在从纯文 本中获取本体。纯文本中蕴含丰富的语义,但是要让机器去理解并且获取其中的知识,还是 相当困难的。 概念的获取是基于非结构化数据的本体学习的基础。对于特定的领域来说,领域概念的 获取也就是专业术语的获取。目前对于术语获取的研究很多,其主要有三种典型的方法:( 1 ) 基于语言学的方法主要通过语法规则来分析文本,进而获得术语。( 2 ) 基于统计的方法主要 根据领域概念具有不同一般词汇的统计特性来鉴别领域概念。( 3 ) 混合型方法是将上述两种 方法结合处理的方法。一般先对文本进行语法分析,获得候选的术语集,然后通过统计的方 法对候选集合进行过滤,从而更加精确的获取某个领域的术语。 关系的获取的方法比较多样,常用的有基于模式抽取的方法,基于关联规则的方法,基 于概念聚类的方法,基于词典的方法等等。 a g u i r r e 等利用从w e b 中检索的文本丰富已有的大型本体( 1 a r g eo n t o l o g y ) i o l o 其主要 动机是为了克服w o r d n e t 等大型本体中概念之间缺乏主题链接和同一个概念的含义( s e n s e ) 太多的缺点。他们从w 曲中检索和本体中概念相关的文本,然后基于主题签名( t 叩i cs i g n a t u r e ) 的方法,针对概念的每一个含义收集和概念密切相关的文本中的单词,最后比较不同集合中 出现的单词及其频率。a g u i r r e 主要采用了聚类、统计分析和主题签名的方法。 在a l f o n s c c a 等提出的类似主题签名的方法中,自动获取概念在文本中的上下文属性, 形成单词向量,聚类本体中的概念或通过增加概念的方法丰富本体【1 1 l 。他们采用t f i d f 和 c h i - s q u a r e 的方法度量上下文向量之间的相似度,计算概念之间的距离。采用只包含和概念 具有某种语法关系的上下文来改进主题签名的质量。例如,以概念作主语或直接宾语的动词、 4 东南大学硕士学位论文 或只考虑修饰概念的形容词【1 2 】。但是该方法要求概念出现的次数足够多,以便有足够多的 上下文信息来产生主题签名a l f o n s e c a 等主要采用了主题签名和语义距离度量的方法 a u s s e n a c - c f i u e s 等利用基于技术文档的知识抽取( k n o w l e d g ee l i c i t a t i o n ) 来学习本体【1 3 】【1 4 】 他们建议在三个不同的层次上进行本体学习。在语言学层次上采用语言学分析技术从文本中 获取术语和词典关系( 1 e x i c a lr e l a t i o n ) ,在规格化层次( n o r m a l i z a t i o nl e v e l ) 上创建词典聚 类,从术语分析过渡到概念分析,实现从术语到概念和从词典关系到语义关系的转换。最后 在形式语言层将概念及其关系形式化并进行本体验证。a u s s e n a c - g i l l e s 等主要采用了基于统 计分布的术语抽取、基于语言学模式的关系抽取和采用语法模式的知识抽取方法与技术。 b a c h i m o n t 等建议采用差别语义( d i f f e r e n t i a ls e m a n t i c s ) 的语言学技术来构建本体【1 4 1 。 本体的构建包括语义规格化、知识形式化和可操作化三个步骤。由用户选择和领域相关的术 语,对其含义规格化,并且指出它们之间的相似性和区别。b a c h i m o n t 的方法主要是基于自 然语言处理技术的。 f a a t z 和s t e i n m e t z 提出了从w e b 中抽取信息来丰富本体的方法【1 6 1 ,它通过比较语料库 中单词的统计信息和本体自身的结构来实现。包括构建语料库、从语料库中识别候选概念集 合,选择候选概念子集三个步骤。f a a t z 和s t e i n m e t z 的方法主要利用了统计分析和语义关联 度。 g u p t a 等提出了从领域相关文本中抽取和维护子语言w o r d n e t 的方法【1 7 1 ,其目的是快速 开发可用于自然语言处理的s u b w o r d n e t s 。该方法包括三个循环的步骤:发现单词和多词短 语、确认新概念和关系、更新s u b w o r d n e t 和进行概念维护。g u p t a 的方法中利用了自然语 言处理技术,特别是信息抽取技术。 h a h n 等提出了基于自然语言理解技术对领域分类体系进行维护和扩展的方法【忸】【1 9 】。当 新概念被从文本中抽取出来时,一个给定的分类体系被不断更新。抽取过程的核心是语言学 分析,以及各种产生或丰富化概念假设的证据分析。根据证据的质量,概念假设被按照置信 度( c r e d i b i l i t y ) 排序,而最可信的概念被插入本体。新概念的证据来自于领域文本的背景 知识和未知词典项出现的语言学模式。h a h n 的方法主要利用了基于语言学和概念质量标注 的概念假设。 h e a r s t 描述了自动学习概念之间关系的方法,称为上下位关系模式( h y p o n y m y p a t t e r n ) 2 0 1 它需要在本体中查找相关的概念,然后决定它们是否相关,并采用词模式( w o r dp a t t e r n ) 来表达这种关系。例如s h a k e s p e a r e 在w o r d n e t 中是p o e t 的下位词,如果在文本中发现模式 “p o e t ss u c ha ss h a k e s p e a r e 。我们就可以断定“s u c ha s ”经常被用来表示上下位关系。k j e t z 等人采用上下位关系在o n - t o - k n o w l e d g e 中丰富本体。但是这种方法的错误率很高,需要专 家对学习结果进行验证。h e a r s t 等人的方法利用了表达词典关系的词模式来学习本体中概念 之间的关系。 h w a n g 基于能够捕获文本语义的动态本体提出了大型文本数据库的表示方法和信息检 索的方法【2 1 j 。这种动态本体是一种分类体系,它的学习过程包括:首先由领域专家提供表 示上层概念的少量种子单词,从w e b 上自动获取相关文档。然后系统处理这些文档,抽取 包含种子单词的短语,产生相应的概念术语并插入本体中适当位置,提醒专家这些本体的变 化。该方法被命名为“d i s c o v e r - a n d a l e r t ”。与此同时,收集用于下一轮处理的候选种子单词。 该过程迭代进行直到指定的次数后终止h w a n g 的方法主要利用了自然语言处理、机器学 习和统计分析技术。存在的问题包括词法结构的歧义、指向同一概念的短语识别、词义消歧 等。 5 基于知识库的本体学习方法的研究 k a h n 采用自下而上聚类的方法和w o r d n e t 构建领域本体。首先选择语料库,然后构建 层次关系,最后对聚类命名【2 2 1 。k a h n 主要采用了聚类的方法。 k i e t z 等人提出了利用自然语言处理技术从给定的异构资源中发现领域本体的方法【2 3 1 由于用户介入了本体学习过程,所以它是一种半自动的方法他们利用平衡的协同建模 ( b a l a n c e dc o o p e r a t i v em o d e l l i n g ) 【2 4 1 方法来结合不同的学习算法和用户的介入。该方法假设 文档中描述了术语、概念及其层次结构。k i e t z 的方法主要利用了自然语言处理技术和统计 技术 m i s s i k o f f 等提出的o n t o l e a r n 是一种基于自然语言处理和机器学习技术的本体构建和 丰富方法【2 5 1 1 2 6 。采用w o r d n e t 作为先验知识构建一个核心领域本体,然后修剪所有非特定 领域的概念;采用统计方法确定术语和领域的关系;采用基于机器学习的语义解释( s e m a n t i c i n t e r p r e t a t i o n ) 来确定术语的正确含义和语义关系。m i s s i k o f f 的方法中主要利用了自然语言 处理、机器学习和统计技术。 m o l d o v a n 和g i r j u 利用从经过解析的文本中发现的知识,提出了扩展已有本体的方法1 2 。7 1 。 该方法分为五步。第一步,由用户选择和领域相关的重要概念,组成种子概念集合,并根据 同义关系对这些种子进行扩展。第二步,从通用语料库中发现新概念【2 8 】。发现过程如下: 检索包含种子概念的文档,将名词作为侯选概念;抽取包含候选概念的句子;对这些句子进 行词性标注和句法分析;抽取新的概念。第三步,发现词典句法模式( 1 e x i c a l s y n t a c t i cp a t t e r n ) , 发现概念之间的语义关联。第四步,根据词法关系发现概念之间的新关系,由用户确认这些 关系。第五步,分类与集成。新获取的概念形成分类体系,并和已有本体进行集成。m o l d o v a n 的方法主要利用了自然语言处理技术。 r o u x 等利用句法分析技术从领域语料库中抽取概念来丰富本体2 9 1 该方法基于s o w a 提出的概念图模型( c o n c e p t u a lg r a p h ) 和句法依赖( s y n t a c t i cd e p e n d e n c y ) ,特别是语言学层 次上的动词模式( v e r bp a t t e r n ) 。但是,该方法受到两个限制:概念必须是一个专有名词, 文本中的数据可以很容易地由最近的上下文( i m m e d i a t ec o n t e x t ) 确定。r o u x 的方法主要利 用了动词模式。 w a g n e r 提出了自动获取动词选择偏好( s e l e c t i o n a lp r e f e r e n c e ) 的方法以丰富本体【3 0 1 。 该方法主要用于层次关系的学习。w a g n e r 的方法利用了统计分析技术。 x u 等人采用无监督的文本挖掘技术获取领域相关的术语和关系【3 1 1 。采用w o r d t e r m 分 类抽取单字词术语;采用术语搭配学习多字词术语及词典句法关系;利用已知关系学习模 式,如g e r m a n c t 和w o r d n e t :将学习到的词典句法模式应用于语料库来抽取相关术语。 x u 的方法主要利用了自然语言处理、统计和文本挖掘技术。 到目前为止,在获取概念之间的分类关系上的研究比较多。对于概念间非分类关系的研 究,还只是停留在判断两个概念是否存在关系的层次上,而无法真正的确定具体是什么关系。 k a v a l e c l 3 2 j 等人提出使用关联规则来确定概念间非分类关系的方法。其基本思想是两个概念 之间的非分类关系可以用经常出现在两个词附近的某个动词来表示。该方法是对解决非分类 关系的初步尝试,但它仅仅考虑词频而没有考虑句子结构等因素,所以效果不理想。 对于公理的获取,研究成果很少。目前只有s h a m s f a r d 6 等人提出的基于模式的抽取方 法,即在对句子的结构分析的基础上,应用预定义的模式去匹配得到相应的本体公理。该方 法的局限性在于需要人工预先制定抽取模式,更重要的是无法获取那些隐式的公理。 6 东南大学硕士学位论文 2 1 2 基于结构化数据的本体学习 结构化数据主要包括关系数据库或面向对象数据库中的数据。这中数据不仅仅存在于大 量信息管理系统的数据库中,还存在于h i d d e nw e b 中。所谓的h i d d e nw e b 是相对于s u r f a c e w e b 来说,h i d d e n w e b 中的数据就是存储在数据库中,而且这些数据一般都是面向主题( 领 域) 的。l a w r e n c e 和g i l e s 在1 9 9 8 年时估计互联网上有8 0 的内容存储在h i d d e nw 曲中阴。 因此,利用数据库中丰富的数据构建本体是一个很有意义研究方向。 从面向对象模型中学习本体。面向对象模型与本体有许多相似之处,所以,从面向对象 模型中获取本体的方法比较简单。另外,由于目前面向对象数据库应用范围有限,所以这方 面是研究比较少 从关系数据库中学习本体。系数据库采用的是关系模型,它是对领域信息建模的一种经 典模酗这种模犁结构简单,二维关系表格形式容易被理解,关系代数理论强有力地支持了 关系模型,使得关系数据库得以广泛应用【l5 】在关系模型中,关系( r e l a t i o n ) 是元组的集合: 而关系模式( r e l a t i o ns c h e m a ) 是用来描述关系的结构的,即它由哪些属性构成、这些属性 来自哪些域以及属性和域之间的映像关系,所以说,在关系数据库中,关系模式是型,元组 集( 即关系) 是值。与关系模型相比,本体是一种具有更多语义、结构更为复杂的模型。本 体学习的任务就是将关系模型中的语义信息发觉出来,以本体的形式来组织。 基于结构化本体学习的雏形来源于关系数据库的逆向工程( r e l a t i o n a ld a t a b a s er e v e r s e e n g i n e e r i n g ) 【2 4 1 。关系模型所能描述的语义信息太少,在对数据类型繁多而语义复杂的领域 信息系统的建模的时候,关系模型显的有些力不从心,于是研究者们开始关注如何将关系模 型重新设计成更复杂的结构,在此期间,他们给出一系列技术来获取关系模犁的语义结构 并对其重新设计,这些技术被称为关系数据库的逆向工程。这其中提出的关系模型语义的获 取技术可以用于从关系数据库中获取本体。 1 9 9 4 年,j o h a n n e s s o n 4 1 】提出将关系模型转换为一个概念模型,该概念模型实际上是一 个扩展的实体关系模型的形式化表示,然后由用户对该概念模型进行修订生成最终的本 体。 2 0 0 2 年,s t o j a n o v i c 等人【4 3 】通过考察数据库中的表、属性、主外键和包含依赖关系,给 出了一组从关系模型到本体的映射规则,基于这些规则能够直接得到一个候选本体,然后可 以进一步对该候选本体进行评价和精炼,生成最终的本体。通过这种方法可以将关系模型直 接转换成本体,改变了之前首先使用数据库逆向工程技术获取语义,然后整理成本体形式这 种两步处理的策略。 1 9 9 9 年k a s h y a p 1 9 】提出首先根据关系模式得到一个初步的本体。然后基于用户查询进 一步丰富该本体中的概念和关系。由于用户查询具有很大的随机性,所以很难保证结果的质 量。由于关系模式中蕴涵的语义十分有限,所以单纯同对关系模式进行语义分析从而获取构 建本体所需的概念和关系的方法只能用来构建轻量级的本体。而k a s h y a p 提出的这种方法充 分利用了用户查询的信息,为本体的构建提供了新的信息获取渠道。 2 0 0 4 年,a s t r o v a 2 0 通过对元组的分析,得到了概念间的“继承”关系。这也是基于通过 多渠道发现语义的思想,数据库的元组中有许多关系模式中所没有的隐含语义信息。通过分 析分析数据库中的元组,获取更多的语义信息,使得学习到的本体更加完善。 2 0 0 4 年,a s t r o v a 等人 2 2 1 提出由于h t m l 表格是w 曲上用户和数据库交互最常用的界 7 基于知识库的本体学习方法的研究 面,所以在无法获得数据库模式信息的情况下,可以通过分析这些h t m l 表格的结构和数 据来获取关系数据库的语义,从而构建本体在这方面,最近关于h i d d e nw e b 的一些研究成 果【2 3 1 可以借鉴。总之,从关系数据库中学习本体仍然有很多工作可以做。 2 1 3 基于半结构化数据的本体学习 半结构化的数据指具有隐含结构,但缺乏固定或者严格结构的数据【3 4 1 w e b 中的半结 构化数据很多,例如大量的x m l 格式和h t m l 格式的网页,以及它们遵循的文档定义类 型( x m ls c h e m a 或者d t d ) ,还有很多用r d f 标注的网页,都可以作为本体学习的数据资 源。 由于这类数据是介于结构化和半结构化数据之间的,所以基于上述两种数据类型的本体 学习技术也可以应用到这类数据源上。对于x m l ,h t m l 和r d f 等格式的网页,可以直接 使用那些从纯文本中获取本体的方法。p a p a t h e o d o r o u 3 5 】等采用称为聚类挖掘的数据挖掘算 法从x m l 或r d f 资源中学习特定领域的分类系统( t a x o n o m y ) 。对于模式语言,例如x m l s c h e m a 或者d t d ) ,因为它们描述了x m l 数据的层次结构,通常认为它们是x m l 的逻辑 模型。所以类似于从结构化数据中学习本体。v o l z 3 6 】等运用规则集序列将t e r m i n a l 和 n o n t e r m i n a l 映射为本体中的概念和角色,以获取x m ls c h e m a 的语义。 机器可读的词典( m l m ) 也是一种特殊的半结构化数据。作为一种通过手工方式认真 组织的可靠的领域知识资源,它们也是一种非常好的本体学习数据资源。这类资源的内部结 构虽然也是一种纯文本,但是对于领域概念及其关系的抽取来说,仍然有很多规律可循。通 常使用基于语言学的方法和基于模式的方法【3 7 】【3 8 1 。 另外,随着语义w e b 的发展,w e b 中越来越多的出现o w l ,r d f ( s ) 等语言描述的 本体,他们也是一种半结构化的数据。如何从已有的本体中学习新的本体也是目前比较受重 视的一个研究方向。 2 2 本体学习工具 基于上面介绍的本体学习方法,人们开发了一系列本体学习工具。由于完全自动的本体 学习技术还不现实,所以现有的本体学习工具都是半自动的。 2 2 1 基本框架 本体学习工具的基本框架如图2 1 所示,该图表明,本体学习工具的输入可以是各种类 8 东南大学硕士学位论文 图2 1 本体学习工具的基本框架 型的数据源( 文本、h t m l 、x m l 、d a t a b a s e 和已有的本体) 。在此框架中,预处理模块 ( p r e p r o c e s s i n gm o d u l e ) 首先对数据源进行预处理:接着,学习模块( l e a r n i n gm o d u l e ) 通 过使用算法库( a l g o r i t h ml i b r a r y ) 中的各种本体学习算法从上一步预处理的结果中获取本 体;然后,将结果( r e s u l ts e t ) 作为候选本体呈现给用户:最后,用户对该候选结果进行 评价( e v a l u a t i o nm o d u l e ) ,并将最终的结果添加到本体中。同时提供一个可视化的工作界 面( e d i t o rm o d u l e ) 给用户用于最后的编辑和确认。可以看出,整个过程是在用户参与下的 半自动的过程。需要注意的是,学习模块在获取本体的过程中需要参照已有的本体。目前, 一些算法已经提出可以利用已有的本体作为背景知识来提高本体学习的精度1 3 4 1 。另外,如 果在本体学习之前已经存在了一个初步的本体,那么在将本体学习结果添加到其中时,还要 考虑到新添加的知识和已有的知识是否存在不一致性等问题。这就是本体的演化问题,本文 不做讨论。 到目前为止,国外已经开发了许多本体学习工具。虽然这些工具的系统框架在细节上各 不相同,但基本上都遵循了上图所示的框架和处理流程。下面重点介绍几个具有代表性的工 具:t e x 似o o n t o ,o n t o l i f t ,o n t o i _ 七a m ,o n t ob u i l d e r 和h a s t i 。 2 2 2 主要工具 t c x t o t o - o n t o 3 4 】m 1 是u n i v e r s i t yo f k a r l s r u h e 开发的一个整合的本体学习工具。其主要特 点是可以支持从多种数据源中获取本体。目前,它已经可以做剑从非结构化数据( 纯文本) 9 基于知识库的本体学习方法的研究 和半结构化数据( h t m l ,词典) 中获取概念及其关系。对于从非结构化数据中学习本体, 它使用加权的词频统计方法来获取概念,使用基于概念层次聚类法来获取分类关系,使用基 于关联规则的方法来获取非分类关系;对于h t m l 数据,它将其预处理成纯文本,然后利 用基于非结构化数据的本体学习方法从中获取本体;对于词典,它使用基于模板的学习方法。 该系统能够处理德文和英文的数据源。 o n t 0 l i f t 【3 6 】是u n i v e r s i t yo f k a r l s r u h e 开发的一个从半结构化数据( x m ls c h e m a ,d t d ) 和结构化数据( 关系数据库) 中获取本体( 包括概念及其关系) 的工具。对于这两种类型的 数据源,它都采用基于映射规则的方法来获取本体。在系统实现中,从x m ls c h e m a 和d t d 中获取本体的部分是基于一个已有的工具( h m a r f r a ) 。h m a r f r a 能够实现从x m ls c h e m a 到 本体的映射。然后,o n t o l i f l 开发了一个从d t d 到x m ls c h e m a 映射的中间工具。这样, 将这两个工具合并起来,实现了从x m ls c h e m a 和d t d 中获取本体。从关系数据库中获取 本体的部分是基于j a v aj d b c 标准提供的接口,然后按照一定的命名规范将数据库中的表名 和属性名等信息,按照映射规则转换为本体中的元素。 o l l t o l e a r n 2 6 1 1 制是u n i v e r s i t yo f r o m e 开发的一个基于文本的本体学习工具,它能够获取 概念及其关系。其主要特点是:将语义解释的方法应用到本体获取中,即首先使用基于语言 学和统计的方法从一组文本集中抽取领域相关术语,然后使用通用本体中的概念对这些术语 进行语义解释,从而确定术语之间的分类和其他语义关系。o n t o l e a m 选择w o r d n e t 作为通 用本体,使用w o r d n e t 中的概念对获取的术语进行语义解释,从而使所构建的领域本体与 w o r d n e t 具有明确的关系,这样的好处是有利于不同领域本体之间的互操作。 o n t o b u i l d e r l 4 7 儿驰1 是m i s s i s s i p p is t a t eu n i v e r s i t y 开发的一个从x m l 和h t m l 中获取本 体( 包括概念及其关系) 的工具。它看起来像一个w e b 浏览器。当使用它来获取本体之前, 需要手工构建一个初始的领域本体;然后,在用户浏览包含相关领域信息的网站的过程中, 该工具会为每个网站生成一个候选本体1 5 u ;最后,在用户的参与下将这些候选本体与初始 本体合并。其中,使用的本体学习方法主要是词频统计和模式匹配( 包括子串匹配、内容匹 配、词典匹配) 。o n t o b u i l d e r 可以支持英文的网页,但在实际中它并不能适用于所有的网站, 因为有些网站包含了它不支持的技术,例如带有脚本( s c r i p t i n g ) 的网页。 h a s t ip 驯是a m i rk a b i ru n i v e r s i t yo f t e c h n o l o g y 开发的一个本体学习工具。其主要特点 是:使用一个初始的核心本体,然后基于该本体自动地从纯文本中获取新的概念、关系和公 理,从而不断地扩充这个初始的核心本体。它是为数不多的一个能够获取本体公理的工具。 需要注意的是,它使用的这个核心本体是领域独立的,其中包括很少量的手工定义的概念、 分类关系、非分类关系和公理。使用该本体的主要目的是便于对一些新获取的概念、关系和 公理在本体中进行预定位。根据输入的纯文本的领域,h a s t i 学习的结果可以是通用本体也 可以是领域本体。该工具使用了多种本体学习方法:在获取概念时,它使用了基于语言学的 方法:在获取概念间关系时,它使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论