已阅读5页,还剩70页未读, 继续免费阅读
(计算机软件与理论专业论文)基于语义依存分析的本体学习方法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 如今,w e b 成为了网络信息的主要平台,是入们获取知谈的主要来源。但是, 出于w e b 页瑟的无结构性、超链接的自巍无序、以及w e b 内容的海量性、多 样性和动态变化,人们从w e b 上搜索真币想要的信息其实并不容易。语义w e b 的出现解决了上述矛盾。语义w e b ( 语义网) 提供了一个通用的框架。允许跨越 不同应用程序、企业和团体的边界共享和重用数据。作为语义w e b 孛知议语义 元数据的载体,本体成为了语义w e b 的核心元素。 为了将冒嚣无序的w e b 改造成有序的计算机可理解的知识宝库,语义w e b 采用多层次的表示框架,本体位于从文档描述到知识推理转折的层次,因此本 体的构建是实现语义w e b 的关键环节。本体构造是个非常复杂的过程,它需 要多个领域的专家参与。虽然目前本体构建工具已经较为成熟,但本体的手工 构造仍是一项繁琐丽辛苦的任务,在构建的初期和维护阶段需要花费大量的人 力,构造合适的通用本体或分类体系需要大量的修剪和编辑时潮,并最终导致 所谓的知识获取瓶颈。 为了解决本体构建的歼销阀题,本体学习技术可以说当前的一个研究热点。 其目的旨在使用能够实现本体自动构建的机器学习技术来协助知识工程师构建 本体。本文基于传统的本体学习方法,针对髫前本体学习的薄弱环节和关键闯 题,提出了新的思路,主要研究工作如下: 针对概念和实例抽取,通过使用统计方法耱自然语言处理技术楣结合的 方式提取术语,利用语义角色标注及生成的语义依存结构对候选术语进 行筛选,通过语义环境及语义角色关系的分析,确定未知概念与实例的 正确本体归属。 针对非分类关系的抽取,采用基于框架语义和论无语义的语义角色标注 方法,引进语义信息到依存树,获得晷标文集经过语义角色标注的句法 语义依存结构s s d s ,然盾通过定义的核函数计算概念或实例之间的语 义相似度,来确定发现的术语是概念或实铡归属时,就可以依据语义框 架或述词论元为其标注关系。 在提出的本体学习方法基础上,设计实现了s d e o l 半自动本体学习系 统,采用传统本体学习方法与本文所述基予语义依存分析方法结合的方 式进行本体学习。实验结果表骥基于语义依存分析的本体学习方法是对 传统本体学习的一个有效补充。 关键词:语义w e b 本体学习语义角色标注语义依存分折核方法 a b s t r a c t a b s t r a c t t o d a y , w e bh a sb e c o m et h em a i np l a t f o r mf o rn e t w o r ki n f o r m a t i o na n dt h e m a i ns o u r c eo f p e o p l et oa c c e s st ok n o w l e d g e h o w e v e r , d u et ot h en o n s t r u c t u r a lo f w e b p a g e s ,t h ed i s o r d e ro fl i n k s ,t h em a s s ,d i v e r s i t ya n dd y n a m i c o fw e bc o n t e n t ,i t i sn o te a s yt os e a r c ht h er e a l l yw a n t e di n f o r m a t i o nf r o mt h ew e b t h ee m e r g e n c eo f s e m a n t i cw e bt r i e st os o l v et h e s ec o n t r a d i c t i o n s 。s e m a n t i cw e bp r o v i d e sac o m m o n f r a m e w o r kt h a ta l l o w st oa c r o s sd i f f e r e n ta p p l i c a t i o n s ,e n t e r p r i s e sa n do r g a n i z a t i o n s s h a r i n ga n dr e u s i n g 。 a st h es e m a n t i cm e t , a d a mo ft h ek n o w l e d g ei nt h es e m a n t i cw e b ,t h eo n t o l o g y i st h ek e ye l e m e n to ft h es e m a n t i cw e b i no r d e rt op r e s e n tt h ed i s o r d e rw e bj n t oa l l o r d e r l ym a m l e ru n d e r s t a n d a b l et r e a s u r eh o u s eo fk n o w l e d g e ,s e m a n t i cw e bu s e s m u l t i 1 e v e lf r a m e w o r k 。o n t o l o g yp l a y sa ni m p o r t a n tr o l et ob r i d g et h ek n o w l e d g eo f d o c u m e n t sa n dt h el e v e lo fk n o w l e d g er e a s o n i n g ,s oo n t o l o g yc o n s t r u c t i o ni st h ek e y t oa c h i e v et h es e m a n t i cw e b o n t o l o g yc o n s t r u c t i o ni sav e r yc o m p l i c a t e dp r o c e d u r e ,m u l t i d o m a i ne x p e r t s a r en e e d e di nt h ep r o c e s s a l t h o u g ht h eo n t o l o g yb u i l d i n gt o o l sh a v eb e e nm o r e m a t u r e b u ti ts t i l lam a n u a lc u m b e r s o m ea n dd i f f i c u l tt a s k ,a n dn e e d st os p e n dal o t o fm a n p o w e ri nt h ee a r l ys t a g e so fc o n s t r u c t i o na n dm a i n t e n a n c ep h a s e 。t oc o n s t r u c t a na p p r o p r i a t eo n t o l o g yo rt a x o n o m yr e q u i r e sal a r g ea m o u n tt i m et op r u n ea n de d i t , w h i c he v e n t u a l l yl e dt ot h es o c a l l e dk n o w l e d g ea c q u i s i t i o nb o t t l e n e c k 。i no r d e rt o s o l v et h es p e n d i n gp r o b l e mo fo n t o l o g yb u i l d i n g ,c u r r e n t l yo n t o l o g yl e a r n i n g t e c h n i q u e sc a nb es a i dar e s e a r c hh o t s p o t 。o n t o l o g yl e a m i n gi st h es e to fm e t h o d s a n dt e c h n i q u e su s e df o rb u i l d i n go n t o l o g yi nas e m i - a u t o m a t i cf a s h i o nu s i n gs e v e r a l s o t u - c e s 。l tc 敞b eu s e db yo n t o l o g ye n g i n e e r st oc o n s t r u c to n t o l o g ym o r ee a s i l y b a s e do nt h et r a d i t i o n a lm e t h o do fo n t o l o g yl e a n i n g ,t h i st h e s i sp r o p o s e san e w m e t h o dt os o l v et h ew e a kp o i n to ft r a d i t i o n a lo n t o l o g yl e a r n i n g 。w eu s et h e c o n l b i n a t i o nm e t h o do fs t a t i s t i c a l m e t h o d sa n dn a t u r a ll a n g u a g ep r o c e s s i n g t e c h n o l o g yt oe x t r a c tt e r m s ,a c c o r d i n gt os e m a n t i ce n v i r o n m e n ta n ds e m a n t i cr o l e l a b e lt od i s c o v e ru n k n o w nc o n c e p t sa n di n s t a n c e so ft h ec o r r e c ta t t r i b u t i o no f o n t o l o g y w ei m p o r t e dt h es e m a n t i cr o l e sa n dp r o p b a n k & f r a m e n e tc o r p u si n t o o t l ro n t o l o g yl e a m i n gm e t h o d t h r o u g hs h a l l o ws e m a n t i ca n a l y s i s ,w ei m p o r t s e m a n t i ci n f o r m a t i o nt o t h ei n t e r d e p e n d e n c et r e ea n dk e r n e lm e t h o d w i t ht h e a b s t r a c t p r o c e s so fs e m a n t i cd e p e n d e n c yp a r s i n g ,w ec o n s t r u c tt h es y n t a c t i ca n ds e m a n t i c d e p e n d e n c ys t r u c t u r e b a s e do nt h i ss t r u c t u r e ,o u rm e t h o di n c o r p o r a t et h es e m a n t i c c o n t e x to ft h ec o r p u si n t ot h ec o n c e p ti n s t a n c ee x t r a c t i o na n dn o n t a x o n o m i cr e l m i o n e x t r a c t i o n p h a s eo ft h eo n t o l o g yl e a r n i n gc i r c l e w ea l s o d e v e l o p an e w s e m i - a u t o m a t i co n t o l o g yl e a r n i n g s y s t e mn a m e ds d e o l ,w h i c hc o m b i n e st h e t r a d i t i o n a lo n t o l o g y l e a r n i n gm e t h o da n do u rn e ws e m a n t i cd e p e n d e n c yp a r i n g e n a b l e dm e t h o d t h ee x p e r i m e n to nt h es y s t e ms h o w e dt h a tt h em e t h o di sag o o d c o m p l e m e n to ft h et r a d i t i o n a lm e t h o d k e yw o r d s :s e m a n t i cs e b ,o n t o l o g yl e a r n i n g ,s e m a n t i cr o l e ,s e m a n t i cd e p e n d e n c y p a r s i n g ,k e r n e lm e t h o d i i i 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工 作所取得的成果。除已特别秀霜以标注和致谢的地方外,论文中不包 含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对 本研究所做的贡献均已在论文中作了明确的说明。 本入授权中国科学技术大学拥有学位论文的部分使用权,即: 学校有权按有关规定向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 保密的学位论文在解密后也遵守此规定。 作者签名:幽 加d 绛d 占月。弓日 w o 移 憎 忍 第1 章绪论 第1 章绪论 1 1 本体的研究背景和意义 1 1 1 研究背景 现在w e b 已经成为了网络信息的主要平台,成为人们获取知识的主要来源, 其规模也以惊人的速度直增长。然而,当前互联网上的绝大多数信息是以人 类能理解的格式( 例如,h t m l ) 来表示的,丽律为智能程序的软件代理( a g e n t s ) 并不能理解和处理这些信息,互联网的潜力还远远没有挖掘出来。由于w e b 页 面的无结构性、超链接的自由无序、以及w e b 内容的海量性、多样性和动态变 化,专门从w e b 上搜索真正想要的信息其实并不容易。 力解决上述矛盾,t i mb e r n e r s - l e e 于1 9 9 8 年9 胃在文献中提出了语义w e b 的总体框架( t i mb e r n e r s - l e e ,2 0 0 1 ) ,并于x m l2 0 0 0 会议报告中首次提出了 语义w e b 功能逐层增强的层次结构图,指明了语义w e b 的研究框架。随后t i m b e r n e r s - l e e 在s c i e n t i f i ca m e r i c a 中系统地给出了语义w e b 的概念与相关技 术,至此可以说语义w e b 正式出现。简面言之,语义w e b 是当前w e b 麴一个扩 展,其中信息具有形式化定义的语义,更有助予计算机之间以及计算机与人之 间的协同工作。其思想是使w e b 上的数据以这样一种方式来定义与链接,使其 能够在各种不同的应用场景中有效地实现数据的发现、自动化处理、集成与复 用。语义w e b 上的信患具有定义良好的含义,使得计算机之间以及人类能够更 好的彼此合作。根据上面的描述,人们可以绘语义万维网做出这样的定义:机 器可以理解数据含义的下一代万维网,称之为语义力维网,语义力- 维网中的语 义表示计算祝对某一个概念、术语或者符号可以理解的含义。 t i mb e r n e r s - l e e 提出的语义w e b 最新层次模型( t i mb e r n e r s - l e e ,2 0 0 1 ) ( 亦称协议栈) 为多层次结构。第一层是u n i c o d e ( 统一编码) 和u r i ( u n i f o r m r e s o u r c ei d e n t i f i e r ,统一资源定位器) ,它是整个语义w e b 的基础,u n i c o d e 处理资源的编码,u r i 负责资源的标识。第二层是x m l ,用予表示数据的内容和 结构。第三层是r d f ( r e s o u r c ed e s c r i p ti o nf r a m e w o r k ,资源攒述框架) ,用 于描述资源及其相互关系。第四层r d f - s ,为r d f 提供了类型定义机制,确定 了r d f 描述的资源所使用的领域词汇。第五层是本体( o n t o l o g y ) 和规则( r u l e ) , 本体用于描述领域概念以及概念之闯的联系;规则用于描述领域知识中的前提 第1 章绪论 和结论;本体和规则构成领域知识层。覆盖第四层和第五层的查询语句s p a r q l 提供了对o w l ( w e bo n t o l o g yl a n g u a g e ,w e b 本体语言) 和r i f ( r u l ei n t e r c h a n g e f o r m a t ,规则交换格式) 文件的查询功能。第六层是统一的逻辑( u n i f y i n g l o g i c ) ,在下面五层的基础上进行逻辑推理操作。第七层是验证( p r o o f ) ,根 据逻辑陈述进行验证以得密结论。第歹k 层是信任( t r u s t ) ,在用户闻建立信任 关系。第九层是应用层,是构建在语义w e b 之上的各种应用。概括地说,下面 两层是语义w e b 的基础设施,中阅从元数据发展到本体描述语言及其统一的逻 辑是语义w e b 的关键研究所在,上面的证明和信任及各层次贯穿的数字签名技 术是扩充,是对语义w e b 成功应用的要求与展望。 图1 i 语义w e b 的层次模型 用x m l r d f 表示的元数据可以由各组织和个人建立,在w e b 中就存在恩一 个元数据表示不同的含义和不同的元数据表示相同含义的问题。但是x m l 和r d f 在处理语义上存在两个问题:第一是同一个概念有多种词汇表示:第二是同一 个词有多种含义。 为了解决如上问题,在语义层次实现信息的互操作,需要对信息的含义有 一个共同一致的理解。语义w e b 采用了本体论( o n t o l o g y ) 的思想,在入工智能 界,本体最初被定义为“给出构成相关领域词汇的基本术语和关系,以及利用 这些术语和关系构成酶规定这些溺汇外延的规则的定义”( n e c h e sr 。,f i k e sr e ,g r u b e rt r ,1 9 9 1 ) 。简言之,本体是对应用领域概念化的显示的解释说 明,通过对概念的严格定义和概念与概念之间的关系来确定概念的精确含义, 2 第l 章绪论 为某领域提供了一个共享通用的理解。从而使人、应用系统之间都能够有效地 进行语义上的理解和交流。因此在语义w e b 中,本体的研究具有非常重要的地 位,是解决语义层次上w e b 信息共享和交换的基础。 近年来在信息系统、知识管理等领域,越来越多懿入研究本俸,并绘出了 许多不同的定义i 其中最著名并被引用得最为广泛的定义是由g r u b e r 提出的, “本体是概念模型的明确的规范说明 ( g r u b e rt r ,1 9 9 3 ) 。f e n s e l 对这个 定义进行分析后认为本体的概念包括西个主要方面( f e n s e ld 。,2 0 0 1 ) : 概念化( c o n c e p t u a l i z a t i o n ) :客观世界中现象的抽象模型l 明确( e x p l i c i t ) :概念及它们之间联系都被精确定义: 形式化( f o r m a l ) ;精确的数学描述; 共享( s h a r e ) :本体中反映的知识是其使用者共同认可的。 虽然不同研究者对本体有不同的摧述,但是从内涵上来看,他们对本体的 认识是一致的,都是把本体当作某个领域内( 可以是特定领域的,也可以是更 广的范围) 不同主体( 入、代理、机器等) 之间进行交流( 对话、互操作、共 享等) 的一种语义基础,即由本体提供明确定义的词汇表,描述概念和概念之 间的关系,作为使用者之间达成的共识。因此,本体的用途包括交流、共享、 互操作、重用等等。 目前,本体已经被广泛应用于知识工程、裔然语言处理、数字图书馆、信 息检索和w e b 异构信息的处理、软件复用、面向对象技术察语义w e b 等领域。 1 1 2 研究意义 本体已经成为人工智能和知识工程中一种重要的工具,在知识的获取、表 示、分析和应用等方面具有重要的意义。 本体磷究促进知识工程中对本质知识的获取。知谈工程的研究方向主要包 含知识获取、表示和推理方法等,其研究目标是挖掘和抽取人类知识,用一种 特定形式表示这些知识,使之成为计算机可操作的对象,从而使计算机“具有 一定韵智能。 本体研究实现曼式地表示出领域知识和领域假设。领域知识包括领域概念、 概念的性质,概念之间的关系、概念之间的一般规律等。领域本体的研究要求 根据概念之间的类属关系显式地建立概念之间的联系,明确定义概念所具有的 属性、属性的取值约束、处理过程、概念之间的关系等。领域本体还要求明确 定义出概念内部或者概念之闯的公理,以表示领域内的一般假设或者规律。 本体研究使知识共享和知识重用的成为可能。本体知识可包括不同领域的 知识,如医学的、农业的、军事的等等:有不同性质的,如常识的、经验性的、 第1 章绪论 规律性的知识等等;有不同目的的,如用于诊断的、用于决策的、用于规划的 等等。为了操作和使用这些不同领域、不同性质或用于不同目的的知识,人们 提出各种各样的知识表示和推理方法,开发出各种不同的知识系统。由于采用 不同的表示和推理机制,这些系统之间的知识难以相互共享,系统之间难以进 行互操作。即使在同一领域内,因为领域知识包括都包括概念、概念的性质, 概念之间的各种关系、概念之间的一般规律等。 除知识工程外,本体的研究对其他应用研究也很有意义: 语义w e b 方面。本体是w e b 信息在语义层次上共享和交换的基础,可以大 大加强w e b 的功能。因为网页上使用的名词或x m l 代码,能够通过由页面指向 的本体给出明确的语义定义。即使有些本体把相同的概念用不同的词汇表示, 例如本体中用词汇“邮编 表达与本体中词汇“邮政编码”相同的含义,也可 以通过本体之间的映射机制说明二者之间的等价性。这样本体就为语义w e b 提 供了一套共享的术语和信息表示结构,多数据源上的异构信息通过共享的术语 和信息表示结构成为同构的信息,从而使语义w e b 上的通讯和互操作成为可能。 本体在语义w e b 中的应用还冈 j n u 起步,但具有非常重要的地位。目前主要的应 用研究包括改进w e b 搜索的正确性和智能性、将网页上的信息联系到相关知识 和规则进行推理以解决复杂问题、实现网络信息集成、实现电子商务等。 知识管理。知识管理包括知识获取、知识维护和知识存取。语义w e b 技术 的发展为从面向文档的知识管理转换为面向知识块的知识管理提供了基础。目 前,网上智能“p u s h 服务、知识管理与事务处理的集成等,己经成为迫切需 要解决的问题,而本体是实现这些功能的关键。本体能够对非结构化的信息进 行注释以表明它们的语义,能够用于信息集成,还能够辅助生成面向用户的视 图以使知识访问更简单。本体在知识管理方面的应用可参考相应文献。 企业建模方面。“企业建模 是指在计算机上实现一个企业模拟环境,这个 企业模拟环境也称为“虚拟企业”。企业模拟是本体的重要应用领域之一。本体 在企业模拟中的作用主要体现在两个方面:一方面,企业本体是企业模拟所依 据的模型;另一方面,企业本体又是不同企业过程集成的桥梁。著名的企业本 体包括:英国爱丁堡大学的企业项目( ( e n t e r p r i s ep r o j e c t ) 和加拿大多伦多大 学的虚拟企业项目等。 总之,本体技术己经发展成为知识表示、知识管理、知识共享、知识复用 的主流技术之一,正成为自然语言处理、w e b 信息检索、数据库和知识库的管 理、异构数据集成、数字图书馆、g i s 、语义w e b 等研究领域共同关心的一个核 心问题。 4 第1 章绪论 1 2 本体学习研究现状 本体位于从文档描述到知识推理转折的层次,具有重要的地位,因此本体 的构建是实现语义万维网的关键环节。目前,本体的构建大部分仍是手工方式, 然而手工构建本体一方面需要耗费大量的人力和时间,另一方面这些通用本体 只包含菲常少的领域概念( 杜小勇,李曼,王珊,2 0 0 6 ) 。指导知识本体的嚣标 是实现知识重用和共享,如何针对具体应用来量化分析概念和概念之间的关系, 目前还缺少具体的指导方法。同时,如何维护现有本体,尤其是如何保持更新 也是霈要迫切解决的问题。为了解决本体工程中“知识瓶颈”问题,我们需要 自动化或半自动化工具来构建本体。因此本体的半鸯动构建就戒了本体研究领 域的一个重中之重。 在过去的十年里,已经出现了许多本体构建工具,本体构建工具也日趋成 熟。这些工具提供了友好的图形化界面和一致性检查机制。借助这些工具,用 户可以把精力集中在本体内容的组织上,丽不必了解本体描述语言的缨节,丽 且避免了很多错误的发生,方便了本体的构建。但是,这些工具提供的仅仅是 本体编辑功能,支持的仍然是手工构建本体的方式。即使使用这些本体编辑工 具,瘸户依然需要逐个地输入和编辑每个概念的名字、约束、属性等内容。现 有的大部分系统,例如c y c ( l e n a td b 。,1 9 9 5 ) 和m i k r o k o s m o s ( n i e r e n b u r g s ,b e a l es 。,m a h e s hk 。等,1 9 9 6 ) 等,都是靠手工输入大量的知识,然后才 能基于这些知识进行推理或获取新的知识。由于手工方法费时、费力,使得本 体的构建成为一项艰甄的往务。因此,如何利j 鼋知识获取技术来降低本体构建 的开销是一个很有意义的研究方向。躁前,国外在该方向的研究很活跃,把相 关的技术称为本体学习( o n t o l o g yl e a r n i n g ) 技术,其目标是利用机器学习和统 计等技术自动或半自动地从已有的数据资源中获取期望的本体。e l j 于实现完全 自动的知识获取技术还不现实,所以,整个本体学习过程是在用户指导下进行 的一个半自动的过程。 现实世界中的数据种类很多,例如纯文本以及x m l ,h t m l ,d t d 等,大部分 都可以作为本体学习的数据源。针对不同类型的数据源需要采用不同的本体学 习技术。根据桂小勇等人( 杜小勇,李曼,王珊,2 0 0 6 ) 的综述,根据数据源 的结构化程度将遐前的本体学习技术分为三大类:基于结构化数据的本体学习 技术、基于非结构化数据的本体学习技术和基于半结构化数据的本体学习技术。 a l e x a n d e rm a e d c h e 等首先正式提出了本体学习的概念,并从输入类型来区分 了不同的本体学习方法,包括基于文本本体学习,基于字典本体学习,基于知 识库本体学习,基于半结构化数据的本体学习等。一般应用予本体学习的算法 包括: 5 第l 章绪论 1 ) 命题规则学习算法。学习关联规则或其它属性值规则,算法通常是基于属 牲值测试的一个贪婪搜索,它可进行规则增加并保持训练示例组的一致性。 决策树学习算法主要由c 4 。5 算法和其修正所表示,经常用于产生高质量的 命题规则。算法对训练示例应用统计启发式,如e n t r o p y 指导对决策树的 爬山搜索。学习过的决策树与关联于属性值测试的命题级分类规则组是等 价的。 2 )贝时斯学习。主要代表是朴素贝时颠分类器,它是基于贝叶颠理论并基于 在训练示例属性之问条件独立性假设来产生概率属性值。 3 ) 一阶逻辑规则学习。归纳包含变量的规则,被称作一阶h o r n 子句。该算法 一般属于一阶逻辑系列算法,并执行一般到特殊的蔑则爬由搜索,这些规 则覆盖了所有可获得的确定的训练集。每一次反复,它增加一个或更多的 文字来定义规则直到消除所有反例。 4 ) 聚类算法。基于相似性或实例,对术语属性值对进行分组,不同的搜索策 略麓指导聚集过程。该算法的反复应用可产生概念的层次化结构。 本体学习虽然是一个新兴的研究领域,但是许多相关领域的研究成果都可 以供其借鉴。其中,自然语畜处理技术是本体学习的基础。除此之外,领域概 念的识别、w e b 数据的抽取、机器学习等技术都极大地促进了本体学习领域的 发展。然而。纵观现有的方法仍然主要局限予传统麴机器学习,自然语言理解 中的词法、语法分析的阶段,丽本体本身是领域知识语义的形式化标志,因此, 针对文本进行语义分析,并采用依存树和核方法对本体学习工作展开研究是一 种合理的思路,这也是本文意图展开研究的一个主要方向。 。3 论文结构及主要工作 1 3 i 论文结构 本文一共分为八章,每一章内容如下: 第一章:绪论。提出了目前w e b 存在的问题,并简要介绍了为解决这些问 题而出现的新技术:s e m a n t i cw e b 。随后阐述了本体的研究意义和研究现 款,并且提出了本文的研究焦点是采用语义依存分析的方法解决本体学习 目题。 第二章:本体理论与本体学习综述。简要介绍了本体的定义、特征及其分 类,然后介绍了目前本体构建的方法及其准则,最后对目前本体学习的研 究方法稻开发工具进行了分析。 6 第l 章绪论 。 第三章:浅层语义分析方法,本章介绍了语义分析方法的背景和发展,以 及现有的基予语义燕色标注的浅层语义分析方法,其中重点阐述了基予 p r o p b a n k 系统和f r a m e n e t 系统的语义角色标注方法,并分析了本文进行本 体学习方法的基础数据结构句法语义依存结构的基本构建过程。 。 第四章:本章研究了本体概念、实例抽取及其关系抽取问题。针对概念、 实例抽取,首先介绍了传统的概念实例抽取方法,然后分析了基于语义分 析的本体概念、实例抽取方法的思想和基本方法:针对关系抽取,介绍了 抽取分类关系的一些传统本体学习方法:并提出了基于语义依存分析的本 体菲分类关系抽取方法。本章最后针对所提出的这两类关系的抽取方法, 设计了相应的实验。 - 第五章:本章介绍了我们设计的半自动本体学习系统s d e o l ,该系统的开发 利用了我们所提出的基于语义依存分析的本体学习方法。本章首先介绍了 系统整体架构,然后分别对系统的自然语言处理模块、语义依存结构构建 模块、概念实例抽取模块、关系抽取模块、本体生成模块的实现进行了分 析。 第六章:结论与工作展望,对本文加以总结,并分析了对于当前方法可能 的改进方向以及未来的工作展望。 1 3 2 主要工作 本文针对本体学习涉及的关键问题,对概念、实例和关系的抽取进行了研 究与分析,主要工作和特色如下: 1 ) 针对本体概念、实例抽取阏题,在述词论元和框架语义理论的研究基础上, 通过浅层语义分析获得句法语义依存结构,利用该结构将不同语法上下文 环境具有语义关联特性的词条提取出来:通过词条所处语义环境及语义角 色关系的分析,确定未知概念与实例的正确本体归属。作为半自动方法, 通过实验证魂方法对予概念、实例抽取,具备较好的效果。 2 ) 针对本体关系抽取问题,通过语义依存分析方法,引进语义角色到依存树 和核函数中计算具有关系的概念之间的语义相似度,采用框架、述词论元 及语义角色结合的方式对不同句子成分对应本体概念之间的关系进行标 注。此方法不仅可以发现不同概念之闷的可能关系,同时又为此关系的标 注提供可能建议。通过实验,验证了方法的理论有效性。 3 ) 在如上本体学习方法基础上,设计并实现了s e d o l 半自动本体学习系统, 采用传统方法与本文所述基于语义依存分析方法结合的方式进行本体学 习。针对上述方法的设计,在此系统上进行耀关实验。 7 第2 章本体理论与本体学习综述 2 1 本体概述 第2 章本体理论与本体学习综述 本体( o n t o l o g y ) 的概念最初起源于哲学领域,可以追溯到公元前吉希腊 哲学家亚里士多德( 3 8 4 - 3 2 2b c ) 。它在哲学中的定义为“对世界上客观存在 物的系统地描述,即存在论 ,是客观存在的一个系统的解释或说明,关心的 是客观现实的抽象本质。在人工智能界,最早给出o n t o l o g y 定义的是n e c h e s 等人,他们将o n t o l o g y 定义为“绘出构成楣关领域词汇的基本术语秘关系,以 及利用这些术语和关系构成的规定这些词汇外延的藏则的定义 ( n e c h e sr , f i k e sr e 。,g r u b e rt r ,1 9 9 1 ) 。后来在信息系统、知识系统等领域,越来 越多豹人研究o n t o l o g y ,并给出了许多不同的定义。其中最著名并被引翔得最 为广泛的定义是由g r u b e r 提出的,“本体是概念化的明确的规范说明 ( g r u b e rt 。r ,1 9 9 3 ) 。简单恧言,本体最关键的元素就是;概念,概念的属 性,概念韵关系,概念和属性韵约柬。 关于最后一个定义的说明体现了o n t o l o g y 的四层含义: 。概念模型( c o n c e p t u a l i z a t i o n ) 通过抽象出客观世界中些现象( p h e n o m e n o n ) 的相关概念而得到的模型, 其表示的含义独立于具体的环境状态。 。明确( e x p l i c i t ) 所使雳的概念及使用这些概念的约束都有明确的定义。 形式化( f o r m a l ) o n t o l o g y 是计算机可读的。 。共享( s h a r e ) o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概念集, 它所针对的是团体面不是个体。 o n t o l o g y 的目标是捕获相关的领域知识,提供对该领域知识的共同理解, 确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术 语) 和词汇之间相互关系的明确定义。 2 。1 。1 本体的特征及分类 本体的特征 9 第2 章本体理论与本体学习综述 从描述对象的范围来说,本体可以定义通用的、适合所有领域知识表示的 术语,如空间、时间、部分等:也可以定义特定领域知识才使用的术语,如款 式、类型等。 不同的本体之间存在着差别,但它们在较高的抽象层次上具有如下一些共 同的特征( 金鑫,2 0 0 4 ) : ( 1 ) 世界存在着对象( o b j e c t ) : ( 2 ) 对象具有属性( p r o p e r t yo ra t t r i b u t e ) ,属性可以赋值( v a l u e ) ; ( 3 ) 对象之间存在着不同的关系( r e l a ti o n ) : ( 4 ) 属性和关系随着时间( t i m e ) 的推移而改变; ( 5 ) 不同的时刻会有事件( e v e n t ) 发生: ( 6 ) 在一定的时间段上存在着过程,对象参与到过程当中: ( 7 ) 世界和对象具有不同的状态( s t a t e ) ; ( 8 ) 事件能导致( c a u s e ) 其他事件发生或状态改变,即产生影响( e f f e c t ) : ( 9 ) 对象可以分解成部分。 本体的主要特征可以综述如下: 特征一:对象是本体的基本元素 概念是本体的基本组成元素。在目前许多关于本体的研究中,本体中的概 念是无结构的,这些概念不能再分为更细的组成成分。 特征二:用关系连接对象 在面向对象方法中,对象和对象类构成层次结构。它们按一种垂直方式组 织,这种垂直的组织方式仅说明元素之间具有父子关系。在现实世界中,对象 之间还存在着其他重要的关系。因此,关系在组成本体的各对象之间起到了至 关重要的作用。 特征三:本体之间存在继承层次 从前两个定义我们可以对本体又有一个直观认识,即本体是一个由对象节 点和关系节点及这些节点之间的连线组成的网络。不同层次的对象组成不同抽 象程度的本体,并形成对象间的继承层次,这种结构除了具有模块化、封装好 等好处外,由于父对象对子对象的一种约束,成为语义一致性和完整性检查的 主要约束条件。 本体的分类 为了对本体进行有效的分类,g u a r i n o 提出以详细程度和领域依赖度两个 维度作为对o n t o l o g y 划分的基础( g u a r i n on ,1 9 9 7 ) 。详细程度是相对的、 较模糊的一个概念,指描述或刻画建模对象的程度。详细程度高的称作参考 ( r e f e r e n c eo n t o l o g i e s ) ,详细程度低的称为共享( s h a r eo n t o l o g i e s ) 。依照 i o 第2 章本体理论与本体学习综述 领域依赖程度,可以细分为顶级本体、领域本体、任务本体和应用本体等4 类。其中: ( 1 ) 顶级本体:描述的是最普逶豹概念及概念之闻的关系,如空间、时间、 事件和行为等等,与具体的应用无关,其他种类的本体都是该类本体的特铡。 ( 2 ) 领域本体:描述的是特定领域( 如医药、汽车) 中的概念及概念之闻的 关系。 ( 3 ) 往务本体:描述的是特定往务或行为中的概念及概念之间的关系。 ( 4 ) 应用本体:描述的是依赖于特定领域和任务的概念及概念之间的关系。 1 9 9 9 年,p e r e z 和b e n j i m i n s 在分析和研究了各种本体分类法的基础上, 癌纳嬲1 0 种本体:知识表示本体、普通本体、顶级本体、元( 核心) 本体、领域 本体、语言本体、任务本体、领域一任务本体、方法本体和应用本体( p e r e za 。 g ,b e n j a m i n sv r ,1 9 9 9 ) 。这种分类法是对g u a r i n o 提出的分类方法的扩 充和细化但是这1 0 种本体之间有交叉,层次不够清晰。 也可根据本体表示的形式化程度不同,将本体划分为四种类型: ( 1 ) 完全非形式化:完全采用自然语富进行表示,结构j # 常松散,典型的如 术语列表。 ( 2 ) 结构非形式化:采用受限的或结构化的自然语言进行表示,能有效提高 本体论的清晰度,减少二义性。如e n t e p r i s eo n t o l o g y 的文本版本。 ( 3 ) 半形式化:采用一种人工定义的形式化语言进行表示,目前已有许多研 究机构开发制定了这类形式化本体论表示语言,许多采用o n t o l i n g u a 语言描述 的本体都属于这一类。 ( 4 ) 完全形式化:所有属性都具有形式化的语义,并能在某种程凄上证明包 括一致性和完整性等方面的属性。 2 1 2 本体的描述语言 o n t o lo g y 描述语言起源于历史上人工智能领域对知识表示的研究,主要有 以下语言或环境为代表:c y c l ( l e n a td 8 。,o u h ar v 。,1 9 9 0 ) 、o n t o l i n g u a ( g r u b e rt 。r ,1 9 9 2 。) 、哟铡( m a c g r e g o rr 。,b a t e sr ,1 9 8 7 ) 等。 近年来,w e b 技术为全球信息共享提供了傻捷手段,以共享为特鬣的本体 论与w e b 技术结合是必然趋势。在此背景下,基于w e b 标准的本体描述语言( 以 下简称为“w e b 本体语言”) 正成为本体论研究和应用的热点,如:o i l ( f e n s e l d 等,2 0 0 1 ) 、d a m l + o i l ( m c g u i n n e s sd l 等,2 0 0 2 ) 以及由w 3 c 主持制定的 r d f 、r d fs c h e m a 、o w l 等。 o w l 是2 0 0 2 年正式成为w 3 c 推荐的w e bo n t o l o g y 酶表示语言。o w l 采用 第2 章本体理论与本体学习综述 面向对象的方式来描述领域知识, 器| 】通过类和属性来描述对象,并通过公理 ( f i x i o m s ) 来描述这些类和属性的特征和关系。o w l 是w 3 c 推荐的语义网络“栈 中的一部分,这个“栈”如表2 1 所示。 表2 1w 3 c 定义的本体描述语言 名称 摇述 x 蜒l 结构化文档的袭屡语法,对文档没有任倪语义约束。 x m ls c h e m a 定义x m l 文档的结构约柬的语言。 对象( 或者资源) 以及它们之间关系的数据模型,为数据模 r d f 型提供了简单的语义,这些数据模型能够用x m l 语法迸行表 达。 接述r d f 资源的的属性霸l 类型的词汇表。提供了怼这些属性 r d fs c h e m a 和类爱的粹遍缮次的语义。 添加了更多的剜予描述属性和类型的词汇,例如类型之澜的 不相交性( d i s j o i n t n e s s ) 。基数( c a r d i n a l i t y ) ,等价性, 0 既 属性的更丰富的类型,属性特征( 例如对称性,s y m m e t r y ) 。 以及投举类型( e n u m e r a t e dc l a s s e s ) 。+ o w l 包括类、属性、类实例以及类之间的关系碡种基本蠢素。雷先,o w l 语 言
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地铁调车岗位选择与面试技巧行业趋势分析
- 2023年晋城市遴选公务员笔试真题汇编带答案解析
- 2025年互联网医疗服务体系建设可行性研究报告
- 2025年虚拟办公空间构建项目可行性研究报告
- 2023年保定市直遴选考试真题汇编及答案解析(夺冠)
- 2023年昌都地区直遴选考试真题汇编带答案解析
- 2025年抗菌材料研发及应用可行性研究报告
- 2023年三亚市遴选公务员考试真题汇编附答案解析
- 2024年海口市选调公务员笔试真题汇编附答案解析
- 2023年延安市直机关遴选公务员笔试真题汇编及答案解析(夺冠)
- GB/T 7251.7-2025低压成套开关设备和控制设备第7部分:码头、露营地、市集广场、电动车辆充电站等特定应用的成套设备
- 高中语文文言文专题注释合集
- 问题解决策略:逐步确定 课件 北师大版数学八年级上册
- 工厂冬季四防安全知识培训
- 历史解释学前沿-洞察及研究
- 外科内镜手术技术应用及优势分析
- 第3课+中古时期的欧洲+说课课件-2024-2025学年高一下学期统编版(2019)必修中外历史纲要下
- 2025年湖北省高考历史试卷(含答案)
- 热电外委工程管理制度
- GB/T 17934.6-2025印刷技术网目调分色版、样张和生产印刷品的加工过程控制第6部分:柔性版印刷
- JJG(烟草)01-2012卷烟和滤棒物理性能综合测试台检定规程
评论
0/150
提交评论