(计算机科学与技术专业论文)基于web的通用本体学习研究.pdf_第1页
(计算机科学与技术专业论文)基于web的通用本体学习研究.pdf_第2页
(计算机科学与技术专业论文)基于web的通用本体学习研究.pdf_第3页
(计算机科学与技术专业论文)基于web的通用本体学习研究.pdf_第4页
(计算机科学与技术专业论文)基于web的通用本体学习研究.pdf_第5页
已阅读5页,还剩131页未读 继续免费阅读

(计算机科学与技术专业论文)基于web的通用本体学习研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学博士学位论文摘要 缡孽 j l q 语义w e b 提出以来,本体( o n t o l o g y ) 正在成为人工智能和知识工程中一种重要 的工具,在知识的获取、表示、分析和应用等方面具有重要的意义。从本体开发的角 度来说,由于借助本体编辑器( 如p r o t d 9 6 ) 手工开发本体是一个繁重和棘手的任务, 极易导致知识获取的瓶颈。因此,w e b 本体的可获取性已被学术界公认为是制约语义 w e b 成功的巨大挑战之一。从现有信息源,包括文本、词典、遗留知识库、w 啊文档 等,获取领域知识、以自动方式构建或扩充本体,即所谓的本体学习( o n t o l o g y l e a r n i n g ) ,是开发本体的有效途径。 目前国际上在本体学习方面的研究非常活跃,虽然已经提出了很多本体学习方 法,但大部分方法都不理想。由于缺乏统一的本体学习体系结构概念和方法,虽然开 发了一些本体学习方法,但这些方法难以被其他系统重用。当前本体学习系统工具多 是原型系统,不能大规模实时处理网上海量信息源,也缺乏中文语料处理能力。同时, 目前还缺乏有效的评价本体学习结果的标准和方法,不利于本体学习方法和工具的进 一步发展。 本文就是在开放的网络环境下,综合运用机器学习和自然语言处理方法,按照分 层技术原理,提出了一种新的分层本体学习方法体系,并实现了一种基于w e b 的多策 略本体学习工具c - o l f ,然后讨论了本体演化和评价方法,并对本体学习框架g o l f 进 行了实验和评价。本文的主要研究内容如下: ( 1 ) 提出了一种分层本体学习方法体系,其中包括术语自动抽取、概念学习、 实例学习和分类关系学习和非分类关系学习多种关键技术。在对现有学习方法做大量 改进的基础上,完全实现了本体学习全过程的无缝集成,并且在本体学习系统中集成 了本体评价模块。 ( 2 ) 开发了基于w e b 的多语种通用本体学习工具c o l f ,并采用w e b 文档作为本 体学习源,进行了跨领域、多语种实验。同时,实现本体学习过程中的本体演化管理, 并对学习结果进行评价和反馈。 ( 3 ) 在本体学习中引入多策略学习方法,以提高学习质量。各学习算法的组合 框架采用概率组合分布,可根据不同的语料特征为每个算法设定权值,从而增强了对 不同领域语料的适应性。通过实验对比分析,在学习结果的准确率和召回率方面,g o l f 系统都比著名的t e x t 2 0 n t o 系统更好。 ( 4 ) 实现了中文语料的本体学习。本文所提出的方法和工具能够很好地处理多 语种语料,与同类系统( 大多只能处理西文文本) 相比,对中文的处理能力明显加强; 特别针对中文的语言学特征,引入h o w n e t 语y i n q 典,添加了对应于中文文本的语言 学模式和停用词表,性能有明显改善。 ( 5 ) 提出了一种新的基于贝叶斯决策理论的本体评价方法r i m o e ,并采用r i m o e 浙江大学博士学位论文摘要 方法对g o l f 的学习过程和结果进行评价。 ( 6 ) 本体学习系统g o l f 运用模块化设t f 思想,可以灵活地组合不同的功能模块, 大大提高了系统的可扩展性。用户可以根据不同的领域特征和语种配置模块,可以集 成不同的语言学模式和语义词典。 本体学习的研究将从根本上改变网络环境下知识系统的构建方式,对计算网格和 语义w e b 的发展并最终普及应用起很大的推动作用。实验表明,本文提出的本体学习 方法和工具基本实现了跨领域、跨语种的自动无监督本体学习功能,且性能良好。本 文以“9 7 3 ”重大项目为依托,对w e b 环境下本体学习和评价进行了积极、有效的探 索,尤其是按照分层思路、采用集成学习方法,在多语种、跨领域本体自动构建方面 取 ;寻了良好的效果。 关键词本体;本体学习;本体评价;本体工程;语义w e b 浙江大学博士论文 a b s t n m e t s i n c et h es e m a n t i c 胃e bh a db e e np r o p o s e d o n t o l o g yi sb e c o m ea l li m p o r t a n t t o o li nt h ea r t i f i c i a li n t e l l i g e n c ea n dk n o w l e d g ee n g i n e e r i n g a n di ti so f g r e a ts i g n i f i c a n c et ot h ea c q u i s i t i o n ,r e p r e s e n t a t i o n ,a n a l y s i sa n d a p p l i c a t i o no fk n o w l e d g ea r e a s a ni s s u en a m e d “o n t o l o g yb o t t l e n e c k ”。t h e l a c ko fe f f i c i e n tw a y st ob u i l do n t o l o g i e s ,h a sb e e nc o m i n gu pt og e n e r a t e o n t o l o g i e s t h e r e f o r e ,i ti sa nu r g e n tt a s kt oi m p r o v et h em e t h o d o l o g yf o r r a p i dd e v e l o p m e n to fm o r ed e t a i l e da n ds p e c i a l i z e dd o m a i no n t o l o g i e s a f r a m e w o r ko fa u t o m a t i ce x t r a c to n t o l o g yk n o w l e d g ef r o mt h ee x i s t i n gs o u r c e o fi n f o r m a t i o n , w h i c hc a nr e d u c et h ec o s t ,i sa ne f f e c t i v ew a yo fo n t o l o g y r a p i d - d e v e l o p m e n t a tp r e s e n t ,t h er e s e a r c ho fo n t o l o g yl e a r n i n gi sat r e n di nt h ec o m p u t e r s c i e n c ed i s p c i l i n e al o to fo n t o l o g yl e a r n i n gm e t h o d sh a v eb e e np r o p o s e d , b u tm o s to ft h e ma r en o tp e r f e c t t h ee x i s t i n go n t o l o g yl e a r n i n gm e t h o d sa r e a 1 1i nn e e do fm a n u a lw o r k a n dt h ef u l l ya u t o m a t i ca p p r o a c hi su n r e a l i s t i c i nt h es h o r tt e mh o w e v e r ,d u et ot h em a s s i v en a t u r eo fw e br e s o u r c e s ,w e s t i l ln e e dt of u r t h e r i m p r o v et h ed e g r e eo fa u t o m a t i o n ,a n dr e d u c et h e p a r t i c i p a t i o no fu s e r s i na d d i t i o n ,m o s to ft h eo n t o l o g yl e a r n i n gt o o l sa r e v e r y1 i m i t e d 。b e c a u s et h e yc a no n l yh a n d l ec e r t a i nt y p e so fd a t as o u r c e s ,o r c a p t u r es o m eo b j e c t s ,b u tc a n tp r o c e s sc h i n e s ec o r p u s d u et ot h el i m i t a t i o n o ft h ee x i s t i n go n t o l o g yl e a r n i n gm e t h o d s ,t h e s et o o l sa r es t ii iv e r yi 砌a t u r e : a n ds o m eo ft h el a t e s tr e s e a r c hr e s u l t sh a v en o tb e e nu s e d 。 i nt h i sp a p e r w ec o m b i n et h en l pa n dm a c h i n el e a r n i n gm e t h o d si nt h eo p e n n e t w o r ke n v i r o n m e n t f i r s t l y ,w ei n - d e p t hd i s c u s st h ek e yt e c h n o l o g i e so f o n t o l o g yl e a r n i n g ,a n dp r o p o s eaw e b - b a s e dm u l t i s t r a t e g yo n t o l o g yl e a r n i n g f r a m e w o r k ( c a l l e dg o l f ) a n dt h e nw ed i s c u s st h ew a yo fo n t o l o g ye v a l u a t i o n a n de v a l u a t et h eg o l fb ys e v e r a le x p e r i m e n t s t h em a i nr e s e a r c hc o n t e n t so f t h ed i s s e r t a t i o nc o n t a i n sa sf o l l o w s : 1 ) a c c o r d i n gt ol a y e r e da p p r o a c h ,w ep r o p o s eal a y e r e do n t o l o g yl e a r n i n g f r a m e w o r k ,i n c l u d i n gt h ea u t o m a t i ce x t r a c t i o no ft e r m s ,d o m a i nc o n c e p t s l e a r n i n g , i n s t a n c e sl e a r n i n g ,t a x o n o m ya n dn o n t a x o n o m i cr e l a t i o n sl e a r n i n g i no r d e rt oa c h i e v eas e a m l e s si n t e g r a t i o no fo n t o l o g yl e a r n i n gp r o c e s s ,w e i m p r o v et h e s et e c h n o l o g i e sw h i c ha r ea l s oa p p l i e di no u ro n t o l o g yl e a r n i n g f r a m e w o r k a n do r i g i n a t e l yt h eo n t o l o g ye v a l u a t i o nm o d u l ei si n t e g r a t e di n 浙江大学博士论文a b d 删 t h eo n t o l o g yl e a r n i n gs y s t e m 2 ) a no n t o l o g yl e a r n i n gt o o l g o l f ( g e n e r a lo n t o l o g yl e a r n i n gf r a m e w o r k ) h a sb e e nd e v e l o p e d ,w h i c ha d o p t sw e bd o c u m e n t sa so n t o l o g yl e a r n i n gr e s o u r c e s w ea l s ot e s tt h i st o o li nt h es e r v e r a lf i e l d sa n dm u l t i li n g u a le x p e r i m e n t s t h ep a p e ra l s od i s c u s s e st h eo n t o l o g ye v o l u t i o na n do n t o l o g ye v a l u a t i o n p r o b l e m s 3 ) am u l t i s t r a t e g yl e a r n i n gm e t h o d o l o g yi sp r o p o s e d c o n c e p t se x t r a c t i o n c a nb ei n t e g r a t e df r o mav a r i e t yo fa l g o r i t h m st oi m p r o v et h eq u a l i t yo f l e a r n i n g t h eb a s i ci d e ai st h a te a c hl e a r n i n ga l g o r i t h mh a sb i a si ns o m ea r e a s , m u dt h ea v e r a g eo fan u m b e ro fd i f f e r e n ta l g o r i t h m sc a ne f f e c t i v e l yr e m o v e t h e s eb i a s e s ,s ot h ep e r f o r m a n c eo ft h es y s t e mw o u l db em a r k e d l yi m p r o v e db y i n t e g r a t i n gd i f f e r e n tl e a r n i n ga l g o r i t h m si n t o o n es y s t e m t h el e a r n i n g f r a m e w o r ki sc o m p o s e db yt h ep r o b a b i l i t yd i s t r i b u t i o ni na c c o r d a n c ew i t h c h a r a c t e r i s t i c so fc o r p u st oa s s i g ne a c ha l g o r i t h md i f f e r e n tw e i g h t s 。 a n d e n h a n c et h ec o r p u so fa d a p t a b i l i t yi nd i f f e r e n ta r e a s 4 ) c o m p a r e dt ot h eo t h e rs i m i l a rs y s t e m s ,t h ef r a m e w o r kc a nd e a lw i t h m u l t i l i n g u a lr e s o u r c e s ,w i t hw h i c ht h ec a p a c i t yo fc h i n e s ep r o c e s s i n gh a sb e e n s t r e n g t h e n e d i nt h i ss y s t e m , p a t t e r n so fc h i n e s el i n g u i s t i c sa n ds t o p p i n g w o r d sli s th a v eb e e na d d e d 5 ) an e wo n t o l o g ye v a l u a t i o nm e t h o di sp r o p s e di nt h i sp a p e r ,w h i c hb a s e d o nb a y e s i a nd e c i s i o nt h e o r y ( r i m o e r i s km i n i m i z a t i o nb a s e do n t o l o g y e v a l u a t i o n ) a n dt h i sn e wm e t h o di su s e dt oe v a l u a t et h ew a y sa n dr e s u l t s o f6 0 l fs y s t e m 6 ) g o l fs y s t e mi m p r o v e st h es c a l a b i l i t yo fs y s t e mb yu s i n gm o d u l a rd e s i g n t h e r e f o r e ,g o l fi sa na u t o m a t i c ,u n s u p e r v i s i n gd o m a i n - i n d e p e n d e n c ea n d c r o s s l a n g u a g eo n t o l o g yl e a r n i n gt o o lw i t hg o o dp e r f o r m a n c e o n t o l o g yl e a r n i n gr e s e a r c hw i l lf u n d a m e n t a l l yc h a n g ek n o w l e d g es y s t e mi n t h en e t w o r ke n v i r o n m e n t ,a n di m p r o v et h ed e v e l o p m e n to ft h es e m a n t i cw e ba n d c o m p u t eg r i d t h i sp a p e ri n v e s t i g a t e st h eo n t o l o g yl e a r n i n ga n de v a l u a t i o n i nt h ew e be n v i r o n m e n tb a s e do nt h e “9 7 3 ”m a j o rp r o j e c t s i np a r t i c u l a r , i na c c o r d a n c ew i t ht h eh i e r a r c h i c a lm o d e l ,w ei n t e g r a t e dm u l t i l e a r n i n g m e t h o d s t h ee x p r i e m e n t ss h o wo u rs y s t e ma c h i e v e sg o o dr e s u l t si nm u l t i l i n g u a l a n dc r o s s - d o m a i ne n v i r o n m e n t k e y w o r d s :o n t o l o g y ,o n t o l o g yl e a r n i n g ,o n t o l o g ye v a l u a t i o n ,o n t o l o g y e n g i n e e r i n g ,s e m a n t i cw e b 浙江大学博士学位论文绪论 第1 章绪论 1 i 本体研究的背景和意义 1 1 1 研究背景 现在,互联网已成为人们获取信息最重要的途径,其规模也以惊人的速度增长着。 然而,当前互联网上的绝大多数信息是以人类能理解的格式( 例如,h t 札) 来表示的, 而作为智能程序的软件代理( a g e n t s ) 并不能理解和处理这些信息,互联网的潜力还 远远没有挖掘出来。为了解决这个问题,以w 3 c 主席为首的研究人员提出了下一代互 联网的概念语义w e b “1 。在语义w e b 上,信息是以结构化的形式表示的,而本体 ( o n t o l o g y ) 则描述了其中的语义啪。当信息用本体来标记后,软件代理就能理解其 意义,也就可以自动完成互联网上的信息收集和集成。语义珥e b 的实现很大程度上依 赖于本体的建立,同时本体也越来越广泛地应用到很多领域,如信息检索、机器翻译、 知识管理、电子商务和信息集成等。 相对于因特网上海量信息而言,目前只有很少手工构建的通用本体如w o r d n e t 和 c y c 。本体建造( c o n s t r u c t i o n ) 是一个非常复杂的过程,它需要多个领域的专家参 与。虽然目前本体工程( o n t o l o g ye n g i n e e r i n g ) 工具已经较为成熟,但本体的手工 构造仍是一项繁琐而辛苦的任务,并最终导致所谓的知识获取瓶颈。本体一词来源于 哲学,它指的是一种存在的系统解释。近年来,在计算机科学中关于本体的研究越来 越多。目前最常用或最多地被引用的本体定义是:。本体是一个共享概念化的形式化、 显式的说明”。“概念化”是指世界中现象的一个抽象模型,通过确定这些现象的相关 概念;“显式”意味着所采用概念的类型和它们应用的约束进行显式的定义:“形式化” 是指本体中的事实应是机器可读的;“共享”反映本体应捕捉该社区中一致公认的知 识。目前,本体已经被广泛应用于语义w e b 、智能信息检索、信息集成、数字图书馆 等领域。本体的应用实例包括:( i ) 电子商务网站:本体有助于商家和客户之间实现 基于机器的通信,使得市场的垂直集成可为可能( 如h t t p :w w w v e r t i c a l n e t c o m ) , 并使得商品的描述能在不同的市场重用;( 2 ) 搜索引擎:本体能帮助实现跨越目前基 于关键词的搜索,并可找到包含语法不同但语义相似的词或句的页面( 如h t t p : 、w h o t b o t c o m ) ;( 3 ) w e b 服务:本体可提供易于被智能a g e n t s 所理解的语义丰 富的服务描述。 在过去的l o 多年里,已经提出了许多本体构建工具,从最早的o n t o l i n g u a , o n t o s a u r u s ,w e b o n t o 【5 】,到p r o t d g d 一2 0 0 0 【5 】,w e b o d e 7 】to i i e d 删,o n t o e d i t 捌,以 及k a o n “等,本体构建工具日趋成熟。这些工具提供了友好的图形化界面和一致性检 查机制。借助这些工具,用户可以把精力集中在本体内容的组织上,而不必了解本体 描述语言的细节,而且避免了很多错误的发生,方便了本体的构建。但是,这些工具 浙江大学博士学位论文 提供的仅仅是本体编辑功能,支持的仍然是手工构建本体的方式。即使使用这些本体 编辑工具,用户依然需要逐个地输入和编辑每个概念的名字、约束、属性等内容。现 有的大部分系统,例如c y c “”和m i k r o k o s m o s “”等,都是靠手工输入大量的知识,然 后才能基于这些知识进行推理或获取新的知识。由于手工方法费时、费力,使得本体 的构建成为一项艰巨的任务。 本体( o n t o l o g i e s ) 定义了用于描述和表示领域知识的术语,它用于人、数据库 和应用之间共享信息,是实现语义w e b 的关键。它通常表达为一组对象( 概念) 、关 系、函数、定理和实例。本体中的概念通过应用继承机制以层次化方式组织;关系代 表领域概念之间的一类相互作用:函数是关系的一种特例;公理用于永为真的句子的 建模;实例用于代表元素。本体通常以基于逻辑的语言来表示,因此可在类、属性和 关系之间作出详细、准确、一致且完备的区别。一些本体工具能采用本体论进行自动 推理并因此为智能应用提供高级服务,如概念或语义检索、软件a g e n t s 、决策支持、 自然语言理解、知识管理和电子商务等。 本体研究虽然并非始于计算机研究领域,但是自2 0 世纪9 0 年代以来,随着知识 共享、信息集成、语义w e b 和w e b 服务等技术的快速发展,本体研究在计算机领域倍 受关注,并逐渐成为研究的前沿和热点“”。本体是一个多领域交叉的概念,本体研究 既包括对本体自身各种技术的理论研究,也包括本体与其他具体研究领域相结合的应 用研究。本文从本体自动构建( 本体学习) 和本体评价两个方面来对本体研究进行总 结和探索。 1 1 2 本体研究意义 本体已经成为人工智能和知识工程中一种重要的工具,在知识的获取、表示、分 析和应用等方面具有重要的意义。 本体研究促进知识工程中对本质知识的获取“”。知识工程的研究方向主要包含 知识获取、表示和推理方法等,其研究目标是挖掘和抽取人类知识,用一种特定形式 表示这些知识,使之成为计算机可操作的对象,从而使计算机“具有”一定的智能。 知识是知识工程研究的焦点,是计算机实现智能的基础。而本体研究实体的存在性和 实体存在的本质,这是深层上的知识,是本质上的知识。对这部分知识的获取、表示、 分析和应用也是知识工程的重要内容。因此,本体把知识工程研究中的知识向更深入、 更本质的方向推进“5 。 本体研究实现显式地表示出领域知识和领域假设。领域知识包括领域概念、概念 的性质,概念之间的关系、概念之间的一般规律等。领域本体的研究要求根据概念之 间的类属关系显式地建立概念之间的联系,明确定义概念所具有的属性、属性的取值 约束、处理过程、概念之间的关系等。领域本体还要求明确定义出概念内部或者概念 之间的公理,以表示领域内的一般假设或者规律。领域本体的研究使得在人看来一日 了然的概念和概念之间的关系都形式化地加以描述,使概念之间的各种规律、联系和 浙江大学博士学位论文 绪论 假设等都被显式地描述出来,这有利于全面地获取和分析并利用知识。 本体研究使知识共享和知识重用的成为可能。本体知识可包括不同领域的知识, 如医学的、农业的、军事的等等:有不同性质的,如常识的、经验性的、规律性的知 识等等;有不同目的的,如用于诊断的、用于决策的、用于规划的等等。为了操作和 使用这些不同领域、不同性质或用于不同目的的知识,人们提出各种各样的知识表示 和推理方法,开发出各种不同的知识系统。由于采用不同的表示和推理机制,这些系 统之间的知识难以相互共享,系统之间难以进行互操作。即使在同一领域内,因为领 域知识包括都包括概念、概念的性质,概念之间的各种关系、概念之间的一般规律等。 这些概念、性质、关系错综复杂,如果没有良好的组织形式,知识也很难被理解、共 享和应用。 本体研究概念所表示事物的独立于任何表示语言而存在的本质,通过研究确立概 念之阊的本质联系和隶属关系,建立领域概念的完整体系,澄清了颁域知识的结构, 从而能为各种不同或者相同的知识系统之间的知识共享、互操作和重用提供可能。例 如,在开发一个新的本体工程时,如果其他站点有相同的本体,则可以直接重用这些 本体,以避免重复的工作由于所要讨论的事物的本质是一致的,且描述的形式规范 化,所以可以直接应用这些已有的工作成果。 本体研究有助于知识分析。人类的知识千差万别,数量巨大,信息技术和网络技 术的发展更使人类日常所接触到的知识更是飞速膨胀。人们通过知识工程、数据挖掘、 知识挖掘等研究总结了多种知识获取方法,并获取了大量的知识。如何判断这些知识 是正确的、一致的、和有效的是一个必然要解决的问题。但由于知识的数量巨大、知 识本身的模糊性和二义性、表示形式的多样性等,知识分析变得非常困难。 本体研究事物的本质,建立起概念之间的结构关系,规范化地表示概念、概念的 性质及概念与概念的性质之间的各种约束和公理,根据这些约束和公理可以对知识的 一致性、正确性和完备性等进行有效的检查。其次,形式化表示的知识也有助于实现 计算机的自动检测、评价。另外,本体等价的判断和本体的转换等操作有助于从整体 上对知识进行分析,以确保知识的一致性和正确性。 目前,虽然人们在知识工程领域对本体已经进行了大量研究,但这些研究还刚刚 起步,还存在着许多问题。如c l f c 要建立常识知识库,但符合常识的知识不一定是正 确的知识;m j n d n e t 期望能完全自动地获取知识,但能获取的知识种类非常有限;b k b 是不完全的专业知识,由于一些概念没有明确的定义,所以共享性不好;随着对该领 域理解的逐步深入,许多越来越困难的问题正一个个呈现在人们面前。正是这些问题 的难度和所具有的挑战性使人们相信,对于本体的研究将成为今后的一个更加活跃的 研究领域。 除知识工程外,本体的研究对其他应用研究也很有意义: 语义w e b 方面。本体是w e b 信息在语义层次上共享和交换的基础,可以大大加强 浙江大学博士学位论文绪论 w e b 的功能。因为网页上使用的名词或x m l 代码,能够通过由页面指向的本体给出明 确的语义定义。即使有些本体把相同的概念用不同的词汇表示,例如本体0 。中用词汇 “邮编”表达与本体0 。中词汇“邮政编码”相同的含义,也可以通过本体之间的映射 机制说明二者之间的等价性。这样本体就为语义w e b 提供了一套共享的术语和信息表 示结构,多数据源上的异构信息通过共享的术语和信息表示结构成为同构的信息。从 而使语义w e b 上的通讯和互操作成为可能。本体在语义w e b 中的应用还刚刚起步,但 具有非常重要的地位。目前主要的应用研究包括改进w e b 搜索的正确性和智能性、将 网页上的信息联系到相关知识和规则进行推理以解决复杂问题、实现网络信息集成、 实现电子商务等。 知识管理。知识管理包括知识获取、知识维护和知识存取。语义w e b 技术的发展 为从面向文档的知识管理转换为面向知识块的知识管理提供了基础。目前,网上智能 “p u s h ”服务、知识管理与事务处理的集成等已经成为迫切需要解决的问题,而本体 是实现这些功能的关键。本体能够对非结构化的信息进行注释以表明它们的语义,能 够用于信息集成,还能够辅助生成面向用户的视图以使知识访问更简单。本体在知识 管理方面的应用可参考相应文献。 企业建模方面。“企业建模”是指在计算机上实现一个企业模拟环境,这个企业 模拟环境也称为“虚拟企业”。企业模拟是本体的重要应用领域之一本体在企业模 拟中的作用主要体现在两个方面:一方面,企业本体是企业模拟所依据的模型;另一 方面,企业本体又是不同企业过程集成的桥梁。著名的企业本体包括:英国爱丁堡大 学的企业项目( e n t e r p r i s ep r o j e c t ) 和加拿大多伦多大学的虚拟企业项目等。 总之,本体技术已经发展成为知识表示、知识管理,知识共享、知识复用的主流 技术之一,正成为自然语言处理、w e b 信息检索、数据库和知识库的管理、异构数据 集成、数字图书馆、g i s 、语义w e b 等研究领域共同关心的一个核心问题“。”1 。 1 2 本体学习的研究现状和存在问题 1 2 1 研究现状 语义w e b 是近年来国际上w e b 智能等领域的重要研究方向,其应用领域日益扩大。 目前,人们已进行了许多有关语义w e b 基础架构如本体语言o w l 、编辑器、推理引擎 等方面的工作。然而,面对快速增长的w e b 信息,很多基于w e b 的应用面临着相关领 域本体缺乏的问题。因为许多的本体构建严重依赖于以专家为中心的方式实现的,这 种以手工为主的构建不仅代价很高,无法进行大规模扩展,同时要促使大量的用户和 领域专家为语义w e b 来构建本体也存在相当的困难。因此研究自动的,通用的领域本 体构建方法是解决这一问题的关键。 从现有知识源( 如文本、词典、遗留知识库或本体、数据库模式等) 获取领域知 识、以( 半) 自动方式构造或改编本体,即所谓的本体学习( o n t o l o g yl e a r n i n g ) , 浙江大学博士学位论文 绪论 是开发本体的有效途径“m “。当前本体学习的研究主要集中在如何利用自然语言处 理技术从文本源提取知识,从因特网这种非结构化数据源学习w e b 本体尚无成熟的方 法1 州。 1 2 1 1 本体学习技术研究现状 本体学习,其相关概念有本体生成( o n t o l o g yg e n e r a t i o n ) 、本体丰富( o n t o l o g y e n r i c h m e n t ) 、本体挖掘( o n t o l o g ym i n i n g ) 和本体抽取( o n t o l o g ye x t r a c t i o n ) 等,它以自然语言处理、机器学习等为其基本理论方法,已初步形成其体系框架结构。 针对不同类型的数据源需要采用不同的本体学习技术,所以一般根据数据源的结构化 程度,将本体学习技术分为三大类:基于文本的本体学习技术、基于结构化数据的本 体学习技术和基于非结构化数据的本体学习技术。 w e b 中存在大量的半结构化和非结构化数据,可以用来获取本体的数据源。当前, 基于w e b 的本体学习技术的研究主要侧重于从自由文本中获取本体溉锄。自由文本依 据一定的造句法表达特殊的语义,使得知识工程师可以基于一些背景知识来理解其中 的含义。然而,由于缺乏一定的结构,要使机器能够自动地理解纯文本并从中抽取出 所需要的知识,则必须利用自然语言处理( n l p ) 技术对其预处理,然后利用统计、 机器学习等手段从中获取知识。 当前本体学习技术研究的重点在于概念术语和概念间关系的自动抽取,特别是概 念间关系的抽取算法。根据目前本体学习系统的评估报告,概念术语抽取的准确率在 6 0 到9 0 ;概念关系抽取的准确率则根据抽取关系的类型不同面有所差异,结果为 2 0 至u7 0 不等。对于概念的抽取,现有的方法可以分为三类:基于语言学的方法、基 于统计的方法和混合方法。国外的研究比较成熟,提出许多卓有成效的方法。这 与以英语为代表的西文分词处理较为容易相关。 与国外相比,国内在领域概念的自动抽取方面,特别是中文领域概念的自动抽取 的研究工作相对较少。上海交通大学的杜波等人提出了一种将统计方法与规则方法 相结合的专业领域术语抽取算法。山西大学郑家恒等人。”提出采用非线性函数与“成 对比较法”相结合的方法,综合考虑位置和词频两个因素,给出候选词的权重,实现 了关键词的自动抽取。东北大学的陈文亮等人侧提出利用b o o t s t r a p p i n g 的机器学习 技术,从大规模无标注真实语料中自动获取领域词汇。浙江大学的刘柏嵩等提出一种 w e b 页面中自动抽取本体w e b o n t l e a r n 的方法“”,从w e b 页面数据中找出本体语义概 念的模式及其关系,并通过分析同一应用领域w e b 页面集来半自动化地抽取w e b 本体。 在概念抽取方面,主要采用统计方法,这也是目前的主流技术。同时也运用基于 规则的方法,以解决识别概念的领域相关性的关键困难。可以通过计算概念在领域相 关的文本集中出现的频率,与其在普通文本集中出现的频率的比值来判断概念的领域 相关性,邵如果该比值大于指定的闻值,则说明该概念在某个领域中经常出现,而在 其它领域中不常用。 浙江大学博士学位论文 对于概念间分类关系( i s - a ) 的获取,常用的方法有:基于模板的方法、基于概 念聚类的方法、基于关联规则的方法、基于词典的方法,或者这些方法的混合“。( 1 ) 基于模板的方法:通过分析领域相关文本,总结出一些频繁出现的语言模式作为规 则,然后判断文本中词的序列是否匹配某个模式。如果匹配,则可以识别出相应的关 系。这些模式可以是手工定义的,也可以是从语料中学习得到的。这类方法的主要缺 点是准确度低,因为大量无用的概念对往往也会匹配这些模式,而且模式的获取是否 完备对于获取效果影响较大。( 2 ) 基于概念聚类的方法:是利用概念之间的语义距离, 对概念进行聚类。这样,同一类簇中的概念具有语义近似的关系。同时,也可以进行 层次聚类,聚类的结果就是概念间的分类关系。关于概念层次聚类的研究有很多,例 如,f i s h e r 提出了一种基于矢量的聚类方法,b i s s o n l 3 5 1 和e m d e l 3 6 】等人提出了基于 f o l 的聚类方法。这些方法共同的局限性是只能得到概念间的层次关系,即树状的层 析结构,然而在本体中一个概念却可以有多个父概念。为此,f a u r e 等人咖采用宽度 优先的方法对概念进行逐层聚类。( 3 ) 关联规则挖掘的方法:常用于获取概念问的非 分类关系,其基本思想是:如果两个概念经常出现在同一文档中,则这两个概念之间 必定存在关系。2 0 0 0 年,m a e d c h e 等人0 1 最先描述并评价了将关联规则应用于本体学 习的方法。( 4 ) 基于词典的方法:根据一些现有的词汇词典中定义的同义词、近义词 和反义词等知识来获取本体中概念问的关系。例如,n a k a y a 等人h 田使用w o r d n e t 来 获取概念间的分类关系;( 5 ) 混合方法:同时使用上述若干种方法,以期得到更好的 结果。 除了分类关系,概念间还存在其它非分类关系,如:p a r t - o f 关系,p u r p o s e ( xi s u s e d f o r y ) 和a g e n t i v e 关系,因果关系( x l e a d s t oy ) 和属性关系( t h e xo fy ) 。 非分类关系的抽取可采用s r i k a n t 和a g r a w a l 等人提出的关联规则挖掘算法。尽管概 念间关系的挖掘对于整个本体学习过程很重要,但都需要进行标注,而人工标注并不 是很方便或正确。这是因为相同概念的实例间可能存在多种关系。关联规则挖掘算法 的扩展能克服该问题。m a r ks t e v e n s o n 等采用语义排歧技术来丰富辞典( t h e s a u r u s ) 。 将词典看作是本体,主要由分类关系组成,输出是由新概念关系扩充的分类层次。在 n l p 中,文本中的动词在概念关系的识别中扮演着很重要的角色。因此,从本体的视 角看,假定由动词来表示本体中两个概念问的关系。基于该假设,r e l e x tt o o l 识别 了相关概念对。由w a s h i n g t o n 大学提出的k n o w l t a l l 系统】,以w e b 作为学习语料, 采用不确定性理论抽取概念闻的关系。 到目前为止,国际上对概念间关系获取的研究很多,但是,对概念间非分类关系 的获取,大部分方法都停留在判断两个概念之间是否存在关系的层次上,无法进一步 为获取的关系赋予相应的语义标签h “1 。为此,2 0 0 5 年,k a v a l e c 等人m 提出使用扩 展的关联规则挖掘方法为本体中概念间的非分类关系赋予语义标签。其基本思想是: 如果两个概念间存在非分类关系,那么该关系能够用经常出现在这两个词附近的某个 6 浙江大学博士学位论文绪论 动词来表示。所以,可以通过计算某个动词和某两个概念一起出现的条件概率,决定 这两个概念之间的关系是否可以用该动词来表示k a v a l e c 等人的方法是对解决该问 题的一个初步尝试,但它仅考虑了词频,没有考虑句子结构等其他因素,所以结果并 不十分理想。 本研究提出多策略集成学习方法,将概念间关系分为两类:分类关系采用基于符 号的方法和基于统计的方法相混合方法来获取;非分类关系主要采用模式匹配和关联 规则组合方法来学习,并采用非监督学习方法,对非分类关系进行修剪。实验表明取 得了明显的效果。 1 2 1 2 本体学习工具现状 目前已有多个本体学习系统被开发出来,如t e x t t o o n t 0 1 “1 、o n t o l e a r n t “l 、a s i u m 嘲、m o kw o r k b e n c h m 、o n t o l t 洲、a d a p t i v a 脚i ,s o a t ”和d o g m a 姗1 等。从这些系 统的开发机构来看,本体学习的相关研究在欧洲地区开展得较为广泛。a s i u ms y s t e m 、 m o kw o r k b e n c h 等早期开发的工具系统大多功能不完全,通常是侧重于对本体学习 过程中某一环节实现的原型系统。例如,美国德克萨斯州大学研制的w o l f i e 【5 2 】,针对 已预处理的无歧义句子,进行语义词典的生成;英国爱丁堡大学m i k h e e 和f i n c h “n 开发的一个w o r k b e n c h 系统,包括了一系列从自然语言文本中发掘内在结构的计算工 具;日本静岗大学开发的d o d d l e “1 ,对已知领域概念进行层次关系抽取,但没有对概 念和其他类型的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论