已阅读5页,还剩63页未读, 继续免费阅读
(计算机软件与理论专业论文)基于text2onto的中文本体学习技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于t e x t 2 0 n t o 的中文本体学习技术研究 捅要 随着新一代互联网语义w e b _ - 研究的不断深入,本体( o n t o l o g y ) j e 在 成为人工智能和知识工程中一种重要的工具,在知识的获取、表示、分析和应 用等方面具有重要的意义。本体的手工构建是一项繁琐而辛苦的任务,极易导 致知识获取的瓶颈。因此,w e b 本体的可获取性已被学术界公认为是制约语义 w e b 成功的巨大挑战之一,能否减低本体构建成本,实现本体的半自动自动构 建逐渐成为本体研究的一个关键问题。从现有信息源,包括文本、词典、遗留 知识库、w w w 文档等,获取领域知识、以自动方式构建或扩充本体,即所谓的 本体学习( o n t o l o g yl e a r n i n g ) ,是开发本体的有效途径。 相应的,对于语义w e b 在中国的推广和应用而言,中文本体的获取是非常 重要的。如何从现有的各领域的大量中文文献中获取本体,同时提高所得本体 的质量使其能被有效利用,成为语义w e b 在中文环境下推广的一个重要课题。 本文在t e x t 2 0 n t o 框架下,针对中文的特点及中西文之间的差别围绕中文 本体的获取技术展开了讨论和研究,其中利用了i c t c l a s 分词工具。首先我们 介绍了t e x t 2 0 n t o 的优点、系统架构、工作原理及关键的算法。然后针对中文 本体学习这一领域存在的问题提出了基于t e x t 2 0 n t o 的中文本体学习技术框 架,并对这个框架下的几个关键的技术问题,包括中文语料预处理、术语概念 抽取、语义关系抽取,分别作了更为详细的介绍,给出了中文术语概念抽取及 过滤的具体算法。最后,分析了现有本体学习系统的体系结构,在t e x t 2 0 n t o 的基础上整合了中文分词,加入中文概念抽取及过滤算法,实现了中文本体学 习系统框架。 通过实验,我们认为基于t e x t 2 0 n t o 的中文本体学习技术研究是对中文本 体获取的一次非常有意义的尝试,初步解决了中文术语概念的抽取及过滤问题, 并为后续的中文本体学习技术研究打下了良好的基础。 关键词:中文本体学习:语义w e b ;中文分词;术语抽取:语义关系抽取 c h i n e s eo n t o l o g yl e a r n i n gt e c h n o l o g yb a s e do nt e x t 2 0 n t o a b s t r a c t w i t ht h er e s e a r c ho nt h es e m a n t i cw e b ,t h en e x tg e n e r a t i o no fi n t e r a c t ,o n t o l o g y i sb e c o m i n ga l li m p o r t a n tt o o li nt h ea r t i f i c i a li n t e l l i g e n c ea n dk n o w l e d g ee n g i n e e r i n g i ti so fg r e a ts i g n i f i c a n c et ot h ea c q u i s i t i o n ,r e p r e s e n t a t i o n ,a n a l y s i sa n da p p l i c a t i o no f k n o w l e d g ea r e a s c o n s t r u c to n t o l o g yb yh a n d w o r ki saf u s s ya n dat r o u b l i n gt a s k ,a n d a ni s s u en a m e d o n t o l o g yb o t t l e n e c k ,t h el a c ko fe f f i c i e n tw a y st ob u i l do n t o l o g i e s , h a sb e e nc o m i n gu pt og e n e r a t eo n t o l o g i e s t h e r e f o r e ,a c c e s s i b i l i t yo fo n t o l o g yh a s b e e nr e c o g n i z e db yt h ea c a d e m i cc o m m u n i t ya so n eo ft h eg r e a tc h a l l e n g e sw h i c ha r e c o n s t r a i n i n g t h es u c c e s so ft h es e m a n t i c w e b 。c o n s t r u c t i n go n t o l o g y i n s e m i a u t o m a t i co ra u t o m a t i cw a ya tl o wc o s ti sak e yp r o b l e mo fo n t o l o g yr e s e a r c h c a p t u r i n gd o m a i nk n o w l e d g ef r o me x i s t e di n f o r m a t i o n ( s u c ha st e x t s ,d i c t i o n a r i e s , r e m n a n tk n o w l e d g e ,w w wd o c u m e n t s ,e t c ) t ob u i l do r e x p a n do n t o l o g y a u t o m a t i c a l l y ,w h i c hi sc a l l e do n t o l o g yl e a r n i n g ,i sa l le f f e c t i v ew a yo fo n t o l o g y d e v e l o p m e n t c o r r e s p o n d i n g l y , i ti sc r i t i c a lf o ru st oa c q u i r ec h i n e s eo n t o l o g yi no r d e rt o e x t e n da n di m p l e m e n ts e m a n t i cw e bi nc h i n a 。i th a sb e c o m ea ni m p o r t a n ts u b j e c ti n t h ec h i n e s es e m a n t i cw e bt oa c q u i r eo n t o l o g yf r o mc o r p u so fd i f f e r e n tf i e l d s ,a n dt o e r t h a n c et h eq u a l i t yo ft h er e s u l t sf o re f f e c t i v ea p p l i c a t i o n i nt h i sp a p e r , i te x t e n d sd i s c u s s i o na n dr e s e a r c ha r o u n dt h ea c c e s st e c h n o l o g y o fc h i n e s eo n t o l o g yb a s e do nt h ef r a m e w o r ko ft e x t 2 0 n t oa i m i n ga tc h a r a c t e r i s t i c s o fc h i n e s ea n dd i f f e r e n c e sb e t w e e nc h i n e s ea n de n g l i s h ,a n dt h ei c t c l a sh a v e b e e nu s e d 。 f i r s t l y ,t h ep a p e ri n t r o d u c e s t h ea d v a n t a g e s ,s y s t e ma r c h i t e c t u r e ,w o r k i n g p r i n c i p l ea n dk e ya l g o r i t h m so ft e x t 2 0 n t o t h e ni tp u t sf o r w a r dt oc h i n e s e o n t o l o g ys t u d yt e c h n o l o g yf r a m e w o r k b a s e do n t e x t 2 0 n t oa i m i n ga tt h ep r o b l e me x i s t e di na r e ao fc h i n e s eo n t o l o g ys t u d y i ta l s o m a k e sm o r ed e t a i l e di n t r o d u c t i o nt os o m ek e yt e c h n i c a li s s u e su n d e rt h i sf r a m e w o r k i l r e s p e c t i v e l y ,i n c l u d i n gt h ec h i n e s ec o r p u sp r e p r o c e s s i n g , c o n c e p t se x t r a c t i o na n d s e m a n t i cr e l a t i o ne x t r a c t i o n ;g i v e nt h es p e c i f i ca l g o r i t h mo ft h ee x t r a c t i o na n d f i l t e r i n go fc h i n e s ec o n c e p t s f i n a l l y ,i ta n a l y z e s t h ee x i s t i n g o n t o l o g yl e a r n i n gs y s t e ma r c h i t e c t u r e , i n t e g r a t e sc h i n e s ew o r ds e g m e n t a t i o na tt h eb a s i so ft e x t 2 0 n t o ,a d d st h ea l g o r i t h m s o fe x t r a c t i o na n df i l t e r i n go fc h i n e s ec o n c e p t s ,a n da c h i e v e st h ec h i n e s eo n t o l o g y l e a r n i n gs y s t e mf r a m e w o r k t h r o u g he x p e r i m e n t s ,i ts h o w st h a tt h ec h i n e s eo n t o l o g ys t u d yt e c h n o l o g y r e s e a r c hb a s e do nt e x t 2 0 n t oi sav e r ym e a n i n g f u la t t e m p tf o rt e c h n o l o g yo fc h i n e s e o n t o l o g ya c c e s s i n g ,i to f f e r sai n i t i a ls o l u t i o no ft h ec h i n e s ec o n c e p t se x t r a c t i o na n d f i l t r a t i o np r o b l e m ,a n di th a sl a i dag o o df o u n d a t i o nf o rt h ef o l l o w - u ps t u d yo f c h i n e s eo n t o l o g ys t u d yt e c h n o l o g yr e s e a r c h k e y w o r d s :c h i n e s eo n t o l o g yl e a r n i n g ;c h i n e s ew o r ds e g m e n t a t i o n ;s e m a n t i c w e b ;c o n c e p t se x t r a c t i o n ;s e m a n t i cr e l a t i o ne x t r a c t i o n i i i 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人黾经发表或撰写过的研究成果,也不包含未获得 1 注;如邀壹基丝蠡基缱剔虚盟鲍:奎蕉亘窒2 或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了萌 确的说隳并表示谢意。 学位论文作者签名系缓萄 签字麟麓:弛,年f 胃7 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息 研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公 众提供信患服务。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:亲爱萄 签字日期:护i 年石月7 日 导师签字: 彳犍乱 签字日期:p 7 年6 月_ 7 e t 基于t e x t 2 0 n t o 的中文本体学习技术研究 1 绪论 1 1 本体学习研究的背景及意义 语义w e b 是近年来国际上w e b 智能等领域的重要研究方向,其应用领域日益 扩大。目前,人们已进行了许多有关语义w e b 基础架构如本体语言o w l 、编辑器、 推理引擎等方面的工作。 语义w e b 针对现有的因特网在语义方面的革新n 1 ,其研究的宗旨就在于整合 分布在全球的因特网上的信息,使其中的信息能够被计算机理解或部分理解口1 , 以便于人与计算机之间更深的语义层次上的交互和合作d 1 ,从而让网络为人们提 供更加优质的智能化信息服务。 所谓本体,是对可共享的概念的一个形式化的明确的说明,它包含对某个领 域的概念及概念间的关系的描述和约束h 1 。形式化本体是语义w e b 的研究、存在 和运作的基础,本体机制是科学家为客观地解释对象的语义及他们之间的关系而 建成的,反映了人们对语义的共识。面对快速增长的w e b 信息,很多基于w e b 的 应用面临着相关领域本体缺乏的问题。因为许多的本体构建严重依赖于以专家为 中心的方式实现的,这种以手工为主的构建不仅代价很高,无法进行大规模扩展, 同时要促使大量的用户和领域专家为语义w e b 来构建本体也存在相当的困难。虽 然本体工程( o n t o l o g ye n g i n e e r i n g ) 工具已较为成熟,但本体的手工构建仍是 一项繁重的工作,并最终很可能导致所谓的知识获取瓶颈,因此,如何通过机器 学习的办法让计算机参与到本体的构建过程之中成为语义w e b 的一个重大课题。 1 2 相关工作研究现状 从现有知识源( 如文本、词典、遗留知识库或本体、数据库模式等) 获取识、 以( 半) 自动方式构造或改编本体,即所谓的本体学习( o n t o l o g yl e a r n i n g ) 是开 发本体的有效途径1 。本体学习,其相关概念有本体生成( o n t o l o g yg e n e r a t i o n ) 、 本体丰富( o n t o l o g ye n r i c h m e n t ) 、本体挖掘( o n t o l o g ym i n i n g ) 和本体抽取 ( o n t o l o g ye x t r a c t i o n ) 等,它以自然语言处理、机器学习等为基本理论方法, 基于t e x t 2 0 n t o 的中文本体学习技术研究 已初步形成体系框架结构。本体学习,它的主要任务是从数据源中提取术语概念 及关系。针对不同类型的数据源需要采用不同的本体学习技术,所以一般根据数 据源的结构化程度,将本体学习技术分为三大类:基于文本的本体学习技术、基 于结构化数据的本体学习技术和基于非结构化数据的本体学习技术。 本体学习是一个跨学科研究领域,包括自然语言处理、机器学习和数据挖掘 等,一些方法和技术被用在该领域中,a l e x a n d e rm a e d c h e 嘲通过不同的输入类 型区分不同的本体学习方法。本体学习包括基于文本、词典、知识库、半结构化 数据、关系模型的学习。 目前国外对本体自动获取的研究并非十分成熟。m a e d c h e 和s t a a b 采用平衡 协作建模方法h 3 在人工参与下提出了一种半自动的本体学习框架,包括本体的导 入、本体抽取、本体裁剪、本体精练和本体评估,并对如何从文本、字典和原有 本体中获取新的本体进行了研究。与国外相比,国内在领域概念的自动抽取方面 的研究工作相对较少。上海交大的杜波阳1 等人提出了一种将统计方法与规则方法 进行结合的专业领域术语抽取算法。山西大学郑家恒阳1 等人提出采用非线性函数 与“成对比较法”结合的办法,实现了领域关键词的自动抽取。东北大学的陈文 亮等人阳3 提出利用b o o t s t r a p p i n g 的机器学习技术,成功实现了大规模无标注真 实语料中自动获取领域概念。浙大的刘柏篙等人提出了一种w e b 页面中自动抽取 本体w e b o n t l e a r n 的方法n 引,从w e b 页面数据中找出本体语义概念的模式及其关 系,并通过分析同一应用领域w e b 页面集合来半自动化地获取w e b 本体。李守丽 等人借鉴了国外的一些经验,对利用奇异值和概念类聚进行汉语本体获取进行了 初步研究。由于中文语法的复杂性,基于中文文本的本体学习技术涉及自然语言 处理。目前大多数方法都是基于句法分析和统计方法,句子的语义信息不能应用 在本体学习中,语料库信息也不能被充分利用,没有很好的进行语料预处理。 综合世界范围的相关研究来看,目前本体学习研究方面还存在以下问题与不 口i n 庀 ( 1 ) 本体学习体系结构概念和方法缺乏统一性。虽然众多的本体学习方法被 开发出来,但这些方法重用性较差。本体学习系统有各自不同的体系结构,虽然 有一些本体学习系统将结果本体进行了形式化的表示,使结果本体能被其他系统 重用,但因缺乏本体学习体系功能结构的统一定义和标准化接口,一个系统所提 2 基予t e x t 2 0 n t o 的中文本体学习技术研究 供的本体学习方法被其它本体学习系统重用起来存在很多困难。 ( 2 ) 深层次的语义分析比较缺乏,概念及概念关系抽取的精度不高,尤其是 概念闻关系抽取的精度院较低,掬取的概念闻关系的类型较少。 ( 3 ) 当前的本体学习系统工具多是缺乏实用性的原型系统,。这些本体学习系 统大多是实验室模型系统,融于概念及其概念关系的精度不高和缺芝统一的体系 结构,使得本体学习系统很难进行大规模的应用。 ( 4 ) 现有的本体学习系统缺乏对中文语料资源的处理。当前本体学习王具大 多是基于西文的语料库的系统,国内本体学习系统的开发正处于起步阶段,支持 中文语料处理的本体学习工具还很少。因汉语不像英语等西方语言一样存在明显 的形态变化,汉语中词之闻在书写上无空格或者其它分隔符,所以中文分词的歧 义问题特别突出,导致了中文概念及其关系的获取更加困难。 国内的本体学习研究还处于起步阶段,还没有一个能够支持中文的开源的本 体学习工具。由于中文语法的复杂性,中文本体学习技术确存在很多爨难,单纯 依靠统计的手段或现有的与语言无关的算法很难获得满意的学习结果。 本文在t e x t 2 0 n t o h 7 的基础上,针对中文环境,重点讨论了中文术语的自动 抽取技术,期待辱| 入h o w n e t 语义词典来完成中文语义关系抽取,综合运用自然 语言处理方法和机器学习,研究中文本体学习技术。 1 3 面临的主要挑战 在中文环境下的本体学习孛,面临的挑战主要有以下五个方面: 0 ) 9 文本体获取的环境。良好的支持环境和本体开发工具是保证和促进本 体成功应用的关键。现在尽管已经成功开发了一些系统,如本体合并工具( 如 p r o m p t ) 、本体开发工具( 如p r o t 6 9 6 2 0 0 0 、w e b o d e 、o n t o e d i t 1 2 1 ) 、本体标注 工具( 如c o h s e 、m n m 等) 、本体存储和查询工具( 1 e n a 、s e s a m e 等) ,但是它们 对于中文的支持还很簿弱。 ( 2 ) 中文语料预处理。在英语的语言孛,词与词之闻有空格,健汉语言孛词 与词之闻没有空格分隔。其次,英语中往往带有明显的词性标志,例如以 结尾的词大多是名词,以1 y 结尾的词大多是副词等。在汉语中,无论是动_ 词t i o ,n 还是副词,在表示形式上都是相同的一种形式。因此在对中文语料的预处理过程 3 基于t e x t 2 0 n t o 的中文本体学习技术研究 中,要对中文文档进行良好的文档选择,中文分词,词性标注等预处理工作。 ( 3 ) 本体来源的选择。本体获取中的来源主要包括技术文档、领域专家、参 考书籍、词汇表、词典等。互联网上的大量信息使得以电子文档形式存在的资料 占据越来越重要的地位。可是这些资料不仅数量巨大而且存储的形式有极大差 异,同时通常的本体学习算法的复杂度相当复杂,要想处理所有的语料几乎是不 太可能的。所以需要开发新的本体学习技术对这些大量的语料进行筛选、处理, 用以选取一定比例的有代表性的资料作为进行本体学习的语料。 ( 4 ) 领域本体的内容。领域知识包含领域中的概念、概念与概念之间的关系 以及领域中的实例,另外也包含领域中的规则和公理等。怎样从w e b 页上以文本 格式表现的这些无结构化和半结构化文档资料中获取领域的概念及其关系还有 很多困难去克服。 ( 5 ) 中文本体的表示语言。传统的本体知识表示语言通常是基于一阶逻辑 o a f ) 、描述逻辑( l o o m ) 、框架与一阶逻辑( 如c y c l 、o n t o l i n g u a 、o c m l 、f l o g i c ) 等,这些语言特点是表示能力强,但它们并不适合表示w e b 页上的资源。正因 为如此,在学术界陆续推出了基于w e b 的本体描述语言( 或者称为本体标记语言) 如s h o e 、x o l 、r d f 、r d fs c h e m a 、o i l 、d a m l + o i l 、o w l 等【1 3 , 1 4 , 1 5 】,这 些本体语言虽然为表示w e b 页面上的资源的语义奠定了良好的基础,但是这些 语言在表示中文本体的能力方面还有需要进一步的提高。 1 4 主要研究内容 t e x t 2 0 n t o 是一个非常优秀的并且已经广泛被应用于实践的具有良好扩展 性的本体学习框架,它可以非常好的支持英文本体学习。目前不能实现中文本体 学习,完全是因为t e x t 2 0 n t o 没有根据中文语言自身的特点而做出相应的调整, 我们相信,在经过充分的调整和相应改进处理后,t e x t 2 0 n t o 有能力进行令人满 意的中文本体学习。从中文本体学习技术所面临的挑战和当前本体学习的研究现 状出发,为了使t e x t 2 0 n t o 框架能够支持中文本体学习,主要在以下几个方面进 行了研究: ( 1 ) 研究和总结了本体及本体学习方面的相关理论,例如本体和本体学习的 概念、本体的表示语言、本体的构建与管理、本体学习的技术、本体学习的方法、 4 基予t e x t 2 0 n t o 豹孛文零髂学霹技术辑究 本嚣学淫工具等。 ( 2 ) 深入剖析了中文分词系统i c t c i a s 及本体学习工具t e x t 2 0 n t o 系统的设 计原理,并且在此基础上,研究了中文本体学习技术,如:中文语料的预处理, 文档相关度计算,糍念术语的塞动拽取,概念之闻关系熊抽取等。 ( 3 ) 通过对本体学习技术进行深入的研究,分析比较现有本体学习技术中存 在的片面性闯题,在现有的开源工具t e x t 2 0 n t o 基础上,应用其p o m 模型初步构 建了一个能够楚理中文语料嚣本体学习框架。 ( 4 ) 根据中文特点对基于中文的本体学习算法进行研究;综合基于文本的学 习方法、基于半结构化数据的学溺方法等多种学习方法进行深层次的语义分析, 提高串文概念术语抽取嚣谣壁率和准确率。给出了领域榴关度帮领域覆盖度穗结 合来过滤中文术语的方法及具体算法,对中文概念术语抽取的准确率和召回率都 超过了9 0 。 1 5 本文的结构安排 全文共分6 章。 第一章为绪论。介绍了本体学豸酶露的和意义,分橱了在中文环境下本体学 习酋几个重大挑战,介绍了霆内终本体学习和语义需求的研究现状,针对现有中 文本体学习技术的不足,提出了本文的研究目的和内容。 第二章本体学习技术与工具综述。主要讲述了本体稽关的概念及本体的构建 规剃,针对当髓本体梅建耗时并且需要领域专家参与等不足,弓l 入了本体学习的 概念,并介绍了当前本体学习的相关技术和方法。 第三章t e x t 2 0 n t o 系统分析。主要介缙了t e x t 2 0 n t o 酶系统框架,主要都俘, 概率本体模型p o m ,数据驱动黔变更发现规制及本体学习关键算法。 第四章基于t e x t 2 0 n t o 的中文本体学习技术。本章根据汉语与英语的不同和 汉语自身的特点,提出借助t e x t 2 0 n t o 框架构建中文本体学习系统的思路,对中 文分词及词性稼注,相关度计算,概念术语的接褒方法,孛文术语的过滤及算法 进行了研究,介绍了语义关系抽取的相关内容,为中文本体学习系统的构建奠定 了技术基础。 第五章在t e x t 2 0 n t o 耱孛文本体学习技术研究静基礁上提出了“基于 葶 基于t e x t 2 0 n t o 的中文本体学习技术研究 t e x t 2 0 n t o 的中文本体学习框架 ,并利用现有框架对中文概念的抽取结果进行了 分析。 第六章结束语。总结了研究中的收获,分析现有技术和实现情况,并提出研 究中的不足,明确将来进一步研究方向。 6 基予t e x t 2 0 n t o 的中文本体学习技术研究 2 本体学习技术及工具综述 2 1 本体学习概述 2 1 i 本体 ( 1 ) 本体的概念 本体( o n t o l o g y ) 本来是哲学上的概念,是客观存在的一个系统的解释或说瞬。 在计算机领域,最普遍的定义是g r u b e r 在1 9 9 3 年提出的j 本体是概念模型的明 确的规范说明”。b o r s t 给出了另外一种本体的定义本体是共享概念模型的形式 化规范说明”。o n t o l o g y 的目标是获取相关领域的知识,提供对该领域知识的共 同理解,确定该领域内共同认可的概念词汇,并从不同层次的形式化模型上给出 这些概念及概念间的相互关系的明确定义。很多人给出关于o n t o l o g y 不同的理 解,最有名的是g r u b e r 等人提出的,认为本体是共享概念模型的明确的形式化规 范说明,这个定义体现7 o n t o l o g y 四层含义: 概念模型( c o n c e p t u a l i z a t i o n ) :通过抽象出客观世界中一些现象的相关概念 而得到的相应模型,其表示含义独立于具体的环境状态; 翡确( e x p l i c i t ) :概念和概念闻的联系都有很明确盼定义; 形式化( f o r m a l ) :o n t o l o g y 是计算机可以处理的; 共享( s h a r e ) :o n t o l o g y 中反映的是领域中公认的概念集,体现的是共同认 可的知识,针对的是团体焉不是个体的一种共识。 本体有五个基本的建模元语,或称本体的五个基本元素: ( a ) 类( c l a s s e s ) 或概念( c o n c e p t s ) 指任何事物的抽象,从语义上讲,它表示的都是对象的集合。如:大地、树 木属于鹾个不同的概念。 ( b ) 关系( r e l a t i o n s ) 显示在领域中概念之阆的交互作用,形式上的定义是,n 维笛卡儿积的子集: r - c l x c 2 x c 3 g 。 ( c ) 函数( f u n c t i o n s ) 函数关系是一类特殊的关系。该关系的第1 1 个元素由前n 1 个元素唯一确定。 7 基于t e x t 2 0 n t o 的中文本体学习技术研究 形式化定义为映射f :c 1 x c 2 x c 3 c i l l c n 。如函数f a t h e r o f f x ,y ) 表示y 是x 的父 _ - 杀。 ( d ) 公理( a x i o m s ) 其含义是永真断言。如:概念公鸡属于概念鸡的子集。 ( e ) 实例( i n s t a n c e s ) 表示元素,从语义上讲实例所表示的就是对象。如人名“鲁迅”可以作为“作家” 类的一个具体实例。 本体中的基本关系有4 种: p a r t o f :表示概念之间部分与整体的关系。 k i n d 。o f :表示概念之间的继承关系,类似于面向对象中父类与子类的关系。 给出两个概念a 和b ,如果a 的所有实例都属于b ,则称b 是a 的父概念,a 是b 的子概念。 i n s t a n c e o f :表示概念的实例与概念之间的关系,与面向对象的对象与类之 间的关系相类似。 a t t r i b u t e o f :含义是某个概念是另外一个概念的属性。如概念“边长”是概念 “正方形”的一个属性。 本体通过对概念的严格定义及概念间的关系确定概念的精确含义,表达共同 认可的、可以共享的知识。通过定义通用的、可共享的领域知识,本体使人和机 器进行明确的交流,支持语义的交换,不仅是语法层次上的。所以在语义w e b 中,本体具有极其重要的地位,是解决语义层次上w e b 信息交换和共享的基础。 ( 2 ) 本体的构建规则及构建方法 在各个不同的领域,现在已有的本体很多,考虑到各自问题域和具体工程,构 造本体的过程也是互不相同的。目前还没有一个标准的本体构建方法,很多研究 者从指导人们构造本体的目的出发,提出了很多有益于构造本体的标准,其最有影 响的是1 9 9 5 :句z g r u b e r 在文献【1 6 l 中提出的5 条规则:( a ) 明确性和客观性;( b ) 完整 性;( c ) 一致性;( d ) 最大单调可扩展性;( e ) 最小承诺。 目前对构建o n t o l o g y 的方法和方法的性能还没有一个统一的评价标准,所 以还需要做更深入的研究。在构建特定领域本体的过程中一般需要该领域专家的 参与。 8 基于t e x t 2 0 n t o 的中义零体学习技术研究 本体的构建方法。现在关于构建o n t o l o g y 的方法很不成熟,还不存在套完 整统一的方法论,我们总结现存的方法得出本体的构建应包含以下方面: ( 1 ) 确定本体所属具体领域,鼯所建本体的瘴蘑霹的耩适用范藤:根据研究酶 领域或者任务,构建提应盼领域本体或过程本体。 ( 2 ) 本体分析:定义本体所用概念术语的意义和概念间的关系。该步骤般需 要领域专家的参与,对该预域了解越深入,所梅建的本体也就越完善。 移) 本体的表示:选择适合的本体搓述语言和构造工具将本体进行形式化表 示,一般来说用语义模型表示所建本体。 ( 4 ) 本体评估:经常用的评佶标准有清晰性、一致性、完善性、可扩展性。 签) 本体的最终确立:对本落按照以上标准进行检测,若符合要求则鼓文件豹 形式存储,否则转第二步本体分析。 2 。王,2 本体学习韵概念 当蒋蓍本锩工程( o n t o l o g ye n g i n e e r i n g ) i 具已经比较麴成熟,但这些工具多适 用于手工构造本体。完全用手工构建本体易出现倾向性错误,及时动态的进行更 新沈较困难,并最终很有可能导致知识获取酶瓶颈。所以说熊否自动或者半自动 擒造本体歪逐渐成为语义黠发展的关键性要素。怎样有效剩爝知识获取技术来降 低本体构造的开销是个有意义的研究方向。目前国内外在该方向的研究很活 跃,把与之耦关的技术称为本体学习( o n t o l o g yl e a r n i n g ) 技术。 本体学习是半自动、爨动构造本体赞一系列豹技术及方法。本体学习豹基 标就是利用机器学习和统计等技术自动或半自动地从已有的数据资料中获取期 望的本体。本体学习是一个跨学科研究领域,包含自然语言处理、机器学习、数 据挖藏和统计学等,些方法帮技术被用在该领域孛。 现在已经存在的本体学习的体系结构主要包括以下的几个过程( 图2 - 1 ) ; 需求分析、领域分析与建模、本体学习、本体评估,其中: 参 基于t e x t 2 0 n t o 的中文本体学习技术研究 图2 - 1 本体学习体系结构 ( 1 ) 本体开发和设计的基础是本体需求分析。需求分析主要依据应用程序的 要求来明确适合的本体需求,并制作本体需求说明书,来确定所构造本体的领域 及目标,用户及使用场景,本体能力描述等信息。 ( 2 ) 领域分析与建模是为了全面、客观、整体上对建模的领域有清晰的认识, 指导后期的本体建设过程。这一过程主要包含以下三个任务:确定知识源、领域 宏观分析和确定领域建模方法。其中领域建模方法主要包括:自项向下法;中间 扩展法;自底向上法。 ( 3 ) 领域本体学习过程,以结构化、半结构化及无结构文档语料作为输入, 通过浅层自然语言处理过程对文档进行向量化表示,表示成向量空间模型,有利 于本体学习算法作进一步的分析。算法包括概念学习算法和语义关系学习算法。 ( 4 ) 本体在投入到实际应用前,应该对本体进行全面的评估。本体评估主要 包含本体验证和本体确认。检查所构建的领域本体是否与其需求说明相一致称作 本体验证;而本体确认指的是所建立的领域本体与真实世界的领域模型是否相一 致。 2 1 3 本体学习的类型 根据不同的分类标准可以把本体学习划分为不同的类型n 7 1 。在前人研究的基 础上,我们列出了几种不同的分类方法。 ( 1 ) 依据本体的不同层次类型来分类 o m e l a y e n k o 认为语义w e b d 0 的本体主要由三部分构成:自然语言本体 ( n a t u r a ll a n g u a g eo n t o l o g y ,n l o ) 、领域本体( d o m a i no n t o l o g y ,d o ) 帝i 本体实 例( o n t o l o g yi n s t a n e e s ,o r ) 。据此将本体学习分为自然语言本体学习、领域本体 1 0 基- 7 = t e x t 2 0 n t o 的中文本体学习技术研究 学习和本体实例学习。自然语言本体表示语言概念闻的词汇和它们之间的语义关 系,它试图包含尽可能多的概念,但并不提供概念的具体描述,也称为“水平本 体 ,类似于通用本体,如h o w n e t i z o l 、w o r d n e t 1 8 1 等。领域本体有众多的特定模 式、属性和关系,所表示的是某一特定领域的知识概念和概念闻的关系,结构复 杂。这种本体提供某领域概念在该领域限制下的详尽说明,也称“垂直本体”, 如地理本体。本体实例则代表的是某一领域知识概念的具体例子。 ( 2 ) 依据是否有初始本体进行分类 本体学习是对已存在的本体进行自动或半自动的扩展改编,或者是从头开始 自动、半自动从无到有构造一个新的本体。基于已有本体的本体学习和基予原始 语料的本体学习就是据此进行分类的。基于已有本体的本体学习,系统孛已存在 一个早已构建的本体,或通过获取外部本体,对这些本体进行集成、抽取、裁剪 等,而新建一个本体,或对已有本体进行扩充维护。如利用通用本体w o r d n e t 来 进行领域本体的扩展,或在多个领域本体闻进行映射及合并。基于原始语料的本 体学习,也就是从零开始构造一个新本体。系统中没有本体存在,计算机直接从 大量的语料资源中进行学习,获取知识概念和语义关系,然后进行自我组织,自 动构建知识概念体系结构,形成本体。 ( 3 ) 依据本体学习的数据源结构化类型进行分类 本体学习按学习数据源可分为:基于结构化数据的本体学习、基于非结构化 数据的本体学习、基于半结构化数据的本体学习。基于结构纯数据的本体学习数 据源主要包括关系数据库或面向对象数据库中的数据。基于非结构化数据的本体 学习研究主要集中在从纯文本中获取本体,其中基于文本的本体学习方法是该类 型的主要方法,也是本体学习的研究重点。纯文本根据一定的句法表达特殊的语 义,必须利用自然语言处理技术对其进行预处理,然后利用机器学习、统计等技 术从中抽取知识。基于半结构化数据的本体学习数据源主要是指具有隐含结构的 数据类型,如机器可读的谲典( m r d ) 、x m 瞒式和h t m 嘴式的两页及他们 遵循的文档类型定义( x m l s c h e m a 或d 弧) ) ,还有用r d f 标注的网页也可以作 为半结构化的数据源。 基于t e x t 2 0 n t o 的中文本体学习技术研究 2 1 4 本体学习方法 依据要学习的语料资源格式的不同,本体学习方法分为五类:基于文本的 本体学习、基于字典的本体学习、基于知识库的本体学习、基于半结构化数据的 本体学习和基于关系模式的本体学习方法。 ( 1 ) 基于文本的本体学习方法 此方法是本体学习的基本方法和主要方法,是本体学习研究中的重点。它主 要包含基于模式抽取、关联规则、概念聚类、本体修剪和概念学习。a g u i r r e 方 法是由a g u i r r e 等人提出来的,目的是使用w e b 页上可以检索的文本进行丰富现 有本体中的概念【1 9 】。g u p t a 方法主要依据领域相关的文档,使用迭代方法开发的 过程来维护w o r d n e t 语言本体【2 0 l 。h a h n 方法是基于自然语言文本理解通过增量 本体学习方法来丰富和维护领域分类关系【2 l 】。h e a r s t 方法是基于模式的,期望从 已有本体中学习概念间的关系【2 2 】。 ( 2 ) 基于半结构化数据的本体学习方法 是依据预先定义好结构模式的数据源文档进行本体学习的方法。d e i t e l 等人 提出了从r d f 注释的w e b 资源中学习本体的方法,目标是从全局r d f 图中学 习新的领域概念来丰富用于注释r d f 的本体【2 3 1 。欧盟u n i v e r s a l 项目开发的 本体学习方法p a p a t h e o d o r o u 方法,使用数据挖掘计算来建立分类关系。v o l z 方 法是由v o l z 等人在2 0 0 3 年提出来的,试图通过规则将非终结符和终结符翻译为 本体的概念和角色从而获取x m l 模式的语义信息【2 4 】。 ( 3 ) 基于关系模式的本体学习方法 把一个关系模式转换成一个概念模型,并且新产生的模式和原始的模式具有 相同的信息量,这是j o h a n n e s s o n 方法。k a s h y a p 方法是k a s h y a p 等人在1 9 9 9 年开 发i n f o s l e u t h 项目时提出来的,使用s c h e m a 来建立领域本体,然后根据用户感 兴趣的查询来进一步完善本体。 ( 4 ) 基于字典的本体学习方法 r i g a u 等在开发e u r o w o r d n e t 项目时提出s e i s d 方法,目的是从某种欧洲语 言中学习词汇本体。它以半结构化数据例如字典等作为语料资源输入,通过分析 字典的定义而学习词条间的关系,例如上下位关系及部分整体关系,因而获得 单语言或多语言词汇知识。s e i s d 方法包含两个阶段:先识别定义中的类属特征, 基于t e x t 2 0 n t o 的中文本体学习技术研究 再对这些词条进行语义消歧。 ( 5 ) 基于知识库的本体学习方法 s u r y a n t o 和c o m p t o n 提出了一种从知识库中获取本体的方法2 5 1 ,其核心思 想就是将所有的规则组成一些类,每一个类是一些具有相同结论的不同规则的路 径的集合。 2 2 本体学习工具综述 2 2 1 本体学习工具简介 本体学习系统即本体学习工具的输入可以是各种类型的数据源。在系统中, 首先应用预处理模块先对数据源进行预处理;接着,学习模块使用算法库中的种 种学习算法从上一步的结果中获取本体;把学习结果作为候选本体交给用户;用 户使用评价编辑模块对该候选本体进行评价及确认,并把最终的结果添加到本 体库中。整个学习过程是在用户参与下的半自动的本体构建过程。这些学习工具 在本体获取的过程中一般需要参照已有的本体。现在,一些学习算法已提出可利 用已有的本体作为背景知识,来提高本体学习的精确度。此外,如果在本体学习 之前已存在一个初步的本体,则在将本体学习结果添加到其中时,还要考虑到新 添加的知识和已有的知识是否一致等问题,这个问题就涉及到本体的演化 ( e v o l u t i o n ) ,这是本体学习的又一个研究方向。 2 2 1 本体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO/IEC 24791-5:2025 EN Information technology - Radio frequency identification for item management software system infrastructure - Part 5: Device interface
- 酒店员工培训课程
- 酒店公寓消防安全
- 语言赏析方法
- 钢筋间距检查方法
- 纸板创想成型方法
- 2025-2026学年北京市房山区初二政治上册期中考试试卷及答案
- 招聘外包协议书
- 孕妇营养漫画指南
- 2025版肾结石症状及护理要点详解
- 2024年初中七年级英语上册单元写作范文(新人教版)
- 腺样体病人的护理
- 2025年10月自考13887经济学原理中级押题
- 2019-2023年北京市中考真题数学试题汇编:圆解答题(第24题)
- 国际经济与贸易《国际结算》课程教学大纲
- 11 第十一章 不停航施工方案与措施
- 医院卒中中心建设各种制度、流程汇编
- 1.1船舶电力推进系统的组成课件讲解
- DB46-T 610-2023 浮式深水养殖网箱锚泊系统及安装技术规范
- JTJ034-2000 公路路面基层施工技术规范
- 福建游神介绍英文
评论
0/150
提交评论