(计算机科学与技术专业论文)基于关系数据库的本体半自动构建研究及实现.pdf_第1页
(计算机科学与技术专业论文)基于关系数据库的本体半自动构建研究及实现.pdf_第2页
(计算机科学与技术专业论文)基于关系数据库的本体半自动构建研究及实现.pdf_第3页
(计算机科学与技术专业论文)基于关系数据库的本体半自动构建研究及实现.pdf_第4页
(计算机科学与技术专业论文)基于关系数据库的本体半自动构建研究及实现.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机科学与技术专业论文)基于关系数据库的本体半自动构建研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

filffjfjjj|jfijffjf y 17 8 8 3 4 1 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:签堑丝 导师签名: 一期: 一j 氏 1 摘要 随着互联网络的高速发展和广泛应用,w e b 服务作为一种新兴的w e b 应用 模式也得到了长足的发展,其数量与日俱增,如何提高服务的查准率与查全率, 最大限度的满足用户的需要成为迫切需要解决的问题。另一方面随着对语义本 体的理论研究和实践的日益深入,本体已经进入了实用阶段,在人工智能、数 字图书馆、智能检索等多个领域得到了应用,并取得了良好的效果,所以将本 体与、e b 技术相结合构建基于本体的语义w e b 服务成为了必然趋势。 语义w e b 服务需要领域本体作为支撑,而传统的手工建设本体的方法需要 大量的人力物力参与且周期长、效率低下。虽然现在有成熟的本体编辑工具供 使用,但本体构建者还是要面对浩大的词汇量的输入与关系筛选。本文正是基 于这样的背景来研究如何快速高效的建设领域本体的。 本文在分析研究实验室现有的关系数据库的基础上,完成了从数据库到本 体的自动构建过程,主要做了三方面工作: ( 1 ) 详细分析了数据库的关系模式和本体模式的异同点,结合实验室数据库 的实际情况制订了从关系模式到本体模式的转化规则,并制定了规则执行流程。 然后比较了现有的几种本体形式化表达语言,最终选择了对语义表达和推理都 支持较完备的o w l 语言,完成了局部领域本体生成。 ( 2 ) 本文分析了本体中概念概念,概念属性,概念实例之间的关系,在研 究已有成果的基础上,提出了一种新的本体映射算法,在这种算法中不再简单 的计算概念的相似度,而是借助于w b r 心e t 直接定位概念的层次关系,然后在 此基础上完成了本体概念之间的层次关系聚类。 ( 3 ) 分析本体概念在聚类过程中可能产生的各种层次关系异常,并提出了解 决办法,最终生成了全局领域本体。 关键词关系数据库;领域本体;本体集成 北京t 业大学t 学硕十学位论文 a b s t r a c t a b s t r a c t w i t l lt h ee x t e n s i v eu s ea n dm 曲一s p e e dd e 、7 e l o p m e n to ft 1 1 e1 1 1 t e m e t ,w e bs e n r i c e , an e ww e ba p p l i c a t i o nm o d e l ,h a sa l s ob e e nc o n s i d e r a b l ed e v e l o p e d 1 1 1 c r e 2 u s i n gi n t h e i rn 啪b e r ,h o wt oi m p r o v es e r v i c e s p r e c i s i o ni i lr e t r i e v i n g 甜l dr e c a l lr a t i o ,a 1 1 d s a t i s 匆c u s t o m e r sn e e d sm a x i m a l l yi sa nu 唱e mp r o b l e m i i la d d i t i o nt on d e p m m e o d ,r e s e a r c ha n dp r a c t i c ei nt 1 1 es e m a n t i co n t o l o g ) ,d a yb yd a y ,o n t o l o g ) rh a s e n t e r e dt l l e p r a c t i c a ls t a g e i t sa p p l i c a t i o n s i i la n i f i c i a l h t e l l i g e n c e ,d i g i t a l l i b r a r y i n t e l l i g e n ts e a r c h ,e t c ,h a v ea c l l i e v e de x c e l l e n te 妇昆c t s s ot h ec o m b i n a t i o n o fo n t o l o g ya n dw e bt e c h n 0 1 0 9 yi nb u i l d i n go n t o l o g y - b a s e ds e m a n t i c 、w bs e r v i c e h a sb e c o m ea ni n e v i t a b l en e n d s e m a n t i cw e bs e n ,i c en e e d st h es u p p o r t so fd o m a i no n t o l o g y ,w m l e 也e 把a d i t i o n a lm a n u a lm e t h o do fo n t 0 1 0 9 yc o n s t n l c t i o nr e q u i r e sal o to fm a i l p o w e ra 1 1 d r e s o u r c e s 谢mt h el o n gc y c l ea 1 1 dl o we 伍c i e n c y 触t h o u 曲t h e r ea r en o ws o m e1 1 i c e o m 0 1 0 9 ) ,e d i t i n gt 0 0 1 s ,o m o l o g ) rb u i l d e r ss t i l lh a v et of 配et h ev a s tv o c a b u l a r yi n p u t a 1 1 dt h er e l a t i o i l s h i pf i l t e r t h i sd i s s e n a t i o ns t u d i e sh o wt oc o n s t n l c td o m a i no n t o l o g y f i a s ta n de 伍c i e n t l y0 na b o v eb a c k g r o 啪d b a s e do nt h ea n a l y s i sa n dr e s e a r c ho ft h ee x i s t i n gr e l a t i o n a ld l t a b a s ei nt h e l a b o r a t o r y ,a n 乱l t o m a t i cc o n s t r i l c t i o np r o c e s s 自o md a t a b a s e t o o n t o l o g y i s c o m p l e t e d ,m a i l l l yi n c l u d i n gt h eb e l o w m r e ea s p e c t s : ( 1 ) a r e rd e t a i l e da 1 1 a l y z i n gs i i i l i l 撕t i e sa n dd i 髓r e n c e sb e 觚e e nt l l ed a t a b a l s e m o d e l a n dt h eo m 0 1 0 9 ym o d e l ,a 1 1 dc o m b i l l i n gw i t ht 1 1 e r e a l i 锣o fl a b o r a t o r y d a t a b a s e ,t h et r m s f o m a t i o nm l e sf 而mr e l a t i o m lm o d e l t oo n t o l o g ym o d e la n dt h e i m p l e m e n t a t i o np r o c e s sr e g u l a t i o n sh a v eb e e ne s t a b l i s h e d a r e rc o m p a r i s o no f 也e s e v e r a lc u i t e n tf o m a lo m o l o g yl a n 母l a g e s ,o w ll a i l g u a g e ,w h j c hs e m a i l t i c r e p r e s e n t a t i o na i l dr e a s o i l i l 培i ss u p p o r t e dc o m p r e h e 玎s i v e l yi sc h o s e nf m a l l y ( 2 ) t h er c l a t i o n s l l i pb e t 、v e e nc o n c e p t s c o n c e p t s ,c o n c e p t s 一枷b u t e s ,c o i l c e p t s - i n d i v i d v a l so fo m o l o g yi sa n a l y z e d 1 1 1b a s i so ft h ee x i s t i n gr e s u l t s ,an e wo m o l o g y m a p p i n ga l g o r i t h j ni sp r o p o s e d i k sa l g o r i 伽:ni sn 0l o n g e ras i i i l p l ec a l c u l a t i o no f t h ec o n c e p ts i m i l 撕劬b u tt a r g e t i i l gt 0t h e1 1 i e r a r c l l i c a lr e l a t i o n s h i po fc o n c e p tw i t h t l l eh e l po fw r o r d n e td i r e c t l y ,a n dt h e1 1 i e r a r c l l i c a lr e l a t i o n s m pc l u s t e r i n gb e t 、) ,e e nt l l e o n t o l o g yc o n c e p t si sc o m p l e t e d ( 3 ) t h ea _ b n o n n a lr e l a t i o i l sb e 帆e e nt l l ev 撕o u sl e v e l sa r i s i n g 舶mt h ec l u s t e 血g a r ea n a l y z e da n dt 1 1 es o l u t i o n sa r ep r o p o s e d a n dag l o b a ld o m a i no n t o l o g yi s i i i 北京t 业大学工学硕十学位论文 c r e a t e da tl a s t k e y w o r d sr e l a t i o n a ld a t a b a s e ;d o m a i no n t o l o g y ;o n t 0 1 0 9 yi n t e 铲a t i o n 目录 目录 摘要i a b s t 陷c t i 第1 章绪论1 1 1 研究背景1 1 1 1w e b 服务技术的发展与面临的问题1 1 1 2w e b 服务技术和本体的结合2 1 2 国内外研究现状2 1 2 1面向结构化数据的本体构建技术2 1 2 2 面向非结构化数据的本体构建技术4 1 2 - 3 面向半结构化数据的本体构建技术一5 1 3 本文研究的内容6 1 4 论文结构7 第2 章本体9 2 1 本体概念9 2 2 本体分类9 2 3 本体描述语言1 1 2 4 本体构建方法一13 2 4 1 本体构建准则13 2 4 2 本体创建方法1 4 2 5 本体解析与验证工具1 7 2 6 本章小结18 第3 章局部领域本体的生成19 3 1 关系模型1 9 3 1 1 关系模型的形式化定义1 9 3 1 2 关系模型的构成1 9 3 2 本体模型2 0 3 2 1本体模型的形式化定义2 0 3 2 2 两种模型的比较:- :? 2 2 3 3 本体描述语言o w l 2 2 3 4 本体抽取2 4 3 4 1 两种模式转化规则一2 4 3 4 2 模式转化流程2 9 3 5 本章小结3 2 第4 章基于w b r d n e t 的局部领域本体集成3 3 4 1 本体集成概述一3 3 4 2 基于w b r d n e t 的本体集成3 3 4 - 2 1w o r d n e t 介绍3 3 4 2 2 本体映射3 5 4 2 3 本体聚类与集成3 9 4 - 2 4 本体集成实验4 0 4 3 本章小结4 1 v 北京t 业大学t 学硕士学位论文 第5 章基于关系数据库的本体自动构建系统实现4 3 5 1实验室现有数据库分析4 3 5 2 系统开发环境4 3 5 3 系统实现4 3 5 3 2 本体集成模块实现4 5 5 4 系统演示一4 8 5 4 1人工生成局部领域本体方式4 8 5 4 2 人工完成本体聚类分析4 9 5 5 结果分析5 0 5 5 本章小结5 0 结论5 1 参考文献5 3 攻读硕士学位期间发表的学术论文5 7 致谢5 9 v l 第1 章绪论 1 1 研究背景 第1 章绪论 1 1 1 w e b 服务技术的发展与面临的问题 、e b 服务技术是随着互联网的发展而出现并不断发展、成熟的,并从集中 式发展到分布式【l j 。w e b 服务作为一种新兴的w e b 应用模式,是w e b 上信息和 应用集成的有效机制。 随着互连网络的高速发展和广泛应用,各种功能的、e b 服务不断出现,其 数量也日益俱增。但是与此同时,如何正确、高效地从如此众多的w e b 服务中 找到自己所需的服务则变得越来越具有挑战性。 面对以上两个问题传统的w e b 服务发现技术存在多种技术缺陷,制约着 w e b 服务的发展。主要体现在以下方面【1 j 【2 j : ( 1 ) 以语法性的语言描述的、e b 服务,主要是面向用户直接阅读的,不利 于计算机直接阅读和处理。 ( 2 ) 不同团体或个人对同一领域事物的认识和表示往往不同,使得来自服 务提供者与服务请求者关于同一w e b 服务的描述存在着差别,这种认识上的差 异所产生的w e b 服务描述差异具体表现在:( a ) 不同的服务描述使用多种术语或 者词汇表达同一概念;( b ) 同一概念在不同的服务描述中表达不同的含义;( c ) 各 服务描述使用不同的结构来表达相同或者相似的信息。 ( 3 ) 以关键字匹配p j 方式为主的检索,根据所发布服务描述中是否包含请求 查询中的关键词来返回结果,由于许多不相关的服务也会在它的描述中包含查 询关键词,在检索的结果中往往会出现很多不相关的、e b 服务,随着服务数量 的增大,检索的准确率也越低。同时这种关键字匹配的方法,查询关键词与发 布服务描述中的关键词可能是语义相同但是非语法相同的,遗漏了大量与检索 概念同义或相关的内容信息,因此检索在查全率方面不高,难以达到期望效果。 ( 4 ) 服务的检索只是对服务功能描述的关键词匹配,无法充分反映服务所 提供服务的功能信息,造成服务检索结果不理想。 ( 5 ) 用户的需求可能需要数个服务协同合作共同完成,传统w e b 服务缺乏 对若干服务进行有效组合的机制。 北京t 业大学t 学硕士学位论文 1 1 2 w e b 服务技术和本体的结合 近些年来语义本体技术在理论研究和实践中得到了长足的发展,并且在电 子工程、远程教育、电子商务、智能检索、数据挖掘等多个领域得到了广泛的 应用。将、v e b 服务技术和本体相结合构建语义、e b 服务可以有效解决上面所阐 述的w e b 服务技术所面临的问题,主要体现在以下几个方面; ( 1 ) 语义w e b 服务将所发布的服务进行语义标注,从语法描述改进为语义描 述,便于计算机的理解,使本体成为人机、机机交互的桥梁1 4 j 【5 儿6 1 。 ( 2 ) 服务发现中不再是关键字的匹配而是语义匹配,使服务发现更智能化, 有效的提高服务发现的查全率和查准率。 ( 3 ) 基于本体的语义、e b 服务发现支持服务之间的相似度计算,当无法找到 完全满足需求的服务时,可以列出一个或数个与用户需要的服务最接近的服务, 供用户选择,最大化的满足用户需求。 以上所述表明,本体是解决w e b 服务发现中诸多问题的有效途径,然而传 统的手工构建本体的方法需要大量的人力物力的参与并且周期长、效率低。本 文就是研究如何以自动化半自动化的方式快速高效的构建本体,以用来为w 曲 服务发现提供支撑的。 1 2 国内外研究现状 如何利用知识获取技术来降低本体构建的开销是一个很有意义的研究方 向,国内外在该方向的研究很活跃,把相关技术称为本体学习( o m o l o g yl e 锄i n g ) 技术【7 j 【8 】【9 】,目标是利用机器学习和统计学等技术自动或半自动的从已有的数据 源中获取期望的本体。现实世界中的数据种类很多,例如关系数据库、纯文本 以及x m l 或h t m l 等格式文件,大部分都可以作为本体构建的数据源。针对 不同类型的数据源需要采用不同的本体构建技术,本文根据数据源的结构化程 度,将本体构建技术分为3 大类【lo 】:基于结构化数据的本体构建技术、基于非 结构化数据的本体构建技术和基于半结构化数据的本体构建技术。 1 2 1 面向结构化数据的本体构建技术 结构化数据主要是指关系数据库或面向对象数据库中的数据。经过数十年 的发展,数据库已经在很多行业的信息管理领域得到了广泛的应用【1 1 1 ,并且这 些数据库中的数据大都是面向领域的,为构建面向领域的本体提供了良好的数 据源。 2 第1 章绪论 目前各种主流数据库大都采用了关系模式,关系模式建立在严格的数学概 念的基础上,但表现形式却是采用结构简单的二维关系表格,很容易被人们理 解。与关系模型相比,本体模型能够表达更多的语义、结构也更为复杂。所以, 这类本体的构建需要把更多地精力投入到分析关系模型中蕴涵的语义信息中, 将其映射到本体中相对应的部分。 在关系模型中,实体以及实体间的联系都是用关系表来表示的。所以,首 先必须区分出哪些表是用来描述实体的,哪些表是用来描述实体间的联系的, 才能区分所获取的是概念还是概念间关系,然后才能将实体信息映射为本体中 的概念,将联系信息映射为本体中的关系。关系型数据库的逆向工程技术 ( r e l a t i o n a ld a t a b a s er e v e r s ee n g m e e r i n g ) 就是为了获得关系模型的语义结构并 对其重新设计而提出的技术。例如,1 9 9 4 年p a u lj o h 锄e s s o n 【1 3 】提出将关系模 型转换为一个概念模型,并且证明了生成的概念模型在信息包含能力上可保证 正确性,即可表达与源模式同样内容包含能力的信息。2 0 0 2 年,s t o j a j l o v i c 【1 4 】 等人通过考察数据库中的表、属性、主外键和包含依赖关系,给出了一组从关 系模型到本体( 逻辑框架) 的映射规则。 实际上,一种更为可行的方法是分析数据库中的元组,得到更多隐含的语 义信息。2 0 0 4 年,a s t r o v a 【1 5 】已经通过对元组的分析,得到了概念间的“继承 关系。一些基于关系数据库的数据挖掘技术还可应用来为构建本体服务,例如 概念层次发现等,来改进这类本体构建技术。 公理是本体的一个重要元素。目前,关于公理获取的研究成果还是非常少 的。现有的研究主要集中在对关系模式进行语义分析,从而获取构建本体所需 的概念和关系。 值得强调的是,上述方法的前提都是已知数据库的模式信息,然而在很多 情况下,这些信息无法直接获得。2 0 0 4 年,a s 仃o v a 等人提出由于h t m l 表格 是w e b 上用户和数据库交互过程中最常用的界面,所以在无法获得数据库模式 信息的情况下,可以通过分析这些h t m l 表格的结构和数据来获取关系数据库 的语义,从而构建本体。总之,从关系数据库中学习本体仍然有很多工作可以 做。 在得到本体后如何对其修正和进化也是一个研究热点。为此,1 9 9 9 年 k a s h y a p 提出首先根据关系模式得到一个初步的本体,然后基于用户查询进一 步丰富该本体中的概念和关系。然后有专家对这些概念和关系进行修正和取舍, 这是个互动而反复的过程,将本体构建分为创建和精炼两个阶段。 相比于国外,国内对于本体学习理论的研究基本还处于起步阶段,研究内 容与国外基本相似,许卓明提出了从e r 模型到o w ld l 的本体语义翻译方法, 该研究主要目标就是实现数据库与本体之间的语义互操作,通过关系模式和本 3 北京t 业大学t 学硕1 j 学位论文 体模式之间建立映射规则来实现,这些规则保证了模式之间的语义保持。曹泽 文等提出了一种非常类似于s t o j a i l o v i c 方法的从关系数据库到框架逻辑f 1 0 9 i c 本体的转换方法。王洪伟等学者提出了“面向关系模式的领域本体获取方法 【阚,。基于逆向工程的领域本体开发方法【17 】”,“本体模型的逆向获取研究 【1 8 】 等等。 1 2 2 面向非结构化数据的本体构建技术 非结构化数据是指没有固定结构的数据,目前,基于非结构化数据的本体 构建技术的研究主要集中在对纯文本数据的分析。纯文本依据一定的造句法表 达特殊的语义,使得读者可以基于一些背景知识来理解其中的含义。然而,由 于缺乏一定的结构,机器很难自动地理解纯文本并从中抽取出所需要的知识。 这就需要利用自然语言处理州l p ) 技术对其预处理,然后利用统计学、机器学习 等手段从中获取知识。对于概念的获取,现有的方法可以分为3 类: ( 1 ) 基于语言学的方法 基于语言学的方法【1 9 】主要根据自然语言特点与领域概念的特殊词法结构或 模板,寻找和抽取结构符合这些特定模板的字符串。 ( 2 ) 基于统计学的方法 基于统计学的方法 2 0 】f 2 】主要根据领域概念与普通词汇拥有不同的统计特 征( 例如,领域相关性和领域通用性) ,以鉴别出领域概念。 ( 3 ) 混合方法 混合方法是结合语言学和统计学的方法。 对于概念间关系的获取,常用的方法有:基于模板的方法、基于概念聚类 的方法、基于关联规则的方法、基于词典的方法或者这些方法的混和。 ( 1 ) 基于模板的方法【2 2 j 是指通过分析领域相关文本,总结出一些频繁出现的 语言模式作为规则,然后判断文本中词的序列是否匹配某个模式,如果匹配, 则可以识别出相应的关系。 ( 2 ) 基于概念聚类的方法是利用概念之间的语义距离,对概念进行聚类。这 样,同一类簇中的概念具有语义近似的关系。d f a u r e 【2 3 】的方法采用基于分层 的概念聚类法,在这种方法中首先选择了一些词语固定搭配,这些搭配都由动 词加介词的形式构成。该方法包含两个步骤:概念化和聚类。l k h a l l 等人【2 4 1 使用聚类技术和w 6 r d n e t 从文本文档创建领域本体,采用自底向上的构造方式。 首先,使用一些聚类技术创建文档的继承结构,并确定它在整个继承结构中的 具体位置。然后,利用w b r d n e t 和主题跟踪算法,为层次结构中的每个文档聚 类分配适当的概念,从而形成本体。 4 第1 章绪论 ( 3 ) 关联规则挖掘的方法常用于获取概念间的非分类关系,其基本思想是: 如果两个概念经常出现在同一文档( 或同一段落与句子) 中,则这两个概念之间 必定存在关系。a m a e d c h e 等人1 2 5 】开发了基于关联规则方法的本体生成工具 t e x t 2 0 n t o 。该工具是一个集成环境,首先生成一个初始领域本体。这个本体中 包含特定领域的和与该领域无关的概念。领域无关的概念将被去除,以保证领 域本体内的术语能适应领域应用的需求。这种生成本体的方法的整个过程需要 与领域专家交互进行,学习过程需要循序渐进。 ( 4 ) 基于词典的方法往往根据一些机器可读的词典中定义的同义词、近义词 和反义词等知识来获取本体中概念以及概念之间的关系。j j a n n i n k 等人【2 6 】通过 将词典数据转换为图结构来支持领域本体的生成。词典中的词称为中心词,词 的解释称为定义文本。使用词典进行本体生成方法的一个优势就是能够很容易 区分字典的中心词与定义文本,这便提供了额外的信息用以分析中心词的类型。 1 2 3 面向半结构化数据的本体构建技术 半结构化数据是指具有隐含结构,但缺乏固定或严格结构的数据【2 7 】。w e b 中的半结构化数据很多,例如广泛存在于网页中的x m l 格式和h t m l 格式 的数据,以及它们遵循的文档类型定义( x m ls c h e m a 或d t d ) ,由于这类数据 介于结构化和非结构化数据之间,具有两种数据类型的部分特点,所以这类数 据源也可以应用基于上述两种数据类型的本体构建技术来处理。例如, p a p a t h e o d o r o u 【2 8 j 等人给出的从l 或r d f 格式的文档中获取概念问分类关系 的方法,就是首先抽取文档的关键字,然后基于这些关键词使用聚类技术,将 文档集分成不同的组别,保证同组内的文档内容是相似的;接着,使用统计学 的方法选出最能表达每组文档内容的关键词;将这些关键词作为本体中的概念, 并根据先前聚类的结果给出概念间的关系分类。由于半结构化数据通常具有隐 含的结构,比如x m l 和h t m l 文档都会遵循一定的标签结构,所以在获取本 体的过程中,可以利用这些隐含的结构信息来改善本体学习的结果例如在进行 领域概念抽取时,可以根据文档中的标签区分概念出现的位置,然后通过在传 统的统计学公式上增加关于位置信息的权重来提高概念抽取的准确度。 对于模式语言( 例如x m ls c h e m 或d t d ) ,通常认为这些数据描述了x m l 等数据的层次结构的逻辑模型,所以可以利用一些映射规则将其语义信息映射 到本体中,现有的方法可以分为两类:一类是基于学习的方法,即利用一些自 学习的手段自动获取,例如k a v a l e c 【2 9 j 等人重点研究了利用机器学习方法自动 地得到映射规则;另外一类是基于预定义规则,即用户预先给出了一些规则, 例如,d o a n 【3 0 j 等人和m e l l o 【3 l j 等人使用预定义的规则,从d t d 中提取语义信息 北京t 业大学1 = 学硕j j 学位论文 生成相应的概念模式,然后对这些概念模式进行语义集成得到本体。 实际上,机器可读的词典( m r d ) 也是一种特殊的半结构化数据。对于它们 通常使用基于语言学的方法和基于模板的方法。例如:l i t k o w s b 【3 2 1 通过对词典 中每个定义的分析,获取概念之间的分类关系;础g a u 【3 3 】等人使用一组预定义的 词典语法模板自动地从词典中发现词与词之间的层次关系。 1 3 本文研究的内容 本文鉴于实验室有较完备的面向教育领域的关系数据库,而课题组需要的 本体也是教育领域本体,所以选取了以结构化数据为研究对象,提出了将关系 模式信息转换为本体模式信息的局部本体自动构建方法。首先制定了一组两种 模式的转化规则,基于规则将复杂的结构化数据的模式信息转换成语义信息, 然后充分利用通用本体库w b r d n e t 中的语义信息,挖掘局部领域本体中隐含的 概念间的语义关系,完成本体概念之间的映射与聚类,然后对聚类结果进行分 析,最终完成符合o w l 语法的本体各元素的形式化描述定义的全局领域本 体。本文针对这两个构建阶段进行了深入的探讨和分析。研究工作的具体内容 如下: ( 1 ) 基于规则的关系模式到本体模式的转化 本文首先给出了关系模式和本体模式的形式化定义,然后在此基础上分析 了这两种模式的异同点,为规则的制定提供了前提;然后详细分析了所选取的 本体形式化描述语言o w l ,最后在国内外现有研究成果的基础上结合本实验室 数据库实际情况提出了从关系模式信息直接到o w l 语言描述本体信息的转化 规则,主要包括概念、属性、实例、基数的提取。然后根据这些规则的前提条 件和相互依赖关系,确定了规则的执行顺序和整体的规则执行流程。 ( 2 ) 局部本体中的概念映射与聚类 本文研究了前面所生成的本体中的概念概念,概念属性,概念实例之间 的关系,在研究已有成果的基础上,提出了一种新的基于概念语义相似度的本 体映射算法,在这种算法中不再简单的计算概念的相似度,因为这种方法使后 续的聚类与集成效率较低且需要太多的人工参与,本文借助于w b r d n e t 直接定 位概念的层次关系,然后在此基础上完成了本体概念之间的层次关系聚类。 ( 3 ) 在本体聚类基础上的本体集成 本体概念在聚类过程中可能产生的各种层次关系异常,这些异常会使本体 概念的层次关系和整体部分关系发生絮乱,造成在本体上推理的逻辑错误和死 循环。然后提出了异常的解决办法,最终生成了全局领域本体。 ( 4 ) 基于关系数据库本体自动构建系统的实现 6 第1 章绪论 根据前面所述研究方设计了本体自动构建的原型系统并编码实现。 1 4 论文结构 本文共分五章。 第1 章首先介绍了课题的研究背景及意义,总结了目前国内外本体学习关 键技术的研究现状,对基于三种数据源的本体自动构建都做了较详细的阐述。 第2 章介绍了本体的发展历程,本文给出了得到广泛认可的本体定义,然 后对目前较流行的几种本体形式化描述语言做了简要阐述,接着总结了本体构 建应遵循的五条基本规则,最后对本体的解析工具j e n a 进行了介绍。 第3 章分析了关系模式和本体模式的异同点,然后提出了一组两种模式的 转化规则,并根据这些规则的优先级别制订了详细的规则执行流程,生成了局 部领域本体。 第4 章在前面章节所述的生成的零散本体的基础上,提出了本体概念的映 射算法,完成了本体概念聚类,并分析了概念在聚类过程中可能出现的逻辑错 误,并提出了解决办法,最终生成了全局领域本体。 第5 章介绍了系统的实现部分,首先介绍了系统实现的软硬件环境,然后 结合课题实际需要,对本体模式转化和本体概念聚类两个阶段都实现了两种实 现模式:人工模式和自动完成模式。用户可以根据实际情况选取一种。 最后是结论部分,对全文进行了总结,并提出将来进一步的工作展望。 7 北京t 业大学t 学硕上学位论文 8 第2 章本体 2 1 本体概念 第2 章本体 本体( o m o l o g y ) 的概念最初起源于哲学概念,原意是指关于存在及其本质和 规律的学说,定义为“对世界上客观存在物的系统地描述,即存在论【3 4 】,是对 客观存在的一个系统的解释和说明,用于研究客观世界本质。随着科技与时代 的进步,本体已经被广泛应用于各个领域,包括计算机科学、电子工程、远程 教育、电子商务、智能检索、数据挖掘等在内的诸多领域,不同领域的研究人 员对本体给出了许多不同的定义。在人工智能领域本体被定义为“给出构成相 关领域词汇的基本属性和关系,以及利用这些属性和关系构成的规定这些词汇 的规则的定义【3 4 j ,。其中最为著名的是由t r g m b e r 提出,后被r s t u d e r 精化的 定义:“本体是概念模型的明确的规范说明【3 5 】【3 6 】,( a no n t 0 1 0 9 yi s a ne x p l i c i t s p e c i f i c a t i o no fac o c e p t u l a i z a t i o n ) 。这个定义包括4 层含义1 3 7 】: ( 1 ) 概念化:通过抽象出客观世界中一些现象的相关概念而得到“概念模 型”;“概念模型”指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念 而得到的模型。概念模型所表现的含义独立于具体的环境状态。 ( 2 ) 明确:所使用的概念及使用这些概念的约束都有明确的定义。 ( 3 ) 形式化:本体是计算机可读的。 ( 4 ) 共享:本体中体现的是共同认可的知识,反映的是相关领域中公认的概 念集。 除上述定义以外,不少研究者从各自的领域和研究角度出发,对本体又给 出了各种各样的定义。这些定义之间是相互补充的,并且不断扩充本体的应用 范围。它们有一个共同点,即都包含g m b e r 定义中所指出的事实:“本体是反 映客观存在的概念模型,是对概念模型的明确描述”。总之,从本体的内涵上来 看,不同研究者对于本体的认识是统一的,都把本体当做领域( 可以是特定领域 的,也可以是更广的范围) 内部不同主体( 人、机器、软件系统等) 之间进行交流( 对 话、互操作、共享等) 的一种语义基础,提供对该领域知识的共同理解,确定该 领域内共同认可的词汇,即由本体提供一种明确定义的语义共识。 2 2 本体分类 根据目前出现的各种各样的本体,出现了不同的分类方法,以下两种所使 用的最为广泛。 9 北京i 业大学i 一学帧士学佗论文 ( 1 ) 根据已有的文献,如图2 1 所示,按照应用领域的不同可以大致将本体 划分为以下四类【3 4 】: 涉及具有普遍意义的客观世界的常识的本体称为顶级本体、上层本体或 通用本体( g e n e r a l o ru p p e ro n t o l o g y ) 。 涉及特定学科领域的本体称为领域本体( d o m a i no n t o l o g ) r ) 。 涉及问题求解的本体称为问题、方法或问题求解本体或应用本体 ( p r o b l e m s o l v e do m o l o g ) r a p p l i c a t i o no n t 0 1 0 9 y ) 。 涉及知识表示语言的本体,称为表示本体( 元本体) 或宏本体 ( r e p r e s e n t a t i o no n t o l o g y m e t a - o n t o l o g y ) 。 图2 1 本体层次结构图 f i g u r e 2 1t h es t r u c t u r eo fo n t o l o g yg r a d e 上层本体或通用本体、顶级本体,划分了存在于客观世界的实体的不同种 类。具有普遍意义的观念在这类本体中得到了表示,这些观念不依赖于特定的 问题或者领域。在这类本体中,被定义的知识可以跨学科应用。这些知识还包 括与事物、事件、时间、空间和地区等相关的词汇表。 领域本体是专业性的本体。在这类本体中被表示的知识是针对特定学科领 域的。这类本体描述的词表,关系到某一学科领域,如生物分类、化学元素周 期表等。它们提供了关于某个学科领域中概念的词表以及概念之间的关系,或 者该学科领域的重要理论。 由于本体的概念、属性、实例都来自于自然语言,而自然语言的最大特点 就是它的多义性,自然语言中相同的词汇在不同领域可能有着不同甚至相反的 语义,而词汇之间的关系在不同领域也不甚相同。因此只有建立某个领域内的 l o 本体即领域本体才有实用价值。 应用本体描述了既依赖于某个特定领域又依赖于某项课题的知识。因此, 这类本体与解决问题的方法相关联。 元本体是指在一个特定的知识表示体系中,用来获取对知识进行形式化的 表达的词根( l e x o n ) 本体。 ( 2 ) 按照本体表示的形式化程度对现有的本体进行分类,本体分为四种类 型: 完全非形式化:知识表示完全采用自然语言来表达,如爱丁堡大学企业 项目中的e n t e 印r i s eo n t o l o g y 自然语言版。 结构非形式化:采用受限制的或结构化的自然语言表示,以减少二义性。 例如e n t e 印r i s eo n t o l o g ) r 的中文版本和w r o d m o wm a i l a g e m e n tc l a l i t i o n 推出的 工作流术语汇编。 半形式化:用一种人工定义的形式化语言表示,例如大部分采用 o n t o l i n g u a 描述的本体。 形式化:所有术语都具有形式化的语义,并能在某种程度上证明包括一 致性和完整性等方面的属性,这也是本文所生成的本体所采用的类型。 2 3 本体描述语言 目前,本体描述语言主要有基于逻辑的、基于框架的和基于标记语言的三 种。其中,基于逻辑的描述方法以一阶逻辑为代表,基于框架的主要有框架逻 辑,基于标记语言的表示方法有:i m f ,儿等。经常被使用的本体表示语言 大都以框架模型、谓词演算或两者相结合为基础,最具代表性的有f , o n t 0 1 i n g u a ,o i l ,o w l 等。还有另外一种本体的表示方法就是用图来表示本 体,典型例子是w - o r d n e t 。 ( 1 ) f f ( k n o w l e d g ei n t e r c h a l l g ef o m a t ) 吲是一种称为知识交换格式的知识描述 语言,它的研究重点是语言的表达能力。妍的3 个基本的概念类为对象、函 数和关系,采用模型论语义。其基本本体包含数、集合和序列表等,提供了函 数和关系定义操作符,支持函数和关系的属性表示,支持元知识的表示,也支 持单调和非单调推理规则的表示。 ( 2 ) o n t o l i n g u a o n t o l i n g u a l 3 9 j 是一种基于知识交换格式k i f 而开发的本体语言,它可以提 供统一的规范格式来构建本体。f 的开发是为了解决知识表示中语言的异构 性问题。它可以用来定义对象、函数和关系,还可以提供元知识的表示和非单 北京t 业大学1 = 学硕l j 学位论文 调性的推理规则。o n t o l i n g u a 为构造和维护本体提供了一种统一的、计算机可 读的方式。由它构造的本体可以方便的转换到各种知识表示和推理系统( p r o f o g 、 c o 砌认的r o l 、c l i p s 、l o o m 等) ,从而将本体的维护与使用它的目标系统 隔开。目前,o m o l i n g u a 主要是作为本体服务器上提供的、用于创建本体的语 j l 一 日o ( 3 ) c y c l c y c l 语言是c y c 系统的描述语言,一种体系庞大而非常灵活的知识描述语 言。它在一阶谓词演算的基础上扩充了等价推理、缺省推理等功能,而且具备 一些二阶谓词演算的能力。它的语言环境中配有功能很强的可进行推理的推理 机,与其他表示语言不同的是c y c l 拥有非常庞大而又具有灵活表达能力的功 能特征集:常量( c 0 n s t a n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论