(计算机应用技术专业论文)基于英汉双语语料库的英汉双语ontology的建立与管理.pdf_第1页
(计算机应用技术专业论文)基于英汉双语语料库的英汉双语ontology的建立与管理.pdf_第2页
(计算机应用技术专业论文)基于英汉双语语料库的英汉双语ontology的建立与管理.pdf_第3页
(计算机应用技术专业论文)基于英汉双语语料库的英汉双语ontology的建立与管理.pdf_第4页
(计算机应用技术专业论文)基于英汉双语语料库的英汉双语ontology的建立与管理.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于英汉双语语料库的英汉双语ontology的建立与管理.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于英汉双语语料库的英汉双语o n t o lo g y 的建立与管理 摘要 随着i n t e r n e t 的迅猛发展,信息技术面临的种种挑战促成了建立o n t o l o g y 的热浪。通常,一个成熟本体的建立除了需要领域专家的参与外,还需要遵循 o n t o l o g y 的一系列构造准则和评估标准,成本十分高昂,其效果也不尽人意。 目前,国外已建立了许多比较成熟的英语o n t o l o g y ,国内也已有了比较完 善的英汉双语语料库,现在完全可以利用这些已经成熟的资源来建立为我们自己 所用的英汉o n t o l o g y 。 本文基于英汉双语语料库,实现了一种将英语o n t o l o g y 转化为我们自己所 用的英汉双语o n t o l o g y 的方法,使我们能够以较低的代价获得比较成熟的英汉 双语o n t o l o g y ,这必将带动我国o n t o l o g y 建设乃至其相关领域的飞跃发展。 第一章介绍o n t o l o g y 和双语语料库以及本课题的研究背景和研究目的。 第二章介绍o n t o l o g y 的一些重要概念,包括o n t o l o g y 的定义、分类、应 用、构建方法、开发支撑工具以及描述语言。 第三章介绍语料库和双语语料库的概念及各种句子、短语对齐技术,首先 回顾语料库的发展背景,然后比较双语语料库的各种句子、短语对齐技术的优缺 点,在此基础上引入本人对英汉双语语料库中短语对齐的改进工作,并利用四种 常见的数学模型建立了最优翻译等价对库。 第四章给出基于英汉双语语料库的英汉双语o n t o l o g y 的实现。利用最优翻 译等价对库,采用j e n a 解析r d f 描述的英文o n t o l o g y ,用j a v a 语言实现英文 o n t o l o g y 转换为英汉o n t o l o g y 。 第五章从实现方法的创新性、局限性及可以进一步开展的工作等方面做一 简单总结和展望 关键词:本体;双语语料库:r d f ;d e n a e s t a bis h m e n ta n dm a n a g e m e n to ft h ee n gi is h c hin e s e o n t o i o g yb a s e do nt h eb iii n g u a ic o r p u s a b s t r a c t o n t o l o g yh a sg a i n e dg r e a tp r o g r e s sw i t ht h ef a s td e v e l o p m e n to ft h ei n t e r n e ta n d t h ec h a n l l e g e sf a c e db yi n f o r m a t i o nt e c h n o l o g y u s u a l l y , o n t o l o g yi sc o n s t r u c t e d t h r o u g hf i e l de x p e r t sa n dm u s to b e ys e r i e so fo n t o l o g yr u l e se a c ho ft h e s em e t h o d s h a si t sl i m i t a t i o n al o th a v et ob ep a i df o rt h e s eo n t o l o g i e sa n dt h e ya r ea l w a y s u n s a t i s f i e d a sam a t u r et h i n g ,o n t o l o g yt e c h n o l o g ya b r o a d t o g e t h e r w i t hd e m e s t i c e n g l i s h - c h i n e s eb i l i n g u a lc o r p u s ,w i l lb e c o m et h ei m p o r t a n tr e s o u r s e st oc o n s t r u s t t h ee n g l i s h c h i n e s eo n t o l o g i e sf o ro u ro w n i nt h i sp a p e r , am e t h o dh a sb e e nr e a l i z e dt ot r a n s f o r me n g l i s ho n t o l o g yi n t o e n g l i s h c h i n e s eo n t o l o g y , s ot h a tw ec a nh a v ea ne n g l i s h c h i n e s eo n t o l o g yw i t h h i g hq u a l i t ya n dd r a m a t i c a l l yl o wc o s t c h a p t e r1g i v e sa l li n t r o d u c t i o nt oo n t o l o g ya n db i l i n g u a lc o r p u s ,a n dp r o v i d e s ab a c k g r o u n da n dam o t i v ef o rs t u d y c h a p t e r2g i v e ss o m ei m p o r t a n tc o n c e p t sa b o u to n t o l o g y , s u c ha so n t o l o g y d e f i n a t i o n ,o n t o l o g yt a x o n o m y , o n t o l o g ya p p l i c a t i o n s ,o n t o l o g yc o n s t r u c tm e t h o d s a n do n t o l o g yd e s c r i p t i o nl a n g u a g e c h a p t e r3g i v e ss o m ei m p o r t a n tc o n c e p t sa b o u tb i l i n g u a lc o r p u sa n dm e t h o d s a b o u ts e n t e n c ep a r a l l e la n dp h r a s ep a r a l l e l ,o b s e r v e sah i s t o r i c a lo v e r v i e w , c o m p a r e s t h em e r i t sa n dd e m e r i t so f s o m em a i n l yp a r a l l e lm e t h o d sa f t e rt h a t ,t h i sp a p e rg i v e sa b e t t e r e dm e t h o da b o u te n g l i s h c h i n e s ep h r a s ep a r a l l e la n dp r o p o s e dt oc o n s t r u c ta t r a n s l a t i o ne q u i v a l e n c e st a b l et h r o u g h4c o o c c u r r e n c eb a s e dm o d e l s c h a p t e r4s h o w sa ni m p l e m e n t a t i o no ft h et r a n s f o r m a t i o nb e t w e e ne n g l i s h o n t o l o g ya n de n g l i s h - c h i n e s eo n t o l o g yb a s e do nb i l i n g u a lc o r p u s ,w h e r et h e t r a n s l a t i o ne q u i v a l e n c e st a b l e ,j a v ap r o g r a ml a n g u a g e ,a n dj e n as e r v e sa sar d f p a r s e a r eu s e dt oi m p l e m e n tt h et r a n s f o r m a t i o n c h a p t e r5c o n c l u d e st h e s i sb ys t a t i n gt h ea d v a n t a g e s ,l i m i t a t i o n sa n df u r t h e r w o r k so f t h i sm e t h o df o rt r a n s f o r m a t i o nb e t w e e no n t o l o g i e s k e y w o r d s :o n t o i o g y :b i in g u a ic o r p u s :r d f :j e n a 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含未获得l 注;翅翌直基焦置要挂型直盟 的:奎拦互窒2 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 一二竺竺煎鳖竺竺二兰三 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权学校可以将学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名 澎影 签字日期:加。j 年j 月6 日 学位论文作者毕业后去向: 工作单位: 通讯地址: u 。 导师签字符建亟 签字目期:徊k 心月以日 电话 邮编 基于英汉双语语料库的英汉双语o n t o l o g y 的建立和管理 1绪论 1 1 研究背景 本体( o n t o l o g y ) 是原自哲学上一个概念,用于描述事物的本质。近年来受 到信息科学领域的广泛关注,在许多方面如知识工程、数据库设计和集成、信息 检索与获取、软件工程、自然语言处理等都具有重要的作用。尤其是本体在w e b 上的应用导致了语义w e b 的诞生,在w 3 c 的主导下有望解决w e b 信息共享时的语 义问题,从而实现世界范围内的知识共享和智能信息集成。 与此同时,双语o n t o l o g y 的重要性在跨语言信息检索( c l i r ) 、机器翻译、 语言学习、双语词典的编纂和语义w e b 等很多方面也逐渐凸现出来。双语 o n t o l o g y 能够刻画不同语言中对应的领域知识,从而解决了从一种语言到另一 种语言之间转换过程中出现的语义损失和曲解等问题。例如,在跨语言信息检索 过程中,就能够有效地遵循用户的查询意图,获得预期的检索信息。 现在国外对本体的研究异常活跃,建立了很多比较完善成熟的本体,在网址 b ! ! q ;2 1 1 1 1 9 ! :i ! i ! ! ! d :! d ! z ! ! ! ! ! q g i ! ! ! ! ! ! ! ! g i ! ! :b 塑! 上就有很多比较 成熟的英文o n t o l o g y ,但是在国内对于o n t o l o g y 的研究尚处于起步阶段。 随着因特网的迅速发展,信息技术开始面临种种新的挑战,如知识的表示、 信息的组织、软件的复用等。因此尽快的建立能在语义和知识层次上描述信息系 统的o n t o l o g y ,已经成为刻不容缓的事情。但是,一个成熟的本体的建立需要 领域专家的参与,还要遵循o n t o l o g y 的构造准则和评估标准,是相当费时费力 的。在这样的情况下,如果我们能够利用国外已经比较成熟的英语o n t o l o g y , 来转换为我们所用的英汉o n t o l o g y ,那么对于我们将会是节省很多人力、物力。 一个好的英汉o n t o l o g y 对于跨语言信息检索、语义w e b 等领域的研究和发展带 来一场革命性的巨变。 对于英语o n t o l o g y 转化为英汉o n t o l o g y ,首先涉及的问题便是英汉的对译 问题。基于此,本文设计了一种基于英汉双语语料库,将英语o n t o l o g y 转化为 我们自己所用的英汉双语o n t o l o g y 的方法。 1 2 研究目标及研究内容 基于英汉双语语料库的英汉双语o n t o l o g y 的建立和管理 本文实现的这种基于英汉双语语料库,将英语o n t o l o g y 转化为我们自己所 用的双语o n t o l o g y 的方法,为o n t o l o g y 的建立开拓了一条全新的思路,对比常 规的o n t o l o g y 建立方法将十分省时省力,必将极大地推动o n t o l o g y 的相关应用 领域的进程。 1 3 论文创新点 本文基于英汉双语语料库,实现了一种将英语o n t o l o g y 转化为我们自己所 用的英汉双语o n t o l o g y 的方法,其主要贡献和创新点在于: 1 ) 本文探索了一种基于英汉双语语料库,利用国外一些比较成熟的英文 o n t o l o g y 来建立为我们自己所用的英汉o n t o l o g y 的方法,这为o n t o l o g y 的建 设提供了一条全新的思路,这种做法本身就很具有新意,必将极大的推动我国 o n t o l o g y 的建设,及其相关应用领域的研究与发展。 2 ) 本文设计一个类图的遍历思想的j a v a 程序t r a n s f o r m j a v a ,结构巧妙, 完全能够实现将英文o n t o l o g y 转换为英汉o n t o l o g y 。这样,对于我们来说,比 自己去建立本体,节省了很多人力和物力,并且达到的效果可能会更好。 3 ) 本文建立了一个最优翻译等价对库,我们还要逐步更新和完善该翻译等 价对库,以便能够让它在除英汉双语o n t o l o g y 转化方面外,得到更大范围的推 广和使用,如英汉跨语言信息检索、英汉机器翻译及英汉双语词典的编纂等方面。 1 4 论文组织与结构 本文基于英汉双语语料库,实现了一种将英语o n t o l o g y 转化为我们自己所 用的双语o n t o l o g y 的方法。文章的组织结构是这样的:第二章“o n t o l o g y ”介 绍o n t o l o g y 的一些重要概念,包括o n t o l o g y 的定义、分类、应用、构建方法、 开发支撑工具以及描述语言;第三章“双语语料库及最优翻译等价对库的建立和 管理”介绍语料库和双语语料库的概念及各种句子、短语对齐技术,首先回顾语 料库的发展背景,然后比较双语语料库的各种句子、短语对齐技术的优缺点,在 此基础上引入本人对英汉双语语料库中短语对齐的改进工作,并利用四种常见的 数学模型建立了最优翻译等价对库;第四章“英语o n t o l o g y 转化为英汉双语 o n t o l o g y ”给出基于英汉双语语料库的英汉双语o n t o l o g y 的实现。利用最优翻 基于英汉双语语料库的英汉双语o n t o l o g y 的建立和管理 译等价对库,采用j e n a 解析r d f 描述的英文o n t o l o g y ,用j a v a 语言实现了英 文o n t o l o g y 转换为英汉o n t o l o g y ;第五章“结束语”从实现方法的创新性、局 限性及可以进一步开展的工作等方面做一简单总结和展望 基于英汉双语语料库的英汉双语o n t o l o g y 的建立和管理 2o n t o i o g y 2 1o n t o i o g y 的定义 近些年来,随着计算机应用需求的不断增强,计算机科学与技术的发展日新 月异,大众对数字信息的需求越来越强烈。然而在这种快速发展的同时,也面临 着种种的困难。主要的困难包括:知识的表示、信息的组织、软件的复用等。特 别是由于因特网的快速发展,面对信息的海洋,如何组织、管理和维护海量信息 并为用户提供有效的服务也就成为一项重要而迫切的研究课题。为了适应这些要 求,o n t o l o g y ( 本体) 作为一种能在语义和知识层次上描述信息系统的概念模型 建模工具,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多 领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和w e b 上异构信息的处理、语义w e b 等。 那具体来说,到底什么是o n t o l o g y 呢? o n t o l o g y 最早是一个哲学上的概念,被哲学家用来描述事物的本质: 在人工智能界,最早给出o n t o l o g y 定义的是n e c h e s 等人,在文献中,他 们将o n t o l o g y 定义为“给出构成相关领域词汇的基本术语和关系,以及利用这 些术语和关系构成的规定这些词汇外延的规则的定义”。 在计算机界,明确本体的定义经历了一个过程: 1 9 9 3 年,g r u b e r 给出了o n t o l o g y 的一个最为流行的定义。3 ,即“本体是 概念模型的明确的规范说明”。 后来,b o r s t 在此基础上,给出了o n t o l o g y 的另外一种定义。3 :“本体是 共享概念模型的形式化规范说明”。 s t u d e r 等对上述两个定义进行了深入的研究,认为o n t o l o g y 是共享概念 模型的明确的形式化规范说明。这包含4 层含义“3 :概念化( c o n c e p t u a l i z a t i o n ) 、 明确( e x p i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。“概念化”指通过抽象出客 观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型。概念模型所表现的含 义独立于具体的环境状态;“明确”指所使用的概念及使用这些概念的约束都有 基于荚汉双语语料库的英汉双语o n t o l o g y 的建立和管理 明确的定义;“形式化”指o n t o l o g y 是计算机可读的( 即能被计算机处理) :“共 享”指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概念 集,即o n t o l o g y 针对的是团体而非个体的共识。 总之,对o n t o l o g y 的种种不同定义从内涵上来看,不同研究者对于本体的 认识是统一的,即都包含g r u b e r 定义中所指出的事实:“o n t o l o g y 是反映客观 存在的概念模型,是对概念模型的明确描述”。o n t o l o g y 的目的就是获取、描述 和表示相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可 的词汇,从不同层次的形式化模型上给出这些词汇和词汇间相互关系的明确定 义。 2 2o n t o i o g y 的分类 针对目前出现的各种各样的o n t o l o g y ,可以根据o n t o l o g y 不同方面的属性 对它们进行不同的分类: 根据o n t o l o g y 的形式化程度不同,可以把o n t o l o g y 分为:完全非形式化的 ( h i g h l yin f o r m a l ) 、结构非形式化的( s t r u c t u r e d i n f o r m a l ) 、半形式化的 ( s e m i f o r m a l ) 和严格形式化的( r i g o r o u s l yf o r m a l ) 。形式化程度越高,越有 利于计算机进行自动处理。 根据o n t o l o g y 的研究主题的不同,可以把o n t o l o g y 分为:领域o n t o l o g y 、 通用或常识o n t o l o g y 、任务o n t o l o g y 、语言学o n t o l o g y 和知识表示o n t o l o g y 等。 根据o n t o l o g y 包含的内容不同,可以把o n t o l o g y 分为:经典本体论和混合 本体论。 根据o n t o l o g y 的研究和开发层次,可以把o n t o l o g y 分为”“: 顶级o n t o l o g y :主要研究非常通用的概念,如空间、时间、事件、行为 等,它们完全独立于特定的问题或领域。 领域o n t o l o g y :研究与一个特定领域相关的术语或词汇。 任务o n t o l o g y :定义通用任务或推理活动。它们都可以应用顶层o n t o l o g y 基于英汉双语语料库的英汉双语o n t o l o g y 的建立和管理 中定义的词汇来描述自己的词汇。任务o n t o l o g y 和领域o n t o l o g y 处于同一个研 究和开发层次。 方法o n t o l o g y :描述了特定的问题的求解方法。任务o n t o l o g y 和方法 o n t o l o g y 实质上都是从推理和问题求解角度刻画领域知识的视图,它们有助于 解决所谓的“交互问题”,它们通过“假设”( a s s u m p t i o n ) 将领域知识和问题求 解方法之间的交互明确地表示出来,充当了系统层次间的“粘合剂”,从而解决 了知识库系统的重用与组件化开发中的关键问题。 应用o n t o l o g y :描述特定的应用,它既可以应用特定的领域o n t o l o g y 中 的概念,又可以引用出现在任务o n t o l o g y 中的概念。 现在己经成功开发的本体有:c y c 4 ”为顶级本体,t o v e ,u m l s m l ( u n i f i e d m e d i c a ll a n g u a g es y s t e m ) ,w o r d n e t 。”属于领域本体。由于各类本体 所包含的内容、结构可能不同,因而在实际应用中,不同本体表示的语义往往需 要转换和集成,才能实现机器对信息语义的共同理解。 2 3o n t o l o g y 的应用 在2 0 世纪9 0 年代,o n t o l o g y 的研究在计算机科学技术内目趋流行,在知 识工程、数据库设计和集成、信息检索和提取、软件需求分析、语义w e b 、面向 对象技术和基于a g e n t 的系统设计中扮演着越来越重要的角色。 2 ,3 1 在信息检索中的应用1 w e b 从1 9 9 1 年出现以来,经过l o 年己经发展成为一个巨大的全球化信息资 源库。w e b 上的信息量以几何级数的速度增长,使得用户发现其所需要的信息变 得非常困难。在这种情况下,如何有效地检索w e b 信息也就成为一项重要的研究 课题。提高w e b 信息检索的质量包括两方面内容:一方面是如何在现有的资源上 设计更好的检索技术:另一方面是如何为w e b 上的资源附加上计算机可以理解的 内容,便于计算机更好地处理,也就是给出一种计算机能理解的表示资源的手段。 目前,信息检索技术可分为3 类:全文检索( t e x tr e t r i e v a l ) 、数据检索 ( d a t ar e t r i e v a l ) 和知识检索( k n o w l e d g er e t r i e v a l ) 。 基于英汉双语语料库的英汉双语o n t o l o g y 的建立和管理 全文检索的特点是把用户的查询请求和全文中的每一个词进行比较,不考虑 查询请求与文件语义上的匹配,这种方式虽然可以保证查全率,但是查准率却大 大地降低了。数据检索的特点是查询要求和信息系统中的数据都遵循一定的格 式,具有一定的结构,允许对特定的字段检索( 例如:作者= “王小兵”) 。数据检 索需要有标识字段的方法。数据检索的性能取决于所使用的标识字段的方法和用 户对这种方法的理解,因此具有很大的局限性。数据检索支持语义匹配的能力也 较差。 知识检索强调的是基于知识的、语义上的匹配,因此在查准率和查全率上有 更好的保证。目前知识检索是信息检索研究的重点,特别是面向w e b 信息的知识 检索。常规的直接基于关键词的信息检索技术已不能满足用户在语义上和知识上 的需求,寻找新的方法也就成为目前研究的热点。o n t o l o g y 具有的良好的概念 层次结构和对逻辑推理的支持,因而在信息检索,特别是在基于知识的检索中得 到了广泛的应用。基于o n t o l o g y 的信息检索的基本设计思想可以总结如下: 1 ) 在领域专家的帮助下,建立相关领域的o n t o l o g y 。 2 ) 收集信息源中的数据,并参照已建立的o n t o l o g y ,把收集来的数据按规 定的格式存储在元数据库( 关系数据库、知识库等) 中。 3 ) 对用户检索界面获取的查询请求,查询转换器按照o n t o l o g y 把查询请求 转换成规定的格式,在o n t o l o g y 的帮助下从元数据库中匹配出符合条件的数据 集合。 4 ) 检索的结果经过定制处理后,返回给用户。 需要说明的是,如果检索系统不需要太强的推理能力,o n t o l o g y 可用概念图 的形式表示并存储,数据可以保存在一般的关系数据库中,采用图的匹配技术来 完成信息检索。如果要求比较强的推理能力,一般需要用一种描述语言 ( 如:l o o m ,o n t o l i n g u a 等) 表示o n t o l o g y ,数据保存在知识库中,采用描述语言 的逻辑推理能力来完成信息检索。由于o n t o l o g y 能通过概念之间的关系来表达 概念语义的能力,所以能够提高检索的查全率和查准率。 目前o n t o l o g y 应用在信息检索中的著名项目包括( o n t o ) 2 a g e n t , 基于英汉双语语料库的英汉双语o n t o l o g y 的建立和管理 o n t o b r o k e r 和s k c 。这3 个项目也分别代表了3 个方向。( o n t o ) 2 a g e n t 的目的是 为了帮助用户检索到所需要的w w w 上已有的o n t o l o g y ,主要采用了参照 o n t o l o g y 。参照o n t o l o g y 是以w w w 上已有的o n t o l o g y 为对象建立起来的 o n t o l o g y ,它保存有各类o n t o l o g y 的元数据。o n t o b r o k e r 面向的是w w w 上的网 页资源,目的是为用户检索到所需要的网页,这些网页含有用户所关心的内容。 s k c 是一个正在进行的项目,其目标是解决信息系统语义异构的问题,实现异构 的自治系统之间的互操作。该项目希望通过在o n t o l o g y 上建立一个代数系统, 用这个代数系统来实现各o n t o l o g y 之间的互操作,从而实现异构系统之间的互 操作。 2 3 2 在面向对象分析中的应用“4 o n t o l o g y 是领域概念的显示表示。面向对象分析是把图和语义网络模型与 面向对象程序设计语言中的概念结合在一起而形成的分析方法。 根据o n t o l o g y 的思想,某个领域的o n t o l o g y 就是关于该领域的一个公认的 概念集,其中的概念含有公认的语义,这些语义通过概念之间的各种关联来体现。 o n t o l o g y 通过它的概念集及其所处的上下文来刻画概念的内涵;面向对象分析 方法,采用了实体、关系、属性等信息造型中的概念,同时采用了密封、对象、 类的结构和继承性等面向对象程序设计语言的概念。面向对象分析本质上是自底 而上的过程,通过对具体事物的认定和抽象,归纳概括出共性,区分出个性,用 类和类层次结构加于表示。 面向对象分析方法是以对象和对象类为中心进行的,对象和对象类组成了一 定的层次关系,这种垂直的组织方式表示了元素之间具有的父子关系,而其它方 面的内容,如对象间的关系,对象间的消息传递,则相对处于次要地位。但在现 实世界中,项目和软件可能极其庞大和复杂,要确切掌握不同对象和对象类之间 的各种关系比理解单个对象模块更为困难,软件工程师往往需要付出更多的精力 和时间来分析对象类之间的关系,而不仅仅只分析对象本身。o n t o l o g y 不但描 述了相关领域的本质概念,同时也描述了这些本质概念之间的关联。 由此可见,在面向对象分析中,使用o n t o l o g y 的思想和o n t o l o g y 描述现实 基于英汉双语语料库的英汉双语o n t o l o g y 的建立和管理 世界的方法,可以将对象之间的各种关系用形式语言充分刻画出来,使面向对象 分析更的更加简单。 2 3 3 在软件工程中的应用m o n t o l o g y 在软件工程的设计和开发上的应用,其用途主要表现在:可重用 组件、可靠性、规格说明等方面。 规格说明 对所要处理的问题和任务的共同理解有助于软件系统规格的 说明,在规格说明中o n t o l o g y 的作用随着系统设计方法学形式化程度的变化 而有所不同。 在非形式化方法中,o n t o l o g y 使识别系统的需求、理解系统各部分间的关 系更容易。这对包括有不同领域的设计小组合作的系统开发尤其重要。 在形式化方法中,o n t o l o g y 提供软件系统的规格说明,让我们去思考把系 统设计成什么而不是思考系统是如何支持这个功能的。 可靠性 非形式化o n t o l o g y 能够借助规格说明来手工检查设计以改进 软件系统的可靠性。用形式化o n t o l o g y 则能够 半 自动化地进行软件系统与规 格说明一致性检查,另外,形式化o n t o l o g y 还能用来明确软件系统的不同成份 做的各种不同的假定,以使他们容易集成。 可重用性 基于构件的软件开发技术,旨在通过重用分布式的、异构的 存储构件的数据库,提高软件的开发效率,避免一些不必要的重复劳动。为了软 件开发者能够快速有效地检索到所需构件,必须在用户和软件构件库之间建立中 介层。将领域o n t o l o g y 的概念引入到中介层,在软件构件的组织与管理中,通 过o n t o l o g y 集成统一的构件数据库,从而提高了软件的开发效率。 2 3 4 在语义w e b 中的应用。1 o n t o l o g y 在w e b 上的应用导致了语义w e b 的诞生,其目的是解决w e b 上信 息共享时的语义问题,语义w e b 被看做时当前o n t o l o g y 从学术研究走向实际应 用的最重要的构想和研究计划。 基于英汉双语语料库的英汉双语o n t o l o g y 的建立和管理 1 9 9 8 年,w e b 的创始人b e r n e r sl e e 首次提出了“语义w e b ”的概念及其技 术路线。2 0 0 1 年2 月,w 3 c 正式成立“s e m a n t i cw e ba c t i v i t y ”来指导和推动 语义w e b 的研究和发展,语义w e b 的地位得以正式确立。 语义w e b 是建立在r d f ( s ) 等标准语言的基础上,对w e b 上的数据所进行 的一种抽象表示,语义w e b 所指的“语义”是“机器可处理的”语义,而不是自 然语言语义和人的推理等目前计算机所不能处理的信息,它满足智能软件代理 ( a g e n t ) 对w w w 上异构和分布信息的有效访问和搜索 从技术上讲,语义w e b 要提供足够而又合适的语义描述机制。然而,从整个 应用构想来看,语义w e b 要实现的是信息在知识级的共享和语义上的互操作性, 这需要不同系统间有一个语义上的“共同理解”才行。于是,o n t o l o g y 自然成 为指导语义w e b 发展的理论基础。 b e r n e r sl e e 于2 0 0 0 1 2 1 8 在x m l 2 0 0 0 的会议上正式提出了语义w e b 。 b e r n e r sl e e 为未来的w e b 发展提出了基于语义的体系结构语义w e b 体系结构。 该体系中从底层到高层分别为:u n i c o d e 和u r i ,x m l ,r d f ,o n t o l o g y , l o g i c ,p r o o f ,t r u s t 。第一层是u n i c o d e 和u r i 。该层是整个语义w e b 的基础, 其中u n i c o d e 处理资源的编码,u r i 负责标识资源。第二层是x m l + n s 十 嚣 x m l s c h e m a ,用于表示数据的内容和结构。第三层为r d f + r d f s c h e m a ,用于描 述w e b 上的资源及其类型。第四层为o n t o l o g yv o c a b u l a r y 层,它用于描述各种 资源之间的联系。第五层到第七层是在下面四层的基础上进行的逻辑推理操作。 其中核心层为x m l 、r d f ,o n t o l o g y ,这3 层用于表示w e b 信息的语义。 构建在u n i c o d e 与u r i ,x m l ,r d f ( s ) 等语言标准之上的o n t o l o g y v o c a b u l a r y 层起着关键的作用,是解决语义层次上w e b 信息共享和交换的基础。 o n t o l o g y 通过对概念的严格定义和概念与概念之间的关系来确定概念精确含 义,表示共同认可的、可共享的知识,其提供的丰富原语不仅用来描述领域的概 念模型,而且还是对知识进行推理和验证的基础。 因此,语义w e b 应该看做是在o n t o l o g y 理论基础之上对现有w e b 所进行的 扩展,目标是使w e b 上的信息具有计算机可以理解的语义,在o n t o l o g y 的支持 下实现信息系统间语义上的互操作性,以及对w e b 资源所进行的智能访问和检 基于英汉双语语科库的英汉职语o n t o l o g y 的建立和管理 索。 语义w e b 是一个新兴的研究方向,o n t o l o g y 在其中的应用也仅仅是刚刚开 始,还有许多的问题需要研究和解决。目前有许多著名的大学和科研机构在从事 这方面的研究,著名的项目有o i l 、s h o e ,d a m l 。随着o w l 等语言标准的成熟, 各种支持工具和应用不断地发展起来,基于o n t o l o g y 的语义w e b 技术的研究和 应用必将渗透到信息技术的各个具体领域中。 2 4o n t o i o g y 描述语言 2 4 1 o n t o i o g y 描述语言的发展 o n t o l o g y 对w e b 信息资源的描述是实现机器对w e b 信息资源的语义理解关 键部分,作为对w e b 上知识的表示,语义w e b 对o n t o l o g y 标记语言的数据交换 格式提出了以下要求“3 1 通用的表达能力:由于无法预测所有可能的应用,w e b 的数据交换格式必 须能够表达任何形式的数据: 语法的互操作能力:处理器必须能够识别各种数据的表示,并且能为不同 类型的应用所复用: 语义的互操作能力:要求实现对数据内容的分析,并提供识别元素间关系 的能力。 o n t o l o g y 描述语言起源于历史上人工智能领域对知识表示的研究,主要有 以下语言或环境为代表:c y c l ,k i f 与o n t o l i n g u a “,o k b c ( o p e nk n o w l e d g eb a s e c o n n e c t i v i t y ) o c m l ( o p e r a t i o n a lc o n c e p t u a lm o d e l i n gl a n g u a g e ) 巴l o o m 等。 近年来,w e b 技术为全球信息共享提供了便捷手段,以共享为特征的 o n t o l o g y 与w e b 技术相结合是大势所趋,在此背景下,基于w e b 标准的o n t o l o g y 描述语言正成为o n t o l o g y 研究和应用的热点,如s h o e ( s i m p l eh t m lo n t o l o g y e x t e n s i o n ) ,o m l ( o n t o l o g ym a r k u pl a n g u a g e ) 1 ,x o l ( x m l b a s e do n t o l o g y e x c h a n gla n g u a g e ) 等。 基于英汉被话语科库的英湫职舌o n t o l o g y 的建立和管理 然而o n t o l o g y 描述语言要走向通用,还需要解决一些重要问题,如对推理 的有效支持,正规和充足的语义表示机制,以及标准化问题,这就出现了基于描 述逻辑( d e s c r i p t i o nl o g i c s ,d l ) 。”的新一代本体语言如c k m l ,o i l ,d a m l + o i l , 以及在b a m l + o i l 基础上发展了的0 驰语言( 国际通用的标准o n t o l o g y 描述语 言) 。 在标准方面,由w 3 c 主持制定的r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 1 和r d fs c h e m a 。3 是建立在x m i 语法上,以语义网为理论基础,对信息资源进行 语义描述的语言规范。语义w e b 标准语言产生如所图2 1 所示。o w l 架构于x m l , r d f 之上,x 批是o w l 描述资源的语法,r d f 为o 町描述资源框架 24 2x m l 图2 1 语义w e b 标准语言演化图 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 是一个严格符合s g m l 格式的、结构化的语言,实现了文档的显示和数据分离。 这种结构化的数据易于使用、携带、传递它的数据存储格式不受显示格式 的制约,是目前w e b 数据交换最好的语法格式。x 提供o t d ,x m ls c h e m a 对文 档结构的进行有效性验证,通过描述约束文档逻辑结构实现数据的语义。 基于英汉双语语科库的英汉双语o n t o l o g y 的建立和管理 x m l 对本体的描述,就是利用d t d 或x m ls c h e m a 对本体所表达的领域知识 进行结构化定义,然后再利用x m l 文档结构与x m l 内容之间的关系对本体知识进 行描述,从而提供对数据内容的语义描述,具体过程如图2 2 图2 2x m l 形式化领域本体表示概念语义信息过程 但是通过d t d 表示的本体,由于d t d 自身描述能力有限、没有数据类型的支 持、约束定义能力不足,无法对x m l 实例文档做出更细致的语义限制等原因,无 法表达概念问的继承关系,所以并不能完全满足x m l 自动化处理的要求。x b t l s c h e m a 虽然解决了d t d 存在的问题,如定义了更为丰富的语法结构、可以定义 元素类型、提供了包含和继承机制等,但是d t d ,x m ls c h e m a 为x m l 文档提供的 约束机制时只是用限定x m l 文档所用到的标记和这些标记之间的结构关系,通过 d t d 和x m ls c h e m a 可以解决对数据的词汇和用途的说明,其语义仍然是隐含的。 因而x m l 所表示的本体,只能保证人们使用相同的词汇,但本体中不包含有用的 语义信息,是一种较低层次的本体的应用,是轻量级( l i g h t w e i g h t ) 的本体。 2 4 3r d f 和r d f s r d f 被看作元数据层,即用来描述关于数据的数据层,被认为是表示和处理 半结构化数据的一种极好选择。r d f 的数据模型提供了一个抽象的概念框架来描 述元数据,该框架通过命名的属性和属性值来表示资源之间的关系和资源内部的 关系。 r d f 对资源描述的基于这样的思想:利用当前现有的w e b 体系结构中的标识 符u r i s 作为标识符系统来标识事物,用简单的属性( p r o p e r t y ) 及属性值( v a l u e ) 来声明资源( r e s o u r c e ) ,这里资源指w e b 上任何可以被标识的事物,可以创建 u r i s 来引用声明中需要被标识的任何资源,包括:网络可访问资源,如,一份电 子文档、一个图片、或是一组其他的资源:非网络可访问资源,如,人、公司、 基于英汉双语语料库的英汉取语o n t o l o g y 的建立和管理 在图书馆装订成册的书籍:非物理存在的抽象概念,如“作者”这个概念。r d f 对资源声明的表示有三种方法: r d f 图模型。将一个或多个关于资源的简单声明表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论