




文档简介
yg o - 7 9 7 弘 分类号 u d c g 3 5 0 7 ,g 3 5 5密级 编号 学位论文 面向机器翻译的本体构建研究 指导教师王惠临 申请学位级别管理学硕士 杨海燕 公开 中国科学技术信息研究所研究员 论文提交时间2 0 0 5 7 学位授予单位和同期中国科学技术信息研究所 学科名称情报学 沦文答辩日期2 0 0 5 7 答辩委员会主席 评阅人 2 5 年7 月 面向机器翻译的本体构建研究 摘要 本体的概念起源于哲学领域,是形而上学理论研究的一个分支,即研究世 界一切事物的本质或本原的科学。2 0 世纪9 0 年代初期,人们将本体的概念引入 人工智能、知识工程、软件工程、图书情报等技术领域,其概念的内涵也随之 发生了变化。在技术领域中,本体是作为解决知识表示和知识组织的一种新型 的工具。近些年来,关于本体的研究与应用呈现出加速度发展的趋势,基础理 论不断完善,应用领域不断扩展,出现了许多技术类的系统。 机器翻译经过五十余年的发展,无论在理论方面还是应用方面都取得不少 成绩。但是在传统的机器翻译系统中,由于不包括世界知识,使得系统不能对 文本做到真正的语义层面上的理解,故不能很好地消除歧义。本体作为一种知 识表示、知识共享的工具,表达独立于语言的世界知识,恰好是表达文本中深 层语义的一个有效的手段。囡此,本体技术也在机器翻译等自然语言处理领域 得到了应用。 本论文以面向机器翻译的本体构建作为研究主题,对面向机器翻译的本体 的特点、构建原则和方法等问题进行了深入的分析和研究,尝试构建了一个面 向机器翻译的具体的“科学家”本体,并对其作了初步的测试与应用试验。 关键词:本体机器翻译语义知识库世界知识 a s t u d y o fm to r i e n t e do n t o l o g yb u i l d i n g a b s t r a c t o n t o l o g yo r i g i n a t e di np h i l o s o p h y ,t h ed e p a r t m e n to fm e t a p h y s i c sc o n c e r n e d w i t hn a t u r eo fe x i s t e n c e s i n c e1 9 9 0 s o n t o l o g yh a db e e ni n t r o d u c e di na r t i f i c i a l i n t e l l i g e n c e ,k n o w l e d g ee n g i n e e r i n g ,s o f te n g i n e e r i n g ,a n dl i b r a r y & i n f o r m a t i o n s c i e n c e se t c a n dt h e nt h ed e f i n i t i o no fo n t o l o g yh a db e e nc h a n g e d 1 1 1t h e t e c h n o l o g y ,o n t o l o g yi s an e wt o o lo nk n o w l e d g er e p r e s e n t a t i o na n dk n o w l e d g e o r g a n i z a t i o n r e c e n t l y ,t h es t u d ya n da p p l i c a t i o no no n t o l o g yh a sb e e nd e v e l o p i n g r a p i d l y ,t h et h e o r yo fo n t o l o g yg e t sm a t u r e rt h a nb e f o r e ,t h ea p p l i c a t i o no fo n t o l o g y g e t sm o r ee x t e n s i v et h a nb e f o r e ,t h e r ea r em a n yo r i e n t e d o n t o l o g ys y s t e m s m a c h i n et r a n s l a t i o nh a dm a d eg r e a t e rp r o g r e s si n t h e o r ya n da p p l i c a t i o n d u r i n g t h e p a s t m o r et h a n f i f t yy e a r s h o w e v e r ,m ts y s t e mw i t h o u tw o r l d k n o w l e d g ec o u l d n tu n d e r s t a n dt h et e x to ns e m a n t i cl e v e l a sad e wt o o lt or e p r e s e n t k n o w l e d g ea n ds h a r ek n o w l e d g e ,o n t o l o g yr e p r e s e n t sw o r l dk n o w l e d g ei n d e p e n d e n t o fa n yn a t u r a ll a n g u a g e ,a n di san e we f f e c t i v ew a yt or e p r e s e n ts e m a n t i c so ft e x t s s o ,o n t o l o g yc o u l db ea p p l i e di nn l p ,s u c ha sm t t h et h e m eo ft h i sp a p e ri st os t u d yt ob u i l dt h em to r i e n t e do n t o l o g y t h e p a p e ra n a l y z e sa n dr e s e a r c h e st h ec h a r a c t e r i s t i c so fm to r i e n t e do n t o l o g y , a n d p r i n c i p l e sa n dw a y so fb u i l d i n gm to r i e n t e do n t o l o g y , t r i e st ob u i l d s c i e n t i s t o n t o l o g y , a n dt e s t sa n da p p l i e s i t k e y w o r d s :o n t o l o g y ,m a c h i n et r a n s l a t i o n ,s e m a n t i c s ,k n o w l e d g eb a s e ,w o r l d k n o w l e d g e 图目录 语义三角图4 用于交流和互操作的本体5 知识库中三大部分8 本体与词典1 3 t o v e 流程图1 7 p r o t 6 9 6 的界面2 0 s u m o 的组成部分2 1 本体驱动的机器翻译系统模型2 3 学科之间的层次关系3 4 部分顶层概念层次3 7 s u n 、e a r t h 、m o o n 、p l a n e t 的概念层次结构3 8 b o t a n y 的概念层次结构( 左) 、未分层概念结构( 右) 3 8 b o t a n y 的属种关系3 9 关系的举例描述4 2 部分概念层次4 6 句法分析结果5 8 “打”对应的概念层次结构5 9 l 2 3 l 2 3 4 l 1 2 3 4 5 6 7 1 2 1 1 1 2 2 2 2 3 4 4 4 4 4 4 4 6 6 图图图图图图图图图图图图图图图图图 表目录 表2 1 概念的基本元特性。1 5 表2 2 本体描述语言的简单分类1 9 表4 1 词典的部分3 0 表4 2 部分概念一词映射表,3 1 表4 3 上位概念为s c i e n c e ( 学科) 3 2 表4 4 上位概念为a s t r o n o m i c a l - b o d y ( 天体) 一3 2 表4 5 上位概念为p h y s i c a l p h e n o m e n o n ( 物理现象) 一3 2 表4 6 上位概念为p o s i t i o n ( 职业) 3 3 表4 7 部分概念一词映射表3 6 表4 8 关系的传递性4 3 表4 9 部分概念间语义限定4 5 表4 1 0 部分关系的值域限定4 7 表4 1 1 部分语义蕴涵公理4 8 表6 1 叶r ”对应的概念5 8 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究 工作所取得的成果。尽我所知,论文中除已经加以标注和致谢的地方外,不包 含任何他人享有著作权的内容。对本论文所涉及的研究工作做出贡献的其他个 人和集体,均已在文中明确说明并表示了谢意。 研究生签名:木匆海夔、 时间:上吧f 年7 月万目 关于论文使用授权的说明 本人完全了解中国科学技术信息研究所有关保留、使用学位论文的规定, 即:所里有权保留送交论文的打印稿和电子稿,允许论文被查阅和借阅,可以 采用影印、缩印或扫描等复制手段保存、汇编学位论文。同意中国科学技术信 息研究所用不同方式在不同媒体上发表、公布论文的全部或部分内容。保密的 论文在解密后遵守此规定。 研究生签名 导师签名 南4 热、 獬。) 饧 时间:t 玎年 月巧_ 日 时间:盘加岁年7 月琵日 引言 近年来,人们将本体的概念引入人工智能、知识工程、图书情报等领域, 用来解决知识概念表示和知识组织体系等方面的有关问题。到目前为止,国外 对本体的研究已初具规模,无论是基础理论方面,还是开发工具、表示语言等 方面都取得了不少成果。国内对于本体的研究起步较晚,近些年来出现了许多 关于本体的综述和初步应用的文章,但主要还是处于学习阶段。尤其在图书情 报领域,关于本体的研究基本处于起步阶段。目前在图书情报领域,关于本体 研究主要集中在:信息资源的组织、检索、智能检索、机器翻译、数字图书馆 等方面。 机器翻译经过五十余年的发展,无论在理论方面还是应用方面都取不少成 绩。但是在传统的机器翻译系统中,由于不包括世界知识,使得系统不能对文 本做到真正的语义层面上的理解,故不能很好地消除歧义。本体作为一种知识 表示、知识共享的工具,表达了独立于语言的世界知识,恰好可以作为表达文 本中深层语义的个有效的手段。因此,本体技术也在机器翻译等自然语言处 理领域得到了应用。国外己出现了一些运用本体的机器翻译系统,如s e n s u s 、 m j k r o k o s m o s 。国内,在这个领域研究虽少,但也有些学者进行了尝试,如董振 东教授的“知网”( 面向汉英自然语言处理系统) 0 1 ,王小捷的“基于o m o l o g y 的英汉机器翻译系统”。1 。比较这些系统,m i k r o k o s m o s 项目是应用于西班牙语 和英语对译的机器翻译系统。董教授的知网个人觉得更像个语义词典,而王小 捷的那个机器翻译系统因为没有后述文章无法获悉更详细的信息。 本论文以面向机器翻译的本体构建为研究主题。首先对本体的基本概念、 分类、作用及机器翻译发展历程和不足之处进行了简单概述,并对本体与知识 库间的联系与区别,本体在机器翻译中作用及优势进行了简单的阐述,然后对 本体概念中的几个重要的关键点、本体的形式化定义、概念元特性等本体工程 的基础理论及本体构建的一般性原则和方法进行深入阐述,在此基础之上提出 了面向机器翻译的本体构建的具体原则和方法,并尝试构建了一个面向机器翻 译的具体的“科学家”本体,最后对其作了初步的测试与应用试验。 1 本体与机器翻译概论 1 1 本体概述 1 1 ,l 本体的基本概念 在西方哲学研究领域中,o n t o l o g y 是形而上学理论研究的一个分支。牛滓 现代高级英汉双解词典中的英文解释是:“t h ed e p a r t m e n to fm e t a p h y s i c s c o n c e r n e d w i t h n a t u r eo f e x i s t e n c e ;s p e c i f i c t h e o r yo f t h i s ”译为中文叫做“实体论” 或“本体论”h 1 。 o n t o l o g y ,由希腊o n t o ( 存在) 与l o g o s ( 学说、言论) 派生出来,被解释为“关于 存在的学说、言论”。“o n t o l o g y 词最早出现于德意志哲学家郭克兰纽 ( r u d o l p h n s g ) 所著的哲学辞典( 1 6 1 3 ) 一书中。但是,具有o n t o l o g y 呋j 涵 之哲理,却可追溯到古希腊时代,那时的哲学家以探索世界的本源( 希腊文是 a r c h ,又称始基) 来构成他们的本体的理论,米都利学派提出了西方哲学史 上第一个哲学范畴始基说,由此演变出“本体”、“本质”和“基质”等概念范畴。作 为一种哲学理念和哲学形态的“o n t o l o g y ”,在苏掐拉底提出“始基”问题中萌芽, 在柏拉图和亚里士多德那里奠定雏形,最终在中世纪经院哲学中成熟了n - 7 】。 上世纪9 0 年代初,人工智能领域( a r t i f i c i a li n t e l l i g e n c e ,以下简称为a i ) 引 入该概念,用于知识表示和知识组织,o n t o l o g y 的内涵也因此发生了改变。有 许多学者从不同的角度赋予o n t o l o g y 很多定义。但大家公认的比较标准、且广 泛被引用的是g r u b e r ( 1 9 9 3 ) 给出的:a no n t o l o g yi sae x p l i c i ts p e c i f i c a t i o no fa c o n c e p t u a l i z a t i o n ( 某一概念体系的一种明确的规范表示) 0 1 。综观这些定义, 可以得出作为知识表示和知识组织的工具的o n t o l o g y 基本上包含了两层含义: 一是对真实世界某一领域的事物或现象进行抽象认识、归纳总结,即概念体系 ( c o n c e p t u a l i z a f i o n ) ;二是再对概念体系用一种人、计算机、a g e n t 都可以理解 的通用规范表达出来,即形式化( e x p l i c i ts p e c i f i c a t i o n ) 。 在国外,人们一般遵循g u a r i n a o ( 1 9 9 5 ) 提出的区分方法:用o n t o l o g y ( 首 字母大写) 是指哲学领域的本体论研究,而o n t o l o g y ( 首字母小写) 是指a i 领域 的本体系统和本体理论研究一 。 在国内,人们大多采用“本体论”来指哲学领域的o n t o l o g y 研究;而对于作 为知识表示和知识组织的工具的o n t o l o g y ,不少人直接使用o n t o l o g y 或本体, 但也有些学者给出了其它的译名:如概念集”、概念模型“、知识本体 1 e x 概 念网络”“等等。综观这些不同译名,我们觉得它们的内涵都是基本一致的,故 我们主张采用简单的译名一一“本体”,不仅便于国内同行间学术交流,也便于 与国外学术界保持一致。 2 1 1 2 本体的分类 对于本体的分类,不少学者从不同的角度给出本体的分类。 u s c h o l d 和g r u n i n g e r ( 1 9 9 6 ) 从形式化程度将本体分为:高度非形式化、 结构非形式化、半形式化、严格形式化“。 g u a r i n o ( 1 9 9 8 ) 将本体分为顶级本体( t o p l e v e lo n t o l o g y ) 、领域本体( d o m a i n o n t o l o g y ) 、任务本体( t a s ko n t o l o g y ) 、应用本体( a p p l i c a t i o no n t o l o g y ) ”。 g o m e z p e r e z 和b e n j a r n i n s ( 1 9 9 9 ) 在研究了多种本体分类方案的基础上, 归纳出1 0 类型”1 ,分别是: 知识表示本体( k n o w l e d g e - r e p r e s e n t a t i o no n t o l o g y ) 例:f o r m a lo n t o l o g y 通用本体( g e n e r a lo n t o l o g y ) 例:c y c 顶级本体( t o p - l e v e lo n t o l o g y ) 例:s o w a sb o o l e a n l a t t i c e 元本体( m e t a c o r eo n t o l o g y ) 例:m e r e o l o g yo n t o l o g y 领域本体( d o m a i no n t o l o g y ) 例:e n g m a t ho n t o l o g y 语言本体( 1 i n g u i s t i co n t o l o g y ) 例:w o r d n e t 任务本体( t a s ko n t o l o g y ) 领域一任务本体( d o m a i n t a s ko n t o l o g y ) v ,方法本体( m e t h o do n t o l o g y ) 应用本体( a p p l i c a t i o no n t o l o g y ) 虽然g o m e z p e r e z 和b e n j a m i n s 的划分较g u a r i n o 的分类更细化、更扩充, 但这十类本体之间的界限模糊,彼此又有交叉,层次不清晰。如最后的4 个本体: 任务本体、领域一任务本体、方法本体、应用本体之间的区分就很不明晰。 一般说来,将涉及具有普遍意义的客观世界的常识本体称为顶层本体、上 层本体或通用本体( t o p l e v e lo n t o l o g y 或g e n e r a lo n t o l o g y ) ;将涉及特定学科领 域的本体称为领域本体( d o m a i no n t o l o g y ) ;将涉及特定的应用任务的本体称 为任务本体( t a s ko n t o l o g y ) 。这种简单的分类在a i 领域被普遍认同。 1 1 3 本体的作用 在现实生活中,当人们用某一符号代表真实世界的某一具体事物时,语言 符号与代表的真实世界的事物不是直接相关联的,而是遵循事物一概念一符号 一事物的语义三角图“6 f ”1 。 3 阁1 1 语义二角图 这其中存在着两次映射关系:概念与事物间的映射关系,符号与概念问的映射 关系。人与人在进行信息交互时时常会出现障碍,正是根源于这两种映射关系。 一方面,由于来自不同的地区、不同的行业、不同的知识背景,人们对事物有 着不同的理解,从而无法实现绝对一致的概念认知。例如:在人类的起源问题 上,存在着不同的群体,他们各自有着不同的信仰,形成了“进化”、“上帝”、 “真主”等不同的概念。另一方面,即使对事物的认知形成了相同的概念,采 用不同的符号予以表示,也会造成知识交互的困难。如:b o o k 、书。 本体通过对真实世界的事物或现象进行抽象、归纳和分类,得出概念体系, 并运用相关的符号系统来规范表示,从而使得人们或机器能够对这些真实世界 能够清晰、共同的认识,达到知识共享和复用的目的。因而本体是旨在解决语 义三角图中两次映射过程中出现的不一致问题。 也可以把本体看作一座架在“语义鸿沟”上的桥梁,这座桥梁的一端是实际 的语法表达形式,而另一端是这种表达的抽象概念模型。如图1 2 所示。 在图1 2 中,两个人h a l 和h a 2 进行交流,假设通过自然语言一一英语对 英文符号 j a g u a r ”进行交流,他们的思维中各自有自己的内在的模型,各自 包含着 j a g u a r 对应的概念,这两个概念可能指称真实世界中截然不同的两 个事物,如j a g u a r 牌汽车、美洲虎。同样的情形也存在于两个机器m a l 与 m a 2 之i 司或人h a 与机器m a 之间,假设它们通过某一协议进行交流,但是如 果它们的内在形式模型不同,那么对应的解释也会截然不同。 但是,如果人h a l 和h a 2 或机器m a l 和m a 2 都向一个特定的本体系统 提交同一符号( 如j a g u a r ) ,那么它们对应于真实世界中同一事物的概率就 会大大增加。 4 图1 2 用丁交流和互操作的本体 例如,人h a l 和h a 2 、机器m a l 和m a 2 都共用一个关于动物的本体作 为它们的交流的基础,那么当m a l 向该本体提交符号“j a g u a r ”时,m a 2 可 以利用该本体来排除不相关的参考实体,如排除“j a g u a r 牌汽车”,这样这些 不同主体就会将符号j a g u a r ”对应于相同的概念,进而对应于真实世界的相 同的事物“美洲狮”。 本体在此作为一个交流和互操作的中介,目的在于限制选择客观实体的范 围。 1 2 机器翻译概述 机器翻译( m a c h i n et r a n s l a t i o n ,简称m t 、机译) 就是应用计算机从一种自 然语言文本到另一种自然语言文本的翻译。机器翻译系统则是完成这一过程的 一系列软件的集合。 用计算机进行翻译的想法最先由w a r r e n w 于1 9 4 9 年提出。由于当时社会 对m t 的需求,使得很多西方国家的m t 研究得到了政府的支持,开始了机器 翻译的第一个繁荣阶段。当时m t 的主要研究方法是词典驱动的直接转换法。 1 9 6 5 年,美国国家科学院公布的a l p a c 报告,否定了实用化m t 系统的实用 价值,使得m t 的研究进入低谷。直到上世纪7 0 年代中期,机器翻译才开始在 世界范围内复苏并日趋走向兴旺。很多国家都投入了相当的资金进行研究,欧 洲、亚洲还组织了大型的多国合作研究项目。一些实用的机器翻译软件也纷纷 面世,如s y s t r a n ,t a u m m e t e o ,而我国也在上世纪末开发了k y 1 , i m t e c 8 6 3 等机译系统。 经过五十余年的发展,机器翻译理论方面研究取得不少成绩,如;从系统 采用的策略上可分为:直接法、转换法和中间语言法;从系统对知识的处理上 可分为:基于规则、基于语料库( 基于统计、基于实例) 。 5 现在,不少学者已认识到要使得m t 系统能象人一样对自然语言文本深入 理解,能准确无误理解文本并翻译,m t 系统需要掌握两大类知识:一是语占文 字的知识、二是世界知识,具体如下”: 呤语音知识:用于组成词、旬的语音成份的识别,包括音位、音素等内容。 夺词素知识:关于词汇、词的结构、词素成份的知识,用于词的分析和生 成,词典的构造等过程。 夺句法知识:与组词成旬的结构形式有关,用于对句子的语法结构的判断、 分析与生成。 夺语义知识:词、短语和句子的意义,以及语言单位的意义联系,用于语 义结构的分析。 夺语用知识:关于语言在不同语境中使用,以及语境对语义的影响的知识。 用于对语境的描述和按语境判断语义的过程。 夺世界知识:与语言表达有关的外界知识分为常识和领域知识,也包括对 其他人信念、目的等认知结构的了解,是语言理解的基础。 然而在传统的机器翻译系统中,为翻译转换过程存储所需的知识的知识库 仅包含了词典、语法规则,这些知识是语言学方面的知识,是词法分析、句法 分析的基础,但不能为深层语义分析提供所需的知识。所以,虽然传统的机器 翻译系统也称其具有“理解”自然语言的能力,但是它的理解只停留在“刺激一反 映”的层次上。原因就是,它的知识库中不包括世界知识,所谓的语义分析只是 词法、句法基础上根据语言学知识中的文法进行的,无法达到真正意义上的理 解,也就无法很好地消除歧义。 为了能够更深层次的理解文本,机器翻译系统的知识库中须包括世界知 识,而且这些知识应是结构化的、形式化的,不仅能够挖掘出语句中的深层语 义结构且能为机器翻译系统识别。 1 3 本体与知识库 知识库( k n o w l e d g eb a s e ,简称k b ) ,顾名思义是一个存储和管理知识的 机构。由知识和知识处理机构组成。雨知识处理机构是指各种推理、归纳、演 绎等知识处理方法。 知识是人类在实践中所积累的认识和经验的总和,是人类进行智能活动的 基础。从人工智能的角度出发,通常把知识分为下面几个类型”: ( 1 ) 问题的求解知识: 主要是指领域相关的知识,因此也称领域知识。它说明了如何处理与问题 相关的问题数据及获得问题的解。问题求解知识是专家系统的关键所在。这类 知识一般不随时间变化,是一种长期信息,一般具有很高的概括性和抽象性。 ( 2 ) 元知识: 6 元知识是关于知识的知识。在专家系统中是指使用和控制该系统领域知识 的知识。元知识可分成两类:一类是关于我们已知知识的元知识,主要刻划了 领域知识的内容和结构的散特征:另一类是关于如何运用这些知识的元知识, 它通常描述问题求解的思路和方法,以及解决一个任务而须完成的计划、组织 和选择。因此元知识通常以控制知识的表现形式出现。 ( 3 ) 说明性知识: 主要用来描述具体问题以及问题求解的当前状况,即描述与对象相关的事 实、动作、事件等。有时还需要描述与事件相关的因果关系、时间顺序等。这 类知识是对基本信息的描述,是不断的变化的,在知识库中属于短期信息。 1 9 9 2 年w i e l i n g a 提出的k a d s 方法将用于求解特定任务的知识库系统划 分为三个不同的层次:领域层( d o m a i nl a y e r ) 、推理层( i n f e r e n c el a y e r ) 和任 务层( t a s k l a y e r ) 1 ,分别包括上述三种不同类型的知识。 ( 1 ) 领域层包含了特定领域内的知识及对该领域概念的描述。与领域知 识对应,属于静态层次的。 ( 2 ) 推理层指明了求解问题采用的方法( p r o b l e ms o l v i n gm e t h o d s ,简称 p s m s ) ,包含推理步骤和领域知识在其中所起的作用。与元知识对 应,属于功能层次的。 ( 3 )任务层则将所需求解的问题分解成子任务,并为每一个子任务确定 目标,同时明确了对于任务的控制。与说明性知识对应,属于动态 层次的。 早期,人们对知识库研究主要侧重于知识的表示及其推理机制。当时人们 开发的多为小规模的系统,这些初期的开发技术发挥了很大的作用。但随着知 识工程的发展,人们发现这些知识库系统之问不能相互通信,就是在同一领域 开发系统往往也要从头开始,很少能重复利用原来已开发的资源( 包括功能部 件) ,系统维护也很困难,并且也不能有效地比较和评价一个已存在的系统。 另外,在今天网络技术飞速发展的时代,人们多在异质、分布式环境下进行工 作和学习,对知识共享和重用的需求更加强烈。 1 9 9 1 年,美国国防高级研究计划局下知识共享小组( d a r p ak n o w l e d g e s h a r i n ge f f o r t ) 对智能系统的构建方法提出革命性的新思想。他们认为,构建基 于知识的系统时总是要步一步从头建立一个个新的知识库,这种传统方法既 浪费了人力、财力,也不利于知识共享和重用。因此,有必要通过建立一些可 重用的组件( r e u s a b l ec o m p o n e n t ) ,让人们在建立知识库只须将这些可重用组 件装配起来就行了”。 d a r p a k n o w l e d g es h a r i n ge f f o r t 提出的两个可重用的组件就是本体和 p s m s 。现在,本体已经发展成为知识工程领域中一门专门的学科,称为本体工 程( o n t o l o g ye n g i n e e r i n g ) 。 通过上述的分析可知,一个知识库系统包括三大部分:本体、推理系统、 7 事实。如图1 3 所示。 图1 3 知识库中三大部分 由于本体与知识库都是对某一具体或抽象领域中的知识进行定义、表示和 组织,所以对于它们之间界限有时不是很明晰。一般来说,本体提供一组概念 和关系来表示某个领域,知识库则使用这些概念和关系来表示该领域的事实。 例如医药本体可能包含“白血病”、“皮肤病”等术语的定义,但它不会包含 对某病人患某疾病的诊断,而这正是知识库所要表示的内容。可见,本体侧重 于对领域内知识内容的表示,而知识库更侧重于对领域知识的表示、组织和存 储。 在本体的概念提出来之后,理想的领域知识库是应该建立在领域本体的基 础之上的,根据领域本体中的全部或部分概念生成系统所需的知识库。可见, 本体是知识库建立的基础。 当然,如果本体和知识库用同一语言表达的话,两者之间可能没有非常明 晰的界限。区别仅仅在于知识库的哪一部分是可以共享和重用的,哪一部分是 针对特定应用的。这种区别往往还会随着时间和具体的背景变化而变化。 1 4 本体与机器翻译 高质量、具有深层理解能力的机器翻译系统解决的主要问题是获取并表达 出源语言文本的深层语义,并使用这种深层语义来生成目标语言的翻译。如何 准确、高效地表达这种深层语义一直是机器翻译研究的难点。本体的出现为解 决这个问题提供了一个新的思路。 本体作为一种知识表示、知识共享的工具,表达了独立于语言的世界知识, 是表达文本中深层语义的一个有效的手段。用本体来进行文本深层语义表示的 优势表现在以下几点7 : ( 1 ) 本体概念是语言中性的,更适合表达多语言系统的词汇意义。 w o r d n e t 和知网表达的都是和具体语言相关的词汇语义知识,而本 8 体的目标是建立和具体语言相独立的世界知识的表达,这为各种语 言的词汇、文本语义的表达提供了一个统一的表达基础,更方便了 中间语言的设计和语种的扩展。 ( 2 ) 本体驱动是一种形式化方法,更适合计算机进行语义相关的计算。 由于一些语义理论都是从语言学的角度束提出,其模型并不适合计 算机的处理,而本体从知识工程发展而来,其目的就是用计算机来 处理知识,因而弥补了传统语义学理论无法形式化的弱点。 ( 3 ) 本体是一种无歧义的表示,有其特定的理论基础。从形式上,基于 语义网络来表示语义和基于本体的方法非常相似,然而,语义网络 由于有歧义,而且本身没有严格的形式化理论来支持,因此仍然不 适台自然语言的处理。而本体包括基于一阶谓词逻辑、基于框架、 基于描述逻辑等多种理论,本身的定义都非常严格,消除了歧义, 能更好的支持自然语言的分析。 ( 4 ) 本体支持推理。本体在各种逻辑理论的支持下,通过定义概念、关 系及其限制,增加规则等方法支持基于逻辑的推理。这为消除语义 歧义提供了帮助。 9 2 本体工程的理论和方法 本体通过对概念及其相互关系的规范化描述,勾画出某一领域的基本概念 体系,并通过一定的表示语言将该知识体系形式化表示出来,旨在实现某种程 度上的知识共享和重用。 本体作为通讯、互操作和知识工程的基础,必须经过精心的设计,实际上, 本体的构造是一个非常费时费力的过程,需要对本体构建方法、原则、表示语 言及工具等方面都要加以考虑。 本章主要介绍了本体工程的理论、构建本体的一般性原则、方法、表示语 言及工具,以及几个重要的本体,目的在于为了后面的构建过程提供理论和方 法上的指导。 2 1 本体工程的基础理论 2 1 1 定义的详细阐释 在第一章中我们对本体的基本概念作了简单的介绍。正如前面所讲,对本 体的认识是仁者见仁,智者见智。目前被引用得较多的是g r u b e r ( 1 9 9 3 ) 给出 那个简单明了的定义 : “a no n t o l o g yi sa l le x p l i c i ts p e c i f i c a t i o no fac o n c e p t u a l i z a t i o n 。”。但仅凭这么 一句话是很难掌握住本体的实质。对于本体定义中蕴含着的5 个关键词,这里 详细阐述如下。 ( 1 ) c o n c e p t u a l i z a t i o n : 人们通过一系列的认识活动对世界上某一领域的事物或现象的本质抽象, 得出该领域的一套系统的橛念以及这些概念之间关系。由于人的认识活动介入, 可认为此属于心理范畴。 对c o n c e p t u m i z a f i o n 的翻译,目前常用有3 种:概念化乜“、概念模型”“、 概念体系口。笔者认为,概念化强调认识活动过程,概念模型与概念体系强调 认识结果。而本体论研究客观存在,着重强调的是认识结果而非认识过程。而 且,认识结果是由一套系统的概念及它们之间的关系组成的,是实实在在的实 体。所以,概念体系更适合这里的c o n c e p t u a l i z a t i o n 的汉译。 概念体系是本体的核心部分,概念体系包括概念及概念间的丰富的关系, 这些概念都是该领域中经过了精心选择以确保定义的最基础、最抽象的概念, 而且这些概念间有着丰富关系,以提供良好的结构来建立更高层的知识。 概念与关系是概念体系的两个核心要素,下面对它们加以阐述: a 、概念( c o n c e p t ) 1 0 概念是指客观事物在人脑中的反映,是事物本质的反映,是对一类事物进 行概括的表征。把所感知的事物的共同本质特点抽象出来,加以概括,就成为 概念。这种概括,是人们在实践中,在认识客观事物时,从事物的许多属性中, 发现其本质,并抽出该类事物所共同的,具有决定意义的那种属性,以概念的 形式固定下来的结果。 概念是内涵和外延的同一。概念的内涵是概念所指的事物的本质属性的总 和,即概念的含义,它是概念的质。而概念的外延是概念所指的一切事物,指 概念的适用范围,它是概念的量,可认为是概念的所有实例构成的集合。 概念可通过内涵的变化,进行扩大和缩小。概念的缩小是通过减少内涵, 增加外延,使概念从属概念过渡到种概念。在思维方式上,表现为从一般到特 殊,从抽象到具体,从而使人的认识具体化。概念扩大,通过概念增加内涵, 减少外延,使概念从种概念扩大到属概念。在思维方式上,表现为从特殊到一 般,从具体到抽象。如由“公共图书馆”到“图书馆”就是概念的扩大,而由“计算 机”到“个人电脑”就是缩小。 概念的内涵和外延是相互决定的,一一对应的。一个个体是某个概念的实 例当且仅当它具有该概念内涵中规定的所有性质:一种性质在概念的内涵中当 且仅当该概念的所有实例都具有这种性质。 b 、关系( r e l a t i o n ) , 关系是领域中概念间的连接或关联,反映了多个概念间内在的联系的多元 谓词。 概念间的关系一般包括同一关系、从属关系、交叉关系、并列关系。在实 际构建本体的过程中,概念之间的关系不限于上面列出的4 种基本关系,可以 根据领域的具体情况定义相应的关系。 ( 2 ) s p e c i f i c a t i o n : 译为“规范表示”或“规范说明”,是严谨一致甚至标准化的表达或描述。 ( 3 ) s h a r e : 译为“共享的”,要求所描述的概念体系不仅仅被某个个人所接受,更重要 的是获得领域内群体的一致认可,从而实现系统间的知识共享和新系统的知识 重用。 ( 4 ) e x p l i c i t : 译为“明确的”或“显式的”,要求对概念体系中概念及对这些概念的约束都 要有明确的定义。 ( 5 ) f o r m a l : 译为“形式化的”,要求描述或表达的明确程度咀达到计算机可读的水平为 基准。当然,本体形式化的程度是不同的,例如本体w o r d n e t 提供了一个辞典, 其中包含了1 ( 3 0 ( 0 0 个用自然语言解释的英语术语,而c y c 则对常识性知识提 供了形式化的公理理论。 2 1 2 形式化定义 本体的定义有多种多样,从形式化的角度来定义可以让我们更好地理解本 体的本质。b o z s , d ( 等人( 2 0 0 2 ) 给出关于本体的详细的形式化定义”“0 定义1 一个本体结构是一个五元组,其体系结构可表示成: o = ( c ,c ,r ,盯,s ,) 其构成包括: 概念集c ,它的元素被称作概念标识符( c o n c e p ti d e n t i f i e r s ) ; 关系集r :c 1 x c 2 x 已,其元素被称作关系标识符( r e l a t i o n i d e n t i f i e r s ) ; 概念集c 的偏序集c ,表示概念的层级( c o n c e p th i e r a r c h y 或 t a x o n o m y ) - 函数盯:c 1 x c 2 x x c 。一1 一c 。,一类特殊的关系。 关系集r 的偏续集r ,表示关系的层次,并且当r 1 rr 2 ,其隐含了 l 盯( ) 1 = l a ( r 2 ) l 并且对任意的l i l 仃( 吒) l ,有h i ( t r ( r 1 ) ) cn i ( 仃 ( r 2 ) ) ,其中兀i 表示关系r 的定义域或值域。 定义2对于任意二元关系r er ,其定义域( d o m a i n ) 和值域( r a n g e ) 分别 为:d o m a i n ( r ) = 兀l ( 口( r ) ) 、r a n g e ( r ) = h 2 ( a ( r ) ) 。对盯( r ) = ( c 1 ,c 2 ) 也可写作 r ( c l c 2 ) 。 对于概念c l 、c 2 c ,如果c l cc 2 ,则e l 是c 2 的子类( s u b c o n c e p t ) ,而c 2 是c l 的父类( s u p e r c o n c e p t ) 。 对于c 1 c c 2 ,如果不存在c 3 r ,使得c i c c 3 cc 2 ,则e l 是c 2 的直接 子类( d i r e c t s u b c o n c e p t ) ,而c 2 是c 1 的直接父类( d i r e c t s u p e r c o n c e p t ) ,可以记为 定义3 假定l 为一逻辑语言,则本体o = ( c ,sc ,r ,仃,茎r ) 的公理 系统a 为二元组: a := ( a i ,证) 其组成包括: 公理集a i ,它的元素被称作公理标识符( a x i o mi d e n t i f i e r s ) ; a :触一l 的映射。 定义4 一个对应于本体o = ( c ,c ,r ,盯,) 的词典l e x 的结构是 西元组: l e x = ( s 。,s r ,r e f c ,r e f n ) 其组成包括: 1 2 两个集s 。、s 8 ,其元素分别被称作概念和关系的词汇标识( l e x i c a l s i g n s ) 。 关系r e f c - c s 。x c ,被称作概念的词汇引用( 1 e x i c a lr e f e r e n c e ) 。 关系r e f r 互s 8 x r ,被称作关系的词汇引用( 1 e x i c a lr e f e r e n c e ) 。 基于r e f c ,对s s 。,可以定义: r e f c ( s ) = c e c l ( s ,c ) r e f c ) 和,对c e c ,可以定义: r e f c “( c ) = s es i ( s ,c ) r e f c 】 r e f r 、r e f r 。可以类似给出。 例如:1 个本体的结构为: c = ( c l ,c 2 ,c 3 ,) 、r = ( r 1 ) i s a ( c 2 ,e 1 ) 、r l ( c 2 ,c 3 ) 对应的词典: s 。= p e r s o n ,e m p l o y e e ,o r g a n i z a t i o n ) s r = w o r k sa t ) r e f c ( p e r s o n ) = c l r e f c ( e m p l o y e e ) = c 2 r e f c ( o r g a n i z a t i o n ) = c 3 r e f a (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重大自然灾害中档案应急管理机制研究
- 主动脉夹层诊断与护理
- 零售行业代收货款服务条款协议
- 文化创意产业财产抵押贷款协议
- 菜园种植与城市垃圾分类回收合同
- 茶楼茶艺与茶文化主题酒店合作合同范本
- 车库租赁与停车场综合管理合同
- 拆迁安置补偿居间服务协议书
- 电视剧拍摄现场制片助理劳务合作协议
- 彩钢房仓储物流合作项目承包协议
- 2025年教科新版五年级语文下册阶段测试试卷
- 《MLCC制程介绍》课件
- 关于物业客服培训的
- 咖啡有关知识
- 医院感染管理制度培训
- 防风固沙造林施工承包合同
- 2024进户门、单元门、防火门采购及安装合同 标准版 模板
- 《工业园区物业服务》课件
- 新版中国食物成分表
- 团员发展纪实簿
- 机动车查验员(中级)职业鉴定理论考试题及答案
评论
0/150
提交评论