(计算机软件与理论专业论文)基于本体的语义信息集成与知识发现研究.pdf_第1页
(计算机软件与理论专业论文)基于本体的语义信息集成与知识发现研究.pdf_第2页
(计算机软件与理论专业论文)基于本体的语义信息集成与知识发现研究.pdf_第3页
(计算机软件与理论专业论文)基于本体的语义信息集成与知识发现研究.pdf_第4页
(计算机软件与理论专业论文)基于本体的语义信息集成与知识发现研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机软件与理论专业论文)基于本体的语义信息集成与知识发现研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关键词:本体,语义集成,自动问答系统,知识发现 a b s t r a c t t h ek e yo fs e m a n t i ci n t e g r a t i o na n dk n o w l e d g ed i s c o v e ri st h ea n t o m a t i cq u e s t i o n a n da n s w e rs y s t e m ( q a ) ,w h i c hi sc o n s i d e r e da sn e x tg e n e r a t i o no fs e a r c he n g i n e t h e q u e s t i o n ,w h i c hi sa n s w e r e db yu s e ri nn a t u r a ll a n g u a g e ,w i l lb eh a n d l e db yq aa n dt h e n t h ea n s w e ri nn a t u r a ll a n g u a g ew i l lb es h o w i ti sv e r yu s e f u la n dp o w e r f u ls y s t e m a t t h es a m et i m e ,o n t o l o g y , w h i c hi sv a l u e f u lc o n c e p t ,i sh o t p o to fs e m a n t i ci n f o r m a t i o n i n t e g r a t i o na n dk n o w l e d g ed i s c o v e r s t h ec o n t e n to ft h i si s s u ec o n s i s to fo n t o l o g y c o n s t r u c t i o n ,o n t o l o g yi n t e g r a t i o n ,a n ds i m i l a r i t yc o m p u t a t i o no fs e n t e n c e c o n s i d e r i n g t o n gy ic ic il i ni sak i n do fo n t o l o g y , t h i si s s u ed e s c r i b e st h ec o n s t r u c t i o no fq a b a s e do nt o n gy ic ic il i ni nd e t a i l t h er e s u l to fq ab a s e do nt o n gy ic ic il i n i n d i c a t e sg o o dp e r f o r m a n c eo fq a m a ox i n ( c o m p u t e rs o f t w a r ea n dt h e o r y ) d i r e c t e db ya s s o s i a t ep r o f g u oq i n g l i n k e yw o r d s :o n t o l o g y , s e m a n t i ci n t e g r a t i o n ,a u t o m a t i cq u e s t i o na n da n s w e rs y s t e m , k n o w l e d g ed i s c o v e r s 华北电力大学硕士学位论文 目录 摘要i a b s t r a c t i 第一章引论1 1 1 研究背景及意义1 1 2 研究的现状1 1 2 1 国外研究现状2 1 2 2 国内研究现状3 1 3 本文的工作3 1 4 本文的组织结构4 第二章本体理论概述6 2 1 本体的定义6 2 2 本体描述语言6 2 3 本体的分类8 2 4 本体的功能9 2 5 本章小结一l o 第三章基于本体的语义信息集成1 1 3 1 引言1 1 3 2 本体构建1 l 3 2 1 本体构建的原则l l 3 2 2 本体的建模元素1 2 3 2 3 本体构建的方法1 3 3 2 4 本体构建面临的难点。1 4 3 3 本体集成1 5 3 3 1 本体集成的核心问题1 5 3 3 2 本体集成的原则。1 5 3 3 3 本体集成的思路1 6 3 4 基于普适代理本体的语义信息集成1 8 3 4 1 基于普适代理本体方法的提出1 8 3 4 2 需要解决的问题1 8 3 4 3 基于普适代理本体的自动问答系统理论参考模型2 l 3 5 本章小结。2 3 第四章基于本体的句子语义相似度计算的研究2 4 4 1 引言2 4 4 2 基于空间向量模型的t f - ld f 句子相似度计算2 4 4 3 基于编辑距离的句子相似度计算2 5 4 4 基于本体的句子相似度计算2 7 4 4 1 基于距离的相似度计算模型2 8 4 4 2 基于内容的语义相似度计算模型2 9 4 4 3 基于属性的语义相似度计算模型2 9 4 5 本章小结3 0 i i 5 3 4 答案查找4 0 5 4 系统 平价4 l 5 4 1 自动问答系统评价机制。4 l 5 4 2 本系统的测评和分析4 2 5 。5 本章小结。4 3 第六章总结与展望4 4 6 1 当前工作总结4 4 6 2 下一步工作展望4 5 参考文献4 6 致 谢5 0 在学期间发表的学术论文和参加科研情况5 l i i i 1 1 研究背景及意义 随着互联网的普及,网上信息越来越丰富,搜索引擎如g o o g l e 、y a h o o 、百度 等已经逐渐成为人们生活内容的一部分。但是,传统搜索引擎有许多不足之处,它 返回的是许多相关的网页,而不是准确的答案。另外,它仅以关键词索引,没有触 及到语义信息,因此很难真正理解用户的意图。而在自动问答系统q a ( a u t o m a t i c q u e s t i o i la n da n s w e rs y s t e m ) 中,用户可以使用日常生活中的句子进行提问,系统 通过对问题分析、理解,直接返回给用户答案。因此自动问答系统更好地满足了用 户的要求。可以说,问答系统就是新一代的搜索引擎。q a 面对的信息源是w e b , 而w e b 的语义信息集成和知识发现成为当前q a 发展的瓶颈。因此,对网络环境 下的w e b 海量信息进行语义集成、分析处理并根据用户的问题实现基于查询驱动 的知识发现成为当前研究的新热点。 w e b 上的数据具有半结构性、异构性和分布性等特点,屏蔽这些特性,为用户 提供统一的模式,是目前w e b 信息集成的关键问题。而互联网上数据所固有的异 构性、分布性、增长性和变化性决定了结构方法不适应w e b 信息集成,并且随着 w 3 c 对s e m a n t i cw e b 的大力推广,面向语义的w e b 信息集成方法已成为w e b 信 息集成技术的研究重点【l 。2 】。随着信息资源共享越来越迫切的需求,随着互联网逐渐 成为信息共享的支撑平台,以语义w e b 为代表的语义技术,以其严格的逻辑基础 和标准化的技术路径,正逐渐成为未来w e b 信息系统的一项支撑技术。语义w e b 技术为w e b 信息系统提供了规范化的语义表达框架,以支持数据语义的明确表达。 其目的一方面是要在尽可能的程度上实现数据的无缝集成、服务的动态组合和资源 的自动发现;另一方面还缩小了人的认知域与计算机的处理域之间的距离,以支持 实现用直观的语义对w e b 信息资源进行操作。 在语义w e b 信息集成中必须提供一个通用的语义模型以解决语义异构问题。 这个通用的语义模型是一个与平台无关模型,屏蔽了w e b 信息之间的异构。本体 ( o n t o l o g y ) 作为“特定领域内概念以及概念之间关系的集合”【3 1 ,能够有效的表达 特定领域内的通用知识,非常适合作为面向语义的w e b 信息集成中通用语义模型。 1 2 研究的现状 自然语言是人类最习惯的交流工具,问答方式则是人们交换信息、进行学习最 快捷的方式之一【4 1 ,网络技术的普及与发展又打破了时空限制,特别是语义w e b 1 华北电力大学硕士学位论文 信息集成为人们提供了通过人机交互进行问答的途径。所以,对于基于自然语言理 解的自动问答系统,人们盼望已久。也是目前计算机科学、语言学、心理学、认知 学等诸多学科的热点研究课题,是国际会议t r e c ( t e x tr e t r i e v a lc o n f e r e n c e ) 中最 关注的主题,是微软等大公司的重要研发课题【5 1 。从2 0 0 8 年开始,t r e c 与d u c ( d o c u m e n tu n d e r s t a n d i n gc o n f e r e n c e ) 合作举办t a c ( t e x t a n a l y s i sc o n f e r e n c e ) , q a 成为会议的三大主题之一。 基于本体的语义信息集成与知识发现属于自然语言理解范畴,主要涉及哲学、 认知学、语言学、数学和计算机科学等,是多学科的交缘研究。其中哲学的研究可 提供研究的方法论,如本体论;认知学的研究提供有关认知模型;语言学的研究提 供问答及其他自然语言现象的规律;数学的研究将问答等规则、规律及其内在关系 抽象为数学描述以使其形式化和可计算【6 】;计算机科学则最终提供目标系统的具体 实现。 对于问答( q a ) 系统,按照问答的范围可分为:受限领域q a 系统和通用q a 系统。在t r e c 的支持下,面向大规模文本的英语通用q a 系统研究已取得很大的 进展;特别是在t r e c 8 开辟了q a 组后,出现了一些包含通用问句分析器的问答系 统,如m i t 的s t a r t 7 1 ,c m u 的j a v e l i n ,c o n c o r d i a 大学的q u a n t u m 系统【s 】。在 受限领域q a 方面,英语、日语和德语的q a 已经获得了相当的应用:如包含日语 问句分析器的的旅游问答系统t c s ( t r a v e lc o n s u l t a t i o ns y s t e m ) 等。 1 2 1 国外研究现状 一些著名的国外q a 系统介绍如下: 1 ) s t r a r t :网址为h t t p :w w w a i m i t e d u p r o j e c t s i n f o l a b ,是麻省理工学院开发的 自动问答系统。该系统是第一个面向互联网的自然语言问答系统。例如你提出“w h a t i st h el o n g e s tr i v e ri nt h ew o r l d ? ,你将得到“w i t hal e n 酵ho f4 1 8 0m i l e s ,t h en i l e r i v e ri st h el o n g e s tr i v e ri nt h ew o r l d 同时,该系统的答案不局限于文本,也可以是 图片,声音或者动画等。s t a r t 系统使用主题关系对象三元组的形式存放系统知识, 回答问句的能力比较有限,系统的精确性比较差,并且该系统只支持英文【9 j0 1 。 2 ) a s k j e e v e s :该系统是一家美国公司开发的,网址为h t t p :w w w a s k j e e v e s t o m 。 允许用户用自然语言提问,检索系统会自动分析用户的提问,然后通过与用户的交 互从而确定用户的最终意图,从而使得q a 系统能够充分理解用户的检索需要,这 种检索方式比单纯的基于关键词的检索方式更符合用户的需求。但是,返回的结果 仍然是相关网页,而不是答案。 3 ) a n s w e r b u s - 网址为h t t p :a n s w e r b u s c o l i u n i s b d e i n d e x s h t m l ,是一个比较 成熟的,基于语句级信息检索的开放式问答系统( q a ) 。接受用户输入的自然语言 2 华北电力大学硕士学位论文 问句,包括英语、意大利语、葡萄牙语、西班牙语、法语和德语,并从w e b 中抽 出可能的答案。利用5 个搜索和目录( g o o g l e ,y a h o o ,w i s e n u t ,a l t av i s t a h 和y a h o o n e w s ) 检索包含潜在答案的网页。对t r e c 8 的2 0 0 个问句测试的结果为准确率为 7 0 5 。这表明a n s w e r b u s 在外文智能搜索引擎方面是相当成功的。 4 ) f a q f i n d :芝加哥大学人工智能实验室开发的。该系统预先收集f a q ( f r e q u e n ta n s w e ra n dq u e s t i o n ) ,构建f a q 库,通过使用语义网分析与概念匹配 技术,采用基于向量的搜索引擎从问答对库中搜索答案。本文第五章中所描述的基 于同义词词林的自动问答系统的实现思想和本系统类似。 1 2 2 国内研究现状 国内,近几年许多科研机构和大专院校都投入了相当大的精力开展汉语自动问 答系统的研究,以下介绍几个国内研究成果比较突出,系统效果较好的自动问答系 统。 1 ) 红楼梦人物关系问答系统:中国科学院计算所在分析专家系统的基础上, 采用自然语言问答的人机交互技术,搭建了红楼梦人物关系问答系统,该系统能够 对文学名著红楼梦中的人物关系进行回答。 2 ) 校园导航e a s y n a v 系统:是由清华大学智能技术与系统实验室开发的,以提 供清华校园内地点信息查询服务为背景的口语对话系统。用户可以询问特定地点的 信息,查询满足要求的地点,询问去特定地点的走法,或进行其它校园信息的查询。 进行语言识别的口语对话是此自动问答系统特点。 3 ) 银行领域自动问答系统( b a q s ) :北京理工大学自然语言处理实验室开发 的银行领域自动问答系统是一个面向银行领域文本的汉语问答系统,系统通过预先 处理用户提供的与银行领域相关的文本信息( 如相关网页) ,便可根据用户的问题 ( 疑问句) ,从这些文本信息中自动提取相关的知识并自动形成答案。目前已经实 现了面向某商业银行的个人业务自动问答系统。 此外,复旦大学、哈尔滨工业大学、北京大学、北京语言大学、台湾大学、台 湾中央研究院和香港大学等都在对q a 进行研究。但是总体说来,汉语q a 的研究 起步不久,系统的准确率还不高,通用的问答系统离真实应用距离较远【1 1 1 。但人们 对该领域的关注却是空前的。 1 3 本文的工作 自动问答系统的信息源是w e b ,所以研究面向w e b 的语义信息集成与知识发现的 意义重大。如何从w e b 的海量的信息源中有效地提取并集成语义信息是工作的重点。 对w e b 进行语义信息集成与知识发现,必须提供一个通用的语义模型来解决不同系统 3 华北电力大学硕士学位论文 之间语义异构问题,这个通用的模型必须与平台无关,而本体作为计算机可处理、能明 确表达领域知识的载体,能够很好的解决这一问题。所以,本文主要从本体出发,探讨 基于本体的语义信息集成与知识发现的若干问题。 既然是基于本体的研究,那么如何构建本体是研究的第一步。本文列出了国际上公 认的本体构建准则,本体的主要建模语言,主要的本体构建方法和构建本体面临的问题 和难点等。并使用国际上流行的本体构建工具p r o t 6 9 6 ,来构建一个简单本体。基于本 体的w e b 语义信息集成的研究其实主要是一个本体集成的过程。接下来,本文主要使 用形式化的手段,大致描述了一个本体集成的过程。在使用查询驱动集成方式、面对多 领域信息源的w e b 信息集成应用中,用户的查询往往涉及多个信息源,也就是涉及到 多个领域本体,因此用户常常希望只需要查询一个特殊的本体就能查询到自己感兴趣的 内容。据此,本文提出一种基于普适代理本体的语义信息集成模型。普适代理本体就是 这个特殊的代理本体,它对外提供一个统一的查询接口,对内集成各个领域本体。本文 指出了基于普适代理本体的语义信息集成所需要研究的问题、内容和解决问题的思路。 句子相似度计算是自动问答系统研究的又一关键技术。比如基于f a q 自动问答系统 中需要计算用户问题与常用问答对库问题之间的相似度,在多文档自动文摘中也要用句 子相似度来对句子进行聚类。本文列出了基于空间向量模型的t f i d f 句子相似度计算 模型和基于编辑距离的改进句子相似度计算模型。同时,在基于本体的相似度计算研究 中发现,当前的研究主要集中在基于本体词汇相似度计算,而基于本体句子相似度计算 模型少有涉及。本文利用基于本体词汇相似度计算结果,提出一种基于统计的本体句子 相似度计算模型。 最后,本文实现了基于同义词词林的自动问答系统。因为,同义词词林作为语义知 识的载体,亦可被视为一种本体。本文详细描述基于同义词词林的自动问答系统实现过 程。此自动问答系统是一种基于f a q 的自动问答系统,主要分为问答对库的构建、问 题索引表的建立和答案搜索三个部分。问答对库的内容来自于百度知道的知识共享库, 从百度知道中爬取拥有最佳答案的问答对,构建常用问答对库。为了提高系统检索的效 率,适应数据量上万的问答对库的查询需求,本文采用倒排算法对问答对库的问题建立 索引。这样,系统只需检索索引表就能找到与用户问题最为匹配的答案。答案搜索部分 是指用户在系统界面中输入问题,系统实时查找索引表,并返回最佳答案的过程。最后, 本文从正确率、反应时间和常用问答对库问题数量等因素来评价了本系统的效率,本系 统的性能达到了预期研究目的。 1 4 本文的组织结构 本课题围绕基于本体的语义信息集成和知识发现研究而进行,主要包括本体理 论概述,基于本体的语义信息集成,句子的相似度计算,自动问答系统实现这四个 4 华北电力大学硕士学位论文 部分。本论文具体组织如下: 第1 章,指出了本文的研究背景和意义,简要介绍当前的研究现状和本文的主 要工作和组织结构。 第2 章,介绍本体理论基础知识。 第3 章,介绍基于本体的语义信息集成,主要包括本体构建和本体的集成。本 章第四小节还提出了一种基于普适代理本体的语义信息集成模型。 第4 章,探讨了几种句子相似度计算的模型,包括基于空间向量模型的t f i d f 句子相似度计算模型,基于编辑距离的改进句子相似度计算模型和基于本体的句子 相似度计算模型,并比较各自的优劣。 第5 章,详细地论述了基于同义词词林的自动问答系统的实现技术、过程和评 测结果,这个实现过程对基于本体的自动问答系统有着很好的借鉴意义,因为同义 词词林作为一种语义信息表达工具,也可视为本体的一类。 第6 章,总结与展望。对本课题的研究工作进行了总结,申明了本研究所取得的几 项研究成果,并给出了进一步的研究方向。, 5 华北电力大学硕士学位论文 第二章本体理论概述 本章介绍的是本体的基础知识,从本体的定义,本体描述语言,本体的分类, 本体的功能等方面全面介绍本体理论。其中,本体的描述语言主要是从基于a i 的 描述语言和基于w e b 的描述语言两个方面进行介绍。 2 1 本体的定义 本体( o n t o l o g y ) 最早是一个哲学上的概念,从哲学上理解,本体是客观存在的 一个系统的解释和说明。1 9 9 3 年,g r u b e r 对本体作了一个定义:“本体是概念模型 的明确的规范说明”【1 2 】。后来,b o r s t 在这个定义的基础上,另作了一个定义:。本 体是共享概念模型的形式化规范说明 【i3 1 。s t u d e r 对以上两种定义进行深入研究, 认为本体应该是“共享概念模型的明确的形式化规范说明一。我们从这个定义中能 看到四个关键词,它们分别是概念模型,明确的,形式化和共享【l4 1 。“概念模型一 是指通过抽象出客观世界中一些现象的相关概念而得到的模型。概念模型是独立于 具体的环境状态。“明确”是指概念及使用这些概念的约束都是有明确的定义。“形 式化 是指本体是计算机可处理,可理解的。“共享 是指针对的是大家而非个体 的共识。 虽然不同研究者对本体有不同的描述,但是从本质看,它们的内涵都是一致的, 都是把本体当做某个领域内不同主体之间进行交流的一种语义基础,作为知识的一 种承载工具。本体不但能描述领域内概念,还能描述这些概念之间的关系。因此本 体的用途包括交流,共享,互操作和重用知识等。 2 2 本体描述语言 本体作为知识表达的工具,描述概念与概念之间关系的载体,必须使用某种工具或 者语言表示和描述。本体的描述语言,被称为本体的构建工具或者表示语言。作为描述 本体的语言,应该具有如下的基本功能: 1 ) 为本体的构建提供建模元语。 2 ) 为本体从自然语言的表示格式转化为计算可处理表达格式提供表达能力。 3 ) 形式化语言表示,利用计算机可处理的形式化表示语言表示本体,可以直接被计 算机存储、推理和使用,并且在异构的系统之间进行互操作。 本体可以被自然语言描述,也可以使用框架、语义网络或逻辑语言描述表示。当前, 比较著名的本体描述语言可以分为两类:基于a i 的本体描述语言和基于w e b 的本体描 6 华北电力大学硕士学位论文 述语言。 2 2 1 基于al 的本体描述语言 从二十世纪九十年代起,一些基于趾的本体描述语言陆续提出,比如k i f 、 o n t o l i n g u a 、c y e l 、l o o m 、o c m l 和f l o g i c 。 1 ) k i f 。k i f ( k o n w l e d g ei n t e r c h a n g ef o r m a t ) 是由斯坦福大学知识系统实验室开发 的,它是一种在不同知识库之间交换知识的格式,是基于一阶谓词逻辑的语言。 2 ) o n t o l i n g u a 。o n t o l i n g u a 是一种基于k i f 的语言,它采用统一的规范格式来描述 本体。其特点是:为构造和维护本体提供统一的、计算机可处理的方式;由其构造的本 体可以方便地转换到各种知识表达和推理系统,从而将本体的维护与使用它的目标系统 分离。 3 ) c y c l 。c y e l 是c y e 系统的描述语言,一种体系庞大而非常灵活的知识描述语言。 其特点是:在一阶谓词演算的基础上扩充了等价推理、缺省推理等功能,具备一些二阶 谓词演算能力;其语言环境中配有功能很强大的推理机。 。 4 ) l o o m 。l o o m 是一种基于一阶谓词逻辑的高级编程语言。其特点是提供表达能力 强的,声明性的规范说明语言;提供强大的演绎推理能力及多种编程风格和知识库服务。 5 ) o c m l 。o c m l ( o p e r a t i o n a lc o n c e p t u a lm o d e l l i n gl a n g u a g e ) 是由英国的k m i ( k n o w l e d g em e d i ai n s t i t u t e ) 开发的。 6 ) f l o g i c 。f l o g i e ( f r a m el o g i c ) 是卡尔斯鲁厄大学开发的,是基于框架逻辑和一 阶逻辑的。它可以表示概念、概念分类、二元关系、函数、实例、公理和规则。 2 2 2 基于w e b 的本体描述语言 近年来,随着互联网的发展,出现了一系列基于w e b 的本体描述语言,也称本体标 记语言,如s h o e 、x o l 、r d f 、r d f s c h e m a 、d 舢v i l + - o i l 和o w l 。 1 ) s h o e 。s h o e ( s i m p l eh t m lo n t o l o g ye x t e n s i o n s ) 是h t m l 的扩展,是由马 里兰大学开发的。它基于框架和规则,使用不同于h t m l 的一些标记,使得可以在h t m l 文档中插入本体。 2 ) x o l 。x o l ( x m l b a s e do n t o l o g ye x c h a n g el a n g u a g e ) 是由s r i 国际人工智能 中心开发的。它是一种简单通用的定义本体的语言。 3 ) r d f 。r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) ,是w 3 c 在x m l 的基础上推荐 的一种标准,它提供一种框架用于描述资源的信息。r d f 的数据模型实质上是一种二元 关系的表达,由于任何复杂的关系都可以分解为多个简单的二元关系,因此r d f 的数 据模型可以作为其他任何复杂关系模型的基础。 4 ) r d f s c h e m a 。r d f s c h e m a 是r d f 的类型系统,它解决了r d f 中的属性集存在 7 华北电力大学硕士学位论文 的一义多词现象和一词多义现象,丰富了r d f 表达能力。 5 ) d a m l + o i l 。d a m l + o i l 是d a m lo n t 和o i l 结合而产生的。它的语法建立在 r d f 和r d f s 基础上,并用更丰富的建模原语对这些语言进行了扩展。 6 ) o w l 。o w l ( w e bo n t o l o g yl a n g u a g e ) 是w 3 c 推荐的本体描述语言最新标准。 它是在d a m l + o i l 基础上发展起来的。针对不同的应用需求,o w l 提供不同的版本。 目前o w l 有三个语言版本:o w ll i t e ,o w ld l 和o w lf u l l 。 ( 1 ) o w ll i t e :提供简洁的本体语言,支持那些主要需要分类层次结构和简单约 束的用户。 ( 2 ) o w ld l :对应于描述逻辑( d s e c r i p t i o nl o g i c ) ,构成了o w l 的形式基础, 在保证计算完备性( 保证所有的结论能够计算而得) 和可判定性( 所有的计算可在有限 的时间内完成) 的同时支持最大的描述能力。 ( 2 ) o w lf u l l :拥有最大的知识表达能力,但是没有计算完备性和可判定性保证 的子语言,是为特定场合应用而设计的。 综上所述的两大类共1 2 种本体表示语言,可以得出以下结论: 1 ) l o o m 是定义最完备、功能最齐全的本体表示语言,同时也是高级编程语言。l o o m 还是一种框架式语言,对一般用户而言不易掌握。 2 ) c y c l 仅次于l o o m ,是一种较好的本体表示语言。它的缺点在于它本身不是w e b 上的推荐标准,难以作为所有网络资源的标引规范使用。 3 ) o n t o l i n g u a 也是较好的本体表示语言。它具有较好的用户操作界面,但是它在推 理功能上有欠缺。 4 ) o w l 语言在推理功能的定义方面稍逊与c y c l ,但由于它是w 3 c 的推荐标准, 又具有与有多种本体语言的兼容性和交互性,所以对网络资源的标引和本体构建方面具 有广阔的应用前景。本文在3 2 2 节中,展示了一个关于“生物”的本体图,它是由p r o t 6 9 6 工具构建的,这个本体图的背后的形式化的说明就是用o w l 语言所描述的。 5 ) r d f 是w 3 c 推荐的较早本体表示语言,r d f 的数据模型实质上是一种二元关系 的表达,语义很清晰,初学者易于上手。 2 3 本体的分类 目前关于本体的研究比较广泛,尤其是在国外,许多研究组织和机构都研究建 立了各种各具特色的本体。针对目前出现的各种各样的本体,也出现了不同的分类 方法,根据本体的描述对象和应用领域不同,可以把本体分为以下几类: 1 ) 领域本体:领域本体提供该领域特定的概念定义和概念之间的关系,并提供 该领域中发生的活动以及该领域的主要理论和基本原理等。对特定领域的本体研究 和开发目前涉及许多领域,包括企业本体、医学概念本体、银行知识本体、酶催化 8 华北电力大学硕士学位论文 生物学本体等。 2 ) 通用本体或顶级本体:它涵盖了若干个领域,定义了这些领域通用的基本概 念和普遍的常识,并记录了领域本体与通用本体之间的关系。就是说,通用本体是 把若干领域的领域本体进行整合或者提炼而得到一个上层本体。 3 ) 表示本体或元本体:是指在一个特定的知识表示体系中,用来获取对知识进 行形式化表达的本体。这种本体规定实体的表示方式却不规定什么应该表示。例如, 框架本体定义了用来获取普遍规律的术语,这些普遍规律常用在以对象为中心的知 识表示系统中。 4 ) 应用本体:描述了既依赖于某个特定领域又依赖于某项具体应用的知识。这 类本体与解决问题的方法相关联。 5 ) 任务本体:也称为方法本体,任务本体是本体研究的另一个分支,主要研究 可共享的问题求解方法,任务本体主要涉及动态知识,而不是静态知识。任务本体 的研究以任务和问题求解方法本体研究为代表。任务本体中经常描述的要素包括: 任务目标、任务数据、执行状态等等。具体的研究主题包括:通用任务、与任务相 关的体系结构、任务方法结构、推理结构和任务结构等。当本体达到一定的数量时, 就需要一些任务本体去完成一些目标本体的查找,查询条件改写等工作,这些工作 可以由任务本体胜任。本文中所提出的普适代理本体就是一种任务本体。 2 4 本体的功能 现在,本体被大量运用于自然语言处理、数字图书馆、信息检索、知识工程、w e b 异构信息的处理、面向对象技术、软件复用和语义w e b 等领域。比较典型的应用有: 1 ) 基于本体的数据集成、机器学习等。 2 ) 基于本体的信息检索,特别是自动问答系统和搜索引擎。 3 ) 领域本体的运用,领域本体能对某个领域的知识进行形式化的存储,从而缩短人 类的认知域与计算机的处理域之间距离。 4 ) 在线元数据管理和自动信息发布。 5 ) 语义网服务。 本体能有如此的强大的功能,其主要原因如下: 1 ) 领域知识与具体知识的分离,这样同一个本体就可以在不同的应用场景中应用。 2 ) 本体存储客观世界的知识,能被计算机所理解,而且通过推理语言还能用于知识 推理。这是建立本体的重要目标之一。 3 ) 分析领域知识,本体术语的规范定义,使得领域知识分析成为可能。 4 ) 信息检索更加智能:由于本体刻画了事物之间的内在联系,这就使得信息共享和 信息检索更加智能化。 9 华北电力大学硕士学位论文 2 5 本章小结 本章介绍了本体的定义,本体的描述语言,本体的分类和本体的功能等内容,通过 对本体基础知识的介绍能够使读者对本体有一个基本了解,从而为我们对基于本体的语 义信息集成的研究奠定基础。 1 0 华北电力大学硕士学位论文 3 1 引言 第三章基于本体的语义信息集成 正如前文所阐述的,w e b 的迅猛发展,万维网上的资源越来越丰富,已经成为一个 巨大的全球化的信息仓库。如何更好的使用这一信息资源,利用这些资源为我们人类服 务,面向w e b 的自动问答系统是一个很好的解决途径。只要输入用自然语言所描述的 问题,就能得到相应的正确的答案,这样的系统是值得我们憧憬的。 w e b 上的数据具有半结构化,异构性和分布性等特点。屏蔽这些特点,为用户提供 统一的模式,是目前w e b 信息集成的关键问题,也是自动问答系统研究的关键所在。 目前分布式异构信息集成的方式主要有两种:结构化方法和语义方法。结构化方法的主 要特点是实现比较简单、信息源相对比较固定。其缺点是扩展性差,不提供语义级的检 索。语义方法的主要特点是扩展性好、适应动态信息源、支持语义级查询、使用本体作 为语义层的集成手段。其缺点是实现比较复杂,牵涉到本体的构建、映射、集成等诸多 问题。 本章着重地从本体的构建和集成等方面对基于本体的语义信息集成进行探讨,并介 绍一种基于普适代理本体的语义信息集成模型。 3 2 本体构建 3 2 1 本体构建的原则 出于对各自领域和具体工程( 任务) 的考虑,本体构建的过程也是各不相同。由于 没有一个标准的本体构建方法,研究人员从本体构建的实践出发,总结提出了不少有益 于本体设计的指导思想,其中最有影响的是g r u b e r 于1 9 9 5 年提出的5 条原则【1 6 】: 1 ) 明确性( c l a r i t y ) :本体应该能够有效的表达术语的内在含义。本体的概念定义 应该是客观的,即定义概念的动机可能起源于社会性情景或计算的需要,但应该独立于 社会或计算环境;概念定义又应该是形式化的,即尽可能使用完整性定义( 断言满足充 要条件) 代替局部性定义( 断言仅满足充分或必要条件) ,必要时可以采用逻辑公理描 述。 2 ) 可扩展性( e x t e n d i b i l i t y ) :本体在设计时应该能够预见共享词汇的用途,应该提 供一个概念基础以满足可预见的任务,以扩展现有的概念体系。换句话说,向本体中添 加专用术语时,不需要修改其已有的内容定义。 3 ) 一致性( c o h e r c n c e ) :本体应该能够支持与定义相容的推理,使推理和定义本身 华北电力大学硕士学位论文 不会产生矛盾。至少,定义的公理在逻辑上应该保持一致。 4 ) 最小编码倾向( m i n i m a le n c o d i n gb i a s ) :本体的概念模型应该被描述为知识层次, 而不依赖于符号层次的编码。编码主要是为了满足描述或执行的便利性。在本体设计中, 编码应该倾向最小化,使得在不同编码或不同类型编码描述的系统中满足知识共享。 5 ) 最小本体化承诺( m i n i m a lo n t o l o g i c a lc o m m i t m e n t ) :本体应该要求最小本体化承 诺以支持预期的知识共享行为。即仅需要定义知识交流所必需的术语即可。 3 2 2 本体的建模元素 通过对本体构成的研究,如何构建一个具体本体,主要是从以下五个基本的建模元 素着手,这些元素是类( c l a s s ) 、关系( r e l a t i o n s ) 、函数( f u n c t i o n ) 、公理( a x i o m s ) 和实例( i n s t a n c e ) 。通常,我们把类也称为概念( c o n c e p t s ) 。构成一个具体的本体一般 包括以下几个层次【1 7 1 : 类:主要是由该本体所具体描述的概念组成,这些概念通常是该本体的应用领域的 相关知识。表达概念的词汇通常是这些领域中通用的词汇,当一个概念能由多个词汇表 达时,通常选用较为常见的词来作为优选词,其他的词则被置于相应的关系规则中。这 些类是按照严格的等级关系组织在一起的,具有完整的继承关系,即子类完全继承父类 的属性。 关系:关系是描述本体提供的类之间所存在的各种关联性,是本体中比较重要的特 征,它把整个知识连成一个整体,基于本体的各种应用在较大程度上是依靠关系完成的。 本体中存在的基本关系有4 种:p a r t o f , k i n d - o f , i n s t a n c e - o f 和a t t r i b u t e - o f op a r t - o f 表达 概念之间部分与整体的关系;k i n d - o f 表达概念之间的继承关系,类似于面向对象中的父 类与子类之间的关系;i n s t a n c e - o f 表达概念的实例与概念之间的关系,类似面向对象中 的实例与类之间的关系;a t t r i b u t e o f 表达某个概念是另一个概念的属性,例如概念。年 龄一可以作为概念“人 的属性。通过这些关系能够把整个本体连结成一个交互复杂而 且能较好地反映客观知识的网络体系。 属性:属性是用于描述类的特征,说明类与类之间的区别和联系。 制约条件:本体的另一大特征是它包含一些制约条件,主要是用来说明关于属性取 值的具体条件与限制,以便计算机能够理解相应的知识,实现自动推理。 下面列出一个由p r o t 6 9 6 构建的关于生物的简单本体。此图只列出了“生物 本体的 类图。 1 2 华北电力大学硕士学位论文 图3 - 1 关于“生物概念本体的本体图 3 2 3 本体构建的方法 因为本体的构建没有统一的标准,不同的系统构建本体的标准和准则也不同,所以 目前存在的本体的构建方法也都是不一致的,几乎每一个系统所构建的本体都会有不同 的本体构建方案。比较著名的本体构建方法有如下七种: 1 ) m i k eu s e h o l d d e d e 和k i n g 的“骨架 法 该方法是建立在企业本体基础上的,是相关商业企业间术语和定义的集合,该方法 只提供开发本体的指导方针。它没有完整的生命周期,而且只能在某一特定领域作本体 应用【1 8 - 2 0 l 。 2 ) g r u n i n g e r & f o x 的“评价 法 该方法也称为t o v e t 2 1 。2 3 1 ,用于构造多伦多虚拟企业本体工作,使用一阶谓词逻辑 集成。t o v e 本体包括企业设计本体,工程本体,计划本体和服务本体。该方法有不完 全的生命周期,可以运用于多个领域,并且构建过程有详细的描述,参考文献2 l 中有 详细的描述。 3 ) “m e t h o n t o l o g y 方法 此方法由马德里大学工艺分校开发人工智能图书馆时而创建的,它将本体开发进程 和本体生命周期两个方法区别开来,使用不同的技术进行支持。它有完整的生命周期, 能够运用于多个领域,并且构建细节非常的详细,具有借鉴意义2 1 之3 1 。 4 ) k a c t u s 工程法 k a c t u t 2 4 j - v 程法是基于k a c t u s ( 关于多用途复杂技术系统的知识建模) 项目, 是由b e r n e r a s 总结。这种方法开发本体由应用开发控制,所以每一个应用都有相应的表 示该应用的本体,这些本体既能重用其他的本体,也能被后继应用集成。k a c t u s 工程 法是在现存本体知识库的基础上,通过抽象化过程构建本体的方法。 5 ) s e n s u s 法 s e n s u s 法【2 5 】是开发用于自然语言处理的s e n s u so n t o l o g y 的方法路线,由美国南加 13 华北电力大学硕士学位论文 州( u s c ) 信息科学研究所( i s i h f o r m a t i o ns c i e i l c eh s t i m t e ) 研制开发的。这种方法是 一种自项向下的本体构建方法,即从原始本体中获得专用领域本体的过程。这种方法促 进了知识的共享,可以从同一“原始本体”库中获得多个领域的“专用本体一库。为了 能在s e n s u s 基础上构造特定领域本体,必须把不相关的术语从s e n s u s 中剔除。 6 ) i d e f 5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论