已阅读5页,还剩73页未读, 继续免费阅读
(计算机应用技术专业论文)基于语义web的本体映射.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于语义w e b 的本体映射 摘要 当前语义w e b 在w e b 技术领域已成为一个研究热点,语义w e b 不是一种全新 的w e b ,而是对当前w e b 的扩展,其中的信息被赋予明确的含义,使机器和人能 更好的协同工作。w e b 上的信息是用结构化形式表示的,其中的语义是通过本体 来描述。本体是共享概念模型的明确的形式化的规范说明。由于创建者和建模方 法不同,要实现信息的共享就要对信息达成一致的理解,也就是在相关本体之间 建立映射。 本文在介绍w e b 技术发展的基础上,阐述了语义w e b 相关技术基础,包括本 体的概念、分类、本体描述语言及形式化基础,对现有本体映射方法进行分类, 并重点介绍了几个已有的本体映射工程的相似度计算方法或映射过程。在此基础 上采用一种混合的相似度度量方法,初步实现了用o w ld l 作为描述语言的本体 之间的映射。为了提高映射效率,使用多种策略构建候选映射空问而不是直接生 成所有可能的候选映射对,首先从具有相近标签的实体开始构造,然后对其中相 似度较高的实体进行繁殖,即把与它们相关的实体组成映射对添加到候选映射空 间。在相似度方面,分别从实体层、语义网络层和描述逻辑层上计算实体在本体 模型中的相似度,除了使用编辑距离外还引入了应用本体w o r d n e t 计算实体之间 的初始相似度,之后使用启发式规则对相似度进行细化,每条规则都是基于实体 在本体模型中的某种特征抽取出来的。然后在本体专家的参与下,对由不同规则 计算出来的相似度赋予不同的权值,生成综合相似度,相似度足够大的映射对则 认为映射成立。重用已经被认为成立的映射对可以对相似度的计算产生积极的影 响,并且可以减少候选映射空间中的候选映射对的数目,所以可以提高映射速度。 文章通过输入两个有关教育系统的特殊本体对映射过程做了详细说明,指出 了影响映射过程的关键问题,并给出了在保证映射质量的前提下提高映射效率的 建议。由于基于语义w e b 的本体映射研究还处于起步阶段,还有很多工作要做, 所以文章最后对迸一步工作进行了探讨。 关键词:语义w e b 、本体、o w l 、映射 基于语义w e b 的本体映射 a b s t r a c t t o d a y ,t h es e m a t i cw e bh a sb e c o m eah o t s p o ti nw e br e s e a r c ha r e a ,a n d i t i sn o tas e p a r a t ew e bb u ta ne x t e n s i o no ft h ec u r r e n to n e ,i nw h i c h i n f o r m a t i o ni sg i v e nw e l 卜d e f i n e dm e a n i n g ,b e t t e re n a b l i n gc o m p u t e r sa n d p e o p l et ow o r ki nc o o p e r a t i o n t h ei n f o r m a t i o ni sr e p r e s e n t e di n s t r u c t u r a lf o r m ,i nw h i c ht h es e m a n t i ci sd e s c r i b l e db yo n t o l o g i e s a n o n t o l o g y i saf o r m a l , e x p l i c i t s p e c i f i c a t i o n o fa s h a r e d c o n c e p t u a l i s a t i o n b e c a u s et h ec r e a t o ra n dm o d e l l i n gm e t h o dm a yb e d i f f e r e n t ,w em u s tc o m e t oa n a g r e e m e n ti no r d e rt oi m p l e m e n t i n g i n f o r m a t i o ns h a r i n g ,a n dt h a ti st os a y ,b u i l d i n gm a pb e t w e e no n t o l o g i e s a f t e ri n t r o d u c i n gw e br e s e a r c hc o n d i t i o n ,t h ep a p e rt a l k sa b o u t s e m a n t i cw e br e l a t e dt e c h n o l o g i e s ,i n c l u d i n gt h ec o n c e p to fo n t o l o g y ,t h e c l a s s i f i c a t i o no fo n t o l o g y t h ed e s c r i p t i o nl a n g u a g eo fo n t o l o g ya n dt h e f o r m a lf o u n d a t i o n t h e nw ec l a s s i f yt h em a p p i n gm e t h o d s ,a n di n t r o d u c e s i m i l a r i t yc o m p u t i n gm e t h o d si ns e v e r a lm a p p i n gp r o j e c t so rm a p p i n g p r o c e s s ,a n di m p l e m e n t i n gt h eo n t o l o g ym a p p i n gi no w ld le l e m e n t a r i i f i no r d e rt oi m p r o v ee f f i c i e n c y ,w ef i r s tc h o o s et h ee n t i t i e sw i t hc l o s e s t l a b e lt oc o n s t r u c tt h em a p p i n gs p a c e ,t h e nw ep r o p a g a t et h em a p p i n gp a i r w i t hh i g h e rs i m i l a r i t y ,n a m e l yc o m p o s em a p p i n gp a i ri ne n t i t i e sr e l a t e d w i t ht h e ma n da d dt om a p p i n gs p a c e t h em a p p i n gp a i r ss i m i l a r i t yi s c o m p u t e di ne n t i t yl e v e l ,s e m a n t i cn e tl e v e la n dd e s c r i p t i o nl o g i c l e v e l i ne n t i t yl e v e l ,t h er e s u l ti si n i t i a l i z e di ne d i td i s t a n c eo r w o r d n e tm e t h o d ,a n dt h er e s u l tc a nb er e f i n e di nh e u r i s t i cr u l e sl a t e r t h e r u l e sa r eb a s e do nt h ef e a t u r e sw h i c ha r ee x t r a c t e df r o mt h eo n t o l o g y i n o r d e rt or e f l e c tt h es i m i l a r i t yi nd i f f e r e n tl e v e l ,w ec h o o s ed i f f e r e n t w e i g h t sf o rd i f f e r e n tr u l e st oc o m b i n et h er e s u l tw i t ht h eh e l po fo n t o l o g y e x p e r t s w ec o n s i d e rm a p p i n gp a i rw i t he n o u g hl a r g es i m i l a r i t ya sg o o d m a p p i n g i nt h ep r o c e s s ,w ef i n d t h a tt h ee x p l i c i tm a p p i n gr e u s eh a s p o s i t i v ei n f l u e n c eo nt h ea c c u r a c y ,a n dc a nr e d u c et h en u m b e ro fc a n d i d a t e 基于语义w e b 的本体映射 m a p p i n gp a i r s ,s oc a ni m p r o v et h em a p p i n gs p e e d t h ep a p e rs p e c i f i e st h em a p p i n gp r o c e s si nd e t a i1 t h r o u g hi n p u t t i n g t w os p e c i a lo n t o l o g i e sa b o u tg r a d u a t i o ns y s t e m ,a n dp o i n t so u tt h ek e y p r o b l e ma f f e c t i n gm a p p i n gp r o c e s s ,a n da l s og i v e sa d v i c et oi m p o v em a p p i n g e f f i c i e n c yo nt h ep r e m i s eo fg u a r a n t e e i n gt h em a p p i n g q u a l i t y t h e o n t o l o g ym a p p i n gr e s e a r c hb a s e do ns e m a n t i cw e bi sj u s tu n d e r w a y ,a n dt h e r e i sl o t s o fw o r kt od o ,s or e l a t e df u r t h e rw o r ki sd i s c u s s e da tl a s t k e yw o r d s :s e m a n t i cw e b 、o n t o l o g y 、w e bo n t o l o g yl a n g u a g e 、m a p p i n g 基于语义w e b 的本体映射 插图清单 图1 1 获取信息的方式 图2 1 语义w e b 层次结构图 图2 2r d f ( s ) 部分建模原语之间的关系 图3 1 映射生成图 图3 2 两个x m ls c h e m a 图3 3 本体映射的三种体系结构 图3 4 匹配分类方法 图3 5 两个本体中类之间的路径图 图3 6 使用p r o m p t 合并本体的流程图( 白色表示用户完成的动作) 图3 7 订购单模式 图3 8s f 算法示例图 图3 9 实例分类过程 图3 1 0 不同映射方法的比较 图4 1 映射基数示例 图4 2 映射过程图 图4 3 映射生成数据流图 图4 4 本体中实体的相似度栈 图4 5 本体特征及计算方法 图4 6 术语在w o r d n e t 中的存储示例 图4 7s i g m o i d 函数 图5 1 用w o r o n e t 计算初始相似度的时间比较 图5 2 实验界面 图5 3 实验结果 图5 4 用编辑距离计算初始相似度的时间比较 0 0 埒 筋 筋 勰 勰 n 弘 踮 盯 眈 铊 甜 盯 们 镐 弛 弱 鹋 甜 钮 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得宝燃或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名:漂晚鸯 签字日期: 2 b 曲年5 月7 日 学位论文版权使用授权书 本学位论文作者完全了解寝喘炙媸有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权当 ;o :蹲可以将学位论文的全部或部分内容编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 垛吼涛 导师签名:泐4 签字日期:2 6 年弓月7 日签字日期:z 一以年夕月f 日 学位论文作者毕业去向: 工作单位:电话: 通讯地址:邮编: 第一章引言 1 1 研究背景及动机 1 1 1w e b 技术发展 第一章引言 i n t e r n e t 作为一种分布式开放互连的信息系统,从出现的那- - n 起,就开始 改变人们获取信息及应用服务的方式,如信息检索、电子商务、远程教育、数字 图书馆等。w w w 通过一系列标准实现不同层次上的信息交互,使用t c p i p 协议保 证线路传输数据的准确性,使用h t t p 协议获取超文本。从w e b 技术发展过程看“1 , 可将w e b j a l j 分为三代,即 第一代( 9 0 年代早期) :以h t m l 为标志,为了展示数据内容,而不是描述 数据内容本身,其实现了表现形式与文档位置的分离。w e b 只是一个针对人阅读 的发布平台,由一系列的超文本链接而成; 第二代( 9 0 年代后期至今) :以x m l 为标志,用户可以根据需要制定能够反 映数据内容的标签,实现了对文档的有效管理,即文档结构与表现形式的分离。 x m l 以及相关技术的出现使传统万维网上的信息内容从面向人浏览到面向机器自 动处理迈出了重要一步; 第三代:以r d f ( s ) 、o w l 为标志,它将实现文档含义与文档结构的分离作为 目标,这种含义可以被共享,并且可以被机器处理,它将提供诸如信息代理、搜 索代理、信息过滤等智能服务,即语义w e b 。 当前的第二代w e b 的不足之处越来越突出。比如在信息查找方面,高速增长 的海量信息一方面为人们找到所需信息提供可能,另一方面也为准确找到所需信 息设置了障碍,可能会出现大量冗余甚至无关的信息,这就是“丰富的数据,贫 乏的知识问题”。究其原因在于,目前w e b 上的数据仅是计算机可读的,搜索引 擎仍不能很好的理解人的查询请求。目前常见的查询策略是,将用户的查询请求 分解成若干关键字,根据这些关键字计算w e b 文档跟用户请求的匹配程度,从而 挑出若干匹配的文档。简单的匹配不能解决同名异义( 相同的名字,意义却不相 同) 和异名同义( 同义词) 问题,所以会出现上述结果。虽然近年来自然语言处 理( n l p ) 、机器学习等领域对文本内容的理解等方面做了大量的努力,提出了基 基于语义w e b 的本体映射 于概率、向量空间等技术解决对文本内容相关性的理解问题,但是从效果上看还 不能让人满意。这也成为人们进一步研究的动力。如果机器能够理解用户的查询 以及w e b 文档的内容,那么返回结果就会非常接近用户的查询请求。在w e b 服务 方面,当前w e b 服务采用的是以s o a p 为发送和接受x m l 数据的消息协议,底层 的传输则采用h t t p 、f t p 、s m t p 等i n t e r n e t 协议。服务的描述、查找和发布分 别采用了w s d l 、d i s c o 和u d d i 等技术标准。】,服务的描述在语义上同样存在二 义性问题,这就导致了服务的发现、查询、匹配等一系列集成服务还需要人工参 与,自动化程度不高。 w e b2 0 技术的出现,对人们获取信息资源的方式带来了深刻的影响,“w e b 2 0 作为平台,并没有一个明确的界限,象是一个重力核心( g r a v i t a t i o n a l c o r e ) 。不妨将w e b2 0 视作一组原则( p r i n c i p l e s ) 和实践( p r a c t i c e s ) ,由 此来把离核心或远或近的网站组成为一个类似太阳系的网络系统,这些网站或多 或少地体现着w e b2 0 的原则。1 。这种应用模式使用到的新理论和技术有六度 分割、x m l 、a j a x ,标志应用软件有b l o g 、t a g 、s n s 、r s s 、w i k i 等。其中b l o g ( 博客) 是一个易于使用的网站,用户可以发表新信息,并且可以和其他用户内 容链接;t a g ( 标签) 是一种更为灵活、有趣的日志分类方式,可以为每篇日志 添加一个或多个t a g ,然后可以看到博客网站上所有使用了相同t a g 的日志,并 且由此和其他用户产生更多的联系和沟通;s n s 是一种社会性网络软件,依据六 度理论,以认识朋友的朋友为基础,扩展自己的人脉关系;r s s 是用来在站点之 间共享内容的一种方式,读者可以通过r s s 订阅一个b l o g ,确知该b l o g 最近的 更新情况;w i k i 是支持面向社群协作式写作的超文本系统。w e b2 0 鼓励用户用 最方便的办法发布内容,通过用户自发的或者系统自动以人为核心互相链接给这 些看似凌乱的内容提供索引,更多地考虑社会性因素使互联网更加有序。 语义w e b 不是一种全新的w e b ,而是对当前w e b 的扩展,其中的信息被赋予明 确的含义,使机器和人能更好地协同工作“3 。它的构想是在网页中使用公认语义, 将网页里的内容表述成机器可以理解的格式,普通用户也可以使用不用定制的软 件提供的语义标签添加新的概念以及推理规则来编织语义网,这样,整个互联网 就成了一个结构严谨的知识库。它就可以为有逻辑内涵的w e b f q 容提供语义结构 及相应的信息访问和集成机制,从而为构建一个能够按需集成各种信息、完成特 第一章引言 定任务的信息管理奠定基础。在未来的语义w e b 中,机器真正理解和利用w e b 信息 来提供智能化的服务是在代理层完成的,如图1 1 中所示,使用本体和规则来描述 网络服务,客户代理就可以使用规则推理来发现所需的服务,然后根据服务的使 用规则与服务代理自动集成,从而完成客户代理中的任务。可见相对w e b2 0 ,语 义w e b 贝t j 是使用数据规整,提供语义化的信息内容,更多地从规则和技术标准上 使互联网更加有序。 图11 获取信息的方式 要实现异构和分布平台之间的互操作,必须要保证计算机对网络上的信息共 同理解,这就要使计算机能够访问结构化的信息集以及能够引导自动推理的规则 集,人工智能研究者早在w e b 发明之前就有对这个领域研究,考虑到人工智能研 究了很长时间,而在商业应用上并没取得成功,于是人们开始担心语义w e b 会不 会重复人工智能的道路。这种担忧是不正确的4 ,因为人工智能的目标是构建能 够展示人类智慧( 甚至更高级) 的智能代理。它追求集中式的、封闭的知识处理, 并希望得到完全知识,这也是为什么人工智能没有象当初预想的那样给人们带来 惊喜的主要原因。而语义w e b 则追求部分解决方法,如果智能代理不能象人那样 对一个问题给出所有结论,至少这种代理可以协助人们完成日常的网络活动。 w e b 上的语义资源需要用本体描述的术语进行标记,使用不同本体的应用在 交互时,会遇到语义冲突问题,一种解决方法就是在本体之间建立映射。 1 1 2 本体映射的研究现状 当前国内外很多高校及研究机构对这个领域均有研究,开发了不少工具。 3 基于语义w e b 的本体映射 f a l c o n “1 是东南大学正在开发的一个语义w e b 应用系统,它将提供使用本体驱动 的方法完成本体的发现( f i n d i n g ) 、串联( a l i g n i n g ) 和学习( 1 e a r n i n g ) 以及 最终捕获( c a p t u r i n g ) 知识等服务。国外已开发出本体映射、合并工具,如p r o m p t 、 c u p i d 、s i m i l a r i t yf l o o d i n g 、g l u e 等,它们从不同角度对实体的相似度度量, 有元素级、结构级以及实例级等”1 ,但还存在以下问题: 1 、通用性不高这些工具大都是针对特定领域的本体或不同的版本效果比 较明显,换成其他领域的本体,效果就不是很明显; 2 、映射效果和效率很难同时保证为了获得较准确的相似度,使用的计 算方法会e e 较多,这样就势必影响到效率,所以要在映射效果和效率之间 找个平衡点: 3 、计算方法不够全面虽然现有的计算方法能体现出实体层、语义网络层、 描述逻辑层这些层次的相似度,但对描述层和规则层,由于本体规则的限 制和推理依然没有成熟的理论,目前还没有对这些层次的相似度计算的标 准: 4 、自动化程度不高目前大多数方法还处于半自动状态下,映射对经过计 算后,同一个实体可能参与了多个映射,由于现有计算方法的不足,相似 度最高的那个映射,并不一定是准确的,这就需要用户手工选取以决定选 用哪个结果。 1 2 研究内容 本文以安徽省教育厅自然科学研究项目一基于x q u e r y 引擎及基于x o u e r y 的信息集成软件开发工具包研究为背景,使用相似度度量技术对w e b 上本体之 间的映射展开研究,目的是解决信息集成中的语义异构问题。在本体规模较小的 情况下,可以手工建立映射,但是当规模达到一定程度时,单纯的手工建立映射 是不现实的,因此要使用一种自动或半自动的方法来建立映射。文章使用一种混 合的相似度度量方法,初步实现用o w ld l 作为描述语言的本体之间映射。在映 射过程中,对相似度的量化是必须要解决的问题。文章在引入语义w e b 相关技术 基础后,围绕相似度的度量展开,根据映射方法的分类对相似度计算方法做了分 析比较,同时引入了应用本体w o r d n e t 来计算术语的初始相似度,之后使用启发 式规则从实体在本体中不同语义层次对相似度进行细化。为了提高映射效率,使 第一章引言 用不同的策略有选择的生成候选映射对,在必要时对映射对进行繁殖,并对已知 映射进行了重用。 1 3 论文的成果和章节组织 本文讨论了基于语义w e b 的本体映射的方方面面,主要在以下几个方面获得 一定的研究成果。 l 、对当前w e b 技术发展进行了分析,指出了当前w e b 所面临的问题,对语 义w e b 的体系结构及相关技术基础进行了说明; 2 、讨论了本体映射的一般解决方法,重点分析了几个现有的本体映射工具, 对它们的相似度计算方法或映射过程作了比较; 3 、给出了用w o r d n e t 计算术语初始相似度的方法,并使用一种混合相似度 计算方法,初步实现了用o w ld l 作为描述语言的本体映射; 4 、为提高映射质量和映射速度,给出了一些优化策略,为以后的工作打下 基础。 本文的章节组织如下: 1 、第二章:介绍了语义w e b 相关技术基础,包括语义w e b 体系结构,本体 的概念、分类及描述语言; 2 、第三章:讨论了本体映射的一般解决方法,在重点介绍几个映射工具的 基础上,对常用的相似度计算方法进行了分析比较; 3 、第四章:重点分析了映射的体系结构和映射过程,在构建候选映射空间 时,使用的是繁殖策略,不断壮大参与映射的实体范围,在相似度计算 上除了使用常用的字符串计算方法外,还引入了w o r d n e t 计算作为初始 相似度,之后的相似度是根据实体的特征选用启发式规则计算的,同时 还对已知映射进行了重用; 4 、第五章:通过输入两个特殊的本体,以实例的形式详细分析了本体映射 的过程,并对提高映射效率给出了建议; 5 、第六章:总结全文,指出进一步的研究方向。 基于语义w e b 的本体映射 第二章语义w e b 基础 2 1 语义w e b 体系结构 在x m l2 0 0 0 会议上,t i mb e r n e r s l e e 首次给出了语义w e b 基本构架。1 ,它是 个功能逐层增强的层次化结构,如图1 2 。2 0 0 1 年2 月w 3 c 组织正式推, m , s e m a n t i c w e ba c t i v i t y ,它成为推动语义网研究和发展的主要力量。 图2 1 语义w e b 层次结构图 u n i c o d e u n i c o d e 是一种新的字符编码标准,它支持世界上所有的语言。 独立于具体的应用平台与应用程序,不论使用什么语言,每个字符都对应于一个 唯一的编码值。它是语义w e b 多语种支持的基础。 u r i u r i 包含了u r l 和u r n ,能够无二义地标识w e b 上的任意一个资源及其 属性,在需要的时候通过链接引用,因此不需要对资源进行拷贝或集中管理。 x m l 及命名空间x m l 提供了文档结构化的语法,允许用户自定义标签,但 标签没有具体的语义,其实现了文档结构与文档表现形式的分离,根据不同的目 的,同一个文档可以有不同的表现形式。x m ls c h e m a 是约束x m l 文档结构的语言。 x m l 名字空间是名字的一个集合,用于避免自定义的相同的标签名引起的冲突, 由u r i 引用来标识。 r d f ( s ) x m l 实现了文档结构化,但文档信息并不包含任何语义。r d f 数据 模型能够为待描述的资源提供描述语义的能力, r d f 属性可以看作是资源的属 性,同时又表达了资源之间的关系,因此r d f 数据模型对应于传统的属性值对, 又类似于实体联系图。r d fs c h e m a 为r d f 模型提供了一个基本的类型系统,其目 的就是定义资源的属性,定义被描述的资源的类,并对类和关系的可能组合进行 第二章语义w e b 基础 约束,同时提供约束违例的检测机制。 本体层 虽然r d f ( s ) 能够定义对象的属性和类,并且还提供了泛化 ( g e n e r a l i z a t i o n ) 等简单语义,但它不能明确表达描述属性或类的术语的含义 及术语间的关系。本体层就是要提供一个能明确地形式化地定义术语含义及术语 间关系的语言,来表示共同认可的、可共享的知识,是解决语义层次上w e b 信息 共享和交换的基础。 逻辑、证明和信任 除了本体层定义的术语关系和推理规则外,还需要有 一个功能强大的逻辑语言来实现推理,逻辑层的目标就是提供一种方法来描述 规则。1 。证明语言允许服务代理在向客户代理发送断言的同时将推理路径也发送 给客户代理。这样应用程序只需要包含一个普通的验证引擎就可以确定断言的真 假。但是,证明语言只能根据w e b 上已有的信息对断言给出逻辑证明,它并不能保 证w e b 上所有的信息都为“真”,因此软件代理还需要使用数字签名和加密技术 用来确保w e b 信息的可信任性。 数字签名和加密数字签名简单地说就是- - d 段数据加密块,机器和软件 代理可以用它来无二义地验证某个信息是否由特定的可信任的来源提供,它是实 现w e b 信任的关键技术。公共密钥加密算法是数字签名的基础。 2 2 本体的概念与分类 2 2 1 本体的概念 本体的概念起源于哲学领域关于“存在”的研究,在哲学上的定义为:“对 世界上客观存在物的系统地描述,即存在论”,是对客观存在的描述、解释或说 明。在人工智能领域,最早定义本体的是n e c h e s 等人,他们给出的定义是“本体 通过定义相关领域词汇中的基本术语和关系,以及利用这些术语和关系的组合来 定义词汇的外延”“。即本体不仅包括明确定义的术语,还包括根据规则导出的 术语,是术语的一个闭包。g r u b e r 在1 9 9 3 年给出的定义最为著名,“本体是概 念化的明确的规范说明川。1 9 9 7 年,b o r s t 对g r u b e r 的定义作了一点改动,“本 体是对共享的概念化的形式化规范说明” 1 2 3o 后来s t u d e r 等人对上述两个定义 作了更深入的研究,“本体是共享概念模型的明确的形式化规范说明”“”,包 基于语义w e b 的本体映射 含四层含义:概念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。 概念模型概念模型是指对现实世界的一些事物的抽象建模,所建立的模型 确定了该事物的一些相关的概念: 明确所使用的的概念及这些概念的约束都有明确的定义,没有二义性; 形式化本体是计算机可读的; 共享本体中体现的是共同认可的知识,反映的是相关领域中公认的概 念集,不会局限于某些个体,而是被一个群体所接受。 本体的研究与应用主要包括3 个方面“”:( 1 ) 理论上的研究,主要研究概念及 其分类、本体上的代数:( 2 ) 在信息系统中的应用,主要包括处理信息组织、信 息检索和异构信息系统互操作问题:( 3 ) 本体作为一种能在知识层提供知识共 享和重用的工具在语义w e b 中的应用。 2 2 2 本体的分类 对不同的研究者,本体可以是个逻辑理论、一个形式化语义记录、逻辑理 论词汇、或概念化规约,但是依然可以看出,这些定义有着共同的目标,它们都 是捕获相关领域的知识,提供对该知识的共同理解,确定该领域内共同认可的词 汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇之间相互关系的 明确定义“”。根据本体不同方面的属性( 如形式化程度和描述的对象) 可以对本体 进行不同的分类“。 根据本体的形式化程度不同,可以把本体分为: 高度非形式化的( h i g h - i n f o r m a l )用自然语言自由随意地表达; 结构非形式化的( s t r u c t u r e d i n f o r m a l ) 用受限定的结构式自然语言表达: 半形式化的( s e m i - f o r m a l ) 用人工定义的形式语言表达; 严格形式化的( r i g o r o u s l yf o r m a l ) 用属性的形式语义、定理和证明严格、 仔细地定义术语,并使之具有正确性和完整性。 根据本体的描述对象不同,可以把本体分为特殊领域本体( 如医药、地理、金 融等) 、一般世界知识本体、问题求解本体和知识表示语言本体。 g u a r i n o 提出以详细程度和领域依赖度作为本体的划分基础“”,详细程度是指 第= 章语义w e b 基础 描述或刻画建模对象的程度,它是一个相对的较模糊的概念。详细程度高的本体 称为参考本体,详细程度低的本体称为共享本体。依照领域依赖程度可以分为顶 级本体、领域本体、任务本体和应用本体四类,其中: 顶级本体描述的是最普通的概念及概念之间的关系,如空间、时间、事件、 等,与具体的应用无关。其它种类的本体都是该类本体的特例。 领域本体描述的是特定领域( 医药、地理等) 中的概念及概念之间的关系。 任务本体描述的是特定任务和行为中的概念及概念之间的关系。 应用本体描述的是依赖于特定领域和任务的概念及概念之间的关系。 1 9 9 9 年p e r e z 和b e n j a m i n s 在分析和研究了各种本体分类法的基础上归纳出 1 0 种本体“:知识表示本体、普通本体、顶级本体、元( 核心) 本体、领域本体、 语言本体、任务本体、领域一任务本体、方法本体和应用本体。该分类方法是对 g u a r i n o 所提出分类方法的扩充和细化。但这1 0 种本体之间有交叉,层次不够清 晰。 2 3 本体的建模 p e r e z 等人用分类法组织本体,归纳出5 个基本的建模原语来形式化表示本 体1 : 类( c l a s s e s ) 或概念( c o n c e p t s )指任何事务,如任务、功能、行为、 策略和推理过程。从语义上讲,它表示的是对象的集合,其定义一般采用框架 ( f r a m e ) 结构,包括概念的名称,与其他概念之间的关系的集合,以及用自然 语言对概念的描述。 关系( r e l a t i o n s )在领域中概念之间的交互作用,形式上定义为r l 维 笛卡儿积的子集:r :c ,c 2 c 。如子类关系( s u b c l a s s o f ) 。在语义上关 系对应于对象元组的集合。 函数( f u n c t i o n s )一类特殊的关系。该关系的前n 1 个元素可以唯一 决定第n 个元素。形式化的定义为f :c 。xc :c 。一。一c 。如 p r i c e o f a u s e d c a r 就是一个函数,是根据车型、制造日期、行驶路程计算的 二手车的价格。 公理( a x i o m s ) 代表永真断言,如概念乙属于概念甲的范围。 实例( i n s t a n c e s )代表元素。从语义上讲实例表示的就是对象。 9 基于语义w e b 的本体映射 从语义上讲,基本的关系有四种: p a r t o f 表达概念之间部分与整体的关系; k i n d o f 表达概念之间的继承关系,类似于面向对象中的父类与子类之 间的关系。 a t t r i b u t e o f 表达概念的实例与概念之间的关系,类似于面向对象中的 对象和类之间的关系; 表达某个概念是另一个概念的属性。如“价格”是桌子的 一个属性。 在实际的建模过程中,可以根据具体的需要定义概念之间的关系,并不局限 于上面的4 种。一般来说,在构造一个本体时需要经过以下几步: l 、确定本体域和范围 对具体研究的领域建立相应的本体,领域越大, 所建本体就越大,因此需要限制研究的范围; 2 、可以考虑复用现有的本体如果所研究的领域需要用到其它领域的知 识,那么直接复用已有的本体,可以提高资源的利用率; 3 、列举出本体中的重要术语 把所研究领域的各个实体对象及其属性、 关系等都用术语表示出来; 4 、定义类和类层次类定义是指一个类的描述,其中包括类型定义,相 关子类的定义等。在定义类层次时可以用三种不同的方法:( 1 ) 、先定义最全面的 概念然后再对概念进行细化,即按自顶向下的方向来进行:( 2 ) 、先定义最具体的 概念,然后再把具体概念组合成最具概括性的概念,即按自底向上的方向来进 行:( 3 ) 把上述两种相结合,即按自顶向下和自底向上的两个方向同时进行。 5 、定义类的属性 对类进行定义时,可以同时定义类的属性。比较常用 的属性类型有字符型、数值型、布尔型和枚举型。 6 、定义槽的约束 一个槽可以有许多面。它们分别来描述值的大小、值 的类型、值的范围、值的维度等。 7 、生成实例 定义一个类所需要的单个实例,这个过程需要三步,即( 1 ) 选择一个类:( 2 ) 生成类的单个实例:( 3 ) 填充槽的值。 g r u h e r 于1 9 9 5 年在文献 1 9 中提出本体发展过程中构建本体的标准和原 则: 1 0 第二章语义w e b 基础 明确性和客观性本体应提供术语的明确、客观的语义定义,以及自然语 言文档; 完全性所给出的定义是完整的,完全能表达所描述的含义; 一致性由术语得出的推论与术语本身的含义是相容的,不会产生矛盾; 最大单调可扩展性 向本体中添加新的通用或专用术语时,不需要修改其 已有的内容; 最小承诺即对建模对象给出最可能少的约束,给使用者充分的自由根据 需要以让本体专业化和实例化。 2 4 元数据描述语言 2 4 1x m l 与x m ls c h e m a h t m l 起源于s g m l ,是定义独立于设备、系统的信息表示方法的标准,这种 信息是人和机器都可读的。x m l 。”是s g m l 的另一个应用,设计于9 0 年代后期, 它给s g m l 提供在w e b 环境中的可扩展能力。s g m l 允许内容和表示的分离。h t m l 在同一个框架中混合了内容、表示和处理,这样使得文档难以使用和维护。x m l 和它有关的标准支持内容( 作为抽象元素类型) 、表示( 作为格式对象一一一组 特定的元素类型) 和处理( 作为样式表) 相分离。 x m ls c h e m a 。”的目的是定义一类x m l 文档,可以看作是类型定义和元素声明 的一个集合( 词汇表) ,这些类型和元素的名字属于一个特定的名称空间,称为 目标命名空间,目标命名空间使我们能区分来自其他词汇表的定义和声明。下面 是用x m l 表示的一个定单。 基于语义w e b 的本体映射 其定单模式如下 x s d :e l e m e n tn a m e = ”s t r e e t ”t y p e = ”x s d :s t r i n g n 三 i 二二! i i f i 7 i 二二! 二i i 二i j i i i l _ 二! j i : 第二章语义w e b 基础 2 4 2r d f ( s ) r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 。2 1 是对象( 或资源) 以及它们之间 关系的数据模型,为数据模型提供了简单的语义,这些数据模型可以用x m l 语法 表达,用w e b 标识符( u r i u r i s ) 标识资源,用特定属性和属性值的陈述 ( s t a t e m e n t ) 描述资源。包括下面三种对象类型: 资源( r e s o u r c e s ) 任何一个可以描述的事物都是资源,比如:网页, 一本书等。每个资源都有一个u r i ,u r i 可以是一个u r l ,或者其他种类的唯一 标识符,资源的标识符并不一定非要能够访问到这个资源,u r i 不仅是用来定义 w e b 位置,还可以用来指电话号码、地理位置等。 属性( p r o p e r t i e s )用来描述资源的特定方面,特征、关系等,属性是 一种特殊的资源,用来描述资源之间的关系,r d f 里的属性同样用u r i 标识。这 种用u r i 标识资源的做法促使了命名空间的使用,即可以减少数据表示时用同名 标识异物所带来的麻烦。 陈述( s t a t e m e n t s ) 资源加上特定属性以及属性值的集合,一个陈述有 三个独立的组成部分,主体( s u b j e c t ) 、谓词( p r e d i c a t e ) 、客体( o b j e c t ) , 属性值可以是资源,也可以是文字( 1 i t e r a l s ) 原子值。 r d fs c h e m a 是描述资源中属性和类的词汇表,并带有资源和属性泛层次化 ( g e n e r a l i z a t i o nh i e r a r c h i e s ) 的语义,建模原语包括以下几个方面,它们之 间的关系如图2 1 所示。 1 、核心类 r d f s :r e s o u r c e 描述所有资源的类,所以它是r d f s :c l a s s 的实例,如图2 1 。 r d f s :c l a s s 定义了一组共享了某些相同属性的i n d i v i d u a l 。因为所有类 都是资源,所以r d f s :c l a s s 是r d f s :r e s o u r c e 的子类。c l a s s 能够通过s u b c l a s s o f 定义出一个特定的类层次。 r d f s :l i t e r a l 描述所有文字( 字符串) 的类 r d f :p r o p e r t y描述所有属性的类 r d f :s t a t e m e n t 描述所有陈述的类 2 、定义关系的核心属性 r d f :t y p e将一个资源和一个类相关联,这个资源被声明为这个类 基于语义w e b 的本体映射 的实例; r d f s :s u b c l a s s o f类层次可以通过给出诸如一个类是另一个或多个类的子 类这样的声
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广西防城港市东兴市商务和口岸管理局招聘12人备考题库(第五批)及答案详解(典优)
- 2026东方电气集团东方电机有限公司社会招聘备考题库有答案详解
- 客户关系维护询问函4篇
- 2026贵州遵义市红花岗区精神专科医院等两家见习单位招募见习人员11人备考题库附答案详解(综合题)
- 2026山东济宁市东方圣地人力资源开发有限公司招聘劳务派遣制护理员3人备考题库及答案详解(网校专用)
- 2026年新干县妇幼保健院托育综合服务中心招聘编外托育教师6人笔试备考试题及答案解析
- 2026江苏南通市崇川区卫生健康委员会所属部分事业单位(南通市口腔医院)长期招聘高层次人才2人备考题库附答案详解(模拟题)
- 2026四川外国语大学川外合建孔子学院(课堂)公派出国汉语教师选派备考题库含答案详解(典型题)
- 2026年上半年四川眉山市青神县从服务基层项目等人员中考核招聘乡镇事业单位人员4人备考题库附答案详解(培优a卷)
- 小学语文教师掌握高效教育策略指导书
- 传统曲艺进高校活动方案
- CJ/T 402-2012城市供热管道用波纹管补偿器
- 心电图基础知识与识图理论考核试题题库及答案
- 2025年四川省德阳市中考一模化学试题(含答案)
- 智能化弱电培训
- 杭州中好电子有限公司搬迁项目环评报告
- 悦己人生-大学生心理健康知到课后答案智慧树章节测试答案2025年春哈尔滨工业大学
- 学校工程设计任务书
- HAD 103-14-2023 核动力厂修改的管理
- 胃穿孔患者的护理
- 生物制品附录3培训
评论
0/150
提交评论