




已阅读5页,还剩77页未读, 继续免费阅读
(管理科学与工程专业论文)语义web的知识表示语言及其应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 语义w e b 被视为下一代互联网的演进方向之一,是当今互联网 技术研究的热点。目前,语义w e b 的研究总体上还处于起步阶段, 主要集中在本体层及其以下各层,知识表示与推理是当前解决的主 要问题。国内在这方面的研究才刚刚开始。 作者从语义w e b 的层次体系结构和知识表示方法入手,以w 3 c 的相关技术规范为主线,对r d f ( s ) 和o w l 两种语义w e b 的知识 表示语言进行了深入研究。重点放在对其语义表达能力的合理分类 和对技术规范源码的剖析上,同时以u m l 图的方式直观清晰地展示 了技术规范中预定义的词汇以及使用这些词汇的结构。 基于上述研究,作者进行了两方面的应用实践:针对0 w l 现 有知识表示能力的不足,给出了一种可行的扩展方案及其实现,并 给出了实例;以一个基于语义w e b 的网上求职招聘的原型系统为应 用实例,完整地给出了其概念抽取与本体建模过程以及基于o w l 的知识表示源码。 本文的研究是基于语义w e b 的企业应用集成、领域知识集成的 基础性研究工作。 模 关键词语义w e b ,知识表示语言,i f ( s ) ,o w l ,本体建 a b s t r a c t s e m a n t i cw e b 。i sr e g a r d e da so n eo ft h ed e v e l o p i n g 扛e n d so fn e x t g e n e r a t i o no f1 1 1 t e m e t ,w h i c hi s ah o t s p o tu n d e rr e s e a r c h i n g c u r r e n n y , s e m a n t i cw e br e s e a r c hs t a y s 叽a ni n i t i a l8 t a g e ,i i 】b i n l yf o c u s i n go n 也e o n t 0 1 0 9 y1 a y e r a n dl o w e rl a y e r s ,a n d k n o w l e d g er e p r e s e n t a t i o n a n d r e a s o n i n ga r em ek e y i s s u e sm a tn e e dt ob er e s o l v e d 盘s t i nc h 协a ,m e s t u d yi nt h i sa r e a i ss t a r t e dr e c e n c l y b e g i n n i n g w i t l lm ea r c m t e c t u r eo fs e m a n t i cw e ba 1 1 d 也ea p p r o a c h o f k n o w l e d g er 印r e s e n t a t i o n ,a r l db a s e d o nt h eo u t l i n eo f s p e c i f i c a t i o no f w 3 c ,m ea u t l l o rd i s c u s s e db o t l lr d f ( s ) a n do w l i nd e p m ,t h em a i n f o c u si so nm er a t i o n a lc l a s s i f i c a t i o no fs e m t i c r e p r e s e n t a t i o n c 印a b i l 匆a n dt 1 1 ea 1 1 a l y s i so f t h ec o d es p e c i 矗c a t i o n a ts a m et i m et h e a u m o r e x p l i c i t l yi 1 1 u s 仃a t e dt 1 1 ep r e d e 矗n i t i o no fv o c a b u l a r y a n di t su s a g e s t m c t u r eb yu m l d i a 铲锄 b a s e do n 也es t u d yc o n d u c t e d ,m ea u t l l o ra p p l i e dt w oa s p e c t si n t o p r a c t i c e d u et oa v a i l a b l el i i l l i t e dr e p r e s e n t a t i o nc 印a b i n t yo f0 w l ,h e d e f i n e daf e a s i b l ee x t e n d e ds o l u t j o na n d p r a c t i c e ,e x e m p l i f l e db y a c t u a l c a s e s ap r o t o t y p eo fi n t e m e tr e c r u i t i n gs y s t e mb a s e do ns e m a n t i cw e b , a sa n 印p l i e de x a n l p l e ,s h 。w sc o 币1 e t e l y 亡h ec c e p te x 妇c t m ga n d o n t 0 1 0 9 ym o d e l i n g ,a n d t h ec o d eb a s e do n0 w li s1 i s t e dt o o t h es t u d yi st h e 血n d 砌e n to fe n t e 印r i s e a p p i i c a t i o ni n t e 掣a t i o n ( e a i ) a 1 1 dh o w l e 电ei m e g r a t i o n b a s e do ns e m a n t i cw e b k e yw o l m ss 锄a n t i cw e b , b o w l e 延er e p r e s e n t a t i o n l a n g u a g e ,r d f ( s ) ,c ,w l ,o n t 0 1 0 9 ym o d e l i n g 硕十学位沦文攻读学位划问主要研究成果 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者虢竖嗍竺年月竺日作者签名:f日期:竺:二年二月二日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签导师签名:日期:兰竺年尘月兰日 硕士学位论文第l 章综述 1 1 引言 1 1 1 问题的提出 第1 章综述 1 1 1 1 语义w e b 刚刚兴起 ( 1 ) 语义w e b 的定义 t i mb e m e r s l e e 于1 9 8 9 年创建了h t m l ,被誉为“万维网之父”,现为w 3 c ( w o r l dw i d ew c bc o 璐o n i u m ) 的理事,以及麻省理工学院计算机科学实验室的 研究员。他对语义w e b 的定义是:“语义w e b 不是一种独立的w e b ,而是从 现今的w e b 中延伸出来的,它所表达的信息的意义被很好地定义,使得计算机 和人类能够更好地合作”【1 】。 w 3 c 创立于1 9 9 4 年1 0 月,是一个致力于领导万维网( w o r l d w i d ew 曲) 、 制定公共的协议、促进万维网的发展并确保其互操作性的标准化组织。w 3 c 下 的语义w e b 活动论坛( s e m a n t i cw e b a c t i v i t y ) 在其宣言中对语义w e b 的定义 是:“语义w e b 是当前w e b 的一个扩展,其中信息被赋予明确定义的含义,有 助于计算机之间以及计算机与人之间的协同工作。其思想是使w e b 上的数据以 这样一种方式来定义与链接:能够被机器用于各种不同应用系统,而且可以实现 数据的自动化处理、集成与复用。只有当w e b 成为人和自动化工具所共享加工 的场所时方能实现其全部潜力”【2 】。 在辞海中,“语义”是指词语的意义。因此,可以将“语义w e b ”通俗 地定义为按照能表达网页内容的“词语”链接起来的全球信息网或者用机器很容 易理解和处理的方式链接起来的全球数据库【3 j 。 ( 2 ) 语义w e b 的提出 1 9 8 9 年,时任p a n i c l e p h v s i c s 欧洲实验室( c e r n ) 研究员的t i m b e m e r s l e e 和a n d e r sb e r g l u n d 创建了h t m l 。h t m l 是互联网成功的关键性力量,由于 h t m l 的简易性,w 曲得到了迅猛发展。w 曲使用起来很简单,通过浏览器用 户可以在任何地方、任何时间方便浏览各种来源的h t m l 文档,这些文档也可 以通过超链接技术将不同的资源和信息连接起来。策略的简单以及点对点的结构 是户联网成功的原因之一。 然而,h t m l 有着先天性的不足网页上的内容是设计成专供人类浏览 的,它仅仅描述内容的外观和表现形式,即供人们阅读而非机器自动处理;对于 信息之间的联系,它也仅仅提供了按“网页的地址”的线性链接关系,而非以“内 硕十学位论文第l 章综述 容的语义”来定位信息资源的,网上所有信息都是由不同的网站发布的,相同主 题的信息分散在全球众多不同的服务器上。这些缺陷的存在,导致了机器在采集、 分解和组合w 曲中的信息时,显得格外力不从心,语言文字本身存在的语义模 糊性和歧义性也增加了机器分析的难度。例如,当我们希望从w 曲中找到p 砌a 牌汽车的有关性能参数时,很可能得到的只是美洲狮生活习性的介绍资料,因为 今天的w 曲根本分不清楚文字“p u m a ”表达的究竟是汽车的品牌还是一种动物 的名称。 1 9 9 8 年,b e r n c r s l e e 提出了下一代w e b 语义w e b 的理念1 4 】,其后在 2 0 0 0 年1 2 月1 8 日的x m l 2 0 0 0 的会议上提出了语义w 曲并给出了其体系结构【5 】o 2 0 0 1 年5 月,b e m e r s l e e ,h e n d l e r 和l a s s a i l a 在也es e m a l l t i cw 曲一文中给出了 语义w e b 的定义并对其进行了阐释【1 】。目前,负责语义w e b 相关标准的设计、 制定及修订的机构包括:w 3 c 的语义w e b 论坛( 成立于2 0 0 1 2 ,其前身是元数 据论坛) 、r d f 核心工作组( 2 0 0 1 4 ) 、w e bo n t o l o g y 工作组( 2 0 0 1 8 ) 。最近, w 3 c 又成立了两个与语义w e b 相关的工作组:r d fd a t a a c c e s s 工作组( 2 0 0 4 2 ) 和语义w e b 兴趣组( 2 0 0 4 3 ,其前身为r d f 兴趣组) 。 现在的w e b 是按网页地址的线性链接,未来的语义w e b 网页是本体 ( o n t o l o g y ) 的实例及其到其他实例的链接,如图1 1 和图1 2 ,。在b e m e r s - l e e 看来,语义w e b 是对w w w 本质的变革。 1 1 1 2 语义w e b 潜能的发挥依赖于w e b 上本体的增殖 语义w e b 是全球知识网,其最终结果是一个巨大的数据结构,语义w e b 的建立是一项很具挑战性、十分困难而又具有重大意义的工作,其困难主要表现 在技术、观念以及内容的规模上 引。不可能在短时间内建立语义w e b 的所有技 术标准,w e b 上的海量信息也不可能在短时间内全部建立语义标记。 目前,语义w e b 刚刚兴起,其力量即在信息检索、电子商务、知识管理等 领域有所展示,但语义w e b 潜能的真正发挥,强烈依赖于w e b 上本体的增殖。 语义w e b 目前的研究现在还主要侧重于知识表示与推理方面,w 3 c 已经确 立本体层及其以下各层知识表示语言的技术标准,这些技术标准应该尽快得到广 泛的研究和应用,在此基础上使越来越多的领域知识和企业数据按照这些技术标 准得到表示,不仅可以解决当前企业应用集成与领域知识交换共享的某些实际问 题,也是真正发挥语义w e b 潜能的必由之路。 1 1 2 研究背景 1 1 2 1 当前w e b 规模不断增大。 随着全球网络化、信息化的发展,网络上的信息越来越多。以下数据从不同 硕士学位论文 第l 章综述 图1 1 现在的w e b 图1 - 2 基于语义链接的w e b 角度反映了当前w e b 的规模: ( 1 ) 来自互联网名字与编号管理机构( i c a n n ) 罗马会议的一份最新全球域 名产业报告显示”,2 0 0 3 年全球域名注册量已经突破6 千万个,较上年度增长率 为1 6 。 ( 2 ) 2 0 0 3 年7 月9 日,国务院信息化工作办公室发布的2 0 0 2 年中国互联网 络信息资源数量调查报告显示嘲,截止到2 0 0 2 年1 2 月3 1 日,全国域名数为 硕士学位论文第1 章综述 9 4 0 3 2 9 个,网站数为3 7 1 6 0 0 个,网页总数达2 2 4 4 2 万个,网页总字节数达3 8 6 0 g 。 ( 3 ) 1 月1 5 日,中国互联网络信息中心( c 叮c ) 在北京发布了第十三次中 国互联网络发展状况统计报告,报告显示一j ,截止到2 0 0 3 年1 2 月3 1 日,我 国w w w 站点数为s 9 5 5 5 0 个,半年内增加1 2 1 6 5 0 个,增长率为2 5 7 ,和上 年同期相比增长6 0 _ 3 。 ( 4 ) 目前,全球最大搜索引擎g o o 雷e 索引的网页数为4 2 8 亿张,而调查显 示,没有一个搜索引擎的网页索引超过总网页的六分之一。 1 1 - 2 2 信息检索存在问题 面对网上巨大的信息量,人们通常采用搜索引擎来作为信息检索的手段。搜 索引擎中除极少数如y 曲o o ! 由人工将其收集到的网站及网页分门别类加以索引 和文摘外,基本上都是采用网页的全文检索来提供检索服务。现有信息检索存在 以下问题i ( 1 、任意单一搜索弓i 擎的覆盖范围有限。上面提到,有调查显示没有一个搜 索引擎的网页索引超过总网页的六分之一。 ( 2 ) 现有的大部分信息检索系统采用关键词输入方式进行检索,查询以关键 字和布尔查询为主,关键词是由用户自由选择的,不受任何限制,用户所选择的 词有很大的随意性,无法实现同义概念、上下位概念的检索,无法通过逻辑推理 进行检索,检索智能化程度不高。 ( 3 ) 针对一个查询,经常返回太多的查询结果,这些结果中包含大量的噪音, 即与用户要求无关的信息,而且返回的信息很少具有个性化的相关度排序,用户 最满意的信息并不是最先推送给用户。研究指出,大概有7 5 搜索结果可能是和 查询条件无关的。 1 1 _ 2 3 本体的理论和应用研究是语义w e b 的一个重要基础 本体的研究和应用在国外异常活跃,在许多领域得到了广泛的应用,如知识 工程、数字图书馆、软件复用、信息检索、w 曲上异构信息的处理等,本体同时 也被称为语义w e b 的“e n a b l e r ”【1 l 】。 本体的理论研究包括概念和概念分类、本体上的代数。最有代表性的是 g u 撕n o 等人对概念分类所做的研究盼” ,他们从一般的意义上分析了什么是概 念、概念的特性、概念之间的关系以及概念的分类,提出了一套用于指导概念分 类的可行理论。基于这个理论,他又提出了本体驱动的建模方法,在理论上为建 模提供了一个通用的模式。p e r e z 等人归纳出了本体的5 个基本的建模元语【1 4 】: 类或概念、关系、函数、公理、实例。1 9 9 5 年,t f r 。g r u b e r 提出了指导本体构 建的5 个准则【15 1 ,即:清晰、一致、可扩展性、编码偏好程度最小、本体约定 最小。此外,本体工程和领域本体的研究为语义w e b 提供了构造本体的方法学 硕士学位论文第l 章综述 和可重用的资源。 本体是构筑语义w e b 的关键技术,本体层是实现语义w e b 的关键所在, 本体已有的理论和应用研究成果是语义w e b 的一个重要基础,而语义w e b 反 过来又将推动本体技术的进一步发展。 1 2 国内外研究现状 鉴于语义w e b 研究的重要价值,除了w 3 c 成立了专门的工作组来推动语 义w e b 技术的发展,国外的很多大学、研究机构、大公司也成立了专门的项目 组来推动这项技术的发展【1 6 】。2 0 叭年7 月3 0 日,在斯坦福大学召开了题为 i n 触s t m c t u r ea i l d a p p l i c a t i o n sf o rt h es e m 趾t i cw 曲的学术会议。2 0 0 2 年7 月9 日, 在意大利召开了l s tb t 锄a t i o n a ls e m a n t i cw 曲c o n f e r e n c e 会议。国内在这方面的 研究刚刚起步,2 0 0 2 年,我国的8 6 3 计划将语义w 曲技术列为重点支持项目。 以下是语义w e b 及其知识表示语言研究现状的几个侧面: 从层次结构角度,目前语义w 功的研究主要集中在本体层及其以下各层, 其中本体层是当前研究的热点,对逻辑层的研究才刚刚开始。知识表示与推理是 当前解决的主要问题。 设计和建立本体是实现语义w e b 的关键,人工智能和知识工程领域的著名 本体项目如t o v e 、c y c 、o n t o k n o w l e d g c 、o n t o w c b 、0 n t o b r o k e r 、e n t 唧r i s e 、 o n t o s e e k 、p 球、k a c t u s 、k r a f t 等和本体如t o v e 、c y c 、e n t e r p r i s eo n t o l o g y 、 k r s lp l a i lo n t o l o 盯、w d 以c 、s t e p 、e lo n t 0 1 0 州、s e n s u s 、w o r d n e t 等曾经 对本体工程的发展有着重大影响【1 ”,在今天这些本体项目和本体为语义w e b 提 供了构造本体的方法学和可重用的资源。例如,1 、0 v e 项目是多伦多大学企业集 成实验室的一个项目,其目标是建立一套为商业和公共企业建模的集成本体,并 且已经建成了相关本体,作为该项目的一部分,他们设计了一套创建和评价本体 的方法企业建模法,在语义w e b 的本体构建中即是一种可供选择的方法。 w o r d n e t 是普林斯顿大学的心理学家,语言学家和计算机工程师联合设计的一种 基于认知语言学的英语词典,通过将同义词的集合集中到称为同义词集的组中 来描述和分类单词和概念,在语义w e b 的建设中是一项重要的可重用资源。 在语义w e b 的研究过程中,出现了一些被广为接受的元数据集( 或词汇集) , 如类似图书馆卡片目录方式定义资源的词汇集d u b l i n c o r e ,定义教育内容的讧s 元数据,定义个人信息的v - c a r d 元数据等。此外也出现了一批可供研究和应用 的本体库,如s t a i l f o r d 大学的o w l 本体库【1 7 、p r o t 6 醇本体库【1 8 】、o n t 0 1 i n g i l a 本体库等【1 9 】,其中o n t 0 1 i n g i l a 还提供一个在线本体编辑器。 在表示语言方面,订l 提供语法、r d f 提供通用描述框架,基于x m l 的 硕士学位论文第1 章综述 本体表示语言则有多种;s h o e 、0 m l 、x o l 、斑b d w e b 、o i l 、d a m l 、o w l 等。为了便于w e b 上应用程序使用方便,本体需要有一个通用的标准语言来描 述和建构,w 3 c 在d 圳l + o i l 的基础上,确立o w l 为w e b 上本体的标准表 示语言。由于历史原因,其他表示语言的研究和应用仍将持续,根据需要可以将 其转换到o w l ,目前已经有一些共享的转换程序可供使用 2 0 】。 针对语义w e b 的一些主要的知识表示语言,出现了一批可视化建模工具【2 i l , 包括:p r o t 6 西、o n t o e d i t 、o i l e d 、r d f c d t 、0 m o l i n g u a 、w 曲o n t o 等,其中,有的 已经支持o w l ( 如0 i l e d 和p r o t 6 醇等) ,有的则表示待o w l 进一步稳定后才 考虑支持0 w l ( 如o n t o e d i t ) 。 国内对语义w e b 的研究和应用,总体说来仍处在起步阶段。在项目信息方 面【2 ”,有清华大学k e l 、北京大学医学部的心血管疾病知识库,此外东南大学、 浙江大学在语义w 曲和本体方面有国家自然科学基金立项,农科院信息文献情 报中心希望针对农业叙词表引入本体相关技术,国土资源部考虑在土地重新分类 时利用本体相关技术改造数据库。文献f ”倒j 对本体的研究与应用现状、构造本体 的方法学进行了全面深入的研究。文献 2 ”鄙分别给出了语义w e b 可能的系统 架构,一个语义w e b 系统应包含知识仓库、推理引擎、信息组织、显示引擎、 知识提供等模块,分别包含不同的工具和软件组件。文献 2 9 ,3 0 1 对语义w e b 的体 系结构和标记语言进行简单介绍。基于本体的应用主要集中在信息检索、主题分 类、知识集成等方面,其知识表示采用的形式包括描述逻辑、v i l d t d 、i m f 、 o i l 等。文献p ”4 j 介绍了基于本体的信息检索模型及相关算法,将用户的检索要 求扩充成语义集,使用户最终得到与检索要求匹配度较高的结果。文献”7 1 利 用本体中主题概念的层次结构和主题词、特征项的各秘语义关系对中文文档进行 分类,提高了分类的准确率。文献 3 5 】利用本体作为数据整合与知识共享的有 力工具。文献【4 7 涉及o i l 和d 舡,+ o i l 的原语扩展问题。此外,在语义标注 与语义计算方面,有梅家驹的同义词词林 3 6 】、蓬振东的知网【4 7 1 、北京 大学的人民日报语料库等重要的语义资源f 4 8 9 1 。在可视化建模工具及可重用 的共享本体等方面,国内尚属空白。 1 3 研究思路 本文遵循从理论到实践的研究思路。 理论部分先从语义w e b 的层次体系结构以及知识表示的方法、特殊要求入 手,然后着重对语义w e b 的知识表示语言进行深入研究。在语义w e b 各层表 示语言中,l 是种取代h t m l 的新一代网络发布语言,仅仅为语义w e b 提供基本语法,不牵涉到语义方面的内容,故本文仅以) f ( s ) 和本体的表示语 硕士学位论文第1 章综述 言为研究对象,而在本体层,有多种基于x m i ,的表示语言,本文以w 3 c 推荐 的标准0 w l 为研究对象,由于o w l 的渊源,研究过程中也涉及到o i l 及 d a m l 。 理论研究的目的是应用。本文实践部分包括两方面的内容:针对现有知识表 示语言表示能力的局限性如何对其进行扩展,建立用户扩展层:一个完整的领域 知识表示实例。 1 4 研究内容和论文结构 第l 章,综述。介绍语义w e b 的兴起和国内外研究现状、本文的研究背景、 研究思路和研究内容。 第2 章,语义w e b 的体系结构与知识表示。介绍语义w e b 的层次体系结 构、常用的知识表示方法以及语义w e b 在知识表示上不同于传统知识的要求。 第3 章,语义w e b 的知识表示语言。对r d f ( s ) 和o w l 两种语义w e b 知 识表示语言进行了深入研究,重点置于其语义表达能力以及对规范的剖析上。 第4 章,语义w e b 的知识表示语言扩展实例分析。针对o w l 现有知识表 示能力的不足:不能表示属性值的区间约束及不能表示任何规则,给出了一种可 行的扩展方案及其实现,并给出了应用实例。 第5 章,网上求职招聘系统的知识表示实例分析。以一个基于语义w e b 的 网上求职招聘的原型系统为实例,完整地给出了其概念抽取与本体建模过程以及 基于o w l 的知识表示源码。 第6 章,结束语。对本文的主要工作及有新意之处,指出今后在此基础上可 以继续做的工作。 硕士学位论文 第2 章语义w e b 的体系结构与知识表示 第2 章语义w e b 的体系结构与知识表示 2 1 语义w e b 的体系结构 为了实现语义w e b 信息服务的智能化与自动化的目标,语义w e b 研究者们 开发了许多新技术并提出了一系列的技术标准。b e m e r s l e e 一直致力于语义w e b 技术的研究,并一直关注语义w 曲技术的发展,提出了语义w c b 的层次模型( 亦 称协议栈) 5 0 1 ,并到了语义w e b 研究者的认同。该模型共由七个层次组成,如 图2 1 所示: 图2 1 语义w e b 的体系结构 f 1 ) u n i c o d e 和u r j 层 这是语义w e b 的最底层。u n i c o d e 是一个字符编码系统标准,支持世界上 所有主要语言文本的混合,它可以保证我们使用国际化、通用化的字符集,避免 不同类型字符集之间由于编码不同而造成的存储、传递和使用上的混乱,同时也 可以实现多国语言的混合存储和使用。u r i 是i n t e m e t 资源的一种识别方法, 在语义w e b 中,任何可以被描述的事物一无论是网络中的一个w e 8 页面或 者站点,还是现实中的一个人、一座房子、一张桌子等都可以称为资源,每一个 资源都由唯一个u r i 所标识,不同的资源拥有不同的u r i ,通过指定的u r 工 可以确定互联网中唯一一个资源( 即定位的唯一性) 。 ( 2 ) x m l + n s + ) m ls c h e m a 层 这是语义w e b 中首要的关键技术,也是整个体系结构的基础。订l 是一 种允许自定义标记的通用、结构化接述语言,已经成为描述w e b 文档和数据的 硕士学位论文 第2 章语义w e b 的体系结构与知识表示 标准化语言。 名称空间n s ( n 锄e s p a c e ) 为v i l 文档中的结构化标记提供了上下文环境, 一方面为文档中的每一个标记都赋予了确定的含义,另一方面将不同上下文环境 中相同名称的标记区分开来,从而避免了语义上的歧义。 x m l s c h e m a 在标记的使用和文档结构上,为讧l 文档提供了明确的语义 限制,最终确保每一个订l 文档都是语义合法、结构完整、内容有效的。 ( 3 ) r d f ,r d fs c h e m a 层 砌) f ( r e s o u r c ed e s c i i b i n gf 瑚1 1 1 e w o r k ,资源描述框架) 定义了一种用以描 述资源及其相互关系的简单模型,是语义w e b 实现的关键技术之一,也是语义 信息描述的有效手段。其基本数据模型包含三类对象:资源、属性和陈述;资源 之间的关系通过属性和值来描述。描述特定资源特定属性的值,就构成r d f 中 的一个陈述,通常可以用三元式 s u b j e c t ,p r e d i c a t e ,o b j c c 描述;其中,被描述的 资源称为s u b j e c t ,描述资源的属性称p r e d i c a t e ,o b j e c t 则是属性对应的值。r d f 建立在) 叫l 和u r i 的基础上。 m ) f 通过属性和值描述了资源及资源之间的关系,但并没有提供描述这些 属性及属性间关系的机制。l u ) fs c h e m a ( 简称r d f s ) 提供了这种表达机制, 它描述了r d fp m p e n i e s 的使用规则,为r d f 定义了领域字典,并用类型层次 结构来组织该字典,从而构成完备的语义空间。r d f 和i fs c h 锄a 合称r d f ( s ) 。 x m l 和) f 都能为所表述的资源提供一定的语义。但是皿。中的标签和 ) f 中的属性集都没有任何限制,) 。“l 和r d f 不能处理以下问题:同一概念 有多种词汇表示;同个词汇表示多种概念。这一问题在本体层得到解决。 ( 4 ) 0 n t 0 1 0 9 y 层 语义信息的交流必须以共同的理解为前提,否则双方就会发生误解或者不理 解。在语义w e b 中,这一“共同的理解”,即共同的语义空间,是由本体建立和 提供的。 本体最早是一个哲学上的概念,用于描述事物的本质。在近一、二十年来, 本体论已被计算机领域所采用,用于知识表达、共享及重用。许多学科和研究都 在使用“本体”这个术语,但存在不同的定义。在人工智能界,最早给出o n t o l o g y 定义的是n e c h e s 等人,他们将o n t 0 1 0 9 y 定义为“给出构成相关领域词汇的基本 术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义” 5 1 】。1 9 9 3 年,g n l b c r 给出了o n t 0 1 0 9 y 的一个最为流行的定义吲,即“o n t o l o g y 是概念模型的明确的规范说明”。后来,b o r s t 在此基础上,给出了o n t 0 1 0 9 y 的另 外一种定义【5 3 】:“o n t o l o g y 是共享概念模型的形式化规范说明”。1 9 9 8 年s t u d e r 对上述两个定义进行了深入的研究,将本体定义为“共享概念模型的明确的形式 硕士学位论文 第2 章语义w e b 的体系结构与知识表示 化规范说明”【5 “,其中概念模型指通过抽象出客观世界中一些现象的相关概念 而得到的模型,其表示的含义独立于具体的环境状态;明确指所使用的概念及使 用这些概念的约束都有明确的定义;形式化指是计算机可读的:共享指本体中体 现的是共同认可的知识,反映的是相关领域中公认的概念集。 关于本体,目前尚无一个明确的形式化定义,可以将一个本体定义为一个四 元组:0 = ( c ,r ,a ,i ) 。其中c 表示o 中概念集合:r 表示o 中概念之间关 系集合;a 表示公理集合,常其中定义。中的相关约束;i 是c 的实例集合。 本体通过定义属性并建立一个分类层次结构,将不同的概念区别和组织起 来,同时也通过属性将概念相互联系起来,从而建立起概念的语义空间,亦即对 某一个领域内事物的共同理解。这些概念和属性的名字构成了本体的词汇表。在 语义w 髓中,本体具有非常重要的地位,是解决语义层次上w e b 信息共享和 交换的基础。为了便于w e b 上应用程序使用方便,本体需要有一个通用的标准 语言来描述和建构。 ( 5 ) 本体的上层:b g i c 、p r o o f 和t h s t 层 这三层位于语义w e b 体系结构的顶部,也是语义表达的高级要求,目前正 处于研究的阶段,也有一些简单的示范性应用系统正在建设中。其中,逻辑层提 供了推理规则的描述手段,证明层通过运用这些规则进行逻辑推理和求证,而信 任层则负责为应用程序提供一种机制以决定是否信任给出的论证。 ( 6 ) 数字签名( d i g i t a l ) 数字签名位于层次模型的右侧,并且贯穿于中间的四层。数字签名是一种基 于互联网的安全认证机制。当信息内容从一个层次传递到另一个层次时,允许使 用数字签名说明内容的来源和安全性,这样接受方就可蛆通过数字签名鉴别其来 源和安全性以决定是否接受。数字签名对于语义w e b 及其他使用讧l 进行信 息交换的系统非常重要。 在这个层式结构中,上层将下层的语言机制作为本层的支撑语言,通过分析 器,从合法有效的下层描述中抽取出本层所能理解的模型,实现更多的语义处理 功能。因此,语义w e b 是向下兼容的,当用i u ) f ,诅l 表达o w l 时,如果只 有砌) f 分析器,可以部分解释该本体内的类结构,只要忽略其中带o w l :前缀的 元素即可,但能完全解释该本体内的所有实例,因为这只是语法相关的。由于 w e b 上的海量信息不可能在短时间内全部建立语义标记,而且语义的标记方法 也将不断发展,这种向下的部分可解释性为语义w e b 的发展提供了良好的基础。 语义w e b 研究的主要目的就是扩展当前的w w w ,使得网络中所有信息都 是具有语义的,是计算机能够理解和处理的,便于人和计算机之间的交互与合作。 语义w e b 目前的研究现在还主要侧重于知识表示与推理方面,而对于用户来讲, 硕士学位论文 第2 章语义w e b 的体系结构与知识表示 语义、忱b 应该提供一种丰富完善的服务,一种在知识表示与推理之上的服务 这些服务由具有智能的代理来提供。 2 2 语义w e b 的知识表示 2 2 1 常用的知识表示方法 知识表示就是把知识编码成为一种适当的数据结构。为了便于知识管理和推 理分析,知识表示的方法一般要求简单、明了、易于理解,并能对知识进行方便、 灵活的扩充。 知识表示主要有规则、框架、逻辑、语义网络、剧本、原型等方法,其中以 规则、框架和逻辑等知识表示方法最为常用。 2 2 1 1 知识的规则表示。 规则,又称产生式规则,是一种借助条件语句一t h e n 表示知识的方法。 一般表示形式为: 条件一行动 或者前提+ 结论 即表示成为i f t h e n 的形式。其中左边部分确定了该规则可应用 的先决条件,右半部描述了应用这条规则所采取的行动或得出的结论。目前,过 程性知识通常用这种表示方法表示。 用产生式规则表示知识具有以下优点: ( 1 ) 结构上的模块化。可对单条产生式规则进行增添、删除或修改,而不用 考虑它与其它规则的关系。 ( 2 ) 形式二的单一性。采用单一的知识表示形式易于被其他人所理解和接受。 ( 3 ) 表达上的自然性。表示形式与人们求解问题时的思维形式非常相似。 其缺点是缺乏灵活性,效率低下,对复杂、大型以及动态概念不能很好地表 不。 2 2 1 2 知识的框架表示 框架是七十年代初m m i n s k y 提出来的一种知识表达方法。在该方法中,所 要描述的对象是用一种称之为框架的数据结构来表示的。它的顶层是框架名,用 于表示所要描述的对象。其下层由一些称为槽的结构组成,用于表示对象的各个 方面。每个槽都有它自己的名字和填入槽的值。槽的下面又可以设侧面,作为对 槽的进一步说明。槽或侧面的取值可以是二值逻辑的真或假,可以是实数值,可 以是文字或其它形式的定义域,还可以附有一组与它有关的条件或过程( 程序附 件) ,当向槽或侧面填值时,必须满足这些条件或调用这些过程。另外,框架下 硕士学位论文第2 章语义w e b 的体系结构与知识表示 层的槽或侧面也可以是一种子框架,子框架本身还可以迸一步分层。对于实际中 的复杂对象,单用一个框架往往是难以表示的,必须借用多个框架来表示,这种 由按一定方式联系起来的多个框架组成的系统称为框架系统。 2 2 1 3 知识的逻辑表示 在知识的逻辑表示方法中,知识是借助于原子公式或由原子公式组合而成的 合式公式表示的。在实际中一般只用一阶谓词逻辑( f i r s to r d e rl o g i c ,f o l ) , 例如人工智能语言p r o l o g 就是以它为基础的。这种表达方法的基本组成成分 是谓词符号、变量符号、函数符号和常量符号,并用圆括弧、方括弧、花括弧和 逗号隔开,以表示论域内的关系。例如,用原子公式表示“李( l i ) 的母亲和他的 父亲结婚” m a r r i e d f a t h e “l i ) ,m o t h 盯( l i ) 其中,m a r r i e d 是谓词符号,f h t h c r 和r n o t h e r 是函数符号,表示某人与他 的父亲和母亲之间的一个映射,l i 是常量符号。 应用谓词逻辑表示知识的主要优点是: ( 1 ) 精确。逻辑是一种情确的、标准的表示方法,没有含混性。 ( 2 ) 模块化。与产生式规则相似,语句可以任意增添、删除和修改,不会对 其它语句有影响。 它的主要缺点是随着知识库中事实( 知识) 的增加,推理所需的事实组合的 工作量按指数增加。 描述逻辑( d e s c r i p t i o nl o 百c ,d l ) 是一阶谓词逻辑的可判定子集,描述逻 辑的重要特征是:很强的表示能力;可判定性,能保证推理算法总能终止,并返 回正确的结果。在众多知识表示的形式化方法中,描述逻辑在十多年来倍受关注, 主要原因在于:有清晰的模型理论机制;很适合于通过概念分类学来表示应 用领域;提供了有效的推理服务。 但是描述逻辑主要还只能处理静态的知识,对动态世界的表示与推理无能为 力。动态逻辑最开始是用来进行程序正确性验证的,后来人们也用它来对动态世 界进行表示与推理,有的也用在逻辑程序设计上,它们能对动作、状态、动态关 系进行较好的刻画,但在静态知识上的表达力却很弱,且推理较为复杂。如何将 动态与静态相结合,这是一个尚待研究的问题。 2 2 2 语义w e b 的知识表示、 传统的知识表示,通常是集中式的,这意味着每个人对于共同的概念,必须 使用完全一样的定义。例如大家一般都知道“爸爸”、“父亲”、“爹”是同一概念, 但是计算机般会将其当作三个概念。可见,集中化控制有些死板。随着知识表 硕士学位论文第2 章语义w e b 的体系结构与知识表示 现系统的规模和范围快速增长,这些系统通常谨慎地对需要的问题加以限制,确 保其能够给予可靠的回答。 语义w 髓是一个数据和知识多对多交换的大平台,其核心内容是建立一个 语义明确的信息空间。毫无疑问,其中需要解决的关键问题就是语义的表达。这 种语义信息要求定义完整、无歧义并能支持逻辑推理。为使语义w e b 工作,计 算机必须能访问结构化的信息集合以及一套推理规则并据此进行自动推理,因此 必须首先提供w e b 上信息的合适的表示方法。在w e b 上进行知识表示时,采 用单一的知识表示方法往往不够。目前,在语义w e b 中应用最广泛的是基于框 架、描述逻辑以及谓词逻辑的方法,而且有把三者融合起来使用的趋势。 现在的w e b 是用h t m l 语言来组织数据的,h t m l 提供了组织数据以一 种普遍的方式进行显示的标准,其简单性促进了w e b 的快速发展,但其简单性 同时也限制了w e b 的进一步发展。语义w e b 被开发为对w 髓上知识的表示, 作为多对多的信息交换媒介,语义w e b 对标记语言的数据交换格式提出了以下 的要求: f 1 ) 通用的表达能力:由于无法预测所有潜在的应用,w e b 的数据交换格式 必须能够表达任何形式的数据。 ( 2 ) 语法的互操作能力:处理器( 如分析器p a r s e r ) 必须能够识别各种数据的表 示,并且能为不同类型的应用所复用。 ( 3 ) 语义的互操作能力:要求实现对数据内容的分析,并提供识别元素间关 系的能力。 这样,摆在语义w e b 面前的挑战就是提供一种语言,能够同时描述数据以 及根据数据进行推理的规则,并且允许任何现存知识标识系统中的规则都能输出 到w e b 上,由此在w e b 上增强逻辑性即使用规则进行推理、选择行为并 解答问题的方法。 解决这一任务的重要技术包括x m l 、r d f 和本体。蛆l 提供了灵活、通 用、丰富的结构化信息表示方式,是整个语义w e b 的基石:) f 则定义了一个 简单的数据模型以表达数据间的关系;本体通过定义属性并建立一个分类层次结 构,将不同的概念区别和组织起来,同时也通过属性将概念相互联系起来,从而 建立起概念的语义空间,是解决语义层次上w e b 信息共享和交换的基础,在语 义w e b 中具有非常重要的地位。 硕士学位论文 第3 章语义w e b 的知识表示语言 第3 章语义w e b 的知识表示语言 3 1 资源描述框架( s c h e m a ) 3 1 1 资源描述框架( s c h e m a ) 概述 3 1 1 1r d f r d f 源自w 3 c 的另一个项目p i c s ( p 1 a t f o n nf o rm t 锄e tc o n t e n ts e l e c t i o n , 因特网内容选择平台) 5 ”,其含义就是描述资源的框架。其中,资源( r e s o u r c e ) 是指所有在w e b 上被命名、具有u r j ( u n m e dr e s o i l r c ei d e n t i f i e r ,统一资源描 述符) 的东西;描述( d e s c r i p t i o n ) 指对资源属性( p r o p e r t y ) 的陈述( s t a t e m e n t ) , 以表明资源的特性或者资源之间的联系:框架( f r 锄e w o r k ) 是指与被描述资源 无关的通用模型,以包容和管理资源的多样性、不致性和重复性。 i u ) f 定义的是一种通用的框架,其基本对象类型包括资源、属性和陈述。 每个通过唯一u r j 标识的资源都具有属性,属性由属性类型来标识,每一个属 性类型都有对应的属性值。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年宠物美容AI技术面试题库
- 2025年安全战略填空题库
- 2025年导盲犬训练高级面试实战题库
- 2025年广播电视台后期制作面试常见问题解答
- 2025年语音合成师职业发展面试题及答案
- 2025年高效学习方法与技巧高级笔试预测题
- 2025年地震救援面试重点题解析及答案
- 2025年建筑装饰设计师专业技术考核试卷及答案解析
- 课件中控件的使用
- 2025年环保工程技术师资格考试试题及答案解析
- 2025北京平谷区初三二模数学试题及答案
- 2025年中级会计职称考试经济法冲刺试题及答案
- 乐器供销合同范本
- 2025年辽宁省中考生物学试卷真题附答案
- 2025-2030牛肉分销渠道冲突与供应链协同优化报告
- 《法律职业伦理(第3版)》全套教学课件
- 2025年青岛市崂山旅游集团招聘考试笔试试题
- 2025年秋季新学期全体中层干部会议校长讲话:在挑战中谋突破于坚实处启新篇
- 2025年幼儿园保育员考试试题(附答案)
- 2025年上半年中国铁路兰州局集团有限公司校招笔试题带答案
- 《物联网导论》课程标准
评论
0/150
提交评论