




已阅读5页,还剩70页未读, 继续免费阅读
(计算机科学与技术专业论文)基于本体的电子政务数据集成研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士论文 基于奉体的电子政务数据集成研究 基于本体的电子政务数据集成研究 摘要 目前,随着政务系统信息化的发展,各种各样的电子政务信息积 累的越来越多,信息孤岛、信息重复建设也越来越多,如何使政务信 息资源具有应用程序可以理解的含义,并根据政务信息资源所具有的 领域知识,实现各类政务信息资源的知识共享重用、数据集成,应用 的互操作,减少信息孤岛及信息重复建设,是电子政务系统建设所面 临的挑战。 本文以工商领域为背景,采用o w ld l 开发了工商领域电子政务 本体,通过建立概念、概念之间的关系、实例以及多种约束关系表达 了工商电子政务领域知识,实现了领域知识的高度共享、重用及基于 本体的工商电子政务数据集成、推理查询,充分发掘了资源之间内在 蕴涵的关联关系,满足了用户对相关资源的统一检索需求,实现了电 子政务信息资源的增值。 关键词:电子政务、本体、数据集成、语义查询 l l l 暨! ! 室塑皇查兰堡堡塞苎三查堡箜皇三堕墨墼塑叁些翌窒 r e s a r c ho fe l e c t r o n i cg o v e r n m e n t d a t ai n t e g r a t i o nb a s e do no n t o l o g y a b s t r a c t r e c e n t l y ,a l ls o r t so fe l e c t r o n i cg o v e r n m e n ti n f o r m a t i o nh a v ea c c u m u l a t e d m o r ea n dm o r ea c c o m p a n y i n gt h ee l e c t r o n i cg o v e r n m e n ta f f a i rs y s t e m sr a p i d b u i l da n dg r o w t h ,c o r r e s p o n d i n g l y ,m o r ea n dm o r ei s o l a t e di n f o r m a t i o ni s l a n d s e m e r g e dw i t h o u te f f e c t i v em e a s u r e s ,i ti su r g e n ta n d ac h a l l e n g et h a tm a k i n gt h e e l e c t r o n i cg o v e r n m e n td a t ab eb e a r e dw i t hs e m a n t i c sa n db eu n d e r s t o o db y a p p f i c a f i o nt oc o n t r i b u t et ot h ek n o w l e d g es h a r ea n dr e u s e 、i n t e g r a t i o na n dt h e i n t e r a c t i v i t y b e t w e e nt h e a p p f i e a f i o n s a n dt h ed i s t r i b u t e d h e t e r o g e n e o u s d a t a s o u r c e sa n dt b ee l i m i n a t i o no f 恤ei s o l a t e di n f o r m a t i o ni s l a n d s t h i st h e s i s i m p l e m e n t e d t h ee l e c t r o n i c g o v e r n m e n to n t o l o g y o f a d m i n i s t r a t i o no fb u s s i n e s sa n dc o m m e r c e m a k i n g u s eo ft h ew 3 c r e c o m m e n d e do n t o l o g yl a n g u a g eo w ld lt od i s c r i b et h ec o n c e p t s 、t h er e l a t i o n s b e t w e e nc o n c e p t s 、p r o p e r t i e s 、p r o p e r t i e s r e s t r i c t i o n s 、t h er e l a t i o n sb e t w e e n p r o p e r t i e s 、i n s t a n c e sa n dr e l a t i o n sb e t w e e ni n t a n c e s u p o nt h ec o n s t r u c t i o no ft h e f i e l do n t o l o g y , w ep u ti ti t ot h eu s eo fd a t ai n t e g r a t i o na n ds e m a n t i cq u e r yt o a d dv a l u et ot h ee x i s t e n td a t a s o u r c e sa n dp r o v i d eu s e ra nu n i f i e dq u e r yi n t e r f a c e b ym a k i n gi tt r a n s p a r e n tt ot h eu s e rt h a tt h eh e t e r o g e n e i t ya n dt h el o c a t i o n so f t h ed a t a s o u e e s ,d i gi t ot h ei n t e r n a lr e l a t i o n sb e t w e e nt h ed a t a s o u r e s ,c o n t r i b u t e t ot h ev a l u ea d d e do fe l e c t r o n i cg o v e r n m e n ti n f o r m a t i o n k e y w o r d s :e l e c t r o n i cg o v e r n m e n ta f f a k 、o n t o l o g y 、d a t ai n t e g e r a t i o n 、 s e m a n t i cq u e r y i v 北京邮电大学硕士论文 基于本体的电子政务数据集成研究 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:鱼赞日期:鲨篮i :釜 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅:学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:生i 垂。日期:五! = ! :釜 导师签名:穹国竖缘日期:2 滥| 3 ! i i 北京邮电大学硕_ 上论文 基于奉体的电子政务数据集成研究 1 1 背景 第一章绪论 如何理解电予政务,电子政务到底该从哪个角度入手,学术界、政府和企 业之间还存在很大争议,业界普遍认为电子政务的核心是政务,只有解决了各政 府部门办公、公文流转等具体应用,才能最终完成电子政务的建设。以政务为核 心的思路作为指导,没有形成一种统筹全局又切实可行的办法。只有转变思路, 才能在今后建设过程中少走弯路。 目前,电子政务最突出的问题是政府有多少委、办、局就有多少个信息系统, 每个信息系统都有自己的信息中心,从而产生了各自的数据库、各自的操作系统、 独自开发的应用软件和用户界面,而且彼此问完全是独立的体系。由于这些独立 的体系问缺乏统一的规划和标准,使得各自建设的系统与网络最终成为一个个 “信息孤岛”。这些“信息孤岛”各自为营,彼此之间难以互联互通,反过来又 影响后面信息化建设的进程,这种结果与实施电子政务以提高政府工作效率的初 衷大相径庭。 业界都将“信息孤岛”归咎于政府部门的条块分割,这种说法其实并没有抓 住问题的本质。既使在发达国家,政府部门要达到各司其职的目的,条块分割肯 定是必须存在的现象。而产生“信息孤岛”的根本原因,在于政府部门之间都在 抓各自的应用,却忽略了数据的统一管理,造成对实施电子政务的认识还存在某 些偏差。 维持“信息孤岛”的现状肯定不行,采用推倒重来的办法也不现实,在原有 系统的使用没有达到饱和的情况下,全部换成新系统则是一种巨大的浪费。这时, 唯一可行的办法就是以信息资源管理为核心进行数据集成,摆脱以应用为核心或 以网络建设为核心的传统观念,将各个政府部门的内容提炼为统一数据,进行数 据集成,消除信息孤岛。 具体地说,基于“以信息资源管理为核心”的理念,就是在第一步要将大部 分数据整合集成起来,进行数据集成,接着再将边缘部分整合集成起来:第二步 开始建设新的应用,实现电子政务知识的共享和重用,减少信息孤岛,先帮助政 府增强管理、决策的能力,再帮助政府提高办公效率和政府效率。 北京邮电大学硕士论文 基于本体的电子政务数据集成研究 1 2 国内外的研究现状 1 2 1 国内的研究现状 1 ) 电子政务数据集成发展现状 经过近几年电子政务基础资源的大规模建设,由于很多信息的描述、定义、 获取、表示形式缺乏统一、严格的标准,致使大量的信息数据处于分散的、部门 所有的和各自为政的状态,造成数据信息资源浪费,不利于实现数据共享。为了 提高政务信息的共享,保证为政府的管理决策和社会各阶层提供科学准确的信 息,迫切需要开发出一种统一的、以标准数据元形式的对政务信息的表示方法, 以支持政务信息的数据集成、共享和交换。 为了解决信息的数据集成,共享交换,近年来,x m l 作为一种为集成交换异 构信息提供公共语法的方法为人们所接受,同时也有大量的模式级规范( d t d 或 3 l m l 模式) 作为数据集成交换标准,包括e b ) c m l 、b i z t a l k 和r o s e t t a n e t 。尽管 这样的模式级规范可用于指定共同接受的用于交换产品信息的标签集,但仍未很 好地解决一些数据集成的问题,如知识的重用,语义异构、应用的互操作、系统 的扩展性。 2 ) 本体研究的现状 在万维网日益普及的今天,人们充分体会到网络的巨大魅力,但是万维网也日 益显现出一些并不尽如人意的地方,如网页单调枯燥、搜索引擎智能化程度低等。 其根本原因在于w e b 页的内容是非结构化、面向表示、无语义、机器不可理解 的。为了从根本上解决上述问题,人们提出了语义网,在现有的w e b 上为网页扩 展面向计算机的数据,使信息有定义完好的含义,有利于人机之间的合作和机器 间的交互。 伴随着语义w e b 的发展,为了描述w e b 上的数据的语义,使机器能够理解, 人们投入了大量的研究,促进了本体的发展和本体语言的进化,从最初的x m l 发展到r d f ,d a m l ,d & m l + o i l ,直到现在较成熟、描述能力很强的o w l ,这在一 定程度上大大促进了本体的理论研究和在各个方面的应用,为我们的研究和应用 打下了基础。 1 2 2 国外的研究现状 2 0 世纪9 0 年代初以来欧洲电子政务发展的主要阶段:1 9 9 0 1 9 9 4 年,主要 着眼于中央级政府部门的电子政务工作;1 9 9 4 1 9 9 8 年,开始面向公民、企业以 及所有行政机关的信息交换;1 9 9 8 2 0 0 2 年,向政府职能整合的较高层次的电子 北京邮电大学硕士论文 基于本体的屯子政务数据集成研究 政务发展。 近年来,欧盟制订并实施“e 欧洲2 0 0 2 ”行动计划;制定并完善电子政务 相关的法规;研究并推行欧盟成员国行政部门间信息交换,即i i ) a 项目。i d a 项 目是欧盟成员国之间各行政部门的数据交换项目,也是欧盟整个电子政务计划的 一个主要组成部分。它的目的是要改变目前欧盟各部门及成员国政府各部门之间 只有纵向的信息数据交流,而缺少横向交流的状况。该项目由欧盟企业管理署所 属信息中心负责,欧盟各署都有人员配合此项工作。该中心的工作,就是要将欧 盟各部门的数据信息,通过技术手段联接在一起。其主要内容包括:实现跨部门 的网络联系;实现欧盟各成员国之问的资源共享,建立基于知识本体的电子政府 ( o n t o g o v ) ,其知识管理在其电子政务理论研究和实践工作对我国电子政务建设 有现实的指导意义。 目前,利用知识管理理念建设基于本体的电子政务平台,并利用支撑知识管 理系统辅助整个过程的实施,已成为电子政务发展的一个热点。 1 3 本文的主要工作 本文主要工作集中在以下几个方面: 1 ) 利用本体的表达能力和共享性,设计并实现了工商领域电子政务本体, 通过建立概念、概念之间的关系、实例以及多种约束关系表达工商电子政务领域 知识,提高了工商电子政务知识的重用性和工商应用的互操作性。 2 ) 充分利用本体的语义描述能力,描述电子政务异构数据的语义,实现电 子政务异构数据源语义级的集成,从而有效对电子政务数据进行数据集成,减少 数据孤岛,提高了数据集成系统的可扩展性。 3 ) 充分利用基于描述逻辑的o w ld l 的推理能力,并在本体和数据集成的基 础上,实现了基于本体的概念一级的推理查询,部分满足了用户的智能查询要求。 1 4 本文的组织 正文主要分四个部分:第一部分( 1 、2 章) 阐述本课题提出的背景、研究目 的和研究内容,分析了电子政务数据集成的现状,本体的内涵以及本体描述语言, 以及本体用于数据集成的必要性和优势;第二部分( 3 章) 设计了基于本体的工 商电子政务数据集成系统。第三部分( 4 、5 、6 章) 介绍基于工商电子政务本体 的电子政务数据集成系统的实现,第四部分( 7 章) 对设计实现进行了验证,对 未来重点研究方向和发展前景作出了展望。 北京邮电大学硕上论文 基于本体的电子政务数据集成研究 第二章基于本体的电子政务数据集成分析 2 1 电子政务数据集成的必要性 经过近几年电子政务基础资源的大规模建设,目前电子政务最突出的问题是 政府有多少委、办、局就有多少个信息系统,每个信息系统都有自己的信息中心, 产生了各自的数据库、各自的操作系统、独自丌发的应用软件和用户界面,而且 彼此间完全是独立的体系。 由于这些独立的体系问缺乏统一的规划和标准,使得各自建设的系统与网络 最终成为一个个“信息孤岛”。这些“信息孤岛”各自为营,彼此之间难以互联 互通,反过来又影响后面信息化建设的进程。这种结果与实旌电子政务以提高政 府工作效率的初衷大相径庭。业界都将“信息孤岛”归咎于政府部门的条块分 割,但这种说法其实并没有抓住问题的本质。既使在发达国家,政府部门要达到 各司其职的目的,条块分割肯定是必须存在的现象。而产生“信息孤岛”的根本 原因,在于政府部门之间都在抓各自的应用,却忽略了数据的统一管理,造成对 实施电子政务的认识还存在某些偏差。 随着电子政务的进一步发展,政府部门内部及政府部门之间共享政务信息的 需求将日益突出,政务信息的社会共享呼声也将愈益高涨。为了更好地利用电子 政务信息,不造成电子政务应用系统的重复建设和数据资源的浪费,提高应用的 互操作性,人们迫切需要集成这些地理上分布、管理上自治、模式上异构的异构 电子政务数据源,并使其具备计算机能够理解的语义,即数据集成。 2 2 电子政务异构数据集成分析 2 2 1 电子政务异构数据集成的目的 电子政务数据集成主要需要解决以下几个问题: ( 1 ) 重复建设问题。解决电子政务的重复建设问题,实现政务知识的共享和 重用。 ( 2 ) 应用的互操作。使数据具备语义,能够为应用程序所理解,促进电子政 务应用系统间的互操作,减少信息孤岛。 ( 3 ) 异构性。为用户提供一个统一的查询界面,向用户屏蔽数据源异构。 ( 4 ) 自治性。在对原有应用系统的数据进行集成时,不能影响原有系统的正 d 北京邮电人学硕士论文 基于本体的电子政务数据集成研究 常运行。 ( 5 ) 扩展性。集成系统具有很好的可扩展性和适应性,能够适应数据源的数 目、内容以及格式等的不断变化。 ( 6 ) 可靠性。提供数据的可靠传输,解决不同软硬件和网络环境中系统的通 信问题,实现“信息孤岛”之间的连通。 2 2 2 电子政务数据异构分析 数据异构问题的产生源于分布式数据源的多样性,即建立数据源时基于的 领域,使用的技术平台、语占、表达的多样性。这种多样性直接导致了数据源异 构性( h e t e r o g e n e i t y ) 的产生。 总体而言,异构可分为两个大的层次,第一层是领域层,第二层是领域内部 层,细分为四个小层次: 领域上的,如数据源针对不同的领域,有些集中存储地理信息、有些集 中存储工商政务信息。 语法上的( s y n t a x ) ,例如数据的格式; 结构上的( s t r u c t u r e ) ,例如数据源数据模式的不同; 语义上的( s e m a n t i c ) ,例如在不同语境上下文和应用领域中同一个概念 的不同含义。 语义语义 结构结鞫 爵法 语法 领域a骥域b 图2 - 1 - i t t 苦异构层次图 2 2 3 目前的数据集成方法及不足 数据异构可分为四类:领域、语法、结构和语义 1 。现在已有很多技术用 来解决这些类型的异构。近来x m l 作为一种为集成交换异构信息提供公共语法的 方法为人们所接受,同时也有大量的模式级规范( d t d 或x m l 模式) 作为数据集 成交换标准,包括曲x m l 、b i z t a l k 和r o s e t t a n e t 。尽管这样的模式级规范可用 塑j ! 室塑皇查兰堡主堡兰 苎王查竺堕皇兰堕墨塾塑塞垡墅塞 于指定共同接受的用于交换产品信息的标签集,但不能说明这些方法能解决语义 异构问题。首先,存在着许多这样的模式级规范,但不能假定它们都基于一致术 语。其次,不能确保包含在不同文件中的使用着一致术语的数据都使用着相同的 标签集。所以在使用x m l 结构进行所有数据集成交换的方法里,语义异构依然存 在 2 。 语义异构是数据集成过程需要解决的一个重要问题,它是指本地数据意义的 不同点或相似点 3 。例如,两个本体数据源中的两个模式可能有着相同的潜在 意义,但名字不同。因此,在集成过程中,需要标识出两个元素实际上表示相同 的概念。或者,两个数据源中的模式元素命名是相同的,而潜在的意义是不相容 的,即同名异义,这时在集成过程中就应该将两个元素看作是不同的概念。 因此,有意义的数据集成依赖于发现模式元素之间的不同点和相似点。所以 在集成过程中需要考虑数据的语义。语义是人们根据他们对世界的理解而赋予数 据的解释( 例如,将数据表示的内容与数据关联) 。对数据的不同解释就引起了语 义异构。在数据库领域,语法是指模式元素的结构的定义,而语义同语法是不同 的,语义指模式元素( 例如类、属性和方法) 的意义。 解决语义异构问题的方法需要对异构和自治的软件系统进行描述,使之具有共享 和交换信息的能力,这一点可以通过很多方式实现,其中的每一种适合于一定的 环境。其中一个解决方法是开发者自己编写转换系统问术语集的代码。当只有少 数几个系统需要交互时,这种方法还比较有效。然而,当有更多的系统加入进来 使语义异构的程度增加时,开发费用就会大幅增长,这种方法的实用性就会大打 折扣。另一种就是使用x m l 和r d f 为所表述的资源提供一定的语义。但是x m l 中的标签( t a g s ) 和e d f 中的属性( p r o p e r t i e s ) 集都没有任何限制。例如:x m l 可以 用“ t o m 表示t o m 是教师。r d f 片断” o r a l a s s i l a ”描述了某个w e b 页的创建者问题。其中上面的a u t h o r 和c r e a t o r 完 全可以用w r i t e r 来代替。再如:某医院和某大学的w e b 页上都有 ,但 是不明确它代表医生还是博士。综上,x m l 和r d f 在处理语义上存在的问题是: 同一概念有多种词汇表示,同一个词汇有多种概念( 含义) 。 近年来,随着语义w e b 的提出,本体的研究得到了长足的发展,目前w 3 c 已发布了本体语言的相关标准,促进了本体理论和应用的发展,由于本体诞生的 天然属性,即共享概念模型的明确的形式化规范说明,使得目前有了对知识进行 显性描述支持的标准语言,能够很好地解决语义异构问题。下面将介绍本体的相 关知识及本体语言,作为本体在电子政务数据集成中应用的理论基础和应用基 础。 6 垡! ! 塞堂皇查堂堡主堡苎苎三坐竺塑皇三堕墨望塑生堕里塑 2 3 本体论 2 3 1 本体定义 本体最早是一个哲学上的概念,从哲学的范畴来说,本体是客观存在的一个 系统的解释或说明,关心的是客观现实的抽象本质。在人工智能界,最早给出本 体定义的是n e c h e s 等人,在文献 4 中,他们将本体定义“为给出构成相关领域 词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规 则的定义”。 1 9 9 3 年,g r u b e r 给出了本体的一个最为流行的定义 5 ,即“本体是概念模 型的明确的规范说明”。后来,b o r s t 在此基础上,给出了本体的另外一种定义 6 : “本体是共享概念模型的形式化规范说明”。s t u d e r 等对上述两个定义进行了深入 的研究,认为本体是共享概念模型的明确的形式化规范说明。包含4 层含义 7 : 概念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) : “概念模型”指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概 念而得到的模型。概念模型所表现的含义独立于具体的环境状态。 “明确”指所使用的概念及使用这些概念的约束都有明确的定义。 “形式化”指本体是计算机可读的( 9 0 能被计算机处理) 。 “共享”指本体中体现的是共同认可的知识,反映的是相关领域中公认 的概念集,即本体针对的是团体而非个体的共识。 本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该 领域内共同认可的词汇,并从不同层次的形式化模式e 给出这些词汇( 术语) 和词 汇问相互关系的明确定义。 2 3 2 本体的组成 在文献 8 】中,p e r e z 等人认为本体可以按分类法来组织,他归纳出本体包 含5 个基本的建模元语( m o d e l i n g p r i m i t i v e ) 。这些元语分别为:概念( c l a s s e s ) ,关 系( r e l a t i o n s ) ,函数( f u n c t i o n ) ,公_ 理( a x i o m s ) 和实例( i n s t a n c e s ) 。通常也把c l a s s e s 写成c o n c e p t s ( 1 ) 概念的含义很广泛,可以指任何事物,如工作描述、功能、行为、策略 和推理过程等等。 ( 2 ) 关系代表了在领域中概念之问的交互作用。形式上定义为n 维笛卡儿乘 积的子集:r :c l c 2 c n 。如:子类关系( s u b c l a s s o f ) 。 ( 3 ) 函数是一类特殊的关系。在这种关系中前n 一1 个元素可以惟一决定第l q 北京邮电大学硕士论文 基于本体的电予政务数据集成研究 个元素。形式化的定义如下:f :c 1 x c 2 x x c n 一1 x c n 。例如m o t h e r o f 关系就是 一个函数,其中m o t h e ro f ( x ,y ) 表示y 是x 的母亲,显然x 可以惟一确定他的母 亲y 。 ( 4 ) 公理代表永真断言,比如概念乙属于概念甲的范围。 ( 5 ) 实例代表元素。 从语义上分析,实例表示的就是对象,而概念表示的则是对象的集合,关系 对应于对象元组的集合。概念的定义一般采用框架( f r a m e ) 结构,包括概念的名 称,与其他概念之间关系的集合,以及用自然语言对该概念的描述。基本的关系 有4 种:p a r to f , k i n do f , i n s t a n c eo f 和a t t r i b u t eo f a ( 1 ) p a r to f 表达概念之间部分与整体的关系; ( 2 ) k i n d o f 表达概念之间的继承关系,类似于面向对象中的父类和子类之间的 关系:给出两个概念c 和d ,c = x l x 是c 的实例) ,d = ( x l x 是d 的实例 ,如果 对任意的x 属于d ,x 都属于c ,则称c 为d 的父概念,d 为c 的子概念; ( 3 ) i n s t a n c eo f 表达概念的实例和概念之间的关系,类似于面向对象中的对象 和类之间的关系; ( 4 ) a t r i b u t eo f 表达某个概念是另外一个概念的属性。例如概念“注册号”可作 为概念“企业”的一个属性。 在实际的应用中,不一定要严格地按照上述5 类元语来构造本体。同时概念 之间的关系也不仅限于上面列出的4 种基本关系,可以根据特定领域的具体情况 定义相应的关系,以满足应用的需要。 2 3 3 本体的作用 近几年来,本体研究己经不再局限于人工智能领域,本体已经在计算机的各 个领域得到了广泛的应用和发展,主要因为本体具有以下几个作用 9 】: ( 1 ) 交流( c o m m u n i c a t i o n ) - 主要为人与人之间或组织与组织之间的交流提供共 同的词汇; ( 2 ) 互操作( i n t e r - o p e r a b i l i t y ) :在不同的建模方法、范式、语言和软件工具之 间进行翻译和映射,以实现不同系统之间的互操作和集成; ( 3 ) 系统工程( s y s t e m se n g i n e e r i n g ) :本体分析能够为系统工程提供以下方面的 好处: 可重用性( r e - u s a b i l i t y ) :本体是领域内重要实体、属性、过程及其相互关系 形式化描述的基础。这种形式化描述可成为软件系统中可重用和共享的构件。 检索( s e a r c h ) :本体可以作为元数据,描述信息库中信息的索引。 可靠性( r e l i a b i l i t y ) :形式化的表达使得自动的一致性检查成为可能,从而提 北京邮电大学硕上论文 基于本体的电子政务数据集成研究 高了软件的可靠性。 规格说i t ) ( s p e c i f i c a t i o n ) :本体分析有助于确定i t 系统( 如知识库) 的需求和 制定规范。 维护( m a i n t e n a n c e ) :在系统开发中使用本体,会使得维护更加容易。使用本 体构造出来的系统改进了软件的文档化工作,从而减少了维护成本。 知识获取( k n o w l e d g ea c q u i s i t i o n ) :当构造基于知识的系统时,用已有的本体 作为起点和基础来指导知识的获取,可以提高其速度和可靠性。 2 4 本体语言 本体可以用预先定义好的语言来表示,有基于逻辑、基于框架和基于w e b ( r d f ,x i v l l ) 几种。r d f ( s ) 、d a m l + o i l 和o w l ( 图2 2 ) 是3 种具有里程 碑意义的本体语言。 从r d f ( s ) 至0o w l 本体语言的研发不断地成熟和完善,为语义网的全面 实现奠定了良好的本体语言基础。大多数语言以x m l 作为它们的主要语法。 x m l 提供了一种为数据编码的方式,使用x m l 可以在计算机之间方便的解析 各种类型的数据,使用x m ls c h e m a 可以定义数据结构。而r d f 则能够说明数 据本身,也就是语义。r d f 的基本数据模型除了r e s o u r c e s 以外,还有p r o p e r t i e s 和s t a t e m e n t s 。p r o p e r t y 是用来描述一个r e s o u r c e 的一个方面、特征、属性以及 关系。s t a t e m e n t 是一个特定的r e s o u r c e ,它包括一个命名了的p r o p e r t y 和它对应 的r e s o u r c e 的值。一个r d f 描述是一个三元组,( o b j e c t r e s o u r c e , a t t r i b u t e p r o p e r t y ,v a l u e r e s o u r c eo rl i t e r a l 】) 。r d f 提供了一个标准模型来描述 网上资源的事实,r d fs c h e m a 增强了r d f 对资源的描述能力。 目前,w 3 c 的推荐本体语言是o w l ( w e bo n t o l o g yl a n g u a g e ) ,具有能够扩 展下一代互联网的标记工具的能力,提供诸如更精确的网页搜索、智能软件代理 和知识管理等先进的服务。由于o w l 主要建立在o i l 和d a m l + o i l 之上, 因此它的主要特点和o i l 极其相似,除了d a m l + o i l 样式、o w l 规范,还包 括抽象语法,抽象语法通过使用扩展的b n f 语义来定义,该语法提供一个更高 的层次使书写更容易,除此以外还提供了类似框架的复杂公理,使得o w l 语言 能够清楚地表达实体间术语词汇和联系,在x m l ,r d f ,r d f s 之上,使w e b 上 的更多内容能够被计算机识别。 o w l 语言主要包括: a 本体。一个o w l 本体是一系列的公理和事实的总和,加上对其它本体的 包含参考。o w l 本体是w e b 文档,能够通过u r i 被引用。本体也有一个非逻辑 的部分( 目前还不具体) 用来记录版权和其它与一个本体相关联的非逻辑信息。 塑! ! 塞坚皇查兰堡主笙苎苎查竺盟皇王堕堑塑塑塞堕鲨塞 b 公理。公理用来将类和属性i d 与它们规则中的部分或全部联系起来,为 类和属性提供其它的逻辑信息。公理包括类公理、属性公理、描述和约束。 c 事实。事实以类的形式陈述有关特定个体的信息,该个体属于类之外,还属 于属性和值。个体要么有一个个体号,要么是匿名的( r d f 中指空节点1 。这 里的语法用来映射常规的r d f x m l 语法。 图2 - 2 本体语言进化图 2 5 基于本体的政务数据集成的优势 本体为表示和交流领域的知识给出了个词汇库,通过对概念的严格定义和 概念之间的关系来确定概念精确含义,表示共同认可的、可共享的知识,从而能 够解决语义异构的问题和提高知识的共享和重用,减少重复建设。 在数据集成中使用本体有许多的优势: 首先,本体提供了一个共享的词汇库,可作为与数据源的稳定的概念接口, 并且独立于数据模式。 第二,本体的描述能力可以解决同名异义及异名同义,能够描述概念间的相 互关系,显示的描述数据的语义,支持相关信息源之间的信息交换,提高应用的 互操作性,促进领域知识的共享和重用。 第三,由于本体的描述能力,配合推理机可以进行一些推理查询,发掘一些 蕴涵的数据关系。 1 0 北京邮电大学硕十论文 基于奉体的电子政务数据集成研究 第三章基于本体的电子政务数据集成体系结构设计 由于本体既准确地描述了概念含义又描述了概念之间的内在关联,能通过逻 辑推理获取概念之间蕴涵的关系,具有很强的表达概念语义和获取知识的能力, 因此被选择用来解决语义异构的问题和提高领域知识的共享和重用,减少重复建 设,消除信息孤岛,提供智能查询。 本文阐述基于本体的电子政务数据集成系统的设计及实现,该平台设计目标 是通过工商本体对有关工商的信息资源进行语义描述,利用工商全局本体、局部 本体及局部本体与数据源的映射、全局本体与局部本体的映射,实现对异构工商 电子政务数据的数据集成及语义检索。 电子政务数据集成原型系统的设计工作包括工商领域知识本体建模、知识本 体的形式化与存储、语义查询代理等多个组件。通过这些组件的有机结合,可以 利用工商本体中的词汇,在语义层统一的基础上,为用户提供一个统一的用户查 询接口,使用户可以浏览工商领域的概念,进行语义查询。 3 1 系统结构 试验系统目前仅仅作为一种概念性验证来实现,因此系统的稳定性、执行效 率、优化措施、界面友好性等暂时不是主要研究内容。试验系统整体设计采用 b s 结构,客户端使用浏览器( i e 、m o z i l l a 、n e t s c a p e 等) :服务器端采用多层 体系架构设计,包括:基于w e bs e r v e r 的表现层、基于应用服务器的中问件层、 基于数据库系统的数据存储层等,试验系统的整体结构如图3 1 所示。 北京邮电大学硕士论文 基于本体的电子政务数据集成研究 图3 _ 1 电子政务数据集成系统体系结构图 1 ) 统一用户查询接口 该接口为表示层,为用户提供统一的访问接口,界面涉及的是概念的层次结 构,而不是具体的数据库。用户通过提供查询所需的概念和关键词得到返回结果。 具体过程为,用户选择输入和输出的概念,这些概念均以本体为参照,用户给出 查询请求的过程是与全局查询代理进行交互的过程,当选择完成后,将查询请求 发送给全局查询代理。 2 ) 应用服务器中间件层 应用服务器层主要采用s e r v l e t 和e j b 等技术开发的应用组件构成,这些组 件完成查询分析、语义分析、语义推理、查询分解、结果合并功能。 3 ) 数据层 数据层是所有分布异构数据源的集合,存储着电子政务数据,是数据集成的 基础。 3 2 集成框架设计 在基于本体的数据集成的方法中,一般情况下,存在三种方法:单本体方法、 多本体方法和混合本体【1 0 的方法来对数据源进行集成。 单本体法采用一个全局本体为各信息源提供全局一致的公共概念,当各信息 源具有基本相同的领域视角时,采用此法比较适合。通过全局本体各信息源关联 起来。但其缺点也比较明显:如果各信息源对领域的视角不同,创建统一的全局 本体基本不可行;另外,当各信息源发生改变时,全局本体库也必须相应修改。 多本体法则不需要全局本体,每个信息源具有自己的本地本体库,相互之间 的联系只要在本体库之问建立关联即可。这样,每个在本地本体库更改时,只需 修改受影响的关联部分。这种集成方式的本地本体库自由度较大,但本地本体库 之间缺乏统一的定义,难以集成。 混合法和多本体法相似,但是它增加了一个公共本体,公共本体中包含了从 各信息源本体库中提取的公共的、基本的原子概念本体。这样,本地本体库之间 就可以通过公共本体进行互操作经过对现有异构数据源的集成方法进行比较, 可以发现混合法具有比较多的优点。 本文将采用混合法,提出用全局本体、局部本体及本体映射来实现基于本体 的数据集成,采用o w ld l 作为本体开发语言,实现工商领域的本体表示、本 体问映射和语义级数据集成的语义推理查询。基于本体的集成分三步进行: 北京邮电大学硕士论文 基于本体的电子政务数据集成研究 图3 - 2 混合本体集成框架 第一步:在对所有数据源进行分析的基础上,找出其中所涵盖的术语,定义 共享的词汇表,建立全局本体。其中分析信息源是指对各个分布式数据源进行完 全透彻的分析,即分析该数据源包含了什么数据、数据信息的存储方式及数据的 语义信息等。 第二步:针对各个局部数据源进行分析,不考虑其他数据源,建立局部本体; 第三步:建立全局本体与局部本体之问的映射。该阶段通过定义全局本体和 局部本体中概念间的映射来阐明概念间的关系。这一阶段必须解决语义异构问题 来衔接前两个阶段。 后面的四、五、六章将依次详细介绍电子政务本体的设计与实现,及其在电 子政务数据集成系统中的应用。 3 3 基于本体的电子政务查询子系统设计 查询系统是数据集成系统中关键的子系统,它在领域本体及二级映射的基 础上为用户提供了一个统一的查询接口,向用户屏蔽了数据源的异构性,并在本 体的基础上,借助基于描述逻辑的本体推理机为用户提供概念级的查询和语义查 询,查询系统的逻辑结构清晰的定义了查询系统的各功能构件的功能及其相互关 系( 图3 3 ) : 北京邮电大学硕士论文 基于本体的电子政务数据集成研究 图3 - 3 基于本体的电子政务查询子系统结构 3 3 1 查询系统的主要功能模块 1 ) 用户全局查询接口 为用户提供了一个统一的查询接口,通过该接口用户可以浏览领域相关的概 念并提交查询请求,目前这个接口仅提供给较专业的用户使用,即用o q l 语言 提交查询,当用户希望把查询固定保存时,系统会根据其选择将查询的模式保存 到用户的个性化本体文件中或系统本体文件中,使系统具备了一定的开放性和灵 活性。 2 ) 全局查询处理模块 全局查询处理模块包括全局查询推理器和查询分解器。 当用户将查询请求提交到全局查询处理模块时,由全局查询推理器首先对用 户提交的查询语句进行词法分析、语法分析,得到一个语义正确、内容完备的语 法树,然后将语法树转换为查询树,依据全局本体、局部本体及他们间的相互关 系,对查询树进行推理扩展,并根据推理后得到的查询扩展树构造查询扩展语句, 之后由查询分解器对扩展语句分解为与各个异构数据源局部本体相对应的形式, 分别提交给给异构数据源对应的局部查询处理模块。 全局查询推理器包括o q l 词法分析器、语法分析器、查询转换器、查询推 理器几个部分,完成o q l 的内部表示、语法树的构造、查询树的构造以及查询 推理扩展树、查询推理扩展查询语句的构造。 查询分解器主要负责对于统一用户接口提交的经过推理查询扩展后全局查 询语句的分解和构造,将查询请求根据全局本体和局部本体的映射关系和数据依 赖关系分解为查询语句序列,之后将子查询请求提交给局部代理,由局部代理根 据局部本体与数据源的映射关系,进行查询请求本地化,对局部数据源进行查询。 3 ) 局部查询处理模块 4 北京邮电大学硕士论文 基于本体的电子政务数据集成研究 接收来自全局查询处理模块提交的子查询请求,将子查询请求本地化,转化 为局部数据源管理系统可以接受的查询语句,并提交给局部数据源,接收数据源 返回的查询结果,将查询结果返回给全局查询处理模块。 3 3 2 查询处理流程 1 ) 全局查询处理模块接收来自用户的查询请求; 2 ) 全局查询处理模块使用全局本体推理模块进行推理扩展并使用全局本体 术语表示用户查询请求,得到全局查询语句: 3 ) 查询分解模块根据全局查询处理模块产生的全局查询语句和映射规则,产 生用各局部本体术语表示的子查询集合; 4 ) 全局查询处理模块将子查询集合中的各个子查询提交给相对应的局部查 洵代理; 5 ) 局部查询代理根据局部本体与数据源的映射关系将子查询语句翻泽为数 据源对应的查询语句; 6 ) 局部查询代理向数据源管理系统提交翻译后的查询语句; 7 ) 数据源管理系统向局部查询代理返回查询结果; 8 ) 局部查询代理将查询结果转化为统一的格式并返回给全局代理; 9 ) 全局奄询代理将各局部代理返回的结果进行合并; 1 0 ) 全局查询代理将合并后的结果返回给用户; 囹查询序列图 1 5 璺! ! 室堡皇查兰竺圭笙壅 茎王查堡塑皇王堕堑塑塑壅堕堕塑 3 4 本体服务器 本体服务器负责存储和管理本体,对外提供提供本体访问接口,使用户可以 浏览、查询本体中的概念体系,包括本体中涉及的概念及概念间的相互关系、全 局本体与局部本体之间的映射关系; 3 5 本体推理机 本系统中我们选用r a c e r 作为本体推理机。 使用本体的目的之一,就是想通过对本体的形式化描述,使得计算机能够理 解本体所描述的知识,从而“智能的”完成任务。本体推理是计算机对本体知识 理解的一种重要表现。在我们的系统中,选用了o w ld l 作为本体描述语言。因 为o w ld l 的语义基于描述逻辑( d e s c r i p t i o nl o g i c s ) ,而描述逻辑可以较好的 实施推理,o w ld l 的大多数l a n g u a g ec o n s t r u c t o r 都可以被映射到一个d l 逻 辑原语,所以我们采用了基于描述逻辑s h o i q 的推理机r a c e r ,从而使得将推理 的任务变为把o w ld l 描述的本体映射到s h o i q 的表示形式。 r a c e r 推理机接受的是两种知识表示格式:d i g ( d e s c r i p t i o nl o g i c i m p l e m e n t a t i o ng r o u p ) 协议定义的知识描述格式( 基于x m l ) 和r a c e r 自己定 义的知识描述格式( 基于广义表) 。在j e n aa p i 中提供了d i g 接口a p i ,我们需 要做的工作具体就是使用j e n a 提供的d i ga p t 连接r a c e r ,提交推理请求,接 收推理结果。 1 6 北京邮电大学硕士论文 基于本体的电子政务数据集成研究 第四章工
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北京市2025北京市事业单位面向退役大学生士兵定向招聘458人笔试历年参考题库附带答案详解
- 休宁县2025年安徽黄山市休宁县引进高层次紧缺人才7人笔试历年参考题库附带答案详解
- 2025陕西核工业工程勘察院有限公司招聘(21人)笔试参考题库附带答案详解
- 2025湖南永州市潇湘兴业集团公司选聘急需紧缺专业人才25人笔试参考题库附带答案详解
- 2025浙江宁波市奉化区融媒文化发展有限公司招聘3人笔试参考题库附带答案详解
- 2025广东清远市东胜服务有限公司招聘5人笔试参考题库附带答案详解
- 2025年芜湖市国企招聘9人笔试参考题库附带答案详解
- 2025年山东省国控设计集团有限公司社会招聘8人笔试参考题库附带答案详解
- 2025年国网浙江省电力有限公司校园招聘行程发布笔试参考题库附带答案详解
- 2025年合肥市智慧交通投资运营有限公司社会招聘12人笔试参考题库附带答案详解
- 2025年度国务院国资委干部教育培训中心招聘(2人)笔试备考试题及答案详解(历年真题)
- 2025司法协理员考试模拟题及答案
- 2025年北京市家庭居室装修工程施工合同
- 事业法人登记管理办法
- 承装修试许可证管理办法
- 2025楼宇平方效益评价规范
- 术后并发症护理
- 第9课《天上有颗“南仁东星”》课件 2025-2026学年统编版八年级语文上册
- 粪污清运服务管理制度
- 医疗机构动火管理制度
- 孵化基地制度管理制度
评论
0/150
提交评论