(计算机应用技术专业论文)基于本体的web企业应用集成研究.pdf_第1页
(计算机应用技术专业论文)基于本体的web企业应用集成研究.pdf_第2页
(计算机应用技术专业论文)基于本体的web企业应用集成研究.pdf_第3页
(计算机应用技术专业论文)基于本体的web企业应用集成研究.pdf_第4页
(计算机应用技术专业论文)基于本体的web企业应用集成研究.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的web企业应用集成研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东华大学硕士学位论文 摘要 随着计算机技术在企业信息化中的不断应用,企业的各个应用系 统之间存在着大量重复甚至不一致的信息和数据,从而制约相互之间 畅通的信息交流与共享。要解决这个矛盾,只有在采用新的体系结构 进行应用系统开发同时,实施企业应用集成( e a i ) 将旧有系统有效 的集成。 o n t o l o g y 最早是一个哲学上的概念,近年来正逐步成为知识工 程、知识管理、智能信息集成、信息协调系统的热点研究问题。 o n t o l o g y 的目标是捕获相关领域的知识,提供对该领域知识的共同理 解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出 这些词汇( 术语) 和词汇问相互关系的明确定义。 本文以教育部关于“基于本体模型的纺织服装企业信息交换技术 研究 项目为背景,着立于研究企业的知识的描述,构建信息共享的 企业应用集成原型仿真系统。企业应用集成包括:平台集成、表示层 集成、数据级集成、语义级集成。语义级集成是更高层次应用集成的 方法,o n t o l o g y 是表示企业语义信息的关键技术。因此,基于本体企 业应用的集成的研究就显得尤其重要。 本文首先介绍了企业应用集成的相关概念,并对集成应用的层次 进行分析,指出要能更深入、更有效地集成现有系统,必须将集成建 立在语义层次上,借助行业的共享知识一一本体进行集成。接着文章 详细解释了本体的概念,对现有构建方法进行分析,提出自己的构建 方法一一自然语言词典技术l t n l 加速本体开发。然后接着针对现在 应用发展的方向w w w 上的本体应用进行研究,提出了本体网络模型 的超链接框架o t s h 。最后介绍了基于本体的企业应用集成仿真原型 系统o e a i 。 本文的研究意义在于将本体开发方法引入到企业应用集成领域, 实现从数据语法层到语义级集成层次的提升,提出了l t n l 方法,为 东华大学硕士学位论文 本体开发提供了新的途径,并对w e b 下的本体应用进行了探讨,设 计了一个纺织服装领域的企业应用集成的一个仿真原型系统,对国内 展开本体在企业应用集成中的应用研究,具有参考价值和实际意义。 关键词:企业应用集成,本体,语义化,x m l ,o i l 东华大学硕士学位论文 a b s t r a c t t h ep r o je c t b a c k g r o u n do ft h et h e s i si so n t o l o g y b a s e dt e x i c l e e n t e r p r i s ei n t e r c h a n g e w i t ht h eu s eo fc o m p u t e rt e c h n o l o g y ,t h e r ea r e m o r ei n c o n s i s t e n ti n f o r m a t i o ni ne a c h a p p l i c a t i o ns y s t e m o f e n t e r p r i s e s ,t h u si tr e s t r i c te a c ho t h e ri n t e r c h a n g ea n ds h a r i n g o n ew a y t os o l v et h i sp r o b l e m ,i st oc a r r ye a it oi n t e g r a t eo l ds y s t e m o n t o l o g yi s ap h i l o s o p h i c a l c o n c e p t i o nl o n g l o n ga g o ,n o w i t b e c o m es t u d yi nk n o w l e d g ee n g i n e e r i n g ,i n f o r m a t i o nm a n a g e m e n t , i n t e l l e c t u a li n f o r m a t i o n i n t e g r a t i o n i nr e c e n t y e a r s t h eg o a l o f o n t o l o g y i st oo f f e rt h ec o m m o nu n d e r s t a n d i n go ft h i sd o m a i n k n o w l e d g ea n dc o n f i r mc o m m o na p p r o v e dv o c a b u l a r y t h i s p a p e r h a si n t r o d u c e d e n t e r p r i s e s a n du s e dt h er e l e v a n t c o n c e p t si n t e g r a t e da tf i r s t ,a n da n a l y s ei ni n t e g r a t i n gt h el e v e lu s e d , p o i n to u tt h a tc a ni n t e g r a t et h ee x i s t i n gs y s t e mm o r ed e e p l ya n dm o r e e f f e c t i v e l y ,m u s ts e tu pi n t e g r a t i n go nt h es e m a n t e m el e v e l ,d r a w s u p p o r tf r o mt h es h a r i n gk n o w l e d g eo ft h et r a d e t h en o u m e n o n ni s i n t e g r a t e d t h e nt h ea r t i c l eh a se x p l a i n e dt h ec o n c e p to ft h eo n t o l o g y i nd e t a i l ,t os t r u c t u r i n gt h em e t h o dt oa n a l y s ee x i s t i n g l y ,p u tf o r w a r d o w nc o n s t r u c t i o nm e t h o d - - m l e x i c o nt e c h n o l o g yo fn a t u r a ll a n g u a g e a c c e l e r a t e so n t o l o g yd e v e l o p m e n t t h e nc o n t i n u eu s i n gt h eo n t o l o g yo n w w w d e v e l o p m e n tt o u s er e s e a r c ht on o w ,h a v ep r o p o s e do t s ho f f r a m eo fh y p e r l i n k i n go ft h eo n t o l o g yn e t w o r km o d e l a tl a s ti t p r o p o s e so n t o l o g y - b a s e de a is y s t e m ( o - e a i ) t h er e s e a r c h m e a n i n g l i e s i n i n t r o d u c i n g t h e d e v e l o p m e n t a p p r o a c ho ft h eo n t o l o g yt ou s ei nt h ei n t e g r a t i o nf i e l d ,h a sp r o p o s e d l t n lm e t h o dt h a to f f e r e sn e ww a yf o rt h ef a c tt h a tt h eo n t o l o g yi s i i i 东华大学硕士学位论文 d e v e l o p e d ,a n dt a l ka b o u to n t o l o g ya p p l i c a t i o nu n d e rw e b ,t h e nd e s i g n ap r o t o t y p e0 e a is y s t e m i ti su s e f u lt os p e e da c t u a la p p l i c a t i o n a u t h o r :x i a o y u a nq i a n g ( c o m p u t e ra p p l i c a t i o n ) s u p e r v i s e db y :p r o f l is u n k e y w o r d s :e a i ,o n t o l o g y ,s e m a n t i ca p p l i c a t i o n ,x m l ,o i l i v 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师 的指导下,独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我 对所写的内容负责,并完全意识到本声明的法律结果由本人承担。 学位论文作者签名:否写屹超 日期;a 茂占年2 月2 驴日 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可 以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存和汇编本学位论文。 保密西在五年解密后适用本版权书。 本学位论文属于 不保密口。 躲疆吃远 躲仇百 日期:2 舻& 脚日日期:毋弓月f 9 日 东华大学硕士学位论文 1 1 研究背景 第一章引言 随着计算机软件技术的发展和企业信息化的不断发展,企业使用的软件, 如:e r p 、p d m 和c r m 等应用和管理系统也越来越多。虽然这些系统是应用在不 同的领域,管理着不同的对象,但是它们之间也有很多相互交叉,甚至重复的信 息和数据。而各个应用系统又是相互独立运行,因此企业内部的这些系统相当于 一个个“信息孤岛 ,相互之间没有畅通的信息交流与共享。 企业要解决这些矛盾,一种办法是对现有系统推倒重来:将企业的各个信息 系统全部更新成一个统一的管理系统,各个部门都在这个统一的系统上工作,但 考虑到成本、实施周期和难度因素,这不是一种切实可行的解决方案。另一种办 法是企业从整体来考虑企业的整个信息系统,根据实际需要,对各个应用系统进 行总体规划,选择一个合适的集成平台,把企业的各个“信息孤岛”有机的集成 起来。这种解决方案不管是从实施难度,还是从实施成本、周期和技术上考虑都 是切实可行的。 1 2 国内外研究现状 在计算机开始用于民间的上世纪六七十年代,企业应用的主要目标是利用计 算机来代替一部分联系不那么密切、手工的重复性劳动的工作环节,以提高生产 东华大学硕士学位论文 效率。这一阶段还没有企业数据的集成需求。 到了上世纪八九十年代,全球企业在信息系统上进行了巨大的投资,为企业 建立了众多的应用信息系统,以帮助企业进行内部或外部业务的处理和管理。由 于企业的传统结构是按照职能来组织各个部门,各个部门分别担负相关的职能, 分别使用不同的应用信息系统来协助他们完成规定的职能,导致众多关键的信息 被封闭在相互独立的系统中,形成一个个所谓的“信息孤岛”。 如何将众多的“信息孤岛”联系起来,以便让不同的系统之间交互信息,作 为一个企业需求被提了出来,这时,应用集成的价值和必要性也开始体现。 企业在追求效率和控制成本,或在兼并和收购过程中,对应用集成技术提出 了更高的要求,特别是电子商务的兴起,这一基于r n t e r n e t 的新的商务模式 直接导致新的系统集成结构的出现,像w e b 服务技术、e a i 等。这时,企业应 用集成不仅仅是企业面临的一个技术问题,还是一个管理问题和组织问题。 我们根据m a t j a zb j u r i e 的分层方式【1 1 并做了一些修改,认为企业应用集成 一般包括下面几个层次的集成: 平台集成 表示层集成 数据级集成 语义级集成 传统的集成技术中,主要包括了平台集成、表示层集成和数据级集成等。平 2 东华大学硕士学位论文 台集成和表示层集成是最浅层次的,只是实现不同平台之间的通信或将把原有零 散的系统的界面集中在一个新的、通常是浏览器的界面中;数据级集成是为新的 商业目的,提供一个可访问已有的多个数据库系统的新的接口。 语义级集成是最高层次的集成,只有它才能最好地实现新的商务目标,实现 共用的最大化,较大限度地解决系统的异构问题,在语义级别上实现系统的互操 作。 o n t o l o g y 最早是一个哲学上的概念,近年来正逐步成为知识工程、知识管理、 智能信息集成、信息协调系统的热点研究问题,很多学科都在使用这个术语,但 存在不同的定义。 现在比较公认的本体定义是s t u d e r 2 】给出的:o n t o l o g y 是共享概念模型的明 确的形式化规范说明。o n t o l o g y 的目标是捕获相关领域的知识,提供对该领域知 识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给 出这些词汇( 术语) 和词汇间相互关系的明确定义。 本体是表达语义信息的重要方法,它在企业应用集成研究中的主要作用和特 点是: 本体是领域内共同认可的词汇 本体的构建是为实现知识的共享而设计的 构建本体的目标是为了实现独立于人工干预的语义层次的信息互操作 东华大学硕士学位论文 1 3 本文的课题意义和研究内容 1 3 1 课题意义 此论题以教育部关于“基于本体模型的纺织服装企业信息交换技术研究 项目为背景,着立于研究纺织服装信息领域信息知识描述的知识库构建,构建面 向纺织服装业的信息共享与交互的原型仿真系统。我国是纺织大国,纱、布,服 装等的产量均居世界首位,随着中国的入关和世界经济一体化的加速,国内外市 场竞争将进一步加剧。纺织企业要作大作强,就必须加快自身的信息化建设,深 入挖掘和利用存储在企业内外的各种信息,并对其进行集成处理。因此,针对纺 织领域内大量异构信息采用面向本体的方法进行系统集成的研究就显得尤其重 要。 在激烈的市场竞争中,如何使得企业调整客户需求驱动的物流运作流程和 有效实施与业务合作伙伴协同商务的供应链管理,使企业间电子商务应用系统具 有良好的可扩展性和灵活性,能够迅速反映企业业务流程的变化对于提高企业电 子商务的市场竞争力具有重要的意义,此外研究企业间供应链协作、系统的集成 的语义化建模及其原型系统对于推动最新的语义网技术和其他应用实现技术在 基于w e b 电子商务领域的应用,促进我国电子商务的发展也具有很强的实用价 值。所以本课题在理论研究和设计应用中都具有十分重要的意义。 4 东华大学硕士学位论文 1 3 2研究工作 本课题以教育部的“基于本体模型的纺织服装企业信息交换技术研究”项 目为背景,主要研究解决异构环境下企业内部和企业间的信息的表示与共享,研 究和建立基于本体的语义化企业应用集成原型仿真系统,为以后更近一步进行基 于本体的企业应用集成的研究打好基础。 研究内容主要涉及以下几个方面: ( 1 ) 详细分析了本文的研究背景,阐述了当前企业系统间信息的共享问题,企 业应用集成的概念、集成的研究现状、集成的层次、集成的方法; ( 2 ) 分析了本体的概念、本体的发展,本体的研究现状、本体表示的方法; ( 3 ) 全面分析了本体的评价及其构建方法,并对其进行深入,最后提出t ;基- 7 自然语言词典技术的构建本体的解决方案; ( 4 ) 随着i n t e r n e t 的兴起,w e b 应用开始走入人们的日常工作和生活,对企 业应用集成提出了新的要求,研究网络上的基于本体的表示以及信息检索 的方法。 ( 5 ) 研究和建立基于本体的语义企业应用集成原型仿真系统,为以后更近一步 进行面向本体企业应用集成的研究打好基础。 1 3 3 研究方法 本论文采用了以下研究方法: ( 1 ) 对企业应用集成进行深入研究,熟悉其概念和国内外研究现状、研究集成 东华大学硕士学位论文 分类及其常用集成方法等技术。 ( 2 ) 对本体进行深入研究,研究其概念、表示及其构建方法。 ( 3 ) 本体的构建技术及其评价也是本体的关键问题之一,如何发现潜在的语义 冲突是研究的重点。 ( 4 ) 由于x m l 可扩展性、自描述性、自相容性等优点,可以将x m l 作为通用的 本体表示方式。r d f 和r d fs c h e m a 以及d a m l 、o i l 、d a m l + o i l 和o w l 等w 3 c 组织建议的本体标识语言,都是我们的研究本体的对象。 1 4 论文的组织结构 本文各章节研究内容之间安的关系如图1 一l 所示。各章的内容如下: 本文的第一章为绪论部分,主要介绍了本文的研究背景、研究问题提出的原 因,主要研究的内容和意义等,重点阐述了企业应用集成、语义级集成、本体等 相关知识背景的最新研究状况。 第二章为本文的理论基础,重点分析了与本论文密切相关的企业应用集成的 相关概念,研究现状,并对企业应用集成的研究层次进行深入探讨。 第三章对语义级应用集成的关键技术本体进行介绍,重点分析了与本 体密切相关的x m l 、x m ls c h e m a 、r d f 、r d f s 、o i l 、d a m l + o i l 、o w l 等本体表示 语言,并且讨论了本体建模元语的五元组结构概念。 6 东华大学硕士学位论文 图1 - - 1 论文体系结构示意图 第四章根据第二章和第三章的内容介绍了本体模型的构建的问题,详细分 析了现有的本体构建方法。笔者从句子的语法分析中得出启示,提出了使用自然 语言处理技术的方法来划分本体建模元语,构建本体的方法。本体构建完成之后, 一般都需要进行分析评价,最后本章给出了本体冲突检测方法。 第五章详细讨论了根据系统实际应用环境w w w ,提出了网络环境下本体的超 链接结构框架,讨论了在此框架下信息的检索方法。 第六章根据本文提出的系统设计理论和思想,介绍了一个基于本体模型企 业应用集成的原型系统0 一e a i 。 第七章总结了本文研究工作的贡献,并提出了进一步研究的展望。 7 东华大学硕士学位论文 第二章企业应用集成理论研究 2 1 企业应用集成的定义 企业应用集成,也就是e a i 并不是一个新的概念。但步入九十年 代后, e a i 的重要性开始得以体现并倍受关注。原因很简单,企业需 要不断改进他们应用系统的功能,作为企业利益最大化的工具,企业 的管理者希望他们对其所作的投资能够得到回报。但显然的,企业的 管理者们渐渐开始意识到,如引进新的应用系统不能与旧有应用系统 很好的集成在一起工作,将导致过去投资被浪费,旧有的应用系统功 能部分或全部被抛弃。这显然是企业的管理者们所不愿看到的,于是 在纷纷采用新的体系结构进行应用系统开发同时,如何将旧有系统有 效的集成进来开始正式走上各个公司的研究桌面。 e a i 的最终目的就是要将企业的各种企业的应用系统e i s 集成到 一起,这一过程应尽可能不对已有的应用程序做出过多的修改,并实 现数据共享和业务流程的集成。 当然,企业需要在e a i 之前进行策划,以确定实施e a i 在时间及 成本方面的确优于完全引进新的应用系统。因为失败的e a i 过程将会 为企业带来更大的损失,集成风险的比重应该受到足够的关注。 后面,文中将给出几种不同集成技术的分析,指出应当采用的适 8 东华大学硕士学位论文 当技术。但应该注意的是,集成技术还在不断的发展,所给出的建议 未必是最优或在将来仍为最优,这也与笔者的经验有关,我们必须承 认集成工作需要太多的知识,也相当复杂,特别是在所需集成的e i s 数量较大且体系结构互异时,集成难度更是直线上升。因此,如何运 用和组合文中所给出的集成技术及建议是需要读者好好考虑的,不要 把它们当成模式,它们只是一些可选且未必最优的方案,也许e a i 永 远没有固定的模式。 经过上面的介绍,我们应该对企业应用集成做出一个稍微精确 一点的定义了。这里我们先参考一下别人是如何对它进行定义的。 w h a t i s 对e a i 的定义n 1 加: “e a i 是一个商业计算用语,指的是帮助企业升级、合并、整理 计算机应用程序的各种计划、方法和工具。通常,企业已经有一个旧 的应用系统和数据库,当它增加或迁移到新的采用了i n t e r n e t 、 e c o m m e r c e 、i n t r a n e t 以及其他新的技术系统时,常常还希望保留那 些旧的系统。e a i 会针对企业的业务和应用制定一个总体规划,并会 考虑如何使已有的应用适应新的方案,然后设计一些有效的方法,在 增加新的应用和数据的同时,使已有的系统得到有效利用; 同样,w e b o p e d i a 也对e a i 下了一个这样的定义: “e a i 是通过整个组织内用网络连接在一切的应用程序和数据源 9 东华大学硕士学位论文 来实现数据和业务的自由共享。像库存控制、人力资源、销售自动化 以及数据库管理这些领域,其早期的软件程序都是按照各自独立运行 的思路开发的,在各系统之间没有什么交互功能。它们利用当时的技 术为特定的需要进行定制开发,并且常常是一些专用系统。企业随着 自身发展,意识到需要使他们的信息和各种应用能够相互交叉传递并 在不同的系统之间共享,于是开始投资e a i 领域以使他们的业务更加 流畅,并将企业内的所有要素相互连接在一起。 e a i 是指具有全局性、系统性的集成。实际上,对e a i 的定义会 根据你的观点的不同而变化。 从商业角度看,当一个企业将它所有的应用都集成到一个统一的 信息系统中,实现了数据共享并能够对业务流程提供支持的时候, e a i 就成为它的竞争优势。信息必须经常从不同的渠道收集起来,并 集中到一个业务流程中去。没有e a i ,尽管所需的信息也被提供,并 以某种形式存在于某个应用程序的某个地方,但对一个普通用户来 说,要想联机获取这些信息实际上是不太可能的。 从技术角度来看,e a i 指的是将不同的应用程序和数据集成到一 起的过程,从而在不对已有的应用程序做出过多修改的情况下,实现 数据共享和业务流程的集成。实施e a i 的方法和措施必须保证它在成 本和时间上的有效性。 1 0 东华大学硕士学位论文 2 2e a i 的集成层次 e a i 集成的层次依赖于很多因素,包括公司的大小、公司的行业 类别、公司应用的集成度或是项目的复杂度以及预算等等。它可以是 平台层面、数据层面,也可以是方法层面的。在每一种层面上,我们 的目标是实现不同应用之间的协同,换句话说,也就是要让苹果和桔 子之间能够相互通话。 e a i 项目必须处理那些已经存在的程序,但也要提供一些方法来 将最近开发的应用程序也包括进来。d e l o i t t e 和t o u c h e 的统计结果表 明,大约7 5 的正在使用的信息系统都属于老系统。这些老系统,通 常是在不同的时间开发的,它们可能在不同的平台上,使用不同的技 术和编程语言开发的。并且,公司要依靠这些老系统,离开了这些老 系统上的应用,在大多数情况下,公司就无法生存。 实现e a i 的目标并不简单。相反,集成架构是分几层一步一步构 建起来的。其深层思想就是将问题拆分为几个较小的问题,然后一步 步解决每一个子问题。 e a i 包括下面几个层次的集成: 平台集成 表示层集成 数据级集成 东华大学硕士学位论文 语义级集成 现在让我们来看一下应用集成的这些层次。 平台集成 平台集成是进行异构系统集成的前提条件。其目标是实现不同目 标平台之间的互操作。这包括硬件系统,操作系统,数据库管理系统 等等异构。例如,安装了v m s ,m r s 以及0 s 4 0 0 等不同操作系统的大 型机,安装了w i n d o w s ,l i n u x 的个人电脑,安装了s o l a r i s 的s u n 工作站等等。 现在,大多数硬件平台都采用了开放的标准。操作系统的文件系 统命名规则也是已知的,数据库管理系统也有s q l 规范屏蔽其实现细 节,这样,让它们进行协同工作和集成通常不是难事。 , 图2 1 平台集成 1 2 东华大学硕士学位论文 表示层集成 表示层是一个面向用户的整合,它将原先系统的终端窗口和p c 的 图形界面使用一个标准的界面来替换。如果不这样,那么当用户在系 统间进行切换的时候,他们仍然会觉得正在使用的是老系统,因此信 息系统必须为用户提供一个统一的视图。 数据级集成 数据级集成通常是应用集成的起点。数据级集成就是使不同的应 用程序能够对共享数据进行访问,同时保证数据在不同的数据存储区 的一致性。 语义级集成 语义级集成是用于解决更高层次上的异构信息之间的不一致,关 注于从语义互操作层面解决企业应用集成问题。原有应用系统之间不 能很好地进行信息共享,关键问题在于存在概念的不一致,而本体表 示的是企业间领域知识的共识,所以可以用本体来解决企业语义级的 集成问题。 东华大学硕士学位论文 2 3 成功实施e a i 的关键 应用集成是很困难的,因为要成功实施一个集成项目需要有很多 因素需要考虑。以语义级集成为例,集成的关键是解决概念的不一致 问题。而概念的不一致,总结起来有以下几种类型阳1 : 命名不一致 度量范围不一致 默认假设不一致 抽象层度的不一致 为了使e a i 能够获得成功,企业首先必须制定一个策略。集成工 作必须得到管理方面的支持,而且需要一定的优先权限来实现对集成 工作的集中控制和管理。对集成系统的要求明确,这样才能建立起任 务目标。 对重新设计和部署一个应用程序与维持一个已不能胜任的应用的 应用程序各自的成本进行权衡。维持已有系统的成本会越来越高,何 时采取行动将这些系统替换掉是当前商业决策中的一个关键。而另一 方面,如何替换掉它们则是一个技术上的决策。但是,信息系统的总 体架构必须经过设计,以便能够很容易地对某些特定的部分进行更 新,而不会对信息系统的其他部分产生影响或只产生很有限的影响。 这些都是在进行应用系统集成设计时必须考虑的重要的问题。 1 4 东华大学硕士学位论文 2 4 小结 本章中我们向读者介绍了什么是e a i ( 企业应用集成) ,并简述 了与应用集成相关的问题,包括集成层次的划分,应用集成所面临的 问题。 应用集成是很困难的,本文讨论的是用本体来解决语义级集成问 题,由于本体描述的是领域内共享概念,所以非常适合用本体实现不 同系统间的语义级集成,使不同的信息孤岛连成一体。 东华大学硕士学位论文 3 1 前言 第三章本体理论研究 我们前面讨论过,企业应用集成的主要目的是解决信息之间的共享问题,问 题源于信息之间存在异构。信息异构又分为很多类型,其中信息语法、格式上的 异构性已经被基本解决。异构是一种普遍存在的现象,即使是同一件事物,由于 人们认知信息和表达知识的能力的参差不齐,人们对其的理解也会不同。 信息异构产生的主要原因是: 应用系统设计的不同 从概念理解到符号表达过程的多样性 在信息提供、交流、理解和使用过程中的假设不同 企业应用集成是建立在信息发送方与接受者之间共识的基础之上的,并要求 信息发送者和信息接收者对于交换的数据和服务有相同的理解。信息是事 图3 一l 利用本体实现企业应用集成 务的概念化描述,因此可以通过构建本体来近似地描述这种共识,以实现整个应 1 6 东华大学硕士学位论文 用系统间地集成为最终目的。这个研究地本体概念框架如图3 - - 1 所示【5 1 。 本章将从本体的概念说开去,探讨本体的起源,发展及其应用现状,给出本 体的概念,及开发本体所要涉及的相关技术。 3 2 本体的定义 o n t o l o g y 最早是一个哲学上的概念,近年来正逐步成为知识工程、知识管 理、智能信息集成、信息协调系统的热点研究问题,很多学科都在使用这个术语, 但存在不同的定义。 牛津现代高级英汉双解词典对于“o n t o l o g y 的英文解释是n 3 1 :“t h e d e p a r t m e n to fm e t a p h y s i c sc o n c e r n e dw i t hn a t u r eo fe x i s t e n c e :s p e c i f i c t h e o r yo ft h i s 译为中文叫做“实体论或是“本体论”。 从词源来看,英文的“o n t o l o g y ”,以及德文的“o n t o l o g i e ”,法文的 “o n t o l o g i e ”,最早均来自拉丁文“o n t o l o g i a 一词,而拉丁文又源自希腊文。 就希腊文的字面意思来说,o n t o l o g i a 是指“o n 的“l o g o s 。“l o g o s ”( 音译 为“逻各斯 ) 译为中文是指“理念、理性、哲学 。理性,理念是斯多葛学派中 有关宇宙的,活跃的、物质的、理性的原则和常识。当它被认同为上帝时,它是 所有活动产生的源泉,是存在于人类灵魂中的推理能力。“逻各斯”在苏格拉底 之前的哲学中,是支配宇宙的原则、这种原则的来源是人类关于宇宙的推理。在 希腊文中,o n 和o n t a ( 有点像英文中的b e i n g 和b e i n g s ) 是动词兼系词e i n a i ( 相 当于英文的t ob e ) 的分词和动名词及其复数形式。“e i n a i 在汉语中可以译为 “有”、“在”、“存 和“是 。相应地,“o n t o l o g y 在汉语中也出现了不同的 译名,如“万有论 、“存有论、“本体论 、“存在论”等,其中以“本体论”流 传最广n 4 3 1 钔。 从哲学的角度来说,逻辑是抽象的形式,而o n t o l o g y 研究事物存在的方式, 是具体的内容,因此,在哲学上,如果没有o n t o l o g y ,则逻辑关于任何东西都 只是空洞的抽象,无法进行具体的描述:而没有逻辑,o n t o l o g y 就只能进行分析、 表达和讨论,在抽象上的通性模糊不清阳1 。几千年来,哲学家们一直在争论 1 7 东华大学硕士学位论文 o n t o l o g y 的种类。 在人工智能界,最早给出o n t o l o g y 定义的是n e c h e s 等人,他们将o n t o l o g y 定义口1 为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系 构成的规定这些词汇外延的规则的定义。 最近十年以来,伴随着高度结构化的知识库研究的深入,面向对象程序设 计语言和面向对象数据库系统的应用范围的不断拓展,各种研究机构和知识工程 研究者提出了多种面向知识管理的o n t o l o g y 定义,它们之间具有细微差别。 1 9 9 3 年,斯坦福大学的g r u b e r 3 提出了o n t o l o g y 的一个最流行的定义,即 “o n t o l o g y 是概念模型的明确的规范说明。g r u b e r 的定义强调了o n t o l o g y 是 知识表示的元级描述。后来,b o r s t 在此基础上,给出了o n t o l o g y 的另外一种定 义:“o n t o l o g y 是共享概念模型的形式化规范说明 阳3 。 德国卡尔斯鲁厄大学的s t u d e r 等对上述两个定义进行了深入的研究,认为 “o n t o l o g y 是共享概念模型的明确的形式化规范说明”“们。这包含4 层含义:概 念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。 概念模型指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念 而得到的模型。概念模型所表现的含义独立于具体的环境状态。 明确指所使用的概念及使用这些概念的约束都有明确的定义。 形式化指o n t o l o g y 是计算机可读的( 即能被计算机处理) 。 共享指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公 认的概念集,即o n t o l o g y 针对的是团体而非个体的共识。 o n t o l o g y 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确 定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇间相互关系的明确定义。 从根本上说,o n t o l o g y 的作用是为了构建领域模型,例如,在知识工程过 程中,一个o n t o l o g y 提供了关于术语概念和关系的词汇集,通过该词汇集可以 对一个领域进行建模。虽然不同的o n t o l o g y 之间存在一些差异,但它们之间存 1 8 东华大学硕士学位论文 在普遍的一致性。针对应用领域中一些特殊的任务,知识表达可能还需要一种在 很高的普遍性层次上的o n t o l o g y 抽象概念。 3 3 本体相关技术 本体可以用自然语言描述,也可以用框架( f r a m e w o r k ) 、语义网络或逻辑语 言描述和表示。本体的构建语言或者是表示( 标示) 语言有好多种,作为表示本体 的语言工具,应该具有如下的基本功能3 : ( 1 ) 为本体的构建提供建模元语( m o d e l i n gp r i m i t i v e s ) 。 ( 2 ) 为本体从自然语言的表示格式转化成为机器可读的逻辑表达格式提供 标引工具。 ( 3 ) 为本体在不同系统之间的导入和输出提供标准的机读格式,形式化语言 表示,可以直接被计算机存储、加工、利用,或在不同的系统之间进行互操作。 以下我们将介绍几种常见的本体表示语言并对其功能特征进行分析和比 较。首先,我们将介绍大多数本体表示语言的基础x m l 。 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 和x m ls c h e m a x m l ,或称为可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e ) ,是一种您 可以用来创建自己的标记语言。它由万维网协会( w 3 c ) 创建,用来克服超文本 标记语言h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) ,它是所有网页的基础的局限。 和h t m l 一样,x m l 基于s g m l 标准通用标记语言( s t a n d a r dg e n e r a liz e d m a r k u pl a n g u a g e ) 。尽管s g m l 已在出版业使用了数十年,但其理解方面的复杂 性使许多本打算使用它的人望而却步。它将s g m l 的丰富功能与h t m l 的易用性结 合到w e b 的应用中。x m l 保留了s g m l 的可扩展功能,这使x m l 从根本上有别于 h t m l 。x m l 要比h t m l 强大得多,它不再是固定的标记,而允许定义数量不限的 标记来描述文档中的资料,允许嵌套的信息结构。h t m l 只是w e b 显示数据的通 用方法,而x m l 提供了一个直接处理w e b 数据的通用方法。h t m l 着重描述w e b 1 9 东华大学硕士学位论文 页面的显示格式,而x m l 着重描述w e b 页面的内容。具体来说n 2 1 : ( 1 ) x m l 是数据与表现分离的。对于x m l 数据的处理方式可以是多种多样的。 特定行业可以有特定的x m l 标记语言。行业内因此可以有共同遵循的标记词汇 集。如化工、钢铁业等。 ( 2 ) x m l 的数据是结构化的。对x m l 文档的处理灵活强大,可以精确地寻找到 需要的信息,也可以利用x m l 的自描述性提取附加的信息及利用x m l 文档的结构 来操作数据等等。x m l 文档的结构同实际的业务对象基本对应,这使得特定应用 系统的业务对象很自然地转换成为x m l 文档。 ( 3 ) x m l 具有应用健壮性和平台无关性。x m l 文档的有效性检查有效地排除 了垃圾数据对系统的干扰,极大地提高了系统的健壮性和性能;x m l 与具体的软 硬件平台是无关的,这使得用x m l 表达的数据具有最大的通用性。x m l 作为信息 的载体可以通过如h t t p 协议、s m t p 协议、j m s 等多种网络途径传递。 d h u 0 0 0 1 衬衫 5 5 衬衫 d h u 0 0 0 2 牛仔裤 1 5 衬衫 东华大学硕士学位论文 x m ls c h e m a 是一种描述信息结构的模型,用来定义x m l 文件的文本结构、数 据类型等规则,为一类文档建立一个模式,规范文档中的标签( t a g ) 和文本( t e x t ) 可能的组合形式。x m ls c h e m a 定义语言是一种说明性表示语言,其思想来自知识 表示模型( 如语义网络、框架和谓词逻辑等) 、数据库模式( d a t a b a s es c h e m a ) 定 义语言和图模型( g r a p hd a t am o d e l s ) 。其实,x m ls c h e m a 本身也是一个x m l 文 件,所不同的是,s c h e m a 文件所描述的是对引用它的x m l 文件的元素和属性的具 体类型的。由于x m ls c h e m a 文件本身就是x m l 文档,使得它更加容易被计算机 和人理解,减少了复杂度;并且它提供了更加丰富的数据类型,可以用来定义标签 以便方便数据类型。 r d f 和r d f s 如果说x m l 是一种语言的能力,那么x m l 应用程序就是特殊的语言。资源 描述框架r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 就是这样的一个x m l 应用程 序,一个使用x m l 语法的数据模型语言。r d f 是一种描述和使用数据的方法, 这就是说,r d f 是关于数据的数据,或者说是元数据。 r d f 由w w w 协会提出的,是个对结构化的元数据进行编码和进行数据交换 和重用的体系框架,它为元数据提供了一个可操作的载体。r d f 采用x m l 作为交 换和处理元数据的通用语法结构体系。它是一个x m l 语言的应用,为x m l 加入结 构化约束来提供明确地表达语义的方法。 r d f 描述资源的框架,它其中包含的三个词的意思是: 资源( r e s o u r c e ) ;所有在w e b 上被命名、具有u r i ( u n i f i e dr e s o u r c ei d e n t i f i e r 统一资源描述符) 的东西。如网页、x m l 文档中的元素等。 描述( d e s c r i p t i o n ) :对资源属性( p r o p e r t y ) 的一个陈述( s t a t e m e n t ) ,以表明资 源的特性或者资源之间的联系。 2 l 东华大学硕士学位论文 框架( f r a m e w o r k ) :与被描述资源无关的通用模型,以包容和管理资源的多 样性、不一致性和重复性。 综合起来,r d f 就是定义了一种通用的框架,即资源属性值的三 元组,来描述对象及对象之间二元关系的语言规范。 r d f ( s ) 的词汇表包含的类表示如下: 表3 1 :r d f ( s ) 类 r d f s :r e s o u r c e r d f s :d a t a t y p e r d f s :c o n t a i n e r r d f s :l i t e r a lr d f s :s t a t e m e n t r d f s :c o n t a i n e r m e m b e r s h i p p r o p e r t y r d f s :x m l l i t e r a l r d f s :b a g r d f s :l i s t r d f s :c l a s s r d f s :s e q r d f s :p r o p e r t y r d f s :a i t r d f ( s ) 词表中包括的属性如下表3 2 : 表3 2r d f ( s ) 词表的属性 p r o p e r t y n a m e d o m a i n r a n g e lr d et y p el f s :r e s o u r c er d f s :c l a s s 2r d f s :s u b c l a s s o fr d f s :c l a s sr d f s :c l a s s 3 r d f s :s u b p r o p e r t y r d f ip r o p e r t y r d f :p r o p e r t y 4 r d f s :d o m a i nr d f ip r o p e r t yr d f s :c l a s s 5 r d f s :r a n g er d f i p r o p e r t y r d c l a s s 6r d f s :i a b e lr d f ir e s o u r c er d f s :l i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论