




已阅读5页,还剩53页未读, 继续免费阅读
(航空宇航制造工程专业论文)面向服务的企业数据语义检索技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西北工业大学研究生学位论文 摘要 摘要 随着“数字企业”时代的到来,企业中的数据资源与日俱增。面对浩如烟海 并且在无尽发展变化的数据,如何找到已经存在于企业数据中的千丝万缕的联 系,如何得到决策者需要的语义一致的数据视图,如何根据使用者的意图在语义 层面上实现企业数据的检索,如何结合企业的网络或者互联网给用户提供方便快 捷的服务,这些都是现代企业需要面对的问题。而传统的数据集成以及以关键字 匹配为基础的捡索手段已经难以胜任。 基于以上的认识,本文提出的面向服务的企业数据语义检索提供了一个解决 以上问题的思路:基于语义检索模型,在逻辑推理机的支持下,实现企业数据的 语义检索,最终将面向服务的架构引入整个系统,实现整个系统的松耦合,可重 用。论文主要对以下方面内容进行了重点研究。 一、语义检索模型的构建 通过对现实问题的深入研究,针对某个领域建立概念树,概念树是根据领域 知识的分类结构和语义抽象关系所形成的层次结构。在概念树的基础上,形成语 义检索模型,它是语义检索的前提和基础。语义检索模型的存在是为了能够对企 业的实际问题进行形式化的描述,并消解语义冲突。 。 二、基于描述逻辑的语义检索 语义检索模型关心更多的是如何描述异构数据源之间的语义层次关系,却没 有提供一种合适的推理机制,我们采用描述逻辑作为语义检索模型的进一步描 述,希望借助描述逻辑对于概念、关系、实例的强大的描述和推理能力,在推理 机r a c e r 的支持下,实现企业数据基于语义的检索。 三、面向服务的语叉检索 本文考虑到建立松散耦合,易于扩展,便于操作的数据集成检索系统,所以 采用面向服务的体系结构。该体系结构通过相互协作w 曲服务,数据语义检索服 务和数据源包装服务,向用户提供数据检索服务,在这个过程中,用户无需了解 后台的具体实现。 四、原型系统夷现 本文充分借鉴前人的研究成果,使用授权软件和开放源代码软件建立了面向 服务的企业数据源语义检索原型系统,并通过实例对该系统的运行过程进行了详 细的介绍。 关键词:面向服务、语义检索、异构数据库,描述逻辑,推理机 西北工业大学研究生学位论文 a b s t r a c t w i t ht h ea p p e a r a n c eo f t h e “d i g i t a le n t e r p r i s e ”,an u m b e ro f d a t as o u i c e sw e r e a c c u m u l a t e di ne n t e r p r i s e h o wt of i n dt h er e l a t i o n si nt h ee n t e r p r i s ei n f o r m a t i o n s y s t e m s ,h o wt oa c h i e v et h es e m a n t i c a l l yc o h e r e n td a t av i e w ,h o wt or e a l i z et h e s e m a n t i cr e t r i e v a la b o u te n t e r p r i s ed a t a ,h o wt oo f f e rc o n v e n i e n ts e r v i c e sv i ai n t e m e f f i n t r a n e t ,w h i c ha r et h ep r o b t e r n st h em o d e me n t e r p r i s ee n c o u n t e r s t h e ya r ed i f f i c u l t t or e a l i z eb yt r a d i t i o n a ld a t ai n t e g r a t i o nt e c h n o l o g i e s b a s e do nt h ed i s c u s s i o na b o v e ,a l ln e w a p p r o a c hw a sp r o p o s e dc a l l e ds e r v i c e 0 r i e n t e ds e m m a t i cr e t r i e v a lo ne n t e r p r i s ed a t a w i t ht h ea i do ft h er e a s o n e r ,b a s e d o ns h a r i n gs e m a n t i cm o d e lt h eq u e r ys y s t e mi n c l u d i n gs e m a n t i ci n f o r m a t i o nw a sb u i l t f i n a l l v ,as e r v i c e o r i e n t e da r c h i t e c t u r ei sc a r r i e do u tt om a k ei tl o o s e c o u p l e da n d r e u s e de a s i l y t h ef o l l o w i n ga c h i e v e m e n t sh a v eb e e na t t a i n e di nt h i st h e s i s d e v e l o p e dt h es e m a n t i cr e t r i e v a lm o d e la f t e rt h ei n v e s t i g a t i o n sa n dr e s e a r c h o nt h er e a lw o r l d ,t h i sa r t i c l ep r o p o s e da na p p r o a c hw h i c hc o n s t r u c t e dd o m a i n s e m a n t i cr e t r i e v a lm o d e lb a s e do nt h ed e f i n i t i o n - t r e ef i r s t t h e no nt h eb a s i so f d e f i n i t i o n - t r e e t h es e m a n t i cr e t r i e v a lm o d e lw h i c hi st h ep r e c o n d i t i o no fs e m a n t i c r e t r i e v a lo p e r a t i o n sw a sb u i i t s e m a n t i cr e t r i e v a lm o d e li se q u a lt o 血ef o r m a l i z a t i o n d e s c r i p t i o nt ot h ee n t e r p r i s es y s t e ma n dp r o b l e m sa n dt h es e m a n t i cc l a s h e sw e r e e r a s e d i n f e r e n e eb a s e do nd e s c r i p t i o nl o g i et h es e m a n t i cr e t r i e v a lm o d e lc a r e sm o r e a b o u th o wt od e s c r i b et h er o l e so ns e m a n t i cw i t h i nh e t e r o g e n e o u sd a t a b a s e sw i t h o u t c o n s i d e r a t i o no fs u p p o s i n gt h ei n f e r e n c e h e n c e ,w em a k eu s eo fd e s c r i p t i o nl o g i c w h i c hw a sg o o da ti n f e r e n c eo nc o n c e p t s 。r o l e sa n di n s t a n c e st od e s c r i b et h em o d e l f u r t h e r ,t or e a l i z et h es e m a n t i cr e t r i e v a lt oe n t e r p r i s ed a t ao nt h eb a s i so f r e a s o n e r ( r a c e r ) s e r v i c e 一0 r i e n t e ds e m a n t i cr e t r i e v a l st h e s i sc a r r i e do u tas e r v i c e o r i e n t e d a r c h i t e c t u r et od e v e l o pl o o s e - c o u p l e d ,e a s ye x t e n d e da n do p e r a t e dd a t ai n t e g r a t i o n s y s t e m t h i sa r c h i t e c t u r es e r v i c e sc l i e n t sv i ac o o p e r a t i o no fs e r v i c e so fd a t as e m a n t i c r e t r i e v a ls e r v i c ea n dd a t a b a s ew r a p p i n gs e r v i c e o nt h ec o u r s eo fo p e r a t i o n ,u s e r n e e d n tt ou n d e r s t a n dh o wt h es y s t e mw o r k s p r o t o t y p es y s t e mv a l i d a t i o nap r o t o t y p es y s t e mo fs e r v i c e o r i e n t e ds e m a n t i c r e t r i e v a ii ne n t e r p r i s eh e t e r o g e n e o u sd a t a b a s e sw a sd e v e l o p e do n 出eb a s i so f a u t h o r i z e do ro p e l a - s o u r c e ds o f t w a r ea n da l lt h ea b o v ek e yt e c h n o l o g i e sh a v eb e e n v a l i d a t e d 。 k e yw o r d s :s e r v i c e - o r i e n t e d 、s e m a n t i cr e t r i e v a l 、h e t e r o g e n e o u sd a t a b a s e s 、 d e s c r i p t i o nl o g i c 、r e a s o n e r 西北工业大学研究生学位论文第一章:绪论 第1 章绪论 1 1 研究背景 企业在实施信息化技术的发展过程中积累了大量的设计、制造和管理数据, 并为存储、管理和使用这些数据不断投资。由于各种信息化系统实施的阶段性、 技术性及其它经济和人为因素的影响,至使在企业内部,不仅数据的格式和存 储方式不尽相同( 从简单的文件系统到复杂的网络数据库) ,数据的管理和使用 系统电大不相同( 从各种c a x 系统到p d m 、e r p 等大型企业管理系统) ,于是 形成了企业异构数据源。随着企业规模的不断扩大和技术水平的提升,应用系 统的构建和运行往往需要访问各种已有的数据源。而如何将企业异构数据源有 效的集成,以便及时、准确、透明的获取信息,并且能够实现一定程度的智能 化的应用是一个巨大的挑战。 本项目组在8 6 3 c i m s 前沿探索类研究项目“基于语义与模型的企业异构 数据源集成关键算法与实现技术( 2 0 0 2 a a 4 1 4 2 1 0 ) ”的研究中,提出并实现了使 用共享语义模型来集成各个异构的数据源,其基本思想是用语义模型来代替传 统方法中的全局模式,利用模型内建的关系和规则来处理数据语义异构问题, 以达到语义层面上的数据集成,提出异构数据库数据到语义模型的两级映射方 法,使得各组件数据库的数据可以各自独立地合并进语义模型中,保证了数据 的透明访问和模型本身良好的可扩展性。 语义模型用来协调相关数据的调用机制,它是集成的核心,但是抽象化的 语义模型,只是提供了一个企业应用的基础,所以我们还需要在语义模型的基 础上,研究如何充分利用语义模型的功能和优势,如何贴近企业应用,从而更 有效的为企业的决策活动和设计过程提供数据支持。 就设计过程而言,我们在某大型航空主机厂的调研中,发现在重新设计或 者对某种现有型号进行改型的时候,需要大量的参考过去已成熟产品的设计和 制造信息,找到相似的零件或部件,这样可以极大的缩短设计周期,传递成功 的经验,而且可以避免错误的重复发生。但是面对着已经存在的工艺和设计的 数据,数据的检索却总是难以按照用户的意图得到满意的结果,原因在于1 ) 各个数据源是自治的,分散的,企业中并不存在个完整可用的集成机制,检 索缺少一个统一的标准化的模型支持;2 ) 用户检索的意图是模糊的,多条件的, 往往需要使用自然语言来描述;3 ) 检索的需求和操作是一个广泛的跨部门的要 西北工业大学硕士学位论文 第一章:绪论 求,比如设计部,工艺处等单位,而且它需要服务的用户群是不确定的。这些 都在客观上要求企业数据的检索体系必须构建在语义层面上,同时要求对数据 源的访问以及检索应用必须提供一个标准化的访问方式,并且便于扩展,便于 不同的用户群访问。 就决策支持而言,随着企业规模的不断扩大和技术水平的提升,特别是 i n t e m e t 的出现,使得今天的企业已经从一个孤立的节点逐渐发展成为不断通过 网络与外界交换信息和进行商务活动的实体。而且企业的决策需求是在不断的 快速变化中的,这就要求企业能够在最短的时间综合利用尽可能多的资源辅助 决策,而企业决策活动需要从多种角度来观察企业以及在相关的授权和安全的 机制保证下的其他相关企业的数据,并且根据不同的需求对数据进行检索和重 新组织。而且这种需求往往是不具体的,或者不只是涉及到关键字,范围等要 素。由于企业的每个决策活动往往面对不同的问题域,因此其所关心的数据和 涉及到的数据源也就随着问题域的不同而不尽相同。这种对数据源依赖的动态 性和不确定性客观上需要一种机制,能够根据决策涉及的不同问题域来动态的 去发现相关的数据源,并将存在于这些自治的、异构数据系统中的相关数据组 织起来,以恰当的有意义的形式呈现给决策者,丽不是数据的简单堆砌。这些 都在客观上要求在语义层面上进行捡索,从而将相关数据在含义上协调一致, 为决策过程提供连续一致的数据视图。同时要求对数据源的访问以及检索应用 必须构建在一个统一、标准化、松散耦合的体系之上。 基于以上的讨论和分析,本文提出通过构建一种面向服务的共享语义模型 支持的企业异构数据检索体系,该体系采用了面向服务的体系,在语义检索模 型的基础上,将相关数据源的集成访问以及在语义层面上的检索以松耦合的连 接方式构建在w e b 之上,从而提供更为灵活和可扩展的数据访问服务,使得企 业之间,部门之间的语义层面上的对企业数据源动态和松耦合的访问成为可能, 并最终实现对企业的决策活动和设计过程提供有效的数据支持。 1 2 ,研究现状 在8 0 年代,信息检索技术已经取得了丰硕的成果,包括文档内容表示,索引 模型,匹配策略等方面。传统的信息检索方法“1 包括:全文扫描,反转,向量模 型和聚类,基于神经网络的检索等。而本文介绍的基于语义的检索和传统的信息 检索不尽相同,但是它是一个连续的发展过程。 传统的检索系统越来越广泛地应用于社会的各个领域,但是它们中的绝大多 数都是基于词匹配的,其核心是关键字符的机械式匹配理论,参与匹配的是字符 的外在形式,丽不是它们所表达的概念。但是信息检索是以概念为基本单位的语 2 西北t 业大学颁j 一学位论文第一荦:绪沦 言处理,词只是概念的外在表现形式。而且在自然语言中由于同一个概念通常可 以由不同的词表达,且概念之问可以有复杂的语义关系;为此有人提出了以概念 匹配的语义检索也称为语义交互,信息的概念相关关系是语义检索的基础,系统 自动抽取文档的概念,加以标引:用户在系统的辅助下选择合适的词语表达自己 的信息需求,然后在两者之间执行概念匹配一匹配在语义上相同、相近、相包岔 的词语。这种基于概念匹配的语义检索突破了关键词匹配局限于信息的浅层处 理,不能区分同形异义,不能联想同义词等缺陷,用自然语言与用户交流,从词 所表达的概念层次上理解用户的检索要求。 所谓语义,我们这里将其简单的理解为数据( 符号) 所代表的概念的含义, 以及这些含义之间的关系。对于计算机领域来说,语义一般是指用户对于那些 用来描述现实世界的计算机表示的解释,也就是用户用来联系计算机表示和现 实世界的途径。 所谓语义检索,也可以叫做知识检索、概念检索,是一种基于知识的、语义 上的分析检索,是在自然语言理解、计算语言学发展的基础上产生,由知识库和 逻辑推理系统的支持,并且在检索的查准率和查全率上都能较好地满足用户的检 索要求,是信息检索发展的趋势。目前,知识库多由词典充当,比如w o r d n e t , h o w n e t 等等,这种知识库的组织形式,虽然照顾到了全面性,但是在检索效率 上存在问题;进而又出现了使用领域本体来组织知识库,本体对共享概念提供的 规范化说明,用来捕获领域的知识,并且有类( 概念) 、关系、函数、公理和实 例5 个建模元语来严格地刻画所描述的对象,使得它具有良好的概念层次结构和 对逻辑推理的支持而在信息检索领域得到了广泛的应用。因而人们提出了使用本 体的逻辑模型来组织知识库的结构。 文献4 0 】指出本体相当提供了一个概念词典,本体中的概念都被清晰的定义 或者拥有机器可以理解的语义,对于本体支持的语义检索,可以通过判断概念之 间的相似度和相关度来确定概念之间的语义关系,从而找到需要的概念;由于本 体是用r d f 描述的,所以可以在r d f 解析器( 如j e n a ) 的支持下实现检索,j e n a “ 是h p 实验室的一个以r d f a p i 为核心的工具。j e n a 通过集成r d f 检索工具r d q l ( r d f0 u e r yl a n g u a g e ) ,并提供接口来实现对以r d f 描述的本体的语义检索。 r d q l 的语法类似于对关系数据库的查询语言s q l 的语法,所以对于技术人员来 随易于掌握。但是对于后台数据库的检索需要非常多的参数,使用起来并不是那 么容易。 西北工业大学张树生教授主持的博士点基金“基于s e m a n t i cw e b 的企业异 构数据源语义集成技术研究”【2 0 0 3 0 6 9 9 0 3 2 l ,提出基于语义w e b 进行企业的集 成,并且在这个集成的基础上实现企业数据信息的语义检索。所谓语义w e b , w 3 c 对它的定义是,语义w e b 是建立在r d f 与其它定义的标准基础之j 二对 函北工业丈学硕士学位论文第一章:绪论 w e b ( w o r l dw i d ew e b ) 上的数据所进行的一种抽象表示。基于语义网的语义 检索的基本思想是使用语义网的对象来抽象企业中的概念,为企业应用领域提 供一个共享的通用的理解,从而使的企业中的异构数据在语义层面上实现信息 集成。在语义网中,使用标准本体描述语言o w l ( o m o l o g y w e b l a n g u a g e ) 来 显式的表达语义,然后在领域专家的支持下,收集企业中的不同类属的语义w e b 信息,构建企业本体模型,然后在搜索引擎( 如g o o g l e ) 的支持下,实现语义 层面上的检索。基于语义网的集成应用是用r d f 作为w e b 资源的通用描述框 架,能够很好的被机器所理解,为信息的共享和重用提供了很好的基础,而且 有许多已经证明很成功的搜索引擎的支持,在语义检索方面有一定的优势。本 课题在基于语义w c b 的集成方面进行了大量的研究,但是对于语义检索只是作 为一个集成的应用进行了讨论。而且由于语义网还在标准制定和推广阶段,还 有很多不成熟的地方,比如如何将企业的信息进行抽象,如何结合搜索引擎进 行推理。所以基于语义w e b 实现企业信息在语义层面上的集成和检索还有很长 的路要走。 文献 2 2 提出了应用面向服务的体系进行企业的数据集成。其基本思想是 将企业中的应用以及数据源进行服务的包装,通过这两个相互协作的类将对数 据源的集成访问以松耦合的连接方式构建在w e b 之上,从而提供更为灵活和 可扩展的数据源访问服务。该文对本文的面向服务的体系结构的引入有很大的 启发意义。 1 3 研究意义 本文研究了如何基于语义模型实现语义层面上的检索,以及如何将面向服 务的架构引入企业的应用体系。其主要的意义包括如下的几个方面: 一跨企业,跨部门,更快捷的应用 在语义层面的数据集成中采用面向服务的架构,并将对相关数据源的集成 访问以松耦合的连接方式构建在w e b 之上,并且是基于标准的。广泛接受 的标准( 如x m l 和s o a p ) 提供了在各不同系统之间的交互性,同时提高了 跨部门,跨企业的可操作性。 更贴近企业的应用 通过建立语义检索模型实现在语义层面的集成,并建立数据源,问题域模 型和领域模型三者之间的映射,有效的实现了模型的扩展,更好的贴近了 企业的实际应用。 一更强大的推理能力 本文借助描述逻辑对于概念、关系、实例的强大的描述和推理能力,将共 西北工业大学硕士学位论文第一章:绪论 享语义模型转换为基于描述逻辑的知识模型,并在推理机r a c e r 的支持下, 借助r a c e r 对描述逻辑知识模型的强大的推理能力,实现了企业数据语义 检索。 1 4 。课题来源和研究内容 本课题来源于国家8 6 3 c i m s 前沿探索类研究项目“基于语义与模型的企 业异构数据源集成关键算法与实现技术”。该项目隶属“现代集成制造系统平 台”专题,以支持制造业信息化、建立现代集成制造系统平台为背景,以提供 企业内和企业间的信息集成、服务集成、应用集成的基础技术为主导,达到企 业异构数据源集成共享的目的。该项目主要研究内容包括基础理论算法和体系 结构实现技术两大部份。本论文侧重于对实现技术的研究。其主要研究内容如 下: _语义检索模型的构建技术 该部分讨论语义检索模型的描述机制。以及如何建立数据源与语义检索模型 之间的映射,问题域模型与公共领域本体之间的映射。 一语义检索 在建立了领域语义模型后,就要研究如何借助语义模型实现对数据在语义层 面上的检索。以及如何使用基于语义的推理机。 一 基于w e b 的面向服务的语义检索架构 选择建立面向服务架构的方式。即研究如何将应用包括数据语义检索和数据 源的访问进行服务包装,以及服务之间如何通信,如何实现服务的调用,最 终将企业应用构建在w e b 基础上的面向服务的架构。 1 5 。论文结构及章节安排 本文首先根据企业中的实际需求提出问题,然后对国内外的相关研究进行 分析并确定研究内容。在后面的章节中,我们将首先构建一个有企业背景的语 义检索模型,然后在该模型的支持下,研究实现语义检索的技术和如何引入面 向服务的体系。最后通过一个原型系统对本文的核心思想进行验证。 本论文的结构如下图: 西北工业大学硕_ _ | = 学位论文第一章:绪论 圈1 1 论文结构图 本文主要内容分五章来论述,第一章绪论部分主要就研究背景以及国内外 相关主题的研究现状进行论述,第二章到第四章,根据实现过程中的构建顺序 来论述,首先需要根据企业的实际情况,对工程问题进行抽象,构建语义模型, 然后对基本语义模型进行扩展得到语义检索模型;然后基于语义检索模型,在 逻辑推理机的支持下,实现语义检索;最后,将检索应用包装为服务,构建面 向服务的架构,第五章是一个按照前三章所述思想的一个原型系统的编程实现。 最后是对本文所作研究的总结,以及对未来研究工作的展望。 6 西北工业大学l 碗士学位论文 第二章:语义榆索模型的构建 第2 章语义检索模型的构建 2 1 前言 如前所述,语义检索模型( 见本文2 - 3 节) 的构建是实现语义检索的基础。 本章将讲述如何对现实中的工程问题进行抽象,并结合本体论的一些方法对它 进行包含语义信息的形式化描述,包括企业中的概念映射和数据源的映射。本 文中涉及到的模型都是使用通用建模工具p r o t 6 9 6 完成的。 2 2 建模工具p r o t 6 9 6 从上述的分析我们知道,语义检索模型的构建十分重要。为增强模型中知 识的共享与交换,降低通用工具的开发难度,各种知识表示标准和交换防议被 先后提出。k i f “1 ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 是一种用于在不同计算机系 统之间交换知识的面向计算机的一阶语言。当一个计算机系统需要和其他的系 统通信时,可通过将其内部的数据结构转换成k i f 来实现。 由斯坦福大学知识系统实验室提出的o k b c 5 。( o p e nk n o w l e d g eb a s e c o n n e c t i v i t y ) 是为存取知识库而设计的协议,它为知识库的操作提供了通用接 口。这一接口使应用程序独立于特定的知识表示形式,使开发知识表示系统通 用工具成为可能( 如图形浏览器和编辑器等) 。这是通过定义一套“知识模型” 作为知识表示的中间语言及其存取操作而实现的。o k b c 是对k i f 的补充,它 侧重于能被大多数知识库支持并具有普遍性的操作,如对框架、槽的操作等。 p r o t e 9 6 是一种基于框架并且兼容o k b c ( o p e nk n o w l e d g eb a s e c o n n e c t i v i t y ) 开放知识库连接协议的知识模型。它通过类( c l a s s ) ,槽 ( s l o t ) ,约束( c o n s t r a i n t ) ,关系( r e l a t i o n ) 等建模元语来描述一个知识 模型。由于兼容o k b c 协议,共享语义模型的建模结果就可以被任何一个兼容 o k b c 协议的知识系统所解释,从而使模型可以实现共享和重用。p r o t 6 9 6 本身 也是个建模工具,为语义检索模型提供了可视化的建模手段。 2 3 语义检索模型 语义我们可以简单的理解为数据所代表的概念的含义,丽模型是把待研究 的对象通过适当的过滤,用适当的表现规则描绘出的抽象的概念集合,通过模 型,人们可以了解到所研究刑象的本质,而且在形式上便于人们对其进行分析 西北工业大学硕士学位论文第二章:语义检索模型的构建 和处理。 将语义与模型帽结合,给出语义模型的定义如下:语义模型就是通过模型 作为媒介来实现数据语义关系的形式化描述的一种方式。对于企业应用集成, 语义模型的存在是为了能够对企业的实际问题进行形式化的描述,该描述能够 尽可能全的包含语义信息。这里我们的语义模型是为语义检索服务的,所以我 们称之为语义检索模型。而语义检索模型是我们针对语义检索的特殊要求对语 义模型的一种扩展。 如图2 2 所示,语义模型由对某一个特定的问题域进行抽象所形成的类结 构树和作用于类结构树上的语义关系、映射关系所组成。类结构树的结构信息 描述以o k b c ;映射关系( 参见2 3 2 节) 包括数据映射关系和属性映射关系两 部分,称之为两级映射,数据映射关系指的是对模式提取器所提供的访问异构 数据库数据所必需的信息,通过映射规则转化为模型可理解的形式并保存于模 型中的过程,目的是实现异构数据的透明访问;属性映射关系则将数据映射实 体和类结构树建立联系,是实现模型良好的可扩展性的关键。对语义模型的扩 展包括两部分,一部分是语义关系的扩展( 参见2 3 3 1 节) ,语义关系指的是 数据映射实体之间的语义关联性,目的是保证模型的语义协调能力,而扩展则 是添加一些益于检索的关系;为了将用户的问题的具体化,缩小问题的范围, 同时也有利于领域模型的扩展,我们增加了问题域模型和领域模型之间的映射, 这也就是扩展的第二部分。 由以上部分所组成的语义模型在集成中可以看作是一个在语义层面上的数 据协调器,这里我们以一个标准件库语义模型为例讲述模型的构建过程。在该 模型部署后,外部应用请求获取标准螺钉件信息,首先通过标准的o k b c 模型访 问接口对标准件模型的类结构树进行遍历并得到标准螺钉件节点,然后经由属 性映射关系获得与节点相关联的数据映射实体,例如标准螺钉件节点的属性毛 坯重量对应了m p z l ( 毛坯重量) 和m a t e r i a lw e i g h t ( 材料重量) 两个数据映 射实体。同时对其所涉及的语义规则进行解析,例如两个数据映射实体分别采 用了千克和克作为单位,进行如下处理:m p z l = m a t e r i a l _ w e i g h t * 1 0 0 0 ,进而通 过数据映射关系获得分布于异构数据库中的数据信息,最后返还给应用的是语 义一致的数据结果集。 西北工业大学硕士学位论文 第二章:语义检索模型的构建 外部应用 一 r 一一一 模型访问接口 芏一,王一 模式提取器模式提取器 一1 一了一 2 3 1 领域模型 图2 - 1 语义模型的应用 领域模型是一个全局语义模型,用来协调相关数据访问机制,由于我们所 面对的企业数据是各个领域自治的数据源,所以不同的领域会存在不同的领域 模型。它也是语义检索的前提和基础。领域模型实质上是针对某个领域或问题 域所建立的概念树。它由一些表示概念或者含义的结点组成,这些结点根据领 域知识的分类结构和语义抽象关系所形成的层次结构,就构成了一棵概念树。 为了便于共享和检索,本文采用p r o t e 9 6 的知识模型来描述语义模型的概念树。 在建模过程中,所有的概念都表示为p r o t 6 9 6 中的类,而对概念的描述或 概念的属性则表示为t e m p l a t es l o t s 。概念之间的关系定义为s l o t s 。在图2 1 中,我们可以看到使用p r o t 6 9 6 建立的一个简单的领域建模结果。由于领域模 型反映的是实际中存在的问题,所以他是变化的可扩展的,很难通过一次性的 建模完成,目前对于领域模型的进化还需要借助人工修订的帮助。 正如我们上节中所讲,数据源和领域模型的映射包括概念映射和数据映射 两层映射。所谓概念映射,即使用模型中的概念来标记数据源的模式信息,在 语义模型和数据源之间建立对应关系。对于数据源,我们需要根据定的算法 和原则对数据源中的实例进行聚集,找到相近的实例,然后用能够表达聚类结 果的公共特征的概念对其进行描述。在得到聚集结果后,用户可以根据自己的 需求选择需要标记的概念,最终组织成能够反映原数据源的概念树。而该步的 成功与否,更多的依赖于操作人对于行业背景,数据源以及模型的理解。由于 9 寄蜜 西北工业大学硕j 二学位论文第二章:语义检索模型的构建 对数据源中的实例进行聚类,不在本文研究的范围,所以这里不再展开。由于 在语义模型中并不涉及到具体的数据库数据,所以还需要数据映射。数据库中, 唯一描述一个字段,需要如下信息:数据库i p 数据库名称数据库类型 表的名称字段名称。在语义模型中,将这些信息作为概念的属性关联至该概 念,即可实现数据与概念的一一对应,即数据映射。我们得到检索结果后,其 实是一些概念的集合,然后即可使用数据源和模型之间的映射定位到具体的数 据。 2 3 2 模型的构建 应用语义模型的目的是为外部应用提供语义一致的数据视图。以下将结合 下述实例对模型构建方法的主要过程进行说明:在某航空主机厂中,针对不同 的应用构建了相应的标准件信息库,现有新的应用建立在原有的多个标准件库 的基础上,在此我们采用构建标准件库语义模型的方式来支持该应用,其构建 大体上可以分为3 个阶段:1 ) 问题模型化;2 ) 数据映射关系建立;3 ) 语义关系 建立。为了便于建模和模型的通用性,这里以r d f ( r e s o u r c ed e s c r i p t i o n f r a m e w o r k ) 和r d fs c h e m a 作为建模结果的最终表示方式。 2 3 2 1 问题模型化 模型的优劣取决于实际的需要,模型总是面向问题域的,最好的通用模型 是不存在的。对于语义模型同样如此,在建模思想上,问题模型化过程如下: 1 ) 对问题域内的对象进行抽象形成类;2 ) 用分类树的方法建立类之间的父子关 系,父类是其所有子类共同属性的概括。子类则从不同的角度对其父类加以细 化;3 ) 通过适度的细化过程形成一棵类的结构树。类和类之间的关系所组成的 类结构树构成了模型的主体结构。由于模型本身的不确定性,也就是说不存在 绝对的对象抽象方法,所以类本身也就变的不确定,因此对于类结构树的生成, 要求建模人员尽可能真实地反映问题域的情况。 1 0 西北工业大学硕士学位论文 第二章:语义检索模型的构建 图2 2 标准联结件类结构树 图2 - 3 为构建完成的类结构树,左侧为p r o t 9 6 的可视化情况,右侧为r d f s 描述片段。本文所有示例中的r d f ( s ) 均采用和图2 3 中r d f s 相同的命名空间, 以下将不再浇明。在生成了类的结构树并对各个类进行属性描述之后,语义模 型的主体架构基本已经搭建完成,诅是语义模型的特点是为应用提供语义一致 的数据视图和模型本身良好的可伸缩性,所以建模的重点在于如何建立数据语 义关系和映射关系。 2 3 2 2 映射关系建立 映射关系包括数据映射关系和属性映射关系两部分,用于实现异构数据的 透明访问和保证模型本身良好的可扩展性。 2 3 2 2 1 数据映射关系 语义模型本身不涉及具体的数据库数据,在集成中语义模型只是作为媒介 在应用与数据之间建立连接,应用层和模型层之闻可以采用通用的模型访问接 口来实现,数据层与模型层的连接则通过数据映射关系来实现,其定义如下: 定义l 数据映射关系:对于问题域内的任一个数据库字段a t t i ,模型中存 在唯一对应的元素o i ,通过映射规则x ,使得o i = x ( a t t i ) ,称该关系式为从 a t t i 到o i 的数据映射关系,o i 称为个数据映射实体。 在数据库中,唯一确定一个字段需要以下的信息:数据库i p 数据库名 西北工业大学硕士学位论文 第二章:语义检索模型的构建 称数据库类型表的名称字段名称。相应的定义了如下r d f s 结构: m a p p i n g 类定义了包含以上字段信息的结构( 在此仅列出数据库i p 属性) , 通过简单的一一对应,即可实现数据映射关系。以上过程可以通过模式提取器 自动完成。如图2 - 4 :名称为p a r t n a m e 的数据映射实体可以唯一的在数据库 中定位一个相应的字段。 2 3 222 属性映射 圈2 - 3 。数据映射实体结构图 在建立了类结构与数据映射关系之后,必须将它们结合起来才能实现模型 的整体运作,这就需要在模型内部通过某种方式将类的属性与数据映射实体建 立连接。在此采用建立属性映射关系的方法。 定义2 属性映射关系对于模型中的任一个类属性c i ,存在映射方法x 使 得c i = x ( o l ,0 2 ,o n ) ,o n 为数据映射关系,称该关系式为从( 0 1 ,0 2 , o n ) 到c i 的属性映射关系,c i 称为一个属性映射实体。 西北工业大学硕士学位论文第二章:语义检索模型的构建 同样通过设计r d f s 结构来表达该映射关系:例如对于以上定义的 p a r t n a m e 实体,用于描述零件名称,同样存在l i m e 实体,那么通过以下的方 式与标准螺钉件类的属性零件名称建立关联 在此并不直接将数据映射实体与类属性相关联,因为: 保证类结构的稳定性,当数据源发生变化的时候,只需要调整属性映射 关系即可。 如果有多个来自于不同数据库并在含义上相同或相近的数据映射实体, 我们希望都可以与类属性相关联,但是如果采取直接关联的形式,则不符合类 的构建原则。例如:实体a 和实体b 均表示零件名称,如果同时用于描述零件 类,则有两个零件名称,造成数据冗余和表达混淆。 2 3 3 语义模型扩展 2 3 3 1 语义关系扩展 目前对于语义关系的划分方法有很多,在此我们采用并扩展了文献i l 的划 分方法,假设o i 和o j 为两个数据映射实体( 即数据库字段) ,则它们的语义关 系如下: 1 ) s y n ( s y n o n y mo f ,同义) :如果o i 0 j ,而o i 和o j 的语义相同或相似,则 表示o i 和o j 是同义异名词。针对研究中出现的问题,对其进行扩展,分解为 语义完全相等,例如数据映射实体p a r t n a m e 和l j m c 都用于表示零件名称,用 关键字s y ne q u 表示和语义转化后相等,例如数据映射实体l e n g t h 和l o n g 用 于描述零件长度但单位不一致,用关键字s y n e q u r u l e 表示。这种转化也是为 了解决在实际中存在的语义冲突。 2 ) i n c ( i n c l u d i n g ,包含) :o ii n co j 表示o i 在语义上包含了o j 。例如来自 a 数据库的数据映射实体a d d r e s s 等于来自b 数据库的数据映射实体c i t y , s t r e e t 的组合。 3 ) r e l ( r e l a t e d ,相关) :o ir e l o j 表示o i 在语义上和o j 相关,对于语义 检索来说,检索者在检索o i 时同时希望看到关于o j 的信息。例如用户在检索 标准件的时候,会同时希望得到关于标准件的制造车间的信息。这里o j 是多元 的,可以同时和多项相关。并且可以进一步分类为特征相关,几何相关等。 西北t 业大学顾 一学位论文第二章:语义榆索模型的构建 4 ) e x c ( e x c l u d e ,相斥) :o ie x co j 表示0 i 在语义上和o j 相斥,同样在 语义检索的时候,检索者会很有针对性地屏蔽某些项。例如用户在检索标准件 的时候,会希望将标准件的材料信息( 相斥信息) 屏蔽。这里的相斥指的是和用 户的意图相斥。 采用r d e s 构建描述结构,在r d f 文件中嵌入相关数据,即可实现以上的语 义关系,由于篇幅限制,仅就s y n e q u r u l e 关系进行说明,图2 - 5 中r d f s 文 件片断为s y n e q u r u l e 关系的结构描述,r d f 文件片断为依赖该结构生成的关 系实例,描述了在数据映射实体l e n g t h 和l o n g 之间建立关系l e n g t h = l o n g * i o , 右下为该关系在p r o t d g d 工具中的表现形式。 r d f s r d f s :c l a s sr d f :a b o u t = 飞k b :s y n 豳ur u l e ” r d f s :l a b e l = s y ne q ur u l r ) r d f s :s u b c l a s s o fr d f :r e s o u r c e 。4 & r d f sr e s o u r c e r d f s :d o m a i nr d f :r e s o u r c e = ”& k b s y ne q ur u l e 4 r d f s :d o m a i nr d f :r e s o u r c e = 4 & k b :s y ne q ur u l e ” 匝二二二二二二 d c ,i 洲o n 匝蔓甄匦蔓二二j : vc+一 翟l e n o t h 日 vc+一 强l o t t o 2 3 3 2 模型之问的映射 图2 - 4 s y ne q u _ r o l e 关系结构、实倒和可视化描述 问题域模型与公共领域模型之间的映射实质上是用公共领域模型的相关概 念束标记问题域模型中的概念,如图4 - 1 所示。若用概念a 标记概念a 1 ,则表 明概念8 1 与概念a 具有同样的语义,记为a 1m e a n i n go f a ,其中a 1 称作象,a 称为原象。 山于概念树的信息组织方式比较符合人们的思维习惯,为了实现方便,我 们电采用概念树作为问题域模型的基本定义,其构建方法与公共领域模型类似, 这暇不雨赘述。问题域模型与公共领域模型之间的映射过程其实是一个用领域 模型中的结点来标记或者定义问题域模型中结点的过程,特殊地,它的结点可 以就是领域模型的结点。问题域模型与公共领域模型之间的映射,存在以下限 制:问题域模型概念树中的任意两个结点c ,c ! ,其在公共领域模型中对应的 1 4 西北工业大学硕士学位论文第二章:语义检索模型韵构建 原象概念结点分别为c ,d ,如果c 是d 的直接父母,则c ,必须是c :的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年区块链在跨境支付中的实际应用案例深度解析
- 智能交通信号优化系统2025年在城市交通信号灯控制系统升级中的应用报告
- 2025年元宇宙社交平台用户体验深度分析与优化策略报告
- 2025年医疗健康行业医疗信息化建设与网络安全研究报告
- 天津市和平区二十一中2025届八下英语期中质量跟踪监视试题含答案
- 工业自动化控制网络技术安全风险防范与应对策略2025年研究报告
- 2025年医药行业研发投入与产出效益研究报告
- 咨询工程师复习课件
- 文化产业发展专项资金2025年申请项目文化产业与乡村振兴战略报告
- 金融行业人工智能伦理与监管挑战下的金融监管政策对金融业风险管理能力的影响报告001
- 2025年 北京门头沟大峪街道社区储备人才招募考试试题附答案
- Unit 2 Home Sweet Home 第4课时(Section B 1a-1e) 2025-2026学年人教版英语八年级下册
- 危险性较大工程管理制度
- 智慧检验与大数据分析知到智慧树期末考试答案题库2025年温州医科大学
- 2024北京西城区四年级(下)期末数学试题及答案
- 中国慢性阻塞性肺疾病基层诊疗指南(2024年)解读
- 湖北省宜昌市(2024年-2025年小学三年级语文)部编版期末考试(下学期)试卷(含答案)
- GB∕T 19673.1-2013 滚动轴承 套筒型直线球轴承附件 第1部分 1、3系列外形尺寸和公差
- 亚马逊品牌授权书(英文模板)
- 《现代汉语修辞》PPT课件(完整版)
- DB52∕T 046-2018 贵州省建筑岩土工程技术规范
评论
0/150
提交评论