(模式识别与智能系统专业论文)一种基于本体的数据集成用户接口方法研究.pdf_第1页
(模式识别与智能系统专业论文)一种基于本体的数据集成用户接口方法研究.pdf_第2页
(模式识别与智能系统专业论文)一种基于本体的数据集成用户接口方法研究.pdf_第3页
(模式识别与智能系统专业论文)一种基于本体的数据集成用户接口方法研究.pdf_第4页
(模式识别与智能系统专业论文)一种基于本体的数据集成用户接口方法研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(模式识别与智能系统专业论文)一种基于本体的数据集成用户接口方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 无论在w e b 环境下还是组织内部,信息环境越来越复杂,信息表示的方式 越来越多样化。在这一背景下,如何利用分布异构的数据资源构建数据集成系 统,为用户提供透明、一致的信息服务,探索能为管理决策提供更有效信息支 持的方法,已成为信息技术发展的新课题。 本文在研究传统数据集成用户接口实现方法的基础上,结合项目组正在研 发的“基于数据服务匹配的数据集成系统 课题需求,提出用户接口是人机界 面、统一数据视图和用户查询处理三方面相结合的思想,设计了一种比较自然、 有别于传统交互式用户界面的、且具有一定智能特点的数据集成系统用户接口 处理方案。本文工作的重点是改善集成系统用户接口处理的智能性,并通过融 入一些人工智能的方法和技术,实现了一个友好的、具有一定智能特点的用户 查询接口模块,具体工作如下: 1 提出一种基于本体的数据集成用户接口方法,采用本体作为用户接口的统一 数据视图。通过网络本体语言( o n t o l o g yw e bl a n g u a g e ,o w l ) 表达本体并描 述底层数据源,对领域知识建模,提供与领域知识关联的语义框架。然后, 利用本体的形式语义框架来解决用户接口查询处理的语义匮乏问题。 2 设计并实现了一种智能用户查询接1 2 1 。该接口能充分结合本体管理、描述逻 辑推理、中文分词、语义w e b 服务( o w l s ) 技术对用户查询进行处理,能 利用本体的语义框架和描述逻辑推理扩展用户查询的语义,将单一依靠关键 词的用户查询扩充为本体概念及其关联术语的语义组合,输出一种具有语义 的基于o w l s 的标准查询请求单元。目前,该接口模块已能提供界面用于 查询处理,并能支持中文分词、本体语义处理和生成标准的查询单元。 3 参与了课题组领域本体编辑工具开发,完善了该工具的功能和实用性,并很 好地将该工具以及描述逻辑概念分类算法实现,融合应用到数据集成系统用 户查询接口处理模块中。 关键词:数据集成;用户接口;本体;描述逻辑:中文分词;数据服务 a b s t r a c t a b s t r a c t t h ee n v i r o n m e n to fd a t as t o r a g eb e c o m e sm o r ea n dm o r ec o m p l i c a t e da n dt h e s t y l eo fi n f o r m a t i o nr e p r e s e n t a t i o ni sa l s od i v e r s i f i e dw h e r e v e rw a si nw e bc o n d i t i o n o rl o c a lo r g a n i z a t i o n h o wt oc o n s t r u c tt h eu n i f i e dd a t ai n t e g r a t i o ns y s t e m ( d i s ) t o s u p p o r tt h eu s e r sd e c i s i o na n ds u p p l yc o n s i s t e n ta n dl u c i di n f o r m a t i o ns e r v i c e sf o r u s e r sb yu s i n gt h ed i s t r i b u t e da n dh e t e r o g e n e o u sd a t ar e s o u r c eh a sb e c o m ean e w p r o b l e m f o rt h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y b a s e do nt h er e s e a r c ho ft r a d i t i o n a lu s e ri n t e r f a c em e t h o do fd a t ai n t e g r a t i o na n d t h ep r o j e c to fo u rl a b o r a t o r yt h a ti sd i sb a s e do nd a t as e r v i c em a t c h i n g ,t h i sp a p e r p r o p o s e sa ni d e at h a tu ia r ec o m p o s e db yg r a p h i ci n t e r f a c e ,c o n s i s t e n td a t av i e wa n d p r o c e s s i n go fu s e r s q u e r y , d e s i g n sar e l a t i v e l yn a t u r a la n di n t e l l i g e n ts o l u t i o no fu ii n d i s ,w h i c hi sd i f f e r e n tf o r mt h et r a d i t i o n a li n t e r a c t i v eu i f u n d a m e n t a l l y , t h ep a p e r f o c u s e so ni m p r o v i n gt h ei n t e l l i g e n c eo fq u e r yp r o c e s s i n gi nu ia c c o r d i n gt o i n t r o d u c i n gt h em e t h o da n dt e c h n o l o g yo fa r t i f i c i a li n t e l l i g e n c ea n di m p l e m e n t sa f r i e n d l ya n di n t e l l i g e n ti np a r tp r o c e s s i n gm o d u l eo fu i f i n a l l y , t h es p e c i f i cd e t a i l so f t h ep a p e ra r ep r e s e n t e da sf o l l o w s : 1 p r o p o s i n ga no n t o l o g y - b a s e du im e t h o do fd a t ai n t e g r a t i o n t a k i n go n t o l o g ya s t h eu n i f o r md a t av i e w u s i n go w ll a n g u a g et od e s c r i b ed a t as o u r c ea n dc o n s t r u c t t h em o d e lo fd o m a i nk n o w l e d g e s o l v i n gt h ed e f i c i e n c yo fs e m a n t i c si nq u e r y p r o c e s sa c c o r d i n gt os e m a n t i cf r a m e w o r k o f o n t o l o g y 2 d e s i g n i n ga n di m p l e m e n t i n ga ni n t e l l i g e n tu s e rq u e r yi n t e r f a c e t h ei n t e r f a c e c o m b i n e ss om a n yt e c h n o l o g i e ss u c ha so n t o l o g y , d e s c r i p t i o nl o g i c ( d l ) ,c h i n e s e s e g m e n t ,o w l - st od e a lw i t hu s e r s q u e r y e s p e c i a l l y , t h eo r i g i n a lq u e r y s ,w h i c h w e r ek e y w o r d b a s e da n di l l - f o r m e d ,w i l lh a v eb e e ne x p a n d e di n t oan e wq u e r ys e t w h i c hi n c l u d et h ea s s o c i a t e dc o n c e p ti ns e m a n t i cf r a m e w o r ko fo n t o l o g y f i n a l l y , t h ei n t e l l i g e n tu s e rq u e r yi n t e r f a c ew i l le x p o r tn o r m a t i v eq u e r yr e q u e s tc e l l p r e s e n t l y , t h ei n t e r f a c em o d u l ec a na c h i e v ec e r t a i nf u n c t i o ns u c ha ss e g m e n t , s e m a n t i cp r o c e s s i n ga n do u t p u to fs t a n d a r dq u e r yc e l l 3 p a r t i c i p a t i n gi nd e v e l o p m e n to ft h ev i s u a le d i t o r i a lt o o lo fo n t o l o g y t h i st o o la n d d lc o n c e p tc l a s s i f i c a t i o na l g o r i t h mw i l lb ef u s e di nt h ei n t e r f a c em o d u l eo fd i s k e yw o r d s :d a t ai n t e g r a t i o n ;u s e ri n t e r f a c e ;o n t o l o g y ;d e s c r i p t i o nl o g i c ;c h i n e s e s e g m e n t ;s e r v i c e o r i e n t e d ;q u e r yr e q u e s tc e l l i i 论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:虿汊 沙c 7 年f 月了f 日 j 伽差 山刁、6 第一章绪论 第一章绪论 1 1 研究背景及意义 随着信息技术的快速发展,无论是w e b 上还是部门组织内部,数据都迅猛 增长,形成了大量的信息库。但信息量变大的同时,不同用户之间的信息共享变 得越来越复杂和困难,于是许多企业部门都开始建立各类信息管理系统或数据监 控采集系统,以便有效地管理和利用这些丰富的信息资源。但是这些系统往往是 在缺乏全局信息规划前提下,分别独立设计和开发的,各种数据系统的分布、异 构已成为现有应用环境的基本特征。信息异构不仅体现在地理分布和系统软硬 件平台的不同,而且体现为不同的数据存取技术和不同的数据模式一既可能有传 统的关系数据库、面向对象数据库等结构化数据源,还有诸如e x c e l 电子表格、 x m l 文档和网页等组成的半结构化数据,甚至还有无结构的相对杂乱的数据资 源。即便在相同的数据模式下,仍可能存在结构和语义方面的异构。这种各系 统分别孤立运行的现象,被形象称为“信息孤岛 。究其根源是由于不同应用系 统之间尤其是不同部门的数据不能有效共享。主要表现有:不同数据系统间存在 大量共有数据,信息冗余量大;不同系统间的信息交换非常困难。“信息孤岛 问题已经严重阻碍了信息化建设的整体进程,企业中越来越多的高级应用需要对 各种分布、异构的数据资源进行整合,实现全局、统一和高效的访问。因此,充 分利用各种分布、异构的数据资源,建立数据集成应用系统,提供透明的数据访 问入口为管理决策服务,已成为当前信息化发展的新方向。 构建数据集成应用的基本目标是:在不影响现有应用运行的前提下,集成这 些应用产生的数据,为用户提供一致且方便的数据使用接口,使得用户不必直接 面对各类异构、操纵繁杂的应用系统乜1 。依据数据集成的基本目标,数据集成系 统很自然地被划分为两部分:一是集成数据资源,二是提供良好的用户接口。数 据集成的根本目的是让用户方便准确地获取信息,但底层数据资源的分布异构环 境对于用户的信息获取而言是严重的阻碍。因此,构建一个易用的、性能良好的、 智能的用户接口是用户能够从复杂的数据环境中准确获取信息的重要保障。一方 面,用户接i z l 需要接收用户相对随意的、不规范的查询请求,将其进行一系列地 处理转化为规范的查询请求;另一方面,需要将查询请求和数据资源进行某种形 式的对接,从而将查询分解为对具体数据源的数据查询。因此,数据集成系统的 用户接口不仅要在上层接收和处理用户查询,还需要和底层的数据源产生某种形 式的关联,从而有效地将查询分解为对数据源地查询。 总的来说,构建一种不仅能提供统一的数据视图且解决异常棘手的语义异构 第一章绪论 问题,还要完全突破传统基于关键词匹配且缺乏语义的查询方式的智能的数据集 成用户接口依然是非常困难的。同时,如何将数据源的集成和用户查询接1 :3 松散 耦合,形成一个优良的数据集成系统架构也是实际应用中的瓶颈。本文正是从解 决实际问题的角度出发,研究了数据集成过程诸多方面,力求在数据集成系统的 智能用户接口方法上做出若干研究,为项目组开发完整的数据集成解决方案打下 良好基础。 1 2 数据集成用户接口的研究现状 1 2 1 用户接口的定义和说明 简单来说,数据集成系统的用户接口就是用户访问数据源的入口,是数据集 成系统的人机交互平台。首先,集成系统的用户接口要面对有着数据访问需求的 用户,接收用户提交的数据查询请求;其次,用户接口需要对查询请求进行相应 的处理,将用户提交的不规范的查询处理为规范的查询表达;最后,用户接口要 能直接或间接地表达数据源,和数据源之间产生连接,将规范的查询表达分解为 对具体数据源的查询,并获取查询结果。因此,数据集成的用户接口可以分为三 大部分:分别是人机界面、查询处理、统一数据视图。 ( 1 ) 人机界面:用户所有的操作行为需要一个可见的界面进行传递,对于期 望从数据集成系统获取数据的用户而言,视图界面是用户接口最基础的部分。界 面提供了一切可供用户操作的功能,如提交查询请求、获取查询结果等。 ( 2 ) 查询处理:用户在人机界面处提交的查询表达多为由查询关键词构成的 文本,这种文本不但在形式上不规范,重要的是其内部包含用户的查询语义。传 统的数据集成处理用户查询很少关注用户查询的语义,大多采用关键词匹配的方 式处理。若用户接口能在语义的层次对查询进行处理,则更加有利于用户准确的 获取信息。由于查询的目的是获取数据源中的特定数据,因此用户接口必须抽象 或表达出底层数据源中的信息。最后,用户的查询经过处理后应该形成规范查询 并能够分解为对具体数据源的查询。 ( 3 ) 统一数据视图:相对简练的查询表达和复杂的分布异构数据环境之间存 在巨大的落差,通过简单的查询从数据源中获取期望的数据显得十分困难。因此, 需要用户接口能够采用某种形式表达数据源,提供一种统一的数据视图,用户面 对统一的数据视图提交查询并通过该数据视图得到处理,即通过统一的数据视图 将数据源和用户有效地关联起来。想要真正有效地表达异构数据是十分困难地, 数据异构为系统和用户间的互操作性带来了障碍。异构数据的特点是具有分布 性、自治性和异构性璐1 ,它是数据集成中不可逃避的难题。多年来研究人员一直 在努力解决异构问题,包括系统、语法、结构和语义异构口8 1 。其中最困难的语 2 第一章绪论 义异构源于人们对同一事物的不同的表示和理解,并由此产生了大量的语义异构 的数据信息1 ,主要包括用户信息请求的语义和数据源语义两个层面的异构性。 因此,建立统一的数试图来有效地表达数据源尤其是解决数据语义异构的问题对 于用户查询接口也是至关重要的。 1 2 2 现有系统的用户接口方法研究 数据集成系统的研究始于七十年代中期,至今已有二十多年的历史。从早期 的多数据库集成( m d b s ) 隋3 发展到现在的异构数据集成系统如:联邦数据库系统 ( f d b s ) 嘲、数据中介器口1 、数据仓库乜1 ( d a t aw a r e h o u s e ,d w ) 等集成技术,集成 系统的用户接口实现方式也在不断地发生变化,数据集成的范围和作用都在不断 扩大。从数据集成发展历程和用户接口处数据视图的不同表示方式来看,用户接 口的实现技术大致可以分为两类:“虚拟 接口方法和“物理”接口方法踊一1 。 1 2 2 1 虚拟接口方法 虚拟用户接口的基本思想是:在构建集成系统时将各数据源的数据视图集成 为一种全局数据模式h 1 ,使用户能够按照全局模式透明地访问各数据源的数据, 其特点是直接为用户提供了透明的数据访问方法。虚拟接口方法也称作虚拟集 成,主要解决两个问题:一是构建全局模式与各数据源间的映射关系,利用全局 模式提供统一的数据视图;二是处理用户在全局模式基础上提交的查询请求。全 局模式与数据源视图间映射的构建方法有两种:全局视图法( g l o b a l a sv i e w ,g a v ) 和局部视图法( l o c a la sv i e w ,l a v ) h j 伽。g a v 中的全局模式是在数据源视图基础 上建立的,由一系列元素组成,每个元素对应一个数据源,表示相应数据源的数 据结构和操作。l a v 首先构建全局模式,数据源的数据视图则是在全局模式基础 上定义,由全局模式按一定规则推理得到。但选择何种全局模式充分表达分布异 构的数据源提供一种具有语义能力的数据视图依然相当困难,同时虚拟接口方法 处理用户查询大多采用用户查询关键词和全局模式中的数据项进行字串匹配的 方式,对用户查询的方式和内容都有一定程度地限制,并且不支持语义处理。联 邦数据库和数据中介系统是现有的两种典型采用虚拟用户接口方式的集成系统。 联邦数据库系统的用户接口 联邦数据库3 由参与联邦的半自治的数据库系统组成,目的是实现数据库系 统问部分数据的共享网络,是数据库集成的最简单结构。每个数据库的操作是独 立于其它数据库。之所以叫“半自治 是因为联邦中所有的数据库都添加了彼此 访问的接口。f d b s 的结构如图1 1 所示:f d b s 由多个数据库系统耦合而成, 数据库间的相互访问主要是通过标准统一的数据库查询语言( s q l ) 来供用户查询 数据,用户在访问本地数据库的同时还可通过该数据库访问另外数据库的数据。 第一章绪论 数据库的s q l 查询可以通过不同的方式执行用户查询表达和数据库中数据间的 字串匹配,并不具备语义处理的能力。同时,由于f d b s 的各个数据库系统都能 彼此相互访闯,系统间存在很复杂的耦合性,f d b s 也没有统一的数据模式来解 决异构的问题,只是通过统一的数据库查询语言来实现相互访问。 图1 1 联邦数据库体系结构 数据中介器的用户接口 数据中介器口1 是集成异构数据的一种较现代的用户接口方法,是系统用户接 口的核心。数据中介器( m e d i a t o r ) 是一个软件模块组件,能为用户或应用提供或 实现针对异构数据源一致的、集成的数据存取接口。数据中介器必须捕获所有基 于多数据源的数据集成过程语义,包括集成过程涉及的有关操作、数据变换、潜 在冲突解决等。中介系统提供给用户一个全局模式( 也称为中介模式) ,用户针对 中介模式提交查询而不必知道数据源的位置、模式和访问方法,中介器将用户查 询翻译成一个或多个对数据源的查询。现有的几个基于中介器的系统如 t s i m m i s 、i n f o r m i a 都是采用如图1 2 所示的三层体系结构。 图1 2 中介系统的体系结构 用户通过人机界面或客户端向中介器提交查询,中介器的功能是分析针对中 介模式的查询,将其分解、转换为针对相应数据源的子查询。对中介模式的查询 第一章绪论 处理依然是将用户查询和中介模式中的数据项采用传统的字串匹配方式,而机械 的字串匹配经常是无效的。中介器的查询转化处理需要定义中介模式和数据源数 据之间的映射规则,即中介模式中的数据项和数据源中的对应关系。当有新数据 源加入或有数据源被修改时,需对现有的集成定义做出修改。因此,基于中介器 的用户接口方法有较好的灵活性,但是选用何种中介模式来解决语义异构问题依 然是应用的瓶颈,同时无法摆脱中介器和数据源间的耦合性。 1 2 2 2 物理接口方法 物理接口方法又称为物化集成,其典型代表是d w 口1 ,该方法需要建立一个 存储数据的仓库,把来自于几个数据源的数据副本都存储在单一的数据库中,由 e t l ( e x t r a c tt r a n s f o r ma n dl o a d ) t 具定期从数据源过滤数据,然后装载到数据仓 库,供用户查询。数据仓库本质上是一个为满足管理决策数据分析需要而设计的 特殊关系数据库,维护着集成的、一致的和物化的视图信息。d w 是面向领域或 特定主题的,用户对数据仓库提交的查询请求也都是与某些主题密切关联的。基 于数据仓库面向主题的特性,在上层用户接口处可以利用数据挖掘相关的技术来 对用户查询进行处理,具有一定的智能性,但也无法避免用户提交的关键词和数 据仓库中的某些数据项执行字串匹配的方式。 作为当前数据集成的一种重要方法,物理接口方法的主要优点是:因为已事 先将各分布异构的操作数据源中的数据,通过e t l 方式定时迁移转储到仓库中, 且数据在转储过程中已进行了清洁和一致性处理,用户查询的回答结果集基本上 已按预设的查询类型整理好并存储在仓库中,因此,具有响应快、效率高的特点。 其主要缺点是,不能灵活适应查询需求的变化。另外,把所有潜在有用的数据都 集中存储,随着数据定期的不断更新,对系统资源和维护的要求也会日益加大, 以致难以承受。 1 2 3 问题和解决方案 上文主要探讨了两个层面的问题,一是给出了数据集成用户接口的详细定义 和说明,提出用户接口是人机界面、查询处理、统一数据视图的三者相结合的思 想;二是研究了现有数据集成系统的用户接口实现方法。现有的用户接口方法虽 然能在一定程度上解决数据异构性和有效处理用户查询,但远不能令人满意,用 户查询获取的信息和所期望的结果依然有很大的差异。其中最主要的原因有两个 方面:一是下层数据资源的分布异构性,整合数据源并形成一种统一的数据视图, 该视图不仅要能在数据层面表达数据源,还需要在语义层次表达数据源;二是处 理用户查询请求的不确定性,用户的查询请求一般是有语义的,如何理解用户的 查询意图以及将用户查询进行有效的分解,并返回相对满意的查询结果是非常困 第一章绪论 难的。现有集成系统的用户接口方法并不能完全解决这两个问题。因此,数据集 成必须引入更加智能化方法和技术来弥补传统用户接口方法的缺陷。 1 2 3 1 现有用户接口方法的若千问题 1 ) 用户接口处数据视图的表示方式:上文给出了虚拟法和物化法两种。物化 法又称作数据仓库方法,在数据仓库环境中,数据是围绕主题或组织关心的一些 指标从各数据源中组织各种待查询的数据,以满足决策支持系统( d e c i s i o n s u p p o r t i n gs y s t e m ,d s s ) 分析处理的需要。而在虚拟法中,被集成的数据源始终 驻留原地,但一般都有一个虚拟的中介模型,用户查询通过虚拟的公共数据模型 接口提出。两种方法各有所长,物化法由于事先已将各数据源中的数据定时迁移 到仓库中,数据在转储过程中已进行了清洁和一致性处理,用户查询的回答结果 集基本上已按预设的查询类型整理好并存储在仓库中,具有响应快、效率高的特 点。但系统资源和维护的要求会随着数据的不断增加而日益加大,也不能灵活适 应查询需求的变化。虚拟法是一种虚拟的、多数据源松散耦合的、以查询驱动的 数据集成方法,具有灵活性好、适应性强的特点。但并且每次查询都要重新从数 据源抽取数据,因而性能较低、响应慢。另外,采用传统的关系模型或x m l 模 型表达集成系统的虚拟模式,抽象层次低,也进一步限制了虚拟法的应用。 2 ) 中介模式的选择及其与底层数据源的关系:对于虚拟接口方法,到底选用 何种中介模式,并能在较高的抽象层次上表达用户的查询请求并没有一个最优解 决方案,现有的用户接口方法采用诸如数据库实体模型、x m l 模式作为中介模 式提供一致的数据视图,这些数据模式虽可独立于数据源,但数据表达能力并不 充足,尤其不具备语义能力,无法解决数据的语义异构问题口1 。此外,这些数据 模式也不能在一定抽象层次上表达用户的查询请求,用户的信息请求是有上下文 语境的,但结构化的数据库模型和半结构化的x m l 模型不能提供信息的语境并 且不具备语义能力,只是在用户查询的关键词匹配上表现良好。除了选择良好的 中介模式,还需要明确中介模式与数据源之间的关系。对于虚拟接口方法,上文 给出了两种方式:g a v 和l a vh 1 。无论以何种方式建立中介模式和数据源问的对 应或映射关系,都很难避免数据源和中介模式间的耦合性。因为数据源不可能是 静态的,数据源的变动势必要修改两者间的对应关系,造成高度的耦合。 3 ) 处理查询请求:用户提交的查询多由简洁且类自然语言的关键词或句子构 成。这种查询首先在形式上不规范,不利于处理;其次还包含了用户的查询意图, 需要对查询体进行特殊处理以便分析用户的意图;最后要将查询转化为对中介模 式的规范化查询并最终分解为对数据源的查询。其中的困难有:处理类自然语言 的关键词或句子构成的查询体;中介模式能够将单一的关键词查询在语义级别上 进行一定地扩展并且输出标准的查询格式。 6 第一章绪论 1 2 3 2 基于本体的智能数据集成用户接口方法 传统的数据集成用户接口方法都不能很好的解决上文提及的数据集成中的 几个主要问题。虽然d w 的物理接口方法由于其简单实用性近年来被众多企业 广泛使用,但其在灵活性、适应性方面的局限性随着数据爆炸性地增长也变得越 来越突出。此外,数据仓库的构建需要花费巨大的物质成本。从现有的研究条件 和实际情况出发,本文选择虚拟用户接口方式作为用户接口方法研究的重点。虚 拟接口方法虽然有很好的灵活性和适应性,但系统性能和伸缩性等问题也不能很 好解决。更为重要的是,无论虚拟接口方法还是物理方法在解决数据语义异构和 理解用户查询请求语义的问题上显得十分乏力,其根本原因在于:传统的数据库 和x m l 等数据模型用作虚拟接口的中介模式时缺乏语义表达能力,同时采用以 关键词匹配的方式进行数据查询处理,返回的数据查询结果常常在查全率和查准 率上表现不令人满意。 近年来,本体( o n t o l o g y ) 作为一种能在语义和知识层次上描述信息的概念模 型建模工具,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许 多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和w e b 上异构信息的处理等n 引。本体是共享概念模型的形式化规范说明n 别,通过抽象出 客观世界中一些现象的相关概念得到概念模型,本体可以捕获某一领域的共有知 识,确定领域内共同认可的词汇,并从不同层次的形式化模型上给出这些术语及 其相互关系的明确定义n 明。概念模型的表达功能非常强大,因为概念可以泛指任 何事物;同时利用形式化模型,本体通过本体语言编码,可被计算机处理。借助 概念模型和形式化模型,本体不仅可以表示相关领域的信息,而且还具有一定程 度的语义能力。本体不仅具备清晰表达数据源信息的能力,而且由于本体概念模 型和形式化模型的语义特性,本体表达的领域信息已经通过概念模型被抽象到领 域知识的层次,具备了一定程度的语义能力,提供了一个包含领域知识的语义框 架。而数据集成也具有面向领域的特点,被集成的数据经常是部门组织内部或是 诸如数字图书馆之类的特定领域。结合数据集成的面向领域特点和本体在领域知 识层次提供的语义框架,可利用本体来取代传统的e r 模型以及x m l 模型作为 数据集成用户接口处的统一数据视图。 数据集成的终极目标是一领域用户能够便利地准确地获取其感兴趣的领域 信息。以本体作为数据集成用户接口处的统一数据视图:一方面利用本体的语义 特征解决底层数据源的语义异构问题,另一方面也可以利用本体的语义框架对单 一的用户查询表达进行语义扩展,从而摆脱基于关键词匹配用户查询方式。在传 统数据集成系统中,用户的查询表达通常用来和用户接口处上层数据视图的数据 项进行关键词匹配,但用户查询是具有语义的,单一的关键词是无法代表用户的 7 第一章绪论 语义。而本体利用良好的概念模型以及逻辑推理的支持,单一关键词会在本体中 找到与其关联的上下文领域概念,用户查询被本体所扩充并且具备语义,这种扩 充正是利用了本体的概念模型,在一定程度上接近用户查询的语义,能提高查询 的查全率和查准率n 3 1 。本文的主要工作正是以本体为核心展开,充分利用本体对 数据源表示和支持用户查询的语义特性,对基于本体的数据集成用户接口方法展 开研究。 1 3 论文的主要工作 基于以上对数据集成用户接口方法的研究背景和意义、研究现状、待解决的 问题以及发展趋势的描述,结合项目小组提出的“基于服务匹配的数据集成”框 架,本文将数据集成系统分割为两个独立的部分( 即数据源集成和用户查询接 口) ,给出一种面向服务的松散耦合的集成系统架构。提出用户接口是人机界面、 统一数据视图和用户查询处理三方面相结合的思想。本文工作的重点集中于改善 数据集成用户接口处理查询的智能性,通过融入人工智能的方法和技术,提出了 一种基于本体的数据集成用户接口方法,实现了一个智能用户查询接口处理模 块。该模块利用人工智能中的中文分词技术,对类自然语言形式的用户查询表达 进行预处理,利用本体的全局语义框架和数据视图在语义层次上把用户查询和数 据源的异构性有机地统一起来,扩充用户查询的语义。最后,需要将处理结果经 过本体语义扩展后输出一种标准的查询请求单元。论文的具体工作如下: 1 ) 提出一种基于本体的数据集成用户接口方法,采用本体作为用户接口的统 一数据视图。利用o w l 表达本体并描述底层数据源,提供与领域知识关联的语 义框架。利用本体的形式语义框架扩展用户查询的语义。 2 ) 给出一种面向服务的数据集成框架,将集成系统分割为数据源集成和用户 查询接口独立的两部分,通过服务架构将两者进行松散耦合。数据源被抽象为对 外提供服务的数据服务单元,用户查询被处理为标准的服务请求单元。 3 ) 设计并实现了一种智能用户查询接口。该接口是数据集成系统的上层部 分,充分结合本体管理、描述逻辑推理、中文分词、语义w e b 服务( o w l s ) 等 智能技术对用户查询进行处理,重点利用本体的语义框架和描述逻辑推理扩充用 户查询的语义,输出一种具有语义的基于o w l s 语法的标准查询请求单元。最 后给出了实验结果和分析。 4 ) 描述了一个已实现的本体编辑工具和描述逻辑概念分类算法。本体编辑工 具由于构建本体,描述逻辑概念分类算法用于完善本体的概念层次结构,把两者 融入到基于本体的数据集成用户接口方法中,支持智能用户查询接1 3 模块的处理 用户查询。 第一章绪论 1 4 论文结构安排 本文的全部工作都围绕基于本体的数据集成用户接口实现方法展开。在论文 结构上遵循从基础理论到框架再到软件设计的一般原则,具体安排如下: 第一章绪论,主要介绍数据集成用户接口实现方法的研究现状,分析了现 有方法的优点和存在的问题,提出了一种基于本体的数据集成用户接口方法的解 决方案。 第二章相关技术研究,介绍了一些用于支撑基于本体的数据集成用户接口 方法的理论技术,这些技术围绕用户查询处理的智能化展开,主要包括语义w e b 和本体、描述逻辑、中文分词技术,力求为后文的系统设计与实现提供理论和技 术支持。 第三章面向服务数据集成系统基本框架,给出了面向服务数据集成框架, 将基于本体的数据集成用户接口纳入其中,包括智能用户查询接口、数据服务管 理和服务匹配几个部分。将数据源抽象为对外提供服务的数据服务单元,将用户 接口处理查询的输出封装为标准的服务请求单元,两种服务单元进行服务匹配, 匹配成功后执行数据服务并返回查询结果。 第四章智能用户查询接口的设计与实现,该接口是基于本体的用户接口方 法的软件实现。从软件工程的角度进行设计,实现了一个基于中文分词处理和本 体语义扩展的可视化用户接口。该接口服务于数据集成系统的上层,处理用户查 询请求并输出标准的服务请求单元。 第五章本体编辑工具和描述逻辑概念分类算法,实现了一个可视化本体编 辑工具,用于构建本体,研究描述逻辑推理概念分类算法及其在智能用户接口中 的应用。 第六章结束语,总结全文的研究工作和研究成果,在智能用户查询接口的 人机界面和功能以及和实际应用相结合方面提出后续研究内容,最后给出未来工 作的目标。 9 第二章相关技术研究 第二章相关技术研究 2 1 本体与数据集成 传统的数据库模型及半结构化x m l 数据模型来表达底层的异构数据并作为 用户接口处的中介模式能够在一定程度上解决系统异构、结构异构、语法异构的 问题,但是对于语义异构却无能为力n 。而“本体是概念模型的明确规范说明n 2 h , 本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域 内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇间 相互关系的明确定义,具有很强的表达概念语义和获取知识的能力n 朝。因此,将 本体用于信息集成是近年来的热点研究课题n 钔。本体的突出特点是从领域共享概 念层次描述待集成的异构信息源的精确语义信息,使得对所描述的领域知识具有 一个全局的语义框架和良好的数据视图,利用本体实现异构数据源的语义异构是 数据集成用户接1 2 1 方法研究的新方向n 5 1 。 2 1 1 本体与领域本体 本体( o n t o l o g y ) 的概念起源于哲学,即“对世界上客观存在物的系统描述”。 在人工智能界,n e e h e s 等人将本体定义为“给出构成相关领域词汇的基本术语 和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义n 6 伽。 第一个让人信服的本体定义是1 9 9 3 年g r u b e r 给出的,即“本体是概念模型的明 确的规范说明”n 羽。b o r s t 对该定义进行了引申“本体是共享的概念模型的形式化 的规范说明”n 钉。s t u d e r 等人认为本体的概念包括四个主要方面n 引: ( 1 ) 概念化( c o n c e p t u a l i z a t i o n ) :客观世界中现象的抽象模型; ( 2 ) 明确( e x p l i c i t ) :概念及它们之间联系都被精确定义; ( 3 ) 形式化( f o r m a l ) :精确的数学( 离散数学) 描述; ( 4 ) 共享( s h a r e ) :本体中反映的知识是其使用者共同认可的。 本体有简单和复杂之分,并且表达知识的能力也各有不同。图2 1 给出了不 同类型和表达能力的本体的分类图谱口训。对信息系统而言,本体是一种可形式化 的理论,借助具有很强知识表达能力的通用逻辑( 如描述逻辑) ,可实现对领域 内信息分类、类间关系和类特性进行精细一致的描述。本体在信息系统中的主要 应用包括:处理信息组织、信息查询和异构数据系统之间的互操作问题n 3 1 。 当前的本体研究是面向领域的,如果想利用一个本体来描述客观世界中所有 领域的信息是不现实的。由此衍生出了领域本体,领域本体集中于捕获特定领域 的共享知识。而信息系统集成一般也具有面向领域的特征,如数字图书馆、电力 系统、电信系统等领域的集成需求。某一个领域的信息都会具有与该领域相关联 i o 第二章相关技术研究 的一些共享知识,这些共享知识构成了该领域相关数据的上下文。而领域本体恰 好可以借助其良好的概念模型和形式化的数学定义来表达领域知识,一方面可以 对底层信息源提供一种统一的并且具有形式化语义的描述:另一方面处理用户的 信息请求上也可将常规基于关键词的匹配方式上升到语义匹配的层7 久 1 3 1 。 图2 1 本体分类图谱 2 1 2 本体在用户接口中的作用 1 ) 明确语义内容:根据本体的定义,其突出特点便是用来实现概念共享一提 供对领域知识的共同理解,从不同层次的形式化模式上给出这些词汇和词汇间关 系的明确定义。信息集成中各数据源都有着自己的表示规范,无法理解相互间的 语义,利用本体则可提供一种规范上的共识n ,有助于克服语义异构问题。 2 ) 信息组织框架:s w a r t o u t 认为“本体是为描述某个领域而按继承关系组织 起来作为知识库骨架的一系列术语川矧。本体有着良好的层次结构,因此可参照 已有本体,把收集的数据按本体规范存储,即用本体来指导知识库的建立。 3 ) 作为查询模型:本体作为统一的查询模型,其优点是本体的结构对用户来 说更加直观,它强调用户对这个领域的了解。用户表达查询时,一般要了解基本 的领域知识,不能根据自己的喜好来随意表达信息请求但。 4 ) 实现语义推理:在基于通用逻辑约束的本体中,概念间的基本关系有四种: p a r t o f 表达概念间部分与整体的关系;k i n d o f 表达概念间的继承关系; i n s t a n c e o f 表达概念的实例和概念之间的关系;r e l a t i o n o f 利用二元关系表达两 个概念间的某种关系n 3 j 引。通过对概念、实例、关系间的互操作,本体可模拟类 似人类思维的逻辑性。利用本体对用户提交的查询进行语义扩展,可以推理出用 户可能需要的却未能表达出的信息需求。 2 1 3 本体的应用方法 将本体技术引入信息集成领域,产生了几种应用本体的方法,主要包括:单 本体方法、多本体方法和混合方法翻矧,分别如图2 2 、2 3 和2 4 所示。 1 ) 单本体方法:使用一个全局本体为语义规范提供一个共享词库,所有数据 源关联到这个全局本体。使用单一本体方式解决的集成问题,其数据源需是关于 第二章相关技术研究 一个领域的相同视图。如果数据源提供这个领域的不同视图,比如具有不同的粒 度级别,那么找到最小的本体关联就非常困难。另外,单本体方式易受到数据源 变化的影响,数据源变化使得全局本体发生变化,进而影响到对其它数据源的映 射发生变化。这些不足导致了多本体方式的产生口。 2 ) 多本体方法:每个数据源由一个局部本体来描述,每个局部本体都可以单 独开发、修改而不用考虑其它的资源、本体。因此,不需要建立一个让所有数据 源一致认同的全局本体。这种本体结构可以简化数据源的改动、添加和删除带来 的变化【2 1 】。但是缺乏一个共同的词库( 本体) 来进行不同局部本体的比较是极其 困难的。因此,需要一个额外的表示方式来定义本体之间的映射乜3 1 。 3 ) 混合本体方法:和多本体方式类似,每个数据源的语义信息由它自己的本 体来描述,但为了使局部本体之间易于比较,建立了一个全局共享词库心。共享 词库中包括了领域中所有的基本术语( 原语) ,而局部本体中的每个术语都是源自 共享词库的,因此解决了复杂的本体间映射问题。这种共享词库本身也可视为一 个本体。混合本体方式的优点是不需要改动映射关系或共享词库就可以轻松地添 加数据源,而且共享词库使局部本体之间的映射变得容易,避免了多本体方式的 不足。 图2 2 单本体方法图2 3 多本体方法 图2 4 混合本体方法 从以上给出的三种应用本体的方法以及第一章中给出的虚拟接口方法的特 点可以得出如下结论:无论是单本体、多本体还是混合本体方法都需要定义一个 1 2 第二章相关技术研究 视图来描述数据源对应于本体的关系,因此必须有一些规则或者断言定义来实现 这种描述。例如:一个数据库中的关系表通过源描述规则对应到本体中的术语。 源描述规则极大增加了数据源和本体间的耦合性,无论是数据库的修改还是本体 的修改都会增加源描述规则的维护难度,使得数据集成系统的可扩展性和伸缩性 受到很大的影响。为了使基于本体的数据集成用户接口方法能够发挥最大的效 用,本文在第三章给出了面向服务的数据集成系统架构,通过借鉴w e b 服务h l 删 架构的优点,将数据集成划分为集成数据源和用户查询处理两大部分:数据源被 抽象为能够主动对外提供数据服务的数据单元;基于本体的用户接口处理用户查 询并输出标准的服务请求单元。最后借助标准的服务匹配机制,将服务请求和数 据服务执行服务匹配,并返回查询结果。 面向服务的数据集成系统架构也是项目组“基于数据服务匹配的数据集成系 统”的重要组成部分,将“服务 的概念引入到数据源和用户查询端。集成的数 据源和用户查询处理后都表现为同一种标准格式,只不过一个是相对复杂的数据 服务,另一个是简单的服务请求。将w e b 服务的架构和技术引入到数据集成中, 不仅在系统架构上优化了集成系统,使之具有更好的可扩展性、伸缩性,更重要 的是使得基于本体的数据集成用户接口方法避免了本体和数据源间通过描述规 则连接的强耦合性,集中于处理用户的查询请求,从而发挥更大的作用。 2 1 4 本体构建 在基于本体的实际应用中,构建本体是一项基本任务。一方面,所建立的本 体必须满足一定质量要求,即能否完整描述某一领域内的知

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论