已阅读5页,还剩61页未读, 继续免费阅读
(管理科学与工程专业论文)信息查询的语义一致性研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院学位论文 摘要 随着科学技术的发展,信息越来越呈现出海曩、动态、雾梅、分毒蛉特点, 并且带来了信息组织方式的变革。分奄式数据库的出现,然决了售患存健的闲题, 为信息共享提供了前提。信息挟攀必然要求为用户提供语义一致的馈息巍匿;恧 采用不同方法褥到的信息不可避免的枣在语义上的偏差乃至冲突。由此,弓l 出了 在信息组织、管理、共享过程中如何解决语义致性闻题的瓤课题。 论文研究信息组织的语义问题,羹点介绍了信息集成中语义一致性问题的解 决。论文以信息查询中的语义集成为例,提出一个改进的信息语义维护模型。该 模型能够实现基于语义的查询。能够检测和调解常见的语义不一致,能够提供绘 用,o 讲义一致的查询结果信息视图。模型通过语料库中知识库和规则库提供的知 识和规则,能够对奄询请求进行扩充,在解决表示形式不同造成的语义不致的 同时,实现了基予语义的查询。 论文g i 入四元组描述信息的语义。在此基础上,针对模型中语义不致检测 和语义调解的工作,掇出了树毽的语义检测方法。同时,对于常见的语义不致 种类,论文给融了具体调解方法和步骤。最后,运用论文中的信息语义维护模型 和语义不一致检测、调解方法对所提到的语义一致性问题的典型示例进行了实 验,稔验了模整的有效性。 论艾的研究t 作辩子信惑组织和信意集成中消除语义一致俄问题其有一定 的矬涂价锻和浅絮意义。 关键字:信患,褥义,元鼗据,语义不致,语义调解 国防科学技术大学碘究生院学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y ,i n f o r m a t i o ng r a d u a l l yt a k e s o nt h ec h a r a c t e r i s t i c so fb e i n gh l l g e d y n a m i c , h e t e r o g e n e o u s ,a n dd i s t r i b u t e d t h i s l e a d st ot h er e f o r mi nt h eo r g a n i z a t i o np a t t e r no fi n f o r m a t i o n t h ee m e r g e n c eo f d i s t r i b u t e dd a t a b a s es o l v e st h e p r o b l e m o fi n f o r m a t i o n s t o r a g e a n d p r o v i d e s p r e c o n d i t i o n sf o ri n f o r m a t i o ns h a r i n g w h i l eh i g h - q u a l i t ys e r v i c ed e f i n i t e l yr e q u i r e s u st o p r o v i d ec o n s i s t e n ts e m a n t i cv i e w sf o ru s e r s ,i n f o r m a t i o na c q u i r e dt h r o u g h d i f f e r e n tm e t h o d s u n a v o i d a b l yh a sd i f i e r e n c e sa n de v e nc o n f l i c t s t h e r e f o r e t h en e w p r o b l e mo fh o w t oc o p ew i t ht h es e m a n t i c i n c o n s i s t e n c yd u r i n gi n f o r m a t i o ns h a r i n g i sb r o u g h t u p t h i sp a p e rs e t so u tt os t u d yt h es e m a n t i c p r o b l e m si ni n f o r m a t i o no r g a n i z a t i o n i te x p a t i a t e so nh o wt om e d i a t es e m a n t i cc o n f l i c t sd u r i n gi n f o r m a t i o ni n t e g r a t i o n t h e p a p e rt a k e ss e m a n t i ci n t e g r a t i o ni ni n f o r m a t i o nq u e r ya sa ne x a m p l et op r o p o s e a ni m p r o v e ds e m a n t i cc o n s i s t e n c em a i n t e n a n c em o d e l t h i sm o d e lc a nh e l p t o r e a l i z es e m a n t i c s b a s e d q u e r y i t c a nd e t e c ta n dm e d i a t et h ec o r n n l o ns e m a n t i c i n c o n s i s t e n c i e s ,a n dp r o v i d e su s e r sw i t hs e m a n t i c a l l yc o n s i s t e n tv i e wo fq u e r y r e s u l t s w i t ht h eh e l po fk n o w l e d g ea n dr u l e sp r o v i d e db yt h ek n o w l e d g ea n dr u l e s u b - b a s ei nt h ec o r p u s ,t h em o d e l e x p a n d s t h en s e 培+ q u e r y r e q u e s t t h i sr e m o v et h e s e m a n t i c i n c o n s i s t e n c y d u et o e x p r e s s i o nf o r m a t ,m o r e o v e r ,i t h e l p s t or e a l i z e s e m a n t i c s - b a s e di n f o r m a t i o n q u e r y t h i sp a p e ru s e sq u a d r i t u p l et od e s c r i b es e m a n t i c sc o n t a i n e di ni n f o r m a t i o n b a s e do nt h i sk i n d o f e x p r e s s i o n ,at r e e - l i k e s e m a n t i c i n c o n s i s t e n c y d e t e c t i o n m e t h o di s p r o p o s e di ni t ,f u r t h e r m o r e ,s p e c i f i cm e d i a t i o na p p r o a c h e sf o rv a r i o u s t y p i c a lt y p e so fi n c o n s i s t e n c yp r o b l e m si sg i v e no u t 。i nt h ee n d ,t h es e m a n t i c m a i n t e n a n c em o d e la n di n c o n s i s t e n c yd e t e c t i o na n dm e d i a t i o nm e t h o d p r o p o s e di n t h ep a p e ri se x p e r i m e n t e do ns o m ef o r em e n t i o n e d t y p i c a li n s t a n c e ss oa st ov a l i d a t e t h e i re f f e c t i v e n e s s 。 r e s e a r c h i n gw o r k o nt h i sp a p e rw i l lm a k ec e r t a i nc o n t r i b u t i o n st o s o l v i n gt h e s e m a n t i c i n c o n s i s t e n c yp r o b l e mi ni n f o r m a t i o n o r g a n i z a t i o n a n d i n t e g r a t i o n k e yw o r d s :i n i o r m a t i o n ,s e m a n t i c s ,m e t a d a t a ,s e m a n t i c i n c o n s i s t e n c y 。s e m a n t i c m e d i a t e 独创性声明 本人声明所呈交的学位论文是我本入在导师稽导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 英艳人已经发表和撰写遥的研究成幕,也不包含为获得匿防科学技术大学或其它 教商机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贾献海邑在论文孛俸了臻确翡谎翡并表攀谢意。 学位论文题目: 嬗! 壑查逾鲍遮墓= 瑟丝赞峦 学位论文作者签名:受鍪扳 瑟期:飙黟;冬多月罗鑫 学位论文版权使用授权书 本人完全了魑国防科学技术大学鸯美像蟹、使用学位论文的规定本人授权 国防科学技术大学可戳保留并商谶家有关都门或机构遥交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的套部或部分内容鳊入有关数撂 瘁避行裣索,可淡采礴影帮、缩第或籀描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后遁用本授权书。) 学位论文题强: 筵墨查烫煎逶塞= 熬焦麓窀 学位论文作者签名:塞援 份孝指导教烽签名 日期:彻;年多月;日 蓦期:矽一;年磊罗譬 里堕型堂篓查奎兰矍茎羔壁裳篁燕苎 图表清单 幽1 紧密戮数据组织方式( 发) 和松散型组织方式( 右) 。2 图2 概念圈1 0 圉3 概念关系承1 概念节赢1 0 图4e a g e r 鲍芷则图1 l | ! l5 语义嘲络的基本元素1 2 翻6 语义网络对应的语义树1 2 落7 蒸于协调嚣的语义调解模型2 5 圈8 基于本体的语义不致调解2 8 图9 基于元数据调解器的语义互操作体系结构2 9 幽1 0 元数据调解器原型系统结构酗3 0 翻l l 纂丁关系模式的语义不一致调解模型3 1 隧1 2 改进的语义维护模型结构图3 4 图1 3 信息集成中的语义维护模型3 6 翻1 4 翻元缀的描述与r d f 描述的对比4 3 圈1 5 傣意语义不一致静检测辩调解算法流程蕊4 4 幽1 6 慰名髯义语义不一羧检测示意霉勰 第滋页 一 一一 国防科学技术大学研究生院学位论文 第一章绪论 1 1 课题背景与问题提出 随着人类信息化程度的提高,数据已超出它原始的范畴,它包含各种空间数 据、报表、统计数据、文字、声音、图像、超文本等各种环境和文化数据。随着 社会信息化程度的提高、计算机的普及,特别是因特网和万维网( w w w ) 的迅速发 展,世界各地、各行业、各部门以及个人都能通过网络达到信息共享,使得分布 于世界各地的海量信息能有机地联系在一起。网络中的信息越来越呈现出异构、 海量、分布的特性,信息的数量级已经由t b 级扩展到了p b 级。 海量信息进入网络,给信息组织与管理提出了许多新课题。在网络环境下的 信息组织与传统的信息组织有以下不同之处:第一、信息组织工作的对象有了 很大的变化。网络信息资源种类多、动态性强。第二、用户需求发生了很大的改 变。网络信息资源的用户多为终端用户,比传统文献用户范围更广。第三、信息 组织的技术环境有了很大的变化。传统的文献组织主要编制手工检索工具,基本 e 把文献组织成为线性结构;而网络环境下,信息组织工作以电子文本为主要处 理对象,使用链接技术能够按照文献主体之间的关系和用户需要以网状的方式、 灵活的、多维地组织。第四、网络信息资源,主要是由用户通过用户终端获得, 这样,在进行信息组织工作时,还要考虑到对用户界面的有效利用,以使用户能 够更方便地利用网络信息。基于以上环境因素的变化,网络信息组织者必须对原 有的组钐 方法进行改进和完善,建立适合网络环境的信息组织方法。 现在常见的信息组织方式有两种n ,。一种是紧密型组织方式,在用户提出查 询之前将所有参与集成的数据源收集到一个中心仓储中,然后,提供对这个存储 仓储的杳询机制。当信息源的数据发生变化时,存储仓储中的数据也要作相应的 修改。因此这种问接访问方式可能会带来一致性和可扩展性问题。另一种是松散 型组织方式,数据仍然保存在各信息源,集成系统仅提供一个虚拟的集成视图以 及对这个集成视图的查询处理机制,系统必须能自动地将用户对集成模式的查询 请求转换为对各信息源的查询,在查询过程中动态地从集成数据源收集数据。由 于这种方法不需要重复存储大量数据,并且能保证查询到最新数据,比较适合高 度自治的集成数量多更新变化快的信息源集成。因此目前的研究多集中在松散型 组织方式。两种组织结构如图1 所示: 第l 页 := 墅些丝型塑塑墅堂型壅一 集成查询处理 u 搜索引擎 下 l 转换稗序j i 转换稗序li 转换稃序 圈1 紧密型数据组织方式( 左) 和松散型组织方式( 右) 信息源具有分布自治性,不同的信息源常常是异构的。异构性是信息系统的 重要特征和信息集成的难点。异构性大致包括:1 、系统异构:指硬件平台、操 作系统、并发控制、访问方式和通信能力等的不同:2 、数据模型异构:指采用 关系、层次或面向对象等不同的数据模型以及查询语言等方面的差异;3 、逻辑 异构:包括命名异构、值异构等语义异构和模式异构。 信息组织方式的变化给信息集成带来了新的课题。由于信息源的分布、异构, f 1 治,川户r 尤t i 分辨信息的语义是夼相同,无法辨别信息的质量,无法确信信息 的含义是否相同。因此,信息的组织与管理需要解决的一个突出问题就是如何将 种类繁多的数据模式统一为一个和谐的、无冲突的、对用户透明的信息资源,解 决异构数据源之间的语义一致性问题。与信息的组织方式相对应,在信息集成中, 语义集成的方法主要也有两种:一种是合成的语义视图,提供给用户一致的全局 语义视图,另一种是建立联邦数据库,提供给用户局部语义视图,由用户自行处 理。 信息系统提供给用户的视图必须是语义致的。语义即语言的含义,与语法、 语用一起成为研究语言的三个层次,其中语义贯穿于语用和语法之中。一般语言 学者认为音素、音位和句法结构可以作准确、客观的描述。然而,却认为语义是 捉摸不定、变化多端、因人而异,很难做到客观准确的研究。由于语义反映人类 的思维过程和客观实际的外在世界,所以语义与哲学、心理学、逻辑学、人类学、 社会学等学科有密切的关系,因此,要全面深入地研究语义现象,必须要解决上 述邻近学科中一些尚未解决的理论问题。论文中所研究的语义是从信息中提取出 第2 页 国防科学技术大学研究生院学位论文 柬的拙述信息含义的信息,是以元数据形式表示的。一般文档和属性都有与之相 关联的元数据,元数据可以是说明文档和属性外在含义的字段,也可以描述文档 的内容,因此可以作为文档和属性的语义。当语义被形式化描述以后,计算机才 能自动地对语义进行检测和调解。 元数据是构造语义解释机制的知识,是对信息进行统一理解的关键。元数据 是构建、管理、维护和使用信息的核心,是技术人员开发与维护信息资源的蓝图, 是用户导航以及定位有用信息的路标。元数据模型可以让用户了解信息系统的资 源和服务,提高查找速度,实现智能代理。同时,采用元数据描述信息必然要求 信息在组织管理上具有一定的规范性,这种信息组织管理模式要能够满足信息海 量、分布、动态存储的需求。用来描述语义信息的元数据,可以像关系框架、图 表那样简单,也可以像描述资源、粒度、精确度和历史信息的数据那样复杂。这 时语义可以是显式表现的也可以是隐式表现的,但都以元数据的形式存在。 论文研究的是信息查询中存在的语义不一致的问题。目的是通过对问题的描 述、分析、探讨,从而能够识别和解决由于信息源的不同造成的信息语义不一致 的问题,最终形成一致的语义视图。 论文采用元数据描述信息的语义,结合了现有的语义研究思想和语义调解方 法,立足于解决异构、分布数据库之间数据信息的语义一致性问题。论文提出了 一种改进的语义维护模型,用以调解不同数据库中返回的查询信息之间的语义不 一致,从而提供给用户语义一致的信息视图,然后针对模型中的信息不一致检测 和不一致调解工作,作了进一步的研究,提出了一种语义表示方法,形式化地描 述了信息的语义,提出了语义不一致的检测和调解算法等等。 1 2 国内外研究现状 语义本身属于语言世界,但语义又与人的主观世界和客观世界有着密切的联 系。语义具有模糊性,这已经成为学术界的共识,而且备受国内外学术界韵关注。 结合当前国内外语义研究的情况,主要有以下三类: 1 2 1 语义学的语义研究 语义学”1 是语言学中的比较年轻的- r 学科,也是语言学研究中一个较少语 言学家涉及的研究范畴。我国语言学界对语义的研究落后于欧美一些学术发达的 国家,至今还未能提出一个语义研究的模式,因此,我国目前在语义方面的研究 尚处于探索阶段。2 0 世纪六十年代以来,在英美等国,语义学有了很大的发展: 解释语义学、生成语义学、逻辑数理语义学、格位语法、齐夫语法等语义研究模 国防科学技术大学研究生院学位论文 式相继现,0 i 起了广大的讨论。根据语义学的研究对象与范畴不同,可以分为 四种不同的语义学:语言语义学、普通语义学、哲学语义学、逻辑语义学。在计 算机信息语义描述上,逻辑语义学最具有影响力。 逻辑语义学是新发展起来的一门学科,研究形式化语言中的指示、真实与可 满足等问题。逻辑语义学有广义及狭义之分;广义的逻辑语义学就是符号学 ( s e m i o t i c s ) 。符号学除了包括逻辑语义学之外,还包括研究语言符号和其使用 者之间的关系的语用学( p r a g m a t i c s ) 和研究符号之间的形式关系的符号关系学 ( s y n t a c t i c ) 。在语义现象的研究方面,逻辑语义学着重探讨四个问题: 1 词的“外延”( e x t e n s i o n ) 与词的“内涵”( i n t e n s i o n ) 问题 2 “句子表述”的可分析性问题 3 真实句与谬误句问题 4 词的“反身关系”( r e f l e x i v i t y ) 、“转移关系”( t r a n s i t i v i t y ) 和“交 互关系”( r e c i d r o c i t y ) 逻辑语义学是一个具有较强描述性和严密性的语义学模式,是一种运用数理 逻辑方法将自然语言形式化的方式。逻辑数理语义学是一门新兴、跨学科的语言 学理论,在国际间受到普遍重视,未来发展无可限量。 1 2 2 语义w e b 中语义研究 现有的i n t e r n e t 在语义方面存在诸多缺陷。例如,我们使用搜索引擎时, 反饿的结果足j j :7 段喊宁段组合的匹配结果,并没有考虑其中的语义差别。可 以况,我们所使川的凼特网,实际上是一个存储和共享图像、文本的媒介,电脑 所能看到的只是一堆文字或图像,对其内容无法进行识别。如果要想让电脑处理 因特网中的信息,就必须首先将这些信息加工成计算机可以理解的原始信息后才 能进行处理,这是相当麻烦的事情。而语义w e b 的建立则将事情变得简单得多。 语义w e b ”“是对因特网本质的变革,它的主要开发任务是使数据更加便于 电脑进行处理和查找。其最终目标是让用户变成全能的上帝,对因特网上的海量 资源达到几乎无所不知的程度,计算机可以在这些资源中找到所需要的信息,从 而将万维网中一个个现存的信息孤岛,发展成一个巨大的数据库。语义w e b 将使 人类从搜索相关网页的繁重劳动中解放出来。因为网中的计算机能利用自己的智 能软件,在搜索数以万计的网页时,通过“智能代理”从中筛选出相关的有用信 息。而不像现在的万维网,只给用户罗列出数以万计的无用搜索结果。 语义w e b ( s e m a n t i cw e b ) 是由w w w 的创始人b e r n e r s - l e e 在2 0 0 0 年1 2 月提 出的,它是一种能让计算机理解的新型w e b 内容形式,从而引发对新的未知可能 性的探索。它的提出,立即引起了人们极大的兴趣,仅在2 0 0 1 年就召开两次关 第交 国防科学技术大学研究生院学位论文 r l “义w e b 的0 题学术讨论会。语义w e b 研究的主要目的就是扩展当前的w w w , 使得网络中所有信息都是具有语义的,是计算机能够理解和处理的,便于人和计 算机之间的交互与合作。因而其研究的侧重点就是如何把信息表示为计算机能够 理解和处理的形式,即带有语义。b e r n e r s l e e 给出了语义w e b 中的层次关系, 它主要基于x m l 和r d f r d f s ,并在此之上构建本体和逻辑推理规则,以完成基 于语义的知识表示和推理,从而能够为计算机所理解和处理。 在语义w e b 的研究中,知识表示、本体论、智能主体等都是其重要的研究内 容,它们都是不可分割的。在知识表示的研究中,描述逻辑( d e s c r i p t i o nl o g i c ) 是基于对象的知识表示的形式化工具,它是一阶谓词逻辑的可判定子集,能够提 供可判定的推理服务,并且具有语义特征。在经过二十多年的研究与发展之后, 描述逻辑已经基本趋于成熟并走向应用,它是知识表示的形式化工具。由d a r p a 组织提出的d a m l + o i l ( d a r p aa g e n tm a r k u pl a n g u a g e ,o n t o l o g yi n f e f e n c el a y e r ) 这种本体语言即是在描述逻辑的基础上建立的。但是描述逻辑主要还只能处理静 态的知识,在对动态世界的表示与推理上却无能为力,尤其是对智能主体的内部 知识库的表示显得乏力,也不能对服务的动态性与交互性进行刻画。动态逻辑最 开始是用来进行程序正确性验证的,后来人们也用它来对动态世界进行表示与推 理,有的也用在逻辑程序设计上。它们能对动作、状态、动态关系进行较好的刻 画,在静态知识上的表达力却很弱,且推理较为复杂。如何将动态与静态结合起 来,这是需要研究的关键问题。 1 2 3 信息集成叫l 的语义研究 信息集成是国内外信息研究领域普遍关注的技术,它关系到生产、生活等诸 多领域。信息集成是指在不同应用系统之间实现信息共享,这些应用系统分布在 网络环境下异构计算机系统中,它们所管理和操作的信息格式和存储方式各异, 实现信息集成就是要实现信息的转换( 不同信息格式和存储方式之间的转换) 、 信息源的统一、信息语义一致性的维护、异构环境下不同应用系统之间的信息传 送。各种组织机构为了更有效的组织和管理自身的活动,需要综合利用各种信息。 但通常由于这些信息源来自早期的信息子系统,信息共享有限,信息交换缺少和 信息的不致,导致了系统的严重缺陷。建立一个集成化信患系统,进行信息集 成,统一管理异构分布信息,提供系统中各管理活动层的平滑的信息流动,允许 多信息源间的信息自动交换与共享,保证信息源阃动态信息的请求服务。信息集 成的主要目标是面向网络环境下信息数字化,资源的有序化、结构化的组织和存 储及高效、准确的检索和利用。其研究领域及其主要内容包括:1 、数字对象的 组织与描述方法,信息内容及其体系结构,元数据及其描述模式,基于本体 第5 页 嚣茨秘学技术大学磷究生院学位论文 ( o n t o o g y ) 语义信息模型。2 、概念和内容检索,数据模型及其索弓i 技术,特 援信息的自动半自动抽鞭方法,异构数据库互操作性探讨等。信息集成中的语 义研究主要集中在信息语义的正确分析与理解、语义的表示和形式化、语义不一 致的检测和调解等方面。信息集成不仅要实现数据集成、模式集成、结构集成, 更要实现语义集成。只有消除不同信息源之间语义描述、语义理解的不致以后, 才能道有效的实现信息集成。语义集成关系至信息集成的正确性、可靠性和有效 性,是业内非常关心的问题。 信息源存在辩构的分布式环境中,通常其有不同的类型和操作;每个信患源 具有相对稳定的语言环境、相对稳定的模式,不阐信息源通常反映现实墩界的一 个侧面。它们之间在语法和语义上相互不能兼容溯。为了有效共攀这些信息,实 现它们之间的互操作,必须通过语义集成,给用户提供一个全局的、一致的语义 视图,以克服各个信息源之间在语义上的差辫。来自不同信意源的信息对箱间属 1 陡的描述存在不致住,专家可以很侠就识剐出它的语义,健是要计箅丰凡识嗣它 的语义憝相警困难的。谮义集成簧根据文字裔动谖弱所表这韵语义,然籍对不丽 倍患源的数据进行正确的区配袄射。这是将备种信意部门的数蠢结合在一起所需 簧克服静最大困滩之一。爵蘸,在语义集成t ,逶常采焉两种方法;第一种方法 为合成方法,该方法为用户摊供了一个关于倍意源鹃统一静全两语义视强,阕辩 在全局语义模式号蜀部诱义模式之闫建或汝瓣。该方法较努羹鏊解决7 语义模式之 麓静不一致畿,健是,当信惠深数薰潜长型一定程度黠,每增攘一个信患滚线莱 个绩怒潦懿内容发生交纯时,全羯语义攘式鹣维护内容将变熬褶当纛大。另一种 方法是建立涤义联邦数据瘁,为耀户提供若干是部谶义模式靛内容,以及语义镶 惠共事豹工具,| 穰翼孪出用户嶷行处理馕息源乏闼的语义誉一致。该方法谖义模式 驰维护工作蝴对越单,但是它要求用户对各个攘患源的内窭窍足够的理解。 论文所磺究的语义即信息集成融信息的语义,论文中诿义集成鳇方法是根掇 簇个数据库的局郝语义模式,由计算规题鳕处理信息源之间的语义不一致,它是 对上述第二秘方法的一弛改进。论文所住的工作溉悬通过对信息语义的分析和攒 述,从而能够检测和调解信息语义上的差异,形成语义一致的用户视图。 1 3 1 研究内容 论文主要研究内容如下 t 、信息语义维护模型 1 3 研究内容与关键技术 国防科学技术大学研究生院学位论文 论义研究_ r 脱订的些舆型的信息语义维护模型,以及语义不一致的检测和 调解方法,同时基于协调器的语义维护模型,结合几种语义维护方法的思想,提 出了一种改进的信息语义维护模型。该模型能够实现对数据库查询结果的语义不 一致检测和调解。 2 、信息语义的描述 信息语义一致性问题的解决关系到信息服务质量。信息系统必须提供给用户 一致的信息语义视图才能有效的为用户服务。语义集成可以形成信息语义一致的 视图,在进行信息语义集成时,首先要解决好信息语义描述的问题。只有在形式 化描述语义的基础上才能进行语义不一致的检测和调解。论文定义一种四元组的 形式来描述语义信息,以解决语义形式化描述的问题,同时为语义不一致的检测 和调解奠定了基础。 3 、语义不一致的检测 在语义形式化描述的基础上,研究衡量语义不一致的标准、语义不一致的识 别方法,以及语义不一致检测过程。为语义一致性问题的解决做必要的准备工作。 4 、语义不一致调解 在语义检测的基础上,把语义的不一致分类,根据不同的类型,对检测到的 语义不一致进行调解,解决数据库中常见的语义一致性问题。 1 3 2 论文的创新点 论文毛要神:以下几点有所创新: 1 、改进的俏息语义维护模型 论文改进了一种维护信息语义一致的模型。该模型是能够实现基于语义的查 询和信息语义集成。能够消除不同信息源的信息之间在表现形式上、语义层次上 和对象描述抽象程度上存在的语义不一致,从而把分布、异构、自治信息源中的 信息形成语义一致的用户视图。 2 、信息语义检测和调解方法 该方法在语义的形式化描述、语义不一致检测和语义调解等方面做了一定的 工作。语义是数据隐含的信息,语义必须经过形式化,才能够用计算机进行不一 致的检测和调解。论文综合了现有的语义检测和调解技术,提出了一个通过检测 描述语义的元数据来调解语义不一致的算法。 1 4 论文组织结构 全文分五章。 国防科学技术大学研究生院学位论文 第。章是绪论。介绍课题的背景、国内外研究现状、本文的研究内容和关键 技术等等。 第二章主要介绍了语义问题研究的一些原则和技术,包括语义不一致的表现 形式、典型的语义描述方法、语义不致的分类。 第三章主要介绍了论文改进的信息语义维护模型。从建立模型的目的、方法、 模型的工作过程、模型的环境、模型的输入输出等多个方面进行阐述。并与已有 语义维护模型进行对比,指出其优越性所在。 第四章是介绍了论文提出的语义调解方法。这一章主要包括语义形式化描述 方法,语义不一致的检测和语义调解方法三个方面的内容。其中语义调解方法用 于解决异构、分布数据库中存在的语义不一致,是信息语义维护模型的核心部分。 第三章和本章都是全文的重点。 第五章是结束语。总结了论文的工作,并指出需要进一步研究和改进的工作。 国防科学技术大学研究生院学位论文 , 第二章语义描述与语义一致性 数据是指档案、资料、事实、材料等为分析和推理而组织的信息,表现为适 合于计算机处理的形式。信息是通过施加于该数据上的某个约定,赋予当前这些 数据特定的含义。语义即信息的含义,是指信息所表达的显式或隐式的内容。语 义的不一致是通过语义的描述来体现的。本章主要介绍语义研究的原则和技术, 包括:语义的描述方法,语义一致性问题的表现形式和语义不一致的分类。最后 指出了信息组织中语义问题解决的重要性。 2 1 语义的描述 目前,国内外对于语义一致性问题研究比较广泛,语义的描述方式也林林总 总。语义的描述方式是发现闯题和解决问题的基础,不同的描述方式决定了要有 不同的语义不一致检测和处理方法。但每种方法都必须解决两个基本问题;第一, 判断两个对象是否存在语义不一致;第二,对具有语义不一致的问题进行处理, 即语义调解。它包括识别语义不一致和解决语义不一致的过程和技术。语义集成 是解决语义一致性问题实现信息语义共享的有效途径之一;它是比数据集成更高 一层,是面向信息语义的,着重解决信息的语义不一致,即由于现实世界中分类 定义的差异性导致的分类的差异性,描述的差异性、以及模式的差异性,从而保 “他川过程i l i 俏息的准确性以及在转换过程中语义的完整性和不损失性,达到最 大限度内彼此之间获取有用的数据。由于参与共事的不同部门对现实世界有不同 的理解,因此,在数据转换中不仅要根据数据的格式,还要考虑数据的语义。因 此,信息的理解、抽象,语义的表达,语义推理,动态语义都是相当重要的。 语义不一致检测和处理的前提是语义的描述,语义是一种极不确定的因素, 只有在有效的形式化描述之后才有可能为计算机所认识和接受,才能有处理语义 的方法和模型。下面介绍了现有主要的语义描述方法。 2 1 1 语义的概念图描述 概念图“3 是采用图的形式描述语言语义的逻辑系统概念,它植根于哲学、心 理学、语言学和人工智能等几个不同的领域,集各家之所长,是具有高度表达能 力的知识表示语言。概念图采用图的表示方法,直接把语言映射成概念图,各个 对象映射成概念节点,概念之间通过概念关系相互作用。概念关系和概念节点之 第9 贞 塑些塑鲨塑堕塑型鲨芝一 删用有i 向弧相连接。因此概念图是有限的连通有向图 l 、在概念图中,概念用方框表示,方框中填写的概念名称;概念关系用圆 圈表示,圆圈中填写概念关系名称。带箭头的连接线指出了相邻的概念节点之间 的关系。例如:“一只猫坐在地毯上。”可用图2 表示: 不。 图2 概念图 2 、概念关系表示概念之间的语义。概念关系和概念节点之间可用下图3 表 图3 概念关系和概念节点 其中箭头方向约定为概念l 的关系是概念2 。概念关系由一条或多条弧构成。 3 、为了便于概念图在计算机上的输入和打印,可把概念图线性化:用方括 号代替方框,用圆括号代替圆圈。本文用线性和非线性两种方法表示。如图2 可 表示如下: c a t 一( s t a , t ) 一 s it 一( 1 0 t ) 一 m a t 概念图在结构上近似于自然语言的语义表达形式,因而语义到概念图的映射 是比较简单的,概念图理论不但提供了内部特征、关系、结构,也提供了一些从 自然语言到概念图的映射原则,以指导使用者方便而正确用概念图表示自然语 。言。 语义分析是语言理解的重要组成部分,它把语法分析阶段得到的结构赋予一 定的含义,语法分析产生多种结构,必须经过语义分析剔除不正确结构。传统的 方法是面向任务的,把语义分析和语法分析结合起来产生一个解释器。典型的例 子是用于美国海军管理的l a d d e r 系统,用于构造语言接口的l i f f e r 及用于指导 学生诊断电子线路故障的s o p h i b ,它们是用含有语法的函数和语义信息的语义 方法写成的。但其语义信息是很特殊的:如果不重新构造语法规则,就不能被其 它系统所采用。而用概念图实现的语义解释器容易扩展,因为概念图是纯叙述型 的知识表示方法,容易增加新事实,不必修改原有事实。事实一旦存储便可以随 意使用,用概念图实现的语义分析器是通用的,不必修改即可用于其它系统。概 第1 顷 :塑鬯墅垫塑型堡鲨墼坠一 念图剔除不正确句法结构的方法之一是对正则图操作( 拷贝、限制、最大连接、 简化) 实现的。概念图系统的优点之一是用形成规则把规模n d , n 图连接n 来, 形成规模较大的概念图。可利用正则图实现语义解释器: 1 、每个对象都有一个正则图,对自然类型,正则图可能只是单个概念,对 动词、形容词和角色类型,可能为复杂的图。 2 、在语法分析树中的每个节点的正则圈都有一个概念作为该图的头。 3 、每个短语结构规则表示成x b a r 形式:x y x z ,其中x 是x 的一般化 形式,y ,z 为x 在左或右边可能的附加成份。 4 、为了形成x 的正则图,把y 、z 的头概念或者连到x 头概念上或连到x 的其它概念上,x 的头概念与x 的头概念是同一概念。 5 、当一个图的头概念有几种可能连到其它图上时,句法规则应指导连接。 6 、如果在一些句法规则下不能正常连接时,剔除该结构。 在上述原则中,一个图的头概念决定如何与其它图连接。对于动词与名词来 说,头概念是动词或名词的类型标号:而对形容词与副词来讲,头概念与名词或 动词有关,如图4 。 田4e a g e r 的正则图 上图用来表示形容词e a g e r ,副词e a g e r l y 和名词e a g e r n e s s 。对形容词来 讲其头概念为a n i m a t e ,对副词头概念为a c t ,对名词来讲该图的头概念为e a g e r 。 例如“j o h nw e n tt ob o s t o nb yb u s ”假设经过句法分析得:n pn o u n * “j o h n ”, v e r b * “w e n t ”,p pp r e p “t o ”,n o u n * “b o s t o n ”,p pp r e p “b y ”,n o u n * “b u s ”, p u n c “”。女表示每个短语的头概念。其中,j o h n ,b o s t o n ,b u s 等为只有一 个概念的图。把a n i m a t e 限制成p e r s o n ,v e h i c l e 限制成b u s ,l o c a t i o n 限制成 c i t y ,然后连接其它图,可以得到正确语义的概念图如下( p a s t 表示过去式) : ( p a s t ) 一 g o 一 ( a g n t ) p e r s o n :j o h n ( d e s t ) 一 c i t y :b o s t o n 国防科学技术大学研究生院学位论文 ( in h i ) 一 b u s 除此之外,通过概念图分析还可以排除语义错误。例如在图2 中,如果表达 的是“地毯坐在猫上”,语法上没有问题,但概念图是有向图,通过对动词“坐” 的约束,例如:“坐”的主语必须是人和动物,这样很容易发现语义错误。对于 复杂的语义概念,往往需要多个概念图结合在一起表示,这样就形成了语义网络。 概念图中语义的不一致反映在语义分析阶段,要解决语义一致性问题,就要 对概念的差异进行定性分析。对于不同的语义,概念图分析表示的结果也不同。 但不足之处是概念的划分需要较多人为因素,头概念的确定等也受到外因的影 响。 2 1 2 语义网络和语义树 信息是具有网状结构的,语义网络是用有向图表示信息。语义网络是由有向 图表示的三元组( 节点1 ,弧,节点2 ) 连接而成的。节点表示概念、事物情况 等,弧是有方向有标注的,方向体现主次,节点l 为主,节点2 为辅,弧上的标 注表示节点1 的属性或与节点2 间的关系,即 田5 语义网络的基本元素 皿然从懿 木i :看,信息具有网状结构,但具体到某一局部范围内,则极有可 能具有树形结构。即使不具有树形结构,也可以按下述规则将其拆成树形结构, 即若某一节点同时与两个节点相连,则分别在这两个节点下各表示一次。此时虽 然节点出现了重复,但并没有改变节点间的关系,且结构清晰。语义网络与相应 的语义树结构如图6 所示。 圈6 语义网络对应的语义树 国防科学技术大学研究生院学位论文 所州信息的语义树”1 组织方式,就是将所有获得的信息资源按照某种事先确 定的概念体系结构,分门别类地加以组织,用户通过浏览的方式逐层加以选择, 层层遍历,直到找到所需要的信息线索。树形结构表示在描述一个事物同其各部 分间的分类信息时具有优越性,这也正符合信息发展的层次性。如上图,这里节 点1 表示某学科的某一主题,表现形式为主题词,节点2 表示与节点1 具有r 关系的另一主题,或节点1 的属性值。节点间的关系r 是复杂的,多种多样的。 r 可以表示节点1 的属性、取值、分类等。对知识描述的精细程度取决于对所论 问题r 的分类程度,或知识单元的分割程度。比如属性关系,可以笼统地讲, 也可以细致地分,如大小属性、颜色属性、材料属性等。一般来讲,r 关系通常 表示下述三种情形: 1 、分类或侧面关系r 1 :将要讨论的主题分成几个方面或几个类别分别加以 论述。同语义网络中的p a r t o f 关系。 2 、列举或抽象与具体关系r 2 :如方法下的各种具体应用属此种关系。同语 义网络中的i ni n s t a n c eo f 关系。 3 、属性或结论取值关系r 3 :对方法的效用评价和主题性质论述属此种关系。 同语义网络中的i sa 关系。 在具体的语义分类关系下,可以将信息中关于事物的层次结构表示为语义树 形结构。主题间的层次关系可依主题词表做一参考。这里有两点需要考虑,一是 分类关系的精细度,即信息单元到底分到什么程度,应根据实际需要确定,正像 没有必要在可以使用“公斤”的地方而使用“克”一样,并且要保持标准的一致 件。如果已有1 i 题词条,就直接选取,否则按标准分出合适的节点来。另一点是 悔点i 日j 的连接应该遵循先直接后间接的原则,能直接连接的节点不再插入中间节 点。对某一语义信息而言,是否分出某一节点,应视信息所论及的深度而定。若 语义信息只是说明一个事实,则不必分出,若涉及内涵较为广泛,则应分出独立 关系来。这犀假设对其中的关系的讨论是充分的,结论是断言式的。事实上,语 义信息在对某一主题进行论述的时候,事先总有一个结构框架,先说明什么,后 说明什么,怎么说明,进而得出什么样的结论。把这个结构具体化理论化,就得 到我们这里所说的语义树形结构。总之,在标准的关系体系和一致的主题表示方 法下,按前述思想,一般可以将语义信息表示成语义树形的层次结构。 语义树虽然较好的反映了对象语义关系的层次结构,但是对于属性关系没有 详细区分。属性包括个体属性( 也称“语义属性”) 和关系属性( 也称“语义关 系”) 两部分。相对而言,语义属性描写一个词语本身固有的性质特征,语义关 系描述个词语跟其他词语发生关系的性质特征。值得强调的是,词语本身固有 的性质特征( 讲义属性) ,跟它的关系属性是紧密相连的。这就好比“男性,是 国防科学技术大学研究生院学位论文 某个人有的属性,而这个固有属性跟这个人可以具有“父亲”、“丈夫”等关 系属性之间是密切相关的。语义树把这两种属性都看成是同等关系,是其表达上 的一个盲区。 语义树节点在设计时要遵循三条原则:一是制定共性表达的优化分层准则, 二是考虑树中各节点关联性表达的便利,三是考虑网间关联性表达的便利。但第 二点与第三点往往相互矛盾,难以兼顾。高层节点的设计以照顾第二点为主,底 层节点反之,以相互补充。但基本概念语义树的设计采取了置底层于不顾的做法。 这样做是否会
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生物(湖南卷)(考试版及全解全析)-2026年高考考前预测卷
- 水风光一体化模块化工程建设落地方案
- 四年级数学下册整数简便运算练习题(整数运算律)(每日一练共7份)
- 儿童支气管哮喘规范化诊治方案
- 边缘计算节点补丁管理方案
- 设备点检前准备作业指导书
- 安全事件信息上报处理细则
- 检具校验频次稳定性提升计划
- 工程量核对复核技术交底资料
- 慢性阻塞性肺疾病稳定期管理
- 湖南省湘潭市2026年下学期七年级数学期中考试卷附答案
- 2026中考语文20篇必考文言文高频题及答案
- 2025浙江湖州市产业投资发展集团下属市飞英融资租赁有限公司招聘笔试历年参考题库附带答案详解
- 2024广州铁路职业技术学院招聘笔试真题参考答案详解
- 2026年注册安全工程师《安全生产管理》通关试题库含答案详解【A卷】
- 2026中国科技出版传媒股份有限公司石家庄分公司(科学出版社石家庄分公司)全职期刊编辑招聘20人建设笔试参考题库及答案解析
- GB/T 21238-2016玻璃纤维增强塑料夹砂管
- GB 5768.4-2017道路交通标志和标线第4部分:作业区
- 销售沙盘实战对抗演练课程《九招制胜》课程大纲
- JJG 915-2008 一氧化碳检测报警器检定规程-(高清现行)
- 6KV 开关柜检修作业指导书
评论
0/150
提交评论