(计算机系统结构专业论文)异构的语义web环境下ontology匹配问题的研究.pdf_第1页
(计算机系统结构专业论文)异构的语义web环境下ontology匹配问题的研究.pdf_第2页
(计算机系统结构专业论文)异构的语义web环境下ontology匹配问题的研究.pdf_第3页
(计算机系统结构专业论文)异构的语义web环境下ontology匹配问题的研究.pdf_第4页
(计算机系统结构专业论文)异构的语义web环境下ontology匹配问题的研究.pdf_第5页
已阅读5页,还剩127页未读 继续免费阅读

(计算机系统结构专业论文)异构的语义web环境下ontology匹配问题的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

申请上海交通大学博士学位论文 摘要 异构的语义w e b 环境下o n t o io g y 匹配问题的研究 摘要 互联网是人类到目前为止构建的一个最大的信息库 全世界的用 户都可以在w e b 上提供内容 当越来越多的人开始使用互联网时 w e b 上的数据开始以指数级规模增长 w e b 上的资源与服务也越来 越丰富 未来w e b 的发展方向将是一个人和计算机 共存 的世界 智能a g e n t 代表其所有者 通过与w e b 上的各种服务和软件a g e n t 的 交互 代替所有者在w e b 上执行各种复杂操作 现阶段w e b 上的绝大部分内容都是为人的阅读设计的 现有的 软件a g e n t 还不能很好地集成w 曲上的各种页面和服务 w e b 的简 单结构和匮乏语义极大地限制了w e b 的进一步发展和应用 传统w e b 很快就达到了它的临界点 语义w e b 成为了未来w e b 发展的方向 通过给w e b 数据附加语义 理论上o n t o l o g y 是一个语义w e b 上 数据互操作的很好的解决方案 然而 在实际的w e b 环境中 语义 异构或者说o n t o l o g y 异构仍然是语义w e b 上一个不可回避的问题 语义的方法把w e b 上数据的异构性简化为o n t o l o g y 之间的异构性 从而向机器之间的相互操作前进了一大步 但在达到最终目标之前还 存在着一个障碍 任何试图改进语义w e b 互操作性的努力都最终地 落在了协调不同系统之间的不同o n t o l o g y 上 这种协调通常能通过 申请上海交通大学博士学位论文 异构的语义w e b 聊 境t o n t o l o g y 匹配问题的研究 自动或者半自动地匹配o n t o l o g y 达到 这篇论文的工作就是为了解 决语义集成过程中必然会出现的o n t o l o g y 匹配问题 本文将主要研究在异构的语义w e b 的环境下 不同的o n t o l o g y 之间的互操作问题 为了达成o n t o l o g y 之间的相互操作 必须寻找 o n t o l o g y 之间的匹配关系 本文创造性地提出了基于数据实例分类的 匹配模型d i c m 使用多策略的文本分类技术 把o n t o l o g y 的匹配问 题归结为o n t o l o g y 数据实例的分类问题 为异构的语义互操作问题 提供了一条创新的可靠的解决途径 本文全面分析了o n t o l o g y 匹配 过程中可能出现的问题 然后对其中的三个问题进行了深入研究 包 括o n t o l o g y 概念结点的1 1 匹配 o n t o l o g y 属性的1 1 匹配以及 o n t o l o g y 元素的1 n 匹配和层次o n t o l o g y 的匹配问题 我们设计并实 现了一个实验平台s i m o n 这个基于多策略学习的o n t o l o g y 匹配系 统被成功地运用于欧洲委员会信息社会总司的e t e n 项目上 n o c 5 1 0 7 1 1 在该平台上 我们进行了大量的对比实验 实验结 果验证了本文提出的模型和算法的有效性 本文的贡献和创新性工作主要体现在以下几个方面 1 本文从对o n t o l o g y 的数据实例进行分类的角度构建o n t o l o g y 匹配 的体系结构 为异构的o n t o l o g y 匹配提供了一个创新的 可操作 的模型d i c m 在该模型的基础上 建立了一个基于o n t o l o g y 匹 配的语义互操作系统s i m o n 以及用于测试匹配系统的数据实例 库d i b o m 并在一些实际的应用领域中取得了良好的匹配效果 申请上海交通大学博士学位论文 2 本文使用多策略的匹配学习方法寻找o n t o l o g y 之间的匹配关系 我们的匹配学习方法尽量充分地并且分层次地挖掘数据实例当中 隐含的信息 包括实例名 实例的内部特征以及实例之间的关联 特征 我们在系统中除了使用通常的文本分类方法如朴素贝叶斯 分类器来挖掘数据实例内部的分类匹配信息外 系统还引入一阶 逻辑学习算法f o i l 来分析数据实例之间的语义联系 为了结合 单一分类器的结果 我们提出了创新的匹配委员会方法 最突 出的冠军b o c 方法 从而能够很好的累积单一分类器的正确匹 配 3 本文提出了一个完整的o n t o l o g y 匹配系统的范例 由于我们拥有 真实完整的数据实例库d i b o m 使得我们不但能解决o n t o l o g y 之间概念结点的匹配问题 并且可以进一步深入地研究o n t o l o g y 属性匹配问题 针对属性匹配的训练样本相对较少 对分类算法 的精确度要求高的特点 我们把具有高分类精度的s v m 算法引入 到了d i c m 模型中 针对不同的属性类型 我们提出了匹配搜索 器的概念 匹配搜索器以插件的形式存在 使得属性匹配系统高 度模块化 易于共享及扩充 针对特殊的对象类型属性 我们提 出了基于一阶逻辑的解决方案f o o p m 4 除了解决简单的o n t o l o g y 元素的1 1 匹配之外 本文还研究了 o n t o l o g y 元素的1 n 匹配和层次结构匹配这两类有代表性的复杂 匹配问题 对于o n t o l o g y 的1 n 匹配问题 我们提出了基于优化 m u l t i m a t c h 方法 对于层次结构的o n t o l o g y 结点匹配问题 i i i 申请上海交通大学博士学位论文异构的语义w 曲环境下o n t o l o 科匹配问题的研究 我们提出了特征属性集合数据实例划分模型f p s d i d 和扁平化的 层次o n t o l o g y 匹配算法f h o m 关键词 语义w e b 信息互操作 o n t o l o g y 匹配 复杂匹配 数据实 例分类器 多策略学习 申请上海交通大学博士学位论文 r e s e a r c h o no n t o l o g ym a t c h i n gi n h e t e r o g e n e o u ss e m a n t i cw e be n v i r o n m e n t a b s t r a c t i n t e r n e ti sn o wo n eo ft h e g r e a t e s th u m a ni n f o r m a t i o n b a s e w o r l d w i d eu s e r sc a np r o v i d ec o n t e n to nt h ew e b w h e nm o r ea n dm o r e p e o p l eb e g a nt o u s et h ei n t e r n e t gt h ed a t ao nt h ew e bg r e wa ta n e x p o n e n t i a l r a t ea n dw e br e s o u r c e sa n ds e r v i c e sh a v eb e c o m e i n c r e a s i n g l yd i v e r s e t h ef u t u r ed e v e l o p m e n td i r e c t i o no fw e bi st h e w o r l dw h e r eh u m a nb e i n ga n dc o m p u t e rc o e x i s t s o f ta g e n to nb e h a l fo f i t so w n e ri n t e r a c t sw i t ho t h e rs e r v i c ea n da g e n tt h r o u g ht h ew e ba n d e x e c u t e sv a r i o u sc o m p l e xo p e r a t i o n s o nt h ew e ba tt h i s s t a g em o s to ft h ec o n t e n t sa r ed e s i g n e df o r r e a d i n go f p e o p l e a v a i l a b l es o f t w a r ea g e n tc a n n o ty e ti n t e g r a t et h ep a g e s a n ds e r v i c e so nt h ew e b t h es i m p l es t r u c t u r ea n da b s e n ts e m a n t i co f w e b g r e a t l yr e s t r i c tt h ef u r t h e rd e v e l o p m e n ta n da p p l i c a t i o no nt h ew e b t r a d i t i o n a lw e bq u i c k l yr e a c h e di t sc r i t i c a lp o i n t t h es e m a n t i cw e b b e c o m e st h ef u t u r eo f w e b d e v e l o p m e n t a d d i n gs e m a n t i c st od a t ao n t h ew e b o n t o l o g yi sag o o ds o l u t i o nf o r d a t ai n t e r o p e r a t i o n h o w e v e r o nt h er e a lw e be n v i r o n m e n t o n t o l o g y 申请上海交通大学博士学位论文 异构的语义w 曲环境下o n t o l o g y 匹配问题的研究 h e t e r o g e n e i t yi ss t i l la nu n a v o i d a b l ei s s u e b e c a u s es e m a n t i cm e t h o d s s i m p l i f yh e t e r o g e n e i t yb e t w e e n d a t aa sh e t e r o g e n e i t yb e t w e e no n t o l o g y i t i sam a j o rs t e pf o r w a r dt oi n t e r o p e r a t i o nb e t w e e nm a c h i n e s b u tt h e r ei s s t i l la no b s t a c l ef r o m f i n a l a i m a n ya t t e m p t s t o i m p r o v e t h e i n t e r o p e r a b i l i t yo ft h es e m a n t i cw e bu l t i m a t e l yr e l yo nt h ec o o r d i n a t i o n b e t w e e n d i f f e r e n t o n t o l o g i e s o nt h e d i f f e r e n t s y s t e m s s e m i a u t o m a t i c a l l ym a t c h i n go fo n t o l o g yc a na c h i e v es u c h k i n do f c o o r d i n a t i o n t h ew o r ko ft h i sp a p e ri st os o l v et h eo n t o l o g ym a t c h i n g p r o b l e mt h a tw o u l do c c u ri n e v i t a b l y o nt h ep r o c e d u r eo fs e m a n t i c i n t e g r a t i o n t h i sp a p e rw i l lf o c u so nr e s e a r c h e so fi n t e r o p e r a t i o n b e t w e e n d i f f e r e n to n t o l o g i e si nt h eh e t e r o g e n e o u ss e m a n t i cw e be n v i r o n m e n t t o a c h i e v ei n t e r o p e r a t i o nb e t w e e no n t o l o g i e s i ti sn e c e s s a r yt of i n do u tt h e m a t c h i n gr e l a t i o n sb e t w e e no n t o l o g i e s t h i sp a p e rc r e a t e s am a t c h i n g m o d e l d i c m w h i c hb a s e do nt h ec l a s s i f i c a t i o no f d a t ai n s t a n c e s i tu s e s t h em u l t i p l e s t r a t e g yt e x tc l a s s i f i c a t i o nt e c h n i q u e st om a po n t o l o g y d i c mp r o v i d e sar e l i a b l ei n n o v a t i v em e t h o dt os o l v et h ei n t e r o p e r a t i o n p r o b l e mb e t w e e nh e t e r o g e n e o u so n t o l o g i e s i n t h i sp a p e rw ed i da c o m p r e h e n s i v ea n a l y s i sa b o u tt h ep r o b l e m st h a tm i g h t a r i s ei nt h ep r o c e s s o fm a t c h i n go n t o l o g y t h e nt h r e eo ft h e mh a v eb e e ns t u d i e di nd e p t h i n c l u d i n gt h e1 1m a t c ho fo n t o l o g yc o n c e p tn o d e sa n d a t t r i b u t e sa sw e l l a st h ec o m p l e xm a t c h i n go fo n t o l o g ye l e m e n t s w ed e s i g n e d a n d 申请上海交通大学博士学位论文 a b s t r a c t i m p l e m e n t e da ne x p e r i m e n t a lp l a t f o r ms i m o n a m u l t i s t r a t e g yl e a r n i n g b a s e do n t o l o g ym a t c h i n gs y s t e m w h i c hh a sb e e ns u c c e s s e di n t e g e r a t e dt o t h ee t e np r o g r a m m ec 51 0 7 11o fd gi n f o r m a t i o ns o c i e t yo fe u r o p e a n c o m m i s s i o n w ec a r r i e do u tc o m p r e h e n s i v ee x p e r i m e n t s o nt h e p l a t o f o r m t h ee x p e r i m e n t a lr e s u l t sh a v et e s t i f i e dt h ee f f e c t i v e n e s so f o u r m o d e l sa n da l g o r i t h m s t h em a i nc o n t r i b u t i o n so f t h et h e s i sc a nb es u m m a r i z e da sf o l l o w s 1 f r o mt h ep o i n to fv i e wo fd a t ai n s t a n c ec l a s s i f i c a t i o n w ec r e a t e da n i n n o v a t i v e o p e r a t i o n a lm o d e l i e d i c m f o ro n t o l o g ym a t c h i n gi n t h i sp a p e r o nt h eb a s i so ft h em o c e 1 w ee s t a b l i s h e dam u l t i s t r a t e g y o n t o l o g ym a t c h i n gs y s t e m i e s i m o n w ea l s oc r e a t e dad a t a i n s t a n c eb a s ef o ro n t o l o g ym a t c h i n g i e d i b o m u s e df o rt e s t i n go f s i m o n w eh a v em a d es o m eg o o dr e s u l t si np r a c t i c a ld o m a i n 2 t h i sp a p e ru s e sav a r i e t yo fs t r a t e g i e st ol e a r nt h eo n t o l o g ym a t c h i n g o u rm a t c h i n gl e a r n i n gm e t h o d sf u l l yu s ea n de x p l o r et h ed i f f e r e n t l e v e l so fi m p l i e di n f o r m a t i o ni nd a t ai n s t a n c e si n c l u d i n gn a n l eo fd a t a i n s t a n c ea n di n t e r n a lf e a t u r e si nd a t ai n s t a n c ea sw e l la se x t e r n a l r e l a t i o n sa m o n gd a t ai n s t a n c e s i na d d i t i o nt ot h eu s u a lt e x t c l a s s i f i c a t i o nm e t h o d sl i k en a i v eb a y e s i a n t h es y s t e m a l s o i n t r o d u c e df i r s to r d e rl o g i cl e a r n i n ga l g o r i t h m i e f o i l t oa n a l y z e d a t as e m a n t i cl i n k sa m o n gd a t ai n s t a n c e s w ei n n o v a t i v e l yu s eb o c m e t h o d o n ek i n do fm a t c h i n gc o m m i t t e e t oc o m b i n et h er e s u l t so f 申请上海交通大学博士学位论文 异构的语义 c b 环境下o r i l 0 i o 科匹配问题的研究 s i n g l ec l a s s i f i e ra n da c c u m u l a t et h ec o r r e c tm a t c h 3 t h i sp a p e rp r e s e n t sac o m p l e t eo n t o l o g y m a t c h i n gs y s t e mm o d e l b e c a u s eo fr e a la n dc o m p l e t ed a t ai n s t a n c e b a s e i n c l u d i n gt h e m a t c h i n go fc o n c e p tn o d e s y s t e mc a na l s os t u d yt h ep r o p e r t y m a t c h i n gi s s u e a c c o r d i n gt ot h ep r o b l e mo far e l a t i v e l ys m a l ls a m p l e o fp r o p e r t ym a t c h i n g t h eh i g h e rt h ea c c u r a c yo ft h ec l a s s i f i c a t i o n a l g o r i t h mc h a r a c t e r i s t i c s w ei n t r o d u c e dt h es u p p o r tv e c t o rm a c h i n e w h i c hh a st h eh i g hc l a s s i f i c a t i o na c c u r a c y t oo u rd i c ms y s t e m a c c o r d i n gt ot h ei s s u eo fd i f f e r e n tt y p e so fp r o p e r t y w ep r o p o s e dt h e c o n c e p to fm a t c h i n gs e a r c h e r w h i c hi so n ek i n do fm a t c h i n gp l u g i n m a k i n gp r o p e r t ym a t c h i n gs y s t e mh i g h l ym o d u l a ra n de a s i l ys h a r i n g a n de x p a n s i o n f o ra s p e c i a lt y p eo fo b j e c tp r o p e r t y w eh a v e p r o p o s e daf o o p m s o l u t i o nb a s e do nf i r s t o r d e rl o g i c 4 i na d d i t i o nt o a d d r e s s i n gt h es i m p l e 1 1 m a t c h i n go fo n t o l o g y e l e m e n t s w ea l s oe x a m i n et h e1 nm a t c h i n go f o n t o l o g ye l e m e n t sa n d h i e r a r c h i c a lm a t c h i n gp r o b l e m w ep r o p o s ea l l o p t i m i z e ds e a r c h i n g m e t h o d i e m u l t i m a t c h f o rt h e 1 nm a t c h i n g f o rh i e r a r c h i c a l o n t o l o g yn o d em a t c h i n g w ep r o p o s e dt h ef p s d i dm o d e la n dt h e l a y e r m a t c h i n ga l g o r i t h mf h o m k e yw o r d s s e m a n t i cw e b s e m a n t i ci n t e r o p e r a t i o n o n t o l o g ym a t c h i n g c o m p l e xm a t c h i n g d a t ai n s t a n c ec l a s s i f i e r m u l t i p l e s t r a t e g yl e a r n i n g 上海交通大学 学位论文原创性声明 本人郑重声明 所呈交的学位论文 是本人在导师的指导下 独立 进行研究工作所取得的成果 除文中已经注明引用的内容外 本论文不 包含任何其他个人或集体已经发表或撰写过的作品成果 对本文的研究 做出重要贡献的个人和集体 均已在文中以明确方式标明 本人完全意 识到本声明的法律结果由本人承担 学位论文作者签名 豸叙 日期 妙7 年够月7 日 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留 使用学位论文的规定 同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版 允许 论文被查阅和借阅 本人授权上海交通大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索 可以采用影印 缩印或扫描等复制 手段保存和汇编本学位论文 保密口 在一年解密后适用本授权书 本学位论文属于 不保密匦 请在以上方框内打 4 学位论文作者签名 滔乎去 日期 伽刁年叶月口乙日 艚黼签名扬老援 日期彳枷7 年年月艺日 1 申请上海交通大学博士学位论文第1 章绪论 第1 章绪论 1 1w e b 对语义的需求 互联网是人类到目前为止构建的一个最大的信息库 它包含了各种文档和多 媒体资源 几乎涵盖了人们能想到的一切 w e b 上的这些数据对每一个上网的 人来说都是即时可得的 w e b 的成功很大程度上归功于它的非中心化设计 w e b 页面储存在不同的主机上 每个文档都指向其他位于同一或者不同主机上的文 档 因此 全世界的用户都可以在w e b 上提供内容 当越来越多的人开始使用 互联网时 w e b 开始以指数级规模增长 然而 w e b 的规模已经成为一个问题 到2 0 0 5 年1 月截止 w e b 上可索引 的页面总数已经超过1 1 5 亿个 1 由于信息量如此巨大 查找到有用的信息越来 越困难 虽然搜索引擎 例如o o o g l e 2 和目录结构 例如y a h o o l 3 能对 我们有一些帮助 但是他们还远没有达到完美的程度 对许多用户来说 找到 正 确 的文档就像大海捞针一样 不但w e b 上的数据与日俱增 w e b 上的资源与服务也越来越丰富 w e b 不 再仅仅是一个文本和图片的仓库 而是越来越成为各种服务的提供者 人们使用 网络的目的不再仅仅是找到特定的文档 而是希望在w e b 上完成更复杂的任务 包括资源搜索服务 信息提供服务 电子商务应用等 对于未来w e b 的发展方向 很多人想象的是这样一种情景 它将是一个人 和计算机 共存 的世界 在越来越复杂的w e b 世界中 出现了许多智能的a g e n t 它们代表其所有者 通过与w e b 上的各种服务提供者和其他a g e n t 的交互 代替 其所有者在w e b 上执行各种复杂操作 4 对一些人来说 这只是一个类似于科幻小说的场景 他们认为目前各种实现 基础还不成熟 真正的实现似乎是很久以后的事情 人们之所以这样认为 其中 的一个重要原因就是现在的软件a g e n t 还不能很好地集成w e b 上的各种页面和服 务 现有w e b 的绝大部分潜能还没有释放出来 这其中最主要的障碍就是现阶 段w e b 上的绝大部分内容都是为人的阅读设计的 它们对于人来说是一目了然 的 而对于机器来说则是难以理解的 w e b 页面虽然包含了很多特殊的面向机 器的信息 例如告诉计算机怎样显示一段文本 点击一个链接后转向哪里 但是 w e b 页面里没有包含任何有助于机器确定这段文本是何含义的信息 为了智能 申请上海交通大学博士学位论文 异构的语义w 出环境下o n i o l o 甜匹配问题的研究 地处理一个页面 计算机必须懂得每段页面文本的含义 但是就目前来说 自然 语言处理仍然是一个没有解决好的问题 想要达成语言级别的机器理解在现阶段 来说仍然是不现实的 w e b 的发展得益于其结构的简单和语义的简练 只限于 r r r p 和h t m l 这样 的协议和语言 使得软件开发者 信息提供商和用户都能很容易地访问这种新的 媒体 而在w e b 急速发展以后 人们逐渐发现 这种结构简单和语义匮乏极大地 限制了w e b 的进一步发展和应用 传统w e b 很快就达到了它的临界点 一些研究 人员和w e b 的开发者提议 用某种能清晰地表现w c b 页面语义的语言来增强现有 的w e b 11 2 1 w e b 的发明者t i mb e m e r s l e e 提出彩z w e b 的概念来描述这个发展 方向 他提出了如下的语义w e b s e m a n t i cw e b 的定义 5 并展望s e m a n t i cw e b 将是下一代的w e b 语 义w 西不是易铃一个单独豹w e b 葡是现有释西的扩曩 在语哭w e b 墅豹信 惑都有良好定义的含义 使得机器和久能够更妊的协商i 作 在语义w e b 中的世界里 各种场景都可以归纳为软件a g e n t 之间数据的相互操 作 1 1 3 1 为了完成预先设置的任务 智能a g e n t 必须能够相互交流和理解意思 他们必须广告他们的能力 并且能够识别其他a g e n t 的能力 他们需要对其他a g e n t 的交流动作作出识别 翻译和反应 a g e n t 相互之间交流的时候 他们需要通 过某种方法来保证一个a g e n t 所说的意思能被正确地传达到其他a g e n t 1i s 在现 实中 a g e n t 需要在一个十分广泛的世界当中交流 每个a g e n t 不能保证其他a g e n t 使用相同的术语 即使使用相同的术语 也不能保证这些术语意味着相同的事物 我们可以采用语义的方法来解决这种互操作的问题 在这里 o n t o l o g y 本 体 起着关键的作用 1 1 4 1 o n t o l o g y 作为哲学的一个分支 是一门研究类别和结 构的科学 研究的范围包括现实世界每一领域中的各种对象 属性 事件 过程 和关系 哲学概念的o n t o l o g y 试图寻找一种能穷尽所有类型的实体的分类结构 6 在信息系统领域 看待o n t o l o g y 的角度则更注重实用性 o n t o l o g y 被看作是 领域知识的一种共识 同样的 一个从工程角度定义的o n t o l o g y 概念也经常为信 息系统所采用 而且成为最经常引用的一个定义 o n t o l o g y 一含龙乒的楞岔 纪采笏膨一爹形苟纪膨 游磅馓规衙7 概念化系统 指的是通过识别现实世 界中各种现象的所有相关概念而形成的一个抽象的模型 清晰的 意味着概念 2 申请上海交通大学博士学位论文 第l 章绪论 使用的类型和这些概念上的约束都是被清晰地定义的 形式化的 指的是 o n t o l o g y g 须是机器可读的 共享的 反映 o n t o l o g y 应该捕获了那些为整个社 区所接受的共识性的知识 语义方法解决w e b 上互操作问题的基本思想是把领域概念和其间的语义联 系用清晰的描述编码到o n t o l o g y 当中 o n t o l o g y 是实现语义w e b 中相互操作的 关键因素 5 1 o n t o l o g y 对语义w e b 来说是最核心的部分 这是因为它能够让各 种应用程序相互通讯的时候对所使用的术语达成一致 对于发送方 它详细地规 定了主域中每个消息的构成形式 对于接受方 它提供了合适的解释上下文 有 助于理解消息 语义w e b 上的a g e n t 在相互交互的时候 会在数据交换之前发起 一个语义交换的过程 如果a g e n ta 发送一个消息到a g e n tb 它将随之发送一个 此消息对应的o n t o l o g y 术语的指针 a g e n t b 就可以在a g e n t a 的o n t o l o g y 当中 查找这个术语的意思 一旦他们达成消息的共识 他们就可以顺畅地交换数据了 因此 如果o n t o l o g y 能为各方所接受的话 它就能有效地改进语义w e b 上不同 组织和领域的信息系统之间的互操作性 通过给w e b 数据附加语义 理论上o n t o l o g y 是对数据互操作的一个很好的解 决方案 然而 在实际的w c b 环境中 语义异构或者说o n t o l o g y 异构仍然是语义 w e b 上一个不可回避的问题 对于是否存在一个单一的 全局共享的 为所有参 与者都认同的o n t o l o g y 人们一直以来就是存在争议的 很明显 o n t o l o g y 也面 临着任何信息系统都存在的异构性问题 有时候更加严重 8 从而严重地阻碍 了语义w e b 的进一步发展 语义的方法把w e b 上数据的异构性简化为o n t o l o g y 之 间的异构性 从而向机器之间的相互操作前进了一大步 但在达到最终目标之前 还存在着一个障碍 任何试图改进语义w e b 互操作性的努力都最终地落在了协调 各种系统之间的不同的o n t o l o g y 上 这种协调通常能通过手工地或者 半 自动 地匹配o n t o l o g y 达到 这篇论文的工作就是为了解决异构的语义w e b 环境下必然 会出现的o n t o l o g y 匹配问题 1 2 关于问题 语义w e b 通过使用基于x m l 的统一的形式化语言 用o n t o l o g y 把知识组 织起来 为各种资源提出了一种标准化的语义标记方法 从这个角度来说 语义 w e b 必须能在由不同的实体管理的分布式信息资源上 完成回答查询 全局计算 申请上海交通大学博士学位论文 异构的语义 b 环境下o n t o l o 匹配问题的研究 等复杂任务 要达到这些目标并不是一件容易的事情 语义w e b 为我们提供了 一个引人注目的前景 但是它也带来了许多困难和挑战 选择何种形式化方法及 其确切定义 各种应用互操作问题 因为维护一个世界范围的中心化o n t o l o g y 是不可能的 鲁棒性问题 因为细小的错误绝不能导致严重的后果 技术的可度 量性问题 必须在合理的时间内完成任务 因为整个w e b 上存在着海量的分布 式数据 即使只涉及到专门的领域 每个o n t o l o g y 也可能包含很多语义概念 在上面这些列出的挑战中 其中的一项关键工作就是比较和匹配不同的 o n t o l o g y 由于w e b 发展的非中心化特性 o n t o l o g y 的数量将是可观的 在这些 o n t o l o g y 中 很多都将描述相似的领域 它们使用的是不同的术语集 但又一定 程度上存在重叠的情况 为了集成源自不同o n t o l o g y 的数据 我们必须首先知 道这些o n t o l o g y 元素间的语义对应情况 为了达成o n t o l o g y 的集成 必须同时集成o n t o l o g y 的语法和语义部分 语 法问题是相对容易解决的 在语义w e b 社区很多人积极参与了这方面的工作 已经对语法问题达成了很广泛的一致 例如w 3 c 组织的推荐的w e bo n t o l o g y l a n g u a g e o w l 标准 9 1 即使存在着o n t o l o g y 的不同表现形式 它们之间的 转换也是相对容易的 毕竟o n t o l o g y 的语法形式是有限的 例如 文献 1 0 就描 述了一种定义机制 能够将o n t o l o g y 移植到不同的表示系统上 以一种标准谓 词逻辑写成的定义能够由一个称作o n t o l i n g u a 的系统翻译成其他特殊的表示形 式 包括基于框架的语言和关系型语言 语义w e b 上数据交互中深层次的未解决的问题是那些与语义相关的部分 要 匹配两个o n t o l o g y 跏l 就需要判断蜊丁韵元素s 和f 之间的匹配关系 也就是判 断s 和t 是否指向现实世界的同一概念 这个问题之所以具有挑战性在于以下几个 原因 匹配涉及的元素的语义只能从小部分信息源推导出来 这些信息源包括数据 产生者 文档 相关的表示模式和数据 从数据产生者和文档抽取语义信息通常是很困难的 经常发生的情况是 数 据产生者早已离开 退休甚至忘记以前建立的o n t o l o g y 了 而文档通常是粗 略的 不正确的和过期的 在有些情况下 例如与远程的w e b 资源交互数据 数据产生者和文档是得不到的 4 申请上海交通大学博士学位论文 第1 章绪论 因此要匹配o n t o l o g y 元素 典型地是依据撰对 s c h e m a 和巍挥 d a m 这些依据包括元素名字 类型 数据值 模式结构和集成约束等 然而 这 些依据通常是不可靠的 例如 同名的两个元素 比如a r e a 可能指向两个 不同的现实实体 既可以指位置也可以指面积 相反的情况也同样存在 不同名字的两个元素 例如f i l m 和m o v i e 可以指向同一个现实实体 电影 以上的依据通常是不完整的 例如 名字c o n t a c t a g e n t 只是指出了这个元素 是和a g e n t 相关的 它并没有提供足够的信息来判断这个这个联系的特性 它是指代a g e n t 的电话号码还是名字 为了判断o n m l o g ys 的元素s 是否匹配o n t o l o g yt 的元素t 必须检查r 的 所有其他元素来判断是否有比f 更匹配于s 的元素 这种匹配的全局的特性 显著的增加了匹配处理的耗费 更大的困难在于 对于不同的应用 匹配通常是主i 黝 一个应用可能认为 m o v i e s t y l e 匹配m o v i e g e n e 另外一个应用可能不这样认为 因此 用户必 须参与到匹配处理的过程中 有时候 一个人的判断可能太主观了 因此必 须组成委员会来决定正确的匹配1 1l 到目前为止 o n t o l o g y 之间的匹配大部分仍然是由手工完成的 由于上述问 题的存在 o n m w g y 匹配是一个劳动密集的 耗时的 昂贵的和易出错的过程 1 2 1 3 语义w e b 上应用之间的互操作严重地依赖于它们对应的o n t o l o g y 之间的 匹配 因此 语义集成即o n t o l o g y 匹配问题已经成为在语义w e b 上部署各种应 用系统时的一个关键瓶颈 1 3o n t o l o g y 匹配问题的研究现状 随着语义w e b 相关工作的展开 研究人员越来越意识到o n t o l o g y 匹配问题 的重要性 开始逐步研究这个问题的相关解决方案 在这一节中 我们将针对现 有的自动o n t o l o g y 匹配模型和工具提出一个研究现状的调查 o n t o l o g y 作为结 构化数据的一种表现形式 其匹配问题可以归纳为表示匹配的一种 与其他形式 的表示匹配问题有着紧密的联系 因此我们首先介绍了o n t o l o g y 匹配问题的历 史渊源 我们其次介绍了o n t o l o g y 的异构性的起源 这种异构性体现为o n t o l o g y 之间的各种失配 再次 为了以后讨论的方便 我们统一了在o n t o l o g y 匹配各 申请上海交通大学博士学位论文 异构的语义u e b 环境下0 n t o i o 科匹配问题的研究 种文献中出现的相关概念和术语 对于o n t o l o g y 的自动匹配问题 也有多种方 法出现在各种文献当中 我们为此详细介绍了几个典型的o n t o l o g y 匹配系统 然后对这些方法进行了总结和对比分析 从多个角度比较了它们的优缺点 最后 总结了文献研究的结果 分析提出了若干o n t o l o g y 匹配系统需要达到的目标 指出了我们研究的发展方向 1 3 io n t o l o g y 匹配问题的渊源 o n t o l o g y 匹配 语义匹配 源自于表示匹配问题 需要语义匹配的各种应用 的关键共同点就是它们都使用结构化的表示形式 例如 关系数据库的模式 x m l 的模式和o n t o l o g y 等等 来编码数据 而且它们使用一种以上的表示形式 这样一来 这些应用就必须建立不同表达形式之间的语义映射 从而操作数据 1 4 1 1 1 5 1 或者对跨形式的数据查询做出翻译 长久以来 出现了很多语义匹配方 面的应用 而且一直是数据库 t l a i 领域的研究热点 最早的这方面的一种应用就是关系数据库的模式臻隽苁把一系列的模式合并 成一个全局的模式 1 4 1 6 1 7 1 8 这个问题从8 0 年代就成为研究的对象 语义 匹配问题出现在把各个局部的数据库合并成一个全局的数据库的过程中 这其中 必然涉及到怎样从各个不同用户的模式设计出一个单一的模式的问题 这个集成 过程需要建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论