(计算机应用技术专业论文)基于本体的deep+web模式匹配技术研究.pdf_第1页
(计算机应用技术专业论文)基于本体的deep+web模式匹配技术研究.pdf_第2页
(计算机应用技术专业论文)基于本体的deep+web模式匹配技术研究.pdf_第3页
(计算机应用技术专业论文)基于本体的deep+web模式匹配技术研究.pdf_第4页
(计算机应用技术专业论文)基于本体的deep+web模式匹配技术研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的deep+web模式匹配技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i 一 苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属在年_ 月解密后适用本规定。 非涉密论文田 论文作者签名: 墨幽 e l期: 皿 芝:臣 导师签名: f 仁:丝:日期:地! 竺:笸:匠 - 基于奉体的d e e pw e b 模式匹配技术研究 中文摘要 基于本体的d e e pw e b 模式匹配技术研究 中文摘要 随着信息技术及相关产业的发展,网上在线数据库已成为一个巨大的信息资源仓 库,这些在线数据库信息不能被传统搜索引擎检索,只能通过向接口提交查询来获取, 这些信息被称为d e e pw e b 。为了让用户能快速、准确地找到所需的d e e pw | e b 资源, 我们需要将d e e pw e b 信息进行集成,并提供检索服务。 模式匹配技术贯穿d e e pw 曲信息集成的整个过程,本文首先对d e e pw e b 及模式 匹配技术进行了深入的研究,其次针对d e e pw e b 的查询接口集成、结果语义标注过 程中的模式匹配问题提出了一种基于本体的解决方法,最后对d e e pw e b 接口集成原 型系统进行了初步分析和设计。 本文主要研究的工作包括: ( 1 ) 首先介绍了 d e e pw e b 和本体的相关知识,然后对传统的模式匹配技术和面 n d e e pw e b 的模式匹配技术进行了深入分析与比较。 ( 2 ) 提出了基于本体的面r 甸d e e pw e b 接1 3 集成的模式匹配方法,该方法将本体 引入到了模式匹配过程中,基于标签、数据域、控件名称三种匹配思想,结合相似度 合并策略及最大相似度优先算法,解决了接口集成中的模式匹配问题。 ( 3 ) 提出了基于本体的面 甸d e e pw | e b 结果语义标注过程的模式匹配方法,该方 法将本体作为全局模式引入,有效解决了各个局部接口语义异构的问题。同时,本文 提出在本体词汇、接口模式和结果模式之间进行交叉验证,用于提升标注的准确率。 ( 4 ) 本文最后设计和实现了一个面f 句d e e pw e b 的接口集成原型系统。 本文还对文中提出的方法和技术进行了实验设计,通过对实验结果的分析进一步 验证了本文提出的技术方法是行之有效的。 关键字:d e e pw e b ,本体,模式匹配,数据集成,语义标注 作者:吕越烽 导师:伏玉琛 a b s t r a c tr e s e a r c ho nt e c h n o l o g yo fd e e pw e bs c h e m am a t c h i n gb a s e do no n t o l o g y r e s e a r c ho nt e c h n o l o g yo fd e e pw e bs c h e m a m a t c h i n gb a s e do no n t o l o a b s t r a c t w i t ht h ed e v e l o p m e n to ft h ei n f o r m a t i o nt e c h n o l o g ya n di t sr e l e v a n ti n d u s t r i e s ,w e b d a t a b a s eh a sb e c o m eal a r g ei n f o r m a t i o nr e s o u r c ed e p o s i t o r y t h e s ei n f o r m a t o nc a nn o tb e s e a r c h e db yt h et r a d i t i o n a ls e a r c he n g i n e u s e r sh a v et of i uo u tf o r m sa n ds u b m i tq u e r i e st o o b t a i nt h ed a t a w ec a l lt h e s ei n f o r m a t i o na sd e e pw e b i no r d e rt oh e l pu s e r st of i n do u t w h a tt h e yw a n t ,w en e e dt oi n t e g r a t et h ed e e pw e bi n f o r m a t i o na n dp r o v i d ei n f o r m a t i o n r e t r i e v a ls e r v i c e s s c h e m am a t c h i n gt e c h n o l o g yi sn e e d e di nt h ew h o l ep r o c e s so fd e e pw e b i n f o r m a t i o ni n t e g r a t i o n t h i sp a p e rf i r s t l yf o c u s e so nt e c h n o l o g yo fd e e pw e ba n ds c h e m a m a t c h i n g ,a n dt h e np r o p o s e sa no n t o l o g y - b a s e d s c h e m am a t c h i n gm e t h o dt os o l v e p r o b l e m so fi n t e r f a c ei n t e g r a t i o na n dd a t aa n n o t a t i o n f i n a l l yd e e pw e bo b j e c t - l e v e lq u e r y i n t e r f a c e si n t e g r a t i o na r c h e t y p a ls y s t e mi sp r e s e n t e d t h em a i nw o r ki ss u m m a r i z e da s f o l l o w s : ( 1 ) f i r s t l y , i n t r o d u c er e l e v a n tk n o w l e d g eo fd e e pw e b a n do n t o l o g y , t h e na n a l y s i n g a n dc o m p a r i n go ft h et r a d i t i o n a ls c h e m am a t c h i n ga n dd e e pw e bs c h e m am a t c h i n g ( 2 ) p r o p o s ea no n t o l o g y b a s e ds c h e m am a t c h i n gm e t h o df o rt h ed e e pw e bi n t e r f a c e s i n t e g r a t i o n t h em e t h o du s e so n t o l o t yt oh e l pi m p r o v et h ep r e c i s i o no fs c h e m am a t c h i n g r e s u l t s ,b a s e do nt h et h r e em e t h o d so fl a b e l i n g ,v a l u ed o m a i na n dn a m eo fc o n t r o l ,u s e st h e s i m i l a r i t yc o m b i n a t i o ns t r a t e g ya n dt h eh i g h e s ts i m i l a r i t yp r i o r i t ya l g o r i t h mt os o l v et h e s c h e m am a t c h i n gp r o b l e mi ni n t e r f a c ei n t e r g r a t i o n ( 3 ) p r o p o s ea no n o l o g y b a s e ds c h e m am a t c h i n gm e t h o df o rt h ea n n o t a t i o no f t h ed e e p w e b t h em e t h o du s e so n t o l o g ya st h ew h o l es c h e m a , s o l v e st h ep r o b l e mo fs e m a n t i c h e t e r o g e n e i t yw i t h i ni n t e r f a c e s t h ep a p e ri m p r o v e sp r e c i s i o nb y c r o s sv a l i d a t i n gm a t c h i n g r e s u l t sb e t w e e no n t o l o g y , i n t e r f a c em o d u l ea n dr e s u l tm o d u l e ( 4 ) d e s i g nad e e pw e bo b j e c t - l e v e lq u e r yi n t e r f a c e si n t e g r a t i o ns y s t e ma c c o r d i n gt o a b o v et e c h n o l o g y f i n a l l yw ed e s i g ne x p e r i m e n t st oi m p l e m e n tm e n t i o n e da l g o r i t h m sa n dt e c h n o l o g y , a n de x p e r i m e n tr e s u l t ss h o wt h e s em e t h o d sa r ee f f e c t i v e k e y w o r d s :d e e pw e b ,o n t o l o g y , s c h e m am a t c h i n g ,d a t ai n t e g r a t i o n ,s e m a n t i ca n n o t a t i o n w r i t t e nb yl vy u e f e n g s u p e r v i s e db yf uy u c h e n l l 目录 第1 章引言1 1 1 问题的提出1 1 2d e e pw e b 研究现状2 1 3 论文主要研究内容3 1 4 论文结构4 第2 章本体与模式匹配5 2 1 本体5 2 1 1 本体的描述语言5 2 1 2 本体的分类7 2 1 3 本体的构建7 2 2 模式匹配技术8 2 2 1 模式匹配的原理9 2 2 2 模式匹配的分类1 0 2 2 3 模式匹配的方法“ 2 3 面向d e e pw e b 的模式匹配1 3 2 3 1 传统模式匹配技术与d e e pw e b 模式匹配的区别1 3 2 3 2 基于模式信息的d e e pw e b 匹配技术15 2 3 3 基于实例信息的d e e pw e b 匹配技术1 9 2 3 4 混合的d e e pw e b 模式匹配方法2 0 2 3 5d e e pw e b 模式匹配方法的分析与比较2 1 2 4 本章小结2 2 第3 章d e e pw e b 接口集成中的模式匹配技术研究2 3 3 1 数据预处理过程2 4 3 2 相似度计算2 5 3 2 1 基于标签名称的匹配2 6 3 2 2 基于数据域的匹配2 7 3 2 3 基于控件名称的匹配2 9 3 3 相似度合并3 0 3 3 1 相似度合并策略3 0 3 3 2 简单匹配筛选31 3 4 复杂匹配筛选3 2 3 4 1 复杂匹配分类3 2 3 4 2 复杂匹配的发现3 3 3 4 3 复杂匹配生成3 5 3 5 用户交互过程3 5 3 6 生成全局接口模型3 5 3 7 实验结果分析3 6 3 7 1 实验数据集3 6 3 7 2 评价指标3 6 3 7 3 实验结果3 7 3 8 本章小结3 8 第4 章d e e pw e b 语义标注中的模式匹配技术研究3 9 4 1 语义标注意义及研究现状3 9 4 2 结果数据预处理3 9 4 3 基于本体的模式匹配技术辅助标注的方法4 1 4 3 1 本体参与标注的意义4 1 4 3 2 结果模式标注框架4 2 4 3 3 标注过程中的模式匹配策略4 3 4 3 4 交叉验证4 6 4 3 5 有效性评价4 7 4 4 实验结果分析4 8 4 4 1 实验数据集及评价指标4 8 4 4 2 实验结果4 8 4 5 本章小结4 9 第5 章d e e pw e b 查询接口集成系统设计5 0 5 1 平台相关技术介绍5 0 5 2 功能模块5 1 5 3 平台设计5 2 5 3 1 本体构建5 3 5 3 2 匹配发现5 4 5 3 3 接口集成5 7 5 4 本章小结5 7 第6 章总结与展望5 8 6 1 工作总结5 8 6 2 今后的研究工作5 9 参考文献6 0 攻读硕士学位期间公开发表的论文和参与的科研项目6 6 致谢6 7 图表目录 图2 1w 3 c 本体语言的栈描述6 图2 2 本体的分类7 图2 3 模式匹配分类图。1 l 图2 4d e e pw e b 集成中涉及的模式匹配示意图1 5 图3 1 网页查询界面示例2 3 图3 2 面向接口集成的模式匹配框架2 4 图3 3 训练生成的决策树2 6 图3 - 4 接口数据域图2 8 图3 5p u b l i s h e r , s u b j e c t 属性对应的源码2 8 图3 - 6 数据类型兼容图2 9 图3 7 两种方法在3 个领域上查准率、查全率、f m e a s u r e 值的比较3 7 图3 8 基于本体的方法分别与未引入本体及d c m 方法的f m e a s u r e 比较3 8 图4 1d e e pw e b 结果页面信息4 0 图4 2 基于本体的标注框架4 3 图4 3 交叉验证示例图4 6 图4 4 基于本体的方法与未引入本体的方法标注性能比较4 9 图5 1 各功能模块关系图5 2 图5 2 接口集成系统框架图5 2 图5 3 数据源模式词汇分析5 3 图5 4 本体构建结果示例。5 4 图5 5 系统实体类关系图5 6 图5 - 6 相似度处理生成界面5 6 表3 1 相似度处理结果表3 l 表3 2 最大相似度优先算法3 4 表3 3 三个领域内基于本体和未引入本体的方法评价3 7 表4 1 本体实例提交查询返回的结果数4 4 表4 2 基于本体与未引入本体的标注方法性能比较4 8 基于本体的d e e pw e b 模式匹配技术研究 第l 章引言 1 1 问题的提出 第1 章引言 近年来,随着信息技术及相关产业的发展,网上在线数据库已成为个巨大的信 息资源仓库。特别是现在正处在电子商务,网上贸易蓬勃发展的时期,人们更渴望能 通过一个搜索引擎,检索到自己所需要的信息。然而,在线商店等提供的结构化信息 是由w e b 数据库动态产生的,这部分信息不能直接通过静态链接获取,只能通过填写 表单提交查询来获取。由于传统搜索引擎的爬虫机制不具有填写表单的能力,所以传 统搜索引擎很难获取到这些信息。因此,也导致了这些信息对传统的搜索引擎而言是 隐藏的,是不可见的,我们将这类信息称之为d e e pw e b ( 又可称为i n v i s i b l ew e b , h i d d e nw 曲) 。 一份2 0 0 0 年7 月的调查估计d e e pw e b 中有9 6 0 0 0 个查询接口和5 5 0 0 亿个网页【,而 2 0 0 4 年4 月的调查表明大约有4 5 0 0 0 0 个在线数据斟2 1 。为了获得d e e pw e b 中大量有价 值的隐藏信息,我们需要将在线异构数据源进行整合集成。同时,为了使获得数据具 有更高的使用价值,这些查询的结果数据应该是机器可处理的,因此必须为其添加语 义标注。 与s u r f a c ew e b 相比,d e e pw e b 蕴藏了更加丰富、更加专业的信息。近年来的调 查研究表吲 】:d e e pw e b 具有信息量大、覆盖面广、价值高、质量优、结构化好等 特点,然而由于目前w e b 数据库存在规模大、自治性、异质性、动态性等问题,要想 全面而准确的搜索出d e e pw e b 信息是一件迫切而又非常困难的事情。因此对于d e e p w e b 的研究日益成为热点。 d e e pw 曲数据集成中涉及的几个关键问题包括:d e e pw 曲站点的发现和分类, 查询接口集成,数据抽取,实体识别,结果合并等。而在对d e e pw e b 信息整合的过 程中,模式匹配技术涉及到各个过程,包括查询接口集成,查询请求转换,查询结果 的去重合并,查询结果的语义标注等。可见,模式匹配是构建d e e pw e b 搜索引擎至 关重要的一步。 本文着重对d e e pw e b 信息集成过程中的模式匹配问题进行研究,考虑到集成的 各个阶段涉及的模式匹配过程都有各自的特点,同时,在分析和比较了现有的模式匹 第1 章引言 基于本体的d e e p w e b 模式匹配技术研究 配方法后,对查询接口集成及语义标注过程中涉及的模式匹配问题提出了各自的匹配 框架,并对涉及的匹配方法进行了分析和说明,希望能为d e e pw e b 接口集成及结果 语义标注过程提供一些帮助。 1 2d e e pw e b 研究现状 目前,传统搜索引擎还不能提供对d e e pw e b 的搜索服务,分类目录服务是用户 检索d e e pw e b 信息的主要途径。国内外近来出现了一些d e e pw e b 分类目录服务站点, 但都尚处于手工处理或者手工辅助处理阶段,还不能实现自动化索引处理。国外仅有 b r i g h t p l a n e t 1 1 ,d e e pw e b 4 ,和i n v i s i b l ew e b 5 】三家公司生产相关产品。经过对比分析 得出:这几家公司的产品采用半自动化方式,人工干预较多。他们在产品中加入d e e p w e b 信息挖掘功能,但目前还没有中文d e e pw e b 信息服务。 与基于分类目录服务不同,基于全局查询模式是把现有的各个分布的数据库的模 式集成起来,将公用的数据定义整合,解决同一数据的不同表示方法间的冲突问题。 该方法提供给用户一个全局的查询接口,这个接口接收用户的查询信息,并把查询分 派到各个查询接口,然后将各个成员数据库中得到的数据整合起来,回馈给用户。采 用这种方法的典型系统是m e t a q u e r i e r 【6 j 、w i s e i n t e g r a t o r 【7 j 。 目前国内外已经有相当多的机构在对d e e pw e b 相关技术进行研究,比较著名的 研究小组有以下几个: 华盛顿大学的s h o p b o t 【8 】研究小组:s h o p b o t 是一个针对消费产品的比较代理,利 用特定领域的启发式方法来填写表单以比较其领域内的商业产品。其聚焦于处理卖主 站点的表单提交页面所返回的的产品列表。s h o p b o t 操作分为两个阶段:离线学习阶 段和在线产品比较阶段。在学习阶段,确定如何填写站点表单,以及对产品站点结果 页面进行分析,并获取站点模式信息。在比较阶段,利用得到的站点模式结构来抽取 结果信息,寻找满足用户要求的数据,最终将这些数据信息进行输出。可以看出其研 究领域非常狭窄,不适用于大规模的信息集成。 斯坦福大学的w e b b a s e 9 1 研究小组:d a v u l c 等人很早就提出了设计w e b b a s e 的框 架,它可以通过工具帮助用户实现特定领域复杂搜索服务。h i w e o j ( h i d d e nw e b e x p l o r e r ) 是斯坦福大学另一个研究项目。在此系统中爬虫管理器负责管理搜集过程。 它对下载的w e b 页面进行分析,包含表单的页面被送到表单处理器中处理。表单处理 器首先从页面中抽取结构,再从预先准备好的数据集中选择数据自动地完成表单的填 2 基于本体的d e e pw e b 模式匹配技术研究 第1 章引言 写,然后将合成的u r l 提交爬虫管理器去下载响应的页面。由于需要爬虫自动地填写 表单信息,需要人为地准备表单数据集。h i w e 只能面向特定的领域使用,而且过程 中需要人工干预,具有较大的局限性。 哥伦比亚大学i 拘q p r o b e r t l lj 研究小组:该小组研究了自动地将w e b 页面所连接的 后台数据库进行分类的方法。它使用机器学习方法生成一套基于规则的分类器。然后 将分类器转变成查询的u r l ,对数据库进行查询。其算法最后根据查询结果数对数据 库进行分类。该研究只集中在怎样针对文档数据库进行分类上面,而大量的d e e pw e b 数据库提供的内容是结构化的数据。 伊利诺斯大学的m e t a q u e r i e r 6 】研究小组:该小组建立一个元查询系统 ( m e t a q u e r y ) ,目标是有效获取w e b 上结构化的信息。m e t a e x p l o r e r 项目聚焦于发现、 模型化和重构w e b 数据库来建立一个可搜索的数据源知识库并集成在线数据库。 m e t a e x p l o r e r 项目在研究大规模信息集成的过程中将依赖于前面所建立的数据源知识 库,其重点研究了动态信息集成技术。与传统的信息检索不同,m e t a e x p l o r e r 项目所 设计的m e t a q u e r y 系统是动态的,即可以将实时发现的新数据源加入系统中,同时动 态选择数据源,将用户查询进行相应转换,从而获取用户查询结果。 微软亚洲研究院第三代搜索引擎:微软亚洲研究院早在2 0 0 4 年就提出抽取基于关 键字接口的d e e pw e b 信息【1 2 1 。近来提出的第三代搜索引擎要对深层互联网进行搜索 与挖掘,不仅能找到更多的结果,而且要更加智能化、人性化,更加精确,并且能够 理解用户需要什么结果。 1 3 论文主要研究内容 国内外研究现状表明,d e e pw e b 正受到越来越多的关注。而在目前各研究小组 构建的原型引擎中,基本上是以半自动化或手工处理的方式来实现其中的关键技术细 节,比如涉及的模式匹配工作。可以说,模式匹配是d e e pw e b 信息集成的基础,因 为它不仅涉及集成中的各个过程,而且是信息集成中自动化程度高低的关键点。本文 正是基于这种认识,着重对d e e pw e b 信息集成中涉及的模式匹配技术进行深入的研 究,主要研究内容如下: ( 1 ) 分析和比较了传统模式匹配技术和当前面向d e e pw e b 的主要模式匹配技 术;对现有的几个比较重要的面l 句d e e pw 曲信息集成的模式匹配方法进行了深入的 分析和研究,并总结了几种方法各自的优缺点,从中探求新的匹配方法。 第l 章引言基于本体的d e e pw e b 模式匹配技术研究 ( 2 ) 介绍并分析了本体的优势,将本体弓i x n d e e pw e b 模式匹配过程当中。 ( 3 ) 提出了一个基于本体的面 句d e e pw e b 接口集成的模式匹配框架,提出了基 于本体的策略进行简单与复杂匹配的筛选。 ( 4 ) 提出了一个基于本体的面向d e e pw e b 语义标注过程的模式匹配框架,将本 体作为共享概念的模型对结果进行标注,并建立本体词汇,接口模式与结果模式的交 叉验证过程,提高匹配精度。 ( 5 ) 对d e e pw e b 接口集成原型系统进行了初步分析和设计。 1 4 论文结构 本文共分为6 章,结构如下: 第1 章首先介绍t d e e pw e b 的概念,对其重要性进行了说明,同时介绍了国内 外研究现状,最后给出了本文主要研究内容及结构安排。 第2 章介绍本文研究的工作基础。首先对本体及其相关技术进行了介绍,其次 概述了模式匹配技术及现有的比较成熟的匹配方法,接着分析了现有的比较成熟的 d e e pw e b 模式匹配技术,并对其优缺点进行了比较和说明。 第3 章提出了面向d e e pw e b 接口集成的模式匹配框架,将本体运用到数据预处 理、相似度计算及简单匹配与复杂匹配的发现过程中,提高了匹配的效率与准确性。 实验证明方法的可行性与有效性,这是本文的研究重点。 。 第4 章提出了面向d e e pw | e b 结果语义标注过程的模式匹配框架,合理地利用了 接口模式及其实例数据,结果模式及其实例数据,本体词汇及其简单实例三者的相互 关系,提高了结果语义标注的准确度。通过实验数据的分析验证,评价了本文提出的 方法。 第5 章简单介绍了面向 d e e pw e b 的接1 :3 集成原型系统的分析与设计。 第6 章对本文工作进行了总结和展望。 4 基于本体的d e e pw e b 模式匹配技术研究 第2 章本体与模式匹配 2 1 本体 第2 章本体与模式匹配 本体( o n t o l o g y ) 最初是一个哲学范畴的概念,用来描述事物的本质。后来知识工 程学者将其作为与任务独立的知识库引入到人工智能领域,定义为“给出构成相关领 域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则 的定义,【1 3 】。随着对本体理解的深入,对本体的定义也有了新的发展,其中,被人们 引用最广的有1 9 9 3 年g r u b e r 的定义,即“本体是概念模型的明确的规范说明”以及 b o r s t 提出的“本体是共享概念模型的形式化规范说明 。但是这两个定义存在的不足 是没有明确解释“概念模型”,只能凭直觉来理解。s t u d e r 等对上述两个定义进行了深 入的研究,认为“本体是共享概念模型的明确的形式化规范说明”。 s t u d e r 的定义体现了的四层含义f 1 4 。1 5 】: ( 1 ) 概念模型,通过抽象客观世界中的一些现象的相关概念而得到的模型,其 表示独立于具体的环境。 ( 2 ) 明确的,意味着概念的类型、使用和约束条件被明确的定义。 ( 3 ) 形式化,意味着本体是计算机可以理解的。 ( 4 ) 共享,本体体现的是共同的认知,反映的是领域内公认的概念集,面向的 是领域内的团体而不是个体。 运用本体来描述某个领域的概念以及概念之间的关系,使得这些概念和关系在共 享的范围内具有大家共同认可的、明确的、唯一的定义,有助于人机之间以及机器之 间的交流。目前,本体己经被广泛应用于语义w e b 、数据集成、智能信息检索、数字 图书馆等领域。 2 1 1 本体的描述语言 一般建立本体模型的过程可分为非形式化阶段和形式化阶段。其中,非形式化阶 段本体模型是用自然语言和图表来描述,形成本体原型;形式化阶段通过知识表示语 言( k r l 、k n o w l e d g er e p r e s e n t a t i o nl a n g u a g e s ) 对本体模型进行编码,形成便于人 们交流的、无歧义的、可被计算机软件解释的本体1 6 】。目前在具体应用中,本体的表 语义,从而o w l 超越了x m l 、r d f 和r d fs c h e m a 仅仅能够表达网上机器可读的文档 内容的能力,已成为w 3 c 推荐的标准语言。o w l 包括3 个子语言,依据表达能力由弱 到强依次是:o w ll i t e 、o w ld l 和o w lf u l l 。其中,o w ll i t e 的表达能力最弱, 用于提供给那些只需要一个分类层次和简单的属性约束的用户。o w ld l 支持那些需 要在推理系统上进行最大程度表达的用户,这里的推理系统能够保证计算完全性和可 决定性,即保证所有的计算都在有限的时间内被正确地计算出来,它还包括了o w l 语言的所有约束,但是仅可置于特定的约束下。o w lf u l l 支持那些需要在没有计算保 6 基于本体的d e e pw e b 模式匹配技术研究 第2 章本体与模式匹配 证的语法自由的r d f 上进行最大程度表达的用户。它允许在一个本体预定义的( r d f 、 o w l ) 词汇表上增加词汇。 2 1 2 本体的分类 本体描述的形式化程度可低可高( 从自然语言到逻辑语言) ,形式化程度越高, 越便于机器的自动处理。本体的一般性层次也可低可高,g u a r i n o 1 9 1 据此给出了本体 的一种分类,如图2 2 所示。 顶层本体( t o p - l e v e lo m o l o g y ) 。用于描述非常通用的概念,如时间、空间、物质、 对象、事件、动作等,其独立于特定的问题和领域。 领域本体( d o m a i no n t o l o g y ) 与任务本体( t a s ko n t o l o g y ) 。通过特殊化顶层本体 中的概念,领域本体描述与一般本体( 例如,教育或金融) 有关的概念,即陈述性知 识;任务本体描述与一般任务或活动( 例如,入学或取款) 有关的概念,即过程性知 识。 应用本体( a p p l i c a t i o no n t o l o g y ) 。通过进一步特殊化领域本体和任务本体,应用 本体用于描述既依赖于特定领域,又依赖于特定任务的概念,这些概念通常对应领域 个体执行特定的活动时所扮演的角色。 2 1 3 本体的构建 图2 - 2 本体的分类 对于本体的结构,可以用五元组来表示o = c ,r ,f ,a ,1 t 2 0 1 ,5 个基本的本体 建模元语( m o d e l i n gp r i m i t i v e s ) 女l l 下: 7 第2 章本体与模式匹配 基于本体的d e e pw e b 模式匹配技术研究 ( 1 ) 类( c l a s s e s ) 或概念( c o n c e p t s ) :指任何事务,如工作描述、功能、行为、策略 和推理过程。从语义上讲,它表示的是对象的集合,其定义一般采用框架( f r a m e ) 结构, 包括概念的名称,与其它概念的关系的集合,以及用自然语言对概念的描述。 ( 2 ) 关系( r e l a t i o n s ) :在领域中概念之间的交互作用,形式上定义为n 维笛卡儿积 的子集。 ( 3 ) 函数( f u n c t i o n s ) :一类特殊的关系。该种关系的前n 1 个元素可以唯一决定 第n 个元素。 ( 4 ) 公理( a x i o m s ) :代表永真断言,如概念乙属于概念甲的范围。 ( 5 ) 实例( i n s t a n c e s ) :代表元素。从语义上讲实例表示的就是对象。 定义好结构后,我们需要遵循一定的规范并构建出该领域的本体,在构造的过程 中应当遵循g r u b e r 在1 9 9 5 年提出的5 条规则【1 3 】: ( 1 ) 明确性和客观性:本体应该用自然语言对所定义的术语给出明确、客观的 语义定义。 ( 2 ) 完全性:所给出的定义是完整的,完全能表达所描述的术语的含义。 ( 3 ) 一致性:本体应该具有前后一致性,即由术语推理得出的推论应与术语本 身的含义是相容的,不会产生矛盾,如果从一组公理推理出来的一个结论与一个非形 式化的定义或实例有矛盾,那么该本体就是不一致的。 ( 4 ) 最大单调可扩展性:向本体中添加通用或专用的术语时,不需要修改已有 的内容。 ( 5 ) 最小承诺:构建本体时本体的承诺应该最小,只需要满足特定的共享需求 即可,让以后的共享者能按照各自的需求进行实例化和专门化。所以在对待建模对象 时应给出尽可能少的约束,一般可通过只指定约束最弱的公理和定义最基本的术语来 实现本体的最小承诺。 本体的构建步骤包括:首先确定所要构建本体的问题域和研究范围;其次,枚举 出在该问题域中常见的术语;再次,定义本体中的类,然后将本体中的类组织为层次 结构;最后,定义类的属性以及属性的限制并创建类的实例。 2 2 模式匹配技术 模式匹配( s c h e m am a t c h ) 是指出于某种目的,找到分布在两个不同模式中的元 素之间的某种映射关系的行为,可以理解为将两个模式作为参数输入,输出结果是它 8 基于本体的d e e pw e b 模式匹配技术研究 第2 章本体与模式匹配 们之间的映射关系的函数,即匹配结果。每个匹配结果中的元素都表示一个输入参数 中有特定的元素和另一个输入参数中某些特定的元素存在逻辑上的对应关系,这些对 应关系的语义就是通过映射元素的映射描述来表达的。 模式匹配的关键是寻找匹配方法,而这个方法的目标应该是自动的、精确的、广 泛适应的。显然无法利用数学公式或者数学方法来对两个模式之间的对应关系进行计 算,只能利用模式本身所蕴涵的语义和数据来寻找二者之间的对应关系。尽可能多地 挖掘这些信息,并对这些信息正确加以运用是匹配的核心。 2 2 1 模式匹配的原理 随着计算机网络和数据库系统的迅速发展,信息资源的异构性在信息系统中无处 不在,越来越多的应用需要访问各种异构数据源。而为了达到异构数据源的共享,必 须首先解决数据集成问题。异构数据集成为异构数据源提供一个完整的数据源模式和 一致的访问接口,使用户不必考虑数据模型的异构性、数据抽取、数据合成等问题, 用户只需指定他们想要的数据,而不必描述怎样得到数据。模式匹配就是寻找两个或 多个模式的元素之间语义上的对应关系,由于在不同的模式中可能用相同的术语描述 不同的概念,或用两个不同的术语描述相同的概念,就会造成命名冲突;在不同的模 式中,用不同的抽象层去模型化相同的实体就会造成语义冲突;不同的模式中用不同 的方法描述相同的信息就会造成结构冲突。因此,模式匹配在异构信息源集成中是一 个困难而又关键的问题,已经受到普遍的关注。模式匹配是一个涉及机器学习、信息 检索等多个领域的复杂问题,现有的大部分模式匹配还是以人工方式为主,不仅费时, 而且要花相当大的代价。随着信息量的日益增多,人工方式的模式匹配的弊端日益明 显,迫切需要一些模式匹配的新思路。 模式匹配的过程通常结合一定的启发式规则,一般没有严格的数学理论支持。模 式匹配的形式化描述如下: 定义l :模式匹配定义为形女n m a t c h i n g ( 厶,厶,彳) 的函数,其满足以下条件: ( 1 ) 厶 l & 为模式信息,d 。为s 。的数据实例) 。 ( 2 ) 厶 i 是为模式信息,d :为s :的数据实例) 。 ( 3 ) a 为匹配过程中所需要利用到的辅助信息。 ( 4 ) 经过过程处理产生c c ( c o r r e s p o n d e n c es e t ) 。 c c = l s i m = 2 ,五 0 ,1 】) ,s 1 i 为模式s l 的第价元素,s 2 i 为模式s 2 的第外 9 第2 章本体与模式匹配 基于本体的d e e pw e b 模式匹配技术研究 元素,旯为相似度阈值。 2 2 2 模式匹配的分类 匹配技术分为单个的匹配技术和合成的匹配技术。对于单个的模式匹配技术,考 虑以下分类标准2 1 。2 2 】: ( 1 ) 基于元素与结构 基于元素的匹配技术是对于单个的模式元素进行匹配,比如概念、属性或关系。 对于第一个输入模式的每个元素,基于元素的匹配在第二个输入模式中确定匹配元 素。在最简单的情况下,仅仅考虑粒度的最底层元素,也叫做原子层,比如x m l 模 式中的属性或关系模式中的列。但也不只限于原子层,也可应用于高层( 非原子层) 元素。高层粒度包括文件记录、实体、类、关系表和x m l 元素。 基于结构的匹配技术是在结构上对于共同出现的元素的进行匹配的,它可能是完 全匹配,也可能是部分匹配。在理想情况下,两个模式中所有结构的组成都可匹配, 即完全匹配。但事实上,一个模式中的某些元素在另一个模式中找不到对应部分,即 所谓的部分匹配。对于更加复杂的情况,基于结构匹配的有效性可通过考虑保存在知 识库中的已知的等价模式来提高。 ( 2 ) 基于实例与模式 基于实例的匹配技术主要利用了实例的信息,通过这些实例数据可以认识到模式 元素所表示的内容和意义,它可以和基于元素与结构的方法形成良好的互补效应,特 别当可用的模式信息非常有限的情况下( 尤其是对于半结构化数据) 是非常有意义的。 基于模式的匹配技术仅仅考虑模式的信息,而没有考虑实例数据。可获得的信息包括 模式元素的一些属性,如元素名,描述,关系类型,约束和模式结构等。 ( 3 ) 基于语言与约束 基于语言的匹配技术可应用名字和文本( 如单词或句子) 来挖掘语意上相似的模 式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论