

文档简介
分类号: udc : 工学硕士学位论文 密级: 编号: 基于本体的d e e p w e b 模式集成方法 硕士研究生 : 指导教师 : 学位级别 : 学科、专业 : 所在单位 : 论文提交日期: 论文答辩日期: 学位授予单位: 陈书玉 王念滨教授 工学硕士 计算机软件与理论 计算机科学与技术学院 2 0 0 9 年1 月1 日 2 0 0 9 年3 月6 日 哈尔滨工程大学 摘要 随着互联网的不断发展,在线数据库的数量不断增多,d e e p w e b 模式集 成的重要科学研究意义和显著的工程应用价值就凸现出来,但是由于这些数 据库在地理上分布、管理上自治、模式上异构,使得不同的在线数据库查询 接口之间缺乏可共享词汇基础和语义基础,而随着信息应用领域的不断扩充 和深入,迫切需要对这些在线数据库进行整合。通过d e e p w e b 模式集成,使 得从分布的在线数据库中并行地获取数据成为可能,通过建立统一的全局接 口,为用户提供统一的查询接口,实现数据的综合利用和互操作。传统的模 式集成技术主要解决接口的语法和结构异构问题,尚未从建立查询接口良好 的语义描述方面进行考虑,导致缺乏对查询接口中相关信息的良好的语义描 述,使得d e e p w e b 模式集成异常困难且难以拓展。由于本体既能准确地描述 概念含义,又能描述概念之间的内在关联,还具有很强的表达概念语义和获 取知识的能力,因此本文引入本体解决模式集成中的语义异构问题。 针对d e e p w e b 数据接口模式集成的研究需要,基于国内外有关d e e p w e b 数据接v i 模式集成及本体研究的成果,深入理解和分析领域本体和表单本体 对d e e p w e b 数据接口模式集成的作用,本文提出了一种利用本体为d e e p w e b 数据接口模式集成提供有效语义理解及集成的方法,将描述领域概念和关系 的本体应用于d e e p w e b 数据接口模式集成中,提出了一种新的d e e p w e b 数 据接i z l 模式集成的解决方法。研究利用本体实现d e e p w e b 规格化任务描述的 方法,从而提供一个高效的接口生成技术。 关键词:深层网络;模式集成;本体;语义异构 哈尔滨工程大学硕士学位论文 i i - a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e t , t h en u m b e ro fo n l i n ed a t a b a s e s1 s i n c r e a s i n gr a p i d l y t h es i g n a l i t yo fs c i e n t i f i cr e s e a r c ha n dr e m a r k a b l ev a l u eo f p r o j e c ta p p l i c a t i o no fd e e p w e bs c h e m ai n t e g r a t i o nh a sb e c o m em o r ea n dm o r e a t t r a c t i v e b e c a u s eo ft h eg e o g r a p h i c a ld i s t r i b u t i o n ,a u t o n o m yi nt h em a n a g e m e n t a n dh e t e r o g e n e o u si ns c h e m a s ,t h e s eo n l i n ed a t a b a s e sa r el a c ko ft h eb a s eo f s h a r i n gv o c a b u l a r ya n dt h eb a s eo fs e m a n t i c a st h ec o n t i n u o u se x p a n s i o na n d i n d e p t ho ft h ei n f o r m a t i o nu s a g ed o m a i n , t h e r ei sa l lu r g e n tn e e dt oi n t e g r a t e t h e s eo n l i n ed a t a b a s e s b yi n t e g r a t i n gt h ed e e p w e bs c h e m a , p a r a u e l l ya c c e s s i n g t ot h ed a t ai nt h eo n l i n ed i s t r i b u t e dd a t a b a s e sb e c o m e sp o s s i b l e t h r o u g ht h e e s t a b l i s h m e n to fau n i f i e dv i e w , au n i f i e du s e ri n t e r f a c ei sp r o v i d e df o ru s e r s ,a n d t h ec o m p r e h e n s i v eu s a g ea n di n t e r o p e r a b i l i t yo fd a t ac a 2 m et r u e 皿et r a d i t i o n a l m o d eo fi n t e r f a c ei n t e g r a t i o nt e c h n o l o g i e sa r em a i n l yt os o l v et h ep r o b l e mo f h e t e r o g e n e o u sg r a m m a ra n ds t r u c t u r e ,h a sn o ty e tt oe s t a b l i s hag o o ds e m a n t i c d e s c r i p t i o no ft h eq u e r yi n t e r f a c e ,r e s u l t i n g i nt h el a c ko fg o o dr e l e v a n t i n f o r m a t i o ni nt h es e m a n t i cd e s c r i p t i o no ft h eq u e r yi n t e r f a c e i tm a k e sd e e p w e b s c h e m a i n t e g r a t i o na n de x t e n s i o ne x t r e m e l yd i f f i c u l t 1 1 1 eo n t o l o g yn o to n l yc a l l a c c u r a t e l yd e s c r i b et h em e a n i n go fc o n c e p t sa n dt h er e l a t i o no fc o n c e p t s ,b u ta l s o h a v et h ea b i l i t yt oe x p r e s st h em e a n i n go fc o n c e p t sa n da c c e s sk n o w l e d g e s o o n t o l o g yi si n t r o d u c e dt or e s o l v et h eh e t e r o g e n e o u sp r o b l e m so fs e m a n t i ci nt h e i n t e g r a t i o no fs c h e m a i nt h en e e d so fd e e p w e bd a t ai n t e r f a c es c h e m ai n t e g r a t i o nr e s e a r c h , b a s e d o nt h er e s u l to fr e s e a r c ho ft h ed e e p w e bd a t ai n t e g r a t i o na n di n t e r f a c es c h e m a o n t o l o g yb o t hi nd o m e s t i ca n da b r o a d , t h er o l eo fd o m a i no n t o l o g ya n df o r m o n t o l o g yi nd e e p w e bd a t ai n t e r f a c es c h e m ai n t e g r a t i o ni sa n a l y z e d t h i sp a p e r m a k e su s eo fo n t o l o g yf o rd e e p w e bd a t ai n t e r f a c es c h e m ai n t e g r a t i o nt op r o v i d e a ne f f e c t i v es e m a n t i cu n d e r s t a n d i n ga n di n t e g r a t i o nm e t h o d s t h eo n t o l o g y , w h i c hd e s c r i b e st h ec o n c e p t sa n dr e l a t i o n s ,i sa p p l i e di nt h ei n t e g r a t i o no f d e e p w e bd a t ai n t e r f a c e i nt h i sp a p e ran e ws o l u t i o nf o rd e e p w e bd a t ai n t e r f a c e s c h e m ai n t e g r a t i o ni sp r o v i d e d mm e t h o do fu s 迦o n t o l o g yt or e a l i z et h e 哈尔滨工程大学硕士学位论文 d e e p w e bs t a n d a r d i z et a s k s i ss t u d i e d , a n da ne f f i c i e n ti n t e r f a c eg e n e r a t i o n t e c h n o l o g yi s 也e m b yp r o v i d e d k e y w o r d s :d e e p w e b ;s c h e m ai n t e g r a t i o n ;o n t o l o g y ;s e m a n t i ch e t e r o g e n e i t y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :。际易旁 日期: 删年弓月;日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可口在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :7 牟易玉导师( 签字) :易箔玖 日期:扣研年孑月;日一上0 哆年多月歹日 哈尔滨工程大学硕士学位论文 m m i i 第1 章绪论 1 1 课题研究背景及意义 1 1 1 课题的背景 随着互联网的飞速发展,信息的数量也以极快的速度增长。根据最新的 调查,目前整个网路中的信息量已经超过了2 0 0 ,0 0 0 t b ,而且仍然以飞快 的速度增长。传统的网络以超链接联接着无数的静态页面来描述信息,这时 的信息通常以文本的形式存放在服务器中,这类网络被称为“表层网络“ ( s u r f a c ew - e b ) ;随着数据库技术的发展,如今更多的是将信息以结构化的 形式存放在数据库中,然后为这些数据库构建统一的用户查询接口,用户通 过查询接口就能够访问这些数据库。这种结构的网络有别于传统的静态页面 形式,在文献【2 3 j 中将这样的网络称为“深层网络“ ( d e e p w e b ) ,d e e p w e b 范 畴较为完整的描述是:d e e p w e b 是指w r e b 中可访问的在线数据库,这里简称 为w r e b 数据库或者w e b 。 与s u r f a c ew e b 相比,d e e p w e b 所包含的信息更加丰富,也更加的专业。 在2 0 0 0 年7 月,b r i g h t p l a n e t 对d e e p w e b 做了一次较为全面的宏观统计,其 d e e p w e b 白皮书中指出整个网络上大约有4 3 ,0 0 0 9 6 ,0 0 0 个w e b 数据库, d e e p w e b 中所蕴含的信息量是s u r f a c ew e b 的4 0 0 5 0 0 倍,并且d e e p w e b 所 蕴含的信息的质量比s u r f a c ew e b 高,其访问量也比s u r f a c ew e b 要高出1 5 , 由此可见,如何合理的对这些信息综合利用具有较高的研究价值。 d e e p w e b 中的信息是存放在数据库中的,这些内容在被查询时才会由 w e b 服务器动态生成页面将结果返回给访问者,并以超链接指向这些页面, 这些页面中的结果都是有一定的结构的,因此,按照存储信息的结构化程度 将信息划分为结构化信息、文档信息和非文本信息。在d e e p w e b 的信息获取 中,更关注的是结构化信息的获取。因此,d e e p w e b 的数据集成主要是指对 结构化信息的集成。 对d e e p w e b 中信息获取主要的途径是通过对应的w 曲数据库的查询接 口提交查询来获得,每个查询接口支持通过若干的属性进行查询,比如在航 空订票领域中,通过查询接口查询机票的相关信息,可以根据出发城市、目 哈尔滨工程大学硕士学 市论文 的城市、出发时间、票价、航空公司等。这些属性就构成了查询接口的模式 ( s c h e m a ) 信息。查询接口模式的大小是指查询属性的数目。查询接口即为 外部访问w e b 数据库的f - j p ,是从w e b 数据库中获取数据的主要途径,因 此在w e b 数据库集成研究领域,对查询接口的模式信息集成研究占有极其重 要的地位。 1 1 2 课题的意义 为了能够同时访问多个在线数据库,从而能从中对比筛选出有用的信息, 将这些在线数据库的查询接口集成为一个统一的用户查询接口就变得很有必 要。通过给用户提供一个统一的查询接口,借助于传统的搜索引擎,自动的 发现网络数据库查询接口,自动填写查询请求,并抽取结果,使人们查询和 使用这些丰富的资源成为可能,这将极大地方便在线数据库的查询及其信息 利用。因此提出一个可行及高效的接口模式集成方法无论是从理论还现实应 用上都有着很高的价值。 由于d e e p w e b 中数据库系统的异质性、自主性,使得实现d e e p w e b 数 据接1 2 1 模式集成是一项具有挑战性的工作【4 】。不同的数据接口模式建立和产 生的查询接口缺乏可共享词汇基础和语义基础,当前,d e e p w e b 数据接1 2 1 模 式集成研究没有从建立查询接口良好的语义描述着手,从而导致缺乏对查询 接口中相关信息的良好的语义描述,使得当前d e e p w e b 搜索任务描述及异构 数据集成非常困难且难以拓展。本体( o n t o l o g y ) 是描述领域知识的一种有 效工具【5 】。本体作为解决语义集成问题的方法,可用于解决语义层次上的 d e e p w e b 数据接口集成问题。通过本体明确定义领域涉及的概念以及概念间 的关系,通过术语和关系组合定义词汇的外延,为作为领域明晰的术语提供 确切的领域背景知识。将本体应用于d e e p w e b 数据接口模式集成中,就是要 利用其对领域中d e e p w e b 数据接口模式的语义关系进行描述的功能。 本文研究以实现高效d e e p w e b 数据接口模式集成为背景,研究一种基于 本体的d e e p w e b 数据接口模式集成方法,通过本体提供语义层次上的数据共 享和交换,本文重点研究基于本体的数据集成、异构数据接口模式整合、分 析技术。本文的研究具有重要的理论意义,将为d e e p w e b 数据集成提供一 个新的基于本体的集成方法,解决d e e p w e b 数据接1 2 1 模式集成中存在的语义 异构问题。 2 哈尔滨t 程大学硕士学位论文 1 2d e e p w e b 数据接口模式集成研究现状 本节将对d e e p w e b 数据接口模式集成技术的相关研究现状作一个简单 的介绍,并对国内外几个比较成熟的d e e p w e b 集成系统进行比较与分析。 最后对利用本体进行d e e p w e b 接口模式集成的特点与优势进行分析。 1 2 1d e e p w e b 的研究现状 目前国内外对d e e p w e b 技术的研究主要集中在对后台数据库的访问,即 对动态网页的访问,这主要靠爬行表单并自动提交查询表单来实现。由于搜 索引擎目前还不能提供对d e e p w e b 的搜索服务,分类目录服务是目前检索 d e e p w e b 的主要途径,国内也出现了一些d e e p w e b 分类目录服务站点,但 都尚处于手工处理阶段,还不能实现自动化或半自动化索引处理。国外也仅 有b f i g h t p l a i l e t1 6 j ,d e e p w e b1 7 ,i n v i s i b l e w e b s - 一家公司生产相关产品。经过 对比分析得出:这几家公司的产品采用半自动方式,人工干预较多。他们在 产品中加入d e e p w e b 信息挖掘功能,但目前还没有中文d e e p w e b 信息服务。 目前国外已经对d e e p w e b 信息集成进行了深入的研究,下面是几个具有 代表性的研究小组: 华盛顿大学的s h o p b o t 9 i 开究小组:s h o p b o t 是一个针对消费产品的比较 代理,它利用特定领域的启发式方法来填写表单以比较其领域内的商业产品。 其聚焦于处理卖主站点的表单提交页面所返回的的产品列表。其研究领域非 常狭窄,不适用于大规模的信息集成。 斯坦福大学的w e b b a s e t l 0 研究小组:d a v u l c 等人很早就提出了设计 w e b b a s e 的框架,它可以通过工具帮助用户实现特定领域复杂搜索服务。 斯坦福大学的h i w e 1 1 j :h i d d d e nw e be x p o s e r ( h i w e ) 是s t a n d f o r d 大学 另一个研究项目。在此系统中爬虫管理器负责管理搜集过程。它对下载的 w e b 页面进行分析,包含表单的页面被送到表单处理器中处理。 哥伦比亚大学的q p r o b e r 1 2 j 研究小组:该小组研究了自动地将w e b 页面 所连接的后台数据库进行分类的方法。其算法最后根据查询结果数对数据库 进行分类。该研究只集中在怎样针对文档数据库的分类上面,而大量的 d e e p w e b 数据库提供的内容是结构化的数据。 伊利诺斯大学m e t a q u e r i e r t l 3 】研究小组:该小组建立一个元查询系统 ( m e t a q u e r y ) ,该系统与传统的信息检索不同,所设计的m e t a q u e r y 系统是动 3 哈尔滨工程大学硕十学位论文 ii i i i i i i i i i i i i i i i i i i i i i 态的,即可以将实时发现的新数据源加入系统中,同时动态选择数据源将用 户查询进行相应转换,从而获取用户查询结果。 微软亚洲研究院第三代搜索引擎:微软亚洲研究院早在2 0 0 4 年就提出抽 取基于关键字接1 3 的d e e p w e b 信息1 1 4 1 。近来提出的第三代搜索引擎要对深 层互联网进行搜索与挖掘,不仅能找到更多的结果,而且要更加智能化、人 性化、更加精确、能够理解用户需要什么结果。 就国内而言:目前国内对d e e p w e b 集成方面的研究尚处于学习、跟踪和 探索阶段。经查新报告表明:综合国内检出文献,课题在所检文献内未见相 同报道。国内研究单位及相关文献非常少。人民大学的孟小峰等对d e e p w e b 系统集成的研究走在了国内研究的前列,其“工作”搜索系统基本上实现了 d e e p w e b 系统集成的主要内容。上海交通大学宋晖等人提出基于标记树的对 象抽取( t a g t r e e b a s e do b j e c te x t r a e t i o n ) 方法自动地从w e b 页面中抽取 d e e p w e b 信息,然后在此基础上给出了结构化的d e e pw b e 信息查询算法。 另外苏州大学的郑冬冬,赵朋朋等人也对d e e p w e b 的访问进行了相关的研 究,在“爬虫研究与设计“ 一文中提出使用启发式规则集和领域本体知识库 来自动发现相关表单,填写表单,同时识别和收集相关结果页面。 1 2 2d e e p w e b 接口模式集成的研究现状 目前国内外对于d e e p w e b 数据接口的集成问题都已经有了深入的研究, 目前对于数据接口的集成还主要是手工方式,虽然这样能够获得较高的准确 率,但是大规模集成数据接口时该方法就显得力不从心了,目前主要的集成 方法如下: l i t em e t h o d 3 4 j :使用布局引擎获取在物理位置上最靠近的候选标签, 该方法并不是面向属性的。 m e t a q u e r i e r 1 1 j :将搜索接口视为一种视觉语言( v i s u a ll a n g u a g e ) 。通过 使用统计概率的方法获取隐藏的模式模型,但是他们的应用只考虑到了属性 标签,忽略了搜索接口中的其他有用的信息,并且没有从语义的角度来考虑 属性之间的关系,准确性得不到相应的保证。 o n t o b u i l d e r l l 9 1 :能够自动的生成某个领域的本体。并且,聚合为全局的 本体。o n t o b u l i d e r 项目支持从网页搜索接口中抽取本体,但是从网络搜索接 口中抽取出来的本体只局限于标签和元素等存在于网页文本中的特性本身。 w i s e i n t e g r a t o r 3 4 1 :抽取了接口中的标签和元素信息,考虑了接口中隐 4 哈尔滨工程大学硕士学位论文 i 藏信息的利用,实现了同一领域里面的接口集成。但是其接口的集成仍然没 有很好地解决语义的异构问题,其小组对“寻找工作”在线数据库集成的统 一接口只能支持单一条件查询,且获得的数据数量和质量都存在很大的不足。 l i t em e t h o d 、m e t a q u e r i e r 都没有考虑到隐藏属性,并且他们都只注重 聚合相关的标签和元素,搜索接口上其余的语义元信息都没有考虑到。 o n t o b u i l d e r 主要集中在领域本体的生成及聚合。 1 3 基于本体的d e e p w e b 接口模式集成方法的特点与优势 基于本体的d e e p w e b 接口模式集成具有以下几方面的优势与特点: 1 、统一的查询接口。本系统给用户提供了一个同时能够访问多个w e b 数据库的接口,而不是像传统的访问多个w e b 数据库一样需要登陆到各个局 部查询接口,分别提交查询;并且由于在本地并不实际存储数据,各个w e b 数据库都是相对自治的,信息的查询是基于全局查询接口的,这个全局查询 接口在本文中使用领域本体中概念描述的全局视图。各个局部w e b 数据库的 表单本体描述了各个信息源的模式,它们构成了全局查询接口的局部视图。 2 、领域本体与表单本体两级映射的松散耦合结构。由于使用领域本体描 述数据集成的领域知识,用表单本体描述w e b 数据库查询接口的语义信息, 并分别建立表单本体和领域本体的映射,局部查询接口和表单本体的映射, 这样的两级映射方式降低了集成系统的耦合性,局部查询接口模式和语义的 改变不会影响到领域本体,领域本体的演化也不会影响表单本体的描述模型。 3 、语义异构集成的支持。利用本体的强大的描述能力对集成的领域知识 建立领域本体,该领域本体为集成系统提供了公共的语义描述,所有的局部 查询接口都按照领域本体描述的概念之间的关系进行映射。因此在概念上解 决了语义异构问题。本体在模式集成中的应用,特别是在解决语义异构问题 上有很大的潜力和研究价值。 模式集成模型能够满足模式集成中w e b 数据库分布位置的透明性和查 询信息透明性的要求,能够有效的实现对众多异构局部查询接口透明地访问。 同时,本体的两级映射方式,也满足异构模式集成的灵活性的要求。 1 4 主要研究内容和预期研究成果 本文的研究内容包括,基于本体的d e e p w e b 数据接口模式集成方法。利 5 哈尔滨t 程大学硕士学位论文 用本体提供的语义集成方法,重点研究基于本体的d e e p w e b 查询接i :3 生成方 法,通过研究以本体作为其语义集成的基础,深入地分析网页表单的结构, 采用自底向上的方法建立表单本体和领域本体,从而提出一种基于本体的 d e e p w e b 数据接口模式集成的方法和手段。 本文的主要研究目标有,针对d e e p w e b 数据接口模式集成的研究需要, 基于国内外有关d e e p w e b 数据接1 3 模式集成及本体研究的成果,深入理解和 分析领域本体和表单本体对d e e p w e b 数据接口模式集成的作用,提出一种利 用本体为d e e p w e b 数据接口模式集成提供有效语义理解及集成的方法,将 描述领域概念和关系的本体应用于d e e p w e b 数据接口模式集成中,提出一种 新的d e e p w e b 数据接1 3 模式集成的解决方法;研究利用本体实现d e e p w e b 规格化任务描述的方法;研究高效的接口生成技术;研究利用本体实现 d e e p w e b 数据接口模式集成的方法和技术。 1 。5 本文的组织结构 本文共分四章,结构安排如下: 第l 章为绪论。介绍课题的研究背景及意义;介绍d e e p w e b 的定义及国 内外相关的研究工作,d e e p w e b 模式集成所要解决的问题,提出利用本体解 决d e e p w e b 接口模式集成中的语义异构问题;总结分析d e e p w e b 数据接口 模式集成的国内外研究现状。 第2 章是基础理论研究部分。主要介绍了d e e p w e b 接口模式集成及本体 的相关理论研究。先介绍了利用传统的接口模式集成技术所面临的困难以及 接口集成的主要方法。接着,阐述了接口集成中的主要技术模式匹配, 本体部分介绍了本体的概念、作用以及本体的描述语言,最后介绍了本课题 中的重要部分,领域本体和表单本体的定义。 第3 章是本文的核心部分。在前两章理论研究的基础上,提出基于本体 的d e e p w e b 模式集成方法;基于本体的接1 3 模式集成策略和步骤,集成系统 的框架,以及各部分的功能;本章的重点是介绍模型中的关键技术包括本体 映射,表单本体构建与映射,领域本体构建与映射。最后是查询接口全局模 式的生成。 第4 章是本文所提出方法在航空订票领域的应用,验证本体在解决模式 集成中的语义异构问题应用的可行性、有效性,以及算法的工程实现。 6 哈尔滨工程大学硕士学位论文 第2 章d e e p w e b 接1 3 模式集成及本体相关研究 本章通过对d e e p w e b 接口模式集成的研究,阐述在d e e p w e b 接口模式 集成中的主要问题,简要介绍接口模式集成的主要方法。接着介绍d e e p w e b 接口模式集成的般步骤及相关技术。最后介绍了本体的相关研究。 2 1 接口模式集成的主要问题和方法 w _ e b 数据库由于在地理上分布、管理上自治、模式上异构,其接口模式 的集成存在着很多的困难,并且随着研究的深入,更多的问题将会显露出来, 针对这些问题的解决方法也会不断被提出。 2 1 1 接口模式集成的主要问题 模式集成就是指对于给定的一个独立开发的模式集合,构建一个全局的 模式视图。研究访问w e b 数据库,给用户提供统一的访问接口,对大量的接 口模式进行集成是一项非常重要的工作。在进行模式集成的过程中,由于需 要集成的接口模式数量巨大,需要处理大量的异构问题,因此模式集成主要 有如下的几个问题。 首先,由于每个查询接口页面都是由不同的作者单独创建的,其所涉及 到的元素的真正语义信息,主要来源于作者或者文档,所以在匹配的过程中 只能依赖模式本身所具有的线索。而模式本身所包含的语义线索通常具有误 导性和歧义性。如何处理模式集成过程中的语义异构问题是模式集成的核心 问题。 其次,模式集成操作可能需要很高的代价。模式集成需要构建一个全局 的模式,这就有一个如何将众多的局部模式对应到全局模式上去的问题,而 解决此问题的主要方法为模式匹配,由于如今的模式匹配方法大多数都只能 处理1 :1 的模式匹配问题,对于m :n 的复杂匹配不能很好的支持,况且由于 w e b 数据库查询接口的数量众多,模式匹配的代价就很高了。 另外,在d e e p w e b 接1 3 模式集成中,由于d e e p w e b 都是独立开发的数 据源,具又较高的自治性,因此描述接口的数据模型或存储结构经常会出现 不同的情况,使得不同接口模式的匹配变得比较困难。同时,w e b 数据库的 7 哈尔滨工程大学硕士学位论文 自治性和接口模式匹配的复杂性也加大了模式匹配的难度。 最后,w e b 数据库的查询接口的自治性,同时由于这些查询接口的编写 方式的多样性,使得如何适当的描述这些接口变得比较困难,用何种方式描 述w e b 数据库查询接口也是一个具有挑战性问题。 总之,d e e p w e b 查询接1 2 1 模式集成过程中虽然存在着很多的问题,然而 正是由于这些问题才需要我们对其进行深入的研究。接下来的一节将对 d e e p w e b 查询接1 2 1 模式的主要集成方法做一个介绍。 2 1 2 接口模式集成的主要方法 随着d e e p w e b 相关研究的不断深入,接口模式集成也得到了广泛研究。 目前对查询接口的集成主要是手工的方式,这虽然可以获得比较高的准确率, 但是在大规模的集成查询接口的情况下效率就难以得到保证,自动的进行查 询接口模式的集成就显得很有必要。对于查询接口自动集成的实现方式上可 分为两类,一类是局部集成方式,即基于给定的查询接口集合,分析属性的 隐含信息,特别是语义信息,在它们之间作属性的匹配,得到全局的接口; 另一类是整体集成方式,基于某个特定的主题通过对这个主题范围内的大量 接口处理,最后得到全局查询接口。其中具有代表性的为人民大学的 w s e i n t e g r a t o r 3 4 j 系统和伊利诺斯大学提出的利用统计模式匹配的方案1 3 5 。 w i s e i n t e g r a t o r 是对电子商务进行数据集成的一个系统,该系统的一重 要的组成部分即为接口的集成。首先对每个查询接口进行分析,获取其中的 属性信息,其中使用了w o r d n e t 来辅助进行语义分析过程。接着进行属性匹 配,在完成对所有的查询接口的属性匹配后,要为匹配的属性在集成的查询 接口上确定它的全局名称、类型和取值范围,这样就得到了一个集成查询接 口。该工作虽然来说实现了接口的集成,但是也存在着不足,首先,把查询 接口看作一个平的结构,查询接口上其它丰富的结构信息没有得到充分利用。 其次,只考虑了查询接口之间属性1 :1 的映射,没有考虑现实中查询接口中 存在的大量复杂映射。 利用统计模式匹配的方案,这种方式认为d e e p w e b 中同一个领域的数据 源隐藏着共同的模式模型,这个模型可以刻画出该领域的所有查询接口共同 的特征。基于这个共同的模式模型以整体的方式匹配同一个领域的所有模式。 基于这样一个思想,提出了m g s 模式匹配框架,该框架包括假设模型化、 假设生成和假设选择。假设模型化是定义一个模型,这个模型是针对特定问 8 哈尔滨工程大学硕士学位论文 i t i i i l li = ii ii i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i 题的。假设生成时对所定义的模型的参数设定,由于会产生多个可能的模型, 假设选择则是从这些可能的模型中选择出合适的模型。该方案同时还提出了 查询接口属性相关性的观点:所有属性可分为正相关、负相关和相互独立三 类【3 6 了7 1 。对于如何判断属性之间的相关性的问题,提出了判断标准h m e a s u r e 。 该方法据作者称具有较高的精度,但是其中的不足也是显而易见的,首先在 确定不同的查询接口之间属性对的关系之后要从中选择出最合适的匹配,由 于没有一个统一的标准,没有对每个概念进行准确的定义,难以选择出最合 适的匹配。其次,由于该方案是基于统计的,这就需要大量的同一领域的查 询接口才能保证较高的精度,并且当两个属性总是成对出现时,如:出发城 市和目的城市,如何对它们进行区分作者没有说明。而且,该方法并没有利 用查询接口上的语义信息和结构信息。 2 2d e e p w e b 接口模式集成 d e e p w e b 接l y l 模式集成存在着很多的问题,针对于这些问题也提出了很 多的解决方案,为了便于随后对基于本体的d e e p w e b 接1 :3 模式集成的阐述, 有必要对d e e p w e b 接口模式集成的一般流程及步骤进行一个介绍,同时,通 过一般步骤的介绍,了解其中所使用到的关键技术模式匹配技术。最后介 绍了d e e p w e b 查询接口的模式匹配。 2 2 1d e e p w e b 接口模式集成的一般步骤 接口模式集成的一般步骤主要分为j 如图2 1 : ( 1 ) 接口抽取( i n t e r f a c ee x t r a t i o n ) :对一个给定的h t m l 页面自动抽 取查询接口中的查询属性。 ( 2 ) 模式匹配( s c h e m a m a t c h ) :发现所抽取属性之间的语义相关性。 ( 3 ) 接口集成( i n t e r f a c eu n i f i c a t i o n ) :根据发现的匹配,构建统一的接1 :3 。 1 、接口抽取 ( 1 ) 标记化( t o k e n l i z a t i o n ) :接受网页作为输入,输出最终的语法符 号集( 如:t e x t ,i n p u t b o x ) 。 ( 2 ) 解析( p a r s i n g ) :接受标记,导出基于语法的最大努力树。 ( 3 ) 错误处理( e r r o rh a n d l i n g ) :处理在分析结果中的冲突和错误,由 于语法的内在歧义性,语法解析树有可能有多个,而每个解析树都表示对查 9 哈尔滨工程大学硕士学位论文 il i bj i l li i i i i i i 宣i i i i i i i i i 询结果的一种理解,这样的话就需要对解析树进行相应的剪枝并根据相应的 规则选择正确的语法解析树。 图2 1 接口模式集成的一般步骤 2 、模式匹配 模式匹配主要是发现查询接口中属性之间的语义相关性;基于所有接口 的上下文信息采用模式匹配的方法,发现d e e p w e b 数据接口模式集成中的复 杂匹配,所谓的复杂匹配即指:一个m 个属性的集合与一个具有i 1 个属性的 集合匹配,这个就叫做m :n 匹配。在模式匹配的时候需要对成组的属性进行 相关性挖掘,这是由于成组的属性趋于相互表示,并且在同一领域中是正相 关的,与正相关相对应的有负相关性,即同义属性,由于同义词在同一模式 中是很少同时出现的,或者说是相互排斥的,利用这个特性可以指导匹配工 作的进行。发现复杂匹配的步骤有: ( 1 ) 数据准备:数据准备以抽取的属性作为输入,输出为经过融合语义 上相似的属性以后所得到的干净的数据。 ( 2 ) 双重挖掘( d u a lm i n i n g ) - 通过双重挖掘正相关和负相关的属性发 现复杂匹配。 ( 3 ) 匹配选择( m a t c h i n gs e l e c t i o n ) :从挖掘结果中选择最可信并且一 致的匹配。 3 、接口集成 接口集成包括集成接口和局部接口的映射,其主要步骤有: ( 1 ) 代表选择( r e p r e s e n t a t i v es e l e c t i o n ) :在同义属性中选择一个代表。 ( 2 ) 映射构造( m a p p i n gc o n s t r u c t i o n ) :建立集成接口到局部接口的映 射。 1 0 哈尔滨工程大学硕士学位论文 i i i z - - - i i l i i 由上面的d e e p w e b 接口模式集成一般步骤可见模式集成的核心工作是 模式匹配,通过模式匹配发现查询接口属性之间的语义相关性,从而得到匹 配集合,通过对每一个集合选取相对通用的属性代表,最后建立全局的接口 模式,实现局部接口模式的集成。鉴于模式匹配在d e e p w e b 查询接口模式集 成中的重要作用,接下来的几小节将会对这一技术作简要的阐述。 2 2 2 模式匹配原理 模式是指和某个结构相联系的元素的集合。 匹配就是找到分布在两个不同模式中的元素之间的某种映射关系的行 为,可以理解为将两个模式作为参数输入,输出的结果是它们之间的映射关 系,即匹配的结果。 模式匹配是一个涉及知识表示方法、机器学习、信息检索等领域的复杂 问题,匹配过程通常结合一定的启发规则,一般来说无法利用数学公式或者 数学方法来寻找两者之间的对应关系,模式匹配的形式化描述如下【3 3 】: 定义2 - 1 :模式匹配( s c h 锄am a t ( 矗1 i n g ) 为形如m a t c h i n g 2 ,彳) 的函数, 其输入、输出满足下条件: 1 、五 慨,d i ) l s l 为模式信息,d l 为满足模式西的数据实例) 。 2 、五 馒,1 9 2 ) i 岛为模式信息,伤为满足模式& 的数据实例) 。 3 、彳为匹配过程需要利用的辅助信息( 包括词典、本体、人的判断信息 等) ,广义上可认为彳指所有可利用的能帮助更好理解模式语义并协助完成匹 配任务的所有辅助信息。 4 、匹配函数执行过程中先产生模式元素间的候选对应关系集c c ( c a n d i d a t ec o r r e s p o n d e n c es e t ) ,经人工判断最终生成模式元素间确定的对应 关系集d c ( d e c i d e dc o r r e s p o n d e n c es e t ) 并输出。c c 的形式化描述如式 c c = ( s i l s i 2 , s i m ) ls m 允,旯【0 ,1 ) 其中,j 指由模式函中i 个元素按简单 语义规则书写的表达式,| s i | 为模式研的元素个数,若i s l l = m ,则f 1 ,m 】, 最简单的情形为卢1 。勋同岛,若i 岛i - 玎,则歹 1 ,以】。s m 为相似度,且 a i m 【o ,1 】。名为相似度阈值,是由用户指定的系统参数。只有s i m 名时, 才并入集合c c 。 哈尔滨工程大学硕士学位论文 hi i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i 2 2 3 模式匹配分类 由于模式匹配中相关元素语义信息获取的困难,匹配的主观性等问题, 如今模式匹配还需要人工的参与,针对这种半自动化的模式匹配,目前已经 有了相当多的研究方法,并取得了相关的成果。总的来说,这类技术可以分 为两类:基于规则和基于学习。 基于规则的模式匹配,规则是元素之间关系的语言描述或说明,是公式、 定理、法则等总和。早期的基于规则的模式匹配技术通常采用手工方式构建 规则,利用模式信息,通过计算两个模式元素之间相关特征的相似度获得匹 配。基于规则的模式匹配具有这几方面的优点:首先,匹配不需要通过学习 就可以直接得到;其次,基于规则的模式匹配通常直接作用于模式,而不处 理数据实例,具有着较快的匹配速度:第三,在某些情况下基于规则的模式 匹配能够获得较为满意的效果;最后,用户关于领域的有价值的知识可以通 过规则快速准确地得到。 基于学习的模式匹配,利用机器学习或者人工智能等技术使得模式匹配 智能化,使其具有学习的能力,从而使匹配不断优化,基于学习的模式匹配 技术的优点也是显而易见的:首先,基于学习的模式匹配通过学习能够自动 处理一些运行中遇到的问题,具有较好的扩展性;其次,能够有效地利用大 量的数据实例辅助匹配,提高匹配的准
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二甲基亚砜在高新技术材料中的应用展望
- 二甲基亚砜在化学工业中的应用前景
- 城市更新对消费活力的资源引导策略
- 商业空间节假日旅游市场发展建议规划基础知识点归纳
- 商业空间节假日餐饮服务规划基础知识点归纳
- 理赔业务拓展风险基础知识点归纳
- 货场仓储物流项目投融资与财务方案
- 《幼儿教师口语》课件-第五章 幼儿教师教育口语训练
- 老旧厂区改造项目要素保障分析
- 春分文商融合策略
- 2025至2030中国厦门市数字经济行业发展趋势与投资策略研究报告
- GB/T 45451.2-2025包装塑料桶第2部分:公称容量为208.2 L至220 L的不可拆盖(闭口)桶
- 混凝土回弹考试题及答案
- 初级美甲笔试题及答案
- 分润协议合同模板
- 多式联运物流模式下的智能运输管理系统开发方案
- 2025年钢轨焊接工(铝热焊)-技师职业技能鉴定理论考试题库(含答案)
- 2022反恐怖防范管理防冲撞设施
- 2025年不良资产经营行业分析报告
- 土木工程专业外文文献及翻译
- 实习三方协议电子版(2025年版)
评论
0/150
提交评论