




已阅读5页,还剩76页未读, 继续免费阅读
(计算机应用技术专业论文)dwiis系统中查询接口集成机制的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
=:,、t 鏊#-t” at h e s i si nc o m p u t e r a p p i i c a t i o nt e c h n o l o g y r e s e a r c ho f q u e r yi n t e r f a c ei n t e g r a t i o nm e c h a n i s mi n d w i i s s y s t e m b yw a n gs h e n g q u a n s u p e r v i s o r :a s s o c i a t ep r o f e s s o rg a o k e n i n g n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 1ljji一|0 独创性2 声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中 取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表 或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 学位论文作者签名:王盛全 日期:o 口矿 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年口一年口一年半口两年影 学位论文作者签名:王盛落 导师签名: 签字日期: p 牙 签字日期: j 蠹 东北大学硕士学位论文摘要 d w i i s 系统中查询接口集成机制的研究。 摘要 随着网络规模在全球的迅猛发展,i n t e r n e t 上的信息资料目前在以爆炸性的趋 势增长,网上的d e e pw e b 站点越来越多,并且还在迅速地增长。d e e pw e b 数据 库通过查询接口向用户提供信息,但是相同领域的众多d e e pw e b 数据库各自独 立,如果用户想要查询某领域的信息,需要费时费力地逐个查询每个相关的数据 库,所以有必要把同一领域内众多相关d e e pw e b 站点进行集成,为用户提供一 个集成的查询接口。d w i i s 系统是一个d e e pw e b 信息集成系统,为用户提供了 一个“一站式”访问w e b 数据库的途径。 在d w i i s 系统的实现中,本文提出一种基于结构特征的d e e pw e b 查询接口集 成机制,该机制针对接口的结构差异问题,通过查询接口获取工具对接口表单进 行分析得到带有结构特征的查询接口模式树,对模式树进行序列化得到模式集属 性序列,按属性序列顺序进行模式匹配得到相似度矩阵,最后借助矩阵运算实现 集成接口的构建,从而实现自动化的d e e pw e b 查询接口集成,能够最大限度的提 高匹配程度。 本文首先提出了带有结构特征的树状查询接口模型,在查询接口模式的构建 过程中需要提取表单的结构特征,进而给出了原子属性和复合属性概念,描述了 基于结构特征的d e e pw e b 查询接口模式获取流程;其次,阐述了模式匹配方法, 完成对相同领域不同模式中属性的相似度计算,通过模式树的结构特征对属性进 行后序遍历生成属性序列,进一步按顺序实现复合属性间的相似度计算,得到相 似度矩阵;最后,将相似度矩阵转换成等价矩阵,利用等价矩阵及矩阵运算实现 集成接口的构造过程。集成过程中等价属性需要解决大量的冲突,本文对常见冲 突进行了分类并提出了解决策略,最终由集成模式生成集成的查询接口,实现 d e e pw e b 查询接口的集成。实验表明,本文所提出的技术能够高速、准确地支持 d e e pw e b 集成数据查询。 关键词:d e e pw e b i 查询接口集成;查询接口模式;结构特征;模式匹配 - l , 东北大学硕士学位论文 a b s t r a c t r e s e a r c ho fq u e r y i n t e r f a c ei n t e g r a t i o n m e c h a n i s mi nd w i i s s y s t e m a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h eg l o b a ln e t w o r k ,i n f o r m a t i o no ni n t e r n e ti s g r o w i n ge x p l o s i v e l y d e e pw e bs i t e so ni n t e r n e ta r em o r ea n dm o r e ,a n dt h en u m b e r o ft h e mi ss t i l lg r o w i n gr a p i d l y d e e pw e bd a t a b a s e sp r o v i d et h ei n f o r m a t i o nt ou s e r s t h r o u g hq u e r yi n t e r f a c e s ,b u tm a n yo ft h e mi nt h es a m ed o m a i na r ea u t o n o m o u s i t w o u l dt a k eg r e a te f f o r ta n dl o n gt i m et oq u e r yi n f o r m a t i o ni nac e r t a i nd o m a i nb y q u e r y i n ge a c hi n d i v i d u a lr e l e v a n td a t a b a s e t h e r e f o r e ,i ti sn e c e s s a r yt oi n t e g r a t et h e m a n yd e e pw e bs i t e s o ft h es a m ed o m a i na n dt op r o v i d eu s e r sw i t ha ni n t e g r a t e d i n t e r f a c e t h ed w i i ss y s t e mi sad e e pw e bi n f o r m a t i o ni n t e g r a t i o ns y s t e m ,w h i c h p r o v i d e su s e r sw i t ha “o n e - s t o p ”w a yt oa c c e s st h ew e bd a t a b a s e s i nt h ei m p l e m e n t a t i o no ft h ed w i i ss y s t e m ,t h i st h e s i sr a i s e sas t r u c t u r ef e a t u r e b a s e di n t e g r a t i o nm e c h a n i s mf o rd e e pw e bq u e r yi n t e r f a c e s t oa d d r e s st h ei s s u e so f d i f f e r e n c e si nt h e i n t e r f a c es t r u c t u r e s ,t h em e c h a n i s ma n a l y z e sa n df o r m sas c h e m a t r e eo fq u e r yi n t e r f a c eb a s e do ns t r u c t u r ef e a t u r e sb yt h et o o lo fq u e r yi n t e r f a c e a c q u i r i n g t h e ni ts e r i a l i z e st h es c h e m at r e et og e ta na t t r i b u t es e q u e n c eo fs c h e m as e t , a n dc a r r i e so u tt h es c h e m am a t c h i n gb yt h eo r d e ro fa t t r i b u t es e q u e n c et og e tt h e s i m i l a r i t ym a t r i x f i n a l l y ,i tu t i l i z e st h em a t r i xc o m p u t a t i o nt or e a l i z et h ec o n s t r u c t i o n o fi n t e g r a t e d q u e r yi n t e r f a c e c o n s e q u e n t l y ,t h i sm e c h a n i s m h a sa c h i e v e dt h e a u t o m a t i ci n t e g r a t i o no fd e e pw e bq u e r yi n t e r f a c e s ,a n dc a ni n c r e a s et h em a x i m u m m a t c h t h i st h e s i sf i r s t p r o p o s e s at r e eb a s e dq u e r yi n t e r f a c em o d e lw i t hs t r u c t u r e f e a t u r e s i n t h ep r o c e s so fc o n s t r u c t i n gq u e r yi n t e r f a c es c h e m a ,e x t r a c t i n gs t r u c t u r e f e a t u r e so ft h ef o r mi sr e q u i r e d ,a n dt h e nt h ec o n c e p t so fa t o ma t t r i b u t ea n dc o m p l e x a t t r i b u t ea r eb r o u g h ti n t h i st h e s i sd e c r i b e st h ep r o c e d u r eo fs t r u c t u r ef e a t u r eb a s e d s c h e m aa c q u i s i t i o no fd e e pw e bq u e r yi n t e r f a c e s e c o n d l y ,i te l a b o r a t e st h em e t h o d o fs c h e m am a t c h i n g ,a n d c o m p l e t e s t h es i m i l a r i t yc o m p u t a t i o no fa t t r i b u t e si n d i f f e r e n ts c h e m a so ft h es a m ed o m a i n i tt r a v e r s e st h ea t t r i b u t e si nt h ep o s to r d e r b a s e do nt h es t r u c t u r ef e a t u r e so fs c h e m at r e e st og e n e r a t et h ea t t r i b u t es e q u e n c e s , i l l a n dt h e nc o m p l e t e st h e s i m i l a r i t yc o m p u t a t i o no fc o m p l e xa t t r i b u t e sb yt h eo r d e r t o r e c e i v et h es i m i l a r i t ym a t r i x f i n a l l y ,i t t r a n s l a t e st h es i m i l a r i t ym a t r i xi n t o t h e e q u i v a l e n c em a t r i x ,a n d i tr e a l i z e st h e c o n s t r u c t i o no fi n t e g r a t e d i n t e r f a c eb y e a u i v a l e n c em a t r i xa n dm a t r i xc o m p u t a t i o n i nt h ep r o c e s so fi n t e g r a t i o n ,t h e r e a r e n u m e r o u sc o n n i c t sb e t w e e ne q u i v a l e n ta t t r i b u t e s t os e a l e t h et h e s i se l a s s i f i e st h e c o m m o nc o n n i c t sa n dr a i s e s ar e s o l v i n gs t r a t e g y f o re a c hc o n f l i c t e v e n t u a l l y , i n t e g r a t e di n t e r f a c e i sg e n e r a t e dt h r o u g hi n t e g r a t e ds c h e m a ,w h i c hc o m p l e t e st n e i n t e g r a t i o no fd e e pw e bq u e r y i n t e r f a c e t h ee x p e r i m e n tr e s u l ts h o w st h a t t h e t e c h n o l o g yi nt h i st h e s i sc a nb ei n f a v o ro fq u e r y i n gf o rd e e pw e b d a t aw i t hh l g h s p e e da n da c c u r a c y k e y w o r d s :d e e pw e b ;q u e r yi n t e r f a c ei n t e g r a t i o n ;q u e r yi n t e r f a c es c h e m a ;s r u c t u r e f e a t u r e ;s c h e m am a t c h 一一 一1 i r , 卜 l i 蔓韭垄堂塑士学位论文 目录 目录 独创性声明i 摘 要i i a b s t r a c t i i i 第一章绪论1 1 1 研究背景1 1 2 研究内容3 1 3 本文组织:5 第二章研究基础7 2 1d e e pw e b 数据集成概述。7 2 1 1 d e e pw e b 概念一7 2 1 2d e e pw e b 数据集成9 2 1 3d e e pw e b 查询接口集成1 l 2 2 模式集成框架1 2 2 3d w i i s 系统框架1 4 2 4 小结16 第三章d e e pw e b 查询接口集成机制17 3 1 d e e pw e b 查询接口1 7 3 2d e e pw e b 查询接口模型1 9 3 2 1 模型描述1 9 3 2 2 相关定义2 0 3 3d e e pw e b 查询接口集成机制2 2 3 3 1 查询接口集成总体流程2 2 3 3 2 查询接口集成实现方法2 4 3 4 小结2 6 第四章查询接口模式获取方法2 7 4 1 查询接口模式获取流程2 7 4 2 查询表单特征识别策略2 8 4 3 查询表单特征获取方法3 3 4 3 1 查询表单获取3 3 4 3 2 查询表单特征抽取3 4 4 4 查询接口模式生成方法3 7 , 一v 一 东北大学硕士学位论文 目录 4 5 小结。:3 8 第五章d e e pw e b 查询接口集成方法_ j o - :j 己:- 黑:v 3 9 5 1 模式匹配3 9 5 1 1 模式匹配方法3 9 5 1 2 相似度计算4 3 5 1 3 模式匹配相关算法4 6 5 2 集成模式构造4 9 5 2 1 集成模式构造方法。4 9 5 2 2 冲突分类及解决策略5 1 5 3 小结5 6 第六章实验设计与实验结果的分析5 7 6 1 实验数据5 7 6 2 测试标准5 7 6 3 实验结果与分析j 5 8 6 3 1 查询接口模式获取实验5 8 6 3 2 查询接口集成实验6 0 6 4 ,j 、结6 2 第七章结论6 3 参考文献6 5 致谢6 9 一v i 4 东北大学硕士学位论文 第一章绪论 第一章绪论弟一早瑁y 匕 本章主要介绍了d e e pw e b 查询接口集成技术的发展背景、必要性、以及研 究内容和本文的组织结构。 1 1 研究背景 随着w o r l dw i d ew e b 的飞速发展,其中蕴含了海量的信息可供人们利用。 在w e b 领域的研究目的在于发展新的技术可以有效地从w e b 中获取有用的信 息。w e b 中的信息主要通过网页的形式对外发布,而由文本和超链接构成的网页 有其独特之处;数量惊人,信息丰富;由不同的个人或群体开发,形式与内容有 很大的差异;分布在全球i n t e r n e t 连接的每一个角落,这就造成了w e b 数据的异 质性和缺乏结构性。正是由于这个原因,使得自动地从中获取有价值的信息和数 据变成一件十分具有挑战性的任务。到目前为止,为有效地利用w e b 上的信息而 采用的方法涉及了广泛的领域:数据挖掘、机器学习、自然语言处理、统计分析、 数据库和信息检索等。 整个w e b 看似杂乱无章,但如果按其所蕴涵信息的“深度 可以划分为s u r f a c e w e b 和d e e pw e b 两大部分。s u r f a c ew e b 是指通过超链接可以被传统搜索引擎 索引到的页面的集合。d e e pw e b 是指w e b 中不能被传统的搜索引擎索引到的那 部分内容。广义上来说,d e e pw e b 的内容主要包含4 个方面: ( 1 ) 通过填写表单形成对后台在线数据库的查询而得到的动态页面; ( 2 ) 由于缺乏被指向的超链接而没有被搜索引擎索引到的页面,大约占整个 比例的2 1 3 : ( 3 ) 需要注册或其它限制才能访问的内容; ( 4 ) w e b 上可访问的非网页文件,比如图片文件、p d f 和w o r d 文档等。 而在实际应用中,人们则更关注于d e e pw e b 中的第一部分内容。其原因不 难理解,这部分内容对结构化数据的集成更有意义,可以采用的技术也更丰富。 d e e pw e b 数据集成也主要是指对结构化信息的集成。同时把w e b 中可访问的在 线数据库称为w e b 数据库或w d b 。这些内容只有在被查询时才会由w e b 服务器 动态生成页面,把结果返回给访问者,因此没有超链接指向这些页面,这是和那 些可以被直接访问的静态页面的根本区别。随着w e b 相关技术的日益成熟和 d e e pw e b 所蕴含信息量的快速增长,通过对w e b 数据库的访问逐渐成为获取信 1 东北大学硕士学位论文 第一章绪论 息的主要手段,而对d e e pw e b 的研究也越来越受到人们的关注。 目前国内对d e e pw e b 的搜索与挖掘方面的研究尚处于学习、跟踪和探索阶 段。国内该领域的研究单位及相关报道非常少。由于搜索引擎目前还不能提供对 d e e pw e b 的搜索服务,分类目录服务是目前检索d e e pw e b 的一个途径,国内也 出现一些d e e p w e b 分类目录服务站点,但尚处于手工处理阶段,还不能实现自动 化或半自动化索引处理。 而国外仅有d e e p w e b ,i n v i s i b l e w e b ,b r i g h t p l a n e 三家公司生产相关产品。 经过对比分析得出:这几家公司的产品采用半自动方式,人工干预较多。他们在 产品中加入d e e pw e b 信息挖掘功能,但目前还没有中文d e e pw e b 信息服务。 华盛顿大学的s h o p b o t t 2 j 研究小组:s h o p b o t 是一个针对消费产品的比较代 理,它利用特定领域的启发式方法来填写表单以比较其领域内的商业产品。其聚 焦于处理卖主站点的表单提交页面所返回的的产品列表。s h o p b o t 操作分为两个 阶段:离线学习阶段和在线产品比较阶段。在学习阶段,确定如何填写站点表单, 以及对产品站点结果页面进行分析获取其站点模式信息。在比较阶段,利用得到 的站点模式结构来抽取结果信息,寻找满足用户要求价格最优的产品,最终将这 些产品信息格式化输出。可以看出其研究领域非常狭窄,不适用于大规模的信息 集成。 斯坦福大学的w e b b a s e f 3 】研究小组:d a v u l c 等人很早就提出了设计w e b b a s e 的框架,它可以通过工具帮助用户实现特定领域复杂搜索服务。 斯坦福大学的h i w e t 4 j :h i d d d e nw e be x p o s e r ( h i w e ) 是s t a n d f o r d 大学另一个 研究项目。r a g h a v a na n dg a r e i a m o l i n a 设计了一种可以抽取d e e pw e b 信息的爬 虫。在此系统中爬虫管理器负责管理搜集过程。它对下载的w e b 页面进行分析, 包含表单的页面被送到表单处理器中处理。表单处理器首先从页面中抽取表单结 构再从预先准备好的数据集中选择数据自动地完成表单的填写,然后将合成的 u r l 提交爬虫管理器去下载响应的结果页面。由于需要系统自动完成表单填写, 所以要求用户预先准备相应的表单数据集。h i w e 只能面向特定的领域使用,而 且必须在人工辅助下完成。因此存在很大的局限性。 哥伦比亚大学的q p r o b e r 研究小组:哥伦比亚大学的p a n a g i o t i sg i p e i r o t i s 等 人研究了自动地将w e b 页面所连接的后台数据库进行分类的方法。它首先使用机 器学习技术生成一套基于规则的分类器( c l a s s i f i e r ) 。然后抽取分类器规则和基本 u r l 组合成查询u r l ,对后台数据库进行查询探测,计算查询结果数。他们的算 法最后根据查询结果数对数据库进行分类。其研究只集中在怎样针对文档数据库 的分类上面,而大量的d e e pw e b 数据库提供的内容是结构化的数据。 伊利诺斯大学m e t a q u e r i e r 5 】研究小组:该小组建立一个元查询系统 2 - 一 _ k 东北大学硕士学位论文第一章绪论 ( m e t a q u e r y ) ,目标是有效获取w e b 上结构化的信息。首先,m e t a e x p l o r e r 项目聚 焦于发现、模型化和重构w e b 数据库,来建立一个可搜索的数据源知识库。特别是, m e t a q u e r y 系统开发了一个w e b 数据库搜索引擎,它可以有效发现w e b 上含有 数据库的站点,设计模型来描述这些数据库,设计包装器自动抽取这些模型中的 参数,重组和索引可搜索的w e b 数据库。其次,m e t a e x p l o r e r 项目聚焦于集成在 线数据库。同时还研究了数据源选择,查询转换和模式集成问题。在研究大规模 信息集成的过程中将依赖于前面所建立的数据源知识库,其重点研究了动态信息 集成技术。与传统的信息检索不同,所设计的m e t a q u e r y 系统是动态的,即可以 将实时发现的新数据源加入系统中,同时动态选择数据源将用户查询进行相应转 换,从而获取用户查询结果。 微软亚洲研究院第三代搜索引擎:微软亚洲研究院早在2 0 0 4 年就提出抽取基 于关键字接1 2 1d e e pw e b 信息【6 j 。近来提出的第三代搜索要对深层互联网搜索与 挖掘,不仅找到更多的结果,而要更加智能化、人性化、更加精确、能够理解用 户需要什么结果。比如用户要搜索奥迪a 8 相关信息,除了有用的网页和几家广,毛 告以外,第三代搜索引擎还可提供多个表格会告诉你哪几家在卖奥迪a 8 ,价位是 薯 怎么样的,多长时间能够提货,地图和交通路线是什么,距离你的位置有多远, 哪家在网上的评价最好等信息。 1 2 研究内容 d e e pw e b 的海量信息存储在大量的w e b 数据库中。每个w e b 数据库中的数 据都要通过查询接口来访问,为了能够同时访问多个w e b 数据库中的数据,需要 把每个w e b 数据库的查询接口进行集成并得到一个统一的集成接口。通过在集成 接口上提交查询,就达到了同时在多个w e b 数据库的查询接口提交查询的目的, 于是对d e e pw e b 查询接1 2 集成技术的研究具有重大的意义。本文的主要目的就 是研究一种d e e pw e b 查询接口集成机制,对属于同一领域的查询接口属性进行 分析,从中找到相匹配的属性,实现一个通用性好,准确率高的d e e pw e b 查询 接口集成系统。 本文的研究内容主要涉及以下几个方面: ( 1 ) 基于树状结构的查询接口模型 查询接口通常以h t m l 查询表单的形式出现在网页中。传统的方法把查询接 口看作是一个平的结构,然而实际上查询接口具有很丰富的结构信息。一个查询 表单可用树状结构来描述,树的根节点为查询表单,叶子节点为简单表单控件, 非叶子节点为控件集合。根据查询表单的结构特征,本文提出一种基于树状结构 3 - 东北大学硕士学位论文 第一章绪论 的查询接口模型,使查询接口树状结构与查询表单树状结构相对应。在查询接口 树状模型中,树的根节点为查询接口,叶子节点为查询接口,叶子节点为原子属 性,非叶子节点为复合属性。基于树状结构的查询接口模型是实现查询接口模式 匹配的基础。 ( 2 ) 查询接口模式的获取 在d e e pw e b 查询接e l 模式获取的流程中,对网页表单的解析和表单特征元 素提取这两个步骤是非常关键的,但是因为目前各个网站的代码组织形式不尽相 同,想在形式各异的不同网页中全自动的准确地提取表单特征元素是十分复杂和 困难的。本文提出一种查询接口模式获取方法,在获取目标查询接口所在网页的 代码之后,根据查询表单特征识别策略,可以有效地识别查询表单的特征元素, 以此构造查询接口对象,并生成查询接口模式。 ( 3 ) 基于模式树后序遍历的模式匹配 传统的模式匹配技术仅适合处理属性l :l 的简单匹配问题,然而在缺少语义 等重要信息情况下已经不能满足属性m :n 的复杂模式匹配的精确性。为解决这 个问题,本文结合查询接口树状模型,提出一种基于模式树后序遍历的模式匹配 方法,不但可以准确地识别原子属性间的简单匹配关系,还可以有效地识别复合 属性间的复杂匹配关系,解决了接口模式匹配中基数为m - n 的复杂匹配问题。 此方法不仅考虑了查询接口的语义信息和模式信息,同时结合了查询接e l 的结构 信息,有效地实现了复杂匹配。 ( 4 ) 基于模式矩阵的集成模式构造 传统的集成模式构造方法大多采用单纯的聚类的方法实现,这种方法虽然有 效,但是易操作性和可理解性不好。本文集成模式构造方法利用模式匹配过程得 到的相似度矩阵,将相似度矩阵转换成等价矩阵,之后借助等价矩阵的运算辅助 实现模式集成过程。因为矩阵运算用计算机实现简便,可理解好,在一定程度上 提高了集成处理的效率。通过矩阵运算得到集成模式矩阵,可以一次性得到属性 等价类的集合,在每个等价类中解决冲突后,就可以生成集成模式了。该方法利 用矩阵运算实现集成,不但保证了模式集成的准确率,而且简化了操作过程,提 高了集成处理的效率。 ( 5 ) 属性冲突分类及解决策略 传统的查询接口集成工作只关注于解决查询接口属性的标签冲突( 标签名字 冲突、标签语义冲突等) ,从而建立集成模式。由于d e e pw e b 查询接口的特殊 性,查询接口间的冲突有很多种,例如属性格式冲突、属性值类型冲突等,忽略 了这些冲突将导致无法正确完整的集成查询接口。本文给出查询接口集成中属性 冲突分类的框架,并就每一种冲突给出相应的解决策略,为查询接口集成奠定了 4 东北大学硕士学位论文第一章绪论 良好的基础。 o ,、呻确铷、 麟扎vf 巍 1 3 本文组织 本文的组织结构如下:第2 部分介绍了相关工作;第3 部分介绍了d e e pw e b 查询接口集成机制;第4 部分介绍了查询接口获取方法;第5 部分给出d e e pw e b 查询接口集成过程中模式匹配和集成模式构造的方法,并给出相关算法:第6 部 分为实验结果;第7 部分为本文的结论。 在深入研究w e b 信息特点和d e e pw e b 数据集成原理的基础上,本文提出了 基于结构特征的d e e pw e b 查询接口集成机制,用于d w i i s 系统中d e e pw e b 查 询接口集成的实现。主要研究的核心内容是:基于树状结构的查询接口模型、查 询接口模式的获取、基于模式树后序遍历的模式匹配、基于模式矩阵的集成模式 构造、属性冲突分类及解决策略。 本文针对同一领域的d e e pw e b 查询接口进行集成处理,实现了d w i i s 系统量 中d e e pw e b 集成查询接口的自动生成。实验表明,本文提出的d e e pw e b 查询接 口集成技术具有较高的准确率及效率。 本文共分为七章: 聱 第一章主要给出d e e pw e b 研究的背景、论文的研究目标和研究内容,并给 出了本文的组织结构。 第二章概述了d e e pw e b 数据集成、模式集成的框架和d w i i s 系统框架。首 先给出了d e e pw e b 和d e e pw e b 数据集成的概念,并概述了d e e pw e b 查询接口 集成框架:接着阐述了模式集成的基本流程和框架;最后给出了d w i i s 系统框架, 它是本文研究的应用环境。 第三章主要阐述了d e e pw e b 查询接口的集成机制。首先概述了d e e pw e b 查询接口;接着提出了基于树状结构的查询接口模型并给出了相关的定义;最后 给出了d e e pw e b 查询接口集成机制的流程,并提出本文实现d e e pw e b 查询接口 集成的方法。 第四章主要阐述了d e e pw e b 查询接口获取方法。首先给出查询接口模式获 取流程;接着提出查询表单的特征识别策略;之后给出查询表单识别的获取方法; 最后根据获取的表单特征给出查询接口模式的生成方法。 第五章主要阐述了d e e p 查询接口集成方法。首先给出模式匹配方法,并给 出了相似度计算公式和模式匹配中用的的相关原理和算法;接着阐述了集成模式 的构造方法,并给出属性冲突的分类及解决策略:最后由集成模式给出生成集成 查询接口的实现策略。 一5 一 _ 东北大学硕士学位论文笠二兰塑 第六章主要给出实验设计和对实验结果的分析。首先给出了实验数据;接着 给出了测试标准;最后阐述了查询接口模式抽取和查询接口集成的实验设计,并 对实验结果进行分析。 第七章对本文做出结论,并且阐明本系统有待改善的部分。 一6 一 , o 。f f “ 东北大学硕士学位论文第二章研究基础 第二章研究基础 帚一早研艽圣们面 本章首先给出d e e pw e b 的概念,并概述d e e pw e b 数据集成和d e e pw e b 查 询接口集成;接着给出模式集成的一般框架;最后阐述d w i i s 系统框架,该系统 是本文研究的平台和基础。 2 1d e e pw e b 数据集成概述 随着w w w 的飞速发展,出现了越来越多的在线访问数据库,这些数据库称 作w e b 数据库。在此基础上构成了d e e pw e b ,其蕴含了大量有用的信息,价值 远远超过了仅由网页构成的s u r f a c ew e b 。为了帮助人们快速、准确地利用d e e p w e b 中的海量信息,研究者们已经在d e e pw e b 数据集成方面展开了广泛的研究。 2 1 1d e e pw e b 概念 从w e b 信息集成的角度来看,w e b 网按其分布状况可以分为表层网( s u r f a c e w e b ,也称v i s i b l ew e b 看得见的网站,开放网) 和d e e pw e b ( d e e pw e b ,也称 i n v i s i b l ew e b 看不见的网站,h i d d e nw e b 隐型网) 【7 】。 s u r f a c ew e b 是指通过超链接可以被传统搜索引擎索引到的页面的集合,表 层网指存储在w e b 空间、由超链接连接起来的静态网页、文件等资源,一般来说 通过超链接就可以访问这些资源。这里所说的表层网是指传统网页搜索引擎可以 索引的w e b ,以超链接可以到达的静态网页为主构成的w e b 。 d e e pw e b ,h i d d e nw e b 和i n v i s i b l ew e b 均指同一个概念,它是与s u r f a c ew e b 相对应的概念,最初由dr j i l le l l s w o r t h 于19 9 4 年提出,指那些由普通搜索引擎 难以发现其信息内容的w e b 页面。2 0 0 1 年c h r i s ts h e r m a n 和g a r yp r i c e 对d e e p w e b 定义为:虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能 或不作索引的那些文本页、文件或其他通常是高质量、权威的信息。 d e e pw e b t s l 指那些存储在网络数据库里、不能通过超链接访问而需要通过动 态网页技术访问的资源集合。网络数据库包括搜索引擎数据库、在线专业数据库 及站内搜索数据库,统称为可搜索数据库( s e a r c h a b l ed a t a b a s e ) ,这里简称为 w e b 数据库或w d b ,其内容存储在真正的数据库中。 一7 一 东北大学硕士学位论文 第二章研究基础 f 0 r mp a g e 影 ! 一同一k f 灏o ( 1 ) w e b q u e r y f r o n t e n d :二u 哆 匕= = j 一 = r e s p o n s e p a g e 、 b r o w s e r 图2 1d e e pw e b 数据库查询过程 f i g 2 1t h eq u e r yp r o c e s so fd e e pw e bd a t a b a s e 图2 1 为d e e pw e b 数据库查询过程,根据数据统计,d e e pw e b 里包含的可 访问公共信息容量是人们熟知的表层网的4 0 0 5 0 0 倍p 】。现有的d e e pw e b 站点 估计超过1 0 0 ,0 0 0 个,包含5 5 0 0 亿独立文档,7 5 0 0 t b 的信息,6 0 个最大d e e pw e b 站点就已包含7 5 0 t b 信息,而d e e pw e b 相对应的表层网只包含10 亿个,包含的 信息容量只有1 9 t b 。d e e pw e b 超过表层网所包含信息的4 0 倍。平均来看,d e e p w e b 站点的月访问量比表层网站点高出5 0 ,并且与表层网站点相比有更多的链 接。可是那些典型的大型d e e pw e b 站点在互联网搜索领域却不知名。 d e e pw e b 是互联网新信息增长的最大来源,超过一半的d e e pw e b 内容都保 存在专业领域的数据库中,其信息内容范围上比一般表层网站点更专更深,包含 的有效高质内容总量至少是表层网的1 0 0 0 到2 0 0 0 倍【l ,而且9 5 的d e e pw e b 信息都是面向公共访问的,而不需要付费或者订阅。 该白皮书还指出,当前最大的搜索引擎只索引了表层网中的1 6 信息量,而 如果算上那些无法被传统搜索引擎索引的d e e pw e b 中的信息,那么一般搜索引 擎只能搜索o 0 3 的w e b 信息。 在某些方面d e e pw e b 和s u r f a c ew e b 相类似,如规模大,增长速度块。多样 性,然而在其它方面人仍存差异。d e e pw e b 信息一般存储在数据库中,和s u r f a c e w e b 相比信息量更大,主题更专一,信息质量更高,信息结构化更好【1 1 1 。 由此可以看出d e e pw e b 所含信息量要比s u r f a c ew e b 信息量多的多,d e e p w e b 后台数据库多是结构化的关系数据库,因此信息的质量要比非结构化的数 据要高【1 2 】。可见,研究和挖掘d e e pw e b 对于提高搜索覆盖率和准确率有着非常 重要的意义。然而不能直接使用数据库技术管理和查询这些数据。 d e e pw e b 的重要性在于其容量大、高质量和专业性,网络使用者应该认真使 一8 一 r t : o 东北大学硕士学位论文第二章研究基础 用d e e pw e b 的资源。有时,检索人员只能从d e e pw e b 中找到答案。所有这些使 得d e e pw e b 的存在比以往显得更必要。而超越普通搜索引擎或者网页目录而使 用d e e pw e b 资源的理由如下: ( 1 ) d e e pw e b 能给出具体的主题方案,并非一个笼统的结论。 ( 2 ) 大多数d e e pw e b 的信息提供商通过提供尽可能多的相关资料和参考书 目给出检索主题,提供更加全面的信息。 ( 3 ) d e e pw e b 更注重界面设计,更多地控制了搜索的输入和输出,这使得 他们使用起来更简洁,更有效率。 ( 4 ) 与表层网不同,d e e pw e b 有很强的权威性,并且这些信息从其他网页 上不易找到。 ( 5 ) d e e pw e b 上的搜索策略等级中通常没有考虑商业因素,其结果可以排 列成与其内容关联得更加紧密的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论