




已阅读5页,还剩62页未读, 继续免费阅读
(信号与信息处理专业论文)deep+web信息集成关键技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着万维网的迅速发展,w e b 中蕴藏着海量信息。研究表明, d e e pw e b 蕴藏的信息量是s u r f a c ew e b 的5 0 0 多倍。因此,对d e e pw 曲 中的信息进行处理并加以整合为用户所用已经成为w e b 信息检索领 域的一个新兴研究热点。 本文介绍了d e e pw e b 信息集成领域的研究背景、研究现状,对 d e e pw e b 信息集成的几项关键技术进行了研究。 首先对聚焦爬虫进行改进,设计一个基于主题的查询接口发现聚 焦爬虫对d e e pw 曲中的查询接口进行发现;然后采用基于权重值计 算的方法对d e e pw 曲中查询接口进行集成,分别讨论了l :1 和n :m 两种匹配情况,对匹配过程中的权重值计算方法进行了改进,采用知 网概念模型中的词语相似度计算方法对匹配过程中遇到的标签及属 性名进行相似度计算,解决了一般方法无法考虑词语概念相似度的问 题;最后将移动a g e n t 技术引入到d e e pw e b 查询处理中来,设计了 一个基于移动a g e n t 的查询处理框架,采用移动a g e n t 技术降低了查 询处理模块对带宽和网络延时的要求,同时为d e e pw e b 分布式查询 处理提供了新思路。 关键词d e e pw 曲,查询接口发现,查询接口集成,查询处理 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fw o r l dw i d ew e b ,t h ew e bc o n t a i n sa g r e a t a m o u n to fi n f o r m a t i o n o n e i n v e s t i g a t i o n s h o w st h a tt h e i n f o r m a t i o no f d e e p w e bi sm o r e5 0 0t i m e st h a ns u r f a c e w e b s t h e r e f o r e ,i n t e g r a t i n gt h ev a s ti n f o r m a t i o n i nd e e pw e bh a s b e c o m ean e wr e s e a r c hh o t s p o ti nt h ew e bi n f o r m a t i o nr e t r i e v a lf i e l d i nt h i sp a p e r ,s o m ek n o w l e d g eo fs t u d yb a c k g r o u n da n dp r e s e n t s t a t u sa r ei n t r o d u c e d ,a n ds e v e r a lr e s e a r c ho fd e e pw e bk e yt e c h n o l o g y a r ec o n d u c t e d f i r s t l y ,t h ef u n c t i o no ft r a d i t i o n a lf o c u s e dc r a w l e ri si m p r o v e d ,a f o c u s e dc r a w l e rb a s e do nt o p i ct a x o n o m yi sd e s i g n e dt oc o n d u c td e e p w e bq u e r yi n t e r f a c ed i s c o v e r y s e c o n d l y ,t h ew e i g h t - b a s e dm e t h o dt o i n t e g r a t ed e e pw e bq u e r yi n t e r f a c ei sa d o p t e d t h em e t h o do f1 :1a n d n mm a t c h p r o c e s s i n g a r ed i s c u s s e d ,a n dm o d e lo ft h eh o w n e t c o n c e p t i o ni su s e dt os o l v et h es i m i l a r i t yc o m p u t i n go fl a b e la n da t t r i b u t e n a m ea n di m p r o v et h ew e i g h t b a s e dm e t h o d f i n a l l y ,i n t r o d u c t i o no f m o b il e a g e n tt e c h n o l o g yt od e e pw e bq u e r yp r o c e s s i n g ,aq u e r y p r o c e s s i n gf r a m e w o r kb a s e do nm o b i l ea g e n ti sd e s i g n e d t h ea d o p t i o n o fm o b i l ea g e n tt e c h n o l o g yr e d u c e st h e q u e r yp r o c e s s i n gm o d u l e s d e m a n do fb a n d w i d t ha n dn e t w o r kd e l a y ,a n dp r o v i d e san e wt h o u g h t t od e e pw e bd i s t r i b u t i o nq u e r yp r o c e s s i n g k e yw o r d sd e e pw e b ,q u e r yi n t e r f a c ed i s c o v e r y , q u e r yi n t e r f a c e i n t e g r a t i o n ,q u e r yp r o c e s s i n g 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其它人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其它单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均己在论文中作了明确的说明。 作者签名: 日期:兰旦年三月一j 2 1 7 t 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 作者签名:盘塑导师签名血痉嗍醴年月丑日 硕七学位论文第一章绪论 第一章绪论 随着万维网的迅速发展,其中蕴含了海量的信息可供我们利用。根据文献 1 1 最新的调查,目前整个w e b 中的信息量超过了2 0 0 0 0 0 t b 。c n n i c 于2 0 0 8 年1 月发布的第2 1 次中国互联网络发展状况统计报告【2 j 表明,目前中国网 站的总字节数已经达到1 9 8 3 4 8 g b ,而且仍在飞速地增长。对w e b 中的信息进 行集成,帮助用户快速、准确地利用w 曲特别是d e e pw 曲中的海量信息已经 成为信息检索领域的一个新兴研究热点。 1 1 课题研究背景 整个w 曲按照其所蕴涵信息的“深度”可以划分为s u r f a c ew 曲和d e e p w e b 两大部分。以前,人们一直把大部分注意力放在通过传统搜索引擎搜索, 采用超链接可以到达的静态网页为主的s u r f a c ew e b 上。但是除了s u r f a c ew e b , 互联网上有更多因为传统搜索引擎受到技术限制而不能或不做索引的信息,它 们存储在d e e pw r e b 数据库中,只有在被查询时力会由w ,e b 服务器动态生成页 面将结果返回给访问者( 如图1 1 所示) ,通常是高质量、权威的信息,称之为 d e e pw 曲( h i d d e nw 曲或i n v i s i b l ew e b ) 。深层网络这个概念最早由d r j i l l e l l s w o r t h l 3 】于1 9 9 4 年提出,当时称为i n v i s i b l ew e b ,即不可见网络。真正的深 层网络研究始于1 9 9 8 年,l a w r e n c e 和g i l e s 两位美国信息管理专家提出了丌发 深层网络信息资源的构想。 r 赢l 磊f i 填写 浏览 3 i 存线 i i 数据库i l 、 i 结果负血i l 图1 - 1 从d e e pw e b 中获取数据的过程 用户对d e e pw e b 的访问主要是通过其在w 曲页面中提供的具有特定查询 能力的接口来获取所需要的结果。例如太平洋电脑网就是一个典型的商业d e e p w e b 站点,图1 2 为该网站提供的笔记本查询接口( h t t p :n o t e b o o k p c o n l i n e c o r n 彭隆一蠡 硕士学位论文 第一章绪论 c n ) 。如果用户想要查看笔记本的信息,只需在填写该查询接口并进行提交, 网站就会动态生成包含符合该查询条件的查询结果的网页返回给用户。在图1 2 中的查询接口中,共有六个元素:品牌选择、价格、尺寸、c p u 类型、内存容 量、硬盘容量。其中价格元素由两个下拉列表框控件组成。尺寸、内存容量和 硬盘容量元素由多个单选框控件组成。c p u 类型元素由复选框控件组成。 i :i 国斓 控件 c p u 类型:口酷睿2 口酷睿仁= 奔腾_ 口赛扬m 口姗 内存容量:2 5 6 m b 殛以下05 1 z e b k l j 上ol g 及以上 01 s 寸01 7 , - j - # j 上 硬盘容量:o4 0 g b 以下 06 0 0 b l , ;k t ( :8 0 以上01 2 0 g b 以上 二至 亘 ! ! :! i 二 j 至二匿j ! ! :! i 二 ,妻机中心厦甥虎日 图i - 2 查询接口示例 d e e pw e b 根据其产生的原因,可分为以下4 种类型: ( 1 ) 通过填写表单形成对后台在线数据库的查询而得到的动态页面; ( 2 ) 由于缺乏被指向的超链接而没有被搜索引擎索引到的页面: ( 3 ) 需要注册或其它限制才能访问的内容; ( 4 ) w e b 上可访问的非网页文件,比如图片文件、p d f 和w o r d 文档等。 在实际中应用中,人们更关注于d e e pw 曲中的第一部分内容,因为这部 分内容对结构化数据的集成更有意义,可以采用的技术也更丰富。d e e pw e b 数据集成也主要是指对结构化信息的集成。 在2 0 0 0 年7 月,b r i g h t p l a n e t l 4 l 对d e e pw 曲做了一次较为全面的宏观统计, 发布了d e e pw r e b 的白皮书( b r i g h t p l a n e t 对d e e pw e b 的定义主要指的是d e e p w e b 数据库1 ,并从宏观上对d e e pw e b 做了定量的调查统计,下面列出其中部 分的调查结果: ( 1 ) d e e pw 曲蕴含的信息量是s u r f a c ew | e b 的4 0 0 5 0 0 倍。 ( 2 ) 对d e e pw 曲数据的访问量比s u r f a c ew 曲要高出1 5 。 ( 3 ) 超过5 0 的d e e pw e b 的内容是特定于某个域的,即面向某个领域。 ( 4 ) d e e pw r e b 覆盖了现实世界中的各个领域,比如商业、教育、政府等。 ( 5 ) d e e pw 曲上9 5 的信息是可以公开访问的,即免费获取。 u i u c 大学在2 0 0 4 年4 月对整个d e e pw 曲做了一次较为准确的估算【5 1 , 推测整个w e b 上有3 0 7 0 0 0 个提供d e e p w 曲数据库的网站、4 5 0 0 0 0 个d e e pw e b 数据库,比b r i g h t p l a n e t 在2 0 0 0 年估计的5 0 0 0 0 个数据库网站增长了6 倍多。 根据c n n i c 的调查报告【6 】,截止2 0 0 3 年1 2 月3 1 同,全国网站总数为 5 9 5 5 5 0 ,在线数据库的总量为1 6 9 8 6 7 个,全国网站中拥有在线数据库的网站 数为1 0 8 9 8 6 个,约占全部网站的1 8 3 。 2 0 0 6 年5 月1 6 同,国务院信息化工作办公室在北京发布( ( 2 0 0 5 年中国互 硕士学位论文 第一章绪论 联网络信息资源数量调查报告【7 1 。报告显示: 1 全国在线数据库数量 全国在线数据库的总量为2 9 5 4 万个。 表1 - 1 在线数据库数量及分布情况 政府企业商业教育科研个人其它公益其它类互4 网站类型总体 网站 网站 网站网站网站性网站网站 在线数据库 数量( 个) 2 9 5 4 0 02 7 7 7 01 4 8 8 8 01 3 2 9 01 8 9 1 0 6 3 5 1 02 1 5 6 01 4 8 0 ,i 在线数据库 总体比例 1 0 0 9 4 5 0 44 5 6 4 2 1 5 7 3 0 5 2 拥有在线数据库的网站数量 全国网站中拥有在线数据库的网站数为1 7 0 万个,约占全部网站的2 4 5 。 从拥有在线数据库的各类网站比例来看,其它公益性网站中拥有在线数据库的 网站比例最高,达到3 7 8 ;其次为政府网站,比例为3 6 3 ;排第三位的是 商业网站,比例为3 1 7 ;教育科研网站占2 5 1 ;个人网站占2 4 8 。 3 平均每个网站拥有在线数据库数量情况 ( 1 ) 以拥有在线数据库的网站为基数,全国平均每个网站拥有1 7 3 个数 据库。 ( 2 ) 以所有网站为基数,全国平均每个网站拥有o 4 3 个在线数据库。 4 网站拥有不同数量在线数据库的情况 在拥有在线数据库的网站中,6 8 1 的网站只拥有1 个在线数据库;1 8 2 的网站拥有2 个在线数据库;1 3 7 的网站拥有3 个及以上的在线数据库。 5 各类在线数据库的字节数和拥有的记录数 就总体而言,字节数在5 0 m b 以上的数据库占全部数据库的2 8 9 ,记录数 在1 0 0 0 条以上的数据库占全部数据库的2 9 8 。 6 在线数据库收费情况 各类在线数据库的收费睛况如表1 2 所示。 表1 - 2 在线数据库收费情况 企业 科技 金融 期刊 报刊政策 全部人物 图片股票 产品其它 名录 信息论文 新闻法规 信息 免 费 9 1 5 8 9 7 8 3 1 9 0 8 9 0 2 9 3 3 9 3 3 9 1 3 9 5 3 9 4 7 9 6 2 收 费 6 7 1 0 3 9 1 8 5 8 2 6 7 6 7 6 1 4 7 3 5 3 8 皆 有 1 8 7 8 0 7 1 6 2 6 1 8 硕十学位论文第一章绪论 7 在线数据库面向对象情况 从在线数据库的面向对象情况来看,面向社会公众的在线数据库比例最高, 占7 5 1 ;其次是商业机构的在线数据库,比例为6 1 5 ;第三是面向学生的 在线数据库,所占比例为5 1 5 。 1 2 国内外研究现状 自1 9 9 4 年d r j i l le l l s w o n h 提出i n v i s i b l ew e b 这个概念以来,国外针对深 层网页资源的研究相当热烈,而且成果众多。内容涉及理论研究、检索软件、 搜索引擎等,形式有专着、论文、软件及博客等。深层网页资源的潜在价值及 商机已经引起了商界的重视,2 0 0 4 年9 月1 4r ,微软亚洲研究院负责互联网 搜索和数据挖掘的工作人员向记者演示微软在网络搜索技术方面的三大新近 展,其中一个就是从表层万维网到深层万维网,充分利用大量隐藏的高质量信 息【8 】。雅虎也推出了“内容获取项目,该项目意在为d e e pw 曲公共数据库中 的数十亿个网页提供搜索索引1 9 1 。 为了帮助人们快速、准确地利用d e e pw e b 中的海量信息,研究者们已经 在d e e pw 曲数据集成方面展丌了研究。这逐渐成为数据库领域的一个新兴研 究热点。研究者力图提出一种通用的集成方法,可以实现对现实世界各个领域 的d e e pw 曲数据的集成,并在查询接口集成和数掘抽取等方面取得实质性的 进展。近几年来,已有大量的研究成果在s i g m o d 、v l d b 等高级别的国际会 议和期刊上发表。以下的一些研究比较具有代表性。 b r i g h tp l a n e t 公司丌发了用于检索深层网页资源的专业软件l e x i b o t 2 0 ,用 户可将其下载到自己的计算机上,采用关键词串检索,可同时对2 2 0 0 多个网站 和数据库进行检索,检索过程可采用后台操作模式,不影响用户做另外事务。 目前b r i g h tp l a n e t 公司已停止销售该软件,取而代之的是d q m 2 ( b r i g h tp l a n e t s d e e pq u e r ym a n a g e rt m ) ,可根据用户的指令对超过7 0 0 0 0 个深层网页专业数 据库同时进行检索,并实时进行跟踪和监测为用户返回最新研究进展提示,用 户也可根据自己的学科特色进行限制检索,检索到的结果可根据用户需要进一 步管理制作,后续资料可进行追加,是一个较为理想的门户网站建设深层网页 资源采集软件。 斯坦福大学的h i w e i l ,h i d d d e nw e be x p o s e r ( h i w e ) 是s t a n d f o r d 大学一 个研究项目。r a g h a v a na n dg a r c i a m o l i n a 设计了一种可以抽取d e e pw e b 信息 的爬虫。在此系统中爬虫管理器负责管理搜集过程。它对下载的w e b 页面进 行分析,包含表单的页面被送到表单处理器中处理。表单处理器首先从页面中 抽取表单结构再从预先准备好的数据集中选择数据自动地完成表单的填写,然 4 硕十学位论文第一章绪论 后将合成的u r l 提交爬虫管理器去下载响应的结果页面。由于需要系统自动 完成表单填写,所以要求用户预先准备相应的表单数据集。由于h i w e 只能面 向特定的领域使用,而且必须在人工辅助下完成。因此存在很大的局限性。 哥伦比亚大学的q p r o b e r i l lj 研究小组。哥伦比亚大学的p a n a g i o t i s g i p e i r o t i s 等人研究了自动地将w e b 页面所连接的后台数据库进行分类的方 法。它首先使用机器学习技术生成一套基于规则的分类器( c l a s s i f i e r ) 。然后抽取 分类器规则和基本u r l 组合成查询u r l ,对后台数据库进行查询探测,计算 查询结果数。他们的算法最后根据查询结果数对数据库进行分类。其研究只集 中在怎样针对文档数据库的分类上面,而大量的d e e pw e b 数据库提供的内容 是结构化的数据。 伊利诺斯大学m e t a q u e r i e r l l 2 1 研究小组。该小组建立一个元查询系统( m e t a q u e r y ) ,目标是有效获取w e b 上结构化的信息。首先,m e t a e x p l o r e r 项目聚 焦于发现、模型化和重构w e b 数据库来建立一个可搜索的数据源知识库。特 别是,m e t a q u e r y 系统丌发了一个w e b 数据库搜索引擎,它可以有效发现 w e b 上含有数据库的站点,设计模型来描述这些数据库,设计包装器自动抽取 这些模型中的参数,重组和索引可搜索的w e b 数据库。其次,m e t a e x p l o r e r 项 目聚焦于集成在线数据库。同时还研究了数据源选择,查询转换和模式集成问 题。在研究大规模信息集成的过程中将依赖于前面所建立的数据源知识库,其 重点研究了动态信息集成技术。与传统的信息检索不同,m e t a q u e r y 系统是动 态的,即可以将实时发现的新数据源加入系统中,同时动态选择数据源将用户 查询进行相应转换,从而获取用户查询结果。 2 0 0 3 年度的图书馆馆藏与技术服务协会( a s s o c i a t i o nf o rl i b r a r yc o l l e c t i o n & t e c h n i c a ls e r v i c e ) 的会议项目“m e t a d a t ah a r v e s t i n g :u s i n gt h eo p e na r c h i v e s i n i t i a t i v ep r o t o c o lt oe x p o s et h ed e e pw e b ”,提出利用o a i 协议把元数据的思想 应用于深层网页,利用元数据来标注深层网页资源,可获得更高的检索效率i b 】。 这个会议精神给学科门户网站建设过程中丌展深层网页资源的整合工作提供了 技术设想。 苏州大学的郑东东和赵朋朋等人,提出了一种用于搜集d e e pw 曲页面的 爬虫设计方法i l 引,可以处理具有复杂结构的站点, 同时爬虫工作过程中不需 要用户参与。实验表明,此方法在不同领域内大量的d e e pw e b 站点上收到了 很好的效果。所提供的启发式规则集实验证明其爬行覆盖率达到了8 0 以上。 不过爬虫的设计中对结果中错误消息页面的处理并没有给出处理方法;对于表 单标签和领域本体知识库中对象属性匹配算法也待于改进等。 为推动d e e pw e b 数据集成在国内的进展,软件学报于2 0 0 8 年2 月发 硕十学位论文 第一章绪论 表了d e e pw 曲数据集成专刊【限 】,反映了国内研究者在d e e pw 曲数据的分析、 集成和检索等方面的最新研究成果,对于促进针对下一代信息系统的创新性研 究,以及鼓励数据库技术与其它相关领域的交叉研究具有重要的意义。 其中论文基于属性相关度的d e e pw 曲数据库大小估算方法i l 驯提出了 一种基于词频统计的方法以估算d e e pw 曲数据库的规模。通过分析d e e pw 曲 数据库查询接口中属性之间的相关度来获取某个属性上的一组随机样本;并对 该属性分别提交由前k 位高频词形成的试探查询以估算d e e pw e b 数据库中记 录的总数。不过该方法还无法对查询接口上只有一个文本属性的情况进行处理。 论文一种基于语义及统计分析的d e e pw 曲实体识别机制1 1 9 j 提出了 种基于语义及统计分析的实体识别机 n ( s s e l m ) 。s s e i m 主要由文本匹配模 型、语义分析模型和分组统计模型组成,采用文本粗略匹配、表象关联关系获 取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义信息及约束 规则来不断精化识别结果。该方法可有效解决d e e pw e b 数据集成中数据纠错、 消重及整合等问题。 论文基于本体的d e e pw e b 数据标注【2 0 j 借鉴语义w 曲领域中深度标注 的思想,将领域本体作为d e e pw e b 数据库遵循的全局模式,引入到查询结果 语义标注过程中,并将本体与接口模式、结果模式相结合,辅以查询条件重置 的策略,对查询结果进行统计及结构特征分析,确定查询结果数据的语义标记。 1 3 论文研究内容 本文主要从以下几个方面对d e e pw - e b 信息集成进行了研究: ( 1 ) d e e pw e b 查询接i ;3 发现。根据d e e pw 曲中查询接口发现的特点,对 聚焦爬虫的功能进行改进,设计一个基于主题的d e e pw e b 查询接口发现聚焦 爬虫( d a t ad i s c o v e r c r a w l e r ) ,用以自动发现d e e pw 曲中的查询接v i 。基于主 题的聚焦方式不仅可以达到一个广的搜索范围,同时避免了对大量不相关网页 的爬行。文中在j d k 环境中,用e c l i p s e 进行编程,采用l u c e n e 对基本爬虫 h e r i t r i x 进行网页过滤、查询接口搜索的功能扩展,实验数据证明此爬虫能爬行 到较多的查询接口。 ( 2 ) 基于权重值计算的d e e pw e b 查询接e l 集成。文中首先将查询接口模 型化为f = ( s ,a ,m ) ( 其中s 表示和查询接口相关的整体信息,a = a 1 ,a 2 , ,a n ) 表示查询接e l 包含的一系列元素,m 表示查询接e 1 提供的方法) 。接着 对查询接口的聚类、匹配过程进行了的研究,其中对查询接口匹配分别讨论了 l :l 和n :m ( 多对多) 两种情况。对匹配过程中的权重值计算方法进行了扩展和 优化,提出采用知网概念模型中的词语相似度计算方法对匹配过程中遇到 6 硕十学位论文 第一章绪论 的语义相似度( 标签及属性名) 进行计算,用以解决现在一些传统方法( 如向 量空间模型) 只考虑字面无法对词语内所含语义的相似度进行估算的缺点。实 验结果证明,采用上述方法进行元素匹配的效果是令人满意的。 ( 3 ) 基于移动a g e n t 的d e e pw 曲查询处理。移动a g e n t 是分布式计算技 术和a g e n t 技术的混血儿,利用该技术的优点,文中将移动a g e n t 技术引入到 d e e pw 曲查询处理当中来,设计了一个基于移动a g e n t 的查询处理框架。由于 移动a g e n t 可移动到数据源服务器进行查询处理,提高了查询处理模块的灵活 性,降低了对带宽和网络延时的需求,为d e e pw e b 分布式查询处理提供了新 的思路。 1 4 论文结构 全文共分为六章,各章的具体内容安排如下: 第一章绪论。本章首先介绍了课题提出的背景,国内外研究现状及水平, 然后对本论文的主要研究内容进行了阐述,并对论文的结构进行了描述。 第二章d e e pw 曲数据集成概述。本章首先介绍了d e e pw e b 数据集成与 其它数据集成方法不同的两个显着特点,接着给出了d e e pw e b 数据集成框架, 然后对框架中的三个关键技术进行了描述。 第三章d e e pw e b 查询接口发现。本章首先介绍了d e e pw 曲查询接e l 发 现的研究内容及研究背景,然后设计了一个基于主题的d e e pw e b 查询接口发 现聚焦爬虫,并对爬虫的各个方面进行了详细讨论。 第四章d e e pw e b 查询接口集成。本章首先对查询接口进行模型化,然后 对查询接口的聚类、匹配过程进行描述,其中对1 :1 和n :m 两种匹配中的权重 值计算进行了研究。最后对全局查询接口中的元素选择和维护进行了描述。 第五章d e e pw 曲查询处理。本章首先介绍了查询处理的基本过程及移动 a g e n t 技术,接着采用a g l e t 平台对基于移动a g e n t 的查询处理框架进行设计。 第六章总结与展望。对本文的研究工作进行总结,指出进一步研究工作的 重点和方向。 7 硕十学位论文 第二章d e e pw e b 信息集成概述 第二章d e e pw e b 信息集成概述 自从d r j i l le l l s w o r t h 提出d e e pw r e b 的概念后,随着i n t e m e t 的飞速发展, 人们希望从w e b 中获取更多有用的信息,因此d e e pw e b 受到国内外研究者的 关注,越来越多的研究成果发表在高级别会议和期刊上。对d e e pw e b 进行研 究是为了对其中的海量异构信息进行集成,从而为用户提供一个统一的访问途 径来自动获取分命在整个d e e pw e b 上的信息。d e e pw e b 信息集成的研究涉及 到广泛的领域:数据挖掘、数据库、信息检索和机器学习1 2 1 1 1 2 2 1 等。本章对d e e p w e b 信息集成的两个显着特点进行了讨论,接着给出了d e e pw 曲信息集成的 完整框架,然后对集成系统涉及到的三个关键技术进行了概述。 2 1d e e pw e b 信息集成特点 d e e pw 曲中的数据蕴藏在d e e pw e b 站点的后台数据库中,传统搜索引擎 无法通过超链接的方式直接对这些数据进行访问,用户对d e e pw 曲的访问要 通过其在w e b 页面中提供的具有特定查询能力的查询接口来获取所需要的结 果。与一般的异构数据集成系统不同,d e e pw e b 数据集成在以下两个方面具有 自己显着的特点:一是查询接口的模式集成( s c h e m ei n t e g r a t i o n ) ,二是d e e p w e b 数据库选择( d a t a b a s es e l e c t i o n ) 。 2 1 1 查询接口的模式集成 一般的异构数据集成系统,例如数据仓库| 2 3 j 1 2 4 1 ,它是将需要集成的一些异 构数据库的全部或者部分数据经过抽取、转换、加载等处理后,存储在一个大 的数据库中供一些前端工具进行操作。在d e e pw e b 数据集成中,各数据库分 布在相应d e e pw 曲站点的服务器上,对于集成系统的设计者来说,无法像在 数据库仓库设计中那样获得关于整个数据库中数据的信息,对数据库中信息的 获取只能通过提交查询一步步获得,因此在d e e pw e b 数据集成中,不能像在 数据仓库中那样对全部或者部分数据进行一个集成。数据仓库和查询接口集成 的比较见图2 - 1 。 由于查询接口是d e e pw 如数据库的唯一入口,对d e e pw e b 中数据的获取 只有通过外部的查询接口进行查询才能获取。因此不难理解,在对d e e pw 曲 中的数据进行集成时,是无法像其它数据集成方法那样直接将所有数掘库中的 硕士学位论文 第一二章d e e pw e b 信息集成概述 信息都累加在一起进行处理,只有通过采用对数据库外的查询接口进行集成的 方法以达到一个间接访问数据库的目的。查询接口的集成需要关注查询接口内 各个属性的细节信息,即找到不同查询接口之间属性的最佳的匹配关系。通常 采用的较直观的方法是将查询接口看作是一个属性的集合。 查询接口的集成过程如下: ( 1 ) 首先利用聚焦爬虫将查询接口从众多采用h t m l 语言编写的网页中抓 耿出来; ( 2 ) 然后对某一领域中所有d e e pw r e b 站点中的查询接口进行集成,向用 户提供基于某一领域的全局查询接i s ,同时建立全局查询接口与各d e e pw 曲 站点中的局部查询接口的映射关系; ( 3 ) 当系统接受用户的查询请求后,同时向分布于不同服务器上的多个实 际的数据库查询接e l 提交查询,达到访问属于同一领域的多个d e e pw e b 数据 库的目的。 例如将搜索图书的所有查询接口进行模式上的集成以形成一个全局查询接 口。当接收用户的图书查询时,根据全局查询接口与局部查询接口之间的映射 关系,就可以将用户的查询转换到多个局部的数据库查询接口上进行图书查询, 然后再将各局部数据库的结果返回。在购物、艺术、教育等领域中的处理也是 一样的。 ;一。一一。一。一。一一。一一一一。一一一。一一。; ; 画:具 圄圄圄 1 5 二: 竹打: j l j 皈 :i 价格:il 乍l 矽 8 哂 f 5 二:i s g :l ;幺:l 并讦开:f f i j 版叫 们打:i :“版m 厂 介介 南一南一一蘸e p w e t ( a ) 数抛仓库( b ) a 询接u 模式集成 ; 图2 - 1 数据仓库和查询接口模式集成的比较 查询接口的模式是一组与领域相关的属性的集合,通过对其中若干属性的 赋值形成一个对该查询接口所代表d e e pw e b 数据库的查询。集成的查询接口 合并了同一领域的查询接口集合中表示同一语义的属性,保留了一些查询接口 中特定的属性,并尽可能的保持该领域查询接口的结构特征和属性的顺序性。 9 硕十学位论文第二章d e e pw e b 信息集成概述 如果把各个被集成的查询接口看作d e e pw 曲数据库的一个本地视图的话,那 么集成的查询接口就是建立在这些本地视图之上的全局视图。因此,查询接口 的集成指的就是其模式的集成。 d e e pw e b 中的查询接i :1 不是固定不变的,相反作为i n t e m e t 的一部分,网 站设计者会根据用户对查询接口的访问情况对查询接口进行修改,以向用户提 供一个功能更全面或者操作更加简单的查询接口。因此在d e e pw 曲数据集成 中,集成系统每隔一段时l 、日j 就会对d e e pw 曲中的查询接口爬行一次,将这些 接口进行集成形成新的基于领域的全局查询接口,然后再将全局查询接口和各 局部查询接口的相关信息存储在集成系统的服务器中,供系统处理用户查询时 使用。 2 1 2d e e pw e b 数据库选择 在对爬行到的所有查询进口进行一个模式上集成后,形成各个领域的全局 查询接口,并建立一个全局查询接口到各局部查询接口的映射,将集成中的信 息存储在服务器上数据库中,这样就可以为系统在处理用户查询时使用。当用 户向d e e pw 曲集成系统提交一个查询后,查询首先被判定为哪一领域的查询, 然后提交给该领域的全局查询接口。此时,因为在全局查询接口的构造过程中, 已经建立了全局查询接口和局部各查询接口的映射,因此,理论上是可以把用 户查询通过映射关系转换为对各个局部数据库的查询。 不过在d e e pw e b 数据库在按照领域分类后,每一领域的数量还是非常巨 大的,如果只是简单地把用户提交的查询转换成对该领域每个d e e pw e b 数据 库的查询,并不是一个可行的方案,原因是:首先,由于一个领域中存在大量 的可访问d e e pw e b 数据库,虽然在理论上来说可以获得足够丰富的查询结果, 但因访问大量的d e e pw 曲数据库,在i n t e m e t 上花费的代价难以承受的;其次, 并不是每一个d e e pw 曲数据库都能够满足一个特定的查询,显然任何一个领 域的d e e pw e b 数据库不可能包含这个领域中所有的信息,因此也不可能满足 这个领域的任意查询;第三,一个领域中大部分的d e e pw e b 数据库之问存在 着冗余的信息,因此对一个查询而言,访问的d e e pw e b 数据库越多,返回信 息的冗余度也会越大,使得冗余信息的处理难度大大增加。通常在集成系统的 设计中,设计人员在d e e pw e b 数据库选择这一步要达到的目标是如何从一个 领域中大量d e e pw 曲数据库中选择出合适的部分,使得在满足一个特定查询 的自矿提下尽可能地减少所访问的d e e pw 曲数据库的数量和使得查询结果中冗 余度足够小,既要保证查洵代价尽可能的低又要保证用户对查询结果的满意度。 因此,集成系统在处理用户查询时,并不可能将用户提交的查询简单的转 1 0 硕十学位论文 第二章d e e pw e b 信息集成概述 换成对该领域所有d e e pw e b 数据库的查询,在设计者无法知道分布于不同服 务器中的各个数据库的信息分行情况时,需要对每个数据库的特征进行获取, 然后估计每个d e e pw 曲数据库对该查询的满足程度,选择前t o p - n 2 5 1 个满足 程度最大的数据库即可。 目前对d e e pw 曲数据库进行选择,有如下几种代表性方法:第一种是将 查询接口中的谓词做为该查询接口的有用特征,采用用户提交的查询与查询接 口的相关度来进行数据库选择,该方法认为出现在数据库查询接口中的谓词总 是与数据库所在的主题领域相关的,并且数据库与某主题领域的相关性是通过 其查询接口中出现的谓词来体现;第二种是根据用户查询与后台数据库内容的 相关度来进行数据库选择,它需要事先提交特定数量的查询,对当前数据库中 的各个属性上的数据分御特征进行分析研究。非结构化的d e e pw 曲数据库主 要关注一个特定查询返回结果的数量,而结构化的d e e pw e b 数据库除了返回 结果的数量外更主要是关注各个属性上值的分布特征。在上面第一种方法中, 可根据用户查询与查询接口特征的相关度来选择查询接口进而选择d e e pw 曲 数据库,它包括目标查询接口特征表示和其选择算法两部分。文献 2 6 1 中采用 该方法,不过它们通常用的是查询接口表面上特征对整个后台数据库的内容特 征进行分析过于局限,并没有对查询接口的功能特征进行分析,所以采用该方 法不能对整个d e e pw e b 数据库进行分析,因此不能保证给后面的数据源选择 带来足够准确的结果。 第二种方法又可以分为两类:第一类是通过构建f q 直方图【2 7 】( q u e r y f r e q u e n c yh i s t o g r a m ) ,该方法分为两步:第一步是判断数据库与特定查询之间 的相关性;第二步是确定最适合提交查询的数据库和从返回的结果中选择最合 适的记录。通过提交大量查询建立f q 直方图,不需要局部数据源协作,理论 上很适合在d e e pw e b 中使用,不过该方法在提交查询和数据库选择部分的设 计中过于理想化和理论化,实际操作还有待进一步的研究。 第二类则是采用一种基于图模型的d e e pw r e b 数据库采样的方法【2 引,通过 查询接口从w e b 数据库中以增量的方式获取近似随机的样本,即每次查询获取 一定数量的样本记录,并且利用已经保存在本地的样本记录生成下一次的查询。 该方法的一个重要特点是不受查询接口中属性表现形式的局限。 2 2d e e pw e b 数据集成框架 基于d e e pw 曲数据集成中的两个主要特点,在以前研究的基础上,本文 提出一个d e e pw 曲数据集成的整体框架,框架图如2 - 2 所示。 该框架主要由以下几个模块组成: 硕十学位论文 第二章d e e pw e b 信息集成概述 ( 1 ) d e e pw e b 查询接口发现( q u e r yi n t e r f a c ed i s c o v e r y ) 模块。该模块 0 譬 用户 图2 - 2d e e pw e b 数据集成框架 利用基于主题的聚焦爬虫在d e e pw e b 中进行定向爬行,对查询接口进行发现。 并将查询接口的领域信息及所在网页的u r l 地址等相关信息存储在数据库中, 供后面的查询处理模块使用。 ( 2 ) d e e pw 曲查询接口集成( q u e r yi n t e r f a c ei n t e g r a t i o n ) 模块。该模块在 查询接口发现的基础上,对各个领域的局部查询接口进行模式集成,最终向用 户提供基于某一领域的全局查询接口。与全局查询接口相关的领域信息也需要 存储在数据库中,供后面的查询处理时用到。 ( 3 ) d e e pw e b 查询处理( q u e r yp r o c e s s i n g ) 模块。在完成对一个领域中的 所有查询接口集成后,用户就可以根据自己需求在全局查询接口上填写信息并 进行提交,然后查询处理模块接受用户的查询,从属于这个领域的d e e pw e b 数据库中查询到所需的信息。 根据上面的框架,结合d e e pw e b 信息集成的特点和目的,d e e pw 曲信息 集成的流程如下: ( 1 ) 首先利用基于主题的聚焦爬虫对查询接口进行发现,然后对查询接口 按领域进行模式集成,达到每个领域都有一个全局查询接口的目的,并建立全 局查询接口与各局部查询接口的映射关系。将查询接口发现和查询接口集中的 有关信息存储在服务器上的数据库中,供查询处理时使用。 ( 2 ) 集成系统每隔一段时间就对d e e pw e b 爬行次,将爬行中发现的查 询接口进行集成以形成新的基于领域的全局查洵接口,然后将此次爬行和集成 中的有关信息存储在集成系统的服务器中,供系统处理查德询时使用,并将过 时的信息删去。 ( 3 ) 用户根据需求在某一领域的全局查询接口上填写表单并进行提交,集 成系统接受用户查询请求后,负责将用户的查询分解并转发到各个领域内所选 择的数据库查询接1 3 上,对局部数据库进行查询。由于d e e pw e b 中各数据库 的异构性,需要将满足条件的数据转换成x m l 数据,然后将它们去冗余、添 加语义注释,将结果转化成统一的表现形式返回给用户。 以下各章节将分别对查询接口发现、查询接口集成、查询处理这三个关键 技术展丌详细的讨论。 1 2 硕十学位论文 第二章d e e pw e b 信息集成概述 2 3d e e pw e b 数据集成关键技术 2 3 1 查询接口发现 用户对d e e pw 曲的访问主要是通过其在w 曲页面中提供的具有特定查询 能力的接e l 来获取所需要的结果,因此要发现d e e pw e b 中的数据必须首先找 到查询接口,并且保证通过该查询接口可访问d e e pw e b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化工厂培训安全课件
- 启东财税知识培训班课件
- 难点解析四川成都市华西中学7年级下册数学期末考试单元测试试题(解析版)
- 跨平台疫情数据可视化在二零二五年信息工程教学项目的API对接
- 难点解析四川泸县四中7年级数学下册第六章 概率初步专题测试试卷(含答案详解)
- 城市环境监测-洞察及研究
- 火星环境适应策略-洞察及研究
- 2025年事业单位笔试-湖北-湖北护理学(医疗招聘)历年参考题库典型考点含答案解析
- 鸡舍智能化监控系统
- 混凝土施工中的资源优化方案
- 2024-2030年中国药用安瓿瓶行业现状规模及供需趋势预测报告
- 护理团标解读住院精神疾病患者攻击行为预防
- 护士上半年护士考试题库
- 交通工程专业英语裴玉龙省公开课金奖全国赛课一等奖微课获奖
- 【年产100万瓶漱口水工艺设计及物料衡算9400字(论文)】
- 物资、百货、五金采购 投标方案(技术方案)
- 2024年济南历城区九年级中考英语一模考试试题(含答案)
- 国家集采药品培训课件
- 隐写分析技术及应用研究
- 甲功五项报告
- 拼多多实操培训课
评论
0/150
提交评论