(计算机软件与理论专业论文)基于领域模型的deep+web查询接口模式提取技术.pdf_第1页
(计算机软件与理论专业论文)基于领域模型的deep+web查询接口模式提取技术.pdf_第2页
(计算机软件与理论专业论文)基于领域模型的deep+web查询接口模式提取技术.pdf_第3页
(计算机软件与理论专业论文)基于领域模型的deep+web查询接口模式提取技术.pdf_第4页
(计算机软件与理论专业论文)基于领域模型的deep+web查询接口模式提取技术.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(计算机软件与理论专业论文)基于领域模型的deep+web查询接口模式提取技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 d e e pw e b 中包含丰富的信息,这些信息结构性好、价值高、面向特定的领 域。访问w e b 数据库逐渐成为人们获取信息的主要手段,因此如何以自动的方 式完成对w e b 数据库中信息的有效利用成为研究的热点。d e e pw e b 数据集成研 究的根本目的就是为了给用户提供一个统一的访问途径来自动获取和利用自由 分布在整个互联网上丰富的d e e pw e b 信息。 查询接口是d e e pw e b 数据集成领域研究的基础。这是因为查询接1 3 是d e e p w e b 数据库的唯一入口,通过向d e e pw 曲查询接口提交查询是获得其中信息的 主要途径。在d e e p w e b 数据集成框架中,有若干子问题都依赖于对查询接口的 处理,因此对查询接口模式的研究占有极其重要的地位。 d e e pw e b 站点都是面向特定领域的,所以查询接口的模式通常由一组领域 相关的属性组成。已有的研究成果表明,同一领域内大量查询接口的属性聚合 后收敛于一个相对较小的集合中,因此本文提出领域模型的概念。领域模型定 义了特定领域内所有查询接口包含的属性和表达相同语义的属性词汇,它是一 种树形的层次结构,表示领域内各个属性和领域元素的层次关系。领域模型在 d e e pw 曲数据集成系统的若干问题中都有应用价值。 在领域模型的基础上,本文提出一种通过领域模型知识的指导来提取查询 接口模式的方法。首先,为每一个领域构建领域模型,该模型提供了能够指导 查询接口模式提取的全局模式信息;其次,通过接口标签和领域模型之间在语 义上的相似性对每一个标签按照属性进行分组,生成查询接口的标签树;再次, 利用领域模型结合查询接口页面的布局、语义信息,对每一个表单控件分配一 个标签,生成接口元素的集合;最后,合并前两步得到的标签树和接口元素, 生成查询接口的完整模式信息。 基于领域模型的查询接口模式提取技术充分利用领域模型的模式信息,同 时结合网页布局、表单控件的语义信息等因素。实验结果表明,该方法有很好 的查全率和查准率,具有较强的实用性。 关键字:d e e pw e b 数据集成;领域模型;查询接1 3 模式提取; a b s t r a c t a b s t r a c t d e e pw e bc o n t a i n sa w e a l t ho fi n f o r m a t i o n ;t h i sd o m a i n s p e c i f yi n f o r m a t i o nh a s g o o ds t r u c t u r ea n d1 1 i 曲v a l u e a c c e s s i n gw e bd a t a b a s eh a sg r a d u a l l yb e c o m et h e m a i nm e a n so fs e a r c h i n gi n f o r m a t i o n ,s oh o wt oa u t o m a t i c a l l yg e tt h ei n f o r m a t i o no n t h ew e bd a t a b a s ei sah o ts p o tt os t u d y t h ef u n d a m e n t a lp u r p o s eo ft h es t u d y i n go f d e e pw e bd a t ai n t e g r a t i o ni st op r o v i d eu s e r sw i t hau n i f i e da p p r o a c ht oa u t o m a t i c a c c e s st oa n du s eo ft h er i c hd e e pw e bi n f o r m a t i o n w h i c hi sd i s t r i b u t e dt h r o u g h o u t t h ei n t e r n e tf r e e l y q u e r yi n t e r f a c e i st h eb a s eo fd e e pw e bd a t ai n t e g r a t i o nr e s e a r c h t h i si s b e c a u s et h eq u e r yi n t e r f a c ei st h ed e e pw e bd a t a b a s e s o n l ye n t r a n c e , t h r o u g ht h e d e e pw e bq u e r yi n t e r f a c e t os u b m i tu s e r sq u e r yi st h em a i nw a yt os e a r c h i n f o r m a t i o n 。i nt h ed e e pw e bd a t ai n t e g r a t i o nf r a m e w o r k ,t h e r ea r ean u m b e ro f s u b i s s u e sw h i c hd e p e n d e n to nt h eq u e r yi n t e r f a c e ,s ot h eq u e r yi n t e r f a c es c h e m a s s t u d yi se x t r e m e l yi m p o r t a n t d e e pw e b s i t e sa r ed o m a i n - s p e c i f y , t h e r e f o r e ,t h es c h e m ao fq u e r yi n t e r f a c ei s u s u a l l ya s e to fa t t r i b u t e sw h i c hi sr e l a t e dt ot h ed o m a i ni tb e l o n g st o p o s i t i v er e s u l t s h a v es h o w nm a tal a r g en u m b e ro fa t t r i b u t e sw i t h i nt h es a m ed o m a i nc a nc o n v e r g ea t ar e l a t i v e l ys m a l lc o l l e c t i o n ,s ot h i sp a p e rp r o v i d e st h ec o n c e p to fd o m a i nm o d e l d o m a i nm o d e ld e f i n e sa l lo ft h ea t t r i b u t e sa n da t t r i b u t e sv o c a b u l a r yo ft h es a m e s e m a n t i cm e a n i n gw h i c hb e l o n g st ot h es a m ed o m a i n ;i ti sat r e eh i e r a r c h y , w h i c h c o n t a i n st h er e l a t i o n s h i pb e t w e e nd o m a i na t t r i b u t e sa n dd o m a i ne l e m e n t s d o m a i n m o d e lh a sp r a c t i c a lv a l u ef o ran u m b e ro fi s s u e si nt h e a r e ao fd e e pw e bd a t a i n t e g r a t i o ns y s t e m b a s e do nd o m a i nm o d e l ,a na p p r o a c ho fe x t r a c t i n gt h eq u e r yi n t e r f a c es c h e m a t h r o u g ht h eg u i d a n c eo fd o m a i nm o d e li sr a i s e d f i r s to fa l l ,b u i l dd o m a i nm o d e l sf o r e a c ha r e a ,t h em o d e lp r o v i d e sag l o b a ls c h e m aw h i c hc a l lg u i d et h es c h e m ae x t r a c t i o n ; s e c o n d l y , g r o u pt h el a b e l sb a s e do nt h es i m i l a r i t y b e t w e e nd o m a i nm o d e la n d s e m a n t i ct og e n e r a t et h eq u e r yi n t e r f a c e sl a b e l st r e e ;t h i r d l y ,u s i n gt h ed o m a i n a b s t r a c t m o d e lc o m b i n e dw i t l lq u e r yi n t e r f a c ep a g el a y o u t a n ds e m a n t i ci n f o r m a t i o nt o d i s t r i b u t eal a b e lf o re a c ho ft h ef o r mc o n t r o l st og e n e r a t eac o l l e c t i o no fi n t e r f a c e e l e m e n t s ;f i n a l l y , m e r g et h el a b e lt r e ea n di n t e r f a c ee l e m e n t sw h i c hw eg e ti nt h e p r i o r s t e p st og e n e r a t et h eq u e r yi n t e r f a c e sc o m p l e t es c h e m a t h em e t h o do fm o d e l - b a s e dq u e r yi n t e r f a c es c h e m ae x t r a c t i o nt e c h n o l o g yt a k e s f u l la d v a n t a g eo ft h ed o m a i n m o d e li n f o r m a t i o n ,c o m b i n e dw i t ht h ep a g el a y o u t ,f o r m c o n t r o l ss e m a n t i ci n f o r m a t i o n t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h em e t h o dh a s v e r yg o o dr e c a l la n dp r e c i s i o n ,w h i c hc a nb ea d o p t e di np r a c t i c e k e yw o r d s :d e e pw e bd a t ai n t e g r a t i o n , d o m a i nm o d e l ,q u e r yi n t e r f a c e s c h e m ae x t r a c t i o n i i i 南开大学学位论文电子版授权使用协议 ( 请将此协议书装订于论文首页) 论文萎搠破柱型俩即蚴香甸撂汐撩式靛故毒- 系本人在 南开大学工作和学习期间创作完成的作品,并己通过论文答辩。 本人系本作品的唯一作者( 第一作者) ,即著作权人。现本人同意将本作品收 录于“南开大学博硕士学位论文全文数据库”。本人承诺:已提交的学位论文电子 版与印刷版论文的内容一致,如因不同而引起学术声誉上的损失由本人自负。 本人完全了解直珏丕堂图量焦苤王堡查! 焦旦堂僮迨塞的筐理壶选! 同意 南开大学图书馆在下述范围内免费使用本人作品的电子版: 本作品呈交当年,在校园网上提供论文目录检索、文摘浏览以及论文全文部分 浏览服务( 论文前1 6 页) 。公开级学位论文全文电子版于提交1 年后,在校园网上允 许读者浏览并下载全文。 注:本协议书对于“非公开学位论文”在保密期限过后同样适用。 院系所名称:瓴技料学哮皖 作者签名: 杨宗云 学号:彬乡汐 日期:年月 日 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名: 糍云 9 年多月c 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:杨亲毛 川年6 月,。日 第一章绪论 第一章绪论 第一节d e e pw e b 研究背景 随着网络的飞速发展,互联网中包含的信息以惊人的速度增长,网络已经 成为一个名副其实的巨大的信息资源库。为了帮助人们在这个信息的海洋中找 到自己需要的信息,出现了搜索引擎。但是,目前主流的搜索引擎还只能搜索 互联网表面可索引的信息s u m c ew e b ,还有大量高价值、高质量的信息无 法被索引。这是因为这些信息隐藏于网络的深处,它们没有静态链接,需要用 户向查询接口提交查询,由站点的后台数据库动态产生返回的页面。这类页面 被称为d e e pw e b 或h i d d e nw e b 。 s u r f a c ew e b 页面通常由静态链接产生,传统搜索引擎通过爬虫程序爬行整 个页面来创建页面索引。d e e pw e b 与s u r f a c ew e b 在本质上有很大不同,s u r f a c e w e b 页面内容基本都是非结构化的h t m l 信息,对搜索引擎而言是相对可见的, 因此又被称为v i s i b l ew 曲;而d e e pw e b 页面内容存储在w e b 中可访问的在线 数据库中,作为响应用户特定查询的结果显示给用户,是相对不可见的,于是 又被称为i n v i s i b l ew 曲。 与s u r f a c ew 曲相比,d e e pw e b 中蕴含着更加丰富,更加专业( 专注于某 一领域) 的信息。近年来的研究结果表明: 1 ) d e e pw e b 是互联网信息增长的最大来源【l j 。 2 ) d e e pw e b 页面信息大约是s u r f a c ew e b 页面信息的4 0 0 5 0 0 倍,大约有 3 0 7 ,0 0 0 个站点,4 5 0 ,0 0 0 个后台数据库,并且仍在增长。从2 0 0 0 年到 2 0 0 4 年,d e e pw 曲后台数据库增长了3 7 倍【3 】。 3 ) d e e pw e b 站点在信息内容范围上比一般s u r f a c ew e b 站点更专更深,其 包含的有效高质内容总量至少是s u r f a c ew e b 的1 0 0 0 到2 0 0 0 倍f 1 。 4 ) 整个d e e pw e b 覆盖现实世界中的各个领域,其中有超过一半的d e e p w e b 站点是特定于某个领域的,即主题专一的p 】。 5 ) d e e pw e b 中9 5 的信息是可以公开访问的,而不需要付费或订测3 | 。 6 ) 平均来看,d e e pw e b 站点的访问量比s u r f a c ew e b 站点高出5 0 ,并且 第一章绪论 与s u r f a c ew e b 站点相比有更多的链接。但是,典型的大型d e e pw e b 站 点在互联网搜索领域却不知名【2 j 。 7 ) d e e pw 曲中的后台数据库大多是结构化的,其中结构化是非结构化的 3 4 倍之多【引。 由此可见,d e e pw e b 具有信息量大、结构性好、价值高、主题性专一等特 征,通过对w e b 数据库的访问逐渐成为获取信息的主要手段,因此d e e pw e b 得到了越来越多的关注,d e e p w e b 数据的集成也日益成为研究的热点。 第二节国内外研究现状 d e e pw e b 中蕴含了海量的可供访问的信息,并且还在迅速增长中。目前国 内在d e e pw e b 的搜索与集成方面的研究尚处于学习、跟踪和探索阶段,国内该 领域的研究单位及相关报道非常少。由于搜索引擎目前还不能提供对d e e pw e b 的搜索服务,分类目录服务是目前检索d e e pw e b 的一个途径,国内也出现了一 些d e e pw e b 分类目录服务站点,但尚处于手工处理阶段,还不能实现自动化或 半自动化索引处理。 而国外仅有d e e p w e b 、i n v i s i b l e w e b 、b r i g h t p l a n e t 三家公司生产相关产品。 经过对比分析,这几家公司的产品采用半自动方式,人工干预较多。他们在产 品中加入d e e pw e b 信息挖掘功能,但目前还没有中文d e e pw e b 信息服务。 国外在d e e pw e b 研究方面比较著名的机构和项目有如下几个: 1 ) 华盛顿大学的s h o p b o t 研究小组 s h o p b o t 是一个针对消费产品的比较代理,它利用特定领域的启发式方法来 填写表单以比较其领域内的商业产品。它聚焦于处理卖方站点的表单提交页面 所返回的产品列表。s h o p b o t 操作分为两个阶段【1 2 j :离线学习阶段和在线产品比 较阶段。在学习阶段,确定如何填写站点表单,以及对产品站点结果页面进行 分析获取其站点模式信息。在比较阶段,利用得到的站点模式结构来提取结果 信息,寻找满足用户要求价格最优的产品,最终将这些产品信息格式化输出。 可以看出其研究领域非常单一,并不适用于大规模的信息集成。 2 ) 斯坦福大学的w e b b a s e 研究小组 d a v u l c 等人很早就提出设计w e b b a s e 的框架【1 3 1 ,它可以通过工具帮助用户 实现特定领域的复杂搜索服务。 2 第一章绪论 3 ) 斯坦福大学的h i w e h i d d e nw 曲e x p o s e r 是斯坦福大学的另一个研究项目。r a g h a v a n 和 g a r c i a m o l i n a 设计了一种可以提取d e e pw 曲信息的爬虫【1 4 1 。在此系统中爬虫管 理器负责管理搜集过程。它对下载的w e b 页面进行分析,包含表单的页面被送 到表单处理器中处理。表单处理器首先从页面中抽取表单结构再从预先准备好 的数据集中选择数据自动地完成表单的填写,然后将合成的u r l 提交爬虫管理 器去下载相应的结果页面。由于需要系统自动完成表单填写,所以要求用户预 先准备相应的表单数据集。h i w e 只能面向特定的领域使用,而且必须在人工辅 助下完成,因此同样存在很大的局限性。 4 ) 哥伦比亚大学的q p r o b e r 研究小组 哥伦比亚大学的p a n a g i o t i sg i p e i r o t i s 等人研究了自动地将w e b 页面所连接 的后台数据库进行分类的方法【1 5 1 。它首先使用机器学习技术生成一套基于规则 的分类器;然后抽取分类器规则和基本u r l 组合成查询u r l ,对后台数据库进 行查询探测,计算查询结果数;最后根据查询结果数对数据库进行分类。他们 的研究只集中在对文档数据库的分类上面,而大量的d e e pw e b 数据库提供的内 容是并不适用于他们的方法的结构化数据。 5 ) 伊利诺伊大学m e t a q u e r i e r 研究小组 m e t a q u e r i e r 小组建立一个元查询系统,目标是有效获取w e b 上的结构化信 剧1 6 】。首先,m e t a e x p l o r e r 项目聚焦于发现、模型化和重构w 曲数据库来建立 一个可搜索的数据源知识库。特别是,m e t a q u e r y 系统开发了一个w e b 数据库 搜索引擎,它可以有效发现w e b 上含有数据库的站点,设计模型来描述这些数 据库,设计包装器自动抽取这些模型中的参数,重组和索引可索引的w e b 数据 库。其次,m e t a e x p l o r e r 项目聚焦于在线数据库。同时还研究了数据源选择,查 询转换和模式集成问题。在研究大规模信息集成的过程中依赖于前面所建立的 数据源知识库,其重点研究了动态信息集成技术。与传统的信息检索不同,所 设计的m e t a q u e r y 系统是动态的,即可以将实时发现的新数据源加入系统中, 同时动态选择数据源将用户查询进行响应转换,从而获取用户查询结果。 6 ) 微软亚洲研究院第三代搜索引擎 微软亚洲研究院早在2 0 0 4 年就提出提取基于关键字接口的d e e pw e b 信息。 近来提出的第三代搜索要对深层互联网搜索与挖掘,不仅找到更多结果,而且 要更加智能化、人性化、更加精确,能够理解用户所需要的结果【l 。 3 第一章绪论 综上所述,研究人员在深度网络领域已经作了一定的研究,但他们只是属 于研究性的原型系统,因此确切地说至今还没有个真正可以作为实际应用的 d e e pw e b 数据集成系统,而且在集成的各个阶段,大部分工作仍然处于探索性 阶段。所以总体来看,对深度网络数据的研究仍然处于刚刚起步的阶段,离应 用阶段还有很长的路要走,仍然有大量关键的问题需要做深入细致的研究。 第三节论文主要内容和组织结构 在d e e pw e b 数据集成领域存在许多研究问题,已有的工作主要集中在这些 问题上:w e b 数据库的发现、查询接口模式的提取、w 曲数据库的分类、查询 接口的集成、查询的转换、查询结果的提取、查询结果的注释等。 d e e pw e b 查询接1 2 1 是从d e e pw 曲中获取信息的主要途径,要实现d e e pw e b 数据的集成首先要深入理解查询接口的模式信息。在d e e pw e b 数据集成系统中, 对查询接口模式的提取是w e b 数据库分类和查询接口集成的基础,同时与d e e p w e b 站点爬取、查询的转换、结果页的注释等模块紧密相关。因此,在d e e pw 曲 数据集成研究领域,对查询接口模式信息的研究占有极其重要的地位。 查询接口模式的提取是指对查询接口属性的获取与分析,其关键是把查询 接口所包含的各个属性准确地提取出来。但是查询接口都是以h t m l 形式由用 户自定义的,它们的模式没有良好的格式化规范。首先,语义相关的标签和其 对应的表单控件散落在h t m l 文本中,它们之间的对应关系没有被指定。其次, 查询接口在其内容、表现风格和查询范围方面都是不同的。所以,自动识别每 个接口的属性和完全理解相关属性间的语义是非常困难的。 由于d e e pw e b 站点都是面向特定领域的,所以查询接口的模式通常由一组 领域相关的属性组成。本文提出一种通过领域模型知识的指导来提取查询接口 模式的方法。首先,为每一个领域构建领域模型,该模型提供了能够指导查询 接口模式提取的全局模式信息;其次,通过接口标签和领域模型之间在语义上 的相似性对每一个标签按照属性进行分组,生成查询接口的标签树;再次,利 用领域模型和查询接口页面的布局及语义信息,对每一个表单控件分配一个标 签;最后,对前两步得到的中间结果进行合并,生成完整的模式提取结果。本 文的主要研究工作包括以下四个方面: 1 ) 给出查询接口的标准化定义,研究查询接口模式提取方面的已有成果。 4 第一章绪论 这些成果都是面向接口元素的,即只为表单控件找到对应的标签,而查 询接口模式提取的最终结果是要对逻辑相关的标签和表单控件进行分 组来形成一组组的属性。 2 ) 提出领域模型的定义,给出领域模型的构建方法,并且通过对大量查询 接口的统计,以半自动方式构建四个领域的领域模型。领域模型包含同 一领域内查询接口的全局模式信息,它可以指导对查询接口模式的提 取。更进一步,领域模型也可以应用在d e e pw e b 数据集成系统的其它 问题中,如w e b 数据库的发现、w e b 数据库的分类、集成接口的生成、 查询的转换等。 3 ) 在领域模型的基础上,提出自动提取查询接口模式信息的方法。与已有 的面向接口元素的模式提取方法不同,本文提出的方法是面向属性的, 得到的最终结果是逻辑相关的标签和表单控件进行分组后形成的属性。 4 ) 设计和实现基于领域模型的d e e pw e b 查询接口模式提取原型系统,并 进行实验分析。通过实验和实验数据评价方法的有效性和可行性。 本文共分为6 章,各章节安排如下: 第一章 介绍d e e pw e b 的研究背景,以及国内外研究现状,并给出本文主 要研究内容和结构安排。 第二章 介绍d e e pw 曲的概念和特点,并简要介绍d e e pw e b 数据集成系 统的框架,最后给出d e e pw e b 查询接口和模式的定义,以及国内 外在查询接口模式提取方面的相关研究。 第三章首先给出领域模型存在的理论基础和领域模型的定义,然后介绍 领域模型的构建步骤和表示方法,最后简要介绍领域模型在d e e p w 曲数据集成框架中的应用。 第四章利用上文中介绍的领域模型,提出基于领域模型的d e e pw e b 查询 接口模式提取方法,具体步骤包括表单解析、模糊元素识别、标 签分组、接口元素识别和模式树生成。 第五章对本文提出的方法进行实验设计,通过对实验数据的分析比较, 评价本文提出方法的可行性和有效性。 第六章总结本文所做的工作,并对后续研究进行展望。 5 第二章d e e pw e b 数据集成的相关研究 第二章d e e pw e b 数据集成的相关研究 第一节d e e pw e b 简介 自二十世纪九十年代以来,互联网就一直呈现蓬勃发展之势。时至今日, 网络中蕴含着海量的资源,包罗万象,是人类一笔宝贵的知识财富。互联网按 分布状况可以分为表层网( s u r f a c ew e b ) 和深度网( d e e pw e b ) 。表层网是指存 储在w e b 空间,由超链接连接起来的静态网页、文件等资源,一般来说通过超 链接就可以访问这些资源。这种由静态页面为主构成的表层网页面可以被传统 的页面搜索引擎索引。 d e e pw e b 的概念最初由d r j i l le l l s w o r t h 于1 9 9 4 年提出,它是指搜索引擎 商出于自身考虑不愿索引的某些网络内容,或是因为技术原因普通搜索引擎无 法索引的网络内容。2 0 0 1 年,c h r i s ts h e r m a n 、g a r vp r i c e 对d e e pw e b 定义为: 虽然通过互联网可以获取,但普通搜索引擎由于受技术限制不能或不作索引的 那些文本页、文件和其它高质量、权威的信息。 根据b r i g h t p l a n e t 公司的调查研究 1 】,d e e pw 曲的容量大约是7 , 5 0 0 t b ,是 s u r f a c ew e b 的4 0 0 5 0 0 倍;其中9 5 的信息是公开可获取的,不需要交费或订 阅;信息的整体质量至少比s u r f a c ew e b 高1 0 0 0 到2 0 0 0 倍,而且所包含的内容 与每个信息需求市场和领域高度相关。 广义上来讲,d e e pw 曲主要包含4 个方面的内容:通过填写表单形成对 后台w e b 数据库的查询而得到的动态页面,其访问过程如图2 1 中所示;由 于缺乏被指向的超链接而没有被搜索引擎索引到的页面,大约占整个比例的 2 1 3 :需要注册或其它限制才能访问的内容;w e b 上可访问的非网页文件, 比如图片文件、p d f 和w o r d 文档等。而在实际应用中,对第一方面中结构化数 据的集成更有意义,受到人们的广泛关注,也是众多研究者重点研究的内容。 6 笙三兰坐翌堂墼塑茎堕盟塑荃壁至 浏览器 _ _ - _ 结果页面 图21d o o p w e b 数据访问过程 d e e p w e b 后台数据库的信息量是相当庞大的,u i u c 大学在2 0 0 4 年4 月对 整个d e 印w e b 做了一次较为准确的估算口】,推测整个w e b 上有3 0 7 0 0 0 个提供 w e b 数据库的网站、4 5 0 0 0 0 个w e b 数据库,比b r i g h t p l a n e t 公司在2 0 0 0 年估计 的5 0 0 0 0 0 个数据库网站的数目增长了6 倍多。就中国d e e p w e b 规模而言,2 0 0 5 年7 月中国互联剜络信息中心( c n n i c ) 发布的第十六次调查报告显示 4 1 :中国 在线数据库的总盘为3 06 万个,中国两站中拥有在线数据库的网站数为1 6l 万 个,约占全部网站的2 41 。 d e e pw e b 信息量大不仅表现在d e e pw e b 数据源众多,其覆盖的范围更是 涉及了现实世界中的各个领域。一些专门的机构,像c o m p l e t e p l a n t 和i n v i s i b l e w e b ,构建了d e e pw e b 目录,按照现实世界的领域对d e e pw e b 的内容傲了分 类主要包括商业与经济、计算机与互联网、新闻媒体、娱乐等一共十几个分 类。这只是宏观的分类,每个分类下面还有小的分类,比如科学可以继续分为 社会科学与自然科学,而自然科学又可分为若干学科。通常,d e e pw e b 资源内 容与特定专业领域具有高度相关性,因此对于大多数专业研究人员来说,d e e p w e b 资源具有s u r f a c e w e b 资源无法比拟的优越性。 凰一:蟛谢!国一 茎 至三苎望! 望! 些墼堡叁璺盟塑墨坚鉴 第二节d e e pw e b 数据羹成框架 d e e pw e b 中包含大量的信息,这些信息结构性好、价值高、面向特定的领 域,通过对w e b 数据库的访问逐渐成为获取信息的主要手段。但是,想要以手 工的方式对这些信息加以有效利用在实际中是一件非常困难的事情,对d e e p w e b 数据的集成正是为了以尽可能自动的方式来完成对w e b 数据席中信息的有 效利用。d e e p w e b 研究的根本目的是为了给用户提供一个统一的访问途径来自 动获取和利用自由分布在整个互联网上d e e pw e b 丰富的信息。 d e e pw e b 数据集成领域中存在羞许多的研究问题,已有的工作主要集中在 这些问题上:w e b 数据库的发现、查询接口模式的提取、查询接口的集成、查 询的转换、查询结果的提取、查询结果的注释等。有些问题已经得到了较多的 研究,而有些问题还处于研究的初步阶段甚至还没有相关的论文发表。一个完 整的d e e pw e b 数据集成系统主要分为三个模块h j :集成查询接口的生成模块、 查询处理模块和查询结果处理模块。每个模块又分为若干子模块,可以看作具 体的研究问题并分别完成特定的功能。 6 籀- i i i ;磊- a m l m 集成t 接口m 模* 宦够 :叠圣:堇曼j 圈22 d e e p w 曲数据集成系统框架围 1 ) 集成查询接口生成模块 为了能够同时访问多个w e b 数据库中的数据,在d e e p w e b 数据集成系统中 必须要提供个统一的访问途径。每个w e b 数据库都提供了查询接口,我们需 要把每个w e b 数据库的蠢询接口进行集成并得到一个统一的接口,该接口称为 第二章d e e pw e b 数据集成的相关研究 集成接口。通过在集成接口上提交查询,就达到同时在多个w e b 数据库的查询 接口提交查询的目的。为了得到这个集成接口,需要四个主要步骤:首先要在 w e b 上发现要集成的查询接口;其次对这些接1 :3 进行解析,获得它们的模式信 息;第三要把它们按不同的领域分类;第四是把属于同一领域的接口集成为一 个统一的接口。对应以上四个步骤,集成查询接口生成模块共有四个主要的子 模块:w e b 数据库的发现、查询接口模式的提取、基于领域的w e b 数据库分类 和查询接口集成。 w e b 数据库的发现是指从w e b 中发现具有一个真正w e b 数据库的网站,然 后从中发现可访问这个w e b 数据库的查询接口。查询接口模式的提取是对上一 步获得的查询接口中所包含的属性进行分析和提取,获得一个查询接口的模式 信息。w e b 数据库的分类是指根据己得到的查询接口的模式信息确定其对应的 w e b 数据库所属的领域,即按照领域对w e b 数据库进行分类。查询接口的集成 是指对属于同一领域的查询接口进行集成,得到一个全局的统一查询接口。 2 ) 查询处理模块 查询处理模块的主要功能是将用户在集成的查询接口上填写的查询转化到 对各个w e b 数据库本地查询接口的查询。当用户在集成查询接口上填写并提交 查询时,首先能够为用户选择合适的w e b 数据库,然后把查询近似等价的转化 成在这些具体的w e b 数据库查询接口上的查询,最后将查询提交到各个w e b 数 据库。该部分包含三个子模块:w e b 数据库的选择、查询转换和查询提交。 w e b 数据库的选择是指为一个给定的用户查询从所有集成的w e b 数据库中 选择合适的进行查询。查询转换是指将用户在集成接口上提交的查询转换到w e b 数据库本地的查询。查询提交是指自动地对转换后的查询进行提交。 3 ) 查询结果处理模块 查询处理模块得到的结果是从各个w e b 数据库查询接口返回的结果页,这 些页面有不同的表现形式。我们需要对这些结果页进行数据的提取、合并,然 后在一个统一的模式下显示给用户。因此查询结果处理模块的主要功能就是将 各个w e b 数据库返回的结果提取合并到一个统一的结构化模式下。该部分包括 结果的提取、结果的注释和结果的合并。 查询结果的提取是指从w e b 数据库返回的结果页面中提取出真正的查询结 果。结果的注释是指由于提取的结果通常缺少语义,因此要为缺少语义的数据 进行语义注释。查询结果的合并是指把从各个w e b 数据库得到的查询结果进行 9 第二章d e e pw e b 数据集成的相关研究 有效的合并去重,存储在一个统一的模式下。 第三节查询接口模式提取技术 d e e pw e b 中的内容大多是结构化的数据库信息,其内容更丰富、更专业。 不同于静态的u r l 链接,在d e e pw 曲中,无数在线的w e b 数据库通过各自的 查询接口提供基于动态查询的数据访问。比如a m a z o n c o m 网站,其后台服务器 中存储着图书信息的结构化数据,根据查询接口中用户输入的a u t h o r 、t i t l e 、 s u b j e c t 等信息查找用户所需的书目,反馈给用户包含a u t h o r 、t i t l e 、s u b j e c t 等格 式整齐的结构化信息页面。这些有价值的查询页面及结果页面就是由a u t h o r 、 t i t l e 、s u b j e c t 等模式信息构成的。 查询接口是d e e pw e b 数据集成领域研究的基础。这是因为查询接口是d e e p w e b 数据库的唯一入1 3 ,通过对d e e pw e b 网站中所提供的查询接口提交查询是 获得其中信息的主要途径。在d e e pw e b 数据集成框架中,有若干子模块都依赖 于对查询接口的处理。比如,通过查询接口模式的提取,对w e b 数据库按领域 进行分类,进一步对接口中的属性进行合并,最终生成一个领域内统一的集成 查询接口。因此在d e e pw e b 数据集成领域,对查询接口模式的研究占有极其重 要的地位。 2 3 1 查询接口的概念 d e e pw e b 查询接口都是用户可填写的h t m l 表单,并且返回用户的查询结 果,但并不是每一个h t m l 表单都是查询接口。有些表单虽然可填写,但可能 只是用来提交用户信息或反馈意见的,不具有查询功能,不能作为查询接口。 有些表单有可查询的功能,能够返回符合查询条件的结果页面,但不一定是查 询接口,因为有些静态网站也具有搜索功能,那些表单虽然提供查询功能,但 是只是页面内部静态u r l 的相互连接,没有涉及数据库的交互,也不能称为查 询接口。再者,这类表单还可能是搜索引擎的界面,而搜索引擎的数据库中存 储的是表层网中的页面,不是本文所要寻找的深度网资源。图2 3 中最小的子 类就是本文所要寻找的深度网表单,它是深度网的入口点,指向深度网站点的 资源。 1 0 ! 三主! 竺兰! 塾塑墨垦塑塑苎堑墨 圈23 表单类型 日墨墨蕾 舳i | 髓甚m 嘲断 p g :厂一一_ 】q 月e m - - 月p s eh :r _ m m 啊2 i 】i 棚 日t ,对 嘲肿 删2 憎畦t * 簟2 & o m 日r o i h i 7 m # o :q x 十口e : 寰单3 盘盍寻1 馘 女# 4t 日u 女 圈24 四种常见的表单 图24 中列出了四个不同的表单,其中表单l 为用户注册的表单,表单2 为用户登陆的表单,袭单3 为搜索引擎的提交袭单,表单4 是预定机票服务网 站的查询表单。在这四个表单中,只有表单4 是查询接口表单。典型的非d d w e b 查询接口表单包括用户注册登陆、b b s 讨论组、写发邮件,以及搜索引擎 和元搜索引擎等。 一个查询接口一般提供多个表单控件( f o r m c o n h o ) 让用户输入查询信息, 一一一 莲 第二章d e e pw e b 数据集成的相关研究 如文本输入框( t e x t b o x ) 、单选框( r a d i ob u t t o n ) 、复选框( c h e c k b o x ) 和下拉框 ( s e l e c t ) 等控件。通常,每个控件都与个标签相关联,标签即是一个描述性 的文本,用来表述控件的语义信息。每个控件可以有一个或多个值,比如一个 下拉列表有一列值供用户选择,单选按钮和复选框通常只有一个值。 表2 1 四种常见的表单控件 表单控件 说明 i n t p u tt y p e = ”t e x t 文本输入框,允许用户输入单行信息 i n p u tt y p e = c h e c k b o x 复选框,允许用户在一组选项中选择多个值 i n p u tt y p e = “r a d i o 单选框,用户在一组选项中只能选择一个值 s e l e c t 下拉框,单选或者复选 a u t h o r : t i t l e : p u b i i s h e r d a t e : k e y w o r d s : c o u n t r y : b i n d i n g : a r t r i b u t e s : 标 签 芒三三三三三; 三三三三三悖 二二二二二二二i 草 厂 :拦|;i 江 赢i 三薹一 弹 匦霹 口f i r s te d i t i o n 口s i g n e d 口d u s t3 a c k e t 图2 5 查询接e l 示例 在图2 5 所示的查询接口中包含1 0 个标签和9 个表单控件,其中前6 行每 一行的标签和控件组成一个属性,第七行的标签和后面的标签控件组合共同构 成一个属性。为了进一步区分表单控件、标签和属性,本文给出如下定义: 定义2 1 接口元素( i n t e r f a c ee l e m e n t ) 一个接口元素可以表示为i e = ( l a b d ,n a m e ,t y p e ,v a l u e 。v a l u e l i s t ) , 其中: l a b e l 为与表单控件相关的标签,即一段描述语义信息的文字: n a m e 为表单控件在h t m l 源文件中的n a m e 属性值: t y p e 为表单控件的类型,如文本框( t e x t b o x ) 、单选框( r a d i o b u t t o n ) 等; v a l u e 力表单控件的默认值,对予文本框,该值可为空; 1 2 第二章d e e pw e b 数据集成的相关研究 v a l u e l i s t 为表单控件候选值的集会。 从定义2 1 中可以看出,接口元素与表单控件是有区别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论