




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
婴塑垫塑塑塑兰! 垫些塞盛皇竺二丝塞 摘要 本文提出了。种完整的网络信息集成系统实现方案。网络信息集成系统中的 包装器包含访问数据源查询接口的s i d l 模块及抽取结构化数据的抽取器模块, 目前大多数研究都只讨论了其中抽取器的执行及创建,忽略了查询接口访问模块 的执行及创建。本文提出了一种抽取器及s i d l 的半自动创建技术,使数据源的 绑定能够真正地由= t i i 具备专业知识的用户来完成。此外,本文提出的抽耿器技术 也能够适应大部分结果网页的小幅格式改动。本文也提出了一种中介模式_ ! ;亍本地 模式的翻译体系。系统不仅能够对中介模式的某个特定字段进行统一一查询,也能 在统一查询中进行多个字段的与操作。数据源描述记录了数据源的数据完整性及 部分独特的查询能力,使得统一查询时数据源的过滤成为可能。此外,通过应用 系列查询执行优化技术,集成系统在执行统一查询时能够达到较好的效率,既 能够同时处理较多用户的请求,也能够较快地答复单个用户的查询请求及遍历查 询结果请求。 关键词:刚络信息集成系统,包装器创建,数据源描述,中介模式,本地模式 丝塑墼塑塑塑兰旦垫些堡些兰堕二丝窒 a b s t r a c t t h i sa r t i c l ep r o p o s e sa i m p l e m e n t f o rw e bi n f o r m a t i o ni n t e g r a t i o ns y s t e m ,i nt h e r e s e a r c ho fw e bi n f o r m a t i o ni n t e g r a t i o n ,w r a p p e rc o n s t r u c t i o ni so n eo fi m p o r t a n t f i e l d s t h e w r a p p e r s s h o u l di n c l u d et h em o d u l e sc a l l e d s i d l ,w h i c hq u e r yw e b i n f o r m a t i o ns o u r c e s ,a n dt h em o d u l e sc a l l e de x t r a c t o r , w h i c he x t r a c tt h eas t r u c t e d r e p r e s e n t a t i o n o ft h ed a t af r o mt h eh t m lp a g e s c o n t a i n i n g t h e m m o s tr e c e n t r e s e a r c hi n w r a p p e rc o n s t r u c t i o nf o c u so ne x t r a c t o rc o n s t r u c t i o ni n s t e a do fs i d l c o n s t r u c t i o n t h i sa r t i c l ep r o p o s e sas e m i a u t o m a t i cw r a p p e rc o n s t r u c t i o nm e t h o d i n c l u d i n ge x t r a c t o rc o n s t r u c t i o na n ds i d l c o n s t r u c t i o nw h i c hw a sr e f e r e dr a r e l y i n t h ew e bi n f o r m a t i o n i n t e g r a t i o ns y s t e m ,t h e m e t h o de n a b l e su s e r si n s t e a do f d e v e l o p e r st oa d dn e x , vw e bs o u r c e ss e m i a u t o m a t i c a l l y w i t ht h eh e l po f x s la n d x p a t h ,t h em e t h o da d a p t st h ei n f o r m a t i o ni n t e g r a t i o ns y s t e mt os i m p l ec h a n g e so f t h e w e bp a g e sa n dm a k e st h es y s t e mm o r er o b u s ta n de x p a n s i b l e t h ea r t i c l ea l s o p r o p o s e sam e t h o dt ot r a n s l a t et h eq u e r ya n dr e s u l t sb e t w e e nm e d i a t o r s c h e m aa n d l o c a ls c h e m a ,w h i c he n a b l e st h eq u e r ye x e c u t i o ne n g i n et oi m p l e m e n t “a n d o p e r a t o r a n df i l t e ri n a p p r o p r i a t ew e bs o u r c e s a tl a s t ,t h ea r t i c l ep r o p o s e ss o m em e t h o d st o o p t i m i z et h eq u e r y e x e c u t i o n 。 k e y w o r d s :w e b i n f o r m a t i o n i n t e g r a t i o ns y s t e m ,w r a p p e r c o n s t r u c t i o n ,s o u r c e d e s c r i p t i o n ,m e d i a t o rs c h e m a ,l o c a ls c h e m a 2 型垫塾堡塑堕兰! 垫垡塞些兰竺二堡窒 1 引言 1 1 隐藏的互联网与半结构化数据源 互联网的迅猛发展使得人们更方便地发布信息,每天都有无数的公司、厂商、 组织和个人在无数异构的站点上发布着非常有价值的信息,而在众多的异构数据 源中寻找特定的信息就成为被广泛关注的问题。 个重要的发现数据技术是大型搜索引擎技术,如g o o g l e 和a l t a v i s t a ,利用 网络爬虫( w e bc r a w l e r ) 技术在互联网上主动获取数据,建立索引供用户查询。 但是,网络爬虫很难访问互联网的一个重要组成部分隐藏的互联网。 可见的互联网( v i s i b l ew e b ) 是在大型搜索引擎的搜索结果中可见到对应链接 的网页,一般在搜索引擎按主体分类的网页目录中也可以见到这部分网页;与之 对应,隐藏的互联网( h i d d e nw e b i n v i s i b l ew e b ) 就是不能通过普通搜索引擎 的结果或目录获取链接的网页。隐藏的互联网的典型例子如下: 具有互联网查询界面的数据库:绝大部分隐藏的互联网是由成千上万的 具有互联网查询界面的数据库组成的。服务器端根据用户输入的检索条 件查询数据库,动态生成查询结果网页。由于需要用户键入检索条件才 能生成结果网页,所以这部分网页对搜索引擎的网络爬虫而言部分或是 完全的不可见。 需要登录的站点:对于某些设置了访问限制的站点,由于搜索引擎的网 络爬虫不具有站点的合法用户名及密码,因此无法访问该站点的网页, 造成该部分网页对搜索弓f 擎不可见。具有互联网查询界面的数据库也往 往是需要登录的站点。 隐藏对应链接的网页:某些站点的主页上所有的内部链接都是通过脚本 语言来实现。由于浚站点的内部网页链接都是通过脚本语言动态生成, 所以网络爬虫不能够通过可见的链接到达对应的网页,这部分网页对搜 索引擎也是不可见的。 隐藏的互联网数量非常庞大且难以估计,最保守的估计者也认为隐藏部分是 可见部分的3 到5 倍【1 ,2 。3 j 。比数量更重要的是,隐藏的互联网往往是包含 高质量数据的传统数据库的发布平台。相比通过大型搜索引擎得到的数据,隐藏 互联网的数据往往能够更准确更快速地满足用户的特定需求。 互联网用户往往为了某种目的,一次性查询多个属于隐藏互联网的站点。例 如,网上购物者经常在多个购物网站上检索并比较某种商品的价格:博物馆工作 人员需要查询多个博物馆站点的馆减信息以发现某种馆藏文物;科研人员在多个 4 网络数据源的半自动化集成与统一榆索 论文检索站点检索某一主题的论文;制造业者检索多家原材料厂商网站比较原材 料价格。如果偶尔才进行一次这种检索,用户只需使用浏览器即可;但是如果这 种检索成为日常工作,那么利用程序使之自动化或半自动化就成为必要了。 隐藏的瓦联网主要是指根据后台数据库内容动态生成的网页,这类网页属于 半结构化的网络数据源。独立的数据库系统可以视为结构化数据源,元组或对象 的数据格式可以被计算机处理;新闻或小说等网页可以视为非结构化数据源,无 限制的自然语占目前无法被计算机理解:半结构化的数据源可以视为结构化数据 的容器,女n w e bo fs c i e n c e 矛l t h ei n t e r n e tm o v i ed a t a b a s e ( w w w i m d b c o m ) 等站点的查询结果网页,半结构化的网页中隐藏了结构化的元组数据,必须经过 一定处理才能转换为方便计算机处理的结构化数据。 1 2 网络信息集成系统概述 网络信息集成系统的任务是抽取及合并多个网上半结构化数据源的数据,以 回答用户的统一查询 4 1 。 网络信息集成系统有两个主要任务,第一个任务是从异构站点的半结构化的 网页中抽取出结构化数据( 例如元组的集合) ,以统一的格式封装,以方便下一 步的存储排序查找等操作。这个任务由包装器( w r a p p e r ) 模块负责完成,它涉及 到创建及执行等几个技术环节。在信息集成系统中,针对每个网站,存在一个包 装器,它包含两种子模块: ( 1 ) 查询接口定义模块( s i d l ) :根据异构网站的不同查询接口,获得半结构 化的网页。本系统中,一个包装器可能对应多个s i d l 模块,每个$ i d l 记 录了一个数据源的部分查询能力;但在一次统一检索执行过程中,包装器 只能选用唯一一个s i d l 模块。 ( 2 ) 抽取器模块( e x t r a c t o r ) :根据异构网站的不同数据表现形式,从半结构 化的网页中抽取出结构化数据,以统一的格式封装,以方便下一步的存储 排序查找等操作。本系统中,一个包装器只拥有一个抽取模块,因为无论 以何种查询接口访问数据源,返回的查询结果网页格式都是一致的。 对于查询接口定义模块,大多数已有研究往往是一笔带过,实际上这个环节对信 息集成系统的查询能力及适应性影响很大,我们将在“研究方法”中详细论述这 一模块的半自动创建方法。抽取器的创建和执行,是大多数相关研究的论述重点, 本文采用一种基于x s l 的抽取器,利用半自动化的方法创建,也将在“研究方 法”中详述。 旦完成了第一个任务,我们就可以把半结构化数据源站点视为自治的分布 网络数据源的半自动化集成与统一检索 式异构数据库,我们需要根据各站点的不同查询能力进行统一检索。这个任务是 由数据集成模i l ( m e d i a t o rs y s t e m 或是d a t ai n t e g r a t i o ns y s t e m ) 完成的,这 一模块对于管理大数量的数据源站点及适应异构站点的不同查询能力非常重要。 1 3 网络信息集成系统相关技术问题 正如前文所述,互联网中半结构化数据源站点数目惊人且增长迅速,这类站 点可以视为结构化数据一“元组”集合的容器,我们将在下文简称这类站点为数 据源。网络信息集成系统可以通过称为“包装器”的模块来隐藏各个数据源的异 构性,使用户以为异构数据源提供的是统模式的元组数据,而不是格式不同的 网页。因此,网络信息集成系统在许多方面都与分布式数据库系统相似,许多技 术环节都是分布式数据库系统也必须解决的问题。除此之外,网络信息集成系统 还有一些独特的问题需要处理: 数据源数目庞大且不断变化:网络信息集成系统绑定的站点可能是几十、 几百甚至是上千个数据源站点,系统需要种方式能够管理众多的数据 源。在查询时应该过滤部分站点,对未被过滤的站点,也应该有合理的 查询执行策略,以平衡系统的负载。同时,用户应该可以较方便的添加 或删除数据源,添加或删除数据源后不影响对其他数据源的统一检索。 数据源的元数据缺乏:程序获取数据源站点的元数据的过程也就是建立 站点包装器的过程,这远远难于获取远程数据库的模式数据,数据源站 点的数据访问接口和数据表示格式都是面对人而不是程序的。由于数据 源数目众多且不断增减,因此,必须有比较方便的方式使用户可以构造 数据源对应的包装器。如前文所述,包装器的创建又可分为s i d l 的创 建和抽取器的创建两部分。 数据源具有高度自治性;数据源的数据访问方式和数据表示格式都不受 信息集成系统控制,所以随时可能发生变化。当数据源发生变化时信 息集成系统应该具有一定的应变能力。如果无法适应变化,系统也应该 能够侦测出数据源的变化,通知用户删除当前对应的包装器,重建新的 包装器。 上述问题的研究也是本文的重点,本文将在研究方法中详述对应的解决方法。 为了从数据源获取结构化数据,数据集成模块( m e d i a t o rs y s t e m 或是d a t a i n t e 8 r a t i o ns y s t e m ) 必须与一系列的包装器模块进行交互。包装器模块可以视 为小段程序,包含两个子模块。第一步,s i d l 子模块根据用户的查询条件, 访问数据源的检索接口,得到查询结果网页;第二步,e x t r a c t o r 予模块从网页 中抽取元组数据,以统一的格式返回给用户。因此,sf d l 和e x t r a c t o r 的创建 和执行都是需要解决的最基本问题。 网络信息集成系统的一个重要特点是,用户提交查询时使用的模式并不是数 据源站点后台数据库中数据实际被存储时使用的模式。这是因为,数据集成系统 的主要任务就是使用户不必分别了解异构数据源的模式,也不必单独与它们进行 交互。在网络信息集成系统中,用户查询使用的模式称为中介模式( m e d i a t e d s c h e m a ) ,而数据源自身的数据模式称为本地模式( l o c a ls c h e m a ) 。中介模式是 数据集成系统中虚拟的关系模式,它必须是所有本地模式的并集。因为并没有任 何符合中介模式的元组存储在数据源站点中,所以,用户以中介模式提出的查询, 必须经过s i d l 的翻译,重组为符合数据源本地模式的查询;从网页抽取的查询 结果元组,必须经过e x t r a c t o r 的翻译,由本地模式重组为中介模式。为了完成 这种翻译,包装器中必须记录某个数据源本地模式的所有字段及其与中介模式字 段的对应关系,这种记录,在网络信息集成领域称为数据源描述( s o u r c e d e s c r i p t i o n ) 。 s i d l 对某些从中介模式到本地模式的翻译是无法实现的。s i d l 子模块只能 通过数据源站点公开的w e b 查询接口访问数据,因此随着数据源查询能力的不 同,s i d l 对数据源的数据也具有不同的访问能力。一个异构的数据源,出于安 全或执行效率等原因,不会允许用户进行任意的查询,而只是提供某些特定的查 询接口,例如只能查询某几个字段,或可以执行与或非等操作。在s i d l 子模块 中,如何既允许系统进行统一检索,也保留数据源部分独特的查询能力就成为值 得研究的一个问题。如果能够保留异构数据源的独特查询能力,那么就能够进行 查询优化及站点过滤等优化措施,对系统的执行效率很有帮助。上文也说明,并 不是所有中介模式的查询都能够顺利翻译为数据源模式的查询。例如,中介模式 包含电影名称和电影导演两个字段,而某数据源只唯一提供对电影名称字段的查 询接口,那么对电影导演字段查询的用户查询就无法使用这一数据源了。 与s i d l 的翻译相对应,e x t r a c t o r 的翻译涉及到数据源的数据完整性问题。 某些数据源的本地模式中缺少中介模式的某几个对应字段,所以,在将查询结果 从本地模式翻译为中介模式时,缺少的字段只能填为空。利用这个特点,如果某 个数据源的本地模式缺少用户查询条件中的某个字段时,这个数据源可以被过 滤,从而降低查询执行代价。 s i d l 子模块还涉及了其他一些问题。例如,s i d l 如何使用特定的用户名密 码登录数据源站点;s i d l 如何对查询结果网页进行遍历以保证结果的完整性等 等。e x t r a c t o r 子模块也涉及到是否能适应一些目标网页的简单变化的问题,能 否在网页上发生微小变化( 如增减若于广告) 时依然有效。 网络信息集成系统的个技术问题是查询的执行和优化。查询的执行很少受 嘲络数据源的半自动化集成与统一榆索 到研究者的关注,这一问题的主要挑战来自数据源站点的高度自治性及网络状况 的不可预期性。首先,由于集成系统对网络数据源采用实时访问( v i r t u a l a p p r o a c h ) ,而无法事先在本地缓存数据( w a r e h o u s i n ga p p r o a c h ) ,所以包装器 必须有较快的运行速度,以保证反馈时间在用户的忍耐范围之内;但是,如果一 次性将所有选用数据源的查询结果全部取回,既不必要,又造成系统极大的处理 负担,甚至可能造成网络的拥塞。本文也介绍一种查询执行策略,既满足用户快 速浏览查询结果的需要,也降低系统和网络的负担。查询的优化是指如何根据用 户的查询,在所有绑定的数据源中选取一个最小的子集,只对子集的数据源提交 查询。这一问题的挑战来源于网络信息集成系统很难获取数据源数据的统计信 息,因此难于评估和校准查询执行计划。 网络信息集成领域的一个难题就是不同数据源返回的对象的匹配去重问题。 例如,不同论文库返回的同一篇论文的记录是否需要去重及如何去重。一种观点 是在统一的查询结果中同对象不需要去重,因为每个数据源对同一个对象可能 有不同的元数据,而这些元数据都是很有价值的。例如不同论文库返回的同一篇 论文的相关引用字段的内容不会完全相同,这些相关引用都是用户所关注的。如 果需要去重的话,还有许多技术难题需要解决,其中最常见问题的就是:由于数 据源是高度自治的异构站点,所以记录的同一字段格式不同,导致无法进行匹配。 例如,日期的书写格式,价格的单位及论文出处的书写格式等等。所以,在本文 的集成系统中,虽然通过对查询结果在本地数据库中进行缓存而去除了完全相同 的记录,但是,仍然存在重复的记录对象,它们之间可能是字段值格式不同或是 非空字段数不同。 综上所述,网络信息集成系统的系统结构如图1 。 本文按如下方式组织:第一部分是引言,介绍网络信息集成系统的必要性及 任务,也介绍了网络信息集成系统涉及的几个技术问题:第二部分主要介绍网络 信息集成领域的各种相关研究,也讨论了其他领域的些研究对网络信息集成研 究的一些影响:第三部分是本文的重点,详细介绍我们系统在信息集成各个技术 环节上采用的技术及策略;第四部分是实验结果,证明我们系统的正确性及效率; 第五部分是结论及展望;第六部分是参考文献;最后是感谢及作者简介。 网络数据源的半自动化集成与统一检索 图1网络信息集成系统系统结构图 9 网络数据源的半自动化集成与统一检索 2 相关研究 2 1 各种已有的网络信息集成系统 早期的信息集成系统1 t 0 1 主要研究的是具有完整结构性和固定模式的数据 库的集成,这些数据库本身都具有强大的查询处理能力。因此,大量的研究都集 中于对异构数据库的模式的集成以构造集成系统的中介模式。然而,这方面研究 的大部分结论在网络信息集成领域不再适合,因为网络信息集成系统的研究对象 是异构且高度自治的网络数据源。 t s i m m i s 项目构造了一个完整的网络信息集成系统,早期的研究1 1 1 】集中 于对半结构数据的建模,定义一种描述网页结构的语言,抽取器创建者利用这种 语言描述网页结构,然后系统根据语言的描述自动生成抽取器程序代码。这种方 式属于手工创建抽取器,t s i m m i s 项目后期的研究t 1 司着重于统一检索的建模 及各种查询的优化。此外,还有一些关于支持“或”操作的统一查询【1 3 】及制定 高效的统一查询计划【1 4 1 方面的研究。 h e r m e s 系统定义了一种s i d l 定义语言,用于描述查询时发送到数据源的 h t t p 数据报参数,但是h e r m s 把集成系统与数据源之间的接口简化为一条明 确列出参数的h t t p 数据报,所以无法处理许多复杂情况。相比之下,本文提出 的s i d l 语言能力更加强大,能够应付非常复杂的查询接口。例如用户登录、多 步的参数设置、记录数据源部分独特查询能力、遍历全部查询结果网页等等。 m i x 项目【2 2 】的研究重点是集成模块中统一查询的执行。集成模块生成一份 虚拟的可供查询用户浏览的x m l 文档,每当用户提交浏览命令时,集成模块也 即时地要求包装器模块取回部分查询结果。本文的统一查询执行策略虽然具体实 现与m i x 不同,但出发点是一致的,那就是包装器模块不需要一次性取回数据 源的全部查询结果。因为用户往往不是准确严格地定义查询条件以得到较小的结 果集合,而是进行比较宽泛的查询,浏览几页查询结果即停止,因为前几页即可 发现期望的查询结果或是发现查询结果与预期完全无关。针对这一特点,本文提 出的统一查询机制是利用s i d l 的强大功能,每次用户提交浏览命令前只返回某 几个数据源的一页查询结果,并且在本地对查询结果进行缓存。m i x 还提供了 一种由虚拟x m l 文档的d t d 驱动的根据范例进行统一查询的用户接口 2 a l 。 a r i a d n e 项目【2 4 】假设每个网络集成应用都存在一个统一的领域模型作为本 体( o n t o l o g y l ,侧重于提供复杂的知识表达技术( 本体) 来创建集成系统的统一 领域模型,每个数据源模型都以这个统一的领域模型的术语来定义。本文则主要 是根据数据源的查询接口和返回的结果网页内部结构,来制作描述数据源的包装 网络数据源的半自动化集成与统一检索 器。 f l o r i d 2 5 是基于f - l o g i c 2 6 的,用于管理和集成半结构化数据的面向埘 象的系统。系统使用面向对象的数据模型描述半结构化数据,利用f l o g i c 对数 据进行查询。 对多个自治的异构数据源的统一检索技术也被应用于许多商业系统之中。例 如i b m 的d b 2u b d b i 2 7 1 ;j u n g l e e 公司应用虚拟数据库技术( v d b m s ) ,为华 盛顿邮报站点制作的网络招聘信息集成系统;w e b m e t h o d s 公司应用网络接口定 义语言技术( w i d l ) ,为d i s c o v e r y 频道制作的w e b 图像搜索和自动获取系统等 等。t h o m s o ni s i 通过与w e b f e a t ,i n c 的合作,在i s iw e bo f k n o w l e d g e 平台引入 了跨库联合检索服务。用户通知w e b f e a t 需要集成的数据源列表及要求的检索界 面,然后w e b f e a t 专业人员在w e b f e a t 维护的服务器上手工创建网络信息集成系 统,并在后期维护这个集成系统。用户方只需在本地站点提供指向w e b f e a t 服务 器对应位置的链接即可。这种解决方案在技术上并不先进,包装器可以认为是手 工创建的,但在商业j 二却是可行的。因为厂商不是出售一个软件而是出售网络信 息集成系统的建立及维护服务。 除了完整的网络信息集成系统外,还有大量的研究专著于网页中半结构化数 据的抽取及抽取器的创建。目前的抽取器创建方式大致分为手工创建、半自动创 建和自动创建三种。 t s i m m i s 系统的抽取器即为手3 1 6 , 1 建,这种方式有很大的缺点:利用描述 性语言描述每个数据源的网页结构仍然是繁琐而容易出错的过程;而且,创建者 需要学习一种完全不会在其他场合使用的自定义语言。这种系统添加修改数据源 需要专业开发人员,维护代价很高。相似的研究还有 2 1 1 ;g lw 4 f 2 8 、2 9 1 。 目前大多数抽取器创建系统采用半自动创建方式。这种系统为用户提供一个 可视化界面,对每个数据源的网页,用户为系统指定若干个需要抽取的数据的范 例。系统根据用户提供的范例,首先生成一种自定义的数据查询语言,然后根掘 这种语言描述自动生成包装器的程序代码。半自动创建包装器的优点是:创建者 只需指定待抽取数据的范例,不需要使用查询语言或是编写程序,因此不需要专 业知识。采用半自动创建方式的信息集成系统维护代价较小,目前大多数商业系 统也采用了这种方式。但是,这种创建方式也有一些缺点。首先,系统开发代价 较高,丌发自定义数据查询语言的解析器和根据查询语言自动生成代码都很繁琐 而且容易出错:其次,这种方式创建出来的包装器不容易适应目标网页的简单变 化( 比如,网页上新增的一个广告等等) 。这类研究包括l i x t o l 1 5 1 、x w r a p t 6 1 及【1 7 】。l i x t o 系统可采用“系统默认”方式生成抽取规则,自动化程度较高, 但获得的规则缺乏健壮性,也可采用“用户定制”方式生成抽取规则,自动化程 度较低,且对用户有一定要求,用户操作不当将直接影响生成的抽取规则的健壮 网络数据源的半自动化集成e j 统一榆索 性。x w r a p 系统只适合对含有明显区域结构的网页进行抽取,适应面比较窄,模 式表达能力非常有限。本文提出的抽取器创建方式实际上是半自动创建方式的一 种改进,通过使用x s l 和x p m h 技术代替自定义查询语占,不仅开发方便,不 易出错,更重要的是抽取器的创建可以由无专业知识的用户完成。 在半自动创建方式中,针对每个数据源,创建者都要指定若干个待抽取的数 据范例,因此还不能完全脱离人的干预。因此,一些研究人员开始研究基于机器 学习的抽耿器自动创建技术。其主要思想是通过对个具有代表意义的网页集合 的包装器创建训练,使程序在遇到新的网页时能够自动创建抽取器。r a p i e r r 3 0 i 和w h i s k 3 1 1 等采用的是基于自然语言处理的方法,分析文档中的语句和段落 生成提取规则,然后根据提取规则从文档中提取相关的信息。还有其他的采用数 据模型的方法,如n o d o s e 3 2 1 和d e b y e 3 3 、3 4 ,以及采用基于o n t o l o g y 方 法的,如b y u 大学的d a t a e x t r a c t i o n g r o u p 3 5 、3 6 1 的工作。目前已有的研究 成果都有较强的限制条件,抽取规则表达能力有限,获得有效的抽取规则需要大 量的样本学习,达到全自动的程度很难,所以主要还处在实验室阶段,没有大规 模应用于实际的网络信息集成系统。这类研究还包括 1 8 、1 9 、2 0 ) 。 也有一些关于网络数据源查询接口的研究。 3 7 、3 8 研究了网上半结构化 数据源的分类及探测。【3 9 】提出了一种基于用户交互的中介一本地模式映射方式, 但是并没有讨论实际的集成创建模式。目前,大多数涉及查询接口集成的研究 【4 0 、4 1 、4 2 、4 3 、4 4 、4 5 、4 6 都简单地把数据源查询接口视为一个具有本 地模式的黑盒,忽略了一个或多个集成时可能遇到的复杂情况。例如,查询接口 可能拥有多个字段可供查询,可能支持与或非等逻辑操作,可能具有参与逻辑操 作的字段数限制;查询结果可能需要遍历多个网页:添加删除数据源对中介模式 的影响等等。本文利用s i d l 模块进行查询接口的集成,能够处理大多数上述复 杂情凋。 2 2 w e bs e r v i c e 技术族对网络信息集成的影响 最近的w e bs e r v i c e 技术浪潮有可能简化网络信息集成系统的研究。理论上, 数据源站点可以很方便地将传统检索接口转换为w e b 服务( w e bs e r v i c e ) ,利用 s o a p 协议与其他网络相关程序交互:同时数据源站点可以利用w s d l ( w e b s e r v i c e d e f i n i t i o nl a n g u a g e ) 协议t 5 l 描述自己的w e b 服务接口,再借助u d d i 协议【6 】 将自身的w e b 服务发稚。网络信息集成系统通过u d d i 和w s d l 协议可以方便地获 得数据源站点的数据访问方式和数据格式信息,然后,利用s o a p 协议【7 l 获取数 据源站点的查询结果。 网络数据源的半自动化集成与统一检索 例如,一个价格比较系统可以通过u d d i 中心发现若干购物网站的w e b 服务 并获取对应的w e b 服务描述文档,将购物网站绑定。在用户提出查询时,通过 s o a p 协议与各购物网站进行交互,在得到的查询结果中选取价格最低的记录返 回给用户。这样,网络信息集成系统的第一个任务,也是当前研究的重点,就迎 刃而解。通过w e bs e r v i c e 技术即能够方便地访问数据源站点地查询接口,也可 以方便地得到结构化数据( s o a p 数掘报中的对象) 。网络信息集成主要考虑的问 题就变成如何更好地进行统一检索了。 然而,考虑到异构站点的独立性,出于商业利益或是对遗留系统改造费用的 考虑,数据源站点可能并不愿意为自己的数据提供公共的w e bs e r v i c e 接口。因 此,通过面向人的数据接口来访阀异构数据源,仍将是今后一段时间内大多数网 络信息集成系统采用的集成方式。也就是说,对不合作的网络数据源,无法利用 w e bs e r v i c e 技术进行集成。 2 3 o p e n u r l 技术对网络信息集成的影响 w e bs e r v i c e 协议族是由微软、i b m 、l o t u s 等各大计算机厂商共同提倡,而 另一种技术o p e n u r l 8 则主要是由图书馆站点、科技论文库站点及电子期刊站 点提倡的。大多数学术单位,都会订阅一些电子期刊和论文检索服务站点。一般 来说,订阅用户必须先连接到电子期刊所属站点,并且输入用户名和密码,才可 以看到或检索该电子期刊。这种做法已经无法满足用户同益增长的需求,对多个 数据源站点的访问是费时又费力的。为了使用户可以用一次点击达到两三个步骤 才能达到的成果,各个数据源站点间必须存在一种沟通机制。o p e n u r l 就是这类 站点间相互通讯的一种协议,因此受到学术界及市场的重视。 o p e n u r l 是应用于互联网超链接的一种陈述语法规范,根据一组已经定义 好的标签,增强互联网的超链接能力。一个o p e n u r l 链接相当于图书馆中的一 张索引卡;链接服务器r ( l i n k - s e r v e 0 负责解释o p e n u r l ,相当于图书馆中的图书 查询台,链接服务器绑定的若干数据源站点( 如w e bo f s c i e n c e 或是n a t u r e ) 就 相当于图书馆中的书库或是书架。用户点击一个o p e n u r l 链接,经过链接服务 器的解释,就可以到达某篇文档的一个“最适合”的副本,而“最合适”的标准, 是由链接服务器综合各种因素决定的,如费用,是否提供全文等等。如果用户已 经得知某篇文章的元数据,如题目作者日期等,可以通过点击一个包含上述元数 据的o p e n u r l 链接,到达某个数据源站点的对应网页。 例如,如果图书馆购买了n a t u r e 的电子全文库,为了提供给图书馆用户使用, 必须提供给用户n a t u r e 的用户名密码。或是开设代理服务器,使用户通过特定 网络数据源的半自动化集成与统一检索 的i p 访问n a t u r e 网站。同时,每个用户还必须经过登录查询下载等两三步骤浏 览才能真正访问到全文。但是,如果图书馆架设一个o p e n u r l 链接服务器,用 户就可以通过一个o p e n u r l 链接,一次点击下载到全文。 与w e b 服务技术相似,o p e n u r l 技术可以实现网络信息集成系统的第一个 任务第一个子模块,即实现对数据源站点查询接口的访问。但是,由于o p e n u r l 只是加强了超链接的功能,并没有返回结构化的数据,因此,信息集成系统仍然 需要从返回的网页中抽取结构化数据。而且,与w e b 服务技术相似,也无法对 不合作的网络数据源利用o p e n u r l 进行集成,异构的数据源站点是否愿意支持 o p e n u r l 服务仍是一个大问题,直接影响了信息集成系统的适应性。目前,还 没有国内的论文库和电子期刊库支持o p e n u r l 服务。 删络数据源的半自动化集成与统一检索 3 研究方法 3 1 抽取器模块执行及半自动创建 3 1 1 抽取器模块概述 本文采用的结构数据抽取方法是分析h t m l 结构的一种算法,从本质上说与 l i x t o 和x w r a p 等相似,但如同l i x t o 中实现一种自定义的查询语言,将h t m l 中的抽象信息分离出来,是一项相当艰巨的任务。借助h t m lt i a y 的帮助,我 们使用x s l 完成了l i x t o 中自定义查询语言的作用。h t m lt i d y 可以将h t m l 转换为x h t m l ,一方面消除了h t m l 中的许多语法错误;另一方面x h t m l 也是一种x m l ,所以可以利用x s l 引擎完成数据抽取工作,即x h t m l 作为源 树,通过x s l 引擎和x s l 文档,生成包含抽象数据的x m l 目标树。h t m l t i d y 和x s l 引擎都是很容易获得的免费的第三方工具,这就大大节省了开发时间和 成本,使得开发者可以集中精力在作为抽取器的x s l 文档之上。 对于转换为x h t m l 后的网页,我们的基本思路是希望通过x p a t h 语法标记 出其中的记录和字段,然后通过x s l 将数据抽取出来。下面是x s l 的基本模板。 x s l :t e m p l a t em a t c h = ” p a g e 叵五垂五p 匾互至酵, p a g e t x s l :t e m p l a t em a t c h = ”匝亟亟区重圈1 , x s l :f o r - e a c hs e l e c t = 。囝耍亟亟三耍圈”, x s l :v a l u e o fs e l e c t = ”卢 在上述x s l 模板中,只需要填入标明记录集合的x p a t h ”和标明各个字段 的相对x p a t h ”,就可以形成完整的x s l 文档。然后通过x s l 引擎,从x h t m l 中抽取出记录数据。其中,属性b a s e u r l 和n e x t p a g e 是为了实现查询结果的遍历 及分页取回而预留的,属性值在系统执行查询时动态填入。抽取出的数据的形式 如下: ? x m lv e m i o n = ”10 ”e n c o d i n g = ”u t f - 8 ” p a g e b a s e u r l 2 n e x t p a g e 2 s o m et e x t h t t p :s o m e u r t s o m e t e x t s o m e t e x t h t t p :s o m e u r l s o m et e x t s o m e t e x t 堕塑堑塑塑塑兰!垫!兰叁盛兰堕二塑窭 h t t p :s o m e u r l s o m et e x t 然后,系统可以方便地将上述x m l 文档转换为元组数据,缓存入本地的查询 结果数据库。 因为希望不具备专业知识的用户也能够快速创建包装器,所以不能要求包装 器创建者填入x s l 中需要的x p a t l l 。我们的基本思路是用户使用一个可视化界 面,输入网页中两条记录的视觉信息,程序自动计算出上述x p a t h ,然后填入上 文所述的x s l 模板。 抽取器的半自动创建流程大致如图1 1 。 图1 1 抽取器开发流程 下面,我们将引入两种类型的x s l 模板,这两种x s l 模板能够抽取9 5 以 上半结构数据源的查询结果网页。通过两个实例,我们将说明: ( 1 ) 两种x s l 模板各自如何从网页中抽取结构化数据; ( 2 ) 如何根据记录范例来为不同类型的网页选用不同x s l 模板; ( 3 ) 如何利用包装器创建者给出的记录的范例来计算x s l 模板中需填入的 x p a m ,最终创建抽取器。 i j 稚黛j _ j fi!别割酬刊一 一_ 蛹鬃一 驴一豢藜誊蘩胪藿 r,i“iikke 需当 3 1 2 抽取器模板1 及其半自动创建 例1 中国期刊网全文数据库返回的部分查询结果如图2 ,转换为x h t m l 后树 形视图如图3 。 勘:谜女瀚犯粒删罨 虹撇嬲鳓髋 女皂援 翻瞧 二 圈2 中国期刊叫全文数据库部分查询结果 = c - 1 1 - d d i t = e e l l s p t e i l | = - i d t h = c 0 1 r# e 4 4 4 = h e i 曲t 2 2 _ t “= _ r _ 1 一l t ) t d l t d i 。 :h ; j 1 n t d东南大掌掌报 ) t l 4 & i t n 0 o t d o i & 女 x a o 图3 图1 的网页转换为x h t m l 后的部分树形视图 j 鹋驿 伯骄0 l 把这页x h t m l 视为记录集合的容器,在图1 中包含了3 条记录,每条记录 包括四个文字类型的字段( 篇名、刊名、年、期) 和一个链接类型的字段( 此字 段的值等于网页中超链接h r e f 属性的值) 。在x h t m l 的树形视图中可以看到, t a b l e 节点的某几个t r 子节点是记录的容器,t r 的某几个t d 子节点是字段的容器。 图中展开的t r 节点就是第一条记录的容器。 定义1 :半结构化的h t m l 经h t m l t i d y 转换后得到的x h t m l ,可以视为 记录集合的容器。如果在x h t m l 中存在一个节点n 满足如下条件:( 1 ) 节点n 只包含一个记录r 的全部字段,不包含其他记录的任何字段;( 2 ) 节点n 的任 意子节点不包含记录r 的全部字段。则节点n 称为一个最小记录节点。 例如,图中展开的t r 节点就是第一条记录对应的最小记录节点。 塑塑垫塑塑塑! 塾些堡些皇竺二竺塞 定义2 :半结构化的h t m l 经h t m l t i d y 转换后得到的x h t m l ,可以视为 记录集合的容器。如果在x h t m l 中,每条记录都有对应的最小记录节点,则称 这种x h t m l 为第一类网页。 例如,例1 的x h t m l 就是第一类网页。 一个x p a t h 表达式可以表示x m l 中的一个节点集合。在第一类网页中,如 果能使用x p a t h 表示所有最小记录节点组成的集合,就可以标明所有的记录。第 一条记录中各字段的x p a t h 如下: h t m l 1 b o # 1 t a b l e 1 t r 1 t d 1 t a b l e 2 t r 1 t d 6 f
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年上半年黑龙江中医药大学附属第二医院哈南分院 暨黑龙江省老考前自测高频考点模拟试题附答案详解(典型题)
- 高职单招模考模拟试题附参考答案详解【突破训练】
- 2025年退役军人事务部直属事业单位招聘11人笔试模拟试题带答案详解
- 鹿城医保培训试卷及答案
- 2025公务员考试《常识》通关考试题库及完整答案详解【全优】
- 2025年江苏南通海安市部分学校(幼儿园)系统内选聘232人笔试高频难、易错点备考题库及完整答案详解1套
- 2023年度咨询工程师测试卷(原创题)附答案详解
- 执业药师之《西药学专业一》强化训练题型汇编(考点梳理)附答案详解
- 2025年宁夏回族自治区固原市警察招考行政能力测验模拟题(附答案)
- 2025年度净水设备行业培训与咨询服务合同
- 液压泵站使用说明书
- 化工企业物料编码规则物料分类清晰、编码简短、容易识别
- E190飞机舱门开关
- 儿科学腹泻病
- CT介入学及CT引导下肺穿活检术课件
- GB/T 3871.9-2006农业拖拉机试验规程第9部分:牵引功率试验
- GB/T 3836.4-2021爆炸性环境第4部分:由本质安全型“i”保护的设备
- GB 17840-1999防弹玻璃
- 文学鉴赏-课件
- 小军师面试万能绝杀模板-组织管理
- midasCivil斜拉桥分析课件
评论
0/150
提交评论