（计算机软件与理论专业论文）网络数据源的半自动化集成及统一检索.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-19 格式：PDF 页数：47 大小：1.44MB 积分：12 举报 版权申诉

已阅读5页，还剩42页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

婴塑垫塑塑塑兰! 垫些塞盛皇竺二丝塞摘要本文提出了。种完整的网络信息集成系统实现方案。网络信息集成系统中的包装器包含访问数据源查询接口的s i d l 模块及抽取结构化数据的抽取器模块，目前大多数研究都只讨论了其中抽取器的执行及创建，忽略了查询接口访问模块的执行及创建。本文提出了一种抽取器及s i d l 的半自动创建技术，使数据源的绑定能够真正地由= t i i 具备专业知识的用户来完成。此外，本文提出的抽耿器技术也能够适应大部分结果网页的小幅格式改动。本文也提出了一种中介模式_ ! ；亍本地模式的翻译体系。系统不仅能够对中介模式的某个特定字段进行统一一查询，也能在统一查询中进行多个字段的与操作。数据源描述记录了数据源的数据完整性及部分独特的查询能力，使得统一查询时数据源的过滤成为可能。此外，通过应用系列查询执行优化技术，集成系统在执行统一查询时能够达到较好的效率，既能够同时处理较多用户的请求，也能够较快地答复单个用户的查询请求及遍历查询结果请求。关键词：刚络信息集成系统，包装器创建，数据源描述，中介模式，本地模式丝塑墼塑塑塑兰旦垫些堡些兰堕二丝窒 a b s t r a c t t h i sa r t i c l ep r o p o s e sa i m p l e m e n t f o rw e bi n f o r m a t i o ni n t e g r a t i o ns y s t e m ，i nt h e r e s e a r c ho fw e bi n f o r m a t i o ni n t e g r a t i o n ，w r a p p e rc o n s t r u c t i o ni so n eo fi m p o r t a n t f i e l d s t h e w r a p p e r s s h o u l di n c l u d et h em o d u l e sc a l l e d s i d l ，w h i c hq u e r yw e b i n f o r m a t i o ns o u r c e s ，a n dt h em o d u l e sc a l l e de x t r a c t o r , w h i c he x t r a c tt h eas t r u c t e d r e p r e s e n t a t i o n o ft h ed a t af r o mt h eh t m lp a g e s c o n t a i n i n g t h e m m o s tr e c e n t r e s e a r c hi n w r a p p e rc o n s t r u c t i o nf o c u so ne x t r a c t o rc o n s t r u c t i o ni n s t e a do fs i d l c o n s t r u c t i o n t h i sa r t i c l ep r o p o s e sas e m i a u t o m a t i cw r a p p e rc o n s t r u c t i o nm e t h o d i n c l u d i n ge x t r a c t o rc o n s t r u c t i o na n ds i d l c o n s t r u c t i o nw h i c hw a sr e f e r e dr a r e l y i n t h ew e bi n f o r m a t i o n i n t e g r a t i o ns y s t e m ，t h e m e t h o de n a b l e su s e r si n s t e a do f d e v e l o p e r st oa d dn e x , vw e bs o u r c e ss e m i a u t o m a t i c a l l y w i t ht h eh e l po f x s la n d x p a t h ，t h em e t h o da d a p t st h ei n f o r m a t i o ni n t e g r a t i o ns y s t e mt os i m p l ec h a n g e so f t h e w e bp a g e sa n dm a k e st h es y s t e mm o r er o b u s ta n de x p a n s i b l e t h ea r t i c l ea l s o p r o p o s e sam e t h o dt ot r a n s l a t et h eq u e r ya n dr e s u l t sb e t w e e nm e d i a t o r s c h e m aa n d l o c a ls c h e m a ，w h i c he n a b l e st h eq u e r ye x e c u t i o ne n g i n et oi m p l e m e n t “a n d o p e r a t o r a n df i l t e ri n a p p r o p r i a t ew e bs o u r c e s a tl a s t ，t h ea r t i c l ep r o p o s e ss o m em e t h o d st o o p t i m i z et h eq u e r y e x e c u t i o n 。 k e y w o r d s ：w e b i n f o r m a t i o n i n t e g r a t i o ns y s t e m ，w r a p p e r c o n s t r u c t i o n ，s o u r c e d e s c r i p t i o n ，m e d i a t o rs c h e m a ，l o c a ls c h e m a 2 型垫塾堡塑堕兰! 垫垡塞些兰竺二堡窒 1 引言 1 1 隐藏的互联网与半结构化数据源互联网的迅猛发展使得人们更方便地发布信息，每天都有无数的公司、厂商、组织和个人在无数异构的站点上发布着非常有价值的信息，而在众多的异构数据源中寻找特定的信息就成为被广泛关注的问题。个重要的发现数据技术是大型搜索引擎技术，如g o o g l e 和a l t a v i s t a ，利用网络爬虫( w e bc r a w l e r ) 技术在互联网上主动获取数据，建立索引供用户查询。但是，网络爬虫很难访问互联网的一个重要组成部分隐藏的互联网。可见的互联网( v i s i b l ew e b ) 是在大型搜索引擎的搜索结果中可见到对应链接的网页，一般在搜索引擎按主体分类的网页目录中也可以见到这部分网页；与之对应，隐藏的互联网( h i d d e nw e b i n v i s i b l ew e b ) 就是不能通过普通搜索引擎的结果或目录获取链接的网页。隐藏的互联网的典型例子如下：具有互联网查询界面的数据库：绝大部分隐藏的互联网是由成千上万的具有互联网查询界面的数据库组成的。服务器端根据用户输入的检索条件查询数据库，动态生成查询结果网页。由于需要用户键入检索条件才能生成结果网页，所以这部分网页对搜索引擎的网络爬虫而言部分或是完全的不可见。需要登录的站点：对于某些设置了访问限制的站点，由于搜索引擎的网络爬虫不具有站点的合法用户名及密码，因此无法访问该站点的网页，造成该部分网页对搜索弓f 擎不可见。具有互联网查询界面的数据库也往往是需要登录的站点。隐藏对应链接的网页：某些站点的主页上所有的内部链接都是通过脚本语言来实现。由于浚站点的内部网页链接都是通过脚本语言动态生成，所以网络爬虫不能够通过可见的链接到达对应的网页，这部分网页对搜索引擎也是不可见的。隐藏的互联网数量非常庞大且难以估计，最保守的估计者也认为隐藏部分是可见部分的3 到5 倍【1 ，2 。3 j 。比数量更重要的是，隐藏的互联网往往是包含高质量数据的传统数据库的发布平台。相比通过大型搜索引擎得到的数据，隐藏互联网的数据往往能够更准确更快速地满足用户的特定需求。互联网用户往往为了某种目的，一次性查询多个属于隐藏互联网的站点。例如，网上购物者经常在多个购物网站上检索并比较某种商品的价格：博物馆工作人员需要查询多个博物馆站点的馆减信息以发现某种馆藏文物；科研人员在多个 4 网络数据源的半自动化集成与统一榆索论文检索站点检索某一主题的论文；制造业者检索多家原材料厂商网站比较原材料价格。如果偶尔才进行一次这种检索，用户只需使用浏览器即可；但是如果这种检索成为日常工作，那么利用程序使之自动化或半自动化就成为必要了。隐藏的瓦联网主要是指根据后台数据库内容动态生成的网页，这类网页属于半结构化的网络数据源。独立的数据库系统可以视为结构化数据源，元组或对象的数据格式可以被计算机处理；新闻或小说等网页可以视为非结构化数据源，无限制的自然语占目前无法被计算机理解：半结构化的数据源可以视为结构化数据的容器，女n w e bo fs c i e n c e 矛l t h ei n t e r n e tm o v i ed a t a b a s e ( w w w i m d b c o m ) 等站点的查询结果网页，半结构化的网页中隐藏了结构化的元组数据，必须经过一定处理才能转换为方便计算机处理的结构化数据。 1 2 网络信息集成系统概述网络信息集成系统的任务是抽取及合并多个网上半结构化数据源的数据，以回答用户的统一查询 4 1 。网络信息集成系统有两个主要任务，第一个任务是从异构站点的半结构化的网页中抽取出结构化数据( 例如元组的集合) ，以统一的格式封装，以方便下一步的存储排序查找等操作。这个任务由包装器( w r a p p e r ) 模块负责完成，它涉及到创建及执行等几个技术环节。在信息集成系统中，针对每个网站，存在一个包装器，它包含两种子模块： ( 1 ) 查询接口定义模块( s i d l ) ：根据异构网站的不同查询接口，获得半结构化的网页。本系统中，一个包装器可能对应多个s i d l 模块，每个$ i d l 记录了一个数据源的部分查询能力；但在一次统一检索执行过程中，包装器只能选用唯一一个s i d l 模块。 ( 2 ) 抽取器模块( e x t r a c t o r ) ：根据异构网站的不同数据表现形式，从半结构化的网页中抽取出结构化数据，以统一的格式封装，以方便下一步的存储排序查找等操作。本系统中，一个包装器只拥有一个抽取模块，因为无论以何种查询接口访问数据源，返回的查询结果网页格式都是一致的。对于查询接口定义模块，大多数已有研究往往是一笔带过，实际上这个环节对信息集成系统的查询能力及适应性影响很大，我们将在“研究方法”中详细论述这一模块的半自动创建方法。抽取器的创建和执行，是大多数相关研究的论述重点，本文采用一种基于x s l 的抽取器，利用半自动化的方法创建，也将在“研究方法”中详述。旦完成了第一个任务，我们就可以把半结构化数据源站点视为自治的分布网络数据源的半自动化集成与统一检索式异构数据库，我们需要根据各站点的不同查询能力进行统一检索。这个任务是由数据集成模i l ( m e d i a t o rs y s t e m 或是d a t ai n t e g r a t i o ns y s t e m ) 完成的，这一模块对于管理大数量的数据源站点及适应异构站点的不同查询能力非常重要。 1 3 网络信息集成系统相关技术问题正如前文所述，互联网中半结构化数据源站点数目惊人且增长迅速，这类站点可以视为结构化数据一“元组”集合的容器，我们将在下文简称这类站点为数据源。网络信息集成系统可以通过称为“包装器”的模块来隐藏各个数据源的异构性，使用户以为异构数据源提供的是统模式的元组数据，而不是格式不同的网页。因此，网络信息集成系统在许多方面都与分布式数据库系统相似，许多技术环节都是分布式数据库系统也必须解决的问题。除此之外，网络信息集成系统还有一些独特的问题需要处理：数据源数目庞大且不断变化：网络信息集成系统绑定的站点可能是几十、几百甚至是上千个数据源站点，系统需要种方式能够管理众多的数据源。在查询时应该过滤部分站点，对未被过滤的站点，也应该有合理的查询执行策略，以平衡系统的负载。同时，用户应该可以较方便的添加或删除数据源，添加或删除数据源后不影响对其他数据源的统一检索。数据源的元数据缺乏：程序获取数据源站点的元数据的过程也就是建立站点包装器的过程，这远远难于获取远程数据库的模式数据，数据源站点的数据访问接口和数据表示格式都是面对人而不是程序的。由于数据源数目众多且不断增减，因此，必须有比较方便的方式使用户可以构造数据源对应的包装器。如前文所述，包装器的创建又可分为s i d l 的创建和抽取器的创建两部分。数据源具有高度自治性；数据源的数据访问方式和数据表示格式都不受信息集成系统控制，所以随时可能发生变化。当数据源发生变化时信息集成系统应该具有一定的应变能力。如果无法适应变化，系统也应该能够侦测出数据源的变化，通知用户删除当前对应的包装器，重建新的包装器。上述问题的研究也是本文的重点，本文将在研究方法中详述对应的解决方法。为了从数据源获取结构化数据，数据集成模块( m e d i a t o rs y s t e m 或是d a t a i n t e 8 r a t i o ns y s t e m ) 必须与一系列的包装器模块进行交互。包装器模块可以视为小段程序，包含两个子模块。第一步，s i d l 子模块根据用户的查询条件，访问数据源的检索接口，得到查询结果网页；第二步，e x t r a c t o r 予模块从网页中抽取元组数据，以统一的格式返回给用户。因此，sf d l 和e x t r a c t o r 的创建和执行都是需要解决的最基本问题。网络信息集成系统的一个重要特点是，用户提交查询时使用的模式并不是数据源站点后台数据库中数据实际被存储时使用的模式。这是因为，数据集成系统的主要任务就是使用户不必分别了解异构数据源的模式，也不必单独与它们进行交互。在网络信息集成系统中，用户查询使用的模式称为中介模式( m e d i a t e d s c h e m a ) ，而数据源自身的数据模式称为本地模式( l o c a ls c h e m a ) 。中介模式是数据集成系统中虚拟的关系模式，它必须是所有本地模式的并集。因为并没有任何符合中介模式的元组存储在数据源站点中，所以，用户以中介模式提出的查询，必须经过s i d l 的翻译，重组为符合数据源本地模式的查询；从网页抽取的查询结果元组，必须经过e x t r a c t o r 的翻译，由本地模式重组为中介模式。为了完成这种翻译，包装器中必须记录某个数据源本地模式的所有字段及其与中介模式字段的对应关系，这种记录，在网络信息集成领域称为数据源描述( s o u r c e d e s c r i p t i o n ) 。 s i d l 对某些从中介模式到本地模式的翻译是无法实现的。s i d l 子模块只能通过数据源站点公开的w e b 查询接口访问数据，因此随着数据源查询能力的不同，s i d l 对数据源的数据也具有不同的访问能力。一个异构的数据源，出于安全或执行效率等原因，不会允许用户进行任意的查询，而只是提供某些特定的查询接口，例如只能查询某几个字段，或可以执行与或非等操作。在s i d l 子模块中，如何既允许系统进行统一检索，也保留数据源部分独特的查询能力就成为值得研究的一个问题。如果能够保留异构数据源的独特查询能力，那么就能够进行查询优化及站点过滤等优化措施，对系统的执行效率很有帮助。上文也说明，并不是所有中介模式的查询都能够顺利翻译为数据源模式的查询。例如，中介模式包含电影名称和电影导演两个字段，而某数据源只唯一提供对电影名称字段的查询接口，那么对电影导演字段查询的用户查询就无法使用这一数据源了。与s i d l 的翻译相对应，e x t r a c t o r 的翻译涉及到数据源的数据完整性问题。某些数据源的本地模式中缺少中介模式的某几个对应字段，所以，在将查询结果从本地模式翻译为中介模式时，缺少的字段只能填为空。利用这个特点，如果某个数据源的本地模式缺少用户查询条件中的某个字段时，这个数据源可以被过滤，从而降低查询执行代价。 s i d l 子模块还涉及了其他一些问题。例如，s i d l 如何使用特定的用户名密码登录数据源站点；s i d l 如何对查询结果网页进行遍历以保证结果的完整性等等。e x t r a c t o r 子模块也涉及到是否能适应一些目标网页的简单变化的问题，能否在网页上发生微小变化( 如增减若于广告) 时依然有效。网络信息集成系统的个技术问题是查询的执行和优化。查询的执行很少受嘲络数据源的半自动化集成与统一榆索到研究者的关注，这一问题的主要挑战来自数据源站点的高度自治性及网络状况的不可预期性。首先，由于集成系统对网络数据源采用实时访问( v i r t u a l a p p r o a c h ) ，而无法事先在本地缓存数据( w a r e h o u s i n ga p p r o a c h ) ，所以包装器必须有较快的运行速度，以保证反馈时间在用户的忍耐范围之内；但是，如果一次性将所有选用数据源的查询结果全部取回，既不必要，又造成系统极大的处理负担，甚至可能造成网络的拥塞。本文也介绍一种查询执行策略，既满足用户快速浏览查询结果的需要，也降低系统和网络的负担。查询的优化是指如何根据用户的查询，在所有绑定的数据源中选取一个最小的子集，只对子集的数据源提交查询。这一问题的挑战来源于网络信息集成系统很难获取数据源数据的统计信息，因此难于评估和校准查询执行计划。网络信息集成领域的一个难题就是不同数据源返回的对象的匹配去重问题。例如，不同论文库返回的同一篇论文的记录是否需要去重及如何去重。一种观点是在统一的查询结果中同对象不需要去重，因为每个数据源对同一个对象可能有不同的元数据，而这些元数据都是很有价值的。例如不同论文库返回的同一篇论文的相关引用字段的内容不会完全相同，这些相关引用都是用户所关注的。如果需要去重的话，还有许多技术难题需要解决，其中最常见问题的就是：由于数据源是高度自治的异构站点，所以记录的同一字段格式不同，导致无法进行匹配。例如，日期的书写格式，价格的单位及论文出处的书写格式等等。所以，在本文的集成系统中，虽然通过对查询结果在本地数据库中进行缓存而去除了完全相同的记录，但是，仍然存在重复的记录对象，它们之间可能是字段值格式不同或是非空字段数不同。综上所述，网络信息集成系统的系统结构如图1 。本文按如下方式组织：第一部分是引言，介绍网络信息集成系统的必要性及任务，也介绍了网络信息集成系统涉及的几个技术问题：第二部分主要介绍网络信息集成领域的各种相关研究，也讨论了其他领域的些研究对网络信息集成研究的一些影响：第三部分是本文的重点，详细介绍我们系统在信息集成各个技术环节上采用的技术及策略；第四部分是实验结果，证明我们系统的正确性及效率；第五部分是结论及展望；第六部分是参考文献；最后是感谢及作者简介。网络数据源的半自动化集成与统一检索图1网络信息集成系统系统结构图 9 网络数据源的半自动化集成与统一检索 2 相关研究 2 1 各种已有的网络信息集成系统早期的信息集成系统1 t 0 1 主要研究的是具有完整结构性和固定模式的数据库的集成，这些数据库本身都具有强大的查询处理能力。因此，大量的研究都集中于对异构数据库的模式的集成以构造集成系统的中介模式。然而，这方面研究的大部分结论在网络信息集成领域不再适合，因为网络信息集成系统的研究对象是异构且高度自治的网络数据源。 t s i m m i s 项目构造了一个完整的网络信息集成系统，早期的研究1 1 1 】集中于对半结构数据的建模，定义一种描述网页结构的语言，抽取器创建者利用这种语言描述网页结构，然后系统根据语言的描述自动生成抽取器程序代码。这种方式属于手工创建抽取器，t s i m m i s 项目后期的研究t 1 司着重于统一检索的建模及各种查询的优化。此外，还有一些关于支持“或”操作的统一查询【1 3 】及制定高效的统一查询计划【1 4 1 方面的研究。 h e r m e s 系统定义了一种s i d l 定义语言，用于描述查询时发送到数据源的 h t t p 数据报参数，但是h e r m s 把集成系统与数据源之间的接口简化为一条明确列出参数的h t t p 数据报，所以无法处理许多复杂情况。相比之下，本文提出的s i d l 语言能力更加强大，能够应付非常复杂的查询接口。例如用户登录、多步的参数设置、记录数据源部分独特查询能力、遍历全部查询结果网页等等。 m i x 项目【2 2 】的研究重点是集成模块中统一查询的执行。集成模块生成一份虚拟的可供查询用户浏览的x m l 文档，每当用户提交浏览命令时，集成模块也即时地要求包装器模块取回部分查询结果。本文的统一查询执行策略虽然具体实现与m i x 不同，但出发点是一致的，那就是包装器模块不需要一次性取回数据源的全部查询结果。因为用户往往不是准确严格地定义查询条件以得到较小的结果集合，而是进行比较宽泛的查询，浏览几页查询结果即停止，因为前几页即可发现期望的查询结果或是发现查询结果与预期完全无关。针对这一特点，本文提出的统一查询机制是利用s i d l 的强大功能，每次用户提交浏览命令前只返回某几个数据源的一页查询结果，并且在本地对查询结果进行缓存。m i x 还提供了一种由虚拟x m l 文档的d t d 驱动的根据范例进行统一查询的用户接口 2 a l 。 a r i a d n e 项目【2 4 】假设每个网络集成应用都存在一个统一的领域模型作为本体( o n t o l o g y l ，侧重于提供复杂的知识表达技术( 本体) 来创建集成系统的统一领域模型，每个数据源模型都以这个统一的领域模型的术语来定义。本文则主要是根据数据源的查询接口和返回的结果网页内部结构，来制作描述数据源的包装网络数据源的半自动化集成与统一检索器。 f l o r i d 2 5 是基于f - l o g i c 2 6 的，用于管理和集成半结构化数据的面向埘象的系统。系统使用面向对象的数据模型描述半结构化数据，利用f l o g i c 对数据进行查询。对多个自治的异构数据源的统一检索技术也被应用于许多商业系统之中。例如i b m 的d b 2u b d b i 2 7 1 ；j u n g l e e 公司应用虚拟数据库技术( v d b m s ) ，为华盛顿邮报站点制作的网络招聘信息集成系统；w e b m e t h o d s 公司应用网络接口定义语言技术( w i d l ) ，为d i s c o v e r y 频道制作的w e b 图像搜索和自动获取系统等等。t h o m s o ni s i 通过与w e b f e a t ，i n c 的合作，在i s iw e bo f k n o w l e d g e 平台引入了跨库联合检索服务。用户通知w e b f e a t 需要集成的数据源列表及要求的检索界面，然后w e b f e a t 专业人员在w e b f e a t 维护的服务器上手工创建网络信息集成系统，并在后期维护这个集成系统。用户方只需在本地站点提供指向w e b f e a t 服务器对应位置的链接即可。这种解决方案在技术上并不先进，包装器可以认为是手工创建的，但在商业j 二却是可行的。因为厂商不是出售一个软件而是出售网络信息集成系统的建立及维护服务。除了完整的网络信息集成系统外，还有大量的研究专著于网页中半结构化数据的抽取及抽取器的创建。目前的抽取器创建方式大致分为手工创建、半自动创建和自动创建三种。 t s i m m i s 系统的抽取器即为手3 1 6 , 1 建，这种方式有很大的缺点：利用描述性语言描述每个数据源的网页结构仍然是繁琐而容易出错的过程；而且，创建者需要学习一种完全不会在其他场合使用的自定义语言。这种系统添加修改数据源需要专业开发人员，维护代价很高。相似的研究还有 2 1 1 ；g lw 4 f 2 8 、2 9 1 。目前大多数抽取器创建系统采用半自动创建方式。这种系统为用户提供一个可视化界面，对每个数据源的网页，用户为系统指定若干个需要抽取的数据的范例。系统根据用户提供的范例，首先生成一种自定义的数据查询语言，然后根掘这种语言描述自动生成包装器的程序代码。半自动创建包装器的优点是：创建者只需指定待抽取数据的范例，不需要使用查询语言或是编写程序，因此不需要专业知识。采用半自动创建方式的信息集成系统维护代价较小，目前大多数商业系统也采用了这种方式。但是，这种创建方式也有一些缺点。首先，系统开发代价较高，丌发自定义数据查询语言的解析器和根据查询语言自动生成代码都很繁琐而且容易出错：其次，这种方式创建出来的包装器不容易适应目标网页的简单变化( 比如，网页上新增的一个广告等等) 。这类研究包括l i x t o l 1 5 1 、x w r a p t 6 1 及【1 7 】。l i x t o 系统可采用“系统默认”方式生成抽取规则，自动化程度较高，但获得的规则缺乏健壮性，也可采用“用户定制”方式生成抽取规则，自动化程度较低，且对用户有一定要求，用户操作不当将直接影响生成的抽取规则的健壮网络数据源的半自动化集成e j 统一榆索性。x w r a p 系统只适合对含有明显区域结构的网页进行抽取，适应面比较窄，模式表达能力非常有限。本文提出的抽取器创建方式实际上是半自动创建方式的一种改进，通过使用x s l 和x p m h 技术代替自定义查询语占，不仅开发方便，不易出错，更重要的是抽取器的创建可以由无专业知识的用户完成。在半自动创建方式中，针对每个数据源，创建者都要指定若干个待抽取的数据范例，因此还不能完全脱离人的干预。因此，一些研究人员开始研究基于机器学习的抽耿器自动创建技术。其主要思想是通过对个具有代表意义的网页集合的包装器创建训练，使程序在遇到新的网页时能够自动创建抽取器。r a p i e r r 3 0 i 和w h i s k 3 1 1 等采用的是基于自然语言处理的方法，分析文档中的语句和段落生成提取规则，然后根据提取规则从文档中提取相关的信息。还有其他的采用数据模型的方法，如n o d o s e 3 2 1 和d e b y e 3 3 、3 4 ，以及采用基于o n t o l o g y 方法的，如b y u 大学的d a t a e x t r a c t i o n g r o u p 3 5 、3 6 1 的工作。目前已有的研究成果都有较强的限制条件，抽取规则表达能力有限，获得有效的抽取规则需要大量的样本学习，达到全自动的程度很难，所以主要还处在实验室阶段，没有大规模应用于实际的网络信息集成系统。这类研究还包括 1 8 、1 9 、2 0 ) 。也有一些关于网络数据源查询接口的研究。 3 7 、3 8 研究了网上半结构化数据源的分类及探测。【3 9 】提出了一种基于用户交互的中介一本地模式映射方式，但是并没有讨论实际的集成创建模式。目前，大多数涉及查询接口集成的研究【4 0 、4 1 、4 2 、4 3 、4 4 、4 5 、4 6 都简单地把数据源查询接口视为一个具有本地模式的黑盒，忽略了一个或多个集成时可能遇到的复杂情况。例如，查询接口可能拥有多个字段可供查询，可能支持与或非等逻辑操作，可能具有参与逻辑操作的字段数限制；查询结果可能需要遍历多个网页：添加删除数据源对中介模式的影响等等。本文利用s i d l 模块进行查询接口的集成，能够处理大多数上述复杂情凋。 2 2 w e bs e r v i c e 技术族对网络信息集成的影响最近的w e bs e r v i c e 技术浪潮有可能简化网络信息集成系统的研究。理论上，数据源站点可以很方便地将传统检索接口转换为w e b 服务( w e bs e r v i c e ) ，利用 s o a p 协议与其他网络相关程序交互：同时数据源站点可以利用w s d l ( w e b s e r v i c e d e f i n i t i o nl a n g u a g e ) 协议t 5 l 描述自己的w e b 服务接口，再借助u d d i 协议【6 】将自身的w e b 服务发稚。网络信息集成系统通过u d d i 和w s d l 协议可以方便地获得数据源站点的数据访问方式和数据格式信息，然后，利用s o a p 协议【7 l 获取数据源站点的查询结果。网络数据源的半自动化集成与统一检索例如，一个价格比较系统可以通过u d d i 中心发现若干购物网站的w e b 服务并获取对应的w e b 服务描述文档，将购物网站绑定。在用户提出查询时，通过 s o a p 协议与各购物网站进行交互，在得到的查询结果中选取价格最低的记录返回给用户。这样，网络信息集成系统的第一个任务，也是当前研究的重点，就迎刃而解。通过w e bs e r v i c e 技术即能够方便地访问数据源站点地查询接口，也可以方便地得到结构化数据( s o a p 数掘报中的对象) 。网络信息集成主要考虑的问题就变成如何更好地进行统一检索了。然而，考虑到异构站点的独立性，出于商业利益或是对遗留系统改造费用的考虑，数据源站点可能并不愿意为自己的数据提供公共的w e bs e r v i c e 接口。因此，通过面向人的数据接口来访阀异构数据源，仍将是今后一段时间内大多数网络信息集成系统采用的集成方式。也就是说，对不合作的网络数据源，无法利用 w e bs e r v i c e 技术进行集成。 2 3 o p e n u r l 技术对网络信息集成的影响 w e bs e r v i c e 协议族是由微软、i b m 、l o t u s 等各大计算机厂商共同提倡，而另一种技术o p e n u r l 8 则主要是由图书馆站点、科技论文库站点及电子期刊站点提倡的。大多数学术单位，都会订阅一些电子期刊和论文检索服务站点。一般来说，订阅用户必须先连接到电子期刊所属站点，并且输入用户名和密码，才可以看到或检索该电子期刊。这种做法已经无法满足用户同益增长的需求，对多个数据源站点的访问是费时又费力的。为了使用户可以用一次点击达到两三个步骤才能达到的成果，各个数据源站点间必须存在一种沟通机制。o p e n u r l 就是这类站点间相互通讯的一种协议，因此受到学术界及市场的重视。 o p e n u r l 是应用于互联网超链接的一种陈述语法规范，根据一组已经定义好的标签，增强互联网的超链接能力。一个o p e n u r l 链接相当于图书馆中的一张索引卡；链接服务器r ( l i n k - s e r v e 0 负责解释o p e n u r l ，相当于图书馆中的图书查询台，链接服务器绑定的若干数据源站点( 如w e bo f s c i e n c e 或是n a t u r e ) 就相当于图书馆中的书库或是书架。用户点击一个o p e n u r l 链接，经过链接服务器的解释，就可以到达某篇文档的一个“最适合”的副本，而“最合适”的标准，是由链接服务器综合各种因素决定的，如费用，是否提供全文等等。如果用户已经得知某篇文章的元数据，如题目作者日期等，可以通过点击一个包含上述元数据的o p e n u r l 链接，到达某个数据源站点的对应网页。例如，如果图书馆购买了n a t u r e 的电子全文库，为了提供给图书馆用户使用，必须提供给用户n a t u r e 的用户名密码。或是开设代理服务器，使用户通过特定网络数据源的半自动化集成与统一检索的i p 访问n a t u r e 网站。同时，每个用户还必须经过登录查询下载等两三步骤浏览才能真正访问到全文。但是，如果图书馆架设一个o p e n u r l 链接服务器，用户就可以通过一个o p e n u r l 链接，一次点击下载到全文。与w e b 服务技术相似，o p e n u r l 技术可以实现网络信息集成系统的第一个任务第一个子模块，即实现对数据源站点查询接口的访问。但是，由于o p e n u r l 只是加强了超链接的功能，并没有返回结构化的数据，因此，信息集成系统仍然需要从返回的网页中抽取结构化数据。而且，与w e b 服务技术相似，也无法对不合作的网络数据源利用o p e n u r l 进行集成，异构的数据源站点是否愿意支持 o p e n u r l 服务仍是一个大问题，直接影响了信息集成系统的适应性。目前，还没有国内的论文库和电子期刊库支持o p e n u r l 服务。删络数据源的半自动化集成与统一检索 3 研究方法 3 1 抽取器模块执行及半自动创建 3 1 1 抽取器模块概述本文采用的结构数据抽取方法是分析h t m l 结构的一种算法，从本质上说与 l i x t o 和x w r a p 等相似，但如同l i x t o 中实现一种自定义的查询语言，将h t m l 中的抽象信息分离出来，是一项相当艰巨的任务。借助h t m lt i a y 的帮助，我们使用x s l 完成了l i x t o 中自定义查询语言的作用。h t m lt i d y 可以将h t m l 转换为x h t m l ，一方面消除了h t m l 中的许多语法错误；另一方面x h t m l 也是一种x m l ，所以可以利用x s l 引擎完成数据抽取工作，即x h t m l 作为源树，通过x s l 引擎和x s l 文档，生成包含抽象数据的x m l 目标树。h t m l t i d y 和x s l 引擎都是很容易获得的免费的第三方工具，这就大大节省了开发时间和成本，使得开发者可以集中精力在作为抽取器的x s l 文档之上。对于转换为x h t m l 后的网页，我们的基本思路是希望通过x p a t h 语法标记出其中的记录和字段，然后通过x s l 将数据抽取出来。下面是x s l 的基本模板。 x s l ：t e m p l a t em a t c h = ” p a g e 叵五垂五p 匾互至酵， p a g e t x s l ：t e m p l a t em a t c h = ”匝亟亟区重圈1 ， x s l ：f o r - e a c hs e l e c t = 。囝耍亟亟三耍圈”， x s l ：v a l u e o fs e l e c t = ”卢在上述x s l 模板中，只需要填入标明记录集合的x p a t h ”和标明各个字段的相对x p a t h ”，就可以形成完整的x s l 文档。然后通过x s l 引擎，从x h t m l 中抽取出记录数据。其中，属性b a s e u r l 和n e x t p a g e 是为了实现查询结果的遍历及分页取回而预留的，属性值在系统执行查询时动态填入。抽取出的数据的形式如下： ? x m lv e m i o n = ”10 ”e n c o d i n g = ”u t f - 8 ” p a g e b a s e u r l 2 n e x t p a g e 2 s o m et e x t h t t p ：s o m e u r t s o m e t e x t s o m e t e x t h t t p ：s o m e u r l s o m et e x t s o m e t e x t 堕塑堑塑塑塑兰!垫!兰叁盛兰堕二塑窭 h t t p ：s o m e u r l s o m et e x t 然后，系统可以方便地将上述x m l 文档转换为元组数据，缓存入本地的查询结果数据库。因为希望不具备专业知识的用户也能够快速创建包装器，所以不能要求包装器创建者填入x s l 中需要的x p a t l l 。我们的基本思路是用户使用一个可视化界面，输入网页中两条记录的视觉信息，程序自动计算出上述x p a t h ，然后填入上文所述的x s l 模板。抽取器的半自动创建流程大致如图1 1 。图1 1 抽取器开发流程下面，我们将引入两种类型的x s l 模板，这两种x s l 模板能够抽取9 5 以上半结构数据源的查询结果网页。通过两个实例，我们将说明： ( 1 ) 两种x s l 模板各自如何从网页中抽取结构化数据； ( 2 ) 如何根据记录范例来为不同类型的网页选用不同x s l 模板； ( 3 ) 如何利用包装器创建者给出的记录的范例来计算x s l 模板中需填入的 x p a m ，最终创建抽取器。 i j 稚黛j _ j fi!别割酬刊一一_ 蛹鬃一驴一豢藜誊蘩胪藿 r，i“iikke 需当 3 1 2 抽取器模板1 及其半自动创建例1 中国期刊网全文数据库返回的部分查询结果如图2 ，转换为x h t m l 后树形视图如图3 。勘：谜女瀚犯粒删罨虹撇嬲鳓髋女皂援翻瞧二圈2 中国期刊叫全文数据库部分查询结果 = c - 1 1 - d d i t = e e l l s p t e i l | = - i d t h = c 0 1 r# e 4 4 4 = h e i 曲t 2 2 _ t “= _ r _ 1 一l t ) t d l t d i 。：h ； j 1 n t d东南大掌掌报 ) t l 4 & i t n 0 o t d o i & 女 x a o 图3 图1 的网页转换为x h t m l 后的部分树形视图 j 鹋驿伯骄0 l 把这页x h t m l 视为记录集合的容器，在图1 中包含了3 条记录，每条记录包括四个文字类型的字段( 篇名、刊名、年、期) 和一个链接类型的字段( 此字段的值等于网页中超链接h r e f 属性的值) 。在x h t m l 的树形视图中可以看到， t a b l e 节点的某几个t r 子节点是记录的容器，t r 的某几个t d 子节点是字段的容器。图中展开的t r 节点就是第一条记录的容器。定义1 ：半结构化的h t m l 经h t m l t i d y 转换后得到的x h t m l ，可以视为记录集合的容器。如果在x h t m l 中存在一个节点n 满足如下条件：( 1 ) 节点n 只包含一个记录r 的全部字段，不包含其他记录的任何字段；( 2 ) 节点n 的任意子节点不包含记录r 的全部字段。则节点n 称为一个最小记录节点。例如，图中展开的t r 节点就是第一条记录对应的最小记录节点。塑塑垫塑塑塑! 塾些堡些皇竺二竺塞定义2 ：半结构化的h t m l 经h t m l t i d y 转换后得到的x h t m l ，可以视为记录集合的容器。如果在x h t m l 中，每条记录都有对应的最小记录节点，则称这种x h t m l 为第一类网页。例如，例1 的x h t m l 就是第一类网页。一个x p a t h 表达式可以表示x m l 中的一个节点集合。在第一类网页中，如果能使用x p a t h 表示所有最小记录节点组成的集合，就可以标明所有的记录。第一条记录中各字段的x p a t h 如下： h t m l 1 b o # 1 t a b l e 1 t r 1 t d 1 t a b l e 2 t r 1 t d 6 f

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）网络数据源的半自动化集成及统一检索.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）网络数据源的半自动化集成及统一检索.pdf

文档简介

温馨提示

最新文档

评论

相关文档