（计算机软件与理论专业论文）deep+web查询接口集成及搜索策略研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：44 大小：1.55MB 积分：10.8 举报 版权申诉

（计算机软件与理论专业论文）deep+web查询接口集成及搜索策略研究.pdf_第2页

（计算机软件与理论专业论文）deep+web查询接口集成及搜索策略研究.pdf_第3页

（计算机软件与理论专业论文）deep+web查询接口集成及搜索策略研究.pdf_第4页

（计算机软件与理论专业论文）deep+web查询接口集成及搜索策略研究.pdf_第5页

已阅读5页，还剩39页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要随着计算机网络技术与信息技术的快速发展，w e b 上的信息急剧增加，已经成为当今社会的重要资源，人们也越来越多地依赖搜索引擎来查找所需的信息。但是w e b 上存在大量的在线数据库，这些数据库中的信息通过提交查询实时产生，对于目前常用的搜索引擎是不可见的，称之为d e e pw e b 。由于d e e pw e b 中蕴藏的信息质量更高、规模更大，因此建立d e e pw e b 数据集成系统成为数据库领域和信息检索领域的研究热点。本文主要在d e e pw e b 查询接1 ：2 1 集成和统一查询接1 2 1 上的搜索策略两个方面进行了研究，这些都是d e e pw e b 数据集成研究的重要内容。在查询接口集成方面，首先通过分析d e e pw e b 查询接口页面的结构及其表现形式，将d e e p w r e b 接1 ：3 分为三类，并提出了接1 2 1 元素这一概念，给出了接1 ：3 的形式化表示。在此基础上提出了一种基于知识学习和探测查询的d e e pw e b 接1 ：3 集成方法。该方法首先选择要集成的属性，然后在各接口元素中匹配这些属性，最后将匹配为同一属性的接口元素集成在一起，构成统一查询接口。该方法包括基于模板的匹配、基于领域知识的匹配、基于探测查询的匹配等步骤。实验表明该方法对接口抽取工作的依赖性较低并且具有较高的匹配准确率。对于集成的统一查询接口，本文改进了其上的搜索策略。首先针对所集成不同类型的d e e pw e b 查询接口，提出了同时映射、优先级映射和集成映射三种映射方式以及二次查询的方法来扩展统一查询接口功能，以提高查询准确率。然后提出了建立本地索引数据库的方法，以提高查询效率。分析表明，本文所述方法具有较高的查询准确率和时间效率。关键词d e e pw e b 接口集成模式匹配搜索策略查询映射 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rn e t w o r k sa n di n f o r m a t i o nt e c h n o l o g y , t h er a p i d i n c r e a s eo ft h ei n f o r m a t i o no nt h ew e bh a sb e c o m eo n eo ft h em o s ti m p o r t a n ts o c i a l i n f o r m a t i o nr e s o u r c e s n o w a d a y s ，m o r ea n dm o r ep e o p l ea r ed e p e n d i n go ns e a r c he n g i n et o o b t a i nt h e i ri n f o r m a t i o n h o w e v e r , t h e r ea r em a n yo n l i n ed a t a b a s e si nt h ew e b ，c a l l e dd e e p w e b t h e s ed a t a b a s e s i n f o r m a t i o ni sr e a l - t i m eb u i l tt h r o u g hi n q u i r i n gs e a r c h i n g ，b u ti ti sn o t v i s u a lf o rm a i ns e a r c he n g i n e s t h ei n f o r m a t i o ni nd e e pw e bi sm u c hb i g g e ri ns c a l ea n d h i g h e ri nq u a l i t y t h e r e f o r e ，t h ee s t a b l i s h m e n to fd e e pw e bd a t ai n t e g r a t i o ns y s t e mh a s b e c o m eah o ti s s u eo fi n v e s t i g a t i o ni nt h ed o m a mo fd a t a b a s ea n di n f o r m a t i o ns e a r c h w ec a r r yo u tr e s e a r c hi nt h er e s p e c to fd e e pw e bq u e r yi n t e r f a c ei n t e g r a t i o na n dt h e s e a r c hs t r a t e g yo fu n i f i e dq u e r yi n t e r f a c e t h e ya r et h ei m p o r t a n tc o u t e n to fd e e pw e bd a t a i n t e g r a t i o ns t u d y i nt h eq u e r yi n t e r f a c ei n t e g r a t i o n ，t h i st h e s i sf i r s tc a t e g o r i z e st h ed e e pw e bi n t e r f a c e s t h r o u g ha n a l y z i n gt h ed e e pw e bq u e r yi n t e r f a c ep a g e s s t r u c t u r ea n dt h e i rm a n i f e s t a t i o n t h e nw ei n t r o d u c et h ec o n c e p to fi n t e r f a c ee l e m e n ta n dg i v et h eq u e r yi n t e r f a c eaf o r m a l d e s c r i p t i o n b a s e do nt h e s e ，t h i sd i s s e r t a t i o np r o p o s e sam e t h o dt oi n t e g r a t ed e e pw e b i n t e r f a c e st h r o u g hk n o w l e d g es t u d ya n dp r o b i n gq u e r y i no u ra p p r o a c h ，w ef i r s ts e l e c tt h e r e q u i r e da t t r i b u t e s ，a n dt h e nm a t c ht h e s ea t t r i b u t e si ne a c hi n t e r f a c ee l e m e n t ，a f t e rt h a t i n t e g r a t ee a c hi n t e r f a c ee l e m e n tw h i c hm a t c h e st h es a m ea t t r i b u t et og e n e r a t et h eu n i f i e d q u e r y i n t e r f a c e t h i sm e t h o di n c l u d e si n t e r f a c et e m p l a t e b a s e dm a t c h i n g ，d o m a i n k n o w l e d g e b a s e dm a t c h i n ga n dp r o b i n gq u e r i e s b a s e dm a t c h i n g ，e t c e x p e r i m e n t a lr e s u l t s s h o wt h a tt h ep r o p o s e dm e t h o dh a sh i g h e rm a t c h i n ga c c u r a c ya n dl o w e rd e p e n d e n c yo n f o rt h ei n t e g r a t e du n i f i e dq u e r yi n t e r f a c e ，t h i sd i s s e r t a t i o ni m p r o v e si t ss e a r c hs t r a t e g y f i r s t ，f o rt h ed i f f e r e n tt y p e so ft h ei n t e g r a t e dd e e pw e bq u e r yi n t e r f a c e s ，w ep r o p o s et h r e e m a p p i n gw a y sa n d t h es e c o n dq u e r ym e t h o dt oe x p a n dau n i f i e dq u e r yi n t e r f a c ea n di m p r o v e q u e r ya c c u r a c y t h e nw ec l a r i f ya m e t h o dt oi m p r o v eq u e r ye f f i c i e n c yb ye s t a b l i s h i n gt h e i i a b s t r a c t l o c a li n d e xd a t a b a s e a n a l y s i ss h o w st h a tt h em e t h o d sd e s c r i b e di nt h i sd i s s e r t a t i o nh a v eh i 曲 q u e r ya c c u r a c ya n dt i m ee f f i c i e n c y k e y w o r d sd e e pw e b i n t e r f a c ei n t e g r a t i o np a t t e r nm a t c h i n gs e a r c hs t r a t e g y q u e r ym a p p i n g i i i 河北大学学位论文独创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写的研究成果，也不包含为获得河北大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了致谢。作者签名：日期：丝年月旦日学位论文使用授权声明本人完全了解河北大学有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。本学位论文属于 1 、保密口，在年月日解密后适用本授权声明。 2 、不保密9 o ( 请在以上相应方格内打“) 保护知识产权声明本人为申请河北大学学位所提交的题目为掳珍以包参洵商缸弱袁屈粲氇筠黼的学位论文，是我个人在导师晓乃 ) 指导并与导师合作下取得的研究成果，研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费资助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定的各项法律、行政法规以及河北大学的相关规定。本人声明如下：本论文的成果归河北大学所有，未经征得指导教师和河北大学的书面同意和授权，本人保证不以任何形式公开和传播科研成果和科研工作内容。如果违反本声明，本人愿意承担相应法律责任。声明人：作者签名：日期：盟年上月鱼日日期：2 生年月卫日 f f 、一导师签名：型丝日期：年之月卫日第l 章绪论第1 章绪论 1 1研究背景随着万维网( w o r l dw i d ew e b ，w e b ) 的出现，人们发布和浏览信息变得越来越便利，并且伴随着技术的发展，各种基于w e b 的应用层出不穷，由此导致了存储在w e b 上的信息量迅速增多。根据d f e t t e r l y 等人的调查【1 1 ，目前整个w 曲所蕴含的信息量超过了2 0 0 ，0 0 0 t b ，并且仍在快速增长。以中文网站为例，据中国互联网络信息中心( c h i n a i n t e m e tn e t w o r ki n f o r m a t i o nc e n t e r ，c n n i c ) 最新调查显利2 1 ，截至2 0 0 8 年底，中国已经有2 8 7 8 万个网站，网页总数超过1 6 0 亿个。因此，目前困扰人们的问题已经由找不到信息，转变为如何从繁杂的信息中提取出对自己有用的内容。人们对查找信息的迫切需求导致了搜索引擎的出现，然而w e b 中还有很大一部分信息是传统搜索引擎搜索不到的，例如保存在数据库中的信息、实时查询产生的动态网页等等。因此可以从传统搜索引擎的角度将w e b 分为两部分，那些能被传统搜索引擎检索到的称为“浅层网络”( s u r f a c ew r e b ) ，而那些不能被传统搜索引擎检索到的称为“深层网络 ( d e e pw e b ) 。 d e e pw e b 中的信息，通过传统的搜索引擎一般无法检索到，出现这种情况的原因主要有两点1 3 j ： ( 1 ) 技术原因。传统的搜索引擎主要使用爬虫通过超链接在网络上抓取内容，但由于它无法自动填写表单，因此对于需要在查询接口上输入检索词才能获取数据的在线数据库，爬虫无法得到其中的数据。 ( 2 ) 搜索引擎对爬虫访问限制。随着网页编程技术的发展，越来越多的站点采用脚本语言( 如a s p 、j s p 等) 调用数据库的方式动态生成，并通过一些带“? 的超链接访问数据库。而搜索引擎一般只抓取h t m l 文件，对于这种带“? 的页面，一般不会去抓取，这是为了避免一种名为“爬虫陷阱”( s p i d e rt r a p s ) 的脚本错误。这种错误会让爬虫进入死循环，无法退出而浪费时间。现在有的搜索引擎( 例如百度) 虽然支持一些动态页面的查询，但仍存在很多缺陷。一方面这样的动态页面常常是不稳定的，用户查询得到的结果经常是与原来不同的内容甚至是错误页面，影响搜索质量；另外，河北大学t 学硕士学位论文还面临着出现“爬虫陷阱的风险。由于以上的原因，传统的搜索引擎对这部分w e b 内容并不提供索引，从而导致d e e pw e b 中信息的“不可见”。 2 0 0 0 年7 月，b r i g h t p l a n e t 对d e e pw e b 做了一次较为全面的宏观统计，发布了d e e p w 曲的白皮书 4 1 ，调查研究表明，d e e pw e b 蕴含的信息量是s u r f a c ew - e b 的4 0 0 5 0 0 倍，并且质量和访问量更高，此外超过5 0 的d e e pw e b 的内容是面向某一领域的结构化知识。而据2 0 0 9 年1 月c n n i c 发布的第二十三次中国互联网信息资源数量调查报告显示 2 1 ：中国网页中动态网页的总数超过8 0 亿个，占网页总数的5 0 9 4 。因此，如何充分利用d e e pw e b 中的信息，建立d e e pw e b 数据集成系统成为目前数据库领域和信息检索领域的研究热点。而d e e pw e b 接口集成是建立d e e pw e b 数据集成系统的一个重要组成部分。本文提出了一种基于知识学习和探测查询的d e e pw - e b 接口集成方法，该方法包括基于模板的匹配、基于领域知识的匹配和基于探测查询的匹配三个模块。实验表明，该方法具有较高的匹配准确率和良好的集成效果，而且只需要简单的接口信息，简化了接口信息抽取工作。 1 2 研究现状 1 2 1 d e e pw 曲数据集成系统框架 1 9 9 4 年，j i l le l l s w o r t h 博士首次提出了不可见网络一词，来描述那些对于传统搜索引擎不可见的信。g t 4 j 。但是真正的深层网络研究起始于1 9 9 8 年，当时两位美国信息管理专家l a w r e n c e 和g i l e s 意识到传统搜索引擎的低覆盖率，提出了网络信息利用率问题，鉴于网络信息资源没有得到充分的开发和利用，他们提出了开发深层网络信息资源的想法1 5 1 。2 0 0 0 年7 月，b r i g h t p l a n t 在报告中提出【4 】：这种所谓的“不可见”网络信息资源，更为合适的叫法应该是d e e pw e b 。广义上，d e e pw - e b 主要包含4 个方面1 6 ：( 1 ) 通过填写表单形成对后台在线数据库的查询而得到的动态页面；( 2 ) 由于缺乏被指向的超链接而没有被搜索引擎索引到的页面；( 3 ) 需要注册或其他限制才能访问的内容；( 4 ) w e b 上可访问的非网页文件，如 w o r d 文档等。其中d e e pw e b 第一部分的内容，最被研究者所重视。此类数据获取过程如图1 1 所示吼用户通过d e e pw e b 站点提供的查询接口填写表单，将查询表单提交给w e b 服务器和后台数据库，经处理后动态形成结果页面，并通过浏览器反馈给用户。当前，国内外研究主要集中于集成此类数据。第1 章绪论查询接r l：刻览罂图1 1 从w e b 数据库中获取数据的过程建立d e e pw e b 数据集成系统的主要目标有3 点：( 1 ) 能够自动发现w e b 上的在线数据库；( 2 ) 能够将各个查询接口集成在一起，形成统一接口；( 3 ) 当用户通过统一接口发出查询请求时，将查询映射到各个d e e pw e b 数据库，获取返回结果，并形成统一结果页面。目前，已经有一些d e e pw e b 资源集成系统的原型被建立，从整体上说明了这类资源集成系统所应该具备的基本功能。具体来讲，d e e pw e b 数据集成系统可以划分成查询接口的发现、查询接口的分类、查询接口的抽取、查询接口的集成、查询映射、数据库的选择、结果数据的抽取、实体识别等几个模块。主要应用了机器学习、信息抽取等现有的技术。 d e e pw e b 数据系统的主要流程如图卜2 所示：首先，利用搜索引擎或网络爬虫在 w e b 上寻找d e e pw e b 数据库，即d e e pw e b 查询接口的发现；然后，根据这些查询接口的领域特征进行分类；之后，利用信息抽取技术将各个查询接口的模型抽取出来，并用统一的形式描述；而后，对各个查询接口的属性模式进行匹配、集成，构造统一的查询接口并呈现给用户；当用户通过向统一查询接口提交查询时，系统通过查询映射，将用户提交的查询词分别映射到各个d e e pw e b 数据库的查询接口进行查询；在集成了众多接口之后，为提高查询效率，在查询映射之前，系统应根据一套机制对查询的数据库进行选择；在查询完成后，需要对各个数据库的查询结果页面进行信息抽取，并用统一的形式进行存储；之后，对存储的结果进行去重等实体识别工作；最终，将整合后的结果页面呈现给用户。河北大学丁学硕士学何论文 i 查询接口的抽取， l 查询接口的集成用户 h 整厶罐吾的查询h 查询映射h 数据库的选择 j l ，整合后的结果呈现实体识别返回结果的抽取图1 - 2d e e pw e b 资源集成系统的框架 1 2 2 d e e pw - e b 数据集成系统研究现状在国外，从深层网络的提出到现在己经有几年的研究历史，出版了大量专著和论文，研究已经较为深入。目前，深层网络的研究己经成为国外信息检索领域的一个研究热点， i l l i n o i s 大学的m e t a q u e r i e r 7 1 项目和斯坦福大学的h i d d e nw 曲e x p o s e r l 8 1 是其中比较成熟的两个系统。 m e t a q u e r y 7 】的目标是有效地获取w e b 数据库中的结构化信息。它的特点在于系统内包含一个w e b 数据库搜索引擎，能够有效发现含有数据库的站点，并能进一步整理规划可搜索的在线w e b 数据库。同时，m e t a q u e r y 还研究了数据库选择、查询转换和模式集成问题。此外，与传统的信息检索不同，m e t a q u e r y 系统可以将新发现的数据源实时地集成到系统中，并且在查询时能够动态地选择数据源以及进行查询转换，获取查询结果，因此，m e t a q u e r y 系统是一个动态的信息集成系统。 h i d d e nw - e be x p o s e r ( h i w e ) t 8 】的功能是自动地抽取d e e pw 曲内容。这个系统的运行过程为：爬虫管理器首先从一个预先指定的站点集开始爬行，并下载w e b 页面，分析哪些页面中含有表单。接着将包含表单的页面送到表单处理器去分析处理，表单处理器先从页面中抽取出表单，再从标签值域数据集( l v s ) 中选择数据自动地完成表单的 4 第1 章绪论标签匹配与填写，最后将填写好的表单提交给服务器，并获取返回结果。结果分析器再对返回结果进行分析，以判断提交得到的结果是否正确。h i w e 的不足之处在于，它只能面向特定领域而且需要在人工帮助下使用。国内d e e pw e b 数据集成方面的研究还是相对滞后的，研究单位及相关文献都比较少，绝大多数网络用户甚至对d e e pw e b 的概念还比较陌生。但是近几年来，越来越多的研究者开始关注d e e pw e b ，并开始着手研究，取得了一定研究成果，d e e pw e b 逐步成为当前信息搜索领域的研究热点。其中刘伟、孟小峰、孟卫一等人的成果最为显著，在文献 6 】中提出了一个d e e pw e b 数据集成的系统架构，综述了d e e pw e b 数据集成系统中若干主要问题的研究现状。文中将d e e pw 曲数据集成系统分为三大模块，即集成接口生成模块，查询处理模块和查询结果处理模块。其中集成接口生成模块包括w e b 数据库的发现、查询接口模式的抽取、w e b 数据库的分类、查询接口的集成，查询处理模块包括w e b 数据库的选择、查询转化和查询提交，查询结果处理模块包括结果抽取，结果注释和结果合并。此外文中对d e e pw 曲数据集成系统的研究发展方向作了较为深入的探讨分析，并提出了许多值得我们思考和借鉴的方法。 1 2 3 d e e pw - e b 接口集成研究现状 d e e pw e b 接口集成是d e e pw 曲数据集成系统的一个重要组成部分。查询接口的集成是为了给用户提供一个对属于同一个领域的多个d e e p w e b 数据库的统一访问接口【6 】。而通过查询接口进行提交查询是目前获得d e e pw e b 数据库中信息的主要方式。因此查询接口集成对w e b 数据库的集成具有相当重要的意义。由于查询接口集成对d e e pw e b 数据库集成的重要性，目前国内外对此研究的已比较多，总的来说通过属性进行分析是查询接口集成最主要的途径。模式匹配是这一领域的关键性技术。w i s e i n t e g r a t o r 9 1 2 】提出种综合解决方案，并采用聚类的方法进行属性之间的匹配，分为p o s i t i v e 和p r e d i c t i v e 两种聚类方式。其中p o s i t i v e 匹配基于聚簇方法，属于准确匹配，主要任务是将匹配的属性聚到同一簇中，并选出每一簇中的代表属性，而p r e d i c t i v e 匹配基于权重，属于近似匹配，主要任务是构造最终的集成接口。具体方式为首先抽取每个接口的属性信息，并利i f w o r d n e t l l 3 1 进行语义分析，然后通过语义和模河北大学t 学硕七学位论文式信息对接口的属性进行聚类，最后为每类属性确定全局名称和值域，得到最终的集成接口。w s w “1 4 d 5 】等在此基础上进行了较大改进，将属性匹配问题转化成一个以树为背景的优化问题，比如树a 和b 合并生成树c ，不仅要包括a 和b 中所有叶子节点，而且要在最大程度上保留a 和b 中叶子节点和内部节点的结构特征，从而实现了具有复杂的一对多映射的接口属性间的聚类。b h e 蛤1 7 】等人提出了利用统计模式进行匹配的方案，这种方式认为d e e pw 曲中同一领域的数据源隐藏着一个共同的模式模型，这个模型可以刻画该域的所有查询接口共同的特征。它从同一领域的词汇集合中发现隐藏的模式模型，然后利用该模型来帮助寻找同义词，进而实现接口集成。文献 1 8 1 提出了查询接口属性相关性的概念，即所有属性可分为正相关、负相关和相互独立三类，并提出了自己的判断标准h m e a s u r e 。它首先将属性匹配看作属性相关性挖掘，然后把挖掘得到的相关性知识应用于辅助属性匹配。文献 1 9 1 在基于相关数据源已经聚类以及相关表单及其属性已经被抽取两点假设的基础上，借助知网技术，结合中文语义，提出了中文d e e pw e b 接口集成解决方案。文献 2 0 】通过向数据库递交查询请求，并分析返回结果以及查询接口的模式，来获取数据库的真实结构，用以辅助属性匹配。文献 2 1 充分利用了匹配历史，训练精准分类器，进行后续匹配：如果待匹配接口中的属性分别与训练集中某已知接口中属性相似，则认为两接口也相似。w e b i q t 2 2 】利用现有庞大w - e b 资料库( 浅层w e b 和能够探明的深层w e b ) ，根据标签或者实例同时出现得越频繁，认为它们相似的可能性越大这个特点，有效地解决了属性实例不足的问题。文献 2 3 采用有效的采样技术和投票机制，找到了尽可能正确的子集并得到了尽可能准确的匹配结果。 1 3 研究目的和意义经过以上分析，现有的接口集成方法主要是通过挖掘给定接口的模式信息和语义信息，利用这些信息来识别不同查询接口上属性之间的匹配关系，在这些具体的查询接口之上获得一个集成的查询接口。上述方法主要有三点不足：( 1 ) 需要对接口进行语义分析，对语义信息的依赖性很强，若语义信息抽取不正确或者抽取不到语义信息，则很难进行集成；( 2 ) 只对结构化接口进行集成，而对占比例更大的半结构化和非结构化查询接口很少涉及；( 3 ) 目前的接口集成方法大多采用聚类的方式，许多接口属性在虽然语义上可以聚为一类，但其与本地数据库联系紧密，集成后会失去意义，从而导致冗余属性的出现。例如，许多网上书店虽然都有“商品编号这一属性，但相同的商品编号在 6 第1 章绪论不同的网站代表不同的商品，集成后便失去了意义。为克服上述不足，本文提出了一种基于知识学习和探测查询的d e e pw e b 接口集成方法。该方法具有不依赖语义信息，对结构化接口和半结构化接口都适用，不会出现冗余属性等优点，而且针对的是目前人们关注较少的中文网站的接口集成。同时，为优化集成后的统一查询接口的搜索能力及搜索效率，本文提出同时映射、优先级映射、集成映射三种映射方式以及一种基于二次查询和构建本地数据库的接口功能扩展及效率优化方法。 1 4 论文内容和结构本文分为七章：第一章介绍了d e e p w e b 接口集成的研究背景和研究现状，进而给出了本文的研究目标。第二章简要介绍了本文所涉及到的相关技术。第三章介绍了接口集成前的准备工作，包括接口分类、接口抽取以及接口的形式化表示。第四章介绍了基于知识学习和探测查询的接口集成方法。第五章介绍了如何从功能和效率上对统一查询接口进行扩展。第六章给出了实验与分析。第七章是对本文所做工作的总结和对未来工作的一些展望。 1 5 本章小结本章首先给出了s u r f a c ew e b 和d e e pw e b 的概念。接着指出与s u r f a c ew e b 相比， d e e pw - e b 蕴含了更加丰富、质量更高的信息，因此为了充分利用这些信息，建立d e e p w e b 数据集成系统成为当前研究的热点。然后介绍了d e e pw e b 数据集成系统的框架以及目前国内外d e e pw e b 数据集成系统研究现状，并分析了目前d e e pw 曲接口集成方面相关研究的不足之处以及我们所要解决的问题，进而得出了本文的研究目标。最后介绍了本文的组织结构。 7 河北大学工学硕十学位论文第2 章相关知识介绍 2 1h 眦 h t m l 是一种用来制作超文本文档的简单标记语言。由于绝大多数网页都是由 h t m l 或其他程序语言嵌套在h t m l 中编写的，因此在进行查询接口的集成工作时必须要首先分析页面的h t m l 代码，因此本小节首先介绍h t m l 标记语言，然后对表单的h t m l 标记进行概要说明。 2 1 1h t m l 概念 h t m l ( h y p e rt e x tm a r k u pl a n g u a g e ) 即超文本标记语言，是目前网络上应用最为广泛的语言，也是构成网页文档的主要语言。最初由t i mb e m e r s l e e 开发并随着n c s a m o s a i c 浏览器的使用而广为流传。随着w e b 网络的迅速兴起，h t m l 空前繁荣，但却发展为许多不同的版本，给用户的使用带来极大的不便，人们迫切需要制定一个公认的 h t m l 语言规范。1 9 9 5 年1 1 月，h t m l2 0 规范出台，由当时的i n t e m e te n g i n e e r i n gt a s k f o r c e ( i e t f ，互联网工程任务组) 倡导开发。此后h t m l 标准的制定，由国际互联网联盟( w 3 c ) 负责，目前己发展到h t m l4 0 1 t 2 4 1 。 h t m l 的功能主要有以下几个方面【2 4 】： ( 1 ) 可以使用各种基础的印刷元素，例如标题、文字、表格、列表、照片、图片等发布在线文档。 ( 2 ) 可以通过表单控件提供身份认证、信息查询、商品订购等服务。 ( 3 ) 可以在文档中包含视频剪辑、声音等服务。 ( 4 ) 可以在网页上添加对象和脚本语言。 ( 5 ) 通过超链接使当前页面快速方便地在多个页面进行切换，能够极大地提高信息咨询的效率。 h t m l 的主要语法成分是元素和标签，标签的作用是定义和表示元素。标签不区分大小写，并且大部分的标签都是成对出现的，即开始标签和结束标签。如，加斜杠的标签为结束标签。多数元素都由开始标签和结束标签所组成，例如这对标签定义t 元素，标识一个表单。此外还有单独使用的标第2 章相关知识介绍签，j t l ：l 标签表示插入一个换行符。标签可以拥有属性，属性能够为h t m l 元素提供附加信息，如标签的t y p e 属性，表示控件所定义的控件元素的类型。在h t m l 中，特定的标签元素具有其固定的表示含义和属性，不可以随意更改。本文主要利用h t m l 的表单元素，通过识别表单标签以及嵌套在表单之中的一些重要标签的属性值来表示查询接口。 2 1 2h t m l 表单在h t m l 文档中，元素定义了一个交互式表单口5 1 ，主要用于采集和提交用户输入的信息，是h t m l 的一个重要部分。如图2 1 和图2 2 所示，它们分别是一个网页的表单部分和其所对应的h t m l 文档。 f o r na c t i o n = ，s e a r c n 1s p ? m e t h o d = p o s t in p u tt u p e = h i d d e nv a l u e = t an a m e = m o d e d i vi d = b a s i c s p a nc l a s s = b a s i c ) - 书名： ih p u tt y p e = t e x tn a m e = t i t l e s p a nc l a s s = b a s i c 薯译者： ih p u tt q p e = t e x tn a n e = a u t h o r s p a nc l a s s = b a s i c 出版社： ih p u tt y p e = t e x tn a n e = 口u b l i s h e r d i u diui d 昌f o r m b u t t o n s ih p u tt p p e = s u b m i tv a l u e = ”桔素” ih p u tt y p e = r e s e tv a l u e - 。重新填写“ d i u 图2 1 查询接口中的表单图2 2 表单所对应的部分h t m l 文档元素有两个重要属性：a c t i o n 和m e t h o d 。a c t i o n 属性指明了处理表单信息的程序所在，它的值就是该程序文件的u r l 地址；m e t h o d 属性指明了发送表单信息的方式，分为p o s t 和g e t 两种，g e t 是从服务器上获取数据，p o s t 是向服务器传送数据。此夕b 元素中包含、和等元素，称之为表单控件元素。用户通过这些元素所定义的控件来填写信息，并发送到w e b 服务器，从而获得反馈，完成用户与服务器之间的交互。例如，用户通过填写w e b 数据库查询接口的表单，将查询关键词提交给w e b 数据库，w e b 数据库进行查询后，将反馈信息以页面的形式传递给用户。元素所定义的控件类型是由t y p e 属性给出的，其中常用t y p e 属性值有t e x t 、 9 河北大学t 学硕十学位论文 p a s s w o r d 、r a d i o 、c h e c k b o x 、h i d d e n 等。分别定义了单行文本输入框、密码输入框、单选框、复选框和隐藏元素。其中隐藏元素( h i d d e n ) 一般用来保存一些状态信息，在提交表单的时候，它所蕴含的信息会返回到服务器。此外还有s u b m i t 属性值，表示提交按钮，通过提交按钮可以将表单里的信息提交给 f o r m ) 元素a c t i o n 属性所指向的文件。元素定义了一个多行文本框，主要用于用户输入较长的文本信息。定义了一个下拉列表框，它必须与标签配套使用。元素定义了下拉列表框中的每个选项的内容。此外表单控件具有n a m e 和v a l u e 两个属性，分别表示控件的名称和值。这两个属性具体的值由网页设计者在设计表单时指定，许多情况下这些属性值是具有语义信息的。在进行接口集成的时候，我们可以利用这些信息。 2 2x n 几 2 2 1x m l 概念及性质 x m l 2 6 】( e x t e n s i b l em a r k u pl a n g u a g e ) 即可扩展标记语言，它与h t m l 一样，都是 s g m l ( s t a n d a r dg e n e r a liz e dm a r k u pl a n g u a g e ，标准通用标记语言) 的子集。x m l 是 i n t e r n e t 环境中跨平台的，依赖于内容的技术，是当前处理结构化文档信息的有力工具。与h t m l 相比，x m l 具有如下优点【2 7 】： ( 1 ) x m l 是一种元标记语言，即开发者可以根据需要定义自己的标记，比如开发者可以定义如下标记、，任何满足x m l 命名规则的名称都可以标记，这样就可以适用于不同的应用程序。而h t m l 是一种预定义标记语言，它只认识诸女i 、等已经定义的标记，无法定义新的标记。 ( 2 ) x m l 是一种语义和结构化语言。它描述了文档的结构和语义。例如描述一本书，可以用如下表示( 图2 - 3 ) ：图2 - 3 典型的x m l 文档 l o 第2 章相关知识介绍可以看出，x m l 的文档是有明确语义并且是结构化的。 ( 3 ) x m l 还具有自描述性。x m l 文档通常包含一个文档类型( d t d ) 声明，从而便于机器理解数据的意义，x l v l l 文档中的数据可被任何能够对x m l 数据进行解析的应用程序所抽取、分析和处理，并以所需格式显示。因此，本文将属性匹配后的d e e pw e b 接口属性信息表示成x m l 形式，以方便下一步的处理。 2 2 2x m l 文档结构 x m l 文档包括三部分【2 6 】：x m l 声明、处理指令、x m l 元素。 x m l 声明必须出现在文档的第一行，如图2 3 中第一行所示。其中“v e r s i o n = 1 0 表示版本，“e n c o d i n g = g b 2 3 1 2 表示编码格式。处理指令能够为处理x m l 的应用程序提供信息，并且能够以避免大多数x m l 规则的方式把信息传递给应用程序，应用程序根据这些信息处理文档。处理指令的格式为： “ 。例如：“ ，例子中的处理指令指明了与本文档配套的样式单的类型( x s l ) 和文件名( m y s t y l e x s l ) 。 x m l 元素是x m l 文档的主要部分。它标识信息的指定部分，并且使用标识元素名称、开始和结束标记完成创建。由一个起始标记“ 开始，由结束标记“ 结束。元素可以嵌套，元素内容可以是其它的元素、字符数据、字符引用、实体引用、处理指令、注释或c d a t a 部分。此外，x m l 元素还可以拥有属性，用来对元素的附加信息加以说明。属性通常是一个键一值对，例如，“ j a v a 编程思想，属性 “c a t = c o m p u t e r 说明书籍“j a v a 编程思想属于计算机类图书。 2 3 领域知识 2 3 1 领域知识概念领域知识是一个源于人工智能领域的术语，指的是在某一领域内的概念、概念之间的相互关系以及有关概念的约束的集合【2 8 1 。通俗的讲，领域知识就是人们在日常生活中长期积累、社会流通度高、众所周知的一些动态的语义知识，往往与具体领域相关【2 9 1 。河北大学t 学硕十学何论文而从知识工程的角度来看，领域知识包含如下3 个方面的涵义【3 0 1 ：( 1 ) 领域知识是一个概念模型，这个概念模型包含概念和概念之间的关系；( 2 ) 领域知识是概念和概念之间的约束；( 3 ) 领域知识是陈述如何推导或计算出新概念和新概念之间关系的规则。 2 3 2 领域知识获取知识获取( k n o w l e d g ea c q u i s i t i o n ) 就是将问题求解所需的知识从外部知识源转移或转换到计算机内部的过程【3 1 1 。知识源可以是领域专家，也可以是教科书、经验数据、技术报告、科技论文或其它一些已经渗透领域专家知识的数据库和w e b 资源等。根据知识获取的自动化程度，知识获取可划分为人工获取、半自动获取和自动获取三种方式【3 3 3 5 1 。 ( 1 ) 人工的知识获取。知识工程师通过与领域专家进行交流或者阅读文字记载来获得知识，对其进行分析、整理和归纳后，再存入知识库。早期的专家系统( 如m y c i n ) 都是采用人工方式来获取知识。 ( 2 ) 半自动的知识获取。在半自动的知识获取方式中，知识获取分两步进行。首先，知识工程师与领域专家交流合作，建立知识表达模型和智能知识编辑工具，然后，领域专家再使用知识编辑工具直接与计算机交互，将结构化的知识存入知识库。 ( 3 ) 自动的知识获取。知识工程师在领域专家的指导下开发专门的机器学习系统，将从知识源获得的问题求解实例输入到系统中作为“粗糙数据”，让系统直接从中获取或生成知识，填充知识库。在自动的知识获取方式中，有的系统还可以从自身的运行实践中总结、归纳出新知识，发现和改正自身存在的错误，不断自我完善，使知识库逐步趋于完整一致。 2 4 正则表达式正则表达式( r e g u l a re x p r e s s i o n ) 【3 叼是用来操作和检验字符串数据的一种强大的工具。正则表达式是一种特殊的字符，它转换为某种算法，根据这个算法来匹配文本。正则表达式有一套自己的简单语言，用于精确的描述要匹配的对象。只需要使用一行代码正则表达式就可以匹配文本，如果不使用正则表达式可能需要编写多行代码。但是，正则表达式也有它的缺点，创建可能比较复杂，而且含义比较模糊。但是一旦习惯之后，正则表达式将非常容易使用。在文献 3 7 】中，给出的语法介绍通俗易懂，具体如下： 1 2 第2 章相关知识介绍 ( 1 ) 句点符号( ) 这里的句点符号能匹配所有字符，包括空格、t a b 字符甚至换行符。例如：正则表达式t n ，可以匹配t a n 、t e n 、t i n 、t o n 、t # n 、t p n 、tn 等任何以t 字母开头，以n 字母结束的三个字母组成的字符串。 ( 2 ) 方括号符号( 口) 表示括号中的任一字符。例如：正则表达式t a e i o

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）deep+web查询接口集成及搜索策略研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）deep+web查询接口集成及搜索策略研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档