（计算机应用技术专业论文）deep+web数据源的发现与聚类研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-24 格式：PDF 页数：73 大小：3.75MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）deep+web数据源的发现与聚类研究.pdf_第2页

（计算机应用技术专业论文）deep+web数据源的发现与聚类研究.pdf_第3页

（计算机应用技术专业论文）deep+web数据源的发现与聚类研究.pdf_第4页

（计算机应用技术专业论文）deep+web数据源的发现与聚类研究.pdf_第5页

已阅读5页，还剩68页未读，继续免费阅读

（计算机应用技术专业论文）deep+web数据源的发现与聚类研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要 d e e pw e b 数据源的发现与聚类研究摘要互联网上的资源可以划分为s u r f a c ew e b 和d e e pw e b 两部分。其中， s u r f a c ew e b 指能够被传统搜索引擎检索到的那部分资源，d e e pw e b 指传统搜索引擎检索不到的那部分资源，通常指w e b 数据库包含的信息。调查表明，d e e pw e b 蕴含的信息量是s u r f a c ew e b 的4 0 0 至5 0 0 倍。然而，由于w e b 数据库覆盖各个领域，并且分布在世界的各个角落，因此必须对其进行集成后才能有效地加以利用。因为d e e pw e b 集成的是同一领域的w e b 数据库，所以在集成前需要发现w e b 数据库并将其按照所属领域分类。查询接口是w e b 数据库的唯一入口，因此可以通过查询接口来发现 w e b 数据库。查询接口位于网页的表单之中，但并非所有的表单都是查询接口，因此需要从表单中识别出查询接口。基于前人的研究成果和对大量表单的观察，本文提出了7 条启发式规则用以识别查询接口。实验结果表明，查询接口识别的f m e a s u r e 值能达到o 9 8 以上。 d e e pw e b 集成需要建立集成查询接口到各本地查询接口的映射关系。在集成前，需要从查询接口中抽取其模式信息。对于抽取过程中存在的6 大难点，文中给出了相应的解决方法。实验结果表明，文中给出的方法抽取查询接口模式信息的准确度可达9 4 以上。同一领域的w e b 数据库所在网页的标题和关键词通常会共享一定的北京化工大学硕士学位论文关键词。基于这个思想，本文提出了基于频繁项集的w e b 数据库聚类算法。该算法将共享一定关键词的网页所包含的w e b 数据库聚为一类，聚类结果的簇数等于频繁项集的个数，并且用频繁项集对应的关键词作为簇标签。实验结果表明，该聚类算法的f - m e a s u r e 值能达到o 9 l 以上。关键词：d e e pw e b ，查询接口识别，模式抽取，w e b 数据库，频繁项集 i i a b s t r a c t r e s e a r c ho nd a t a b a s ed i s c o r ya n d c l u s t e r i n go fd e e p 、e b a b s t r a c t i n t e r n e tr e s o u r c e sc a nb ed i v i d e di n t os u r f a c ew e ba n dd e e pw e b s u r f a c ew e br e f e r st ot h er e s o u r c e st h a tc a nb er e t r i e v e db yt r a d i t i o n a ls e a r c h e n g i n e s d e e pw e bc o n s i s t so ft h er e s o u r c e st h a tc a n n o tb er e t r i e v e db y t r a d i t i o n a ls e a r c he n g i n e s ，m a i n l yt h ew e bd a t a b a s e s a s u r v e ys h o w st h a tt h ei n f o r m a t i o nd e e pw e b c o n t a i n e di sa b o u t4 0 0t o 5 0 0t i m e so fs u r f a c ew e b h o w e v e r , a sw e bd a t a b a s e sc o v e ra l ld o m a i n sa n d d i s t r i b u t ea l lo v e ro nw o r l dw i d ew e b ，t h e ym u s tb ei n t e g r a t e df o re f f e c t i v e u s a g e b e c a u s ed e e pw e bi n t e g r a t i o no n l yd e a l sw i t hw e bd a t a b a s eo ft h e s a m ed o m a i n ，i tm u s tf i n dw e bd a t a b a s e sa n dc l a s s i f yt h e mt od i f f e r e n t c l u s t e r sa c c o r d i n gt ot h ed o m a i nt h e yb e l o n gt o w e bd a t a b a s ec a nb ef o u n dt h r o u g hq u e r yi n t e r f a c e ，b e c a u s ei ti st h eo n l y e n t r yt oa c c e s sw e bd a t a b a s e q u e r yi n t e r f a c ee x i s t si nt h ef o r mo fw e bf o r m h o w e v e r , s o m en o n q u e r yi n t e r f a c e sa l s oe x i s ti nt h ef o r mo fw e bf o r m s i ti s n e e d e dt od i s t i n g u i s ht h eq u e r yi n t e r f a c ef r o mt h en o n q u e r yi n t e r f a c e s e v e n h e u r i s t i cr u l e sa lep r o p o s e dt oi d e n t i f yt h eq u e r yi n t e r f a c eb a s e do np r e v i o u s r e s e a r c hr e s u l t sa n do b s e r v a t i o n so fal a r g en u m b e ro fw e bf o r m s t h e e x p e r i m e n t a lr e s u l ts h o w st h ef - m e a s u r eo fq u e r yi n t e r f a c ei d e n t i f i c a t i o ni s i i ! 北京化工大学硕士学位论文 h i g h e rt h a n0 9 8 d u r i n gt h ep r o c e s so fi n t e g r a t i o n ，i th a st om a pc o n t r o l so ft h ei n t e g r a t e d q u e r yi n t e r f a c et ot h o s eo fe a c hl o c a lq u e r yi n t e r f a c e t oa c c o m p l i s ht h i st a s k , t h es c h e m ai n f o r m a t i o nm u s tb ee x t r a c t e df r o mq u e r yi n t e r f a c e s t h e r ea r es i x m a j o rd i f f i c u l t i e s ，a n dt h i sp a p e rg i v e sc o r r e s p o n d i n gs o l u t i o n st ot h e m e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ea c c u r a c yo ft h eq u e r yi n t e r f a c es c h e m a e x t r a c t i o nc a l la c h i v e9 4 o ra b o v e t h et i t l ea n dk e y w o r d sa t t r i b u t e so fw e bp a g e st h a tc o n t a i nw e b d a t a b a s e so ft h es a m ed o m a i na l w a y ss h a r ec e r t a i nk e yw o r d so ft h a td o m a i n w i t ht h i si d e a ，ac l u s t e ra l g o r i t h mb a s e do nf r e q u e n ti t e m s e ti sp r o p o s e dt o c l u s t e rw e bd a t a b a s e s w e bp a g e st h a ts h a r eaf r e q u e n ti t e m s e ta r ec l u s t e r e d t o g e t h e r , w i t ht h ec o r r e s p o n d i n gw o r d so ft h a tf r e q u e n ti t e m s e ta st h ec l u s t e r l a b e l e x p e r i m e n t a lr e s u l ts h o w st h a tt h ea l g o r i t h m sf m e a s u r ec a l la c h i e v e o 9 lo ra b o v e k e yw o r d s ：d e e p w e b ，q u e r yi n t e r f a c ei d e n t i f i c a t i o n ，s c h e m ae x t r a c t i o n ， w e b d a t a b a s e ，f r e q u e n ti t e m s e t 北京化工大学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者签名：盈4 一日期：丞坐：丝关于论文使用授权的说明学位论文作者完全了解北京化工大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属北京化工大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许学位论文被查阅和借阅；学校可以公布学位论文的全部或部分内容，可以允许采用影印、缩印或其他复制手段保存、汇编学位论文。保密论文注释：本学位论文属于保密范围，在l 年解密后适用本授权书。非保密论文注释：本学位论文不属于保密范围，适用本授权书。作者签名：盈翌导师签名：帮兰望：导师签名：型1 3 型! 日期：翌! ! ：竺：三! 第一章绪论 1 1 课题研究背景 1 1 1d e e pw e b 的概念第一章绪论 d e e pw e b 的概念最早由d r j i l le l l s w o r t h 于1 9 9 4 年提出，当时也叫i n v i s i b l ew e b ，主要指传统搜索引擎检索不到的那部分w e b 资源。与之对应的概念是s u r f a c ew e b ，主要指能够被传统搜索引擎检索到的w e b 资源。传统搜索引擎的工作原理是：通过网络蜘蛛( s p i d e r ) 或网络爬虫( c r a w l e r ) 程序下载网页，然后抽取下载页面中的超链接，并根据超链接下载页面，随后又抽取新下载页面中的超链接，依次迭代。根据传统搜索引擎的原理，有几类资源是它搜索不到的【l 】： ( 1 ) 可搜索数据库( s e a r c h a b l ed a t a b a s e , s d b ) ，即可进行搜索的网络数据库，又叫 w e b 数据库( w e bd a t a b a s e , w d b ) 。w e b 数据库一般会给用户提供一个查询接口，以便用户访问其含有的信息。用户通过填写表单，并将请求发送给服务器。根据用户的检索条件，服务器返回相应的结果。整个检索过程如图1 1 所示。、，- 1 _ _ ，一一童诲 w o m t , j l l t j 一络熹 i 结果页；：图1 - 1 从w e b 数据库获取数据的过程 f i g 1 - 1t h ep r o c e s so f r e t r i e v i n gi n f o r m a t i o nf r o mw e bd a t a b a s e ( 2 ) 需要注册后才能访问和其他限制访问的内容。 ( 3 ) 未被链接的网页( u n l i n k c dp a g e s ) ，也叫孤立网页，即没有被其他任何网页链接的网页。 ( 4 ) 非网页文件，如c x e 文件、音频文件、视频文件等。以上四种类型的资源组成了广义的d e e pw e b 。北京化工大学硕士学位论文 1 1 2d e e pw e b 的资源广义的d e e pw e b 由四部分组成，但其蕴含的海量信息的绝大部分都位于w e b 数据库中。因此，一般研究只关注w e b 数据库部分，通常提到的d e e pw e b 也特指w e b 数据库。 2 0 0 0 年7 月，b r i g h t p l a n e t 公司对d e e pw e b 做了一次较为全面的统计。根据其发布的白皮书可知，整个互联网上大约有4 3 0 0 0 至9 6 0 0 0 个w e b 数据库。该白皮书还对d e e pw 曲作了定量分析，其结果如下【2 】： ( 1 ) d e e pw e b 蕴含的信息量是s u r f a c ew e b 的4 0 0 至5 0 0 倍。 ( 2 ) 对d e e pw e b 数据的访问量比s u r f a c ew e b 要高出1 5 。 ( 3 ) d e e pw e b 蕴含的信息量比s u r f a c ew e b 的质量更高。 ( 4 ) d e e pw e b 的增长速度要远大于s u r f a c ew e b 。 ( 5 ) 超过5 0 的d e e pw e b 的内容是特定于某个领域。 ( 6 ) d e e pw e b 覆盖了现实世界中的各个领域，比如商业、教育、政府等等。 ( 7 ) d e e pw e b 上9 5 的信息是可以免费获取的。 2 0 0 4 年4 月，伊利诺斯大学香槟分校( u n i v e r s i t yo fi l l i n o i s ea tu r b a n a nc h a m p a i n , u i u c ) 对d e e pw e b 作了一次较为准确的估算，推测整个互联网上有3 0 7 0 0 0 个网站提供数据库，并且这些网站包含的数据库大概有4 5 0 0 0 0 个嘲。针对众多的w 曲数据库，一些公司构建了d e e p w e b 目录。在d e e pw e b 目录中， w e b 数据库按其所属的领域被分成很多个大类，每个大类下又分很多小类。目前，各个目录的w e b 数据库的分类还主要依靠手工的方式，并且对整个w e b 数据库的覆盖率并不高，表1 1 列举的是比较著名的d e e pw e b 目录对整个w e b 数据库的覆盖率【引。表1 - 1d e e pw e b 目录的覆盖率 t a b l e1 - 1c o v e r a g er a t eo fd e e pw e bd i r e c t o r y 上述的调查研究主要是针对国外的w e b 数据库。因为本文只关注中文w e b 数据库，所以下面对中文w e b 数据库的规模作简要介绍。 2 0 0 6 年3 月，c n n i c 发布了 2 0 0 5 年中国互联网络信息资源数量调查报告。 2 第一荜绪论其结果显示：截止2 0 0 6 年，中国约有6 9 4 2 0 0 个网站，其中拥有数据库的网站数目为 1 7 0 0 0 0 个，约占全部网站的2 45 ，数据库的总数为2 9 5 4 0 0 个n 数据库涉及的领域有新闻媒体、商业、教育、科技文化等方方面面。各类数据库的收费情况如图1 - 2 所示。从图1 2 可以看出绝大部分的数据库都是可以免费访问的。 e 部l 一勃继i 一一l 嚣i 耪l 髅卜a l 貂i 翳i 其口= 音姆肯i “j l7 “lo 7 - h 摧l l 1 2 饵l 一1 i “l - 免费9 1 疆1 8 0 僵1 8 3 1 9 l 捌i9 0 簋9 3 疆1 9 3 疆1 9 1 _ 1 9 5 葛1 驰t 埘9 6 口收费 6 缁j 1 1 1 疆l “l8 镛i8 籍l6 雨l 竹l “i4 t ij3 鼎l3 北京化工大学硕士学位论文图l - 3 搜索引擎对w e b 数据库的覆盖率 f i g 1 - 3t h ec o v e r a g eo fw e bd a t a b a s ef o rs e a r c he n g i n e 时隔几年后的今天，无论是互联网拥有的网站，还是网站拥有的数据库，其数量早已是今非昔比。w e b 数据库中蕴含的海量信息，无疑是一笔宝贵的财富。d e e p w e b 数据集成则是研究如何有效地利用这些信息。 1 2 国内外研究现状查询接口的模式是查询接口的元信息，如查询接口包含哪些文本、控件等。查询接口模式的抽取就是从查询接口中获取这些元信息。查询接口模式的抽取是为后续的 w e b 数据库分类和集成查询接口的生成服务的，其关键是准确地抽取出这些信息。 r a g h a v a n 等【6 1 在其设计的h i d d e nw e be x p o s e r 中，利用d o m 树来抽取表单的模式信息。在提示文本与控件的匹配问题上，首先找到控件的水平方向和垂直方向与其邻近的文本，最多可能有四个候选文本。如果候选文本中有位于控件上侧或左侧的文本，则抛弃位于控件下侧和右侧的文本。如果仍有两个候选文本，则选择字体较大或粗体的文本。如果仍然无法区分，则随机选择一个文本。 m o d i c a 等【7 1 8 】在其设计的o n t o b u i l d e r 系统中，通过d o m 树抽取查询接口的信息。该系统从包含表单的网页构成的训练集中，获得一条启发式规则：表单常用的布局方式有表格布局和非表格布局两种。在这两种布局方式中，提示文本一般位于控件的上侧或左侧。同时，该系统利用本体( o n t o l o g y ) 来识别提示文本中存在的同义词和近义词。 z h a n g 等【9 】通过观察与统计查询接口的结构，提出这样一个假设：查询接口背后有一个隐藏的语法结构。在该假设的基础上，提出了2 pg r a m m a r 和b e s t e f f o r tp a r s e r 。其中，2 pg r a m m a r 用以获取查询接e l 隐藏的语法，即查询接口的模式。因为模式之间可能存在冲突。所以要同时获取它们的优先级。针对2 pg r a m m a r 获取语法存在的二义性和不完整性，b e s t e f f o r tp a r s e r 通过优先级来消除存在的二义性，通过最大化部分树把查询接口中的属性尽可能地发现出来。 4 第一章绪论 h e 等【l m l 2 】提出的w i s e i n t e g r a t o r 是对电子商务领域的数据库进行集成的一个系统。在w i s e i n t e g r a t o r 中，引入i n t e r f a c ee x p r e s s i o n ( i e x p ) 来表示查询接口，其形如 “t e l e e e l t e l t e e 。其中，“t ”表示文本，“e 表示控件，“i 表示分行符。在i e x p 的基础上，利用l a y o u t e x p r e s s i o n - b a s o de x t r a c t i o n ( l e x ) 算法实现提示文本与控件的匹配。 l e x 算法的思想是：根据文本是否含有冒号、文本与控件名称的相似度、文本与控件的位置关系、文本与控件在垂直方向的距离、文本所在行的权重等因素，计算当前行及前两行所有文本与控件的相关权重。选取相关权重最大的文本作为控件的提示文本，其前提是前两行的文本的相关权重大于设定的阀值，当前行的文本的相关权重大于0 。 w e b 数据库的分类方法分为p r e _ q u e f y 和p o s t - q u e r y 两大类。其中，p r e - q u e r y 力r 法主要基于查询接口的模式信息和查询接口所在页面的相关信息实现分类。不同领域的网页，其包含的信息一定存在差别。通常情况下，这些信息足以区分其所属的领域。 h e 等【l 孓1 4 】假设同一领域的查询接口含有一个隐藏的模型。根据模型的差分度 ( m o d e l d i f f e r e n t i a t i o n ) 可以实现数据库的聚类。对于提出的假设，通过皮尔逊统计量来检验该假设是否成立。 p e n g 等 1 5 - 1 6 】提出的w i s e c l u s t e r 主要实现电子商务领域数据库的聚类。 w i s e c l u s t e r 根据查询接口中的提示文本、控件的值等信息，计算不同查询接口之间的相似度，从而实现数据库的聚类。首先采用k m e a n s 算法实现初步聚类，然后计算聚类结果中各簇的均值。对于小于均值的查询接口，计算其与各簇的相似度，并将其划分给相似度最大的簇。马军等【l7 】将网页的内容和嵌入的数据库表之间的向量空间距离的线性组合作为数据库之间的语义距离。对于数据库标记词中可能存在的同义词和近义词，构建并利用模糊分层集合对其进行归一化处理。与p r e - q u e r y 方法不同，p o s t - q u e r y 方法通过与数据库的交互实现分类。该方法的原理是：向查询接口提交某领域的关键词，如果数据库返回较多结果，则可断定数据库属于该领域；反之，数据库不属于该领域。舰v a n o 等【1 8 09 】设计了q p r o b e r 系统用于数据库的分类。该系统对数据库进行探狈t j ( p r o b e ) 查询，根据数据库返回的满足条件的记录条数，确定数据库所属的领域。 h e d l e y 等【2 们1 】采用两阶段抽样( t w o p h a s es a m p l i n g ，2 p s ) 方法完成对数据库的抽样、信息抽取和摘要生成。第一阶段从数据库中抽取文档，第二阶段在样本文档的基础上探测其模板，并从中抽取相应信息作为数据库的摘要。该摘要是一个词频向量。事先定义的簇也是一个词频向量。根据夹角余弦公式，计算数据库摘要词频向量与各簇对应的词频向量的相似度，将数据库划分到相似度最大的簇中。北京化工大学硕士学位论文 1 3 课题研究内容到目前为止，学者们对d e e pw e b 数据集成已经作了大量的研究，也提出了一些 d e e pw e b 数据集成系统。但是这些系统尚属于研究性的原型系统，还不能投入实际的应用。d e e pw e b 数据集成中很多问题还有待解决。孟小峰等人在综合分析国内外研究成果的基础上，提出了一个d e e pw e b 数据集成的系统框架( 如图1 - 4 所示) 【l 】。该框架由集成查询接口生成、查询处理和查询结果处理三个模块组成，每个模块又分为若干子模块。泵_ i j 蠢蛋询镁u 生成攥块图1 - 4d e e pw e b 数据集成框架 f i g 1 - 4d e e pw e bd a t ai n t e g r a t i o nf r a m e w o r k 本文主要研究集成查询接口生成模块中的w e b 数据库的发现、查询接口模式的抽取和w e b 数据库的分类。 w e b 数据库的发现的任务是从互联网上找出w e b 数据库。要完成该任务，首先需要找到含有数据库的网站，然后在网站中定位数据库的入口查询接口。准确高效地从互联网中搜索出数据库，是一项困难且耗时的任务，主要有两个原因：第一，互联网上有很多的网站，它们有的提供数据库，有的不提供数据库，并且数据库分布在互联网的各个角落。准确定位这些含有数据库的网站并非易事。第二，查询接口存在于网页的表单中，但并非所有的表单都是查询接口。例如，网站的调查反馈、用户注册、用户登录、订单查询、搜索引擎、元搜索引擎都是以表单的形式出现，但它们都不是查询接口。如何从表单中识别出查询接口，也是一件困难的事情。查询接口模式是查询接1 ：3 的元信息，包括查询接1 2 1 的名字、提交请求的方法、接收请求的网址、包含的控件信息等。查询接口模式信息是为下一步的数据库的分类和查询接口的集成服务的。查询接口模式的抽取就是从查询接口中抽取出这些元信息。要准确地抽取出这些信息，需要解析h t m l 代码，将其构造为某种易读的数据结构，第一章绪论以便能够访问到代码中的任意节点。数据库的分类是将已发现的数据库按其所属的领域分成相应的类。数据库按领域分类后，可以为该领域建立一个全局的集成查询接口，并构建集成查询接口与各本地查询接口的映射关系。当用户在集成的查询接口中输入查询条件时，这些查询可以被转换到多个本地查询接口，从而实现对多个数据库的访问。虽然像c o m p l e t e p l a n e t 等一些公司建立了d e e p w e b 目录，但是这些目录是通过手动或半自动的方式建立的。 1 4 论文组织结构全文共分七章，具体安排如下：第一章绪论首先介绍了d e e pw e b 的概念和资源情况，接着阐述了d e e pw e b 数据集成国内外的研究现状，最后给出了课题的研究内容。第二章背景知识本章主要介绍课题相关的背景知识。首先介绍了h t r p 协议，该协议是网络爬虫下载网页的基础。接着介绍了h t m l 中重要的标签和表单，识别表单中的查询接口是发现w e b 数据库的唯一途径。第三章w e b 数据库的发现首先介绍了网络爬虫的原理和爬行策略。在普通爬虫的基础上，设计了一个面向 d e e pw e b 的爬虫。接着讲解了d e e pw e b 爬虫的工作流程。基于前人的研究成果和对大量表单的观察，提出了7 条启发式规则用于区分查询接口和非查询接口。第四章查询接口模式的抽取与存储首先介绍了查询接口模式的概念和表示模型。接着讨论了抽取查询接口模式信息的难点及相应的解决方法。最后根据查询接口的模型，设计了数据库和相应的实体及业务逻辑对象，完成查询接口模式信息的存储。第五章w e b 数据库的聚类首先介绍了常见的文本聚类算法。由于网页的标题和关键词能较好地表征其所属的领域，并且同一领域的文本通常会共享一定的关键词，提出了基于频繁项集的w e b 数据库聚类算法。第六章实验结果与分析本章主要对提出的方法进行实验。首先分析了提出的启发式规则用于查询接口识别的效果。接着分析了查询接口模式抽取中控件与提示文本、控件与单位文本匹配关系的正确性与完整性。最后分析了基于频繁项集的w e b 数据库聚类效果。第七章总结与展望 7 北京化工大学硕士学位论文本章主要对所做的工作进行总结，并展望了d e e pw e b 数据集成的发展方向。第二章背景知识 2 1h t t p 协议简介第二章背景知识超文本传输协议( h y p e rt e x tt r a n s f e rp r o t o c o l ，h n p ) 是t c p i p 模型应用层上一个广泛使用的传输协议。h 哪协议是万维网协会( w o r l dw i d ew e bc o n s o r t i u m ，w 3 c ) 和i n t e r n e t 工作小组( i n t e m e te n g i n e e r i n gt a s kf o r c e ) 合作的成果，它为客户端和服务器之间超文本的传输提供了一个标准。目前普遍使用的h t t p 协议的版本是1 1 ，详细内容可以参考r f c 2 6 1 6 t 2 2 - i 。 h t t p 协议采用请求应答模型。一次h t t p 操作主要包含以下4 步： 1 建立客户端与服务器之间的连接。 2 建立连接后，客户端向服务器发送一个请求( r e q u e s t ) 。 3 服务器接收到请求后，根据请求的内容，执行相应的操作，然后给客户端返回一个响应信息。 4 客户端接收服务器的响应信息后，根据需求做相应的处理，然后断开与服务器的连接。接下来简单介绍一下h t t p 请求和h t t p 响应。 2 1 1h t t p 请求客户端要访问服务器端的资源，需要向服务器发送一个请求。标准的h t t p 请求由请求行( r e q u e s t l i n e ) 、头部信息( h e a d e r s ) 和消息主体( m e s s a g e - b o d y ) 组成。一个h r r p 请求( r e q u e s t ) 可以形式化表示为： r e q u e s t = r e q u e s t - l i n e ；h e a d e r s ；c r l f ；【m e s s a g e - b o d y h e a d e r s = ( ( g e n e r a l - h e a d e rir e q u e s t - h e a d e rie n t i t y - h e a d e r ) c r l f ) 掌 r e q u e s t l i n e = h a p - m e t h o dr e q u e s t - u r ih t t p - v e r s i o nc r l f 上面各式中，符号“口表示该项是可选的；符号“l 表示选择关系，表示可以从几个候选项中任意选择；符号“宰表示出现零次或多次；“c r l f 表示回车换行。请求行指明请求使用的h r r p 方法( h t t p m e t h o d ) 、要访问的资源( r e q u e s t - u r i ) 以及使用的h 1 阳版本( h t t p - v e r s i o n ) 。其中，h t t p m e t h o d 可供选择的值以及各值的含义如表2 1 所示。头部信息由通用头部信息( g e n e r a l h e a d e r ) 、请求头部信息( r e q u e s t - h e a d e r ) 和实体头部信，息( e n t i t y - h e a d e r ) 组成。其中，通用头部信息各字段的含义请参考表2 2 ，请求头部信息各字段的含义请参考表2 3 ，实体头部信息各字段的含义请参考表2 - 4 。 9 北京化工大学硕士学位论文表2 - l 哪方法 t a b l e2 - 1h r r pm e t h o d h m m e t h o dh r r pm e t h o d 的含义 g e t h e a d p o s t p u t d e l e t e t r a c e c o n n e ( 了r 获取由r e q u e s t - u r i 指定的资源请求h i t p 响应的头部信息请求r e q u e s t - u r i 接收封装在请求中的实体请求将封装在请求中的实体存放到r e g l u e s t - u r i 请求删除r c q u e s t - u r i 指定的资源请求消息回路，用于故障检测和诊断用于代理，使之能动态切换隧道表2 - 2g e n e r a l - h e a d e r 字段含义 t a b l e2 - 2g e n e r a lh e a d e rf i e l d s 字段名称字段含义 c a c h e = c o n t r o l c o n n e c t i o n d a t e p r a g m a t i a i l e r t r a n s f e r - e n c o d i n g u p g r a d e v i a w a r n i n g 指定请求和响应的缓存机制指定是否保存s o c k e t 打开的连接消息生成的日期和时间特定的一些指令指出给定的头部信息以c h u n k e dt r a n s f e r - c o d i n g 编码在信息的尾部指定对消息体所实施的变换指定新的协议或者新的协议版本指定经过的中间协议和接收方关于消息的状态和转换的补充信息表2 - 3r e q u e s t - h e a d e r 字段含义 t a b l e2 - 3r e q u e s th e a d e rf i e l d s 字段的名称字段的含义 a c c e p t a c c e p t - c h a r s e t a c c e p t - e n c o d i n g a c c e p t - l a n g u a g e a u t h o r i z a t i o n e x p e c t f r o m h o s t i f - m a t c h 指定可以接受的媒体类型指定可以接受的字符集指定可以接受的编码方式指定可以接受的自然语言集客户端的认证信息客户端要求的特定的服务器行为用户代理的e m a i l 地址服务器的主机名如果之前获取的某个实体与指定列表的某项匹配，则执行相应操作 1 0 第二章背景知识 i f - m o d i f i e d s i n c e h 埘o n e m a t c h i f - r a n g e i f - u n m o d i f i e d s i n c e m a x f o r w a r d s p r o x y - a u t h o r i z a t i o n r a n g e r e f e r c r 如果请求的变量自指定的日期以来未曾修改，服务器不返回实体如果缓存的实体不与指定列表中的任何一个匹配，则执行相应操作如果缓存了某个实体的部分拷贝，则执行相应操作如果请求的资源自指定日期以来未曾修改，服务器执行该操作指定可转发该请求的代理或网关的最大数目客户端向代理认证自己的信息被请求资源的部分字节标明产生请求的初始资源指定可按受的扩展t r a n s f e r - c o n d i n g ，以及是否愿意 t e 接受以c h u n k e dt r a n s f e r - c o d i n g 编码的尾部信息 u s e r - a g e n t 定义用于产生请求的软件类型一个典型的h t t p 请求如下： g e t h t t p 1 1 a c c e p t l a n g u a g e ：z h - c n a c c e p t e n c o d i n g ：g z i p ，d e f l a t e h o s t ：s e a r c h d a n # a n g c o r n c o n n e c t i o n ：k e e p a l i v e 北京化工大学硕士学位论文 2 1 2h t t p 响应服务器收到客户端的请求后，会生成一个h 盯m 响应返回给客户端。标准的h t t p 响应由状态行( s t a t u s 1 i n e ) 、头部信息( h e a d e r s ) 和消息主体( m e s s a g e - b o d y ) 坌1 t 成。一个哪响应( r e s p o n s e ) 可形式化表示为： r e s p o n s e = s t a t u s - l i n e ；h e a d e r s ；c r l f ； m e s s a g e - b o d y s t a t u s l i n e = h t t p - v e r s i o ns t a t u s - c o d er e a s o n - p h r a s ec r l f h e a d e r s = ( ( g e n e r a l - h e a d e rir e s p o n s e - h e a d e rle n t i t y - h e a d e r ) c r l f ) 状态行主要包括当前使用的h t r p 协议版本( h t t p - v e r s i o n ) 、请求处理结果状态码 ( s t a t u s c o d o 和相关的文本描述( r e a s o n - p h r a s e ) 。s t a t u s c o d e 由3 位数字组成，首位数字表示响应的类别。每个s t a t u s c o d e 都有一个r e a s o n - p h r a s e 与之对应。s t a t u s c o d e 有5 个类别： l x x ：信息，请求收到，有待继续处理。 2 x x ：成功，成功收到、理解并接受操作。 3 x x ：重定向，为了完成请求，必须采取进一步行动。 4 x x ：客户端错误，请求包含语法错误或者请求无法实现。 5 x x ：服务器错误，服务器不能实现无效的请求。上述5 个类别都包含许多详细的状态。表2 5 列举的是服务器错误类别的状态码。其他类别的状态码可以参考r f c 2 6 1 6 。表2 - 5 服务器错误状态码 1 a b l e2 - 5c o d eo f s e r v e re r r o r s h t t p 响应中的头部信息由通用头部信息( g e n e r a l h e a d e r ) 、响应头部信息 ( r e s p o n s e h e a d 哪和实体头部信息( e n t i t y - h e a d e r ) 组成。其中通用头部信息各字段具体的含义请参考表2 2 ，响应头部信息各字段具体的含义请参考表2 - 6 ，实体头部信息各字段具体的含义请参考表2 4 。 1 2 第二章背景知识表2 - 6r e s p s 幽d e r 字段含义 t a b l e2 - 6r e s p o n s eh e a d e rf i e l d s 字段的名称字段的含义 a c c e p t - r a n g e s a g e e t a g l o c a t i o n p r o x y - a u t h e n t i c a t e r e t r y - a f t e r s e r v e r v a r y 指定对某个资源请求的可按受范围响应生成的时间为实体分配的唯的标识符指定资源重定向后的新位置指定认证的模式和可应用到代理的参数服务器无法提供服务时再次请求前的等待时间指定w e b 服务器处理请求的软件信息头部信息集合，如果响应是新的，决定缓存是否可以使用它来应答后续的请求而无需重新验证提示用户代理提供用户名和口令的响应头标下面是一个h t t p 响应的示例代码： h i i w l 12 0 0o k s e r v e r ：n g i n x 0 6 3 7 d a t e ：s u n , 1 4m a r2 0 1012 ：2 4 ：4 3g m 盯 c o n n e c t i o n ：c l o s e e x p i r e s ：m o n , 2 6j u l1 9 9 70 5 ：0 0 ：0 0g 盯 l a s t - m o d i f i e d ：s u n ，1 4m a r2 0 1 01 2 ：2 4 ：4 3g c a c h e - c o n t r o l ：n o - s t o r e ，n o - c a c h e ，m u s t - r e v a l i d a t e c a c h e - c o n t r o l ：p o s t - c h e c k = o ，p r e c h e c k = - 0 p r a g m a ：n o - c a c h e c o n t e n t - e n c o d i n g ：g z i p v a r y ：a c c e p t e n c o d i n g c o n t e n t - t y p e ：t e x t h t m l ；c h a r s e t = g b k c o n t e n t - l e n g t h ：1 4 7 6 9 1 3 北京化工大学硕士学位论文 2 2h t m

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）deep+web数据源的发现与聚类研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）deep+web数据源的发现与聚类研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档