(计算机应用技术专业论文)deep+web数据源的发现与聚类研究.pdf_第1页
(计算机应用技术专业论文)deep+web数据源的发现与聚类研究.pdf_第2页
(计算机应用技术专业论文)deep+web数据源的发现与聚类研究.pdf_第3页
(计算机应用技术专业论文)deep+web数据源的发现与聚类研究.pdf_第4页
(计算机应用技术专业论文)deep+web数据源的发现与聚类研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)deep+web数据源的发现与聚类研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 d e e pw e b 数据源的发现与聚类研究 摘要 互联网上的资源可以划分为s u r f a c ew e b 和d e e pw e b 两部分。其中, s u r f a c ew e b 指能够被传统搜索引擎检索到的那部分资源,d e e pw e b 指传 统搜索引擎检索不到的那部分资源,通常指w e b 数据库包含的信息。 调查表明,d e e pw e b 蕴含的信息量是s u r f a c ew e b 的4 0 0 至5 0 0 倍。 然而,由于w e b 数据库覆盖各个领域,并且分布在世界的各个角落,因 此必须对其进行集成后才能有效地加以利用。因为d e e pw e b 集成的是同 一领域的w e b 数据库,所以在集成前需要发现w e b 数据库并将其按照所 属领域分类。 查询接口是w e b 数据库的唯一入口,因此可以通过查询接口来发现 w e b 数据库。查询接口位于网页的表单之中,但并非所有的表单都是查询 接口,因此需要从表单中识别出查询接口。基于前人的研究成果和对大量 表单的观察,本文提出了7 条启发式规则用以识别查询接口。实验结果表 明,查询接口识别的f m e a s u r e 值能达到o 9 8 以上。 d e e pw e b 集成需要建立集成查询接口到各本地查询接口的映射关 系。在集成前,需要从查询接口中抽取其模式信息。对于抽取过程中存在 的6 大难点,文中给出了相应的解决方法。实验结果表明,文中给出的方 法抽取查询接口模式信息的准确度可达9 4 以上。 同一领域的w e b 数据库所在网页的标题和关键词通常会共享一定的 北京化工大学硕士学位论文 关键词。基于这个思想,本文提出了基于频繁项集的w e b 数据库聚类算 法。该算法将共享一定关键词的网页所包含的w e b 数据库聚为一类,聚 类结果的簇数等于频繁项集的个数,并且用频繁项集对应的关键词作为簇 标签。实验结果表明,该聚类算法的f - m e a s u r e 值能达到o 9 l 以上。 关键词:d e e pw e b ,查询接口识别,模式抽取,w e b 数据库,频繁项集 i i a b s t r a c t r e s e a r c ho nd a t a b a s ed i s c o r ya n d c l u s t e r i n go fd e e p 、e b a b s t r a c t i n t e r n e tr e s o u r c e sc a nb ed i v i d e di n t os u r f a c ew e ba n dd e e pw e b s u r f a c ew e br e f e r st ot h er e s o u r c e st h a tc a nb er e t r i e v e db yt r a d i t i o n a ls e a r c h e n g i n e s d e e pw e bc o n s i s t so ft h er e s o u r c e st h a tc a n n o tb er e t r i e v e db y t r a d i t i o n a ls e a r c he n g i n e s ,m a i n l yt h ew e bd a t a b a s e s a s u r v e ys h o w st h a tt h ei n f o r m a t i o nd e e pw e b c o n t a i n e di sa b o u t4 0 0t o 5 0 0t i m e so fs u r f a c ew e b h o w e v e r , a sw e bd a t a b a s e sc o v e ra l ld o m a i n sa n d d i s t r i b u t ea l lo v e ro nw o r l dw i d ew e b ,t h e ym u s tb ei n t e g r a t e df o re f f e c t i v e u s a g e b e c a u s ed e e pw e bi n t e g r a t i o no n l yd e a l sw i t hw e bd a t a b a s eo ft h e s a m ed o m a i n ,i tm u s tf i n dw e bd a t a b a s e sa n dc l a s s i f yt h e mt od i f f e r e n t c l u s t e r sa c c o r d i n gt ot h ed o m a i nt h e yb e l o n gt o w e bd a t a b a s ec a nb ef o u n dt h r o u g hq u e r yi n t e r f a c e ,b e c a u s ei ti st h eo n l y e n t r yt oa c c e s sw e bd a t a b a s e q u e r yi n t e r f a c ee x i s t si nt h ef o r mo fw e bf o r m h o w e v e r , s o m en o n q u e r yi n t e r f a c e sa l s oe x i s ti nt h ef o r mo fw e bf o r m s i ti s n e e d e dt od i s t i n g u i s ht h eq u e r yi n t e r f a c ef r o mt h en o n q u e r yi n t e r f a c e s e v e n h e u r i s t i cr u l e sa lep r o p o s e dt oi d e n t i f yt h eq u e r yi n t e r f a c eb a s e do np r e v i o u s r e s e a r c hr e s u l t sa n do b s e r v a t i o n so fal a r g en u m b e ro fw e bf o r m s t h e e x p e r i m e n t a lr e s u l ts h o w st h ef - m e a s u r eo fq u e r yi n t e r f a c ei d e n t i f i c a t i o ni s i i ! 北京化工大学硕士学位论文 h i g h e rt h a n0 9 8 d u r i n gt h ep r o c e s so fi n t e g r a t i o n ,i th a st om a pc o n t r o l so ft h ei n t e g r a t e d q u e r yi n t e r f a c et ot h o s eo fe a c hl o c a lq u e r yi n t e r f a c e t oa c c o m p l i s ht h i st a s k , t h es c h e m ai n f o r m a t i o nm u s tb ee x t r a c t e df r o mq u e r yi n t e r f a c e s t h e r ea r es i x m a j o rd i f f i c u l t i e s ,a n dt h i sp a p e rg i v e sc o r r e s p o n d i n gs o l u t i o n st ot h e m e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ea c c u r a c yo ft h eq u e r yi n t e r f a c es c h e m a e x t r a c t i o nc a l la c h i v e9 4 o ra b o v e t h et i t l ea n dk e y w o r d sa t t r i b u t e so fw e bp a g e st h a tc o n t a i nw e b d a t a b a s e so ft h es a m ed o m a i na l w a y ss h a r ec e r t a i nk e yw o r d so ft h a td o m a i n w i t ht h i si d e a ,ac l u s t e ra l g o r i t h mb a s e do nf r e q u e n ti t e m s e ti sp r o p o s e dt o c l u s t e rw e bd a t a b a s e s w e bp a g e st h a ts h a r eaf r e q u e n ti t e m s e ta r ec l u s t e r e d t o g e t h e r , w i t ht h ec o r r e s p o n d i n gw o r d so ft h a tf r e q u e n ti t e m s e ta st h ec l u s t e r l a b e l e x p e r i m e n t a lr e s u l ts h o w st h a tt h ea l g o r i t h m sf m e a s u r ec a l la c h i e v e o 9 lo ra b o v e k e yw o r d s :d e e p w e b ,q u e r yi n t e r f a c ei d e n t i f i c a t i o n ,s c h e m ae x t r a c t i o n , w e b d a t a b a s e ,f r e q u e n ti t e m s e t 北京化工大学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重 要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声 明的法律结果由本人承担。 作者签名:盈4 一 日期:丞坐:丝 关于论文使用授权的说明 学位论文作者完全了解北京化工大学有关保留和使用学位论文的 规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京 化工大学。学校有权保留并向国家有关部门或机构送交论文的复印件 和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部 或部分内容,可以允许采用影印、缩印或其他复制手段保存、汇编学 位论文。 保密论文注释:本学位论文属于保密范围,在l 年解密后适用本授 权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。 作者签名:盈 翌 导师签名:帮兰望: 导师签名:型1 3 型! 日期:翌! ! :竺:三! 第一章绪论 1 1 课题研究背景 1 1 1d e e pw e b 的概念 第一章绪论 d e e pw e b 的概念最早由d r j i l le l l s w o r t h 于1 9 9 4 年提出,当时也叫i n v i s i b l ew e b , 主要指传统搜索引擎检索不到的那部分w e b 资源。与之对应的概念是s u r f a c ew e b , 主要指能够被传统搜索引擎检索到的w e b 资源。 传统搜索引擎的工作原理是:通过网络蜘蛛( s p i d e r ) 或网络爬虫( c r a w l e r ) 程序下载 网页,然后抽取下载页面中的超链接,并根据超链接下载页面,随后又抽取新下载页 面中的超链接,依次迭代。 根据传统搜索引擎的原理,有几类资源是它搜索不到的【l 】: ( 1 ) 可搜索数据库( s e a r c h a b l ed a t a b a s e , s d b ) ,即可进行搜索的网络数据库,又叫 w e b 数据库( w e bd a t a b a s e , w d b ) 。w e b 数据库一般会给用户提供一个查询接口,以 便用户访问其含有的信息。用户通过填写表单,并将请求发送给服务器。根据用户的 检索条件,服务器返回相应的结果。整个检索过程如图1 1 所示。 、,- 1 _ _ ,一一 童诲 w o m t , j l l t j 一 络熹 i 结果页 ; : 图1 - 1 从w e b 数据库获取数据的过程 f i g 1 - 1t h ep r o c e s so f r e t r i e v i n gi n f o r m a t i o nf r o mw e bd a t a b a s e ( 2 ) 需要注册后才能访问和其他限制访问的内容。 ( 3 ) 未被链接的网页( u n l i n k c dp a g e s ) ,也叫孤立网页,即没有被其他任何网页链 接的网页。 ( 4 ) 非网页文件,如c x e 文件、音频文件、视频文件等。 以上四种类型的资源组成了广义的d e e pw e b 。 北京化工大学硕士学位论文 1 1 2d e e pw e b 的资源 广义的d e e pw e b 由四部分组成,但其蕴含的海量信息的绝大部分都位于w e b 数 据库中。因此,一般研究只关注w e b 数据库部分,通常提到的d e e pw e b 也特指w e b 数据库。 2 0 0 0 年7 月,b r i g h t p l a n e t 公司对d e e pw e b 做了一次较为全面的统计。根据其 发布的白皮书可知,整个互联网上大约有4 3 0 0 0 至9 6 0 0 0 个w e b 数据库。该白皮书 还对d e e pw 曲作了定量分析,其结果如下【2 】: ( 1 ) d e e pw e b 蕴含的信息量是s u r f a c ew e b 的4 0 0 至5 0 0 倍。 ( 2 ) 对d e e pw e b 数据的访问量比s u r f a c ew e b 要高出1 5 。 ( 3 ) d e e pw e b 蕴含的信息量比s u r f a c ew e b 的质量更高。 ( 4 ) d e e pw e b 的增长速度要远大于s u r f a c ew e b 。 ( 5 ) 超过5 0 的d e e pw e b 的内容是特定于某个领域。 ( 6 ) d e e pw e b 覆盖了现实世界中的各个领域,比如商业、教育、政府等等。 ( 7 ) d e e pw e b 上9 5 的信息是可以免费获取的。 2 0 0 4 年4 月,伊利诺斯大学香槟分校( u n i v e r s i t yo fi l l i n o i s ea tu r b a n a nc h a m p a i n , u i u c ) 对d e e pw e b 作了一次较为准确的估算,推测整个互联网上有3 0 7 0 0 0 个网站提 供数据库,并且这些网站包含的数据库大概有4 5 0 0 0 0 个嘲。 针对众多的w 曲数据库,一些公司构建了d e e p w e b 目录。在d e e pw e b 目录中, w e b 数据库按其所属的领域被分成很多个大类,每个大类下又分很多小类。目前,各 个目录的w e b 数据库的分类还主要依靠手工的方式,并且对整个w e b 数据库的覆盖 率并不高,表1 1 列举的是比较著名的d e e pw e b 目录对整个w e b 数据库的覆盖率【引。 表1 - 1d e e pw e b 目录的覆盖率 t a b l e1 - 1c o v e r a g er a t eo fd e e pw e bd i r e c t o r y 上述的调查研究主要是针对国外的w e b 数据库。因为本文只关注中文w e b 数据 库,所以下面对中文w e b 数据库的规模作简要介绍。 2 0 0 6 年3 月,c n n i c 发布了 2 0 0 5 年中国互联网络信息资源数量调查报告。 2 第一荜绪论 其结果显示:截止2 0 0 6 年,中国约有6 9 4 2 0 0 个网站,其中拥有数据库的网站数目为 1 7 0 0 0 0 个,约占全部网站的2 45 ,数据库的总数为2 9 5 4 0 0 个n 数据库涉及的领域有新闻媒体、商业、教育、科技文化等方方面面。各类数据库 的收费情况如图1 - 2 所示。从图1 2 可以看出绝大部分的数据库都是可以免费访问 的。 e 部l 一勃 继i 一一l 嚣i 耪l 髅卜a l 貂i 翳i 其 口= 音姆肯i “j l7 “lo 7 - h 摧l l 1 2 饵l 一1 i “l - 免费9 1 疆1 8 0 僵1 8 3 1 9 l 捌i9 0 簋9 3 疆1 9 3 疆1 9 1 _ 1 9 5 葛1 驰t 埘9 6 口收费 6 缁j 1 1 1 疆l “l8 镛i8 籍l6 雨l 竹l “i4 t ij3 鼎l3 北京化工大学硕士学位论文 图l - 3 搜索引擎对w e b 数据库的覆盖率 f i g 1 - 3t h ec o v e r a g eo fw e bd a t a b a s ef o rs e a r c he n g i n e 时隔几年后的今天,无论是互联网拥有的网站,还是网站拥有的数据库,其数量 早已是今非昔比。w e b 数据库中蕴含的海量信息,无疑是一笔宝贵的财富。d e e p w e b 数据集成则是研究如何有效地利用这些信息。 1 2 国内外研究现状 查询接口的模式是查询接口的元信息,如查询接口包含哪些文本、控件等。查询 接口模式的抽取就是从查询接口中获取这些元信息。查询接口模式的抽取是为后续的 w e b 数据库分类和集成查询接口的生成服务的,其关键是准确地抽取出这些信息。 r a g h a v a n 等【6 1 在其设计的h i d d e nw e be x p o s e r 中,利用d o m 树来抽取表单的模 式信息。在提示文本与控件的匹配问题上,首先找到控件的水平方向和垂直方向与其 邻近的文本,最多可能有四个候选文本。如果候选文本中有位于控件上侧或左侧的文 本,则抛弃位于控件下侧和右侧的文本。如果仍有两个候选文本,则选择字体较大或 粗体的文本。如果仍然无法区分,则随机选择一个文本。 m o d i c a 等【7 1 8 】在其设计的o n t o b u i l d e r 系统中,通过d o m 树抽取查询接口的信息。 该系统从包含表单的网页构成的训练集中,获得一条启发式规则:表单常用的布局方 式有表格布局和非表格布局两种。在这两种布局方式中,提示文本一般位于控件的上 侧或左侧。同时,该系统利用本体( o n t o l o g y ) 来识别提示文本中存在的同义词和近义 词。 z h a n g 等【9 】通过观察与统计查询接口的结构,提出这样一个假设:查询接口背后 有一个隐藏的语法结构。在该假设的基础上,提出了2 pg r a m m a r 和b e s t e f f o r tp a r s e r 。 其中,2 pg r a m m a r 用以获取查询接e l 隐藏的语法,即查询接口的模式。因为模式之间 可能存在冲突。所以要同时获取它们的优先级。针对2 pg r a m m a r 获取语法存在的二 义性和不完整性,b e s t e f f o r tp a r s e r 通过优先级来消除存在的二义性,通过最大化部分 树把查询接口中的属性尽可能地发现出来。 4 第一章绪论 h e 等【l m l 2 】提出的w i s e i n t e g r a t o r 是对电子商务领域的数据库进行集成的一个系 统。在w i s e i n t e g r a t o r 中,引入i n t e r f a c ee x p r e s s i o n ( i e x p ) 来表示查询接口,其形如 “t e l e e e l t e l t e e 。其中,“t ”表示文本,“e 表示控件,“i 表示分行符。在i e x p 的基 础上,利用l a y o u t e x p r e s s i o n - b a s o de x t r a c t i o n ( l e x ) 算法实现提示文本与控件的匹配。 l e x 算法的思想是:根据文本是否含有冒号、文本与控件名称的相似度、文本与控件 的位置关系、文本与控件在垂直方向的距离、文本所在行的权重等因素,计算当前行 及前两行所有文本与控件的相关权重。选取相关权重最大的文本作为控件的提示文 本,其前提是前两行的文本的相关权重大于设定的阀值,当前行的文本的相关权重大 于0 。 w e b 数据库的分类方法分为p r e _ q u e f y 和p o s t - q u e r y 两大类。其中,p r e - q u e r y 力r 法主 要基于查询接口的模式信息和查询接口所在页面的相关信息实现分类。不同领域的网 页,其包含的信息一定存在差别。通常情况下,这些信息足以区分其所属的领域。 h e 等【l 孓1 4 】假设同一领域的查询接口含有一个隐藏的模型。根据模型的差分度 ( m o d e l d i f f e r e n t i a t i o n ) 可以实现数据库的聚类。对于提出的假设,通过皮尔逊统计量 来检验该假设是否成立。 p e n g 等 1 5 - 1 6 】提出的w i s e c l u s t e r 主要实现电子商务领域数据库的聚类。 w i s e c l u s t e r 根据查询接口中的提示文本、控件的值等信息,计算不同查询接口之间 的相似度,从而实现数据库的聚类。首先采用k m e a n s 算法实现初步聚类,然后计算 聚类结果中各簇的均值。对于小于均值的查询接口,计算其与各簇的相似度,并将其 划分给相似度最大的簇。 马军等【l7 】将网页的内容和嵌入的数据库表之间的向量空间距离的线性组合作为 数据库之间的语义距离。对于数据库标记词中可能存在的同义词和近义词,构建并利 用模糊分层集合对其进行归一化处理。 与p r e - q u e r y 方法不同,p o s t - q u e r y 方法通过与数据库的交互实现分类。该方法的 原理是:向查询接口提交某领域的关键词,如果数据库返回较多结果,则可断定数据 库属于该领域;反之,数据库不属于该领域。 舰v a n o 等【1 8 09 】设计了q p r o b e r 系统用于数据库的分类。该系统对数据库进行探 狈t j ( p r o b e ) 查询,根据数据库返回的满足条件的记录条数,确定数据库所属的领域。 h e d l e y 等【2 们1 】采用两阶段抽样( t w o p h a s es a m p l i n g ,2 p s ) 方法完成对数据库的抽 样、信息抽取和摘要生成。第一阶段从数据库中抽取文档,第二阶段在样本文档的基 础上探测其模板,并从中抽取相应信息作为数据库的摘要。该摘要是一个词频向量。 事先定义的簇也是一个词频向量。根据夹角余弦公式,计算数据库摘要词频向量与各 簇对应的词频向量的相似度,将数据库划分到相似度最大的簇中。 北京化工大学硕士学位论文 1 3 课题研究内容 到目前为止,学者们对d e e pw e b 数据集成已经作了大量的研究,也提出了一些 d e e pw e b 数据集成系统。但是这些系统尚属于研究性的原型系统,还不能投入实际 的应用。d e e pw e b 数据集成中很多问题还有待解决。 孟小峰等人在综合分析国内外研究成果的基础上,提出了一个d e e pw e b 数据集 成的系统框架( 如图1 - 4 所示) 【l 】。该框架由集成查询接口生成、查询处理和查询结果处 理三个模块组成,每个模块又分为若干子模块。 泵_ i j 蠢蛋询镁u 生成攥块 图1 - 4d e e pw e b 数据集成框架 f i g 1 - 4d e e pw e bd a t ai n t e g r a t i o nf r a m e w o r k 本文主要研究集成查询接口生成模块中的w e b 数据库的发现、查询接口模式的 抽取和w e b 数据库的分类。 w e b 数据库的发现的任务是从互联网上找出w e b 数据库。要完成该任务,首先 需要找到含有数据库的网站,然后在网站中定位数据库的入口查询接口。准确高 效地从互联网中搜索出数据库,是一项困难且耗时的任务,主要有两个原因:第一, 互联网上有很多的网站,它们有的提供数据库,有的不提供数据库,并且数据库分布 在互联网的各个角落。准确定位这些含有数据库的网站并非易事。第二,查询接口存 在于网页的表单中,但并非所有的表单都是查询接口。例如,网站的调查反馈、用户 注册、用户登录、订单查询、搜索引擎、元搜索引擎都是以表单的形式出现,但它们 都不是查询接口。如何从表单中识别出查询接口,也是一件困难的事情。 查询接口模式是查询接1 :3 的元信息,包括查询接1 2 1 的名字、提交请求的方法、接 收请求的网址、包含的控件信息等。查询接口模式信息是为下一步的数据库的分类和 查询接口的集成服务的。查询接口模式的抽取就是从查询接口中抽取出这些元信息。 要准确地抽取出这些信息,需要解析h t m l 代码,将其构造为某种易读的数据结构, 第一章绪论 以便能够访问到代码中的任意节点。 数据库的分类是将已发现的数据库按其所属的领域分成相应的类。数据库按领域 分类后,可以为该领域建立一个全局的集成查询接口,并构建集成查询接口与各本地 查询接口的映射关系。当用户在集成的查询接口中输入查询条件时,这些查询可以被 转换到多个本地查询接口,从而实现对多个数据库的访问。虽然像c o m p l e t e p l a n e t 等 一些公司建立了d e e p w e b 目录,但是这些目录是通过手动或半自动的方式建立的。 1 4 论文组织结构 全文共分七章,具体安排如下: 第一章绪论 首先介绍了d e e pw e b 的概念和资源情况,接着阐述了d e e pw e b 数据集成国内外 的研究现状,最后给出了课题的研究内容。 第二章背景知识 本章主要介绍课题相关的背景知识。首先介绍了h t r p 协议,该协议是网络爬虫 下载网页的基础。接着介绍了h t m l 中重要的标签和表单,识别表单中的查询接口是 发现w e b 数据库的唯一途径。 第三章w e b 数据库的发现 首先介绍了网络爬虫的原理和爬行策略。在普通爬虫的基础上,设计了一个面向 d e e pw e b 的爬虫。接着讲解了d e e pw e b 爬虫的工作流程。基于前人的研究成果和对 大量表单的观察,提出了7 条启发式规则用于区分查询接口和非查询接口。 第四章查询接口模式的抽取与存储 首先介绍了查询接口模式的概念和表示模型。接着讨论了抽取查询接口模式信息 的难点及相应的解决方法。最后根据查询接口的模型,设计了数据库和相应的实体及 业务逻辑对象,完成查询接口模式信息的存储。 第五章w e b 数据库的聚类 首先介绍了常见的文本聚类算法。由于网页的标题和关键词能较好地表征其所属 的领域,并且同一领域的文本通常会共享一定的关键词,提出了基于频繁项集的w e b 数据库聚类算法。 第六章实验结果与分析 本章主要对提出的方法进行实验。首先分析了提出的启发式规则用于查询接口识 别的效果。接着分析了查询接口模式抽取中控件与提示文本、控件与单位文本匹配关 系的正确性与完整性。最后分析了基于频繁项集的w e b 数据库聚类效果。 第七章总结与展望 7 北京化工大学硕士学位论文 本章主要对所做的工作进行总结,并展望了d e e pw e b 数据集成的发展方向。 第二章背景知识 2 1h t t p 协议简介 第二章背景知识 超文本传输协议( h y p e rt e x tt r a n s f e rp r o t o c o l ,h n p ) 是t c p i p 模型应用层上一个 广泛使用的传输协议。h 哪协议是万维网协会( w o r l dw i d ew e bc o n s o r t i u m ,w 3 c ) 和i n t e r n e t 工作小组( i n t e m e te n g i n e e r i n gt a s kf o r c e ) 合作的成果,它为客户端和服务 器之间超文本的传输提供了一个标准。目前普遍使用的h t t p 协议的版本是1 1 ,详 细内容可以参考r f c 2 6 1 6 t 2 2 - i 。 h t t p 协议采用请求应答模型。一次h t t p 操作主要包含以下4 步: 1 建立客户端与服务器之间的连接。 2 建立连接后,客户端向服务器发送一个请求( r e q u e s t ) 。 3 服务器接收到请求后,根据请求的内容,执行相应的操作,然后给客户端返 回一个响应信息。 4 客户端接收服务器的响应信息后,根据需求做相应的处理,然后断开与服务 器的连接。 接下来简单介绍一下h t t p 请求和h t t p 响应。 2 1 1h t t p 请求 客户端要访问服务器端的资源,需要向服务器发送一个请求。标准的h t t p 请求 由请求行( r e q u e s t l i n e ) 、头部信息( h e a d e r s ) 和消息主体( m e s s a g e - b o d y ) 组成。一个h r r p 请求( r e q u e s t ) 可以形式化表示为: r e q u e s t = r e q u e s t - l i n e ;h e a d e r s ;c r l f ;【m e s s a g e - b o d y h e a d e r s = ( ( g e n e r a l - h e a d e rir e q u e s t - h e a d e rie n t i t y - h e a d e r ) c r l f ) 掌 r e q u e s t l i n e = h a p - m e t h o dr e q u e s t - u r ih t t p - v e r s i o nc r l f 上面各式中,符号“口表示该项是可选的;符号“l 表示选择关系,表示可以 从几个候选项中任意选择;符号“宰 表示出现零次或多次;“c r l f 表示回车换行。 请求行指明请求使用的h r r p 方法( h t t p m e t h o d ) 、要访问的资源( r e q u e s t - u r i ) 以及 使用的h 1 阳版本( h t t p - v e r s i o n ) 。其中,h t t p m e t h o d 可供选择的值以及各值的含义如 表2 1 所示。 头部信息由通用头部信息( g e n e r a l h e a d e r ) 、请求头部信息( r e q u e s t - h e a d e r ) 和实体头 部信,息( e n t i t y - h e a d e r ) 组成。其中,通用头部信息各字段的含义请参考表2 2 ,请求头 部信息各字段的含义请参考表2 3 ,实体头部信息各字段的含义请参考表2 - 4 。 9 北京化工大学硕士学位论文 表2 - l 哪方法 t a b l e2 - 1h r r pm e t h o d h m m e t h o dh r r pm e t h o d 的含义 g e t h e a d p o s t p u t d e l e t e t r a c e c o n n e ( 了r 获取由r e q u e s t - u r i 指定的资源 请求h i t p 响应的头部信息 请求r e q u e s t - u r i 接收封装在请求中的实体 请求将封装在请求中的实体存放到r e g l u e s t - u r i 请求删除r c q u e s t - u r i 指定的资源 请求消息回路,用于故障检测和诊断 用于代理,使之能动态切换隧道 表2 - 2g e n e r a l - h e a d e r 字段含义 t a b l e2 - 2g e n e r a lh e a d e rf i e l d s 字段名称 字段含义 c a c h e = c o n t r o l c o n n e c t i o n d a t e p r a g m a t i a i l e r t r a n s f e r - e n c o d i n g u p g r a d e v i a w a r n i n g 指定请求和响应的缓存机制 指定是否保存s o c k e t 打开的连接 消息生成的日期和时间 特定的一些指令 指出给定的头部信息以c h u n k e dt r a n s f e r - c o d i n g 编码在信息的尾部 指定对消息体所实施的变换 指定新的协议或者新的协议版本 指定经过的中间协议和接收方 关于消息的状态和转换的补充信息 表2 - 3r e q u e s t - h e a d e r 字段含义 t a b l e2 - 3r e q u e s th e a d e rf i e l d s 字段的名称 字段的含义 a c c e p t a c c e p t - c h a r s e t a c c e p t - e n c o d i n g a c c e p t - l a n g u a g e a u t h o r i z a t i o n e x p e c t f r o m h o s t i f - m a t c h 指定可以接受的媒体类型 指定可以接受的字符集 指定可以接受的编码方式 指定可以接受的自然语言集 客户端的认证信息 客户端要求的特定的服务器行为 用户代理的e m a i l 地址 服务器的主机名 如果之前获取的某个实体与指定列表的某项匹配,则执行相应操作 1 0 第二章背景知识 i f - m o d i f i e d s i n c e h 埘o n e m a t c h i f - r a n g e i f - u n m o d i f i e d s i n c e m a x f o r w a r d s p r o x y - a u t h o r i z a t i o n r a n g e r e f e r c r 如果请求的变量自指定的日期以来未曾修改,服务器不返回实体 如果缓存的实体不与指定列表中的任何一个匹配,则执行相应操作 如果缓存了某个实体的部分拷贝,则执行相应操作 如果请求的资源自指定日期以来未曾修改,服务器执行该操作 指定可转发该请求的代理或网关的最大数目 客户端向代理认证自己的信息 被请求资源的部分字节 标明产生请求的初始资源 指定可按受的扩展t r a n s f e r - c o n d i n g ,以及是否愿意 t e 接受以c h u n k e dt r a n s f e r - c o d i n g 编码的尾部信息 u s e r - a g e n t 定义用于产生请求的软件类型 一个典型的h t t p 请求如下: g e t h t t p 1 1 a c c e p t l a n g u a g e :z h - c n a c c e p t e n c o d i n g :g z i p ,d e f l a t e h o s t :s e a r c h d a n # a n g c o r n c o n n e c t i o n :k e e p a l i v e 北京化工大学硕士学位论文 2 1 2h t t p 响应 服务器收到客户端的请求后,会生成一个h 盯m 响应返回给客户端。标准的h t t p 响应由状态行( s t a t u s 1 i n e ) 、头部信息( h e a d e r s ) 和消息主体( m e s s a g e - b o d y ) 坌1 t 成。一个 哪响应( r e s p o n s e ) 可 形式化表示为: r e s p o n s e = s t a t u s - l i n e ;h e a d e r s ;c r l f ; m e s s a g e - b o d y s t a t u s l i n e = h t t p - v e r s i o ns t a t u s - c o d er e a s o n - p h r a s ec r l f h e a d e r s = ( ( g e n e r a l - h e a d e rir e s p o n s e - h e a d e rle n t i t y - h e a d e r ) c r l f ) 状态行主要包括当前使用的h t r p 协议版本( h t t p - v e r s i o n ) 、请求处理结果状态码 ( s t a t u s c o d o 和相关的文本描述( r e a s o n - p h r a s e ) 。s t a t u s c o d e 由3 位数字组成,首位数字 表示响应的类别。每个s t a t u s c o d e 都有一个r e a s o n - p h r a s e 与之对应。s t a t u s c o d e 有5 个类别: l x x :信息,请求收到,有待继续处理。 2 x x :成功,成功收到、理解并接受操作。 3 x x :重定向,为了完成请求,必须采取进一步行动。 4 x x :客户端错误,请求包含语法错误或者请求无法实现。 5 x x :服务器错误,服务器不能实现无效的请求。 上述5 个类别都包含许多详细的状态。表2 5 列举的是服务器错误类别的状态码。 其他类别的状态码可以参考r f c 2 6 1 6 。 表2 - 5 服务器错误状态码 1 a b l e2 - 5c o d eo f s e r v e re r r o r s h t t p 响应中的头部信息由通用头部信息( g e n e r a l h e a d e r ) 、响应头部信息 ( r e s p o n s e h e a d 哪和实体头部信息( e n t i t y - h e a d e r ) 组成。其中通用头部信息各字段具体的 含义请参考表2 2 ,响应头部信息各字段具体的含义请参考表2 - 6 ,实体头部信息各字 段具体的含义请参考表2 4 。 1 2 第二章背景知识 表2 - 6r e s p s 幽d e r 字段含义 t a b l e2 - 6r e s p o n s eh e a d e rf i e l d s 字段的名称 字段的含义 a c c e p t - r a n g e s a g e e t a g l o c a t i o n p r o x y - a u t h e n t i c a t e r e t r y - a f t e r s e r v e r v a r y 指定对某个资源请求的可按受范围 响应生成的时间 为实体分配的唯的标识符 指定资源重定向后的新位置 指定认证的模式和可应用到代理的参数 服务器无法提供服务时再次请求前的等待时间 指定w e b 服务器处理请求的软件信息 头部信息集合,如果响应是新的,决定缓存是否 可以使用它来应答后续的请求而无需重新验证 提示用户代理提供用户名和口令的响应头标 下面是一个h t t p 响应的示例代码: h i i w l 12 0 0o k s e r v e r :n g i n x 0 6 3 7 d a t e :s u n , 1 4m a r2 0 1012 :2 4 :4 3g m 盯 c o n n e c t i o n :c l o s e e x p i r e s :m o n , 2 6j u l1 9 9 70 5 :0 0 :0 0g 盯 l a s t - m o d i f i e d :s u n ,1 4m a r2 0 1 01 2 :2 4 :4 3g c a c h e - c o n t r o l :n o - s t o r e ,n o - c a c h e ,m u s t - r e v a l i d a t e c a c h e - c o n t r o l :p o s t - c h e c k = o ,p r e c h e c k = - 0 p r a g m a :n o - c a c h e c o n t e n t - e n c o d i n g :g z i p v a r y :a c c e p t e n c o d i n g c o n t e n t - t y p e :t e x t h t m l ;c h a r s e t = g b k c o n t e n t - l e n g t h :1 4 7 6 9 1 3 北京化工大学硕士学位论文 2 2h t m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论