




已阅读5页,还剩51页未读, 继续免费阅读
(计算机应用技术专业论文)web访问特征模拟器的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
郑州大学硕士学位论文 w e b 访问特征模拟器的设计与实现 摘要 w e b 缓存是一个提高w e b 性能非常有效的方法,它可以位于网络的不同位 置:客户端,代理服务器端,服务器端。研究表明w e b 缓存命中率可以达到 3 0 一5 0 。w e b 缓存可以大大提高w e b 系统的性能,但同时也提出许多问题, w e b 缓存在应用中最大的问题就是w e b 缓存管理,研究w e b 访问特征是有效进 行w e b 缓存管理的基础,对w e b 网站的规划设计也具有非常积极的作用。近年 来,通过对w e b 用户的行为跟踪,对w e b 对象访问特征的深入研究分析,发现 w e b 对象访问具有以下几个共同特征:( 1 ) w e b 对象访问频率服从类齐普夫法则 ( z i p f - 1 i k el a w ) ;( 2 ) w e b 对象大小服从重尾分布;( 3 ) 5 0 一7 0 的w e b 对象只 被访问一次;( 4 ) w e b 对象访问具有时间局部性:( 5 ) w e b 对象访问具有空间局 部性。 w e b 日志生成模拟器可以按用户指定的w e b 访问特征生成理想的模拟日志, 对于研究w 曲缓存系统性能有很大地帮助,目前有两种方法模拟生成w e b 访问 日志:日志驱动方法与数学模拟方法。日志驱动方法利用对历史日志进行变换来 模拟生成新的日志;数学模拟方法是在充分研究w e b 对象访问特征的基础上, 通过建立数学模型来模拟生成w e b 日志。 本论文首先通过分析w e b 对象访问特征,采用数学模拟方法分别模拟了w e b 对象高频区及低频区流行度特征、w e b 对象大小重尾分布特征、w e b 访问的时间 局部性特征,设计并实现了一个w e b 曰志模拟生成器w e b s i m 。该模拟器不仅可 以模拟生成w e b 对象访问日志,而且具有较大的灵活性,为迸一步研究w 曲缓 存技术和预取技术提供依据;本论文还利用w e b s i m 模拟器生成的访问日志以及 c a op e i 的w e b 替换算法性能测试仿真器对常用的w e b 缓存替换算法进行了细致 的性能评估,通过实验进一步证明:在满足z i p f 法则的前提下,l f u 算法是比 较好的选择。 关键字:缓存,齐普夫法则,访问特征,流行度,模拟器 一 塑塑查兰堡主兰竺笙苎 翌! 堕塑堑笙望塑墨竺堡堡兰窭塑 a b s t r a c t w e bo b j e c tc a c h i n gi so n eo ft h em o s tp r e v a l e n ta p p r o a c h e st oi m p r o v i n gw e b p e r f o r m a n c e c a c h i n gc a nb ea p p l i e da ts e v e r a ll o c a t i o n s :a tt h ec l i e n t ,a tt h ep r o x y s e r v e r , a tt h es e r v e r r e s e a r c h e ss i l o wt l l a tt h eh i tr a t i oo fw e bc a c h i n gc a na t t a i n 3 0 一5 0 w e bc a c h i n gc a ni m p r o v ew e bp e r f o r m a n c eg r e a t l y ,b u ti ta l s o p u t f o r w a r dm a n yp r o b l e m t h em o s ti m p o r t a n tp r o b l e mi nt h ea p p l i c a t i o no f w e b c a c h i n g i sh o wt om a n a g ew e bc a c h ee f f i c i e n t l y , s t u d y i n gt h ew e ba c c e s sc h a r a c t e r i s t i c si st h e f o u n d a t i o no fm a n a g i n gw e bc a c h ee f f i c i e n t l y s o m ec o m m o nc h a r a c t e r i s t i c s i d e n t i f i e di np r o x yw o r k l o a d sa r e ( 1 ) t h ed o c u m e n tp o p u l a r i t yo f t e nf o l l o w sz i p f s l a w ;( 2 ) t h e f i l es i z ed i s t r i b u t i o nf o rw e bd o c u m e n t si s h e a v y - t a i l e d ; ( 3 ) m a n y ( e g ,5 0 7 0 ) o ft h ed o c u m e n t sa r er e f e r e n c e do n l yo n c e ;a n d ( 4 ) t e m p o r a l l o c a l i t ya n ds p a c i a ll o c a l i t ye x i s ti nt h ew e bp r o x yr e f e r e n c es t r e a m w e bl o g g e n e r a t i o ns i m u l a t o rp l a y sa l li m p o r t a n tr o l ei ns t u d y i n gw e bc a c h i n g s y s t e m ,s of a rt h e r ea r et w oa p p r o a c h e st os y n t h e s i z i n gw e ba c c e s sw o r k l o a d s :t h e t r a c e b a s e da p p r o a c ha n dt h em a t h e m a t i c a la n a l y t i c a la p p r o a c h t h et r a c e - b a s e d a p p r o a c hu s e sah i s t o r yt r a c ea n de i t h e rs a m p l e si to rp e r m u t e st h eo r d e r i n g so ft h e r e q u e s t st og e n e r a t ean e ww o r k l o a d ;t h em a t h e m a t i c a la n a l y t i c a la p p r o a c hc r e a t e s m a t h e m a t i c a lm o d e l st og e n e r a t ew o r k l o a d s a f t e ra n a l y s e st h ew e bo b j e c ta c c e s s c h a r a c t e r i s t i c s ,t h i sp a p e ru s em a t h e m a t i c a la n a l y t i c a la p p r o a c ht od e s i g n a n d i m p l e m e n taw e bl o gs i m u l a t o r :w e b s i m ,i nw h i c ht h ew e bo b j e c tp o p u l a r i t y d i s t r i b u t i o n ,w e bo b j e c ts i z ed i s t r i b u t i o na n dw e bt e m p o r a ll o c a l i t ya r es i m u l a t e d w e b s i mn o to n l yc a ns y n t h e s i z ew e bo b j e c ta c c e s sw o r k l o a d ,b u ta l s oh a sh i g h e r f l e x i b i l i t y , a n dp r o v i d eb a s i sf o rf u r t h e rs t u d y i n gw e bc a c h i n ga n dp r e f e t c h i n g k e y w o r d :w e bc a c h i n g ,z i p f sl a w ,w e ba c c e s sc h a r a c t e r i s t i c ,p o p u l a r i t y , s i m u l a t o r i i 驴7 8 2 3 8 0 郑重声明 本人的学位论文是在导师指导下独立撰写并完成的,学位论文没有剽窃、抄 袭等违反学术道德、学术规范的侵权行为,否则,本人愿意承担由此产生的一切 法律责任和法律后果,特此郑重声明。 学位论文作者( 签名) : 年月日 郑州大学硕士学位论文w e b 访问特征模拟器的设计与实现 1 1 引言 第一章概述 随着计算机与i n t e m e t 技术的发展,网络应用已渗入到各行各业。人们已进 入一个信息爆炸的时代,网络为人们提供了各式各样的信息服务。w w w ( w o r l d w i d ew e b ) 自1 9 9 3 年诞生以来,是i n t e r n e t 上发展最快,应用非常广泛的超文 本信息系统;它为人们提供了发布信息,获取信息的全球分布式数据共享平台。 随着w w w 的访问流量在i n t e r n e t 的访问中占据越来越重要的地位,因此如何有 效提高w e b 系统的性能已成为一个亟待解决的问题。 随看访i 口j 它的用尸呈措教缴瑁长,w e b 服务器父得趣米越个堪蔓负,网络频 繁出现堵塞现象,用户的访问时延不断加大,难以忍受,用户的服务质量得不到 很好的保证。虽然我们已经在硬件上加大投入,但由于互联网技术与网络设备本 身的局限性,网络时延仍然是一个很突出的问题。分析w e b 系统的结构,w e b 系 统的总体性能由几个组成部分决定:客户机、服务器、代理服务器以及通信协议 2 4 1 。相应的用户对远程数据信息的访问延迟包括2 5 :( 1 ) 用户请求到达服务器 时间;( 2 ) 服务器响应用户请求时间;( 3 ) 服务器响应数据信息到达客户机时间; 4 ) 客户机处理响应数据信息时间。( 2 ) 和( 4 ) 可通过提高客户机与服务器性 能来减少:而( 1 ) 与( 3 ) 则由客户机与服务器之间的网络传输时间延迟决定。 网络传输时间延迟包括网络线路传输延迟和中间路由器路由处理延迟。网络 传输延迟可从两方面来减少:一方面增加网络带宽、提高中间路由器性能,即提 高网络传输速度和减少信息路由排队时间;另一方面就是通过减少进入网络的信 息量来降低对网络带宽的占有。后者主要可通过缓存、预取来实现。 w e b 缓存就是将一部分经常要访问的w e b 页面缓存起来,后来的访问者的服 务请求可以直接由缓存处理,因而极大的提高了系统性能。预取( p r e f e t c h i n g ) 即将那些将来很可能被访问的w e b 页面预取到缓存,这样可提高缓存的命中率。 w e b 缓存是一个提高w e b 性能非常有效的方法,它可以位于网络的不同位置:客 户机端,代理服务器端,服务器端。研究表明w e b 缓存命中率可以达到 3 0 一5 0 【琊0 1 。在客户机端,浏览器软件充分幂g 用系统内存和磁盘空间缓存最近 郑州大学硕士学位论文w e b 访问特征模拟器的设计与实现 访问过的文档副本以满足随后对同样文档的访问;在服务器端,把最近常被访问 的文档缓存在内存中,当其它用户对这些文档访问时可直接在内存中进行,省去 了对磁盘的访问时间;代理服务器位于网络中,可以有多个层次代理,它接受用 户的访问请求,在检查自己没有此文档副本后去w e b 服务器取来相应文档传给客 户,同时缓存此文档的副本以满足将来其它用户的访问。 代理服务器缓存可以很大程度上减少客户机端与服务器端的通信请求,同时 可以缓解w e b 服务器的负载,这样可以减少网络上重复信息的传送,用户的访问 延迟也可以相应降低。 w e b 缓存替换策略是w e b 缓存管理的核心部分,它是w e b 缓存高效率工作的 基础。客户机、代理服务器以及服务器中的缓存空间都是有限的,当缓存空问被 占满时,当新的w e b 文档到来时,系统必须决定把哪些历史文档剔除出去,以腾 出足够空间缓存新的w e b 文档。 1 2 课题的研究背景 w e b 缓存可以大大提高w e b 系统的性能,但同时也提出许多问题,w e b 缓存 在应用中最大的问题就是w e b 缓存管理。研究w e b 访问特征是有效进行w e b 缓存 管理的基础,对w e b 网站的规划设计也具有非常积极的作用。近年来,通过对 w e b 用户的行为跟踪,对w e b 对象访问特征的深入研究分析,发现w e b 对象访问 具有以下几个共同特征【lj :( 1 ) w e b 对象访问频率服从类齐普夫法则( z i p f l i k e l a w ) :( 2 ) w e b 对象大小服从重尾分布;( 3 ) 5 0 - 7 0 的w e b 对象只被访问一次; ( 4 ) w e b 对象访问具有时问局部性;( 5 ) w e b 对象访问具有空间局部性。 在对w e b 缓存的研究中,些研究者发现不同的w e b 页面访问特征对w e b 缓 存替换策略有一定的影响。但究竟这种影响有多大却不是很好回答,例如,为了 研究一个特定的w e b 访问特征( 例:流行度特征) 如何影响不同的替换算法,我 们需要仅在这个特定w e b 访问特征( 流行度特征) 上变化的w e b 历史访问日志, 很显然,这种历史日志我们无法得到,而且也不存在。 w e b 日志生成模拟器对于研究w e b 缓存系统有很大地帮助,目前有两种方法 模拟生成w e b 访问日志【2 】: 1 日志驱动方法,这种方法利用对历史日志进行变换来模拟生成新的日志, 郑州大学硕士学位论文 w e b 访问特征模拟器的设计与实现 它易于实现但灵活性差,因为生成的日志依赖于已有的历史日志。这种模拟器有 s p e c w e b 9 9 ,w e b b e n c h ,s u r g e 和h t t p e r f 等。 2 数学模拟方法,这种方法在充分研究w e b 对象访问特征的基础上,通过 建立数学模型来模拟生成w e b 日志,它通过设定一个或多个参数来生成特定的 w e b 日志,这种方法可在短时间内生成多个用户所需的曰志。它灵活性大,但实 现复杂,具有难度。 1 3 论文目标及创新工作 本论文的目标以及创新工作可分为两个方面: 1 通过分析各个w e b 对象访问特征,采用数学模拟方法分别模拟了w e b 对象高频区及低频区流行度特征、w e b 对象大小重尾分布特征、w e b 对象访问的 时间局部性特征;设计并实现了一个w e b 日志模拟生成器w e b s i m 。这种模拟器 不仅可以模拟生成w e b 对象访问日志,而且具有很大地灵活性,克服了使用w e b 对象历史日志的许多缺点。例如:获取困难、占用存储空间大、不连续性、保密 性、不可调等等。为进一步研究w e b 缓存技术和预取技术提供了依据。 2 通过使用w e b s i m 模拟器生成的日志,在c a op e i 的w e b 替换算法性能测 试仿真器上对常用的w e b 缓存替换算法进行了细致的性能评估,通过实验进一 步证明:在满足z i p f 法则的前提下,l f u 算法是比较好的选择。 1 4 本论文的主要内容 本论文内容安排如下: 第一章本论文概述。 第二章简要的介绍了i n t e r n e t 和w w w 的发展历史及工作方式,并详细地 分析了w e b 访阅的时间延迟及解决方法。 第三章w e b 缓存是一个提高w e b 性能非常有效的方法,缓存替换策略选择 的适当是否将会极大地影响缓存的性能表现。这一章介绍了w e b 缓存技术以及它 的分类,并总结了常用的w e b 缓存替换算法。 第四章研究w e b 访问特征是有效进行w e b 缓存管理的基础,对w e b 网站的 规划设计也具有非常积极的作用。本论文介绍了w e b 访问几个共同特征:( 1 ) w e b 郑州大学硕士学位论文w e b 访问特征模拟器的设计与实现 对象访问频率服从类齐普夫法则( z i p f 一1 i k el a w ) :( 2 ) w e b 对象大小服从重尾 分布;( 3 ) 5 0 一7 0 的w e b 对象只被访问一次;( 4 ) w e b 对象访问具有时间局部性; ( 5 ) w e b 对象访问具有空间局部性。其中重点介绍了用于w e b 流行度局部性分 析的齐普夫法则,并首次将齐普夫第二法则用于分析w e b 低频区流行度局部性特 征。 第五章w e b 日志生成模拟器对于研究w e b 缓存系统有很大地帮助,目前有 两种方法模拟生成w e b 访问日志:曰志驱动方法与数学模拟方法。本章重点用数 学模拟方法设计一个w e b 日志生成模拟器w e b s i m 。 第六章通过实验来进一步验证w e b s i m 的有效性及准确性。 第七章对本论文的工作做全面的总结并展望将来更进一步的工作。 4 郑州大学硕士学位论文w e b 访问特征模拟器的设计与实现 第二章i n t e r n e t 与w w w ( w o r l dw i d ew e b ) 2 1 i n t e r n e t 历史与发展现状 i n t e r n e t 历史可追溯到2 0 世纪6 0 年代,美国国防部高级研究计划局( 称 为d a r p a ,现在又称为a r p a ) 成立了一个实验性广域网,此网络主要覆盖美国一 些主要的大学以及研究所,后来被称为a r p a n e t ,起初a r p a n e t 主要使研究人员 可共享一些昂贵的计算资源。随着a r p a n e t 的不断发展和以更好的合作方式工 作,为了使不同的计算机可以相互通信,当1 9 8 3 年1 月i 日t c p i p 成为a r p a n e t 上唯一的正式协议以后,a r p a n e t 上连接的网络、机器和用户以指数级快速增长。 很多地区的网络开始加入,并且开始与亚洲、太平洋地区的网络连接,1 9 9 8 年, d a r p a 停止为a r p a n e t 提供资金,美国国家科学基金会( n s f ) 接管a r p a n e t 并改 名为n s f n e t 。 到了2 0 世纪8 0 年代中期,人们开始把互联的网络集看成互联网,后来就是 因特网。到了1 9 9 0 年已经拥有3 0 0 0 个网络和2 0 0 ,0 0 0 台计算机。在1 9 9 2 年, 已有1 0 0 万台主机与因特网联通。在1 9 9 5 年已经有了多条主干网、数百个中级 ( 地区) 网、上万个l a n 、数百万主机和上千万用户。i n t e r n e t 主干网的容量差 不多以每年6 0 的速度扩充 1 ,i n t e r n e t 的发展速度是惊人的,仅以中国为例, c n n i c ( c h i n a i n t e r n e tn e t w o r ki n f o r m a t i o nc e n t e r ,中国互联网络信息中心) 最新发布的第十四次中国互联网络发展状况统计报告数据显示1 4 ”,截止到 2 0 0 4 年6 月3 0 日,我国的上网计算机总数己达3 6 3 0 万台,同上一次调查结果 相比,我国的上网计算机总数半年增加了5 4 1 万台,增长率为1 7 5 ,和去年同 期相比增长4 1 1 ,是1 9 9 7 年1 0 月第一次调查结果2 9 9 万台的1 2 1 4 倍,可 见我国上网计算机总数呈现出比较快的增长态势。i n t e r n e t 发展如此迅猛,几 乎没有人能预测它今后的发展规模。 传统上,因特网有5 种主要应用: 电子邮件( e m a i l ) 。在a r p a n e t 的早期就可以编写,发送和接收电子邮件了, 现在已经非常普及。很多人每天收到大量的消息,现在几乎各种计算机上都 有电子邮件程序。 新闻( n e w s ) 。新闻组是特殊的论坛,用户可以在此讨论共同感兴趣的话题以 郑州大学硕士学位论文w e b 访问特征模拟器的设计与实现 及交换信息。现在i n t e r n e t 上已有上千个新闻组,关于技术和非技术专题 的,包括计算机、科学、娱乐和政治。每个新闻组都有自己的规则、风格和 习惯,任何人都不应违反它们。 远程登陆( t e l n e t ) 。通过t e l n e t ,r l o g i n 或其他程序,因特网上的任何用 户都可以登陆到他们有帐号的机器上。 文件传送( f t p ) 。通过f t p 程序,用户可以从因特网上的一台机器向另一台 机器拷贝文件。可以用这种方式获取大量的文章、数据和其他信息。 万维网w w w 。万维网w v n v ( w o r l dw i d ew e b ) 是一个大规模的,联机式的信息 储藏所,简称为w e b 。w e b 是应用非常广泛的超文本信息系统;它为人们提 供了发布信息,获取信息的全球分布式数据共享平台。 2 2 万维网w w w ( w o r l dw i d ew e b ) 万维网w w w ( w o r l dw i d ew e b ) 并不是一种特殊的计算机网络,而是一个大规 模的、联机式的信息储藏所,简称为w e b 。w e b 最初由欧洲原子核研究委员会c e 矾 于1 9 8 9 年3 月提出的,当时的目的主要是使分布在好几个国家的物理学家方便 的交换、共享些资料。1 9 9 3 年2 月,第一个图形界面的浏览器m o s a i c 开发成 功。1 9 9 5 年著名的n e t s c a p en a v i g a t o r 浏览器上市,目前最受用户欢迎的浏览 器是h e t s c a p e 公司的n a v i g a t o r 和m i c r o s o f t 公司的i n t e r n e te x p o r e r 。 w e b 自1 9 9 3 年诞生以来,是i n t e r n e t 上发展最快,应用非常广泛的超文本 信息系统;它为人们提供了发布信息,获取信息的全球分布式数据共享平台。万 维网用链接的方法能非常方便地从因特网上的个站点访问另一个站点,从而主 动地按需获取丰富的信息。正是由于万维网的出现,使因特网从仅由少数计算机 专家使用变为普通百姓也能利用的信息资源。w e b 的出现使网站数按指数规律增 长。据统计,w e b 业务在全部网络业务中所占的份额由1 9 9 4 年的1 9 增长到1 9 9 6 年的4 0 ,到1 9 9 8 年已达8 4 。w e b 的出现是i n t e r n e t 发展中的个非常重要 的里程碑。 2 2 1w e b 工作方式 w e b 以客户服务器( e l l e n t s e r v e r ) 方式工作,用户计算机上的浏览器就 6 郑州大学硕士学位论文w e b 访问特征模拟器的设计与实现 是w e b 客户程序,用户请求访问的w e b 文档所驻留的计算机则是w e b 服务器,但 当此计算机没有用户所请求的文档时,此w e b 服务器就变为w e b 客户机,通过链 接去访问相应的w e b 服务器,见图2 1 所示。 w w w 的客户程序和服务器程序之间通过超文本传输协议h t t p ( h y p e r t e x t t r a n s f e rp r o t o c 0 1 ) 进行通信。h t t p 是一个应用层协议,它使用t c p 连接进行 可靠的传送。w w w 使用统一资源定位符u r l ( u n i f o r mr e s o u r c el o c a t o r ) 来标示 万维网上的各种文档,并使每一个文档在整个因特网的范围内具有唯一的标示符 u r l 。超文本标记语言h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 是制作w e b 页面的标 准化语言,它消除了网络上不同计算机之间信息交流的障碍,而且很方便地将位 于不同地理位置的w e b 页面链接起来,方便用户查找信息。 h t t p 协议定义了系列的方法( g e t 、p o s t 、h e a d ) ,这些方法实现了客户机 与服务器之间的连接、发送请求、接收文件以及关闭连接等,其中最常用的是方 法g e t 。在w w w 系统中,当客户机想访问w e b 服务器上某个资源u r l ( u n i f o r m r e s o u r c el o c a t o r 统一资源定位器) 时,便发出一个g e t 请求,向服务器请 求该资源:代理服务器收到客户机发的请求后,按照h t t p 协议格式对该请求报 文进行解释和重组,并代表源客户机向w e b 服务器请求资源( g e t ) 或提交数 据( p o s t ) ,然后将w e b 服务器的响应转发给源客户机。 人们可以通过w w w 浏览器浏览和检索全球所有w w w 站点的信息,可以上网购 物、聊天,企业可以使用基于w w w 的办公信息系统,这使得信息的共享与交流越 来越迅速,越来越方便,正因为如此,w w w 才成为了目前i n t e r n e t 上信息发布 与出版的重要途径。 拜户机 图2 - 1w w w 工作方式 服务擀 郑州大学硕士学位论文w e b 访问特征模拟器的设计与实现 2 2 2w e b 重要概念 w e b 是一个分布式的超媒体( h y p e r m e d i a ) 系统,它是超文本( h y p e r t e x t ) 系统的扩充。超媒体与超文本的区别是文档内容不同,超文本文档仅包含文本信 息,而超媒体文档则包含其他表示方式的信息,如图形、图像、声音、动画甚至 活动视频图像。 一个超文本由多个信息源链接成,而这些信息源的数目实际上是不受限制 的。利用一个链接可使用户找到另一个文档,而这个文档又可链接到其他的文档 ( 依次类推) 。这些文档可以位于世界上任何一个接在i n t e r n e t 上的超文本系统 中。超文本是w e b 的基础。 相关定义: 1 w e b 文档( w e bd o c u m e n t ) 。有时简称为文档,泛指i n t e r n e t 上每一个 用u r l 唯一标识的数据对象( 即“w e b 对象”) 所对应的文件,包括超文本、图片、 多媒体及其他二进制文件。 2 网页( w e bp a g e ) 。当一个超文本对象和它的内嵌图片、多媒体一同显 示在浏览器窗口中的时候,称之为一个“网页”。可见,一个网页往往是多个文 档的组合,为了完整的显示一个网页,浏览器必须在获得超文本之后,为其中内 嵌的每一个文档发出单独的h t t p 请求。 3 静态( s t a t i c ) 网页和动态( d y n a m i c ) 网页。二者的主要区别在于对不同 时间发出的请求,动态网页的内容可能不同,而静态网页的内容则总是固定的( 除 非网站管理人员手工修改) 。静态网页在请求达到服务器之前就已经存在,主要 包括h t m l 、图片和其它类型的文件。动态网页通常是在客户机或服务器端由j a v a , j a v a s c r i p t ,v b s c r i p t 等语言编写的c g i 程序生成的,大多数都会和服务器的 数据库进行数据交换。需要注意的是,并非动态网页中所有的内容都是动态产生 的,比如它可能会引用一些静态的图片文件。通常认为静态网页是可以缓存的, 而动态网页是不可以缓存的,在h t t p 协议中也对可缓存的网页进行了定义。通 过对访问日志的分析可以发现,在对w e b 文档的访问中,静态文档,尤其是图片 占绝大多数,所以本文将注意力集中在静态网页的缓存上。 4 内嵌( i n l i n e ) 对象和超链接( h y p e r l i n k ) 。在超文本文档中,内嵌对象 往往用 标明,浏览器扫描到这些标记的时候会自动对其发出h t t p 郑州大学硕士学位论文 w e b 访问特征模拟器的设计与实现 请求,然后显示在指定位置,它们是所在网页的组成部分。而超链接则用 来标记,除非用户点击,浏览器并不自动请求这些对象, 它们指向不同的网页。 在讨论w 唧的特性,以及w w w 缓存和预取的时候,必须严格区分这几个概念 例如:w e b 文档大小分布是以文档而不是网页为单位来统计的,静态网页可以缓 存而动态网页不可缓存,研究用户访问行为时关心的是超链接而不是内嵌关系 等。本文会在相关的地方注意严格的措辞。 2 2 3h t t p w w w 访问是基于h t t p 协议来实现的,其实现简单,这也是w w w 爆炸式发展 的原因。w e b 的运作取决于一个标准的、定义良好的方式,以便w e b 组件相互进 行通信。超文本传输协议( h t t p ) 是在w e b 上传输资源最常用的方式。 h t t p ( h y p e r t e x tt r a n s f e rp r o t o c 0 1 ) 规定了客户机、w e b 服务器、w e b 组件之间 相互交换消息的格式和含义。然而h t t p 并非个高效的协议,由于其设计者当 时并未考虑到今天的惊人发展,在协议设计中对性能问题考虑不是很多,因此今 天网络的这种拥挤情况有着协议的原因在其中。 h t t p 是一个属于应用层的面向对象的协议,由于其简洁,快速的方式,适 用于分布式超媒体信息系统。它于1 9 9 0 年提出,经过几年的使用与发展,得到 不断的完善和扩展。目前在w w w 中使用的是h t t p i 0 ,h t t p i 1 3 1 1 ,而 h t t p - n g ( n e x tg e n e r a t i o no fh t t p ) 的建议已经提出。 ( 1 ) h t t p 协议的主要特点可概括如下: 1 。支持客户服务器模式,采用请求应答方式。 2 简单快速。客户向服务器请求服务时,只需要传送请求方法和路径。请 求方法常用的有g e t ,h e a d ,p o s t 。每种方法规定了客户与服务器联系的类型不 同。由于h t t p 协议简单,使得h t t p 服务器的程序规模小,因而通信速度很快, 但是同时也浪费了一些资源。 3 灵活。h t t p 允许传输任意类型的数据对象。正在传输的类型由 c o n t e n t t y p e 加以标记。 4 无连接。在h t t p l 0 中无连接的含义是限制每次连接只处理一个请求。 9 郑卅l 大学硕士学位论文w e b 访问特征模拟器的设计与实现 服务器处理完客户的请求,并收到客户的应答后,即断开连接。在h t t p l 1 中的 含义是处理一个或多个页面。 5 无状态。h t t p 协议是无状态协议。无状态是指协议对于事物处理没有记 忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可 能导致每次连接传送的数据量增大。为了方便某些应用,如聊天室,购物等,h t t p 中加入了c o o k i e 的使用,以方便需要记录访问状态的应用。 ( 2 ) h t t p 的运作方式及消息结构 h t t p 支持客户机( 浏览器) 与服务器间的通信,相互传送数据。一个服务器 可以为分布在世界各地的许多客户机服务。h t t p 采用请求响应的握手方式,其 基本的运作由以下4 步组成: ( 1 ) 连接:客户机与服务器建立连接。 ( 2 ) 请求:客户机向服务器提出请求。 ( 3 ) 响应:如果请求被接收,则服务器送回应答,在应答中包括状态码和所要 的响应信息。 ( 4 ) 关闭:客户机与服务器断开连接。 其中“客户机”与“服务器”是一个相对概念,只存在于某个特定的连接期 间,而非专用程序,即在某个连接中的“客户机”在另一个连接中可能作为“服 务器”。这也就是说对于h t t p 中的程序,应具有“客户机”与“服务器”的双重 功能。 h t t p 的消息有两类,即“客户机”发出的请求消息与“服务器”发出的响 应消息。h t t p 的请求消息采用了开放式的方法库形式,即方法可以扩充。用方 法表示请求的目的,用u r l 表示某个方法用在哪个资源上,完整的请求消息格式 如下: 请求消息一请求行。( 通用信息头) 请求头i 实体头) c r l f ( 实体内容) 请求行= 方法请求u r li _ i t t p 版本号c r l f 方法= ”g e t ” ”h e a d ” ”p o s t ”) ”p u t ”) 扩展方法 2 2 4w e b 访问的时间延迟问题 随着访问w e b 的用户呈指数级增长,w e b 服务器变得越来越不堪重负,网络 1 0 郑卅l 大学硕士学位论文w e b 访问特征模拟器的设计与实现 频繁出现堵塞现象,用户的访问时延不断加大,难以忍受,用户的服务质量得不 到很好的保证。虽然我们已经在硬件上加大投入,但由于互联网技术与网络设备 本身的局限性,网络时延仍然是一个很突出的问题。分析w e b 系统的结构,w e b 系统的总体性能由几个组成部分决定:客户机、服务器、代理服务器以及通信协 议。用户访问i n t e r n e t 时往往根据访问延时评价网络的性能。而访问网站的过 程是通过在t c p i p 协议之上的h t t p 协议来完成的。从客户端发出一个h t t p 请 求开始,用户所经历的等待时间主要决定于d n s 和网站的响应时间。网站域名首 先必须被d n s 服务器解析为i p 地址,h t t p 的延时则由在客户端和服务器间的若 干个往返时间所决定。 往返时间是指客户端等待每次请求的响应时间,平均往返时间取决于以下五 个方面: 相应的用户对远程数据信息的访问延迟包括: ( 1 ) 客户请求到达服务器时间; ( 2 ) 服务器响应用户请求时间; 网站服务器造成的延时在往返时间中占主要比例。当某个服务器收到多个并 发h t t p 请求时,会产生排队延时。由于响应一个h t t p 请求,往往需要多次访问 本地硬盘,所以即使是一台负载并不大的服务器,也可能产生几十或几百微妙的 延时。 ( 3 ) 服务器响应数据信息到达客户机时间; ( 4 ) 客户机处理响应数据信息时间; ( 5 )( 1 ) 与( 3 ) 路径多个网络设备中转处理时间。 在( 1 ) 与( 3 ) 的客户端和服务器之间的路径上会存在多个网络设备,如路 由器、网关、代理和防火墙等。它们对经过的i p 数据报都要做存储转发的操作, 于是会引入排队延时和处理延时。在网络拥塞时,这些设备甚至会丢包,此时会 寄希望于客户端和服务器通过端到端的协议来恢复通信。 虽然用户对远程数据信息的访问延迟原因很多,但主要的因素有以下几个方 面1 9 0 0 】: w e b 服务器性能不高,处理用户请求时速度比较慢,尤其是在大量用 户请求同时到达或服务器内存不足、磁盘速度比较慢时用户要等待更长的时间。 邦卅l 大学硕士学位论文 w e b 访问特征模拟器的设计与实现 网络带宽不足引起的传输时间的延长。 不完善的网络协议引起传输时间的延长,例如h t t p 协议要求对于一个 h t m l 文档中的每个传输对象都要单独建立一个t c p 连接,会引起一些不必要的 开销。 ( 2 ) 和( 4 ) 可通过提高客户机与服务器性能来减少:而( 1 ) 与( 3 ) 则由 客户机与服务器之间的网络传输时间延迟决定。 2 2 5 w e b 访问时间延迟的解决方法 缓解w e b 访问速度慢的问题主要有两类方法,第一种方法就是增加网络带 宽、提高中间路由器以及w e b 服务器性能,即提高网络传输速度和减少信息处理 时间和路由排队时间;另一种方法就是通过减少进入网络的信息量来降低对网络 带宽的占有,提高对现有网络资源的充分利用。 第一种方法是从根本上着手解决w e b 访问延迟时间长的问题,投资大,周期 长,但从i n t e r n e t 的发展可以看出,这种方法往往滞后于w e b 用户的飞速增长, 虽然w e b 服务器的性能越来越高,网络带宽也在不断提高,但i n t e r n e t 主干网 的容量几乎以每年增加6 0 的速度在扩充。因此这种方法总是落后于w e b 用户对 网络的需求,往往达不到预期效果。 第二类方法主要包括: 提高网络协议的效率 由于目前i n t e r n e t 主要是使用t c p i p 协议簇,t c p i p 协议簇存在很多不 合理的地方,不完善的网络协议会消耗部分网络带宽,从而增加对有限的网络带 宽的消耗。目前w e b 中使用的h t t p l 0 协议在解决系统延迟方面并没有进行特别 的优化【”。经过研究者的设计改进,提出了h t t p l 1 ,在h t t p l 1 中提出了一些 减少延迟的新方法,在一定程度上对网络系统性能有了提高。 集群技术 集群技术是将客户端的请求按照一定的算法分配到一台或者多台服务器上, 然后由这一台或多台服务器共同响应客户端的请求,从而达到提高网络访问速度 的目的。集群系统在一定限度上提高了w e b 系统可用性和处理能力,但是集群系 统无法解决i n t e r n e t 带宽存在的限制。 郑州大学砸士学位论文w e bi * - 特征模拟器的设计与实现 设置镜像服务器 在网络的不同位置设置w e b 服务器的镜像服务器,客户的w e b 请求总是从距 离客户最近的服务器或镜像服务器得到响应,从而减少客户的等待时闻。 数据压缩传输 w e b 中的许多信息,特别是大量的文本信息,是以压缩的形式存放和传输的。 这样的信息在传输过程中就会花费比较多的时间,同时会占用比较多的网络带 宽;如果传输的信息都是经过压缩的信息,那么就会减少传输时间,也会减少网 络带宽的占用【1 0 】。 设置w e b 缓存( w e bc a c h i n g ) 如果一个文件有可能被使用两次或两次以上,那么在这个文件被第一次使用 时,将其副本保存在客户机或本地服务器中,以便后续的访问能够从客户机或本 地服务器中获得,不必访问远地的w e b 服务器,显然可以大大地缩短访问的距离。 方面可以减少信息的传输时间,另一方面可以减少网络和w e b 服务器负载。 增加w e b 预取功能( w e bp e r f e c t i n g ) 在一个浏览会话中连续两个页面的下载之间常常有一段空闲时间称为使用 者思考时间( u s e rt h i n kt i m e ) ,这个空闲时间的长度范围可以从几秒钟到几分 钟,预取就是利用这个空闲时间提前把使用者不久将要使用到的文件取回,并存 放到缓存中。这样就可以减少实际访问时的等待时间。 本论文重点分析和讨论w e b 代理服务器缓存对整个w e b 系统性能的影响。 郑卅l 大学硕士学位论文 w e b 访问特征模拟器的设计与实现 第三章w e b 缓存技术 w e b 缓存技术把经常访问的信息( w e b 文档) 放到用户的附近( 或本地) 。是一 种在本地存储经常访问的信息的方法。用户在附近的w e b 缓存中获取所请求的文 件,以代替从原始服务器获取文件,减少了传输距离,缩短了请求的响应时间、 降低了网络带宽的消耗、减轻了服务器负荷 2 6 - 3 0 】。然而,缓存失效引起了长响应 时间和多余的处理费用,因此应尽量减小缓存的失效率。实验结果表明,对经常 使用的w e b 文档进行缓存,能有效的提高网络性能。主要体现在以下几点: 1 采用w e b 缓存可以减少带宽消耗,从而降低网络流量,缓解网络拥塞。 2 采用w e b 缓存可以降低用户访问延迟: 经常访问的w e b 文档不再需要访问远程服务器,而可以直接由近处 的代理缓存处获得,传播延迟达到了最小。 由于整个网络上流量的减少,与没有采用缓存技术相比,那些没有 被缓存的文档也可以较快的被访问,因为传送该文件的路径上的拥塞相 对缓解一些,而且w e b 服务器的负载得到了减轻。 3 采用w e b 缓存技术降低了远程w e b 服务器的负担。因为数据不再仅仅 是在w e b 服务器与用户端间传送,而是将其在广域网上多个缓存设备与客 户端问传送。 4 当远程w e b 服务器由于各种原因不可用时,采用缓存技术后,客户端仍 能在代理服务器处得到缓存副本,从而提高了网络的健壮性。 当然,采用w e b 缓存技术也有其弊端,主要体现在以下几个方面: 1 通过分析缓存设备中的内容,我们可以分析一个组织的访问模式,在一 定程度上导致了泄密的结果。 2 由于缓存内容的更新不及时可能导致用户得到的数据是已经过时的数 据。 3 如果用户的服务请求不能在缓存的内容里找到,与没有采用缓存技术相 比,由于多了缓存处理这个过程,反而会导致用户的访问延迟时间增加。 因此,在实际缓存系统时,应该保证缓存命中率的最大化和缓存没有命 中时代价的最小化。 1 4 郑州人学硕士学位论文w e b 访问特征模拟器的设计与实现 3 1w e b 缓存分类 w e b 缓存是一个提高w e b 性能非常有效的方法,研究表明w e b 缓存命中率可 以达到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 海南省海口市2025年物理高三上期末达标测试试题
- 人教版八年级上册生物 5.4.4 细菌和真菌在生物圈中的作用 说课稿
- 有用的企业面试题库含答案详解(达标题)
- 2025年江苏省连云港市灌南县二中物理高三上期末学业质量监测模拟试题
- 国企企业面试题库附完整答案详解(各地真题)
- 千阳县校园餐饮安全培训课件
- 第1课走下神坛 说课稿 2024-2025学年湘美版初中美术九年级上册
- 千字文课件教学课件
- 乘法的初步认识教学设计-2024-2025学年二年级上册数学人教版
- 大修电气安全培训课件
- 2025-2030年中国汽车起重机市场前景规划及投资潜力分析报告
- 广东省四校2024-2025学年高三上学期期末联考英语试题(无答案)
- 《解剖学》课程标准
- 小学四年级语文上册教材分析
- 泰山版(2025版)小学信息技术第5册教学计划
- 2024年宁德监狱囚犯心理咨询服务合同
- 副总经理招聘面试题与参考回答(某大型国企)2024年
- 玻璃体切割手术治疗2型糖尿病视网膜病变专家共识
- 意向金退款合同模板
- 2024年店中店合作协议范本
- 2023年成人高等考试《民法》(专升本)真题及答案
评论
0/150
提交评论