(计算机科学与技术专业论文)开放的web负载产生器模型研究与实现.pdf_第1页
(计算机科学与技术专业论文)开放的web负载产生器模型研究与实现.pdf_第2页
(计算机科学与技术专业论文)开放的web负载产生器模型研究与实现.pdf_第3页
(计算机科学与技术专业论文)开放的web负载产生器模型研究与实现.pdf_第4页
(计算机科学与技术专业论文)开放的web负载产生器模型研究与实现.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(计算机科学与技术专业论文)开放的web负载产生器模型研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院学位论文 摘要 随着i n t e m e t 的推广成熟,基于w e b 的应用越来越普遍,提高w e b 的服务 质量是当前w e b 应用领域中非常重要而紧迫的任务。对w e b 的服务性能和服 务质量进行评测有助于针对性的规划和改进w e b 的服务质量。本文在分析了 目前被广泛使用的些w e b 测试工具的基础上,认为w e b 负载产生器模型是 w e b 测试技术中的重点。为建立更好的、具有更高用户等价性的w e b 负载产 生器模型,我们主要做了两项工作:( 1 ) 提出了一种基于开放源码浏览器的客 户端w e b 访问数据收集机制,为收集大量的模型分析数据建立了基础;( 2 ) 在分析现有负载产生器模型的基础上,提出了一种开放结构的负载产生器模型 e - - s u r g e 模型,我们认为该模型能产生具有高度用户等价性的w e b 访问负 载。 本文首先介绍了目前较为成熟的w 曲测试工具w e b s t o n e 的结构和测试原 理,并使用该工具作了一些w e b 服务性能测试。尽管所得到的测试结果可能 是一些较为明显的结果,或测试结果已被类似实验所证实,甚至有些结果未必 正确,但这些测试能加深我们对w e b 测试过程和w e b 测试工具结构的理解。 建立一个具有用户等价性的w e b 访问模型,必须首先了解真实环境中的用 户在访问w e b 服务时所表现出的特征,为此需要收集大量的用户访问数据。 在第三章中,我们结合w e b 数据挖掘技术,提出了种基于开放源码的客户 端数据收集机制,并对收集到的数据的后续处理工作进行了分析,提出了一种 简单、高效的数据记录格式,能为后续的数据挖掘工作提供方便。 在第四章中 我们沿用目前具有较大影响力的s u r g e 模型中提供的各种参 数分布模型,针对s u r g e 模型用户模型单一,无法全面、精确反映数以亿万 计的用户的特性,尤其是无法反映用户特性的变化这一缺陷,对s u r g e 模型 进行了扩充,提出了一种e s u 】婚e 模型,该模型采用分而治之的策略,对 用户群进行划分,用不同的访问模型来模拟不同的用户群体,并考虑了用户群 访问特征随时间和外部条件变化的特性,对用户群的访问状态迁移提供了支 持。e s u r g e 模型从时间和用户群两个维度上对s u r g e 模型进行了扩充, 我们认为,该模型能产生具有高度用户等价性的负载。 由于试验环境制约,时间也不够充足,我们所实现的数据收集机制和e - - s u r g e 模型尚未接受实际环境的检验,目前这些机制和模型仅具有理论意义, 因此还有许多工作需要进一步的研究。 第i 页 里堕型兰垫查查兰塑窒竺堕堂垡丝茎 一 第i i 页 里堕型堂垫查奎兰堑塞生堕兰堡堡茎 a b s t r a c t c o m p a n y i n g w i t ht h em a t u r a t i o no ft h ei n t e r n e t w 曲一b a s e d a p p l i c a t i o n s b e c o m em o r ea n dm o r ep o p u l a r t h i st r e n dm a k e si tav e r yi m p o r t a n ta n dp r e s s i n g t a s kt od e v e l o pt h o s e t e c h n o l o g i e se n h a n c i n g t h es e r v i c eq u a l i t yo f w e b a p p l i c a t i o n s w e bb e n c h m a r k p l a y sa l li m p o r t a n tr o l ei nw e b s e r v i c ea n dw e bs e r v e rp e r f o r m a n c e e n h a n c i n g a n d i ti s h e l p f u l t ot h ew e b s i t el a y o u t s o m ew i d e l yu s e dw e b b e n c h m a r kt o o l sa r e a n a l y z e d i n t h i st h e s i st h er e s u l t ss u 鹳e s tt h a tt h ew e b w o r k l o a dg e n e r a t o ri si nt h ek e m e io ft h ew e bb e n c h m a r kf i e l d st w om a i nw o r k s , f o c u s i n go nc o n s t m c tab e n e rm o d e lo f w e bw o r k l o a dg e n e r a t o r , w h i c hw em e a n h a sm o r eu s e re q u a l i t y , a r ed i s c u s s e di nt h et h e s i s t h ef i r s ti saw e bv i s i t i n gd a t a c o l l e c t i o nm e c h a n i s m ,w h i c hc o l l e c t sd a t af r o mt h o s ec l i e n t s u s i n g a s p e c i a l s o u r c e o p e n w e bb r o w s e r t h es e c o n di se s u r g e a no p e nm o d e lo fw e b w o r k l o a dg e n e r a t o r t h i sm o d e li sg a i n e do nt h eb a s eo fa n a l y z i n gs o m ee x i s t i n g w e bw o r k l o a dg e n e r a t o r s t h es t r e a mo fw e bw o r k l o a dg e n e r a t e db ve s u n g ec a n b ea c c u r a t e l ye q u i v a l e n tt ot h o s ew o r k l o a d si nt h er e a lw o r l d t h es t r u c t u r ea n dp r i n c i p l eo f w e b s t o n e a w i d e l yu s e dw e b b e n c h m a r kt o o l ,i s i n t r o d u c e di nt h i st h e s i si ti su s e dt ot e s tam i n iw e bs i t ea n ds o m et e s tr e s u l t sa r e g a i n e d m a y b et h e s er e s u l t ss e e m t ob e a p p a r e n t ,o rh a v eb e e ng a i n e db yo t h e rt e s t s , e v e nm a y b ei n c o r r e c t t h et e s ti t s e l fc a ne n h a n c eo u ru n d e r s t a n d i n go ft h ew e b b e n c h m a r k p r o c e s sa n dw e bt o o l s s t r u c t u r e t oc o n s t r u c ta nu s e re q u i v a l e n tw e b a c c e s s i n gm o d e l t h ef i r s tt h i n gs h o u l db e d o n ei st oc o l l e c tap i l eo f u s e ra c c e s s i n gd a t ar e c o r d s ,w h i c hc a nb eu s e dt oa n a l y z e t h ec h a r a c t e r so fu s e ra c c e s s i n gp a t t e r nt ot h ew e bad a t ac o l l e c t i o nm e c h a n i s m w h i c hi sb a s e do nw e bd a t am i n i n gt e c h n o l o g ya n da no p e n s o u r c eb r o w s e r , i s p r o v i d e di nt h et h e s i s t h ed a t ac o l l e c t o rc o l l e c t sd a t ar e c o r d sf r o mw e bc l i e n t s ,i t c a na l s op r e p r o c e s st h o s ed a t ac o l l e c t e d r e c o r dt h e m1 nas i m p l ea n de 硒c i e n tw a y s u r g e a ni m p o r t a n tw e bw o r k l o a dg e n e r a t o rm o d e l a n a l y z e dt h ec h a r a c t e r s o fw e bw o r k l o a d c o m p r e h e n s i v e l y s o m e d i s t r i b u t i o nm o d e l so fw o r k l o a d c h a r a c t e r si n t r o d u c e db ys u r g e a n dt h es u n g em o d e li t s e l f ,a r ew i d e l ya c c e p t e d b yo t h e rr e s e a r c h e r s ,t h e yp r o v i d eu st h eb a s i s o fc o n s t r u c t i n go u ro w nw e b w o r k l o a dg e n e r a t o rm o d e l s u r g e ,t h o u g hi si m p o r t a n t ,u s e ss i n g l e c h a r a c t e r m o d e lt oc h a r a c t e r i z em i l l i o n so f w e bc l i e n t s ,t h i sm a y b ei n a c c u r a t ea n di n c o m p l e t e a n dm o r es e r i o u s l y s u r g ec a n n o tr e t i e c tt h ev a r i a t i o no f w e bc l i e n t s c h a r a c t e r s f o rv a r i a t i o n w et h i n ki ti st h ep r i m a r yc h a r a c t e ro f w e b c l i e n t s a c c e s s i n gp a t t e r n a c c o r d i n g l y , a no p e nw e b w o r k l o a dg e n e r a t o rm o d e l ,e s u n g e ,i sp r o v i d e di nt h e t h e s i se - s u r g e e x p a n dt h es u r g e m o d e l i nt w o r e s p e c t s :f i r s t i td i v i d e sa l lw e b 第i h 页 国防科学技术大学研究生院学位论文 c l i e n t si n t os o m ed e f i n a b l eu s e rg r o u p s ,t h e s eu s e rg r o u p sc a nb ec h a r a c t e r i z e d s e p a r a t e l ys e c o n d ,u s e rg r o u p s c h a r a c t e r sc a nb e a d j u s t e dd u r i n g t h et e s t a c c o r d i n g t os o m es t i m u l a t i o nw eb e l i e v et h a tw o r k l o a d sp r o d u c e db ye s u r g e c a nb ea c c u r a t e l ye q u i v a l e n tt ot h o s er e a lw o r k l o a d s l i m i t e db yt i m ea n d t e s t i n ge n v i r o n m e n t s ,t h ed a t ac o l l e c t o ra n dt h ee s u r g e m o d e lh a v en o tb e e nu s e di nt h er e a le n v i r o n m e n t s s u r e l y , t h e ya r ei n a c c u r a t ea n d i n c o m p l e t e s o m ei m p o r t a n tr e s e a r c hw o r k sr e l a t e dt ot h i st h e s i sa r es t i l lo nt h e h e a d f o r u s 第i v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意 学位论文题目:珏趑的坠鱼鲞芒生墨搓型盟巍生塞理 学位论文作者签名 牛 日期:扫d 年f ) 月占日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目: 殛趑鲍坠幺惑芒生墨搓型盈窥量塞理 学位论文作者签名:,么亟! ! 1 日期:砌) 年,j 月6 日 作者指导教师签名岔- - 生屯日期:肋2 年,怠月么日 国防科学技术大学研究生院学位论文 第一章绪论 最近几年,i n t e r n e t 经历了飞速的增长。1 9 9 8 年1 月,连接到i n t e r n e t 上的 主机数量为2 9 ,6 7 0 ,0 0 0 台;到1 9 9 9 年1 月,这一数字增长为4 3 ,2 3 0 ,0 0 0 台,到1 9 9 9 年4 月,这一数字进一步增长到5 6 ,2 1 8 ,0 0 0 台。随着i n t e r n e t 的发展和成熟,广大用户迫切期望i n t e m e t 能提供高质量的服务,为此必须研 究能提高i n t e r n e t 服务质量的各种方法,而提高i n t e r n e t 服务质量的基础在于必 须深刻理解服务的过程,对服务的过程进行评价,找出服务的瓶颈所在,这正 是w e b 服务评测技术的研究重点,因而研究w e b 性能评测技术具有重要的现 实意义。 1 1 1 服务质量需求 1 1w e b 服务质量 最近几年,i n t e r n e t 经历了飞速的增长,这种增长体现在以下几个方面: ( 1 ) 用户的增长:根据中国互联网络信息中心( c n n i c ) 于2 0 0 2 年7 月1 日发布的第十次中国互联网络发展状况统计报告中的数据,截 止到2 0 0 2 年6 月3 0 日,我国的上网计算机数已达1 6 1 3 万台,同上 次调查结果相比,我国的上网计算机数量半年内增加了3 5 9 万台, 增长率为2 8 6 ,和去年同期相比增长6 1 0 9 6 ,是1 9 9 7 年1 0 月第一 次调查结果2 9 9 万台的5 4 倍。上网用户人数为4 5 8 0 万人,同第九 次调查相比,上网用户人数半年增加了1 2 1 0 万人,增长率为3 5 9 , 和去年同期相比增长7 2 8 ,同1 9 9 7 年l o 月第一次调查结果6 2 万 上网用户人数相比,现在的上网用户人数已是当初的7 4 倍。可以看 出用户增长速度是非常惊人的; ( 2 ) i n t e r n e t 服务器的增长:截止到2 0 0 2 年6 月3 0 日,我国w w w 站点数 为2 9 3 ,2 1 3 个,半年内增加1 6 ,1 1 3 个,增长率为5 8 ,和去年同 期相比增长2 0 8 。( 数据来源同上) ,可以看出服务器的增长速度也 是非常会的: ( 3 ) i n t e r n e t 内容的增长:一方面,随着i n t e r n e t 的发展,越来越多的内 容迁移到w e b 上进行发布,另一方面,随着时间的推移,w e b 上积 累的历史内容也越来越多; ( 4 ) 媒体类型的增长:随着技术的发展和带宽的增长,w e b 上的媒体类 型也越来越丰富,已从最早期的单一的文本类型发展到文本、图形、 第l 页 国防科学技术大学研究生院学位论文 图标、图表、动画、f l a s h 、音频、视频等多种媒体共存,一些媒体 类型还存在不同的媒体格式。如早期的b b s 、m u d 游戏等都是纯文 本格式,而现在已发展出图形b b s 和图形m u d ; ( 5 ) i n t e r n e t 带宽的增长:截止到2 0 0 2 年6 月3 0 日,我国国际出口带宽 的总容量为1 0 ,5 7 6 5 m ,半年增加了2 ,9 7 9 m ,增长率为3 9 2 ,和 去年同期相比增长2 2 5 倍,是1 9 9 7 年1 0 月第一次调查结果2 5 4 0 8 m 的4 1 6 倍( 数据来源同上) 。可见,我国国际出口带宽的增长是相当 迅速的。与此相对应的是骨干网的带宽也在飞速增长,且增长速度 高于出口带宽的增长,目前一些主要城市的骨干网带宽都己突破或 达到4 0 g b p s 。此外,用户的i n t e r n e t 接入带宽也在增长,几年前, 绝大多数的用户使用5 6 km o d e m 上网,而如今,越来越多的用户使 用a d s l 或局域网接入技术来上网; ( 6 ) i n t e r n e t 重要性的增长:随着i n t e r n e t 技术的成熟和广泛普及,尤其 是网络安全技术的发展,一些更为重要的应用( 相对于简单的网络 信息发布应用) ,如电子商务、网络银行、电子政务等,也逐渐转移 到i n t e m e t 平台中运行,这些应用对服务质量的要求相比简单的信息 发布网站要高得多。 这些增长的每一个方面都对w e b 服务质量提出了更高的要求: ( 1 ) 用户的增长:显然随着用户的增长,若w e b 的服务质量不相应 增长,则每个用户获得的服务质量会下降; ( 2 ) i n t e m e t 服务器的增长:随着服务器的增长,服务器之间的服务 质量竞争更为激烈。人们通常将现在这个时代称为是“注意力经 济”、“眼球经济”时代,要吸引更多的“眼球”,必须提供高于 竞争对手的服务质量,落后者必然被无情的抛弃,因为随着服务 器的增长,用户的选择余地越来越大,对网站的忠诚度也越来越 低: ( 3 ) i n t e r n e t 内容的增长:内容的增长同样意味着用户选择范围的增 加,服务质量必须能与内容的增长同步,否则会导致服务质量的 下降。如随着内容的增长,单位时间内从服务器磁盘中读取的内 容会相应增加,若不提高磁盘的读取速度,就会降低服务质量; 此外内容的增加也会导致原有的一些改善服务的技术效果降低, 如c a c h e 技术可以通过缓存部分经常访问的内容来提高服务质 量,而随着内容的增长,若c a c h e 空间不相应增长,c a c h e 的命 中率就会降低,从而影响c a c h e 的服务效果和性能; ( 4 ) 媒体类型的增长:单纯的文本信息对带宽的要求较低,而多媒体 信息通常意味着较大的数据量,如m p e g 一1 格式的视频,每秒 钟的数据量就高达l5 m b ,数据量的增长无疑会对服务质量构成 压力,此外,多媒体信息通常具有实时性,要求更高的q o s 保 证: 第2 页 国防科学技术大学研究生院学位论文 ( 5 ) i n t e r n e t 带宽的增长:表面上看,带宽的增长会提高服务质量, 而实际情况是带宽的增长永远落后于质量要求的增长,因为更高 的带宽会刺激更高质量要求的应用普及,反过来更迸一步增加对 服务质量的要求。如带宽较窄时,人们通常不会在网络上观看视 频节目,而随着带宽的增长,这种高质量要求的应用越来越普及, 反过来提高了对服务质量的要求; ( 6 ) i n t e r n e t 重要性的增长:越是重要的应用对质量的要求越高,如 网上银行,若服务质量无法保证,将无法吸引客户。 根据上面的分析,我们可以得出个显然的结论,w e b 服务质量的要求越 来越高,因而迫切需要研究能提高w e b 服务质量的各种技术。 1 1 2w e b 服务质量 影响w e b 性能的主要有三个因素: ( 1 ) 运行w e bb r o w s e r 并发出请求来访问w e b 数据的最终用户; ( 2 ) 网络的性能: ( 3 ) w e bs e r v e r 的性能。 我们的研究集中于w e bs e r v e r 的性能及其性能测试的研究,而较少考虑用 户和网络的性能。 w e b 服务器的服务质量通常用以下一些指标来表示: ( 1 ) 响应延迟:s e r v e r 识别与响应一个h t t p 请求所消耗的时间;在所 有指标中用户对响应延迟是最为敏感的,因为该指标对用户是可感 知的、可比较的; ( 2 ) 连接处理能力:s e r v e r 单位时间内可以处理的最大连接数; ( 3 ) 服务器吞吐率:服务器单位时间内接收和发送的数据的总和; ( 4 ) 单位时间内服务器完成服务的定长的h t t p 请求数目: ( 5 ) 对多处理机的支持能力( 在多处理机上的性能) ; ( 6 ) q o s 保证能力:服务器必须能区分不同的服务类型,对不同的服务 类型提供不同的质量保证。 1 1 3w e b 服务模型 为了满足用户这种不断增长的服务质量要求,为i n t e r n e t 用户提供尽可能好 的服务质量,必须对i n t e r n e t 服务过程及该过程中涉及的各种系统资源有深刻 的理解。我们将w w w 服务模型及其涉及的各种资源用图11 来表示。 用户可以直接连接到i n t e r n e t 上,也可能通过各种代理服务器连接到i n t e r n e t 上,在i n t e r n e t 中,可能存在着各种c a c h e 服务器,能缓存那些经常被访问的 内容;在w e b 服务器端也可能存在代理服务器,该代理服务器对多个w e b 服 务器进行任务调度和缓存服务,在w e b 服务器的后端也可能会有各种应用服 第3 页 国防科学技术大学研究生院学位论文 务器,在w e b 服务器的引导下对用户提供基于w e b 的服务。以上模型中的各 种资源都可能对w e b 的服务质量构成影响。 图11 :i n t e r a c t 结构示意图 1 1 4 提高w e b 服务质量的途径 l 应用l e v 型 卜务器卜广 。一i 应用i 服务器r i i 上一节中我们分析了i n t e r n e t 的结构和w e b 服务的过程,实际上提高w e b 服务质量必须从以上结构和过程着手,对每种资源和服务的每个环节进行深入 的理解,在此基础上才能进一步提高w e b 的服务质量。提高w e b 服务质量的 途径包括以下几类: ( i ) 多服务器并行:采用分布并行结构,用多个服务器并行地为用户提供服 务,可以提高服务器的服务容量,降低每个服务器的服务质量要求,对 用户而言,服务质量可以得到改善; ( 2 ) 提高硬件系统性能:通过使用更高配置的硬件系统来获取更高的服务性 能; ( 3 ) 改善协议及软件性能:i n t e r a c t 基于t c p i p 协议,w e b 服务基于h t t p 协议,这些协议的性能都有进一步改善和提高的余地;w e b 服务器软件 的性能也可以进一步提高; ( 4 ) 改进c a c h e 策略,提高c a c h e 命中率,c a c h e 中缓存的数据能有效缩短 信息的访问路径,减少对服务器的访问,从而降低网络上的总数据流量, 进而提高总的服务性能。 由于i n t e m e t 是一个由众多资源构成的一个大系统,因而要提高w e b 的服 务质量,必须统一规划i n t e r n e t 系统中的各种资源,简单地提高某一方面的性 能当然可能改善服务性能,但如果系统中存在其它的服务瓶颈,则单独提高某 一方面的性能可能事倍功半。 i n t e r n e t 服务提供者( i s p ) 对其提供i n t e m e t 服务的环境( 服务器、内容、 接入带宽等) 进行合适的规划对提高w e b 的服务质量是非常重要的。这种合 适的网络环境规划至少包括两个方面的内容: 第4 页 圉 国防科学技术大学研究生院学位论文 ( 1 ) 服务环境中用到的各种资源必须保持平衡,不致出现服务瓶颈,当 服务瓶颈出现时,必须能及时、准确地识别和定位; ( 2 ) i s p 的服务环境所能提供的服务必须与目标用户群的需求保持一定 的平衡; , 1 1 5w e b 服务质量与w e b 性能评测的关系 对w e b 的服务质量进行评测对提高w e b 的服务质量是非常重要的,这种 重要性贯穿于提高w e b 服务质量的各个环节中,表现在以下几个方面: ( 1 ) 提高前:对当前w e b 服务质量进行评测,可以了解w e b 系统当前 存在的性能瓶颈,提出针对性的改善方案,如评测中发现服务瓶颈 在于服务器的磁盘速度不够,则可以通过使用更高性能的盘阵列或 多盘阵并行工作来改善服务性能。这样才能使得改善服务性能的措 施具有针对性,而不是盲目进行; ( 2 ) 提高中:当确定系统的性能瓶颈后,潜在的解决方案可能会不止一 种,通过对不同方案下的性能进行评测,可以确定不同方案的优劣, 从而筛选出最适合的方案; ( 3 ) 提高后:当消除系统中的当前服务瓶颈后,进行性能评测可以了解 系统重新配置后各种资源间是否实现了均衡,是否出现新的服务瓶 颈。 从上面的分析中,我们可以看到,对w e b 性能进行评测对改善w e b 服务 质量具有重要的参考和指导价值。因而我们必须研究w e b 性能评测技术,使 评测结果更高效、精确,从而为改善w e b 服务质量提供更好的指导,这也就 是本文研究w e b 性能评测技术的意义所在。 1 2w e b 服务的性能评测 本节中,我们在基本评测模型的基础上讨论w e b 性能评测中需要研究的技 术和研究内容,并介绍当前w e b 性能评测技术的发展现状。 1 2 1 基本评测模型 在基本评测模型中,一台或多台评测客户端通过网络连接到待测的w e b 服 务器上,每台评测客户端中运行一个负载产生器程序( w o r k l o a dg e n e r a t e r 一一 w g ) ,w g 产生一定强度的请求流( 负载) ,这些请求被施加到w e b 服务器端, w e b 服务器对这些请求进行处理,并将处理结果返回给评测客户端,评测客户 端通过分析在特定负载情况下的响应结果,即可获得服务器端的性能特征。 国防科学技术大学研究生院学位论文 i b mc o m p a t i b l e 图1 , 2 :基本评测模型 1 2 2 需要研究的技术和内容 分析上节中给出的基本评测模型,我们可以看到,实际上w 如性能评、钡4 的 重点在于负载产生器及其产生的负载流。在图1 2 中我们使用了个术语: t y p i c a lw o r k l o a d ( 典型负载) ,在实际的w e b 服务环境中,一个w e b 服务器可 能同时为成千上万个用户提供服务,这成千上万个用户的请求及响应负载可能 具有某种特征,若评测客户端的负载产生器产生的负载能具有同样的负载特 征,则我们称这样的负载为典型负载。典型负载具有何种特征及如何产生具有 此特征的负载即是w e b 性能评测中要重点研究的技术和内容。包括以下几个 方面: ( 1 ) 是否存在典型负载,或者说w 曲服务器所面对的负载流是否具有某种 可以确定和可以描述的特征。解决这个问题通常有两种途径:( a ) 进行 大量的统计分析,通过收集大量的用户请求流数据,对数据进行分析。 在进行数据分析时,通常会使用数据挖掘技术来协助发现这些数据中表 现出的规律性,从而确定负载的特征并加以描述;( b ) 通过数学模型的 方法,结合统计数据,对用户的访问行为建模,并确定模型中的重要参 数,以此来建立负载的特征模型。还有一种方法是干脆回避负载的特征 问题,而直接使用w e b 使用环境中收集到的部分数据作为典型负载。 如收集某w e b 服务器1 0 天内的所有请求,并以之作为评测用的典型负 载,通过重现这些请求来对w e b 服务器进行评测: ( 2 ) 典型负载特征的描述和精确化:当确认典型负载存在后,必须对典型负 载进行模型化的描述和量化,以便于重构典型负载,这涉及到两个问题: 1 是否可以用一个模型来描述所有用户产生的请求,还是使用多个模 型来描述不同的用户群的请求特征,最终通过多个模型的复合来体 现成千上万用户的行为; 2 模型特征的描述,研究者们通常将用户的请求行为描述为一个开关 第6 页 国防科学技术大学研究生院学位论文 模型,并对开关模型中的各种变量进行分析和描述,目前对典型负 载特征的描述至少涉及以下部分: 请求的时间分布模型; 请求文档的大小分布模型; 文档被请求的频率模型。 各种分布模型的精确描述及是否需要其它的模型参数仍是w e b 性 能评测领域中的重要研究内容; ( 3 ) 如何产生具有典型负载特征的负载:当确定负载特征后,要做的就是产 生符合这种特征的负载。这方面的困难在于产生的负载可能必须同时满 足多种分布模型,这些分布模型间的匹配存在一定难度。 1 2 3 研究现状 本节我们从测试工具和测试模型两个方面介绍w e b 测试的研究现状。 1 2 3 1 测试工具 目前已有些w e bs e r v e r 的评测工具: s p e c w e b 9 6 s p e c w e b 9 9 w e b b e n c h w e b s t o n e s p e c w e b 、w e b b e n c h 和w e bs t o n e 对大量站点的请求和应答数据进行了分 析,建立了自己的负载模型,这些模型已得到n e t s c a p e 和s p y g l a s s 等大型网 站的测试和反馈。 w e b s t o n e 支持任意运行h t t p l 1 的服务器软硬件平台,可以同时使用超过 1 0 0 个测试客户端进行测试。该工具最早由s g i 公司研发,用作s g i 服务器的 内部测试,后交给独立的测试实验室m i n d c r a f t 运作。w e b s t o n e 测量原始吞吐 率( 混合标准的h t t p 请求和应答) 以建立一个通用的s e r v e r 负载模型,可以 统计响应延迟、吞吐率、单位时间内的连接数、单位时间内处理的请求和应答 的数目。 w e b s t o n e是一个开放源码的测试工具 ( b ! ! p ;z z 塑! :坐i ! 虫盟主:g ! 堡要旦b ! ! ! ! ) ,尽管该工具较为简单,但由于其 源码可以公开获得,因而成为诸多研究机构进行w e b 测试研究的基础。关于 w e b s t o n e 在下一章中我们将详细介绍其结构和原理,w e b s t o n e 也是本文中研 发自己的测试工具的基础。 s p e c w e b 9 9 或许是目前应用最为广泛的w e bb e n c h m a r k 测试工具,该工具 支持静态页面和动态页面的测试,它主要由一个负载产生器构成,该负载产生 器能配置一定数量的测试用户,可以测试w e bs e r v e r 的最大并发连接数,支 持h t t p l 0 和h t t p l 1 ,可以在l i n u x ,w i n d o w sn t 2 0 0 0 和u n i x 操作系统上 运行,一些常用w e b 服务器软件和w e bs e r v e r 硬件平台的测试结果可以在 第7 页 国防科学技术大学研究生院学位论文 s p e c w e b 9 9 的网站上h t t p :w w w s p e c o r g o s g w e b 9 9 获得。 w e b b e n c h 由z d 实验室研发,支持s s l 2 0 3 0 ,支持安全模式下的服务器 性能测试。w e b b e n c h 测试服务器的并发连接数和吞吐率,支持静态页面测试和 动态页面测试,w e b g e n c h 的最大优点是允许用户定义自己的测试数据集合,因 而用户可以定制测试集合,以满足其特殊的测试要求。w e b b e n c h 可以测试 w i n d o w sn t 2 0 0 0 ,n e t w a r e ,l i n u x ,m a c i n t o s h 以及u n i x 的w e bs e r v e r s 。 w e b b e n c h 的缺点在于大部分的数据从服务器日志中读取,测试的可靠性受到怀 疑。 1 2 3 2 测试模型 以上给出的三种测试工具中使用的测试模型都相对较为简单,在本文后面 的章节中有详细分析。建立更为精确、更具代表性的负载模型一直是w e b 测试 领域中的主要目标,也是本文所要着重研究的。 i b m 公司在测试模型方面的研究非常深入,该公司是1 9 9 6 年亚特兰大夏季 奥运会和1 9 9 8 年盐湖城冬季奥运会的主赞助商,并且负责经营这两届奥运会 的w e b 网站,这两个网站全部采用该公司自己的软件和硬件平台,这种所有资 源的独享性为i b m 收集大量的w e b 服务器访问数据提供了极大的便利,i b m 公 司将这两届奥运会的所有用户访问数据都完整地保留下来,进行了长达四年之 久的详细分析,i b m 公司宣称分析结果对指导其设计自己的w e b 服务软件、测 试软件及优化自己的w e b 服务硬件平台具有非常重要的指导价值,但分析结果 较少公开发表。 由于无法象i b m 公司那样获取大量的用户访问数据,并实际经营一个大型 的服务网站,其它的研究者们在获取分析用的原始数据时多少存在一些困难, 因为无论是从客户端还是从服务器端获取访问记录信息,都或多或少的涉及到 用户隐私权的问题。这种“先天”上的缺陷制约了大多数的研究者,因而也催 生了w e b 测试领域中的一个重要分支:如何获取大量的访问数据并进行分析。 这方面有大量的研究,数据获取方式大致分为两类:从服务器日志中获取,从 客户端获取,在第三章中我们对此有详细的分析。 在获得大量数据并进行各种分析的基础上,已经提出了各种测试模型,如 m g 1 p s 模型,s u r g e 模型,b i s t a n t e 模型等。我们认为各种模型可以以s u r g e 模型的提出为分水岭,此前的模型在s u r g e 模型提出后几乎不再被人们使用, 甚至不再被研究者们提及,而此后的模型则大都基于s u r g e 模型进行改进,优 化s u r g e 模型中的各种参数分布模型,使其更精确、更接近使用环境中的分布, 或根据使用环境的变化对s u r g e 模型进行改进。由于s u r g e 模型在w e b 测试领 域中的重要地位,在此我们不作详细介绍,在第四章中,我们将详细介绍该模 型及其变形,对其它模型我们则不作详细讨论。s u r g e 模型也是本文中提出的 开放的w e b 测试模型的重要基础。 第8 页 国防科学技术大学研究生院学位论文 1 3 本文的目标、内容及结构 本节介绍我们在w e b 测试领域中所作的一些工作,及我们要达到的目标 本节还介绍了本文的主要内容和组织结构 1 3 1 本文的目标 本文的目标包括以下几个方面: ( 1 ) 理解w e bb e n c h m a r k 测试的基本原理,对常用的w e bb e n c h m a r k 测 试工具进行分析,了解这些工具的原理,分析其机制,对其优点和可能的缺点 进行分析,并探讨可能的优化策略: ( 2 ) w e bb e n c h m a r k 中的个重要任务就是收集大量的数据,使用这些数 据来分析用户访问w e b 服务过程中表现出的各种行为特征,为建立用户行为 模型奠定基础。收集数据本身存在一定的困难,主要是需要得到用户和网站经 营者的许可,避免侵犯用户隐私权,而收集大量的数据存在的困难更多,如如 何组织大量的、数据格式各异的用户访问记录信息,以方便对数据进行自动分 析。本文的目标之一就是建立一种用户访问数据收集和整理机制,能较为容易 地获取大量的用户访问信息,并对其按一种规格化的方式进行组织; ( 3 ) 理解目前广泛使用的用户行为模型,理解模型的生成原理,理解模 型中各种参数的含义及参数模型的意义,为进一步对模型进行优化和改进打下 基础; ( 4 ) 在以上技术基础上,提出自己的用户行为模型,建立自己的负载产 生器模型,在负载产生器模型的基础上,设计w e b 服务的测试工具。 本文后面的章节将紧紧围绕以上目标展开。 1 3 2 本文的内容及结构 本文的主要内容及结构如图13 所示。 在本文的第一章,也就是绪论中,我们分析了对w e b 测试技术进行研究的 必要性和重要意义。随着技术的发展,用户对w e b 服务的质量要求越来越高, 而要提高w e b 服务质量,对w e b 服务质量进行评测是非常重要的。我们分析 了基本的w e b 测试模型,对模型中涉及的主要技术进行了简单分析和介绍。 我们简要介绍了w e b 测试技术的研究和应用现状,并提出了本文的工作目标。 在本文的第二章中,我们以目前被研究者们广泛采用的w e b 测试工具 w e b s t o n e 为例,详细介绍了目前已投入使用的w e b 测试工具的原理和机制, 分析了它们的优点和缺点。为了获取对w e b 测试过程和原理的感性认为,我 们使用w e b s t o n e 对个试验性的网站进行了简单的测试,获得了一些测试结 果,这些测试结果未必准确或正确,但可以加深我们对w e b 测试过程和原理 第9 页 国防科学技术大学研究生阮学位论文 的理解,为进一步的研究工作打下基础。 w e b 服务测试的重点是设计负载产生器,对负载产生器好坏的评价是看其 产生的负载是否与实际环境中检测到的w e b 负载特征相吻合,在第三章中, 我们提出了判断w e b 负载产生器好坏的用户等价性原则。为获得具有高度用 户等价性的负载生成器,必须研究实际环境中的w e b 负载所表现出的特征, 这样才谈得上建立与其等价的负载产生器,为此必须收集大量的用户访问w e b 的数据信息以供研究,我们探讨了收集大量用户访问数据的潜在途径和各自面 临的困难。收集到的数据并不能直接进行分析,而是需要进行一定的处理和整 理工作,我们分析了数据整理工作中要解决的问题,要达到的目标。在此基础 上,我们设计了一个基于客户端的数据收集模型,该模型基于开放源码的浏览 器一m o s a i c 一进行数据收集,我们对收集到的数据进行了一定的整理,特别是 给出了种有效的数据组织策略,该策略能有效地组织获取的数据,方便后续 的处理工作。限于条件的限制,我们没能进行真正意义上的大规模数据收集, 但该模型及其数据组织策略仍对数据采集和数据分析工作具有一定的意义。 图1 3 :本文的主要内容和组织结构 目前已经存在一些较为成熟的w e b 用户使用模型,其中s u r g e 模型是目 前公认为最成功的模型。在第四章,我们对s u r g e 模型进行了详细的分析和 介绍,并介绍了该模型的两个变形b i s a n t e 模型和a r i m a 模型。在s u r g e 模型的基础上,我们认为仅使用一个模型来模拟i n t e m e t 上数以亿万计的用户 第l o 页 国防科学技术大学研究生院学位论文 的特征是不现实的,为此我们在s u r g e 模型的基础上,提出了一种扩展模型 e - -

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论