(计算机科学与技术专业论文)it系统性能监控与优化分析.pdf_第1页
(计算机科学与技术专业论文)it系统性能监控与优化分析.pdf_第2页
(计算机科学与技术专业论文)it系统性能监控与优化分析.pdf_第3页
(计算机科学与技术专业论文)it系统性能监控与优化分析.pdf_第4页
(计算机科学与技术专业论文)it系统性能监控与优化分析.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机科学与技术专业论文)it系统性能监控与优化分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电人学r r 系统性能监控与优化分析 i t 系统性能监控与优化分析 摘要 由于现代企业的闩常业务运转越来越离不开i t 系统的支持,所以i t 系统的 良好性能已经成为每个公司关注的问题。 各种i t 基础架构的性能是整个i t 系统性能的基础,为保证其性能,产生了 各种监控软件。但是由于现有监控软件中对于参数的平面化展示,而无法结合参 数间关系,造成了监控软件性能无法完全发挥,对反映出来的组件性能问题无法 准确、及时定位。 本文从操作系统、数据库的角度分别对其中的参数进行了分析,梳理参数白j 关系,最后以分析流程图、二维表的形式体现出来,通过监控软件现有的事件关 联工具弥补了上述缺点。从而充分发挥监控软件性能、提高i t 系统可靠性,并 且能够在最短时间内得到相应优化措施。 本文最后还会以实际e i p 系统为例,提出一套垂直的监控方案,包括系统需 要重点监控的参数、这些参数的报警门限设置建议以及系统的健壮性评判标准。 关键字:事件关联性能操作系统数据库e i p 堂苎室些皇盔兰 坚墨竺丝丝堕篓皇垡些坌堑一 p e r f o r m a n c em o n i t o r i n g a n do p l i m i z i n gi ni t s y s t e m s l t ,s m o r c 趾d m o r e i m 脚t f o fr r s y s t e m s t o k 唧t h e i r h 碘q u a l “y b e c a u s e o t t h ei n c r e a s i n gb u s i n e s ss y s t e m s d e p c n d e n c c o nt h e m n eq u a l i t y0 fr ri n 觚t m d u r c si s f o u n 血t i o no fr rs y s t e m s f o rt h ep u r p o s c o l k 唧i n ga9 0 0 dp e m 彻柚c c ,m i t o r i n g 腑a r e sm u s c d b u td l s p l a y l n g t t l e p a 舢e t c 墙i nap l a i nw a yd e s p i t et h e i rr c l a t i o n sm a k ei td i 伍c u l tt o f i n dt h ec x a c t p r o b i c h t i m c 抽t h cp a p c r ,o p e r a t i n gs y s t 锄s 、d a t a b a s 鹤w i l lb cd i s c i i s s c dt of i n dt h er c l a t l o m b e m c e nt h e i fd a r 锄e t e r s 肺e nt h e r c l a t i 帆sc o u l db eu s c di nm o n l t o n n g s o f t w 嬲 t om a k cu dt h ed c f a u l t s ow e u l du t h em o n i t o rs o 仃w a 佗如i i yb yl m p l e m t l n g c v e n tc o f r e i a t i o n r v i c e st oi m p m v et h cq l i t yo fr ri n f r a s t c n 玎螂孤dc o m cu p w 弛t h cr i 出m e t h o d s t o t u n e t h e p e 加姗柚阮 a tl 舔t ,ap l 孤w i l lb cp m p o s c di n c l u d i n gi m p o r t 锄tp a 彻e t e 璐、p a r 帅e t c r v a l u e s 砒w h i c ha l a 衄sw m b cl i n c h c d 董叫锄a c t u a ie i ps y s t e m k e yw o r d s : e v e n tc o m l a t i p e 向咖锄c c0 p e m t i n gs y s t c m d a t 出嫩 e i p 北京邮电人学 盯系统性能监掩与优化分析 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:互杰日期:2 翌z 主:至立 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 非保密论文注释:本学位论文不属于保密范围,适用本授权书。 导师签名: 日期:竺三! ,塑 北京邮电大学r r 系统性能监控t j 优化分析 1 1 序言 第一章绪论 随着公司业务与i t 系统的不断融合,业务的正常运转越来越依赖于i t 系统 的稳定、高效。i t 基础平台的状况,直接影响到上层应用的发展。好的i t 机 构可以帮助其他部门节省运营开支,而且i t 部门本身也正在成为公司利润的增 长点。所以对于i t 系统的管理是越来越重要了。 对r r 系统管理中,基础设施管理方面是最基础的。为了保证上层的稳定有 效必须保证基础设施的健壮性,在网络管理向服务管理过渡的情况下,更是需要 一个健壮的基础设施系统作为支撑的。除了在设计建设阶段要尽可能的实现这一 目标,在基础设施运行的时候也要能及时发现系统显现的或者潜在的故障,所以 应运而生了多种管理监控软件。 1 2 监控现状 i t 基础设旋是出于业务运转的要求能被共享的软硬件的集合,包括服务器、 存储设备、软件、网络架构和服务等。 在出现专门的监控软件之前,i t 基础设施的管理是“各自为战”的方式, 也就是在每个设备上运行相应的命令等来获取自身的一些参数,从而判断设备运 行情况,这是以一种完全被动的方式等待管理人员人工得到零散的数据,需要大 量人工操作;后来结合网络技术,出现了设备和监控点的分离,使得可以在一台 设备上进行多个远程设备的监控管理;为了能自动地实现监控的功能就逐渐出现 了专门的监控软件,这些软件均采用了管理站一代理的模式。其中代理实现的正 是监控软件最首要、最基本的功能从监控范围内的软硬件处采集所需要的数 据,这些数据通过网络集中到管理站然后再进行一系列的后续处理工作。对数据 的采集实现的手段大致包括采用s n m p 协议、运行已有的命令、编制本设备支持 的专用协议或者脚本。采集到的数据可以大致分为静态信息、动态信息、统计信 息。在日常的监控管理中动态信息和统计信息是最为关注的部分。 由于数据数量的庞大,以及无法保证7 丰2 4 或者5 榴都有监控人员实时关注 这些数据,所以在监控软件中出现了门限告警的功能。一般会对监控的参数设定 某一个具体数值作为门限告警值。当被监控参数的实际数值和此门限告警值满足 某一关系的情况下,监控软件会在晃面上标注此出现告警情况的参数,还可能进 誊北京邮电人学i t 系统件能监控j 优化分析 一步采用短信、邮件、电话等手段进行提醒。 在监控软件r 常运行过程中,还有诸多方面影响着其有效实施,其中最主要 的一点就是监控参数的平面化。 即使统计信息是从原始的信息中衍生出 来的,在目前的监控软件中,统计信息也只是 经过了简单的加工( 例如:取平均值、简单加 减等) ,并不能反映各个数据之间的联系。如 果想解决实际问题,还是要对大量的数据进行 进一步的分析。其分析过程就要结合相应系统 的具体运行过程,也就是要将各种参数反映的 问题最终归结为真正问题的所在的过程。 在软件界面上,所有的参数都被平面化地 展现出来,在参数问题的反映上也是平面化 的。( 如图1 1 所示) 这会在两个方面造成问题:首先,由于参 数的数量众多,监控软件中会对其进行简单的 分类列举,但是往往某个参数反映的问题的产 生可能是别的“类别”的问题引起的,此时简 单的分类列举就成为分析问题的障碍。其次, 由于在实际中参数之间是存在着各种联系的, 往往多个参数的同时报警是因为某个单纯的故 朗。肛w 3 l - 3 1 8 1 邑硎! 笋v c 3 2 - 3 坩i 舞疃 h n t _ “e m e n t 蟹习帅t 船d 叫i 舯 :圆舶职s i s c o v e 盯 , 嗡c f g h n 舵l :lbc f g j o h i - t “h 毫翱唧皓 三d i 疆 茁国耻s i 册 霸死咖醢 _ 蠡二 甜” 强l ,c o t i 珊。舔 象 璺c o _ p o s i t 巧o u z c t 吐 篮圆c r v 蕊霎囊堰舡删盯 q 姗 意西珏吼 l 翻l o g 攒翻愀 誊葛盯s 虎! ,p t 硼姗 震l ,p b 0 c 笛s 麓圆跖地d 眦r 图1 1 现有监控软件界面 障,但是因为没有对参数进行进一步的处理,在界面上反映出的情况就是多个参 数的告警现象,成为问题原因判断的障碍。 1 3 研究意义 目前监控软件所存在的不足,会增加监控人员判断故障原因的难度。不论是 单纯从基础设施维护层面还是从更高的i t 服务管理层面来看,繁杂的判断过程 无疑降低了整个i t 的效率。所以必须对这些参数进行联合分析,使监控人员能 够快速的定位故障并排除,尽快恢复i t 服务,提高i t 系统的可用性、降低人力 成本。 针对这种不足,多种监控软件中已经提供了附加的实施关联性分析的工具, 但是具体的分析过程目前还没有成形的固定过程,对于关联分析的定义还是需要 监控人员结合经验进行人工定义,这包括多个方面:参数间联合报警的关联关系、 触发报警的条件( 次数以及数值) 。 赫勰帖帅服艟删邛啦 固。国固 鳓村姑毒 北京邮电大学r r 系统性能监控与优化分析 所以有必要通过对监控软件这方面的不足加以弥补,从而通过监控软件这一 手段达到提高i t 系统性能的目的。 1 4 本文研究内容 本文中,将会对常见的操作系统、数据库的监控参数自j 的关系进行梳理,通 过其运行机制的研究将可能的联合报警情况归结为某种单一的根本原因,达到之 前提出的简化问题判断过程的目的。 还将根据具体的e i p 系统,针对这些i t 基础架构的组成部分提出适用于本 e i p 系统的重要参数以及其合理的建议报警门限值;并为从服务的角度衡量这些 组成部分的性能,提出健壮性参数以及评判标准。 北京邮i u 大学i t 系统忡能监控j 优化分析 第二章操作系统性能监控与分析 2 1u n i 操作系统性能监控分析 2 1 1c p u 性能分析 c p u 的性能是决定本系统整体性能的一个关键方面。在对c u p 的监控中,着 眼点是在能代表c p u 服务水平的一些参数。 从c p u 的角度来说,c p u 运行状态有:用户使用c p u 情况、系统使用c p u 情 况( 内存管理一p a g i n ga n ds w a p p i n g 、进程管理一c o n t e x ts w i t c ha n dp r o c e s s s t a r t 、i 0 管理一中断和驱动、系统调用) 、w 1 0 以及c p u 空闲时间。 从运行在c p u 上的迸程角度讲,进程也不是随时占用c p u ,而是根据优先级 以及所需资源的情况而分为以下状念:运行、就绪、等待( 睡眠) 、僵、停止等 2 1 1 1 具体参数 1 c p u 空闲时| 日j :这是直接反映c p u 忙闲程度的数据。需要注意的是c p u 等待相关操作完成的时间不算空闲时白j 。 2 w 1 0 :c p u 用来等待i o 操作的时间,这包括b l o c ki o 、r 删i 0 、 p a g i n g s w a p p i n g ,也就是主要涉及内存、磁盘、外设系统。 3 各种队列: 1 ) 就绪队列长度:是指在某个时间在操作系统的就绪队列中排队等待的 进程数量。在对这个参数的横向监控的时候,应该关注的是持续的高数据的情况。 2 ) 交换队列长度:交换队列描述的是当内存紧张的时候要被交换出去的 进程。大量的交换说明内存紧张并且能影响c p u 的性能。 4 进程运行状态的时间:系统存在两种状态,核心态( 系统态) 和用户态。 1 ) 核心态时间:是系统运行在核心态下的时间。在这种环境下为用户提供 各种底层服务一系统资源的管理( 包括进程调度、内存和磁盘的分配,主存和 外部设备之间数据的传递并且受理进程所需要的服务) 。 2 ) 用户态时间:这个参数说明了用户态进程对c p u 的使用情况。 5 进程增长数量:( 具体解释见2 1 5 1 ) 6 c o n t e x t 交换次数:这是一个与进程管理有关的参数。上下文交换过程消 耗大量的系统资源。进程的运行状态的转换和上下文交换并没有必然的联系。 7 软件中断、硬件中断、系统调用:作为系统的底层服务提供方式,一般运 行在核心态。出于其他部分的需要,对于o p e n 、c r e a t e 和s t a t 引起的系统调用 北京邮电大学 r r 系统性能监控l 一优化分析 的数量需要单独作为一个参数进行监控。 2 1 1 2 分析流程图 当出现性能下降或者相关报警的时候,需要通过现有可得的参数值对表现出 来的问题进行分析并最终找到问题的根源。分析过程可以用图2 一卜1 表示: 远 程 文 件 访 问 问 题 系统响应慢 ! 刘等待远程l o 时间长 n 0 划面列长1就箱队则长 总进程数增长量丈 短时间现象 核心态时间比率大 查看使用c p u 最多 的若干进程信息,特 别是是否存在实时 进程,长时间出现这 种情况就要考虑提 高c p u 的性能 空闲时间少 y h w l o 高降 y e s l 运行队列被占用 l 时间长 y e s 建立过多新进程 y h 总进程数增长量大 上下文交换多 n o 内存换页多 中断、系统调川多 查看具体进程信 息,确定问题 自身或者某 个进程设置 造成的磁 盘、内存、 文件系统、 外设问题 兰三- j 查妻璺体进 l 程信息 y b 翌叫调辂相关引起 l 此服务的进程 圈2 一卜l u n i xc p u 问题分析流程 流程图说明: 从实际系统运行的角度来说,当发现系统性能下降就可以开始分析过程了。 从监控的参数角度来说,一般是从“c p u 空闲时间”这个参数开始的。 1 如果在系统响应速度慢而空闲时间多的时候,可能是由于为了建立新的 5 豢北京邮i u 人学i t 系统忖能监柠j 优化分析 进程而需要的资源不足,最主要的原因就是内存,所以这个时候要检查内存、磁 盘,文件系统等。 2 空闲时间少( 接近o ) 而且w 1 0 大( 一般地,在5 秒的监控时间段内,如 果数值大于7 就认为为大) ,那么往往是i o 问题,引起的原因可能是磁盘、内 存、外设的问题或者进程对其使用方式的问题,转到这些部分进行进一步的分析。 ( 一般系统中如果空闲时问持续低于3 0 ,说明迸程竞争的是c p u 而不是内存。) 3 空闲时阳j 少,w i o 小,下面考虑的是“等待远程i 0 时白j ”,由于这部分 时日j 不计入w 1 0 ,所以需要单独列出。对于没有实现远程i 0 的系统可以跳过此 步,直接进行5 。 4 如果空闲时自j 少,w 1 0 小( 一般以2 5 为判断标准) ,下一步分析的参数 是“就绪队列长度”。如果队列不长,查看“总进程数增长量”。如果短时间内建 立了大量新进程,那么正是因为建立消耗资源造成c p u 紧张。如果新建立的进程 不多,那么这段时间的c p u 紧张是因为执行已有少量进程造成的暂时现象。 5 如果运行队列被占用的时i 日j 比率达到了9 0 ,而且同时就绪队列长度超 过2 ,一般认为系统中c p u 的负载较重,造成负载重的原因需要进一步分析。分 析过程转入6 。如果就绪队列长度数值不高,那么此时只是短时的c p u 忙碌。 6 如果2 、5 中就“就绪队列长度”大,下一步要分析“核心态时间比率”, 如果核心态时间比率小,那么要调用相关工具查看运行的进程中哪些进程大量占 用时间,其中需要特别关注的是实时进程,因为这种进程优先级高、占用资源多, 很容易造成c p u 紧张。 7 如果3 中核心态时间比率大,也就是核心态时间多,进行进一步的分析: 1 ) 总进程增长量:数值大说明核心态时间更多的是消耗在建立新进程上。 2 ) 上下文交换次数:数值大说明核心核心态时间更多的是消耗在上下文 交换上。 3 ) 内存换页次数:当这个参数在c p u 紧张的情况下有大的数值,说明正 是换页操作造成了c p u 的紧张。这个时候需要转到内存分析中确定产生原因是因 为内存自身问题还是系统使用内存方式造成的问题。 4 ) 中断、系统调用次数:如果这个数值大,说明过多的系统时间花费在 中断、系统调用的处理上。其中系统调用主要有e x e c ( ) 、f o r k ( ) 、读和写。每 秒钟系统调用的数量持续大于3 0 0 ,往往是因为系统正在运行一个效率很低的应 用程序。在比较典型的情况下,进行读操作的系统调用加上进行写操作的系统调 用之和,约是整个系统调用的一半左右。具体引起中断、系统调用的进程要查看 详细进程信息来确定。 5 ) 当以上问题都排除之后,还需要经过对具体进程信息的最后确认。如 果确认所有进程都是稳定正常运行的,那么就要考虑是否是进程的设计问题。 謦北京邮电大学r r 系统性能监控与优化分析 当频繁出现空闲时间少的情况时( 长时间小于1 0 ) ,如果不是因为由于比 较集中的某几个具体原因引起的,那么应该考虑是否要提高c p u 的性能。 2 1 1 3 二维表 根据上面的分析流程,可以将将判断过程简化为以下的二维表: 响 e 鹬 ;荐 就总 螓旗 内 籍高分析结果 戍 5i 嗣 绪长进 存 h j 系 速 。 翳 队量释 交 度列增 换 内存问题( 可能由于内存少造成的 l 慢高 进程无法及时建立) 2 慢低低高远程i o 问题 3 低高磁盘、内存、i o 问题 4 低低低高忙于建立新进程 5 低低低低暂时忙碌 用户态进程问题,需要详细分析。 6 低低 高低需要注意几种i 咛埘系统资源多的进 程 7 低低 高高高 忙于建立新进程 8低低高低高高查看详细进程信息 9 低低高低高 低高 内存问题 查看详细进程信息,得到中断、调 1 0 低低高低高 低低高 用原阗 户态进程问题,需要详细分析。 l l高高低需要注意几种占用系统资源多的进 程 1 2 高高高高 忙丁建立新进程 1 3 高 高低高高卉看详细进样信息 1 4 高高低高 低高内存f u j 题 查看详细进程信息,得剑中断、调 1 5 高 高低高低低高 用原因 1 6 高 低暂时的c p u 忙碌 1 7其他情况需要查看详细进程信息确定问题,如果进程l e 常、稳定运行那么就是c p u 性能低 2 1 2 内存性能分析 表2 1 1u n i x c p u 问题分析表 内存监控中实际监控的部分是其中的高速缓存和剩余的可被自由分配、交换 的动态部分。由于高速缓存存在启用与否、是否允许动态调整等问题,所以动态 荸北京邮i 乜人学i t 系统性能临拌与优化分析 部分的大小要受到高速缓存动态使用时的影响( 如果缓存的大小固定的话,内存 监控会得到简化) 。 2 1 2 1 具体参数 1 关于内存各种空问的参数: 1 ) 内存的可用空问( 有效内存) :除去预留部分剩余的内存。 2 ) 内存的自由空白j :与空闲空间不同,自由空b j 是指当前即可被进程使 用的内存。如果可用内存的空闲空阳j 不足,会导致操作系统发生页面的交换。 3 ) 被锁定的内存数:内存锁定是一种保证某进程全部或者部分驻留在内 存而不需换页的方法。锁定的内存不参与正常的页面交换,对内存性能存在影响。 4 ) b u f f e rc a c h e 大小:如果b u f f e rc a c h e 是一个可以动态调整的空间, 随着进程的执行,其容量会发生变化。内存容量发生不足的时候,系统会先压缩 b u f f e rc a c h e 的大小。 5 ) 僵进程占用内存数量:( 具体解释见2 1 5 1 ) 2 页面错误( p a g ef a u l t ) 数量:当进程试图访问当前不在内存中的虚拟 地址空自j 的时候处理器无法找到引用的虚拟页对应的页表条目,这时发生p a g e f a u l t 。没有过多的越界访问,但是p a g ef a u l t 数持续大于1 0 0 ,可能预示着对 于页面系统来说,应用程序的效率不高、分页参数需要调整或者内存配置不合适。 3 与b u f f e rc 8 c h e 相关参数: b u f f e rc a e h e 的效率阀题是内存性能的一 个部分,如果b u f f e rc a c h e 的效率低下,势必造成内存和磁盘间大量的数据交 换。 1 ) 在b u f f e rc a c h e 中逻辑读块的命中率和向b u f f e rc a c h e 逻辑写块的 命中率。低的命中率会导致内存频繁读取磁盘数据。 2 ) 从物理磁盘读入的数量和向物理磁盘写出的数量:仅从外部观察到的 b u f f e rc a c h e 和磁盘的数据交换数量。当此数值大,原因有多种。 4 内存和磁盘问数据交换方面的参数:内存在发生了p a g ef a u l t 后,需要 和磁盘交换数据来满足数据需求。当需要换去的数据未曾改变,直接丢弃;如果 页面是脏页面,和磁盘的数据交换包括两个方面:与磁盘上原有位置间交换以及 与交换文件交换。实际上,内存不会等到所有空间都被消耗后才会发生交换,而 是使用v h a n d 和s w a p p e r 两个守护进程柬实现页面的及时交换。 1 ) p a g ei n 页面数量:由于页面的调度从磁盘读入内存的页面数量。由于 运行进程的时候,先是调入一部分页面面进入内存,其他部分仍然是要在运行的 时候动态调入。所以,即使内存有足够空间也会有p a g ei n 的发生。 2 ) p a g eo u t 页面数量:由于页面的调度从内存写回磁盘的页面数量。p a g e 8 北京邮电人学 r r 系统性能监控与优化分析 o u t 是发生在内存不足时的页面调出,所以相比较而言,p a g eo u t 更能反映内存 不足的发生。 3 ) s w a pi n 进程数量、s w a pi n 页面数量 4 ) s w a po u t 进程数量、s w a po u t 页面数量 5 ) 失效进程数量:过高的失效进程说明系统正在解决内存不足的问题, 但是是否因为暂时的内存不足导致整个内存的效率下降还要参考其他参数。 6 ) 交换队列长度:( 解释见2 1 1 1 ) 7 ) v h a n d 和s w a p p e r 占用c p u 的时间:如果这两个进程占用c p u 时间多, 无疑说明已经发生了内存不足。 8 ) 释放的页面的数量:在v h 柚d 和s w a p p c r 进程执行之后,释放到空闲链 表的页面数量。当内存越紧张的时候,释放的页面也会越多。 2 1 2 2 分析流程图 流程图说明: 1 当p a g ef a u l t 参数首先报警或者分析过程转入此处,查看是否存在大量的 硼a pi n o u t 或者p a g eo u t ,如果是,那么转到2 ) 继续分析。如果不是那么就 要看是否存在大量p a g ei n ,如果p a g ei n 不多,那么引起报警的大量p a g ef a u l t 是由于非法访问引起的。如果p a g ei n 多,那么就是系统正在为继续运行调入大 量的后续页面,这种情况是暂时的。 2 c a c h e 的命中率分为两种:读命中率、写命中率。对于c a c h e 的命中率高 低的判断标准一般情况下为:读命中率:9 0 ,写命中率:7 0 对于高的命中率, 分析过程转入5 ;对于低的命中率,查看是否存在大量进程的切换,因为过多的 进程切换可能引起内存内容的变化,如果存在过多的进程切换,那么c a c h e 命中 率的问题是由于系统进程调度引起的,不是内存问题;如果不是进程切换引起的, 那么分析过程转入3 。 3 这一步分析主要针对动态c a c h e 。当内存不足的时候,往往会先压缩c a c h e , 造成c a c h e 命中率的短时间下降等问题。 当分析进程进入3 ,需要查看b u f f e rc a c h e 大小。当此数值大,分析过程 转入5 ;如果数值不大,那么p a g e f a u l t 过多、换入换出多等报警就是因为b u f f e r c a c h e 过小,无法容纳足够内容造成的。所以如果c a c h e 是动态变化的时候需要 等待系统自动增加c a c h e 大小后观察是否还有问题。如果是固定大小的c a c h e , 则需要考虑是否调大c a c h e 的相关配置参数。 4 下列参数报警的时候分析过程都要转入5 。 当v h a n d 、s w a p p e r 进程运行时间长:如果s w a p p e r 和v h a n d 守护进程运行 旁北京邮电大学i t 系统性能临柠j 优化分析 时间长,最可能的情况是表明系统已经长时间在进行交换、页出工作,内存已经 紧张了。还需要查看内存空间这个参数进行确认。 幽2 一卜2u n i x 内存问题分析流程 失效进程多:当系统中空闲内存已经低于警戒值m i n f r e e ,由鲫a p p e r 选 择失效的进程数就会增多。如果失效进程数量长时间在告警值附近震荡,那么或 者是m i n f r e e 设定过低,或者是物理内存数量少,不能满足系统要求。 交换队列长:当有过多的进程需要交换出去的时候,也说明了内存空间的 紧张。 5 如果是内存空闲空间小引起了报警、分析过程是由4 直接转入的( 如图中 北京邮电大学r r 系统性能监控与优化分析 虚线所示) 、或者是由于c a c h e 命中率低引起的分析过程,下面需要分析p a g e f a u l t ,如果数值高,分析过程转入6 ;如果数值不高,分析过程转入6 。 如果是分析过程由3 转入5 ,当内存空闲空间小,那么分析过程继续转入6 ; 如果内存的空闲空间不小,并且确认系统内存碎片问题不严重那么以上问题不是 内存引起的。 6 除了因为操作系统正常使用内存造成内存紧张以外,内存泄漏、内存锁定以及僵进程 都可以造成内存的紧张。这一步中主要是对这二个数据进行分析。相对来说内存锁定和僵进 程是较常出现并容易判断的,有相应参数直接反映铍锁定内存数量或者被儡进程占_ i f j 内存数 量。但是内存泄漏往往是缓慢的,而且现在还没有直接的参数可以反映泄漏的内存数量,而 是通过某些工具软件进行,因此不推荐每次都进行内存泄漏的检查。当出现以上三种问题时, 解决相应问题即可。如果不存在那么就需要对使用内存的情况进行查看,以判断是否是进程 的运行引起的问题,如果是,那么需要选择性的结束某些进程。然后继续观察一段时间是否 还出现类似问题。如有需要,调整内存大小 2 1 2 3 二维表 警 鲁 两守失交内 i 詈 锁定内切 口 丁 护进效换存 o b 存数、换 己 命 程运进队空 叶 僵进程进 。 中 行时程列闲 罟 占用内 程 分析结果 暑 窒 = r 间数长空 o 存数或次 占 度间 用 者内存数 数 空 泄漏 1高 高高高 非内存问题 高高高高非内存问题 3 高低低高调入后续内容 4 高低低低非法访问 进程切换引起内存不 5 高高低 高 稳 诈内存问题( 除碎片问 6高高低高高低 题外) 锁定、泄漏或僵进程问 7 高高低低高高 低 题 部分进程占用大量内 8高高 低低 高低低 存或者内存小 9 高高低低 低c a c h e 小引起问题 1 0高高非内存问题 锁定、泄2 l i ;或僵进程问 1 1低高 低 高 题 1 2低 高低低部分进程占用大量内 等北京邮电人学 r r 系统性能临拄j 优化分析 存或者内存小 其他参数参照卜9 中的 1 3高 亮低 情况得剑相应结论 1 4高高1 f 内存问题 锁定、泄漏或伍进程问 1 5低高低高 题 部分进程占用大量内 1 6低 高低 低 存或者内存小 其他参数参照卜9 中的 1 7 高 高低 情况得到相应结论 1 8高高非内存问题 锁定、泄漏或儡进程问 1 9低高低高 题 部分进程占用大量内 2 0低高 低低 存或者内存小 其他参数参照卜9 中的 2 l 高 品低 情况得到相应结论 2 1 3 磁盘性能分析 表2 一卜2u n i x 内存问题分析表 磁盘是存放数据的主要部件,因此对它的监控中包含存放空间大小的监控。 此外,磁盘还要通过i o 操作与内存、外设间进行数据交换,从这方面说对磁盘 的性能要求要求主要是能够及时满足其他部分对数据的请求。所以对于i 0 的监 控也是磁盘间空中的一个很重要的方面。 2 1 3 1 具体参数: 1 磁盘可用空间:当可用空间过小( 一般是总容量的l o ) ,需要对磁盘数据 进行整理、归档等,以保证磁盘能在一个较长时间内保持充足的空间。 2 磁盘利用率( 时问) :是最直观况明磁盘忙闲状况的数据。高的数值说明磁 盘一直在进行数据传输相关的工作。 3 请求队列长度:队列中等待服务的请求的平均值,也就是队列的平均长度。 直接说明了当前以及之后一段时间内磁盘操作的负载。 请求等待队列长度:是在队列占满的情况下,未完成的请求数量。 4 与磁盘操作相关的各种时间参数: 整个磁盘数据的存取时间组成如图2 一卜3 所示( 其中标注的时间与具体设备 以及操作有关) ,所以需要监控的与i 0 操作相关的时间参数有: 1 ) 传送请求所占时间的百分比:设备忙的时候,除了直接传送所请求的数 据,还有一部分时间是用来将请求映射到磁盘上具体的数据块。这段时间仍然包 北京邮电人学r r 系统性能j 临控与优化分析 由i 帖 啉i 瓣姆c 棚肆 i5 “8 m s f 饼k s 甜 c o n h a n dd 船t n 咖 s _ m 9 m n m r a 删s t5 m 器蔫 嘴2 l 辨 、 ”m t 一 一 图2 一卜3磁盘i o 时间 含在磁盘工作时间中,但是并不能说明磁盘用在实际传送数据的时间。这段时间 是要受到总线、设备忙闲状况影响的。所以能代表磁盘有效时间的就是图中 s e r v i c e 段表示的时间。 2 ) 平均等待时问:队列占满时,传送请求等待队列空闲的时间。 3 ) 平均服务时间:如上图所示,包括仲裁时间、寻道时白j 、旋转时自j 和内 部传输时间( 设备c a c h e 和设备间数据传输,在串行模式中对性能影响大) ,但 是由于仲裁时间是固定的,所以实际监控中的的数据包括了寻道时间、旋转时间 和内部传输时问。 5 物理读写速率:单位时间内从监控的磁盘或者分区中读出、写入的数据量。 6 完成请求数量:单位时问内完成的请求数量。 7 未完成请求数量:这是指队列占满的时候,统计到的未完成请求的数量。 8 a c t v :从队列移出但是还没有服务完成的数量 2 1 3 2 分析流程图 流程图说明: 1 磁盘利用率高、物理i 0 速率高、磁盘队列长度大、w i o 大都可以成为磁 盘i o 性能出现瓶颈的预警参数。 2 当分析过程是由l 转入的时候,说明磁盘已经开始有性能下降的趋势。 如果传送请求占用时间比较小,这说明文件系统的效率不高,可能是文件组 织、存放不合适,造成了花费在数据块映射、磁盘旋转等多方面的时间增大,从 而减少了传输数据的有效时间。 如果单方面传送请求占用时白j 比率超过了5 0 9 6 ,往往也说明磁盘存在瓶颈。 如果传送请求占用时间比率高( 不一定超过5 0 9 6 ) ,但同时伴有磁盘等待队列长 度数值也高,那么也可以说明磁盘存在瓶颈。 3 通过以上两步已经可以基本判定磁盘处于忙碌状态,但是这种忙碌状态是 謦北京邮l 乜人学 l t 系统性能监控。j 优化分析 l 医磊翮厂丽司医磊碉厂百订! l 竺! 型竺兰苎il望兰竺苎 li 竺兰坠型堡璺奎il竺! 奎 i l :i _ j 1 _ ji - j i 一j : i - - 一一- 一- - - 一一一一一一一一一一_ 一_ - - - - - 。- - - - - - _ - - - - - - - 一一- - - - - - - - 。j h ,c s 一上一 l 粤h 困 :广 厂 l 抖由仔1 肓况 i i 堡! 堂! 兰堡ll 一 怿徽糯 削调档相应戍用 l n o i 排除系统其他方面影响,或者其他方面的影响是正常情况 f ,考虑提高磁盘、总线性能 图2 一卜4u n i x 磁盘问题分析流程 否最终会导致磁盘性能下降还需要进一步判断,判断的依据就是平均等待时日j 和 平均服务时问。如果平均等待时问大于平均服务时间,那么在将来一段时问内, 磁盘对于传送请求的处理速度始终要低于所有请求的期望时自】,无疑会使系统性 能进一步下降,最终成为系统性能的瓶颈。 4 通过以上三步已经可以基本判定磁盘存在潜在的性能瓶颈。这步中就是要 确定是否这种情况是由系统其他部分的问题引起的。其中包括: 内存问题:如果此时交换队列长或者缓存命中率低,需要查看是否是由于内 存性能问题造成的频繁换页导致磁盘i 0 问题。 特定系统调用:在频繁使用o p e n 、c r e a t e 、s t a t 等系统调用的系统瞿,会 出现大量的i o 操作。 特定应用:数据库等特定应用会产生大量的i 0 操作,所以磁盘的性能问题 北京邮电大学 r r 系统性能监控与优化分析 有时候需要结合承载的特定应用来分析,是否是由于应用设计不当造成的i 0 问 题。 5 当排除由于其他方面的影响造成了问题后,最后需要对磁盘进行调整。其 中需要注意的是,可能是系统总线的性能不足,判断系统总线性能最直观的参数 等待时间百分率 6 以上分析的都是对于一个磁盘或者分区。但是在实际情况中,整个磁盘空 间是以多个磁盘或者分区的形式存在的。所以还需要从总体上对于这些不同磁盘 或者分区使用情况进行对比。最直观的就是对于磁盘利用率进行横向比较,通过 对数据组织结构的调整,尽量使各磁盘的使用率相近。 2 1 3 3 二维表 磁物磁盘 司 磁盘传送 等待交换磁特定特 。 等待请求时间队列盘系统 定 盘理队列 利i o长度队列占用 服跃度命调用应分析结果 用速长度 时间 务时 中 多 用 塞塞 比率间 塞 磁盘暂时 l 两 高高高高高否 忙碌 文件系统 2 高高高高低 效率低 3 高高高高高高是 高 检查内存 4 高高高高高 高是低 检查引起 5高高高高高高是高调用的进 程 是调整应用 6高 高高高高高是 性能 当磁盘的使用空间达到一定数值的时候需要及时整理、添加磁盘,保证有充足的数据存 7 储宅间 8除此之外的情况需要考虑提高磁盘或者总线的性能 9多个监控部分间“磁盘利用率”相差过多需要在各部分间平衡数据分布 表2 一卜3u n i x 磁盘问题分析表 注:图中字体显示不同的部分,之间的判断条件为。或” 2 1 4 文件系统性能分析 磁盘是存放一切数据的地方,而文件系统则提供了简单的按名字层次访问方 式。可以把文件系统看作覆盖在物理磁盘上的一种数据组织结构。在执行i o 操 作时,需要进行从i n o d e 到目录文件再到i n o d e 的翻译过程直至找到相应需要 操作的具体文件为止。 誊北京邮电大学l t 系统件能监控,优化分析 2 1 4 1 具体参数 1 可用空间:在逻辑卷上建立文件系统之初就说明了整个文件系统的总的 容量,同时也指明了一部分最小空余空自j ,这是为了防止因为文件系统空间用尽, 一旦内存容量低于这个数值,文件系统就会将请求空间的进程都堵塞,造成严重 的问题。 1 ) 可用空间容量:一个最直观的可用空自】数据。由于在文件系统中是按 照块的概念来分配空间的,所以这个容量最好用块做单位。 2 ) 可用空间比率:和上一参数作用相同,只是反映问题的角度有所差异。 一般认为出现低于1 5 的可用空自j 比率时,对单个文件的查找以及单个文件内数 据块的查找都要消耗大量时问,这会造成整个系统性能出现下降。 2 i n o d e 表中可用s l o t 数量:如果i n o d e 表满了,需要i n o d e 的服务将 被系统拒绝。所以在文件系统中,i - n o d e 的数量限制了对整个文件系统的使用。 3 文件表中可用s l o t 数量:文件表中每个条目代表一个打开的文件,文件 表的大小决定了能打开多少文件,如果表满了,打开文件的请求将被系统拒绝。 4 读入的目录块:监控为了翻译文件名需要读入的目录块数,这个数据可 以表示文件系统的忙碌程度。当数据持续高的时候可能存在以下问题:目录c a c h e 过小:文件系统数据组织不当;文件系统繁忙 5 文件系统路径名查找次数( 文件名向i n o d e 的翻译过程) :在查找文件时, 每当查找一层的文件都要通过上层的目录文件找到对应的i n o d e 从而得到相应 的本文件信息。所以文件系统路径名查找次数更能反映文件系统组织对于文件系 统效率的影响。如果这个数值持续大,那么除了文件系统忙碌外还可能是因为文 件系统组织不当。 6 文件系统的安装状态:对于一些比较重要的文件系统,还要注意是否安 装了。 7 同志文件:文件系统巾比较特殊的一类文件,它记录了系统每天发生的 各种各样的事情,通过它可以实时的监测系统状态、检查错误发生的原因,也就 是说日志文件的参数是为了辅助发现系统问题的。 1 ) 同志文件大小:同志文件的大小一般是不固定的,而且是随着时间的 推移而越来越大。当日志文件过大的时候就要进行相应处理,例如截断、清空。 2 ) 同志文件增长速度:由于只志文件内容的增加是因为系统内特定事件 的发生,一旦发生就会在同志文件中有相应纪录。如果日志文件的增长速度快, 说明某个事件集中发生,往往说明系统中存在潜在的问题,需要对日志纪录的相 应事件进行观察。 3 ) 搜索到的关键字次数:日志文件基本是以文本形式存在的。可以事先 北京邮电大学r r 系统性能监控弓优化分析 确定关键词,一旦某种日志情况多那么可以及时地予以关注。 以上三个参数一旦存在报警,应该予以检查解决。 2 1 5 内核性能分析 2 1 5 1 具体参数 1 进程相关: 1 ) 进程表可用s l o t 数量:进程表指由内核所维护的系统进程表,它具有 固定空间大小。每建立一个新的进程,将占用一个s l o t 。所以,进程表对进程 数量也产生的限制。如果进程表的空间不足,那么新建进程的活动将被阻止,造 成系统性能下降。 2 ) 僵进程数:在系统中,存在非正常的“僵尸”进程。“僵尸”进程是一 个早已死亡的进程,但在进程表中仍占了一个s l o t 位置。由于进程表的容量是 有限的,所以“僵尸”进程不仅占用系统的内存资源,影响系统的性能,而且如 果其数目太多,还会导致系统瘫痪。 僵进程占用内存数量:由于僵进程的特性,必然使其占用一部分内存 空间,当占用过多必然导致内存性能下降。 3 ) 系统中现有进程总数:由于存在系统进程总数的限制,所以对进程数 量要做一定的控制,使系统能够顺利创建新进程。而且为了配合进程无预警的增 加,设定的系统进程总数应该比观察到的最大值多l o 一2 0 。 4 ) 系统进程增加数量:系统中新建进程的数量。进程的建立是要消耗大 量系统资源的,而且短时间内创建大量进程的情况往往代表系统内某个父进程执 行出现问题,如果任由这个父进程继续下去,有可能因为进程过多引起其他问题, 最终系统瘫痪。 5 ) 系统调用数量:( 见2 1 1 1 ) 6 ) 使用c p u 最多的若1 = 进程:主要使用在c p u 问题分析中。 2 内存相关:在这里主要关注与大内存相关的部分。在启用了大内存机制的 系统里,由于大内存池需要占用部分内存,而且由于大内存池一旦分配,将不会 再用来作为小内存分配,所以大内存池对内存的影响往往是双方面的。 1 ) 大内存请求池中总内存数量:这是一个静态值,就是在系统启动时为大 内存请求分配的内存池中包含的内存数量。 大内存请求池中可用的内存数量:现在可以使用的大内存数量。 大内存请求失败数量:当大内存池中内存不足的时候,大内存的请求会 被拒绝,此参数的数量高表明内存碎片多或者虚拟内存短缺( 前者只能重启) 2 ) 可用做小内存需求的内存数量:出去为大内存池预留的可用内存空问 渗北京邮i 乜人学r r 系统性能髓挡1 j 优化分析 小内存池中可用内存数量:现在可以使用的小内存数量。 小内存请求失败数量:当小内存空间不足的时候,对于小内存的请求会 失败,即使现在大内存池中有空余空日j 也不会被分配来满足小内存需求。同样因 为内存碎片或者虚拟内存数量少都能引起这个问题。 4 同步、通讯相关:为了实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论