一次现场故障处理的总结_第1页
一次现场故障处理的总结_第2页
一次现场故障处理的总结_第3页
一次现场故障处理的总结_第4页
一次现场故障处理的总结_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一次实际现场故障处理的总结2011年7月27日,北京西便门邮政一台安装红旗DC5sp4的服务器在早上运行时 ORACLE报错,不能读一个表,导致 ORACLE5能正常运行,然后直接影响这台服务器的正常运行。 其管理员查看系统内存占用过大,要求红旗公司派下现场给予处理。经我们现场检查,发现其 ORACLE运行时内存共占用 54GB左右,而其总的物理内存为 64GB然而待服务器重启后,还未启动ORACLE内存就被 ORACLE用户的进程占用了 49GB左右。现场初步判断应该是 ORACLE!己置的问题。建议让 ORACLED司派人来检查一下问题。 我们同时收集了该服务器运行信息回公司分析。第二天给

2、予明确回复。28日,对昨天下现场工作进行分析总结。通过这第一次下现场,从中学到不少实用技巧, 发现售后服务工作需要有比较全面的知识和技术,才能对故障现象进行深入准确地分析,发现问题,并提出解决或建议方案。首先,检查系统运行状态主要用到的命令有如下四个:一、 ps 命令ps -ef&显示所有进程, 并用 ASCII 字符显示树状结构, 表达程序间的相互关系。ps -ef | wc -lps -ef | grep oracle&统计当前共有多少个进程在运行。&查看与 oracle 有关的所有进程信息。具体命令解释如下:1) ps a 显示现行终端机下的所有程序,包括其他用户的程序。2) ps -A

3、 显示所有程序。3) ps c 列出程序时,显示每个程序真正的指令名称,而不包含路径,参数或常驻服务 的标示。4) ps -e 此参数的效果和指定 A 参数相同。5) ps e 列出程序时,显示每个程序所使用的环境变量。6) ps f 用 ASCII 字符显示树状结构,表达程序间的相互关系。7) ps -H 显示树状结构,表示程序间的相互关系。8) ps -N 显示所有的程序,除了执行 ps 指令终端机下的程序之外。9) ps s 采用程序信号的格式显示程序状况。10) ps S 列出程序时,包括已中断的子程序资料。11) ps -t 指定终端机编号,并列出属于该终端机的程序的状况。12) p

4、s u以用户为主的格式来显示程序状况。13) ps x显示所有程序,不以终端机来区分。最常用的方法是 ps -aux ,然后再利用一个管道符号导向到 grep 去查找特定的进程, 然后再对特定的进程进行操作。、 lsofIsof | grep oracle&喳看被打开的与 ORACLE!关的文件情况。lsof 全名 list opened files ,也就是列举系统中已经被打开的文件。 我们都知道, linux 环境中,任何事物都是文件,设备是文件,目录是文件,甚至sockets 也是文 件。所以,用好 lsof 命令,对日常的 linux 管理非常有帮助。以下的说明,大部分内容来自 lso

5、f 的 manual 文档。我所做的只是在中文翻译的基础上,进行简单的分类说明,并列举最常用的 参数。(一) 输出说明lsof 是 linux 最常用的命令之一,通常的输出格式为:引用COMMANDPID USER FD TYPE DEVICE SIZE NODE NAME 常见包括如下几个字段:更多的可见 manual 。1、COMMAND默认以 9 个字符长度显示的命令名称。可使用 +c 参数指定显示的宽度,若 +c 后跟的参 数为零,则显示命令的全名2、PID:进程的ID号3、PPID父进程的 IP 号,默认不显示,当使用 -R 参数可打开。4、PGID进程组的 ID 编号,默认也不会显

6、示,当使用 -g 参数时可打开。5、USER命令的执行 UID 或系统中登陆的用户名称。默认显示为用户名,当使用 -l 参数时,可 显示 UID。6、FD是文件的 File Descriptor number ,或者如下的内容:(这里很难翻译对应的意思,保留英文)7、TYPE引用IPv4 IPv4 的包;IPv6 使用 IPv6 格式的包,即使地址是 IPv4 的,也会显示为 I Pv6 ,而映射到 IPv6 的 地址;DIR 目录LINK 链接文件详情请看 manual 中更多的注释。8、DEVICE使用 character special 、 block special 表示的设备号9、S

7、IZE文件的大小,如果不能用大小表示的,会留空。使用 -s 参数控制。10、NODE本地文件的node码,或者协议,如 TCP等11、NAME挂载点和文件的全路径(链接会被解析为实际路径) ,或者连接双方的地址和端口、状 态等(二)参数1、不带额外参数运行 lsof path/filename 显示已打开该目录或文件的所有进程信息Isof which httpd 显示指定命令的信息2、参见参数-c w显示以w开头命令的已打开文件的信息Isof -c sshd-p PID 显示指定 PID 已打开文件的信息Isof -p 4401+d dir 依照文件夹 dir 来搜寻,但不会打开子目录Isof

8、 +d /root+D dir 打开 dir 文件夹以及其子目录搜寻Isof +D /root/-d s以FD列的信息进行匹配,可使用 3-10,表示范围,3,10表示某些值Isof -d 3-10-u 显示某用户的已经打开的文件(或该用户执行程序已经打开的文件)Isof -u rootIsof -u 0可配合正规表达式使用 表示不包括 root 用户的信息:Isof -u Aroot-i 监听指定的协议、端口、主机等的网络信息,格式为: 引用46protohost|addr:svc_Iist|port_Iist 例如:Isof -i tcp44 为防备电子邮件地址收

9、集器, 这个 E-maiI 地址被隐藏, 你的浏览器必须支持 Javascript 才可看到这个邮件地址Isof -i:22还可以使用一些参数控制显示结果: 引用-I 禁止将 userID 转换为登陆名称,即显示 UID-n 禁止将 IP 地址转换为 hostname 主机文件 -P 不显示端口名称-g s 从 PGID 列进行匹配Isof -g 3-103、其他参数+f 所有路径参数都必须是文件系统,否则不能执行-f 所有路径参数都将作为普通的文件,例如: -f - / 中的/,只会匹配单个 /路径, 而不会是根目录中的所有文件+f 和 -f 后都应加上 “- ”表终结符:Isof -f -

10、 /+L/-L 打开或关闭文件的连结数计算,当 +L 没有指定时,所有的连结数都会显示(默认);若 +L 后指定数字,则只要连结数小于该数字的信息会显示;连结数会显示在 NLINK 列。例如:+L1将显示没有unlinked的文件信息;+aL1,则显示指定文件系统所有unlinked的文件信息-L 默认参数,其后不能跟数字,将不显示连结数信息lsof +L1-t 仅打印进程,方便 shell 脚本调用lsof -t -c sshd-F 指定输出那个列,可通过 lsof -F? 查看-r 不断执行 lsof 命令,默认每 1 5秒间隔执行一次+r 也是不断执行 lsof 命令,但直到没有接受到文

11、件信息,则停止三、free 查看内存使用情况。四、top 小技巧: 查看哪个进程占用内存最大的方法:1 、执行 top2、 按F”或O,然后按a-z可以将进程按照相应的列进行排序。3、 选择n”表示以占用内存的大小进行排序,默认为递减排序,按R”可反向排序。4、命令交互后呈现的进程信息就是以占用内存的大小来排序,第一个进程就是占用当 前内存最大的进程。top 命令是 Linux 下常用的性能分析工具, 能够实时显示系统中各个进程的资源占用状 况,类似于Windows的任务管理器。下面详细介绍它的使用方法。top - 01:06:48 up 1:22, 1 user, load average:

12、 0.06, 0.60, 0.48Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zombieCpu(s): 0.3% us, 1.0% sy, 0.0% ni, 98.7% id, 0.0% wa, 0.0% hi, 0.0% siMem: 191272k total, 173656k used, 17616k free, 22052k buffersSwap: 192772k total, 0k used, 192772k free, 123988k cachedPID USER PR NI VIRT RES SHR S %CPU

13、 %MEM TIME+ COMMAND1379 root 16 0 7976 2456 1980 S 0.7 1.3 0:11.03 sshd14704 root 16 0 2128 980 796 R 0.7 0.5 0:02.72 top1 root 16 0 1992 632 544 S 0.0 0.3 0:00.90 init2 root 34 19 0 0 0 S 0.0 0.0 0:00.00 ksoftirqd/03 root RT 0 0 0 0 S 0.0 0.0 0:00.00 watchdog/0 统计信息区前五行是系统整体的统计信息。第一行是任务队列信息,同uptime

14、 命令的执行结果。其内容如下:01:06:48 当前时间:分系统负载,即任务队列的平均长度。此值超过5,up 1:22 系统运行时间,格式为时1 user 当前登录用户数 load average: 0.06, 0.60, 0.48 则说明系统负载过重。三个数值分别为 1 分钟、 5 分钟、 15 分钟前到现在的平均值。第二、三行为进程和 CPU的信息。当有多个 CPU时,这些内容可能会超过两行。内容如 下:Tasks: 29 total 进程总数1 running 正在运行的进程数28 sleeping 睡眠的进程数0 stopped 停止的进程数0 zombie 僵尸进程数Cpu(s):

15、0.3% us用户空间占用 CPU百分比1.0% sy内核空间占用 CPU百分比0.0% ni用户进程空间内改变过优先级的进程占用CPU百分比98.7% id 空闲CPU百分比0.0% wa等待输入输出的CPU时间百分比0.0% hi0.0% si最后两行为内存信息。内容如下:Mem: 191272k total 物理内存总量173656k used 使用的物理内存总量17616k free 空闲内存总量22052k buffers 用作内核缓存的内存量Swap: 192772k total 交换区总量0k used 使用的交换区总量192772k free 空闲交换区总量123988k ca

16、ched 缓冲的交换区总量。内存中的内容被换出到交换区,而后又被换入到内存,但使用过的交换区尚未被覆盖, 该数值即为这些内容已存在于内存中的交换区的大小。相应的内存 再次被换出时可不必再对交换区写入。进程信息区 统计信息区域的下方显示了各个进程的详细信息。首先来认识一下各列的含义。序号 列名 含义a PID 进程 idb PPID 父进程 idc RUSER Real user named UID 进程所有者的用户 ide USER 进程所有者的用户名f GROUP 进程所有者的组名g TTY 启动进程的终端名。不是从终端启动的进程则显示为 ?h PR 优先级i NI nice 值。负值表示高

17、优先级,正值表示低优先级j P最后使用的CPU仅在多CPU环境下有意义k %CPU上次更新到现在的 CPU时间占用百分比l TIME进程使用的CPU时间总计,单位秒m TIME+进程使用的 CPU时间总计,单位 1/100秒n %MEM进程使用的物理内存百分比o VIRT 进程使用的虚拟内存总量,单位kb。 VIRT=SWAP+RESp SWAP 进程使用的虚拟内存中,被换出的大小,单位kb。q RES进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATAr CODE 可执行代码占用的物理内存大小,单位kbs DATA 可执行代码以外的部分 (数据段 +栈)占用的物理内存大小

18、,单位kbt SHR 共享内存大小,单位 kbu nFLT 页面错误次数v nDRT 最后一次写入到现在,被修改过的页面数。w S 进程状态。D环可中断的睡眠状态R=1行S= 睡眠T=跟踪/停止乙=僵尸进程x COMMANDS令名/命令行y WCHAN若该进程在睡眠,则显示睡眠中的系统函数名z Flags 任务标志,参考 sched.h默认情况下仅显示比较重要的 PID 、 USER、 PR、 NI、 VIRT、 RES、 SHR、 S、 %CPU、 %ME、M TIME+、COMMAND。可以通过下面的快捷键来更改显示内容。更改显示内容通过 f 键可以选择显示的内容。按 f 键之后会显示列的

19、列表,按 a-z 即可显示或隐 藏对应的列,最后按回车键确定。按 o 键可以改变列的显示顺序。按小写的 a-z 可以将相应的列向右移动,而大写的A-Z 可以将相应的列向左移动。最后按回车键确定。按大写的 F 或 O 键,然后按 a-z 可以将进程按照相应的列进行排序。而大写的R键可以将当前的排序倒转。命令使用1 工具(命令)名称top2工具(命令)作用显示系统当前的进程和其他状况; top 是一个动态显示过程 ,即可以通过用户按键来不 断刷新当前状态 . 如果在前台执行该命令 , 它将独占前台 ,直到用户终止该程序为止 . 比较准 确的说,top命令提供了实时的对系统处理器的状态监视它将显示系

20、统中CPU最敏感”的任务列表该命令可以按 CPU使用.内存使用和执行时间 对任务进行排序;而且该命令的很多 特性都可以通过交互式命令或者在个人定制文件中进行设定。3环境设置在 Linux 下使用。4 使用方法41 使用格式top - d p q c C S s n42 参数说明d 指定每两次屏幕信息刷新之间的时间间隔。当然用户可以使用s 交互命令来改变之。p 通过指定监控进程 ID 来仅仅监控某个进程的状态。q 该选项将使 top 没有任何延迟的进行刷新。如果调用程序有超级用户权限,那么 top 将以尽可能高的优先级运行。S 指定累计模式 s 使 top 命令在安全模式中运行。这将去除交互命令

21、所带来的潜在危险。i 使 top 不显示任何闲置或者僵死进程。 c 显示整个命令行而不只是显示命令名 4.3 其他下面介绍在 top 命令执行过程中可以使用的一些交互命令。 从使用角度来看, 熟练 的掌握这些命令比掌握选项还重要一些。 这些命令都是单字母的, 如果在命令行选项中使用 了 s 选项,则可能其中一些命令会被屏蔽掉。Ctrl+L 擦除并且重写屏幕。h 或者 ? 显示帮助画面,给出一些简短的命令总结说明。k 终止一个进程。系统将提示用户输入需要终止的进程PID ,以及需要发送给该进程什么样的信号。一般的终止进程可以使用 15 信号;如果不能正常结束那就使用 信号 9 强制结束该进程。默认值是信号15。在安全模式中此命令被屏蔽。i 忽略闲置和僵死进程。这是一个开关式命令。q 退出程序。r 重新安排一个进程的优先级别。 系统提示用户输入需要改变的进程 PID 以及需要 设置的进程优先级值。输入一个正值将使优先级降低,反之则可以使该进程拥有更 高的优 先权。默认值是 10。S 切换到累计模式。s 改变两次刷新之间的延迟时间。系统将提示用户输入新的时间,单位为s 。如果有小数,就换算成 m s。输入0值则系统将不断刷新,默认值是5 s。需要注意的是如果设置太小的时间, 很可能会引起不断刷新, 从而根本来不及看清显示的情况, 而且系统负载也 会大大增加。f 或者 F 从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论