应急预案通用标准处置-linux-0726-09_第1页
应急预案通用标准处置-linux-0726-09_第2页
应急预案通用标准处置-linux-0726-09_第3页
应急预案通用标准处置-linux-0726-09_第4页
应急预案通用标准处置-linux-0726-09_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1. 通用标准处置快速索引主要包含RedHat Linux操作系统故障场景的通用标准处置General Operating System Linux:编号通 用 标 准 处 置索 引GOL001Linux操作系统标准关闭GOL002Linux操作系统标准重启GOL003Linux操作系统强行关闭GOL004Linux操作系统强行重启GOL005检查Linux操作系统CPU负载GOL006查询占用CPU资源最多的进程GOL007检查Linux操作系统内存使用率GOL008查询占用内存资源最多的进程GOL009判断是否有僵尸进程GOL010检查Linux操作系统磁盘I/O负载GOL011查询消耗I

2、/O资源最多的进程GOL012文件系统信息GOL013物理卷、卷组和逻辑卷GOL014查看系统主要日志GOL015主机通讯是否有延迟GOL016主机通讯延迟或丢包GOL017主机路由设置是否正确GOL018到相连业务系统的通讯是否正常GOL019网卡驱动是否正常加载GOL020网卡配置信息检测GOL021网卡配置参数GOL022查看双机状态GOL023重启群集效劳GOL024群及效劳切换到备机GOL025关闭主机群集效劳GOL026手工恢复群集效劳GOL027搜集系统信息GOL028进入单用户模式GOL029进入紧急救援模式GOL030查看效劳器端口是否正常开启GOL031网络连接数统计GOL

3、032交换区使用情况检查GOL033文件句柄数调整GOL034主机启动时fstab中有错误配置GOL035bond主备网卡切换GOL036查看内核slab内存占用GOL037清理系统内存中的cache和bufferGOXXX2. 通用处置Linux2.1. GOL001:Linux操作系统标准关闭处置名称:Linux操作系统标准关闭处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 系统效劳暂停。2技术影响:无3其它影响: 无操作步骤: 1) 通过SOM平台以root用户登录;2) 根据需求首先关闭应用程序/数据库该步骤可选,需要的系统请明示步骤3) 执行shut

4、down -h now验证步骤:1) 无。修订日期:2021年5月8日 修订人:张鹏 2.2. GOL002:Linux操作系统标准重启处置名称:Linux操作系统标准重启处置时间:10-20分钟该时间因系统而异,请根据实际停止时间填写影响分析:1业务影响: 系统效劳暂停。2技术影响:无3其它影响: 无操作步骤: 1通过SOM平台以root用户登录2根据需求首先关闭应用程序/数据库该步骤可选,需要的系统请明示步骤3执行shutdown -r now验证步骤:无。修订日期:2021年5月8日 修订人:张鹏2.3. GOL003:Linux操作系统强行关闭处置名称:Linux操作系统强行关闭处置时

5、间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 系统效劳暂停。2技术影响:无3其它影响: 无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行: echo o /proc/ sysrq-trigger验证步骤:命令执行后主机自动关闭修订日期:2021年11月20日 修订人:张鹏2.4. GOL004:Linux操作系统强行重启处置名称:Linux操作系统强行重启处置时间:10-20分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统效劳暂停。2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行:

6、echo b /proc/ sysrq-trigger验证步骤:命令执行后主机自动重启修订日期:2021年11月20日 修订人: 张鹏 2.5. GOL005:检查Linux操作系统CPU负载处置名称:检查Linux操作系统CPU负载处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录2) 执行top命令;3) 执行sar 2 30命令;4) 执行vmstat 2 30命令;5) 执行mpstat 2 30命令。验证步骤:根据命令输出内容判断CPU使用情况修订日期:2021年5

7、月8日 修订人: 张鹏2.6. GOL006:定位占用CPU资源最多的进程处置名称:定位占用CPU资源最多的进程处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录2) 执行top命令;3) 在top命令执行窗口,使用热键“P,按照CPU使用率对进程进行排序。验证步骤:根据top命令输出的排序情况,定位CPU使用率较高的进程。修订日期:2021年5月8日 修订人: 张鹏 2.7. GOL007:检查Linux操作系统内存使用率处置名称:检查Linux操作系统内存使用率处置时间:

8、5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录;2) 执行命令:top;3) 执行命令:free;4) 执行命令:cat /proc/meminfo验证步骤:1) top-在程序界面中,查看MEM、Swap、Buffer、Cache数值;2) free:查看+/-buffers/cache后的内存使用率;3) cat /proc/meminfo:查看内存详细使用情况修订日期:2021年5月8日 修订人: 张鹏2.8. GOL008:查询占用内存资源最多的进程处置名称:查询占用内存资

9、源最多的进程处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录;2) 执行top;3) 在top界面中按热键“M,按照内存使用率对进程进行排序。验证步骤:根据top命令输出排序结果,定位占用内存资源最多的进程。修订日期:2021年5月8日 修订人: 张鹏2.9. GOL009:判断是否有僵尸进程处置名称:判断是否有僵尸进程处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普

10、通权限用户登录;2) 执行top命令;3) 执行ps -ef|grep defunct命令;验证步骤:1) 执行top:查看top输出中是否提示有僵尸进程及其数量;2) 使用ps命令查找并定位僵尸进程。修订日期:2021年5月16日 修订人: 张鹏 2.10. GOL010:检查Linux操作系统磁盘I/O负载处置名称:检查Linux操作系统磁盘I/O负载处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无 2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录2) 执行:vmstat、iostat、sar -d命令。验证步骤:1

11、) vmstat反映了进程的虚拟内存,虚拟内存,磁盘,trap和cpu的活动情况,在多cpu系统中,vmstat在输出结果中平均了cpu数量 ;2) iostat:如果想看每个设备的io情况,可使用iostat命令。修订日期:2021年5月16日 修订人: 张鹏2.11. GOL011:查询消耗I/O资源最多的进程处置名称:查询消耗I/O资源最多的进程处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 运行iotop工具进行系统I/O性能监控验证步骤:根据iotop输出结果验证

12、修订日期:2021年7月26日 修订人: 张鹏2.12. GOL012:文件系统信息处置名称:文件系统信息处置时间:2-5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行以下命令查看文件系统挂载情况:#df 查看文件系统使用率#mount 查看文件系统mount属性#cat /etc/fstab 确认是否有未挂载文件系统3) 查看日志中是否有关于文件系统的报错信息 #tail -2000 /var/log/messages验证步骤:1) 文件系统正常挂载,读/写属性正常,日志无报错;

13、2) 可手工创立临时文件,以验证文件系统的可读/写性。修订日期:2021年5月20日 修订人: 张鹏 2.13. GOL013:物理卷、卷组和逻辑卷处置名称:物理卷、卷组和逻辑卷处置时间: 5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行以下命令查看PV、VG、LV信息:#pvs ;#pvdisplay 查看物理卷信息#vgs ;#vgdisplay 查看卷组信息#lvs ;#lvdisplay 查看逻辑卷信息3) 查看日志中是否有关于文件系统的报错信息 #tail -2000 /

14、var/log/messages验证步骤:1) 物理卷、卷组、逻辑卷状态正常,读/写属性正常,日志无报错;2) 如果要查看PV、VG和LV的详细扫描信息,可以使用命令pvdisplay、vgdisplay、lvdisplay并搭配 “-vvvv参数使用。修订日期:2021年5月20日 修订人: 张鹏 2.14. GOL014:查看系统主要日志处置名称:查看系统主要日志处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 4) 通过SOM平台以root用户登录;5) 查看以下日志:/var/log/messages/var/lo

15、g/dmesg验证步骤:查看日志中是否有明显报错信息修订日期:2021年11月20日 修订人: 张鹏 2.15. GOL015:主机通讯是否延迟处置名称:主机通讯是否延迟处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以root或普通权限用户登录;2执行命令: #ping 网关_IP #ping 关联主机_IP1) 验证步骤:通过ping测试,验证相同网段及不同网段的IP地址与本机的通讯是否正常。修订日期:2021年5月8日 修订人: 张鹏 2.16. GOL016:主机通讯是否丢包处置名称:主机通讯是否

16、丢包处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以root或普通权限用户登录2执行: #/sbin/ifconfig验证步骤:根据ifconfig命令输出结果,判断是否有网络丢包或延迟现象。修订日期:2021年5月8日 修订人:张鹏 2.17. GOL017:主机路由设置是否正确处置名称:主机路由设置是否正确处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root或普通权限用户登录;2) 执行以下命令:#r

17、oute#cat /proc/net/route#cat /proc/net/rt_cache验证步骤:1) 查看路由是否正确添加;2) 当前路由所对应物理网卡是否正确;3) 最多只有一条缺省路由。修订日期:2021年5月8日 修订人: 张鹏 2.18. GOL018:到相连业务系统的通讯是否正常处置名称:到相连业务系统的通讯是否正常处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行命令:#ping 关联系统_IP;#telnet 关联系统_IP PORT_NUMBER #

18、route#traceroute 关联系统_IP#ifconfig 验证步骤:1) 检测与目标主机的连通性;2) 检测路由正确性;3) 检测网卡状况是否正常。修订日期:2021年7月26日 修订人: 张鹏 2.19. GOL019:网卡驱动是否正常加载处置名称:网卡驱动是否正常加载处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统效劳暂停。2技术影响:无3其它影响:无操作步骤: 3) 通过SOM平台以root用户登录;4) 执行命令:#tail -2000 /var/log/messages 查看日志信息#ifconfig 查看网卡工作状态#lspci |gr

19、ep -i eth 查看物理网卡#ethtool -i 网卡_名称 查看指定网卡所使用的驱动程序#cat /etc/modprobe.conf 查看网卡所使用的驱动程序名称#cat /proc/modules 查看已加载驱动#lsmod 查看当前网卡驱动是否已经正确加载#modinfo 驱动_名称 查看驱动信息验证步骤:1) 查看messages日志文件中是否有报错;2) 根据ifconfig查看网卡工作状态;3) 根据lspci判断物理网卡型号;4) 使用ethtool查看指定网卡所使用的驱动程序;5) 根据/etc/modprobe.conf判断网卡驱动程序名称;6) 根据/proc/mo

20、dules、lsmod判断网卡驱动是否已经正常加载;7) 使用modinfo查看驱动程序详细信息。修订日期:2021年5月8日 修订人: 张鹏 2.20. GOL020:网卡配置信息检测处置名称:网卡配置信息检测处置时间:5分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统通讯闪断,效劳短时间暂停2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行以下命令:#ping 网管_IP#ping 关联主机_IP#ifconfig 查看网卡信息#tail -2000 /var/log/messages 查看日志信息#cat /etc/sysc

21、onfig/network 查看主机名及缺省路由配置#cat /etc/sysconfig/network- scripts/ifcfg-eth?, 查看IP,掩码,网关等设置信息;修改配置文件后,执行 #service network restart ,重启网络效劳。验证步骤:1) 检测主机与网管及关联主机通讯是否正常;2) 主机网卡状态是否正常;3) 系统日志中是否有明显报错;4) 主机缺省路由是否配置正确;5) 网卡配置文件是否正确:如果配置文件中含有MAC地址,应使用dmesg命令,验证MAC地址是否填写正确;6) 调整配置并重启网络效劳。修订日期:2021年5月8日 修订人: 张鹏

22、2.21. GOL021:网卡配置参数处置名称:网卡配置参数处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行命令:#ethtool 网卡_名称验证步骤:使用ethtool命令,查看网卡配置是否正常,主要关注网卡连接模式10/100/1000baseT及工作模式Half/Full。修订日期:2021年5月8日 修订人: 张鹏 2.22. GOL022:查看群集状态及共享资源处置名称:查看群集状态及共享资源处置时间:3分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1

23、业务影响: 无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行:clustat验证步骤: 1) 集群几点状态为Online;2) 集群资源状态为Started。修订日期:2021年5月8日 修订人: 张鹏 2.23. GOL023:重启群集效劳处置名称:重启群集效劳处置时间:5-10分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统效劳短时间暂停。2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 如果主机效劳异常,例如某些应用效劳进程异常终止,且无法手工单独启动,那么就可以在主机上重启效劳:#c

24、lusvcadm r test_svc 重新启动test_svc这个效劳;3) 查看日志:tail -f /var/log/messages4) 使用clustat查看双机节点及效劳状态。验证步骤: 1) clusvcadm命令执行成功,效劳重新运行于当前节点;2) 切换过程中,messages日志文件中午报错信息;3) clustat命令显示双机节点及效劳状态正常。修订日期:2021年7月26日 修订人: 张鹏 2.24. GOL024:群集效劳切换到备机处置名称:群集效劳切换到备机处置时间:5-10分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统效劳短时间暂停。2技

25、术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 如果主机效劳异常,且通过重启主机效劳进程亦无法恢复,那么可以将效劳切换到备机:#clusvcadm r test_svc -m host2将效劳test_svc切换到主机host2上运行3) 查看日志:tail -f /var/log/messages4) clustat命令显示双机节点及效劳状态正常。验证步骤:1) clusvcadm命令执行成功,双机节点正常切换;2) 切换过程中,messages日志文件中午报错信息;3) clustat命令显示双机节点及效劳状态正常。修订日期:2021年5月18日 修订人:

26、 张鹏 2.25. GOL025:关闭主机群集效劳处置名称:关闭主机群集效劳处置时间:5-10分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统效劳暂停。2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 如果RHCS集群环境中,主、备机均无法正常提供效劳,那么可以手工启动或是冷备机的方式恢复效劳,但在这之前需要先关闭集群中的效劳进程:#clusvcadm s test_svc m host2在主机host2上停止test_svc效劳;3) 执行clustat命令查看效劳关闭情况;4) 使用df、ping、ip addr list命令,确

27、认群集共享资源已释放;5) 查看日志:tail -f /var/log/messages;6) 在群集各节点执行clustop命令,关闭cluster效劳。验证步骤:1) 群集Service正常关闭;2) 群集共享资源已释放;3) 系统日志无报错;4) 群集各节点Cluster效劳关闭;修订日期:2021年11月18日 修订人: 张鹏 2.26. GOL026:手工恢复群集效劳处置名称:手工恢复群集效劳处置时间:10-20分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统效劳暂停。2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 在停止

28、RHCS效劳后,可按照以下步骤手工挂载资源,并启动效劳:网络IP地址:使用ifconfig命令,修改效劳地址;存储空间:vgscan 扫描可用卷组;vgdisplay 查看卷组信息;importvg VG_NAME 导入卷组信息;vgchange -ay VG_NAME 激活卷组;lvscan 识别lv;【如果上述操作中,卷组无法在单机激活,那么有可能是在/etc/lvm/lvm.conf中配置了volume_list限制,只有带有相应TAG标签的卷组才能在相应主机激活,可按如下操作验证并调整:#vgs -o +vg_tags 查看卷组标签信息#vgchange -addtag hostnam

29、e 共享_VG_NAME #vgs -o +vg_tags 验证卷组标签是否已经添加】文件系统:根据lvscan信息,mount相关文件系统;配置文件:检查/etc/passwd,/etc/hosts,/etc/services等配置文件是否正常;数据库裸设备:首先检测数据库裸设备链接是否正常,然后手工重启裸设备效劳:#service rawdevices restart检测数据库配置信息完备,尝试启动数据库其间注意观察数据库日志信息;应用效劳:根据应用效劳启动顺序,启动各项应用效劳。3) 查看日志:tail -f /var/log/messages验证步骤: 1) 手工添加Service I

30、P;2) 卷组可以正常在单机激活;3) lv信息正常;4) 在单机手工挂载共享存储资源;5) 启动数据库及应用。修订日期:2021年5月18日 修订人: 张鹏 2.27. GOL027:搜集系统信息处置名称:搜集系统信息处置时间:5-10分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行命令:sosreport验证步骤:查看在/tmp目录下自动生成的信息文件。修订日期:2021年5月8日 修订人: 张鹏 2.28. GOL028:进入单用户模式处置名称:进入单用户模式处置时间:20-3

31、0分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统效劳中断2技术影响:无3其它影响:无操作步骤: 1) 在控制台重启主机;2) 在屏幕出现GRUB的启动菜单时按任意键;3) 选择要修改的Linux菜单,按“e键;4) 再选中“kernel的行,按“e键;5) 在kernel所在行末尾输入“ ss前有空格;6) 输入完成后,按回车,保存菜单;7) 使用修改好的菜单引导系统,按“b键,以单用户模式临时引导系统;8) 进入单用户模式后,对系统故障进行修复。验证步骤:无。修订日期:2021年5月18日 修订人: 张鹏 2.29. GOL029:进入紧急救援模式处置名称:进入紧急

32、救援模式处置时间:20-30分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:系统效劳中断2技术影响:无3其它影响:无操作步骤: 1) 在控制台重启主机,并用操作系统安装光盘引导;2) 出现boot提示符后输入:linux rescue;3) 选择语言;4) 选择键盘类型;5) 选择是否启用网络如果启用网络,需根据程序提示配置IP地址等信息;6) 选择是否让系统查找硬盘上的Linux系统,选择“Continue;7) 自动搜索当前已安装的Linux系统;8) 系统显示硬盘上的系统已经被找到,并挂载在/mnt/sysimage目录下;并提示可以使用 chroot /mnt/sy

33、simage 命令进行环境切换;9) 进入单用户模式后,对系统故障进行修复。验证步骤:查看在/tmp目录下自动生成的信息文件。修订日期:2021年5月18日 修订人: 张鹏 2.30. GOL030:查看效劳器端口是否正常开启处置名称:查看效劳器端口是否正常开启处置时间:1分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以root用户登录;2) 执行命令:#netstat -an | grep Port_Number#netstat -tulpn如果是系统效劳,可同时查看效劳状态:#service Your_Se

34、rvice_Name status验证步骤:1) 查看效劳器端口是否正常开启;2) 确认效劳正常运行。修订日期:2021年6月15日 修订人: 张鹏 2.31. GOL031:网络连接数统计处置名称:网络连接数统计处置时间:2分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以普通账号或root账号登录;2) 执行以下命令查看当前网络连接数量:listen状态的连接数:$netstat -an|grep tcp |awk print $6|sort -ir|uniq -c |grep LISTEN |awk pri

35、nt $1established状态的连接数:$netstat -an|grep tcp |awk print $6|sort -ir|uniq -c |grep ESTABLISHED |awk print $1close_wait状态的连接数:$netstat -an|grep tcp |awk print $6|sort -ir|uniq -c |grep CLOSE_WAIT |awk print $1fin_wait_2状态的连接数:$netstat -an|grep tcp |awk print $6|sort -ir|uniq -c |grep FIN_WAIT_2 |awk p

36、rint $1验证步骤:根据命令输出查看各种状态的网络连接数量修订日期:2021年5月20日 修订人: 张鹏 2.32. GOL032:交换区使用情况检查处置名称:交换区使用情况检查处置时间:2分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以普通用户或root用户登录;2) 查看内存及交换空间使用情况$free3) 查看交换空间设备使用情况$cat /proc/swaps4) 查看交换区访问情况$vmstat 2 10 此命令输出周期为2秒,共计10次。需注意其中的swap列的si、so值。验证步骤:1) 内存

37、及交换区使用数量及使用率;2) 是否有频繁的SwapOut、SwapIn操作。修订日期:2021年5月20日 修订人: 张鹏 2.33. GOL033:文件句柄数调整处置名称:文件句柄数调整处置时间:2分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 当系统已用的文件句柄数到达最大限值时running out of file handles,操作系统日志会提示无法继续分配文件句柄:1) 通过SOM平台以root用户登录;2) 查看当前文件句柄数最大限值:# cat /proc/sys/fs/file-max3) 查看当前文件句柄数使用

38、情况:# cat /proc/sys/fs/file-nr第一列为当前已分配文件句柄数。4) 在线修改最大文件句柄数临时:echo 819200 /proc/sys/fs/file-max上述819200仅为举例。通常file-max的缺省值为操作系统内存单位:kb的10%。5) 永久修改最大文件句柄数:将以下内容参加/etc/sysctl.conf配置文件,其中819200为例如数据:fs.file-max = 819200验证步骤:1) 查看当前文件句柄数最大限值:# cat /proc/sys/fs/file-max2) 查看当前文件句柄数使用情况:# cat /proc/sys/fs/

39、file-nr修订日期:2021年5月20日 修订人: 张鹏 2.34. GOL034:主机启动时fstab中有错误配置处置名称:主机启动时fstab中有错误配置处置时间:5分钟因主机型号而异,启动耗时会有不同影响分析:1业务影响:问题修复期间,系统效劳暂停2技术影响:修改主机fstab文件3其它影响:无操作步骤: 当/etc/fstab配置错误时,主机重启过程会中断并报错,如下截图所示: 1) 在主机控制台输入root用户口令,登入系统;2) 执行以下命令,重新挂载根文件系统为可读写状态:# mount -o remount,rw /3) 修改/etc/fstab文件中的错误配置:# vi

40、/etc/fstab4) 保存修改内容并退出,系统自动重启。验证步骤:系统启动过程正常,未再出现关于/etc/fstab的报错。修订日期:2021年11月20日 修订人: 张鹏 2.35. GOL035:bond主备网卡切换处置名称:bond主备网卡切换处置时间:2分钟影响分析:1业务影响:问题修复期间,通讯可能会有瞬间中断2技术影响:无3其它影响:无操作步骤: 1) 查看当前bond网卡信息#ifconfig#cat /proc/net/bonding/bond?符号“?表示bonding网卡的序号,通常为bond0、bond1等。在/proc/net/bonding/bond? 文件中,可

41、以看到当前网卡的主、备关系。2) 查看网卡配置文件进入 /etc/sysconfig/network-scripts/ 目录,查看网卡配置文件:ifcfg-bond0ifcfg-eth?符号“?表示网卡序号,通常为ifcfg-eth0、ifcfg-eth1等。3) 将bond切换到备用网卡上 #ifconfig eth_主网卡 down4) 确认网卡及主机通讯情况#ifconfig#cat /proc/net/bonding/bond?#route#tail /var/log/messages#ping 业务关联主机_IP验证步骤: 检测网卡连通性,以及到相关联业务系统主机的通讯情况,并验证应

42、用效劳是否受影响。修订日期:2021年11月20日 修订人: 张鹏 2.36. GOL036:查看内核slab内存占用处置名称:查看内核slab内存占用处置时间:2分钟影响分析:1业务影响:无2技术影响:无3) 其它影响:无操作步骤: 查看当前kernel slab cache信息#slabtop#cat /proc/slabinfo验证步骤: 从上述命令输出结果中,确认kernel slab cache中的资源占用情况。修订日期:2021年08月12日 修订人: 张鹏 2.37. GOL037:清理系统内存中的cache和buffer处置名称:清理系统内存中的cache和buffer处置时间

43、:3分钟影响分析:1业务影响:建议在关闭应用程序后再执行内存cache清理;2技术影响:无4) 其它影响:无操作步骤: 1、 查看当前kernel slab cache信息#slabtop #cat /proc/slabinfo2、 刷新缓存 #sync3、 清理cache可以有选择地进行清理:清理pagecache: echo 1 /proc/sys/vm/drop_caches清理dentries和inodes缓存: echo 2 /proc/sys/vm/drop_caches清理pagecache、dentries和inodes缓存: echo 3 /proc/sys/vm/drop_

44、caches4、 查看当前kernel slab cache信息#slabtop #cat /proc/slabinfo验证步骤: 使用slabtop、free命令查看内存占用情况。考前须知:1、在清理内存之前,先执行 sync 命令刷新系统buffer;2、在生产环境应慎用此命令:虽然清理缓存时影响应用程序上下文的可能性很小,但是最好在关闭应用程序后再行清理。修订日期:2021年08月12日 修订人: 张鹏 3. Linux操作系统故障应急场景3.1. 系统CPU负载高并触发监控报警件级别:六级授权级别:部室负责人授权场景描述:主机CPU资源使用率较高并触发监控报警。业务影响:根据业务系统负

45、载判定告警信息:部门名:系统名:主机名称:主机名:实例名的Unix效劳器CPU利用率当前值为:value,告警阀值为:min-max,发生时间occurTime部门名:系统名:主机名称:主机名:实例名的Unix效劳器CPU系统时间当前值为:value,告警阀值为:min-max,发生时间occurTime部门名:系统名:主机名称:主机名:实例名的Unix效劳器CPU用户时间当前值为:value,告警阀值为:min-max,发生时间occurTime部门名:系统名:主机名称:主机名:实例名的Unix效劳器CPU等待IO时间当前值为:value,告警阀值为:min-max,发生时间occurTim

46、e启动条件:集中监控显示CPU资源使用率持续维持在较高水平现场保护:使用sosreport命令收集系统信息。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二级运维支持人员,当日值班经理,部室负责人3分钟T2使用root用户登录主机,执行sosreport命令保存现场信息5-10分钟T3GOL005查看系统CPU使用情况3分钟T4GOL006定位占用CPU资源最多的进程3分钟T5GOL014查看系统主要日志:在messages日志中是否有关于软、硬件的报错信息。5分钟T6查看数据库/应用日志是否有报错信息T7应急处置结束。N/A修订日期

47、:2021年5月20日 修订人:张鹏3.2. 系统内存使用率高并触发监控报警件级别:六级授权级别:部室负责人授权场景描述:主机内存资源使用率较高并触发监控报警。业务影响:根据业务系统负载判定告警信息:部门名:系统名:主机名称:主机名的可用内存百分比过低,当前值为:value,告警阀值为:min-max,发生时间occurTime部门名:系统名:主机名称:主机名:实例名的利用率当前值为:value,告警阀值为:min-max,发生时间occurTime部门名:系统名:主机名称:主机名:实例名的剩余KB数当前值为:value,告警阀值为:min-max,发生时间occurTime部门名:系统名:主

48、机名称:主机名:实例名的页交换出当前值为:value,告警阀值为:min-max,发生时间occurTime部门名:系统名:主机名称:主机名:实例名的页交换进当前值为:value,告警阀值为:min-max,发生时间occurTime启动条件:集中监控显示内存资源使用率持续维持在较高水平现场保护:使用sosreport命令收集系统信息。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二级运维支持人员,当日值班经理,部室负责人3分钟T2使用root用户登录主机,执行sosreport命令保存现场信息5-10分钟T3GOL007查看系统内存

49、使用情况3分钟T4GOL008定位占用内存资源较多的进程5分钟T5GOL009判断是否有僵尸进程3分钟T6GOL014查看系统主要日志5分钟T7应急处置结束。N/A修订日期:2021年5月20日 修订人:张鹏3.3. 系统I/O资源使用率高并长时间持续件级别:六级授权级别:部室负责人授权场景描述:主机I/O资源使用率较高并触发监控报警。业务影响:根据业务系统负载判定告警信息: 部门名:系统名:主机名称:主机名:实例名的Unix效劳器磁盘忙当前值为:value,告警阀值为:min-max,发生时间occurTime启动条件:集中监控显示I/O资源使用率持续维持在较高水平现场保护:使用sosreport命令收集系统信息。故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二级运维支持人员,当日值班经理,部室负责人3分钟T2使用root用户登录主机,执行sosreport命令保存现场信息5-10分钟T3GOL010查看系统I/O使用情况3分钟T4GOL011定位占用I/O资源较多的进程5分钟T5GOL014查看系统主要日志5分钟T6应急处置结束。N/A修订日期:2021年5月25

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论