LTM设备的运行维护-应急处理-技术支持流程_第1页
LTM设备的运行维护-应急处理-技术支持流程_第2页
LTM设备的运行维护-应急处理-技术支持流程_第3页
LTM设备的运行维护-应急处理-技术支持流程_第4页
LTM设备的运行维护-应急处理-技术支持流程_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2 F5 Networks, Inc.运维常用命令介绍列举运维过程中的常用命令,方便速查。详见附件。3 F5 Networks, Inc.F5设备日常检查 日常监控:对设备performance数据,syslog告警,主备状态,网络状态等设置监控 事件处理:对特殊事件及时告警并及时正确收集数据 定期巡检:(模板见附件)使用ihealth工具进行设备巡检(v10) 检查设备基本配置是否符合总行有关要求。 检查负载均衡设备CPU、内存等性能参数是否正常。 检查负载均衡设备硬盘空间、连接数等性能参数是否正常 检查负载均衡设备系统运行及日志是否正常。 检查设备上是否有异常事件和告警信息。 检查ihea

2、lth工具是否有风险报告,并及时更正。 对主备设备的非同步配置进行对比 (等)4 F5 Networks, Inc.系统安装方法及流程系统初始安装的流程,详见附件。5 F5 Networks, Inc.软件版本升级方法及流程软件版本升级的流程,详见附件。6 F5 Networks, Inc.7 F5 Networks, Inc.常见故障现象-硬件故障告警/现象原因处理建议设备产生如下日志,并无法启动:WARNING: CPU encountered 255 single-bit SDRAM ECC errors (corrected)WARNING: CPU encountered 255 s

3、ingle-bit SDRAM ECC errors (corrected)WARNING: CPU encountered 255 single-bit SDRAM ECC errors (corrected)内存问题联系技术支持RMADamon 日志中:Mar 20 06:43:00 local/blu-f89-abch-3a crit smartd4550: Device: /dev/sda, 3 Currently unreadable (pending) sectorsMar 20 07:13:00 local/blu-f89-abch-3a crit smartd4550: Dev

4、ice: /dev/sda, 3 Currently unreadable (pending) sectorsMar 20 07:43:00 local/blu-f89-abch-3a crit smartd4550: Device: /dev/sda, 3 Currently unreadable (pending) sectorsKern 日志中发现:Oct 5 10:05:21 local/NF39SL01-F3 err kernel: ata1.00: status: DRDY ERR Oct 5 10:05:21 local/NF39SL01-F3 err kernel: ata1.

5、00: error: IDNF Oct 5 10:05:21 local/NF39SL01-F3 warning kernel: Oct 5 10:05:21 local/NF39SL01-F3 warning kernel: end_request: I/O error, dev sda, sector 160014091 Oct 5 10:05:21 local/NF39SL01-F3 err kernel: Buffer I/O error on device dm-17, logical block 25160 Oct 5 10:05:21 local/NF39SL01-F3 warn

6、ing kernel: lost page write due to I/O error on dm-17 可能为硬盘坏道,也可能为 ID 405839 引起误报警联系技术支持确认设备产生如下日志, Oct 1 00:24:01 NF68SL08-B5 system_check18039: 010d0006:0: Chassis power supply 101 is not supplying power (status: 0): make sure it is plugged in.一般为电源故障联系技术支持确认并RMA 设备console无输出分析方法: 观察前面板灯是否亮起,如果无灯,

7、更换电源等部件。如亮起,检查Console线,如确认Console线无问题,但设备仍无输出联系技术支持RMA8 F5 Networks, Inc.排错方法软件、告警、网络等问题 软件,告警,网络等问题重启,切换,进程重启等,可以查看进程状态(bigstart status) ,日志/var/log/ltm及tmm等。 发生performance 问题,及时抓取top等performance等信息也很关键网络,业务问题一定要抓取Tcpdump。 9 F5 Networks, Inc.常见告警-软件故障告警/现象版本 结论及处理建议管理界面显示:error pageno content page

8、to display,/var/log/httpd日志显示Oct 10, 2012 4:02:12 AM mon.ChannelSocket init INFO: JK2: ajp13 listening on localhost/:8009 Oct 10, 2012 4:02:12 AM org.apache.jk.server.JkMain start INFO: Jk running ID=0 time=0/32 config=/usr/local/tomcat4/conf/perties 2012-10-10 13:47:44,691 ERROR Thr

9、ead-21 controller.TilesInterceptor:getDefinitionUrl - Failed during a Tiles definition look-up 2012-10-10 13:47:50,690 ERROR Thread-20v9Java及httpd问题。 重启tomcat4及httpd进程可以解决。 Syslog事件:1 NF39SL02-F2 mcpd3960: 01070408:5: Deleting abandoned subscriber connection for reflector_Subscriber 12-10

10、-17 4:02:04 12-10-17 v10.2.4 log rotation时的安全日志,可安全忽略Jan 13 00:40:01 tmm tmm1220: 011f0007:3: http_process_state_parse_header - Invalid action EV_BODY_COMPLETE during ST_HTTP_PARSE_HEADERS Jan 13 00:40:01 tmm tmm1220: 011f0008:3: http_process_state_parse_header - Invalid state transition to ST_HTTP_

11、ABORTED系统收到不规范的(non-RFC)Request 或者异常POST会出现这个err message但是这个不会影响其他正常的业务数据流。如果长期出现建议抓包分析ltm日志 Inet port exhaustion on 1 to 5:9000 all此类告警说明 snat 地址1的端口已经用完,这时会引起新的链接被丢弃,无法正常链接,此时需要添加snat pool增加snat 地址及总的端口数。LTM 日志011e0002:4: sweeper_update: aggressive mode activated.

12、all此类告警说明 日志发生时大量的内存被耗尽,导致memory使用超过阀值导致生成此日志,一般可能为突然大量的链接(ddos)造成,RAM cache大量使用,或者内存泄露,如日志长时不消失,此时应该引起注意,查看相应的performance并采取相应应对措施。/var/log/ltm出现如下日志:tmm tmm1609: 011e0001:4: Limiting closed port RST response from 299 to 250 packets/sec 或tmm tmm1609: 011e0001:4: Limiting icmp unreach response from

13、299 to 250 packets/secall此类告警说明 日志发生时,LTM因收到无法match连接表的tcp或icmp连接而发送的RST已经超过了阈值,这一般可能为网络异常,如ddos等,需要引起注意。一般这个阀值为250 10 F5 Networks, Inc.一般故障现场需要收集的信息(1)抓抓包文包文件:件:使用tcpdump在F5上抓包,如果有可能在backend server/client machine同时抓包或同时在浏览器运行httpwatch,抓包命令如下: #tcpdump nni 0.0:nnn s0 w /var/tmp/xxxx.cap host or host

14、 or host or host *由于F5采用的是full-proxy模式,抓客户IP和VIP只能抓到客户端的traffic,不能抓到server端的,请进行抓包时多加考虑,添加合适的IP地址不支持F5自带的:nnn,在上可以去掉,只写0.0 (表示所有进出traffic)*可以针对vlan或者interface抓包,针对mgmt抓包,一般情况下mgmt是eth0,可以在F5上通过ifconfig查看*可以添加端口号或协议名抓取特定的数据包*可以加-c 抓取一定数量的包, 针对业务流量大的情况下 *如果抓包文件是关于ssl流量的,请用ssldump命令在F5上解开tcpdump,解成明文,然

15、后将解密的明文和tcpdump一起提交给support,便于查看: 11 F5 Networks, Inc.一般故障现场需要收集的信息(2) 抓抓取取qkview: qkview尽量在故障的时候抓取,重启之后抓取的qkview十分干净,几乎看不出来任何信息。命令如下:# qkview, then take out $HOSTNAME.tech.out from /var/tmp/抓抓取取log日志日志,这个一定要抓取,qkview中的log不全。命令如下:# tar zcvf /var/tmp/$HOSTNAME-logs.tar.gz /var/log/*, then take out $H

16、OSTNAME-logs.tar.gz from /var/tmp/抓取抓取 RRD data tarball:# tar zcvf /var/tmp/$HOSTNAME-rrd.tar.gz /var/rrd/*, then take out $HOSTNAME-rdd.tar.gz from /var/tmp/抓取抓取SCCP log tarball:# ssh sccp tar czvf - /var/log/ /var/tmp/$HOSTNAME-sccp-logs.tar.gz, then take out $HOSTNAME-sccp-logs.tar.gz from /var/t

17、mp/12 F5 Networks, Inc.一般故障现场需要收集的信息(3)抓抓取故障截图取故障截图,在客户端是什么表现?网页打不开?服务能否登录?客户收到了什么样的报错信息? 开case的时候,尽量说明出问题的VS或者给出对应的IP地址,以方便support查询,节省时间。 如果怀疑硬件问题,尽快安排时间做EUD。运行EUD的时候请拔下所有的网线,连好console,留存console output,和EUD report一起提交给support以节省时间。 13 F5 Networks, Inc.有效收集信息-对收集信息进行检查信息类型信息类型检查方法检查方法TCPdump是否包括客户端

18、和服务器端两方向的包信息(SNAT很容易影响数据包收集)是否能反映出问题出现的现象,需要在提交时指出问题stream 序列号SSLdump 是否包含已解密的应用数据Core dump 必须使用md5sum在机器上检查,并且在提交前在PC上进行检查Qkview , log生成时间是否正确,是否可以正确解压缩,尽量提供V10的ihealth链接Debug是否为问题出现时收集,并指出问题出现时间点和收集方法Policy是否为问题VS所使用UCS是否可以正确解压缩其他按NSE提供方法检查,并提供准确详细的测试步骤14 F5 Networks, Inc.一键故障采集工具实现功能: 一键收集所有开CASE

19、需要的资料,包括var/log日志,tcpdump,qkview,UCS,打包上传到指定服务器目的: 快速收集故障现场资料,减少和support之间的来回资料收集请求,可用于自动排障脚本中的前置脚本实现语言: SHdate_tag=date +%Y%m%d%H%M/usr/sbin/tcpdump -ni 0.0 -s 0 -nnn -c tar zcvf /var/tmp/$HOSTNAME-$date_tag-logs.tgz /var/log/* /var/core/*tmsh save sys ucs /var/tmp/$HOSTNAME-$date_tag-ucscd /var/tm

20、pecho echo =Notice=echo please send the file /var/tmp/CASE-$HOSTNAME-$date_tag.tgz to F5 support16 F5 Networks, Inc.场景一:某台服务器对外服务不可用具体现象:具体现象:应用部门反应某业务对外服务不稳定,部分客户端请求无法回复,查看相关服务器后发现有一台或者几台服务器的应用程序发生故障,但不完全影响该业务对外服务。启动依据:启动依据:由应用部门通知。影响范围:影响范围:影响当前F5分配到该(几)台服务器上的业务。处处理方案:理方案: 1.应用部门通知网络部在F5上隔离该服务器。2.

21、登陆相关F5,将相关节点服务器隔离。3、待该服务器应用程序恢复正常后,由应用部门通知网络部门重启启用该节点。登陆相关F5,将相关节点服务器恢复。验证方案:验证方案: 应用部门登陆恢复服务器,检查应用状态是否正常,是否有连接分配。17 F5 Networks, Inc.场景二:两台F5设备均为ACTIVE状态具体现象:具体现象:两台F5设备均为ACTIVE状态影影响范围:响范围:不对业务造成影响,但存在隐患。处处理方案:理方案: 1 确认两台active状态的F5设备中,哪一台是当前在用的,通过以下两种方式进行确认,正常情况下,因为冗余连接失效,当前在用的F5设备应该是原先备用的那一台。1) 使

22、用https登录到两台F5设备的shared ip,查看是哪一台设备;2) 在核心交换机上查看arp表中,以cisco交换机命令为例,show ip arp “shared ip”,确认对应的是哪一台F5设备的MAC地址。2. 检查心跳线连接,排除由于心跳线松动造成冗余连接失败的情况。3. 心跳线连接恢复正常后,对当前处在备用状态的F5设备进行重启操作(应该是原先主用的那台F5设备)。这时网络中会恢复为只有一台主用F5设备的情况(重启备机不会影响业务)。验验证方案:证方案:以V9|V10版本下命令为例,登陆F5设备通过命令: b failover show,确认F5主备关系是否恢复正常。18

23、F5 Networks, Inc.场景三:主用F5设备发生故障具体现象:具体现象:主用F5上所有业务受到影响。影影响范围:响范围:该套F5上所有业务。处处理方案:理方案: 1SSH方式登陆F5设备,以V9|V10版本下命令为例,通过命令:b failover standby行进行主备切换,检测是否切换成功。2、如果失败,则通过下电方式关闭主用故障F5。3、SSH方式登陆备机,以V9|V10版本下命令为例,通过命令:b failover show判断备机状态是否已经变为active。验证方案:验证方案: 1、登陆F5设备,以V9|V10版本下命令为例,通过命令:b failover show,确

24、认F5主备切换是否成功。2、应用部门通过登陆方式作技术验证。19 F5 Networks, Inc.场景四:两台F5设备同时出现故障具体现象:具体现象:两台F5设备同时不可用,该套F5上所有业务受到影响。影影响范围:响范围:该套F5上所有业务。处处理方案:理方案: 1、 强制切换,关闭原先主用的F5设备,检测是否切换成功。2、 如果仍然故障,则关闭原先备用的F5设备,下电重启原先主用设备后,检测系统状态。3、 仍不能恢复正常的话,采用冷备设备作为应急。验证方案:验证方案: 1、通过SSH方式登陆F5设备,以V9|V10版本下命令为例,通过命令:b failover show,确认F5主备切换是

25、否成功。2、应用部门通过登陆方式作技术验证。20 F5 Networks, Inc.场景五:客户端异常行为导致F5性能容量耗尽具体现象:具体现象:主用F5设备出现CPU或内存利用率持续超警戒阀值(警戒阀值的具体值可根据该套F5所承载的应用数量及性能状况等因素来设定)。网络部监控到F5产生如下告警:Inet port exhaustion on X.X.X.X to A.B.C.D:X (proto 6)。安全部监控到分行某个客户端向此套F5设备上的某个访问地址大量发异常数据包。影影响范围:响范围:该套F5上所有业务。处处理方案:理方案: 1、通过SSH方式登录F5设备,以V9|V10版本下命令

26、为例,通过命令:b conn client X.X.X.X,确认分行客户端是否与此套F5设备上的某个访问地址大量建立连接。2. 登录相应与F5互联的交换机 ,将客户端进行隔离3. 以V9|V10版本下命令为例,通过命令行:top或网管proviso系统确认此台F5设备性能容量是否恢复正常(CPU及内存利用率均处于30%以下)。 验证方案:验证方案: 1、SSH方式登陆F5设备,通过命令行:top或网管proviso系统确认此台F5设备性能容量是否恢复正常(CPU及内存利用率均处于30%以下)。21 F5 Networks, Inc.场景六:F5F5并发连接数超阀值并发连接数超阀值具体现象:具体

27、现象:网络部监控发现F5并发连接数超阀值,且持续时间较长。影响范围:影响范围:该套F5上业务均受到不同程度影响。处处理方案:理方案: 1、HTTPS方式登陆F5,以V9|V10版本下操作为例,依次点击“Virtual Server”-“Statistics”,确认当前访问量最高的3个应用;2、临时规避方法为在F5上限制这3个应用的并发连接数,由于会影响到正常访问,需征求相关部室意见;3、登陆相关F5,以V9|V10版本下操作为例,点击进入相应Virtual Server,临时将 connection limit设置为XXX(一般为服务器台数*100),待F5并发连接数恢复正常后,再商开发中心、

28、应用部门逐步调大connection limit限制;4、网络尽快确定方案,利用备机,完成F5扩容,彻底解决F5并发连接数高对设备造成冲击,届时再取消connection limit限制。验证方案:验证方案: SSH方式登陆F5设备,以V9|V10版本下命令为例,通过命令:b conn | wc -l,确认F5 并发连接数下降至阀值以下,且设备运行正常。22 F5 Networks, Inc.场场景景七七:某台某台F5 CPUF5 CPU利用率超阀值利用率超阀值具体现象:具体现象:网络监控发现F5 CPU利用率超阀值,且持续时间较长,业务人员反映部分业务访问缓慢。影影响范围:响范围:该套F5上

29、业务均受到不同程度的影响。处处理方案:理方案: 1、正常情况下F5 的CPU利用率达100%后,F5会自动主备切换。2、若未自动主备切换,则改为手动主备切换(以V9|V10版本下命令为例,使用命令:b failover standby),再次确认由备用转为主用状态的F5 CPU利用率是否超阀值,若CPU利用率转为正常,则问题规避解决,后续再排查已转为备用状态的问题F5设备;若主备切换后问题还是不能得以解决,则参照场景四排查问题。验证方案:验证方案: 以V9|V10版本下命令为例,SSH方式登陆F5设备通过命令:top,确认F5 CPU利用率下降至阀值以下,且设备运行正常。24 F5 Netwo

30、rks, Inc.新case的提交步骤一 确认机器SN 确认机器服务类型 确认case联系人,电话及邮件,联系人建议为现场服务商工程师步骤二 获取问题背景(如配置更改,网络环境变化等) 确认问题具体现象,问题严重性步骤三 获取产品信息(激活模块),版本 收集相应日志等步骤四 通过F5 support 提交case25 F5 Networks, Inc.提交case的三种途径及如何加快响应使用已经开通的web support 账号在线 开case,等待工程师响应如果紧急开完case后联系TAM并发送case号电话技术支持直接开case对于Sev1/2的case可以直接要求转至产品NSE处理Sev

31、3以下case将回电响应邮件 开case 响应方式同websupport.Web 电话邮件开case时一定要准备好前面一页所提到的所有信息,如果之前开过case,可以提供之前的case号,以便客服更快的找到你的联系信息技术支持中心电话:26 F5 Networks, Inc.开通websupport Registering for access to the WebSupport portalTo register for access to the WebSupport portal, perform the following procedure:Log in to .Below the Other Sites You May Apply For heading, in the WebSupport section, click the click here link.Complete the registration page.You will be notified by email within 24 hours that your account has been ena

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论