SCADA系统信息安全常见故障处理方法_第1页
SCADA系统信息安全常见故障处理方法_第2页
SCADA系统信息安全常见故障处理方法_第3页
SCADA系统信息安全常见故障处理方法_第4页
SCADA系统信息安全常见故障处理方法_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、附件附件 5 SCADA 系统信息安全常见故障处理方法系统信息安全常见故障处理方法1 1、 PLCPLC 通讯中断通讯中断 .- - 1 1 - -2 2、 站控机中毒导致工程运行不正常或不能启动站控机中毒导致工程运行不正常或不能启动.- - 3 3 - -3 3、 站控数据站控数据不不更新更新.- - 6 6 - -4 4、 第三方设备通讯故障第三方设备通讯故障.- - 8 8 - -5 5、 RCIRCI 自动停机自动停机 .- - 9 9 - -6 6、 由于由于 RCIRCI 需要轮询点数过多导致的故障需要轮询点数过多导致的故障.- - 1212 - -7 7、 阀室数据上传故障阀室数

2、据上传故障.- - 1414 - -8 8、 甪直站调压橇压变甪直站调压橇压变 PT5802PT5802 传输数据错误的故障处理传输数据错误的故障处理.- - 1717 - -9 9、 压气站压气站 HIMAHIMA ERRORERROR 故障分析和处理报告故障分析和处理报告.- - 1919 - -1010、 控制网组网不正常控制网组网不正常.- - 4343 - -1111、 ANYBUSANYBUS COMMUNICATORCOMMUNICATOR 与与 ESDESD 系统通讯中断系统通讯中断 .- - 4646 - -1212、 I/OI/O 模块通讯故障模块通讯故障 .- - 484

3、8 - -1313、 ABAB PLCPLC 系统系统 ETHERNETETHERNET 冗余网络通讯冗余网络通讯 A A 网失败后网失败后 B B 网不能工作网不能工作 .- - 4949 - -1414、 北调无法看到北调无法看到 ESDESD 系统中的模拟量系统中的模拟量.- - 5454 - -1515、 通讯服务器冗余配置失败通讯服务器冗余配置失败.- - 5555 - -1616、 配置路由器时在配置界面上出现乱码配置路由器时在配置界面上出现乱码.- - 6060 - -1717、 DDNDDN 通讯中断通讯中断 .- - 6161 - -1818、 站场与北调的通讯频繁闪断站场与

4、北调的通讯频繁闪断.- - 6262 - -1919、 路由器用户名、密码失败,无法登录及配置路由器用户名、密码失败,无法登录及配置.- - 6262 - -2020、 第三方设备与上位机通讯无法建立或通讯不正常第三方设备与上位机通讯无法建立或通讯不正常.- - 6464 - -2121、 机柜间到站控室的机柜间到站控室的 1#1#光纤不通光纤不通 .- - 7070 - -2222、 HIRSCHMANNHIRSCHMANN 交换机交换机 IPIP 地址设置地址设置 .- - 7272 - -2323、 交换机及路由器对应端口通讯方式配置交换机及路由器对应端口通讯方式配置.- - 7878

5、- -2424、 洛阳分输站与北京调控中心通讯中断洛阳分输站与北京调控中心通讯中断.- - 8484 - -1、 PLC 通讯中断通讯中断1、故障现象、故障现象站控机中有“PLC 通讯中断”报警,且相应的 NOE 模块会显示“Fault”红灯亮。2、故障原因、故障原因NOE 以太网模块网络地址配置错误,造成 PLC 通信不能实现冗余,主备切换后无法实现 PLC 与 RCI 间的通讯。比如说济南站的主备两个 NOE 模块的 IP 按照IP 点表上应该是 5(主)和 7(备) ,另有 8 这个IP 是预留未使用的,如果错吧 172.

6、17.62.67 配制成 8,由于 RCI 识别的NOE 模块 IP 是 7 而非 8,就会造成主备切换时,PLC 与 RCI通讯不上而出现通讯故障报警,该报警将显示在站控机界面上。3、解决方法、解决方法(1)首先确认 PLC、交换机、RCI 间各网线接口没有虚接或掉落的。(2)对照 IP 表,试着 ping PLC 两个 NOE 以太网模块的 IP 地址,哪个地址ping 不同,就说明哪个模块有问题。可以通过上次备份的 PLC 工程查找到 NOE 的网络设置,如图 8.1.3 和图 8.1.4 的操作步骤即可看到。可以对各 N

7、OE 模块的网络进行设置,即“Internet Address” 、 “Subnet Mask”和“Gateway” 。(3)在笔记本上打开 Concept 软件,打开原先备份好的工程,可以通过网线或串口线连接 PLC(如果两个 NOE 模块的地址实在找不到的话) ,按照(2)中的方法重新设置好网络后,重新下载程序到 PLC 的控制器中。(4)断开笔记本电脑与 PLC 的链接,对 PLC 的备机进行热备设置。将备机CHS 热备模块的钥匙开关拨到“Xfer”挡,按下程序更新按钮,然后松开按钮,会看到备机架的 CHS 模块显示“Standby”橙色灯亮,当该灯常亮以后则表示热备完成,这时备机架 C

8、PU 模块的“Run”绿灯将变亮,主机架 CHS 模块的“Primary”绿灯常亮。(5)PLC 与 RCI 的通讯恢复以后,站控机电脑屏幕上“PLC 通讯中断”报警可以确认掉。2、 站控机中毒导致工程运行不正常或不能启动站控机中毒导致工程运行不正常或不能启动1、故障现象、故障现象站控机工程运行不正常或不能启动。2、故障原因、故障原因站控机外接移动存储设备而中毒,病毒影响 Viewstar 软件的正常使用。3、解决办法、解决办法采用瑞星杀毒软件、病毒专杀工具(如 Worm.LovGate 爱情后门专杀)对站控机进行杀毒。(1)图 8.2.1 为靖边站在用瑞星对站控机进行查杀后的情况,图中可见病

9、毒名称都为 Backdoor.SdBot.wgb,一种集后门、蠕虫功能于一体的,通过网络共享和操作系统漏洞进行传播的病毒。病毒会尝试通过弱密码登陆目标系统,还会在感染的电脑上打开后门接收攻击者发出的指令,然后连接特定的 IRC 服务器通知攻击者病毒的存在。病毒会扫描网段内的机器并猜测共享密码,占用大量网络带宽资源,容易造成局域网阻塞。它通过 IRC 服务器接受攻击者发出的指令,例如安装/卸载后门、下载并运行文件、结束进程、运行代理服务器、盗取流行游戏的账号、对指定的 IP 进行 DOS(拒绝服务)攻击等。(2)2009 年 12 月 16 日,红柳站站控机工程无法启动,每次启动后提示“LSAS

10、S.EXE 出错,系统将在 60 秒内自动关闭!”,然后在指定的时间内自动重启。然后维护人员在安全模式下用瑞星对站控机进行病毒查杀,杀出了大量的“packer.main007”木马。查杀结束后重启站控机和工程,Viewstar 运行恢复正常。由 SYSTEM 执行的 lsass.exe 是“无害”的系统进程,用于微软 Windows 系统的安全机制,本地安全和登陆策略。但是假如在站控机的任务管理器中同时看到lsass.exe 和 LSASS.EXE 这两个进程,则表明站控机已经中了Windang.worm、irc.ratsou.b、Webus.B、MyDoom.L、Randex.AR、Nimo

11、s.worm 病毒,或者是该病毒的变种。LSASS.EXE 在任务管理器中显示为当前用户在执行,而非 SYSTEM 在执行,该病毒通过软盘、群发邮件和 P2P 文件共享进行传播。解决办法如下:(a)使用 prockiller 进程杀手终止 LSASS.EXE 进程;(b)删除病毒文件(有的文件可能没有):C:/Program Files/Common Files/INTEXPLORE.pifC:/Program Files/Internet Explorer/INTEXPLORE.comC:/WINDOWS/EXERT.exeC:/WINDOWS/IO.SYS.BAKC:/WINDOWS/LS

12、ASS.exeC:/WINDOWS/Debug/DebugProgram.exeC:/WINDOWS/system32/C:/WINDOWS/system32/MSCONFIG.COMC:/WINDOWS/system32/(c)使用 Free Window Registry Repair 注册表清理工具清理注册表中的垃圾信息。也可手动清除,下面是手动清除的需要删除的项目:HKEY_CLASSES_ROOT/WindowFilesHKEY_CURRENT_USER/Software/VB and VBA Program Settings HKEY_CURRENT_USER/Software/M

13、icrosoft/Internet Explorer/Main 下面的 Check_Associations 项KEY_LOCAL_MACHINE/SOFTWARE/Clients/StartMenuInternet/INTEXPLORE.pifHKEY_LOCAL_MACHINE/SOFTWARE/Microsoft/Windows/CurrentVersion/Run 下面的 ToP 项(d)使用 RegC 瑞星注册表修复工具修复注册表;(e)重启站控机后可再进行一次全盘杀毒。3、 站控数据不更新站控数据不更新1、故障现象、故障现象站场 SCADA 系统的站控电脑上显示的数据部分或大部分不

14、能及时更新,数据处以橙色状态显示,如图 8.2.5 所示。以进出站压力或温度为例,如果这些数据不能及时更新,那么 Viewstar 日报表中每小时进出站压力或温度所记录的值同样也是不更新的,即固定不变。这样值班人员将不能正确判断站场的实际生产情况,形成较大的安全隐患。一个简单的例子:比如某分输站的电动调压阀采用压力 PID 控制出站压力时,门站用气量突然减小了(如气罐车停止加气) ,但门站没有事先通知我分输站值班人员,而 PID 控制具有一定的滞后性,使得出站天然气因憋压而迅速上升。但是这时由于站控数据不能及时更新,造成值班人员未能及时发现,使得出站压力在有限的时间内能超过安全泄放阀设定压力,

15、使得安全泄放阀放空。这本来是一个完全可以避免的情况。2、故障原因、故障原因(1)站控机与 RCI 间的日期时间不一致;(2)RCI 长时间不间断工作,硬件老化,工作性能下降;(3)RCI 内部配置不高;(4)第三方设备(如流量计算机、UPS)又不断地增加,数据采集量增大,工作负担加重;(5)网络中有网线虚接或断开的地方。这些使得 RCI 不能及时采集各种第三方设备的数据,即发生数据丢失现象,从而影响数据库中数据的准确性。3、解决办法、解决办法RCI 与很多第三方设备进行通讯,包括 PLC、UPS、低压配电盘、流量计算机和燃气发电机等等,因为它与 PLC 的通信量最大,所以在此以它与 PLC 的

16、通讯为例进行说明。解决数据不更新的步骤如下:(1)在站控机上打开校时软件,对站控机进行校时,将其时钟与 RCI 同步。(2)在站控机操作的系统配图界面,从中找到图标,点击弹出一个对话框。在该对话框中将“轮询”勾选上,点击应用。通常情况下,站控数据都会进行一次刷新,原先不变的数据都会发生变化,橙色变成白色即恢复正常。如果变化不大,可再轮询几次。(3)如果以上都不起作用,可以对两台 RCI 进行切换,将原先为备用的切换到主用,并可重复(1) 、 (2)步,看看数据显示是否恢复正常。(4)如果以上都不起作用,可以将站控机工程停掉,然后再重启工程,再观察数据显示是否恢复正常。(5)如果以上都不起作用,

17、可以先将站控机工程停掉,然后把两台 RCI 分别重启,之后再重启工程,再观察数据显示是否恢复正常。(6)如果以上都不起作用,可以将站控机工程停掉以后对站控机进行重启,主要还是为了刷新站控电脑的网络连接,然后重启工程,再观察数据显示是否恢复正常。(7)如果以上都不起作用,可以用站控机的备份工程替换现有工程,再观察数据显示是否恢复正常。(8)通常经过以上工作都可以恢复站控机数据的更新,如果上工作都不起作用,则需查看网络连接上有没有虚接的或断线的,交换机是否工作正常等。确认网络连接无问题后,可对 RCI 进行更换或硬件升级,提高其工作性能。4、 第三方设备通讯故障第三方设备通讯故障1、故障现象、故障

18、现象在站控机上出现第三方设备通讯故障报警,如 UPS 通讯故障、流量计算机通讯故障、低压配电盘通讯故障、燃气发电机通讯故障等。2、故障原因、故障原因(1)第三方设备停机或断电。(2)通讯回路断路或有源 1 转 2 接口插头接触不良。3、解决办法、解决办法(1)对于由设备停机或断电造成的通讯故障,无非是去查找设备本身停机的原因,以重新起机恢复通讯。(2)而由通讯线路引起的通讯故障通常都集中在 LSU 232_2 防雷有源 1 转 2接口上。LSU 232_2 是用来将第三方设备的数据分别同时传到两台冗余的 RCI 通讯服务器用的:LSU 232_2 的“A on”灯对应 A line, “B o

19、n”对应 B line,这两个灯亮则表明第三方设备到对应的 1#RCI 和 2#RCI 是接通的, “TxD”或“RxD”灯闪烁则表示目前第三方设备正在与 RCI 进行数据的发送或接收。通过观察这些指示灯的情况即可判断当前的第三方设备通讯情况。通常第三方设备通讯故障都是由于“C line”处的串口插得不稳所至,因为该口串口的固定螺丝不容易固定住插头(硬件设计造成) ,开关机柜门时容易碰到该插头串口线,导致插头松动,从而引起通讯故障。这时只需要紧固一下该插头既可。(3)如若发现 LSU 232_2 的指示灯都不亮了,可以用万用表检测其电源输入端电压,看看供电是否正常。如果电压为 0,则需检查电源

20、线路情况,以恢复供电。如果电压正常(24VDC) ,且无串口虚接情况,则需判断 LSU 232_2 是否故障。可用调试笔记本接到来至第三设备的串口,通过在电脑上运行串口调试工具,来检测是否能够接收到第三方设备的数据。(a)可以接收到第三方设备的数据,则将来至第三方设备的串口接至 C line口,分别用笔记本电脑接 A line 和 B line 口,检测到是否可以接收到第三方设备的来自第三方设备(对应 C line)接到2#RCI(对应 B line)接到1#RCI(对应 A line)数据。如果接收不到,则表明 LSU 232_2 故障,需维修或更换。(b)不可以接收到第三方设备的数据,则需

21、查看来至第三方设备的数据线路是否有断路或设备本身存在故障。5、 RCI 自动停机自动停机1、故障现象:、故障现象:RCI 自动停机,蓝色运行指示灯熄灭,绿色电源指示灯闪烁(正常运行下蓝灯、绿灯都常亮) ,断电并重新上电启动后设备能运行,但只维持一段时间后会再次停机,有的 RCI 甚至不能重新启动。2、故障原因:、故障原因:RCI 长期不间断运行,致使其电源(型号 HP-U280EF3)内部芯片老化损坏,或电源风扇损坏,无法给 RCI 正常供电,致使设备自动停机。3、解决办法:、解决办法:更换 RCI 电源。但如能检查出电源的损坏部件,则可对该部件进行更换,以减少成本,如淮安站就曾经有一个电源是

22、 K419 TNY2684 28021B 芯片损坏(过电流或过热导致损坏) 。电源更换步骤如下:(1)对故障的 RCI 下电,将后板插槽上的串口线、网线断开,取出 RCI,打开设备上盖板。(2)找到 RCI 的电源,将与电源相连的各插头拔下,然后松开固定螺母,将故障电源取出。(3)换上新的电源,重新固定好,并将各插头插上,整理好内部电线后盖上盖板。将串口线、网口重新接上,重新上电,观察电源灯绿灯、运行灯蓝灯是否常亮,常亮为正常。在上位机中使用指令对 RCI 进行切换,将更换好的 RCI 切换为主(为了减少对设备的损害,最好是采用软切换,但也可用硬切换,即关掉原先无故障的那台 RCI,观察当前已

23、维修的 RCI 是否能自动切换为主) ,测试设备运行是否正常。如果在上位机中的各种操作均无问题,则说明当前 RCI 工作正常,故障已排除。6、 由于由于 RCI 需要轮询点数过多导致的故障需要轮询点数过多导致的故障1、故障现象、故障现象郑州站改造过程中在升级 HIMA 程序后,发现站控系统 ESD 休眠命令下发后,站控机不断有新的休眠报警提示,确认复位后,仍不断弹出,逻辑上站控机休眠状态灯正常时应该是变红,不闪烁的,但现场情况为郑州站的休眠状态灯不断闪烁。2、故障原因、故障原因开始以为是添加地址冲突造成,对所有新添加的数据点地址进行核查,未发现地址冲突问题。用调试笔记本与 PLC 联机发现上位

24、机中的 ESD 休眠命令已经下发,确认故障只存在于站控机系统中。经过一段时间的检查后发现,由于郑州站的HIMA 模块有 9 个之多,添加的报警点有 50 多个,在加上原来系统需要扫描的地址,改造后郑州站每次站控机轮询需要检测的地址有近 200 个,根据经验,一般轮询地址点超过 100 后,就会造成数据采集不准。这么多的地址如果同时扫描的话,很容易造成信号不稳和紊乱。故此,考虑将轮询地址分两批扫描。3、解决办法、解决办法(1)用 Total Commander 软件登陆 RCI,在修改文件之前首先将配置文件拷贝到当地硬盘进行备份。(2)将 RCI 中的 MBPOLL_XXX_YYY.POL 文件

25、拷贝到当地硬盘下,其中XXX 为 RCI NUMBER,例如南京为 175;YYY 为通讯端口号,例如 PLC 为 17。打开 MBPOLL_XXX_YYY.POL:(3)可以看到配置文件中第四行 MbAnz 为 160,大于 100,所以将其修改为两次轮训:(4)保存后,将修改后的配置文件 DOWN 回到 RCI 中:(5)最后使用 INIT 6 命令重启 RCI 使配置生效,对另一台 RCI 进行同样操作即可。修改后,故障现象排除,系统恢复正常。7、 阀室数据上传故障阀室数据上传故障1、故障现象、故障现象RTU 阀室数据不能上传到北京调度,数据不能更新,调度也无法对阀室设备进行操作。2、故

26、障原因、故障原因(1)机柜供电系统掉电;(2)DI 或 AI 模块数据没采集上;(3)RTU 控制器工作不正常;(4)RCI 与路由器间通信故障。3、解决办法、解决办法(1)检查机柜是否掉电,机柜掉电了的话,自然所有设备都无法工作,数据也无法上传。进入阀室大门,先看 TEG 发电机是否还在工作,如果已经不工作了,则很有可能 RTU 机柜和通信机柜内设备已经掉电。如果没掉电则表示蓄电池仍有电,但是请尽快重启 TEG 发电机。(2)打开 RTU 机柜门,查看各 DI 或 AI 模块(16 点开关量输入模块 AS-BDEP-256、4 通道模拟量输入模块 AS-BADU-256 等)的输入端指示灯是

27、否红色常亮,亮则表示接通,正常情况下 DI 和 AI 模块的输入通道指示灯亮均会有亮的,因为都涉及到通道的使用。因为有发生过 DI 或 AI 模块的供电回路保险丝烧断的情况,致使输入模块无法采集现场数据,这种情况下更换保险即可。如果保险没有烧断,确认模块供电正常后,所有输入端的灯仍不亮。也可通过模块识别来判断哪个模块连接不上。使用计算机登陆到 RTU 上,进入 RTU 的硬件配置,进入 I/O Map,弹出以下窗口:上图中,在 Detected 下是红色背景的,证明这几块模块不被系统识别,它们的数据将无法通过背板传送到 RTU 的 CPU 中,是灰色背景的表示这部分硬件配置和实际完全一致。(3

28、)如果 DI 和 AI 模块工作指示灯正常,则检查 RTU 处理器模块 PC-E984-258。首先查看它有没有掉电,因为它也有自己的保险,如果没有掉电则通过观察控制器的各 LED 灯即可判断它工作是否正常。各 LED 灯的含义如下:CPU 的 LED 灯含义LED 名称颜色含义Ready黄色已供电,CPU 正在运行Run黄色用户程序正在运行Bat low红色电池电量低或已没电Modbus 1黄色传输活跃Modbus 2黄色连接笔记本用如果其中的 Ready 灯或 Run 灯不亮黄色,则说明控制器有问题,对控制器进行重启,并连接笔记本电脑,打开 Concept 软件,在线查看程序工作情况是否正

29、常,各现场设备的数据是否能正常传输被采集到 RTU。如果程序出问题,可采用备份程序重新下装到控制器中,再运行查看数据采集情况是否恢复。如果 Modubus 灯不亮黄色,则说明通信有问题,看看网线有没有虚接的地方,对其进行紧固,或更换一根完好的网线。然后观察 RJ-45 网口处 LED 灯的状态,黄色表示连接上,绿色表示通信活跃,如图 8.5.3 所示。并连接电脑查看数据采集情况是否恢复。假如这些工作都做了以后仍然连接不上控制器,无法恢复程序,或采集到的数据仍然传不出去,则表明是控制器硬件问题,前提是确认网线没问题,则需更换控制器,并将更换下来的控制器进行维修。(4)如果现场数据能够被正常采集上

30、来,则问题将出在通信上,这时需对RCI 和路由器进行检查。检查网线或其他数据接头是否有虚接的,将它们紧固,查看网口处指示灯的闪烁是否正常。确认网络线路连接没有问题以后,如若数据的上传仍然没有恢复,可以对 RCI 和路由器进行重启,如果硬件没有问题的话,通常情况下数据通信链路都能恢复,因为软件配置都不会有什么改变。(5)如果还是有问题的话,可能是 RCI 的串口损坏或者 RCI 其它硬件出现问题,可以更换 RCI 测试一下,具体方法是,将 RCI 断电后取下,将 RCI 内的一块内存卡 SDCFB-64-101-80 取下,插入新的 RCI 内部,在恢复连线上电,检查通讯是否正常,如果通讯仍然不

31、正常,就需要将旧的 RCI 及卡和一套新的 RCI 及卡寄到中油龙慧自动化公司,由工程人员对旧的 RCI 进行检测,对新的 RCI 进行配置,得出结论及配置好新 RCI 后一并返回管理处。 8、 甪直站调压橇压变甪直站调压橇压变 PT5802 传输数据错误的故障处理传输数据错误的故障处理1、故障现象、故障现象甪直站更换了一个调压撬压力变送器以后,该压力取样点传输上来的数据跟实际现场压力表数据严重不符。2、故障原因、故障原因由于更换了压力变送器,将原先量程压力范围为 0-6Mpa 的压力变送器换为量程为 0-10MPa 的压力变送器,而原先的上位机中数据库和 PLC 程序都还是按照原来 0-6M

32、Pa 的量程进行运算和执行的,因此造成传输后数据换算结果发生错误。3、解决办法、解决办法将上位机 viewstar 的数据库跟 PLC 程序中的对应的压力量程 0-6Mpa 改为 0-10Mpa,数据就对应上了真实值。具体修改办法如下:(1)在 concept 中打开 PLC 程序。找到相应的 SCALWTOR 功能块,它用来将所采集到的模拟量电信号换算压力值:其中,PI12020,4095,rPI12020.0,10.0,两者间的换算关系如下式:VALOUT=+SCALBMINMININMAXINSCALBMINSCALBMAXMININVALUE_rPI1202=4095120210PI修

33、改压力上限,即对 SCALBMAX 进行修改既可,将 6 改成 10。然后将更改后的程序进行下装,在“Online”选项中选择“Download changes” 。(2)Viewstar 数据库中的数据点的更改:数据点的更改在组态环境 Graphical Editor 点击 Para 图标,进入数据库。数据库中,温变跟压变是在 MIA 下面,找到要修改 PT 所对应的阀号。文件夹如下图所示:在 value 下的数据里面更改具体的参数。其中 address 为 6 位的 IEC 地址,Alert_hdl 为报警设置,archive 为归档设置,common 为描述,单位及数据点位数设置,msg

34、_conv 为量程转换设置,pv_range 为量程范围设置。在此只需在pv_range 中更改量程,将原来的 0-6MPa 更改为 0-10MPa 即可。9、 压气站压气站 HIMA ERROR 故障分析和处理报告故障分析和处理报告1、适用对象、适用对象SCADA ESD 系统2、故障现象、故障现象从2009年11月22日,红柳站第一次发生4块HIMA F3DIO 20/8系列模块(F3A、F3B、F3C和F3D)同时Error故障报警,至2010年1月29日期间,四道班、轮南、红柳、玉门、靖边和中卫站6座场站发生HIMA ERROR共34次,涉及模块39块。其中红柳、靖边、中卫站为与西二线

35、联络站,共发生27次,占总故障数的79.4%,轮南、玉门站各发生1次,四道班站发生5次。当发生 ERROR 时,相应的 Remote I/O 模块将停止运行,看门狗信号会被切断,所有的输出将置 off,ERROR 灯变红,ERROR code0。最终造成 ESD 系统无法正常运行,严重影响场站的安全平稳运行。下表为绝大部分的 HIMA ERROR 情况统计:HIMA ERROR 情况统计序号站 名日 期HIMA 模块ERROR 信息1轮南站12 月 19 日F3B因为 HIMA 的日期和时钟未调整,所以诊断日志上缺少记录。2四道班站11 月 27 日F3DIOT UNEXPECTED COMP

36、ARATOR INTERRUPT3四道班站11 月 29 日F3DIOT UNEXPECTED COMPARATOR INTERRUPT4四道班站12 月 22 日F3DIOT UNEXPECTED COMPARATOR INTERRUPT5四道班站12 月 26 日F3DIOT UNEXPECTED COMPARATOR INTERRUPT6四道班站1 月 8 日F3DIOT UNEXPECTED COMPARATOR INTERRUPT7红柳站11 月 22 日F3A、F3B、F3C、F3DIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State

37、 FAILURE STOP8红柳站11 月 24 日F3A、F3B、F3C、F3DCPU State FAILURE STOP9红柳站11 月 26 日F3A、F3B、F3C、F3D、F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State FAILURE STOP10红柳站12 月 19 日F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED11红柳站12 月 26 日F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED12红柳站1 月 6 日F3A、F3B、F3D、F3

38、EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State FAILURE STOP13红柳站1 月 20 日F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED14玉门站12 月 17 日F3EIOT UNEXPECTED COMPARATOR INTERRUPT15靖边站12 月 4 日F3E、F3GIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State FAILURE STOP16靖边站12 月 5 日F3E、F3GIOT TIMEOUT OF CPU WATCH

39、DOG TIME OCCURREDCPU State FAILURE STOP17靖边站1 月 3 日F3A、F3B、F3C、F3D、E3E、F3F、F3GIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State FAILURE STOP18中卫站12 月 26 日F3A、F3B、F3C、F3D、F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State FAILURE STOP19中卫站12 月 30 日F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED20中卫站

40、1 月 1 日F3A、F3B、F3D、F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State FAILURE STOP21中卫站1 月 2 日F3B、F3D、F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State FAILURE STOP22中卫站1 月 3 日F3B、F3C、F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State FAILURE STOP23中卫站1 月 10 日3:11F3EIOT TIMEOUT OF CPU WATC

41、HDOG TIME OCCURRED24中卫站1 月 10 日17:33F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED25中卫站1 月 11 日12:54F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED26中卫站1 月 11 日16:30F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED27中卫站1 月 12 日16:53F3B、F3C、F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State FAILURE STOP28中卫

42、站1 月 12 日23:20F3B、F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State FAILURE STOP29中卫站1 月 13 日1:29F3B、F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State FAILURE STOP30中卫站1 月 25 日F3B、F3C、F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURREDCPU State FAILURE STOP31中卫站1 月 29 日F3EIOT UNEXPECTED COMPARATOR

43、INTERRUPT注:红色标记为 F3 DIO 20/8 02 型 IO 模块,未标记的为 F3 DIO 20/8 01 型模块。3、总体故障分析、总体故障分析以下 3 种原因之一均会导致 HIMA 模块 ERROR:CPU 检测到自身有一个硬件故障;CPU 检测到操作系统有一个软件错误;Watchdog 触发 ERROR STOP,因为 CPU 的运行周期 Cycle time 超过了Watchdog time。HIMA 模块发生 ERROR 后,其 CPU 将停止应用程序的执行,所有硬件和软件的测试都会结束,所有的输出将被重置,只能在 PADT(Programming and debugg

44、ing Tool)中通过“Reboot Resource”命令将 CPU 重启。然而,具体情况还需要结合各站 HIMA Remote I/O Diagnostics log(诊断日志)进行分析。模块的ERROR 信息大体为以下三条:IOTUNEXPECTED COMPARATOR INTERRUPT,其中 IOT 表示CPU self tests,即 CPU 在自检时发现未知的比较器中断;IOTTIMEOUT OF CPU WATCHDOG TIME OCCURRED,即 CPU Watchdog time(看门狗时间)超时;CPU StateFAILURE STOP,即 CPU 为故障停运状

45、态。下边分别对这三个 ERROR 信息进行说明。(1)UNEXPECTED COMPARATOR INTERRUPT第一种情况中关于 Comparator,由于 HIMA 模块有与安全相关的 central module(中央模块) ,它基于 SIL(Safety Integrity Level,according to IEC 61508)标准,由 2 个处理器系统组成,因此能够在运行时自检和比较运算结果。即所谓的比较器中断指的就是 HIMA 中央模块里的两个处理器在进行运算结果的比较时被中断了,具体原因是 unexpected(未知的) 。Central module 结构图:(2)TIM

46、EOUT OF CPU WATCHDOG TIME OCCURRED第二种情况中 HIMA 模块的 watchdog time(WT)超时,即 CPU 的运行周期cycle timeWT。WT 是 CPU 运行周期的最大允许值,一旦运行周期大于这个值,CPU 将会 ERROR STOP。下边为 WT 取值的 2 个约束条件:(1) 10msWT(safety time/2)(2)+execution time of the applicationWT5000msmaxCTS其中 safety time(ST)是控制器的安全时间,但不是整个程序的安全时间。CTS(communication ti

47、me slice,通信时间段)是 cycle time 的一部分,该值大一些不会有负作用,只是当网络负担重时,CTS 会增大,从而会使 cycle time 增大。相反,CTS 小一些的话,可以减小 cycle time 受到网络的影响,在一定程度上限制cycle time 的大小。但如果 CTS 太小的话,将存在并非所有通信任务都能在一个CPU cycle 内执行完毕的风险,因而降低了数据传输的质量,一旦时间参数间发生冲突的话会引起通信路径的关闭。即 CTS 的最大值,2,5000ms,为完maxCTS成通信任务需要时间段的最大设定值。尽管不可以直接被计算出来,但是maxCTSCTS 的最小

48、值却可以计算出来,可以根据来估取。minCTSminCTSmaxCTS的计算方法如下:minCTS(3 3)FAILUREFAILURE STOPSTOP观察红柳站和中卫站 ERROR 信息会发现“FAILURE STOP”单独发生的情况极少,通常发生在“IOTTIMEOUT OF CPU WATCHDOG TIME OCCURRED”之后,也就是说 WT 溢出有可能接着引发 CPU 故障停运。由于硬件故障或软件错误都能引起 ERROR STOP,仅仅靠“CPU StateFAILURE STOP”信息是不能明确故障原因的。如果通过“Reboot Resource”命令能够重启CPU,则说明故

49、障是暂时性的,即目前故障已经消除;如果不能则说明 HIMA 模块可能已经损坏。通过以上对 ERROR 信息的介绍,对故障情况有了大致了解,下边将做进一步深入分析。4、具体原因分析、具体原因分析(1)网络中存在的计算机病毒)网络中存在的计算机病毒目前压气站站控网络中的控制系统较多,包括SCADA系统、ESD系统、压缩机控制系统、本特利振动控制系统等,涉及到的控制计算机也相应地很多。许多场站都或多或少的有过将不安全的移动存储设备直接到控制计算机上使用的情况,致使计算机有不同程度的中毒情况,病毒又会在网络中传播蔓延,损耗大量的网络带宽,引起网络堵塞,引起广播风暴。曾经在SCADA系统上位机杀出的病毒

50、中就有很多的后门和蠕虫病毒,如Backdoor.SdBot.wgb、Worm.Lovgate等,这些病毒在站控网络中很有可能影响HIMA Remote I/O模块的正常运行。(2)网络环路形成的网络风暴)网络环路形成的网络风暴HIMA 公司认为场站之前的站控网络里 HIMA F30 模块的两个网口分别接到两台交换机,这两台交换机之间又用一根网线连接的方式,形成了一个物理上的环路,有可能造成网络风暴,进而影响 HIMA 模块的正常工作。结合表 2.1 进一步观察会发现,ERROR 机率较高的 HIMA Remote I/O 模块为F3 DIO 20/8 02 型,而 F3 DIO 20/8 01

51、 型 ERROR 的情况相对要少,F30 控制器模块则没有 ERROR 过。下表为各站 HIMA Remote IO 型号:各站 HIMA Remote IO 原先的型号统计HIMatrix F3 DIO 20/8站名F3AF3BF3CF3DF3EF3FF3GF3H轮南站0102010102020202四道班站0101010201/红柳站0101010102/玉门站0101010202/中卫站0101010102/靖边站01010102020202/结合 HIMA 公司的意见,原因分析如下:首先需要对 HIMA Remote I/O 模块硬件结构进行了解,F3 DIO 20/8 01 型和F3

52、 DIO 20/8 02 型的硬件结构:由以上两图可知,01 和 02 型模块硬件上的区别在于前者较后者多了 COM 和DUAL PORT RAM(双口 RAM) 。01 型模块内部有 COM 和 CPU 两个控制单元,与 F30 模块类似,COM 单元专门负责通讯数据处理,CPU 单元则专门负责通讯以外的数据处理和运算,两个控制单元通过 DUAL PORT RAM 同时异步地访问存储单元。而 02 型只有 CUP 一个控制单元,因此 CPU 即负责通讯数据处理又负责数据运算,自然要比 01 型 CPU 的负担重。网络风暴形成的大量广播包导致了某个情况下 HIMA Remote I/O 模块全

53、部或部分故障停机。F30 和 F3 DIO 20/8 01 模块因为有 COM 单元专门处理通讯数据,虽然大量的广播包在模块以太网端口大量复制传播导致 COM 单元工作负荷加大,但是不会影响 CPU 单元,不会导致其系统 cycle time 加长直到 watchdog timeout 的情况发生。而 F3 DIO 20/8 02 因其内部 CPU 即负责运算又管理通讯,无用的广播包使 CPU 通讯处理工作负荷加大,进而使系统 cycle time 加长,当 cycle timeWT时会导致 TIMEOUT OF CPU WATCHDOG。因此,02 型模块比 01 型模块 ERROR机率大很

54、多。(3)HIMA 模块时间参数的设定过小模块时间参数的设定过小已经提到WT、ST和三个时间参数对HIMA模块的影响,它们的值过小maxCTS虽然可以提高系统的灵敏性,但同时也会增加报ERROR的几率。而且从WT超时报警信息来看,WT值的适当增大确实可以改善模块停机的敏感情况。下表为原先各站HIMA模块的时间参数配置: 各站 HIMA 模块 ST、WT 和原先的实际配置maxCTSHIMA 模块站名参数F30F3AF3BF3CF3DF3EF3FF3GF3HST100100100100100100202020WT505050505050101010轮南站maxCTS101010101010101

55、010ST1002424242424WT501212121212四道班站maxCTS101010101010ST1002020202020WT501010101010红柳站maxCTS10101010105ST10020202020020WT5010101010010玉门站maxCTS1010101055ST5002020202020WT2001010101010中卫站maxCTS10101010105靖ST10020202020202020WT5020202020202020边站maxCTS1010101055555、故障处理经过以上分析,为了解决 HIMA ERROR 故障,除了对 SCA

56、DA 系统站控机进行杀毒以外,我们也采纳了 HIMA 公司的意见,从站控网络下手,用Wireshark(Ethereal)软件对几个压气站的站控系统网络都分别进行了抓包,深入分析网络数据组成结构和各种数据包流量,并于今年 1 月底进行了统一处理,效果显著,目前为止再没有出现 ERROR。主要处理方法及步骤如下:1)向调度进行汇报,对相关程序如路由器、交换机、PLC 程序、ESD 程序进行备份,将 ESD 休眠并将 DO 输出拔下。2)配合北京调控中心对站场路由器、交换机配置进行修改。 路由器配置的修改:(a) 将路由器与两台交换机相连接的端口配置由原来的半双工“half-duplex”改为全双

57、工“full-duplex”。(b) 对路由器连接两台交换机的端口进行配置,比如端口为interface FastEthernet0/0和interface FastEthernet0/1,则相应地增加“passive-interface FastEthernet0/0”和“passive-interface FastEthernet0/1”语句,目的是禁止路由器的这两个端口向局域网中发送信息,避免环网。 交换机配置的修改:(a)在交换机与两台路由器相连接的端口增加“duplex full”和“speed 100”(速率100Mbps)语句;(b)对两台交换机互连的24口进行配置,增加“swi

58、tchport mode trunk”和“spanning-tree vlan 1 cost 10”语句,目的是阻塞网络中的环路,使网络快速达到收敛。3)对RCI文件进行修改,并将上位机和RCI原来的网桥改为网卡绑定。这样更改后RCI在重新启动时就不会重新产生网络拓扑结构,使两台冗余RCI服务器之间达到无扰切换,避免了RCI切换期间通讯设备会短暂中断的现象。修改步骤:(a) 将UPDATE_DELL_650_750.tar这个文件放到var目录下;(b) 执行gunzip命令将 UPDATE_DELL_650_750.tar文件进行解压;(c) 用tar xvf命令执行UPDATE_DELL_

59、650_750.tar文件;(d) 用cd UPDATE_DELL_650_750命令进入该目录下;(e) 执行/copy命令将执行文件考入UPDATE_DELL_650_750目录下;(f) 打开route.csh文件,将其中的“br”改为“bond”;(g) 执行init 6重新启动RCI后,修改完成。4)将PLC程序中关于采集匀速管流量计的程序删除。因为现场匀速管流量计已经停用,匀速管流量计与PLC为Modbus TCP/IP协议,PLC会在网络上会一直轮询匀速管流量计IP,删除匀速管流量计程序后,会减少PLC在网络上广播包的发送量。5)根据2.2.2中的介绍,结合现场情况修改各HIMA

60、模块的时间参数。6)将站控机上所有的共享目录取消,并安装瑞星杀毒软件,进行全盘杀毒。7)备份更改后的路由器、交换机、PLC程序、ESD程序。8)关键作业步骤前后用Wireshark软件的抓包分析。9)恢复设备正常状态。除了以上主要处理方法外,个别压气站还做了其它处理,下边分别做些具体介绍。其中,靖边站已在去年12月初完成了相关工作,在此不在复述。(1)四道班站故障处理)四道班站故障处理1 月 5 日对四道班站控系统网络进行 9.5min 的抓包,包出现的频率为1835.5packets/min,其中有 86.68%为 ARP(Address Resolution Protocol,地址解析协议

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论