SCADA系统信息安全常见故障处理方法_第1页
SCADA系统信息安全常见故障处理方法_第2页
SCADA系统信息安全常见故障处理方法_第3页
SCADA系统信息安全常见故障处理方法_第4页
SCADA系统信息安全常见故障处理方法_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

附件 5 SCADA 系统信息安全常见故障处理方法 1 附件附件 5 SCADA 系统信息安全常见故障处理方法系统信息安全常见故障处理方法 1 1 PLCPLC 通讯中断通讯中断 1 1 2 2 站控机中毒导致工程运行不正常或不能启动站控机中毒导致工程运行不正常或不能启动 3 3 3 3 站控数据站控数据不不更新更新 6 6 4 4 第三方设备通讯故障第三方设备通讯故障 8 8 5 5 RCIRCI 自动停机自动停机 9 9 6 6 由于由于 RCIRCI 需要轮询点数过多导致的故障需要轮询点数过多导致的故障 1212 7 7 阀室数据上传故障阀室数据上传故障 1414 8 8 甪直站调压橇压变甪直站调压橇压变 PT5802PT5802 传输数据错误的故障处理传输数据错误的故障处理 1717 9 9 压气站压气站 HIMAHIMA ERRORERROR 故障分析和处理报告故障分析和处理报告 1919 1010 控制网组网不正常控制网组网不正常 4343 1111 ANYBUSANYBUS COMMUNICATORCOMMUNICATOR 与与 ESDESD 系统通讯中断系统通讯中断 4646 1212 I OI O 模块通讯故障模块通讯故障 4848 1313 ABAB PLCPLC 系统系统 ETHERNETETHERNET 冗余网络通讯冗余网络通讯 A A 网失败后网失败后 B B 网不能工作网不能工作 4949 1414 北调无法看到北调无法看到 ESDESD 系统中的模拟量系统中的模拟量 5454 1515 通讯服务器冗余配置失败通讯服务器冗余配置失败 5555 1616 配置路由器时在配置界面上出现乱码配置路由器时在配置界面上出现乱码 6060 1717 DDNDDN 通讯中断通讯中断 6161 1818 站场与北调的通讯频繁闪断站场与北调的通讯频繁闪断 6262 1919 路由器用户名 密码失败 无法登录及配置路由器用户名 密码失败 无法登录及配置 6262 2020 第三方设备与上位机通讯无法建立或通讯不正常第三方设备与上位机通讯无法建立或通讯不正常 6464 2121 机柜间到站控室的机柜间到站控室的 1 1 光纤不通光纤不通 7070 2222 HIRSCHMANNHIRSCHMANN 交换机交换机 IPIP 地址设置地址设置 7272 2323 交换机及路由器对应端口通讯方式配置交换机及路由器对应端口通讯方式配置 7878 2424 洛阳分输站与北京调控中心通讯中断洛阳分输站与北京调控中心通讯中断 8484 附件 5 SCADA 系统信息安全常见故障处理方法 2 1 PLC 通讯中断通讯中断 1 故障现象 故障现象 站控机中有 PLC 通讯中断 报警 且相应的 NOE 模块会显示 Fault 红灯 亮 2 故障原因 故障原因 NOE 以太网模块网络地址配置错误 造成 PLC 通信不能实现冗余 主备切换 后无法实现 PLC 与 RCI 间的通讯 比如说济南站的主备两个 NOE 模块的 IP 按照 IP 点表上应该是 172 17 62 65 主 和 172 17 62 67 备 另有 172 17 62 68 这个 IP 是预留未使用的 如果错吧 172 17 62 67 配制成 172 17 62 68 由于 RCI 识别的 NOE 模块 IP 是 172 17 62 67 而非 172 17 62 68 就会造成主备切换时 PLC 与 RCI 通讯不上而出现通讯故障报警 该报警将显示在站控机界面上 3 解决方法 解决方法 1 首先确认 PLC 交换机 RCI 间各网线接口没有虚接或掉落的 2 对照 IP 表 试着 ping PLC 两个 NOE 以太网模块的 IP 地址 哪个地址 ping 不同 就说明哪个模块有问题 可以通过上次备份的 PLC 工程查找到 NOE 的 网络设置 如图 8 1 3 和图 8 1 4 的操作步骤即可看到 可以对各 NOE 模块的网络 进行设置 即 Internet Address Subnet Mask 和 Gateway 附件 5 SCADA 系统信息安全常见故障处理方法 3 3 在笔记本上打开 Concept 软件 打开原先备份好的工程 可以通过网线 或串口线连接 PLC 如果两个 NOE 模块的地址实在找不到的话 按照 2 中的 方法重新设置好网络后 重新下载程序到 PLC 的控制器中 4 断开笔记本电脑与 PLC 的链接 对 PLC 的备机进行热备设置 将备机 CHS 热备模块的钥匙开关拨到 Xfer 挡 按下程序更新按钮 然后 松开按钮 会看到备机架的 CHS 模块显示 Standby 橙色灯亮 当该灯常亮以后 则表示热备完成 这时备机架 CPU 模块的 Run 绿灯将变亮 主机架 CHS 模块 的 Primary 绿灯常亮 5 PLC 与 RCI 的通讯恢复以后 站控机电脑屏幕上 PLC 通讯中断 报警 可以确认掉 2 站控机中毒导致工程运行不正常或不能启动站控机中毒导致工程运行不正常或不能启动 1 故障现象 故障现象 站控机工程运行不正常或不能启动 附件 5 SCADA 系统信息安全常见故障处理方法 4 2 故障原因 故障原因 站控机外接移动存储设备而中毒 病毒影响 Viewstar 软件的正常使用 3 解决办法 解决办法 采用瑞星杀毒软件 病毒专杀工具 如 Worm LovGate 爱情后门专杀 对站控 机进行杀毒 1 图 8 2 1 为靖边站在用瑞星对站控机进行查杀后的情况 图中可见病毒名 称都为 Backdoor SdBot wgb 一种集后门 蠕虫功能于一体的 通过网络共享和操 作系统漏洞进行传播的病毒 病毒会尝试通过弱密码登陆目标系统 还会在感染的 电脑上打开后门接收攻击者发出的指令 然后连接特定的 IRC 服务器通知攻击者 病毒的存在 病毒会扫描网段内的机器并猜测共享密码 占用大量网络带宽资源 容易造成局域网阻塞 它通过 IRC 服务器接受攻击者发出的指令 例如安装 卸载 后门 下载并运行文件 结束进程 运行代理服务器 盗取流行游戏的账号 对指 定的 IP 进行 DOS 拒绝服务 攻击等 2 2009 年 12 月 16 日 红柳站站控机工程无法启动 每次启动后提示 LSASS EXE 出错 系统将在 60 秒内自动关闭 然后在指定的时间内自动重启 然后维护人员在安全模式下用瑞星对站控机进行病毒查杀 杀出了大量的 packer main007 木马 查杀结束后重启站控机和工程 Viewstar 运行恢复正常 附件 5 SCADA 系统信息安全常见故障处理方法 5 由 SYSTEM 执行的 lsass exe 是 无害 的系统进程 用于微软 Windows 系统 的安全机制 本地安全和登陆策略 但是假如在站控机的任务管理器中同时看到 lsass exe 和 LSASS EXE 这两个进程 则表明站控机已经中了 Windang worm irc ratsou b Webus B MyDoom L Randex AR Nimos worm 病 毒 或者是该病毒的变种 LSASS EXE 在任务管理器中显示为当前用户在执行 而非 SYSTEM 在执行 该病毒通过软盘 群发邮件和 P2P 文件共享进行传播 解 决办法如下 a 使用 prockiller 进程杀手终止 LSASS EXE 进程 b 删除病毒文件 有的文件可能没有 C Program Files Common Files INTEXPLORE pif C Program Files Internet Explorer INTEXPLORE com C WINDOWS EXERT exe C WINDOWS IO SYS BAK C WINDOWS LSASS exe C WINDOWS Debug DebugProgram exe C WINDOWS system32 C WINDOWS system32 MSCONFIG COM C WINDOWS system32 c 使用 Free Window Registry Repair 注册表清理工具清理注册表中的垃圾 信息 也可手动清除 下面是手动清除的需要删除的项目 HKEY CLASSES ROOT WindowFiles HKEY CURRENT USER Software VB and VBA Program Settings HKEY CURRENT USER Software Microsoft Internet Explorer Main 下 面 的 Check Associations 项 KEY LOCAL MACHINE SOFTWARE Clients StartMenuInternet INTEXPL ORE pif HKEY LOCAL MACHINE SOFTWARE Microsoft Windows CurrentVersio n Run 下面的 ToP 项 附件 5 SCADA 系统信息安全常见故障处理方法 6 d 使用 RegC 瑞星注册表修复工具修复注册表 e 重启站控机后可再进行一次全盘杀毒 3 站控数据不更新站控数据不更新 1 故障现象 故障现象 站场 SCADA 系统的站控电脑上显示的数据部分或大部分不能及时更新 数据 处以橙色状态显示 如图 8 2 5 所示 以进出站压力或温度为例 如果这些数据不 能及时更新 那么 Viewstar 日报表中每小时进出站压力或温度所记录的值同样也 是不更新的 即固定不变 这样值班人员将不能正确判断站场的实际生产情况 形 成较大的安全隐患 一个简单的例子 比如某分输站的电动调压阀采用压力 PID 控制出站压力时 门站用气量突然减小了 如气罐车停止加气 但门站没有事先通知我分输站值班 人员 而 PID 控制具有一定的滞后性 使得出站天然气因憋压而迅速上升 但是 这时由于站控数据不能及时更新 造成值班人员未能及时发现 使得出站压力在有 限的时间内能超过安全泄放阀设定压力 使得安全泄放阀放空 这本来是一个完全 可以避免的情况 2 故障原因 故障原因 1 站控机与 RCI 间的日期时间不一致 附件 5 SCADA 系统信息安全常见故障处理方法 7 2 RCI 长时间不间断工作 硬件老化 工作性能下降 3 RCI 内部配置不高 4 第三方设备 如流量计算机 UPS 又不断地增加 数据采集量增大 工作负担加重 5 网络中有网线虚接或断开的地方 这些使得 RCI 不能及时采集各种第三方设备的数据 即发生数据丢失现象 从而影响数据库中数据的准确性 3 解决办法 解决办法 RCI 与很多第三方设备进行通讯 包括 PLC UPS 低压配电盘 流量计算机 和燃气发电机等等 因为它与 PLC 的通信量最大 所以在此以它与 PLC 的通讯为 例进行说明 解决数据不更新的步骤如下 1 在站控机上打开校时软件 对站控机进行校时 将其时钟与 RCI 同步 2 在站控机操作的系统配图界面 从中找到图标 点击弹出一个对话框 在该对话框中将 轮询 勾选上 点击应用 通常情况下 站控数据都会进行 一次刷新 原先不变的数据都会发生变化 橙色变成白色即恢复正常 如果变化不 大 可再轮询几次 附件 5 SCADA 系统信息安全常见故障处理方法 8 3 如果以上都不起作用 可以对两台 RCI 进行切换 将原先为备用的切换 到主用 并可重复 1 2 步 看看数据显示是否恢复正常 4 如果以上都不起作用 可以将站控机工程停掉 然后再重启工程 再观 察数据显示是否恢复正常 5 如果以上都不起作用 可以先将站控机工程停掉 然后把两台 RCI 分别 重启 之后再重启工程 再观察数据显示是否恢复正常 6 如果以上都不起作用 可以将站控机工程停掉以后对站控机进行重启 主要还是为了刷新站控电脑的网络连接 然后重启工程 再观察数据显示是否恢复 正常 7 如果以上都不起作用 可以用站控机的备份工程替换现有工程 再观察 数据显示是否恢复正常 8 通常经过以上工作都可以恢复站控机数据的更新 如果上工作都不起作 用 则需查看网络连接上有没有虚接的或断线的 交换机是否工作正常等 确认网 络连接无问题后 可对 RCI 进行更换或硬件升级 提高其工作性能 4 第三方设备通讯故障第三方设备通讯故障 1 故障现象 故障现象 在站控机上出现第三方设备通讯故障报警 如 UPS 通讯故障 流量计算机通 讯故障 低压配电盘通讯故障 燃气发电机通讯故障等 2 故障原因 故障原因 1 第三方设备停机或断电 2 通讯回路断路或有源 1 转 2 接口插头接触不良 3 解决办法 解决办法 1 对于由设备停机或断电造成的通讯故障 无非是去查找设备本身停机的 原因 以重新起机恢复通讯 2 而由通讯线路引起的通讯故障通常都集中在 LSU 232 2 防雷有源 1 转 2 接口上 LSU 232 2 是用来将第三方设备的数据分别同时传到两台冗余的 RCI 通 讯服务器用的 附件 5 SCADA 系统信息安全常见故障处理方法 9 LSU 232 2 的 A on 灯对应 A line B on 对应 B line 这两个灯亮则表明 第三方设备到对应的 1 RCI 和 2 RCI 是接通的 TxD 或 RxD 灯闪烁则表示 目前第三方设备正在与 RCI 进行数据的发送或接收 通过观察这些指示灯的情况 即可判断当前的第三方设备通讯情况 通常第三方设备通讯故障都是由于 C line 处的串口插得不稳所至 因为该 口串口的固定螺丝不容易固定住插头 硬件设计造成 开关机柜门时容易碰到该 插头串口线 导致插头松动 从而引起通讯故障 这时只需要紧固一下该插头既可 3 如若发现 LSU 232 2 的指示灯都不亮了 可以用万用表检测其电源输入 端电压 看看供电是否正常 如果电压为 0 则需检查电源线路情况 以恢复供电 如果电压正常 24VDC 且无串口虚接情况 则需判断 LSU 232 2 是否故障 可用调试笔记本接到来至第三设备的串口 通过在电脑上运行串口调试工具 来检 测是否能够接收到第三方设备的数据 a 可以接收到第三方设备的数据 则将来至第三方设备的串口接至 C line 口 分别用笔记本电脑接 A line 和 B line 口 检测到是否可以接收到第三方设备的 来自第三方 设备 对应 C line 接到 2 RCI 对应 B line 接到 1 RCI 对应 A line 附件 5 SCADA 系统信息安全常见故障处理方法 10 数据 如果接收不到 则表明 LSU 232 2 故障 需维修或更换 b 不可以接收到第三方设备的数据 则需查看来至第三方设备的数据线路 是否有断路或设备本身存在故障 5 RCI 自动停机自动停机 1 故障现象 故障现象 RCI 自动停机 蓝色运行指示灯熄灭 绿色电源指示灯闪烁 正常运行下蓝灯 绿灯都常亮 断电并重新上电启动后设备能运行 但只维持一段时间后会再次停 机 有的 RCI 甚至不能重新启动 2 故障原因 故障原因 RCI 长期不间断运行 致使其电源 型号 HP U280EF3 内部芯片老化损坏 或电源风扇损坏 无法给 RCI 正常供电 致使设备自动停机 3 解决办法 解决办法 更换 RCI 电源 但如能检查出电源的损坏部件 则可对该部件进行更换 以 减少成本 如淮安站就曾经有一个电源是 K419 TNY2684 28021B 芯片损坏 过电 流或过热导致损坏 电源更换步骤如下 1 对故障的 RCI 下电 将后板插槽上的串口线 网线断开 取出 RCI 打 开设备上盖板 附件 5 SCADA 系统信息安全常见故障处理方法 11 2 找到 RCI 的电源 将与电源相连的各插头拔下 然后松开固定螺母 将 故障电源取出 附件 5 SCADA 系统信息安全常见故障处理方法 12 3 换上新的电源 重新固定好 并将各插头插上 整理好内部电线后盖上 盖板 将串口线 网口重新接上 重新上电 观察电源灯绿灯 运行灯蓝灯是否常 亮 常亮为正常 在上位机中使用指令对 RCI 进行切换 将更换好的 RCI 切换为 主 为了减少对设备的损害 最好是采用软切换 但也可用硬切换 即关掉原先无 故障的那台 RCI 观察当前已维修的 RCI 是否能自动切换为主 测试设备运行是 否正常 如果在上位机中的各种操作均无问题 则说明当前 RCI 工作正常 故障 已排除 6 由于由于 RCI 需要轮询点数过多导致的故障需要轮询点数过多导致的故障 1 故障现象 故障现象 郑州站改造过程中在升级 HIMA 程序后 发现站控系统 ESD 休眠命令下发后 站控机不断有新的休眠报警提示 确认复位后 仍不断弹出 逻辑上站控机休眠状 态灯正常时应该是变红 不闪烁的 但现场情况为郑州站的休眠状态灯不断闪烁 2 故障原因 故障原因 开始以为是添加地址冲突造成 对所有新添加的数据点地址进行核查 未发现 地址冲突问题 用调试笔记本与 PLC 联机发现上位机中的 ESD 休眠命令已经下发 确认故障只存在于站控机系统中 经过一段时间的检查后发现 由于郑州站的 HIMA 模块有 9 个之多 添加的报警点有 50 多个 在加上原来系统需要扫描的地 址 改造后郑州站每次站控机轮询需要检测的地址有近 200 个 根据经验 一般轮 询地址点超过 100 后 就会造成数据采集不准 这么多的地址如果同时扫描的话 很容易造成信号不稳和紊乱 故此 考虑将轮询地址分两批扫描 附件 5 SCADA 系统信息安全常见故障处理方法 13 3 解决办法 解决办法 1 用 Total Commander 软件登陆 RCI 在修改文件之前首先将配置文件拷 贝到当地硬盘进行备份 2 将 RCI 中的 MBPOLL XXX YYY POL 文件拷贝到当地硬盘下 其中 XXX 为 RCI NUMBER 例如南京为 175 YYY 为通讯端口号 例如 PLC 为 17 打开 MBPOLL XXX YYY POL 3 可以看到配置文件中第四行 MbAnz 为 160 大于 100 所以将其修改为 两次轮训 附件 5 SCADA 系统信息安全常见故障处理方法 14 4 保存后 将修改后的配置文件 DOWN 回到 RCI 中 5 最后使用 INIT 6 命令重启 RCI 使配置生效 对另一台 RCI 进行同样操 作即可 修改后 故障现象排除 系统恢复正常 7 阀室数据上传故障阀室数据上传故障 1 故障现象 故障现象 RTU 阀室数据不能上传到北京调度 数据不能更新 调度也无法对阀室设备 进行操作 附件 5 SCADA 系统信息安全常见故障处理方法 15 2 故障原因 故障原因 1 机柜供电系统掉电 2 DI 或 AI 模块数据没采集上 3 RTU 控制器工作不正常 4 RCI 与路由器间通信故障 3 解决办法 解决办法 1 检查机柜是否掉电 机柜掉电了的话 自然所有设备都无法工作 数据 也无法上传 进入阀室大门 先看 TEG 发电机是否还在工作 如果已经不工作了 则很有可能 RTU 机柜和通信机柜内设备已经掉电 如果没掉电则表示蓄电池仍有 电 但是请尽快重启 TEG 发电机 2 打开 RTU 机柜门 查看各 DI 或 AI 模块 16 点开关量输入模块 AS BDEP 256 4 通道模拟量输入模块 AS BADU 256 等 的输入端指示灯是否红色常 亮 亮则表示接通 正常情况下 DI 和 AI 模块的输入通道指示灯亮均会有亮的 因为都涉及到通道的使用 因为有发生过 DI 或 AI 模块的供电回路保险丝烧断的 情况 致使输入模块无法采集现场数据 这种情况下更换保险即可 如果保险没有 烧断 确认模块供电正常后 所有输入端的灯仍不亮 也可通过模块识别来判断哪个模块连接不上 使用计算机登陆到 RTU 上 进 入 RTU 的硬件配置 进入 I O Map 弹出以下窗口 附件 5 SCADA 系统信息安全常见故障处理方法 16 上图中 在 Detected 下是红色背景的 证明这几块模块不被系统识别 它们 的数据将无法通过背板传送到 RTU 的 CPU 中 是灰色背景的表示这部分硬件配置 和实际完全一致 3 如果 DI 和 AI 模块工作指示灯正常 则检查 RTU 处理器模块 PC E984 258 首先查看它有没有掉电 因为它也有自己的保险 如果没有掉电则通过观察 控制器的各 LED 灯即可判断它工作是否正常 各 LED 灯的含义如下 CPU 的 LED 灯含义 LED 名称颜色含义 Ready黄色已供电 CPU 正在运行 Run黄色用户程序正在运行 Bat low红色电池电量低或已没电 Modbus 1黄色传输活跃 Modbus 2黄色连接笔记本用 如果其中的 Ready 灯或 Run 灯不亮黄色 则说明控制器有问题 对控制器进 行重启 并连接笔记本电脑 打开 Concept 软件 在线查看程序工作情况是否正常 各现场设备的数据是否能正常传输被采集到 RTU 如果程序出问题 可采用备份程序重新下装到控制器中 再运行查看数据采集 情况是否恢复 附件 5 SCADA 系统信息安全常见故障处理方法 17 如果 Modubus 灯不亮黄色 则说明通信有问题 看看网线有没有虚接的地方 对其进行紧固 或更换一根完好的网线 然后观察 RJ 45 网口处 LED 灯的状态 黄色表示连接上 绿色表示通信活跃 如图 8 5 3 所示 并连接电脑查看数据采集 情况是否恢复 假如这些工作都做了以后仍然连接不上控制器 无法恢复程序 或采集到的数 据仍然传不出去 则表明是控制器硬件问题 前提是确认网线没问题 则需更换控 制器 并将更换下来的控制器进行维修 4 如果现场数据能够被正常采集上来 则问题将出在通信上 这时需对 RCI 和路由器进行检查 检查网线或其他数据接头是否有虚接的 将它们紧固 查 看网口处指示灯的闪烁是否正常 确认网络线路连接没有问题以后 如若数据的上 传仍然没有恢复 可以对 RCI 和路由器进行重启 如果硬件没有问题的话 通常 情况下数据通信链路都能恢复 因为软件配置都不会有什么改变 5 如果还是有问题的话 可能是 RCI 的串口损坏或者 RCI 其它硬件出现问 题 可以更换 RCI 测试一下 具体方法是 将 RCI 断电后取下 将 RCI 内的一块 内存卡 SDCFB 64 101 80 取下 插入新的 RCI 内部 在恢复连线上电 检查通讯 是否正常 如果通讯仍然不正常 就需要将旧的 RCI 及卡和一套新的 RCI 及卡寄 到中油龙慧自动化公司 由工程人员对旧的 RCI 进行检测 对新的 RCI 进行配置 得出结论及配置好新 RCI 后一并返回管理处 8 甪直站调压橇压变甪直站调压橇压变 PT5802 传输数据错误的故障处理传输数据错误的故障处理 附件 5 SCADA 系统信息安全常见故障处理方法 18 1 故障现象 故障现象 甪直站更换了一个调压撬压力变送器以后 该压力取样点传输上来的数据跟实 际现场压力表数据严重不符 2 故障原因 故障原因 由于更换了压力变送器 将原先量程压力范围为 0 6Mpa 的压力变送器换为量 程为 0 10MPa 的压力变送器 而原先的上位机中数据库和 PLC 程序都还是按照原 来 0 6MPa 的量程进行运算和执行的 因此造成传输后数据换算结果发生错误 3 解决办法 解决办法 将上位机 viewstar 的数据库跟 PLC 程序中的对应的压力量程 0 6Mpa 改为 0 10Mpa 数据就对应上了真实值 具体修改办法如下 1 在 concept 中打开 PLC 程序 找到相应的 SCALWTOR 功能块 它用来 将所采集到的模拟量电信号换算压力值 其中 PI1202 0 4095 rPI1202 0 0 10 0 两者间的换算关系如下式 VALOUT SCALBMIN MININMAXIN SCALBMINSCALBMAXMININVALUE rPI1202 4095 120210PI 修改压力上限 即对 SCALBMAX 进行修改既可 将 6 改成 10 然后将更改 后的程序进行下装 在 Online 选项中选择 Download changes 2 Viewstar 数据库中的数据点的更改 数据点的更改在组态环境 Graphical Editor 点击 Para 图标 进入数据库 数据库中 温变跟压变是在 MIA 下面 找到要修改 PT 所对应的阀号 文件夹如下图所示 附件 5 SCADA 系统信息安全常见故障处理方法 19 在 value 下的数据里面更改具体的参数 其中 address 为 6 位的 IEC 地址 Alert hdl 为报警设置 archive 为归档设置 common 为描述 单位及数据点位数 设置 msg conv 为量程转换设置 pv range 为量程范围设置 在此只需在 pv range 中更改量程 将原来的 0 6MPa 更改为 0 10MPa 即可 9 压气站压气站 HIMA ERROR 故障分析和处理报告故障分析和处理报告 1 适用对象 适用对象 SCADA ESD 系统 2 故障现象 故障现象 从2009年11月22日 红柳站第一次发生4块HIMA F3DIO 20 8系列模块 F3A F3B F3C和F3D 同时Error故障报警 至2010年1月29日期间 四道班 轮 南 红柳 玉门 靖边和中卫站6座场站发生HIMA ERROR共34次 涉及模块39块 其中红柳 靖边 中卫站为与西二线联络站 共发生27次 占总故障数的79 4 轮南 玉门站各发生1次 四道班站发生5次 当发生 ERROR 时 相应的 Remote I O 模块将停止运行 看门狗信号会被切 断 所有的输出将置 off ERROR 灯变红 ERROR code 0 最终造成 ESD 系统无 法正常运行 严重影响场站的安全平稳运行 下表为绝大部分的 HIMA ERROR 情况统计 HIMA ERROR 情况统计 附件 5 SCADA 系统信息安全常见故障处理方法 20 序号站 名日 期HIMA 模块ERROR 信息 1轮南站12 月 19 日F3B因为 HIMA 的日期和时钟未调整 所以诊断日 志上缺少记录 2四道班站11 月 27 日F3DIOT UNEXPECTED COMPARATOR INTERRUPT 3四道班站11 月 29 日F3DIOT UNEXPECTED COMPARATOR INTERRUPT 4四道班站12 月 22 日F3DIOT UNEXPECTED COMPARATOR INTERRUPT 5四道班站12 月 26 日F3DIOT UNEXPECTED COMPARATOR INTERRUPT 6四道班站1 月 8 日F3DIOT UNEXPECTED COMPARATOR INTERRUPT 7红柳站11 月 22 日F3A F3B F3C F3 D IOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 8红柳站11 月 24 日F3A F3B F3C F3 D CPU State FAILURE STOP 9红柳站11 月 26 日F3A F3B F3C F3 D F3E IOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 10红柳站12 月 19 日F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED 11红柳站12 月 26 日F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED 12红柳站1 月 6 日F3A F3B F3D F3 E IOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 13红柳站1 月 20 日F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED 14玉门站12 月 17 日F3EIOT UNEXPECTED COMPARATOR 附件 5 SCADA 系统信息安全常见故障处理方法 21 INTERRUPT 15靖边站12 月 4 日F3E F3GIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 16靖边站12 月 5 日F3E F3GIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 17靖边站1 月 3 日F3A F3B F3C F3 D E3E F3F F3G IOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 18中卫站12 月 26 日F3A F3B F3C F3 D F3E IOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 19中卫站12 月 30 日F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED 20中卫站1 月 1 日F3A F3B F3D F3 E IOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 21中卫站1 月 2 日F3B F3D F3E IOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 22中卫站1 月 3 日F3B F3C F3E IOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 23中卫站1 月 10 日 3 11 F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED 24中卫站1 月 10 日 17 33 F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED 25中卫站1 月 11 日 12 54 F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED 附件 5 SCADA 系统信息安全常见故障处理方法 22 26中卫站1 月 11 日 16 30 F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED 27中卫站1 月 12 日 16 53 F3B F3C F3E IOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 28中卫站1 月 12 日 23 20 F3B F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 29中卫站1 月 13 日 1 29 F3B F3EIOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 30中卫站1 月 25 日F3B F3C F3E IOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED CPU State FAILURE STOP 31中卫站1 月 29 日F3EIOT UNEXPECTED COMPARATOR INTERRUPT 注 红色标记为 F3 DIO 20 8 02 型 IO 模块 未标记的为 F3 DIO 20 8 01 型模块 3 总体故障分析 总体故障分析 以下 3 种原因之一均会导致 HIMA 模块 ERROR CPU 检测到自身有一个硬件故障 CPU 检测到操作系统有一个软件错误 Watchdog 触发 ERROR STOP 因为 CPU 的运行周期 Cycle time 超过了 Watchdog time HIMA 模块发生 ERROR 后 其 CPU 将停止应用程序的执行 所有硬件和软 件的测试都会结束 所有的输出将被重置 只能在 PADT Programming and debugging Tool 中通过 Reboot Resource 命令将 CPU 重启 然而 具体情况还 需要结合各站 HIMA Remote I O Diagnostics log 诊断日志 进行分析 模块的 ERROR 信息大体为以下三条 IOT UNEXPECTED COMPARATOR INTERRUPT 其中 IOT 表示 附件 5 SCADA 系统信息安全常见故障处理方法 23 CPU self tests 即 CPU 在自检时发现未知的比较器中断 IOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED 即 CPU Watchdog time 看门狗时间 超时 CPU State FAILURE STOP 即 CPU 为故障停运状态 下边分别对这三个 ERROR 信息进行说明 1 UNEXPECTED COMPARATOR INTERRUPT 第一种情况中关于 Comparator 由于 HIMA 模块有与安全相关的 central module 中央模块 它基于 SIL Safety Integrity Level according to IEC 61508 标准 由 2 个处理器系统组成 因此能够在运行时自检和比较运算结果 即所谓的 比较器中断指的就是 HIMA 中央模块里的两个处理器在进行运算结果的比较时被 中断了 具体原因是 unexpected 未知的 Central module 结构图 2 TIMEOUT OF CPU WATCHDOG TIME OCCURRED 第二种情况中 HIMA 模块的 watchdog time WT 超时 即 CPU 的运行周期 cycle time WT WT 是 CPU 运行周期的最大允许值 一旦运行周期大于这个值 CPU 将会 ERROR STOP 下边为 WT 取值的 2 个约束条件 1 10ms WT safety time 2 2 execution time of the application WT 5000ms max CTS 其中 safety time ST 是控制器的安全时间 但不是整个程序的安全时间 附件 5 SCADA 系统信息安全常见故障处理方法 24 CTS communication time slice 通信时间段 是 cycle time 的一部分 该值大一些 不会有负作用 只是当网络负担重时 CTS 会增大 从而会使 cycle time 增大 相 反 CTS 小一些的话 可以减小 cycle time 受到网络的影响 在一定程度上限制 cycle time 的大小 但如果 CTS 太小的话 将存在并非所有通信任务都能在一个 CPU cycle 内执行完毕的风险 因而降低了数据传输的质量 一旦时间参数间发生 冲突的话会引起通信路径的关闭 即 CTS 的最大值 2 5000 ms 为完 max CTS 成通信任务需要时间段的最大设定值 尽管不可以直接被计算出来 但是 max CTS CTS 的最小值却可以计算出来 可以根据来估取 min CTS min CTS max CTS 的计算方法如下 min CTS 3 3 FAILUREFAILURE STOPSTOP 观察红柳站和中卫站 ERROR 信息会发现 FAILURE STOP 单独发生的情况 极少 通常发生在 IOT TIMEOUT OF CPU WATCHDOG TIME OCCURRED 之后 也就是说 WT 溢出有可能接着引发 CPU 故障停运 由于硬件 故障或软件错误都能引起 ERROR STOP 仅仅靠 CPU State FAILURE STOP 信息是不能明确故障原因的 如果通过 Reboot Resource 命令能够重启 CPU 则说明故障是暂时性的 即目前故障已经消除 如果不能则说明 HIMA 模 块可能已经损坏 通过以上对 ERROR 信息的介绍 对故障情况有了大致了解 下边将做进一步 深入分析 4 具体原因分析 具体原因分析 1 网络中存在的计算机病毒 网络中存在的计算机病毒 目前压气站站控网络中的控制系统较多 包括SCADA系统 ESD系统 压缩 机控制系统 本特利振动控制系统等 涉及到的控制计算机也相应地很多 许多场 附件 5 SCADA 系统信息安全常见故障处理方法 25 站都或多或少的有过将不安全的移动存储设备直接到控制计算机上使用的情况 致 使计算机有不同程度的中毒情况 病毒又会在网络中传播蔓延 损耗大量的网络带 宽 引起网络堵塞 引起广播风暴 曾经在SCADA系统上位机杀出的病毒中就有 很多的后门和蠕虫病毒 如Backdoor SdBot wgb Worm Lovgate等 这些病毒在站 控网络中很有可能影响HIMA Remote I O模块的正常运行 2 网络环路形成的网络风暴 网络环路形成的网络风暴 HIMA 公司认为场站之前的站控网络里 HIMA F30 模块的两个网口分别接到两 台交换机 这两台交换机之间又用一根网线连接的方式 形成了一个物理上的环路 有可能造成网络风暴 进而影响 HIMA 模块的正常工作 结合表 2 1 进一步观察会发现 ERROR 机率较高的 HIMA Remote I O 模块为 F3 DIO 20 8 02 型 而 F3 DIO 20 8 01 型 ERROR 的情况相对要少 F30 控制器模 块则没有 ERROR 过 下表为各站 HIMA Remote IO 型号 各站 HIMA Remote IO 原先的型号统计 HIMatrix F3 DIO 20 8 站名 F3AF3BF3CF3DF3EF3FF3GF3H 轮南站0102010102020202 四道班站0101010201 红柳站0101010102 玉门站0101010202 中卫站0101010102 靖边站01010102020202 结合 HIMA 公司的意见 原因分析如下 首先需要对 HIMA Remote I O 模块硬件结构进行了解 F3 DIO 20 8 01 型和 F3 DIO 20 8 02 型的硬件结构 附件 5 SCADA 系统信息安全常见故障处理方法 26 由以上两图可知 01 和 02 型模块硬件上的区别在于前者较后者多了 COM 和 DUAL PORT RAM 双口 RAM 01 型模块内部有 COM 和 CPU 两个控制单元 与 F30 模块类似 COM 单元专门负责通讯数据处理 CPU 单元则专门负责通讯以 外的数据处理和运算 两个控制单元通过 DUAL PORT RAM 同时异步地访问存储 单元 而 02 型只有 CUP 一个控制单元 因此 CPU 即负责通讯数据处理又负责数 据运算 自然要比 01 型 CPU 的负担重 网络风暴形成的大量广播包导致了某个情况下 HIMA Remote I O 模块全部或 部分故障停机 F30 和 F3 DIO 20 8 01 模块因为有 COM 单元专门处理通讯数据 虽然大量的广播包在模块以太网端口大量复制传播导致 COM 单元工作负荷加大 但是不会影响 CPU 单元 不会导致其系统 cycle time 加长直到 watchdog timeout 的 附件 5 SCADA 系统信息安全常见故障处理方法 27 情况发生 而 F3 DIO 20 8 02 因其内部 CPU 即负责运算又管理通讯 无用的广播 包使 CPU 通讯处理工作负荷加大 进而使系统 cycle time 加长 当 cycle time WT 时会导致 TIMEOUT OF CPU WATCHDOG 因此 02 型模块比 01 型模块 ERROR 机率大很多 3 HIMA 模块时间参数的设定过小模块时间参数的设定过小 已经提到WT ST和三个时间参数对HIMA模块的影响 它们的值过小 max CTS 虽然可以提高系统的灵敏性 但同时也会增加报ERROR的几率 而且从WT超时报 警信息来看 WT值的适当增大确实可以改善模块停机的敏感情况 下表为原先各 站HIMA模块的时间参数配置 各站 HIMA 模块 ST WT 和原先的实际配置 max CTS HIMA 模块站 名 参数 F30F3AF3BF3CF3DF3EF3FF3GF3H ST100100100100100100202020 WT505050505050101010 轮 南 站max CTS101010101010101010 ST1002424242424 WT501212121212 四 道 班 站 max CTS101010101010 ST1002020202020 WT501010101010 红 柳 站max CTS10101010105 ST10020202020020 WT5010101010010 玉 门 站max CTS1010101055 ST5002020202020 WT2001010101010 中 卫 站max CTS10101010105 靖ST10020202020202020 附件 5 SCADA 系统信息安全常见故障处理方法 28 WT5020202020202020 边 站 max CTS101010105555 5 故障处理 经过以上分析 为了解决 HIMA ERROR 故障 除了对 SCADA 系统站控机进 行杀毒以外 我们也采纳了 HIMA 公司的意见 从站控网络下手 用 Wireshark Ethereal 软件对几个压气站的站控系统网络都分别进行了抓包 深入 分析网络数据组成结构和各种数据包流量 并于今年 1 月底进行了统一处理 效果 显著 目前为止再没有出现 ERROR 主要处理方法及步骤如下 1 向调度进行汇报 对相关程序如路由器 交换机 PLC 程序 ESD 程序进 行备份 将 ESD 休眠并将 DO 输出拔下 2 配合北京调控中心对站场路由器 交换机配置进行修改 路由器配置的修改 a 将路由器与两台交换机相连接的端口配置由原来的半双工 half duplex 改为全双工 full duplex b 对路由器连接两台交换机的端口进行配置 比如端口为interface FastEthernet0 0和interface FastEthernet0 1 则相应地增加 passive interface FastEthernet0 0 和 passive interface FastEthernet0 1 语句 目的是禁止路由 器的这两个端口向局域网中发送信息 避免环网 交换机配置的修改 a 在交换机与两台路由器相连接的端口增加 duplex full 和 speed 100 速率100Mbps 语句 b 对两台交换机互连的24口进行配置 增加 switchport mode trunk 和 spanning tree vlan

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论