工业以太网通讯疑难杂症之五_第1页
工业以太网通讯疑难杂症之五_第2页
工业以太网通讯疑难杂症之五_第3页
工业以太网通讯疑难杂症之五_第4页
工业以太网通讯疑难杂症之五_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、工业以太网通讯疑难杂症之五:网络数据风暴问题随着工业4.0大数据应用规模的迅速增长,我们会遇到越来越多的数据风暴问题。【问题描述】某F&B行业大客户的生产线控制系统采用Ethernet-IP 工业以太网通讯。稳定运行两年后的某一天,现场设备与 PLC主站之间的Ethernet-IP 数据交换,突然间全部断线了!为什么会这样?【常规诊断】检查硬件:从宏观与细节两方面观察测试,该 Ethernet网络结构架设都是正常的;检查软件:Rockwell上位机控制的Logix程序与现场设备的参数设定都未发生过改动;检查固件:PLC上位机、现场设备、交换机的固件版本也都没有改动。似乎一切都是OK的?

2、【深入诊断】请注意故障现象是大批量以太网设备同时断线。这就好像一个网吧里所有电脑突然全部断网,那么有经验的网管就知道了,问题一定出在这个网吧的交换机上,需要逐个排查交换机柜内的所有网络端口。工业现场也是如此,这种问题也是锁定在现场交换机上,而且网络端口数量比计算机房交换机柜内的少很多,排查工作量更小。但是这并不意味着情况就更简单:因为仔细观察现场的交换机,我们发现端口上不仅连接了工业现场设备,并且还连接了企业管理ERP数据网线。拔下 ERP数据网线后再观察,所有这些工业现场设备的 Ethernet-IP 通讯立即恢复正常,由此可断定 IT以太网域对工业以太网域造成了干扰,引发了网络风暴。【深入

3、分析】那为什么之前的两年内没有出现这样的情况?这就要用发展的眼光看问题了。两年前该项目刚设计出来并调试的时候,基于成本控制的考虑,以及现场网络简单的实际情况,一个交换机混合两种性质网络进行数据交换的做法,那时候看起来是可行能用的。然而这种网络构建方案其实是不规范的,因为正规的做法是配置两个Ethernet-IP 主站模块,一个连接企业管理ERP交换机拓扑,另一个连接现场工业以太网设备交换机拓扑。而设备投产两年后发生网络风暴的原因,很可能是由于:1、工业以太网比IT以太网要求更高的实时性能,对于 Ethernet数据波动更加敏感;2、企业管理 ERP系统发生变动而变复杂后,发送到生产现场的数据量

4、增加,超出了该台现场交换机的数据流量极限,造成数据波动,而实时性要求更高的 Ethernet-IP 通讯自然更早地受此影响而中断了通讯。【解决方案】短期措施:由于企业管理ERP数据不参与生产系统的具体控制,为了应急可以先脱开ERP网线,进行离线生产,先确保产品能够正常生产并出货。长期措施:1、升级现场交换机,换成更大容量的、Ethernet-IP专用的管理型交换机;2、在上位机PLC模组内再增加 Ethernet-IP通讯模块,把控制网络分为外网与内网,外网用于企业级数据交换,内网用于实时工业以太网通讯。这样能彻底隔开ERP信息网对现场工业以太网设备的影响。但是成本较高。还有一种方案三有待实验

5、,如下图所示,以 PROFINET IO 协议为例,常规以太网 设备与工业 以太网设备,不能接入同一个交换机上的端口;我们需要两个管理型PROFINET专用交换机,并且将常规的以太网设备集中连接到靠近PLC的那个交换机端口上:IMPORT 具 MTOffkc bdsec ETH devices rr ay be ccnnectedin an networtraqetherV.- th P hj c<?ices, but the PN teieqramsili be degml if the Switch s not Ic to prioritise t+wmProfiNetIO comp

6、atibk swhehes f upportprioritkaticin of frames:-IRT= priority?-RT- pno"Ttyfi-Video = onontySVF2Solution: All stdrdjrd ETH devices mu&t b« comflcUd to th© switch nearest to the PLC【更多思考】目前工业4.0大数据网络概念大热,但是在实际应用中,我们必须重视对路由器交换机的选择与拓扑设计。具体来讲就是选择更大的交换机网关数据处理流量,设计更多分层的局域网将不同性质的域分离开防止数据干

7、扰。该类设计规则已经为各个大项目所采用,并形成了现有的规范:所有以太网工控层都要用独立交换机,每个PLC从站配置的层级不同就配置一个交换机,层级相同的可以共用一个交换机(协议也要相同),绝不能与其他网络公用。因此我推崇分散式控制系统。因为只有真正做到,将复杂控制大程序分散化到现场层的组件与部件上,才可能真正意义上的降低整个网络中的数据负载。工业4.0控制系统的理念也是如此,并且它要求不仅仅是万物互联,而且是万物都 能独立思考,PLC或处理器。也就是每一个组件内部都要有自己的独立大脑,例如嵌入式由此可以预见,工业智能元件智能硬件在不久的未来会迎来爆发性发展的黄金机遇。【题外话】据说有些工业机器人

8、大型项目的编程高手,前一份工作是开网吧的, 现在看来真不是开玩笑的。【技术附录1】IT行业内部对网络风暴的描述与处理对策1、定义一个数据帧或包被传输到本地网段 (由广播域定义)上的每个节点就是广播;由于网络拓扑的设计和连接问题,或其他原因导致广播在网段内大量复制,传播数据帧,导致网络性能下降, 甚至网络瘫痪。这就是广播风暴。2、原因分析网络设备原因:我们经常会有这样一个误解:交换机是点对点转发, 不会产生广播 风暴。其实,在我们购买网络设备时,购买的交换机通常是智能型的集线器(Hub),却被奸商当做交换机来卖。这样,在网络稍微繁忙的时候,肯定会产生广播风暴了。网卡损坏原因:如果网络机器的网卡损

9、坏,也同样会产生广播风暴。损坏的网卡不停向交换机发送大量的数据包,就会产生大量无用的数据包,最终导致广播风暴。由于网卡物理损坏引起的广播风暴比较难排除,并且损坏的网卡一般还能上网,我们一般借用Sniffer局域网管理软件,查看网络数据流量,来判断故障点的位置。网络环路(不是冗余)原因:曾经在一次网络故障排除中,发现一个很可笑的错误:一条双绞线的两端插在同一个交换机的不同端口上,导致了网络性能骤然下降,打开网页都非常困难。 这种故障,就是典型的网络环路。 网络环路的产生, 一般是由一条物理网络线路的两端同时接在了台网络设备中所致。不过,现今的交换机(不是HUB ) 一般都带有环路检测功能。网络病

10、毒原因:一些比较流行的网络病毒,如 Funlove、震荡波、RPC等病毒,一 旦有机器中毒后,它们便会立即通过网络进行传播。网络病毒的传播,就会占据大量的网络带宽,引起网络堵塞,进而引起广播风暴。黑客软件的使用:一些上网者经常利用网络执法官、网络剪刀手等黑客软件,对网吧的内部网络进行攻击,这些软件的使用,也可能产生广播风暴。3、预防对策(以 CISCO catalyst switch 为例)首先使用网管分析你网络的baseline,这样可以明确你的网络当中正常情况下的广播包比例是多少。绝大多数交换机都支持广播风暴抑制特性,配置了这个特性以后,你可以控制每个端口的广播包维持在特定的比例之下,这样

11、可以保留带宽给必须的应用配置:(以 CISCO catalyst switch 为例)Int XXstorm-control broadcast level 20.00switch#sh stormInterface Filter State Level CurrentFa1/0/1 Forwarding 20.00% 0.00%针对缺省STP配置无法排除的网络环路问题,利用STP的BPDUguard 特性来预防广播风暴。此种环路情况示意图如下:switchhub (portAportB )导致引起了环路。SWITCHSwitch启用了 STP,而hub则被人有意无意的用一根网线联起来,的端口

12、不会收到其他交换机或本交换机其他端口的BPDU ,不会触发该端口的STP决策过程,也就不可能blocking 该端口,这样就会引起广播风暴。我们可以利用 CISCO STP的BPDUguard 特性来预防这一点。int xxxspanning-tree bpduguard enable值得注意的是 bpduguard可以在全局下配置,也可以在每端口的基础上配置。如果在全局下配置,则只对配置了 portfast的端口起作用,如果在端口下配置,则不用配置portfast 。4、故障排障(以 CISCO catalyst switch 为例)如果网络中已经产生了网络风暴(现象通常为网络丢包、响应迟缓

13、、时断时通等),则可以利用如下方法排障:1)、首先确认是否是网络风暴或其他异常流量引起的网络异常,在核心交换机上如果交换机的CPU利用率较高,且大部分的资源都被“ IP Input ”进程占用,则基本可以确定网络中有大流量的数据;2)、查找异常流量是从交换机的那一个端口来的:switch #sh int | iprotocol|rate|broadcastsFastEthernet1/0/1 is up, line protocol is up (connected)Queueing strategy: fifo5 minute input rate 0 bits/sec, 0 packets

14、/sec5 minute output rate 2000 bits/sec, 3 packets/secReceived 241676 broadcasts (0 multicast)如果找到一个端口的input rate 非常高,且接收到的广播包也非常多,则基本可以找到来源,如果该端口下联的也是可管理的交换机,则再次执行此过程,直到找到一个连接PC或者HUB的端口3)、shutdown 该端口 int xx shutdown4)、查找产生异常流量的根源如果是HUB环路,则拆掉环;如果是病毒,则做杀毒处理;如果是网卡异常,则更 换网卡。此部分不详述。5)、确认交换机的 CEF功能是否启用,如

15、果没有,则需要启用,可以加速流量的转发配置CEF : switchsh ip cef全局模式下输入ip cef【技术附录2】重视交换机工作原理现在采用的交换式交换机,第一次获取mac表是采用洪范式学习也就是广播了如果这台交换机不存在,就向他的级联交换机继续广播学习;如果交换机存在环路,就会造成广播包来回循环造成风暴导致网络不稳定;目前,一些比较流行的网络病毒,如Funlove、震荡波、RPC等病毒,一旦有机器中毒后,它们便会立即通过网络进行传播。网络病毒的传播, 就会占据大量的网络带宽,引起网络堵塞,进而引起广播风暴。在IT领域,只有广播帧才会形广播风暴,单播帧一般不会,但是如果是未知单播,也

16、就是交换机内没有对应的单播地址,往往会引起交换机的洪范式广播学习。一般来说,更换备件不会出现网络风暴。网络风暴的原因来源于数据包的泛洪,一般来说,组播包、广播包、DLF包(未知 目的)包会引起网络风暴。网络风暴的大部分原因在于交换机有环路,我们知道交换机是工作于数据链路层上,是基于 MAC地址进行通信,它的转发和交换基于一张MAC地址表,用它标识 MAC地址和交换机端口的对应关系,由于 MAC地址表的建立是靠交换机的 MAC地址学习来实现的, 所以如果 MAC地址出现被反复学习的时候 就会出现网络风暴。防止网络风暴可以采取以下思路:1、隔离冲突域,把大环改成小环,把风暴隔离于小范围内。2、更新MAC地址age时间,如果 MAC地址更新速度过快也会造成MAC地址表的不断膨胀,造成广播风暴。3、采用广播抑制技术, 对于不断循环的 MAC信息进行筛选和过滤, 并且抑制转发速度, 可以将风暴缓解在一定区域。【技术附录3】检查线路连接有没有错误的通俗做法网线的两端是否插到同一台交换机上?线路连接没错误的话,一个端口一个端口的排查,看看那个插到哪个端口上的网线造成了网络风暴,然后将网线拔下来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论