(完整word版)PTN运行维护篇_第1页
(完整word版)PTN运行维护篇_第2页
(完整word版)PTN运行维护篇_第3页
(完整word版)PTN运行维护篇_第4页
(完整word版)PTN运行维护篇_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 ptn 运行维护篇 目 录1.1 网络故障处理基本思路和方法 .31.1.1 ptn 与 mstp 告警对比 31.1.2 常见告警故障处理方法 51.1.3 以太网业务丢包类故障处理方法 71.1.4 oam/ping 调试法 71.1.5 环回逐段定位法101.2 ptn 网络例行监控.11 1.1 网络故障处理基本思路和方法ptn的组网、业务配置愈发复杂,需分组厂商网管尽快做好sdhlike功能。为尽快恢复业务,将检测的故障点最小化,需了解sdh原理、ip网络原理知识、告警信号流及告警产生机理、ptn设备和网管基本操作、常用仪表的基本操作,了解网络拓扑,业务配置,设备运行状态。 告警、

2、性能分析法 oam/ping调试法 环回法ptn 对于 tunnel 的故障可用 mpls oam 来检测,mpls oam 包括 cv/ffd、ping 和 traceroute。通过 cv(connectivity verification)/ffd(fast failure detection)检测可以检测lsp 的连通性。cv 检测和 ffd 检测的过程基本一致,其不同在于cv 检测发送 cv 报文的频率固定为 1 帧/s 并且不可设置,而ffd 检测发送 ffd 报文的频率是可以自行定义的。mpls ping/traceroute 为用户提供了发现 lsp 错误、并及时定位失效节点的

3、机制。mpls ping/traceroute 使用 mpls echo request 和 mpls echo reply 检测 lsp 的可用性。mpls echo request中携带需要检测的 fec(forwarding equivalence class)信息,和其他属于此 fec 的报文一样沿 lsp 发送,从而实现对 lsp 的检测。为了更好的理解ptn,我们就把ptn与熟悉的sdh的业务层面告警类比一下,与大家共享。1.1.1 ptn 与 mstp 告警对比对应于业务模型,ptn的告警分为物理层、数据链路层、tunnel层、pw层、仿真业务层五个层次。对应sdh的物理层、再生

4、段复用段层、服务层、路径层。上层功能的实现依赖于相邻下层提供的服务。低层与高层同时有故障产生时,低层故障的消除是处理高层故障的基础,物理层故障引发的告警屏蔽其它层故障引发的告警。sdh的告警与ptn的最根本的区别在于sdh的告警都是由字节承载上报的,而ptn告警则是由协议控制上报的;但都有其相似之处,如下图: e1/e3净荷ces/atm/ethernet净荷路径层(lo-vc1通过物理层或数据链路层提供净荷路径的传送多元的lo-vc到ho-vc 或者 pws到psn tunnels服务层(ho-vc4tunnel层stm-n 帧格式或以太报文通过物理介质传送再生段复用段层物理层(fiber)

5、sdhptn图 28 ptn 网络与 mstp 告警对比图业务模型中,pw可类比vc12、tunnel类比vc4管道,ces即电路仿真业务就是传统的e1;告警可划分为业务类告警,系列类通用类告警,下面表格按业务告警,与sdh进行类比,各业务层告警对比:sdh、ptn类比结果/atm)特点up_e1_aisdown_e1_ais等服务层(vc4) hp_slmhp_uneqtunnel层类告警码类,复用段 线性复用段告警类 告 警 ( 线 ima业务告警性),增加了 lag_down层(开销)告警物 理层(单板 r_los/ eth端口/sdh eth_los物 理 层 告 警 r_los与sd

6、h相同, eth_los完 全 继 承 了 t_aloslaser_mod_err sdh光口、eth laser_mod_erreth_link_down 电口、光口的 eth_link_down习惯 1.1.2 常见告警故障处理方法 ces业务常见告警故障处理方法:序号告警名称产生原因处理方法t_alose1信号丢失,主要上报在支路接 环回e1口板上;12分别是上行2m信号指示、和下行 察 看 对 端 是 否 有2m信号指示,产生原因和sdh的 tu_lop_vc12 、 t_alos 或相同tu_ais_vc12 告警。或者 e1环回方式mpls_tunnel_locv mpls_tun

7、nel_locv 为 tunnel 原因1:物理链路故障。1. 在连通性丢失告警。连续3 个周期 网管上检查该链路两端网元内没有收到希望的cv/ffd 报文 是否存在单板或光模块相关时出现此告警。产生 g该告警 的告警。若存在,消除这些时,该tunnel承载的业务已中 告警,查看告警是否消除。断,2. 若告警未消除,查看光纤原因1:往往是下层网络异常引 是否故障,更换故障的光纤。起,例如物理链路故障等,光模 原因2:网络出现严重拥塞。3块故障1. 选择较大的“ cc 测试发原因2:网络出现严重的拥塞。 送周期”的参数值,具体操作见本文的创建维护联盟。2. 检查故障 tunnel 的带宽占用情况

8、,如发现已满,请增大 tunnel 带宽配置或消除非法发送大数据量的根源,查看告警是否消除。系统中存在更高阶的告警,如 按照产生原因点,逐步排除;r_los、r_lof、hp_slm、au_ais 先看是否有高级别的r_los、上游站点存在硬件故障告警交叉板故障对端站对应通道失效r_lof、hp_slm、au_ais 告警,然后看是否存在硬件故障支路板?交叉?最后对端对应通道?需要用到经验法、替换法等。与sdh类似4业务中断类常见告警原因:光纤、电缆故障、环境温度、误操作设置了光路的环回、误操作更改、保护业务配置数据有误。应急处理时优先恢复业务,排除外部设备的问题,将业务倒换到备用通道,复位单

9、板、单站重启、重新下发配置等。 以太网业务常见告警故障处理方法:告警名称产生原因以太网端口连接丢失,可能原因:以太网端口的电缆或光纤 属于物理层故障类,察看物1eth_los没有连接好;电缆或光纤故障;本端网元接收光功率过低;单板故障。理连接,端口、单板故障;逐一排除。mac_fcs_exc 为mac 层检测 1:检测是否链路出现故障,到误码越限告警。软件定时检 维护光纤或网线,查看告警2mac_fcs_exc测mac 芯片接收字节数和误是否消除。 码字节数,计算误码是否超过 2:若告警仍未消除,检测是门限,超过设置越限门限发出 否存在 dos 攻击等,隔离此报警。dos 攻击源,查看告警是否

10、消除。3.若告警仍未消除,是否出现配置环路或物理等问题,解除环路,查看告警是否消除。对应需要察看和排除端口协商问题,主要关注端口模式,端口速率级别。最后使用替换法检验是否是硬件故障以太网连接错误,端口协商失败;可能原因:端口模式不一致;电缆光纤连接故障;单板故障。34端口接收流量超限告警;可能原因为实际接收的端口流量大于设定的端口流量限值。增加端口带宽。丢包类故障常见原因:光功率问题、环境温度、数据业务端口协商故障、时钟配置错误、业务流控配置。可通过查看光功率、rmon、丢包率等性能事件解决。mpls保护倒换类告警排除:告警信息eth_aps_type_mismatch 保护类型信息不 1、两

11、端配置的 1+1 或 1:1 模式不一致;一致2、两端配置的单端或双端倒换的模式不一致;3、两端配置的恢复式或非恢复式的模式不一致;eth_aps_path_mismatch aps 工作、保护路1、保护组两端设备配置的工作路径、保护路径不一致径不一致;2、物理链路上存在有错连;eth_aps_switch_faileth_aps_lost1、倒换失败;aps 帧丢失1、对方没有配置保护;2、保护通道业务中断; 1.1.3 以太网业务丢包类故障处理方法业务丢包、错包的可能原因 端口光功率异常或光功率不稳定,这是最常见的丢包原因时钟未跟踪,或跟踪源不稳定,会导致周期性丢包tunnel下一跳端口i

12、p设置错误(如设置为本端端口,扩容或调整业务时)可能会导致丢包网络侧发生拥塞,由于现网基本是轻载状态,拥塞可能性较小排查业务丢包、错包的思路:找出与“有问题的业务”走相近链路的业务,看是否有类似问题,以此缩小范围业务a网元e业务b如果业务a有丢包,业务b不丢,则问题应该在网元a与网元c之间1.1.4 oam/ping 调试法常用场景:数据业务通断判断维护中,工作难点主要在于如何能够快速有效地排除故障。在众多的故障中,以“业务不通”最为常见。应该如何着手解决呢?首先我们将ptn专线业务做成下图所示的分段。 ptn网络关于oam的规划主要涉及:mpls oam、以太网端口的oam。适用于故障定位到

13、单站,主要用于检查网络连接是否可达,以及分析网络什么地方发生了故障。n 常用oam排障步骤1tunnel oam pw配置tunnel配置pw配置透传设备nodeb接入侧ptn uni接入侧ptn nni核心侧ptn nni核心侧ptn unirnc(ptn,波分设备等)业务配置业务配置红色标识部分是维护关键区域, 因为这一区域的网元多,外部因素多(光缆,光模块,波分设备等) , 需考虑业务扩容,业务归属关系调整排障的主要工具: tunnel oam使用方法:到两侧(接入侧、核心侧)网元查看tunnel oam状态结果分析: 两侧tunnel oam状态都是“远、近端可用” - 该区域基本没有

14、问题 tunnel oam检测有任何缺陷上报- 根据“lsp缺陷位置”可锁定故障位置 查mpls_tunnel_locv告警: 含义:tunnel链路中断 解决措施:需要检查tunnel链路的连通性,发起lsp ping确认故障节点/链路,并观察tunnel链路中其它节点的相关告警信息,需启动oam功能。n 排障步骤2lsp故障位置分析 红框内的lsp缺陷位置指示了问题网元的lsr id (gcp node id)在lsp缺陷位置及相邻网元范围内, 进一步排障步骤:检查光纤原因检查业务告警 eth_link_down, eth_los, r_los等链路异常告警 in_pwr_abn等光功率异

15、常告警 hard_bad、bus_err、bd status等硬件异常告警检查配置 源宿节点是否正确 相邻网元的出入标签是否一致 下一条端口ip是否正确其它可能原因: 源宿节点是否正确 相邻网元的出入标签是否一致 下一条端口ip是否正确查看各端口收光功率的当前/历史性能是否过低或过高: 有可能端口收光功率接近但未超过阈值,导致无告警上报,所以需要查性能 有可能端口收光功率不稳定,导致当前性能值正常,所以需要查历史性能下一条端口ip是否正确查看各nni端口的设置: eth oam的简易操作步骤:a.两端网元发起lb测试,用于命令触发的连通性检查,对以太网业务执行不中断业务环回检测(lb),可以检

16、验业务的连通性情况,以便定位和修复故障。注:只须输入对端uni端口mac地址就可以启动测试了,其他参数可用默认oam功能产生的告警概览:mels oammpls_tunnel_locv告警 含义:tunnel链路中断解决措施:需要检查tunnel链路的连通性,发起lsp ping确认故障节点/链路,并观察tunnel链路中其它节点的相关告警信息。init(初始)状态ingress端没有使能oam或者tunnel链路中断;tunnel状态正常;unavailable(不可用) tunnel状态不可用,需要检查tunnel链路的连通状态性,发起lsp ping确认故障节点/链路,并观察tunnel

17、链路中其它节点的相关告警信息含义:eth业务中断解决措施:需要发起eth lb进行故障确认,发起lt进行故障定位;对于mpls承载的eth业务,需要观察mpls tunnel的连通性。含义:对端检测到eth业务的告警后的回告指示解决措施:需要在对端进行告警确认和排查操作;含义:eth链路发现失败解决措施:检查两端的eth link oam的配置是否一致,检查eth链路的连通性;含义: eth链路存在误码解决措施:对端网元检测到端口有误码,需要在对端网元确认其接收链路是否正常;1.1.5 环回逐段定位法常用场景:ces业务、sdh业务出现故障时,在支路或线路环回,定位故障原因到单站,环回操作会导致业务中断。仅在sdh类业务使用;注意:数据类定位的方法,为避免环回造成的网络风暴,使用ethoam功能,维护过程中不使用环回。sdh 接口在维护中使用内环回和外环回。pdh 接口使用内环回和外环回两种环回方式。 网管中环回界面与sdh近似。1.2 ptn 网络例行监控网络维护工程师在维护ptn网络时,比mstp网络更关注rmon性能等数据t2000网管上日常维护项目表:维护地点网管中心维护项目检查网元和单板状态浏览全网告警浏览异常事件浏览当前性能浏览 rmon 统计组性能检查光接口的光功率浏览历史性能浏览 rmon 历史性能每周(端口流量统计、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论