




已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020 4 18 PTNLMT PTNETH业务故障处理 Page2 目录 原因篇故障定位流程篇典型案例分析篇总结篇附录 Page3 原因篇 ETH业务不通 中断原因主要包括以下几种 我们的定位工作也就主要围绕这几个方面展开 配置错误硬件故障 设备异常链路问题 报文丢失对接设备异常 配合问题软件缺陷 Page4 原因篇 业务配置错误 配置错误可能原因 1 对接端口的工作模式配置不一致 2 对接端口Tag属性配置不一致 3 网络侧PW Tunnel参数配置错误 4 业务被误删除 网管与设备上配置不一致 5 对ELan业务来说 水平分割组 静态Mac地址表的配置也比较关键 以下故障场景优先排查配置错误 1 创建后业务不通 2 修改配置后业务中断 3 新增业务后其他业务受到影响 Page5 原因篇 硬件故障 设备异常 硬件连接错误 原因可能是单板未插紧 物理板和逻辑板不匹配 光纤 网线损坏或连接错误等等 硬件故障 原因可能是单板元器件 芯片损坏 单板元器件寿命到期等等 关键器件会有相应告警上报 详细说明如下 Page6 原因篇 硬件故障 设备异常 续 以下故障场景优先排查硬件 设备异常 1 业务不通或出现丢包时 查询告警存在硬件设备级别告警 2 业务更改物理线路后 业务出现误码或不通 Page7 原因篇 链路问题 报文丢失 接入侧链路故障 原因可能是接入设备的物理链路中断或质量有问题 导致报文被修改或无法传入PTN设备 对于RJ45接口 可以查询是否存在ETH LOS ETH LINK DOWN告警来进行排查 对于光口可以查ETH LOS ETH LINK DOWN IN PWR ABN告警来进行排查 PW Tunnel故障 原因可能是PW Tunneldown 业务流经的物理链路中断等等 报文拥塞 原因可能是带宽配置过小 同优先级的报文流量过大导致丢包 或网络上流经此端口的流量超过端口实际的物理流量的范围而丢包等等 存在物理或逻辑上环路故障 仅针对Elan 原因可能是网络组网就存在物理环路 或水平分组配置不合理引起逻辑链路上的环路或报文被环回的情况等等 Page8 原因篇 对接设备异常 配合问题 对接设备异常 原因可能是对接设备将报文修改了 我们接到错误报文就直接丢弃 或者对接设备异常导致无法发送数据到对端等 配合问题 原因可能是业务流经的设备过多 网络流量拥塞 带宽分配过小 中间网络设备调度算法有缺陷等等导致网络时延 抖动过大 从而影响业务的传输性能 以下故障场景优先排查对端设备异常 1 我们设备上没有异常告警且配置正确 查询端口性计数无收情况 2 业务传输不稳定 会出现中断后又恢复的情况 3 业务原来是正常 我们设备配置没有更改过 出现的业务不通问题 Page9 原因篇 软件缺陷 软件缺陷主要有以下几种情况 1 配置丢失 2 单板或网元异常复位 3 软件不同模块的配置参数不一致 4 软件内部处理流程错误 5 告警误报 需要研发人员提供相关命令才能确定 Page10 故障定位流程篇 通用方法介绍通用流程介绍 1 硬件故障定位流程 2 Tunnel pw故障定位流程 3 接入侧故障定位流程 4 ELAN业务层面定位流程 5 其它故障定位流程 Page11 故障定位流程篇 通用方法 先分离外部故障 再定位内部故障 先定位宿端和源端 然后定位中间站点 先定位NNI侧 然后定位UNI侧 如果较多业务故障 注意归纳分析这些故障现象有无共同的规律 例如 这些业务是否都是流经特定的网元 单板 端口 故障业务是否由某些特定的Tunnel承载 故障业务是否都是同一种类型 Page12 故障定位流程篇 通用流程 Page13 通用流程 硬件故障处理流程 Page14 通用流程 TNL PW异常处理流程 Page15 通用流程 uni侧故障处理流程 Page16 通用流程 ELAN业务层面故障处理流程 Page17 通用流程 其它故障处理流程 Page18 典型案例分析篇 ELine业务典型案例分析 现象描述关键过程分析怀疑点排除问题根因经验总结 预防措施ELan业务典型案例分析 现象描述关键过程分析怀疑点排除问题根因经验总结 预防措施本章节要求读者了解PTN产品架构和业务模型 熟悉基本的业务配置 Page19 ELine业务典型案例分析篇 现象描述 某运营商网络通过在PTN设备上配置专线业务用以传其时钟数据 也就是将RNC的时钟数据传输到NodeB 但有些站点会出现业务中断后又自动恢复的问题 组网如下图 Page20 ELine业务典型案例分析篇 关键过程分析 根据现象某些站点业务间歇性的中断又恢复 可能存在以下几种情况 1 问题站点的PTN网元可能存在异常 比如 业务所在单板存在间歇性的复位 2 传输物理链路不稳定 3 中间网络存在异常 4 PTN设备与RNC或NodeB之间配合存在问题 Page21 ELine业务典型案例分析篇 怀疑点排除 第一步 获取了问题站点的网元上的所有当前及历史告警 业务配置 端口配置 errlog信息 及操作记录 没有发现网元及业务单板存在异常的情况 因此 网元或业务单板存在异常的怀疑点被排除 第二步 由于获取RNC NodeB及中间网络上的相关告警信息 客户需要一定的时间才能提供 因此 从客户提供的问题站点的信息分析 这些问题站点都有一个共同点 与NodeB相连的PTN设备都是912设备 且都是用网线相连接 检查了一个问题站点网线的物理连接 没有问题 因此 可能存在传输链路的疑点基本上也可以被排除 Page22 ELine业务典型案例分析篇 怀疑点排除 续 第三步 从客户提供的部分信息可以看出 问题站点的NodeB上有SynLos告警开始和结束记录 与业务中断和业务恢复的时间比较 基本上吻合 而SynLos告警是NodeB的时钟跟踪不上才会上报的 那么 究竟是业务中断引起eNodeB的时钟跟踪不上而上报SynLos告警 还是时钟跟踪不上后 而引起业务中断呢 由于排除前者非常困难 因为还涉及到中间网络的分析 那相比前者 确认后者是否NodeB时钟跟踪不上就会中止发送数据 及NodeB时钟跟踪有那些性能要求的问题就更容易些 与客户确认结论 NodeB如果一段时间时钟跟踪不上 NodeB端口就会停止向外发送数据 且NodeB对网络性能要求是1 clockpacket的jitter小于等于20微秒 Page23 ELine业务典型案例分析篇 怀疑点排除 续 第四步 根据确认的结论 我们尝试了以下测试方案 用测试仪从PTN91218端口打报文 在PTN3900网元的uni端口作环回 将业务环回到PTN91218端口 测试以太专线业务传输的数据包PacketDelay PacketJitter的指标 再将PTN912设备换成PTN1900设备 经过相同的物理路径测试相应地指标 测试结论如下 单位 微秒 Page24 ELine业务典型案例分析篇 问题根因 由第四步的测试数据 基本可以确定是网络上数据传输的时延抖动不能很好地满足NodeB对网络性能的要求 当网络上性能变差时 业务就会中断 而PTN912相比PTN1900来说是相对低端的产品 在硬件转发能力上比PTN1900要弱 且内部转发原理也不一样 PTN912是通过软转发来实现的 因此 在PTN912所在的某些站点会出现业务间歇性中断概率较大 Page25 ELine业务典型案例分析篇 经验总结 1 导致ELine业务中断原因比较多 但没有异常的告警或事件记录的情况下业务中断的情况比较少见 在此种情况下 一定要对与之对接设备的异常情况进行监测 这些异常情况能帮助我们更快速准确地定位出问题的根本原因 2 用以太业务传时钟数据应用比较少 使用前需要先评估我们设备所在的整个网络性能是否能很好地满足应用需求 Page26 典型案例分析篇 ELine业务典型案例分析 现象描述关键过程分析怀疑点排除问题根因经验总结 预防措施ELan业务典型案例分析 现象描述关键过程分析怀疑点排除问题根因经验总结 预防措施本章节要求读者了解PTN产品架构和业务模型 熟悉基本的业务配置 Page27 ELan业务典型案例分析篇 现象描述 某运营商网络通过在PTN设备上配置专网与另外一个设备供应商的DSLAM对接 在实际业务割接时 通过DSLAM上网 业务不通 出现问题的网络的逻辑组网如下图 Page28 ELan业务典型案例分析篇 关键过程分析 业务不通 可能存在以下几种情况 1 PTN设备与DSLAM之间配合存在问题 2 PTN设备上业务配置有问题 3 DSLAM设备异常 Page29 ELan业务典型案例分析篇 怀疑点排除 第一步 对PTN设备上专网配置进行了检查 基本业务配置没有问题 只是网元PTN60012上的网络侧配置有水平分割组 而另外两个网元上没有配置水平分割组 因此 基本配置应该不存在问题 第二步 通过查询网元上的mac地址学习信息 发现广播流量会从DSLAM PTN60012 PTN60014 PTN60013 PTN60012最后回到DSLAM的上行口 即PPPOE业务客户端的请求连接报文被专网环回 从而导致DSLAM的MAC地址表错误被刷新 因此 问题的基本原因是在对专网的应用的设计上 Page30 ELan业务典型案例分析篇 解决方案 解决方案 在PTN60013或PTN60014上配置水平分割组阻断其专网中的两个网络侧间报文的转发功能即可 Page31 ELan业务典型案例分析篇 经验总结 导致Elan业务不通的原因比较多 但在遇到问题后 分析透彻现网组网 清晰业务构架和转发机制是至关重要的 Page32 总结篇 本文档只是对ELine Elan业务故障的可能的原因进行说明 针对两类业务形态 仅各选择了一个典型案例进行分析 前面提到的其它的影响ELine Elan业务原因案例就不一一例举 附录篇中 文档有详细总结 请参考 本文描述的案例都是比较典型的 定位过程仅供参考 不必完全按照以上描述的步骤进行定位 可以根据经验灵活选择 如果现场无法定位清楚或业务已被恢复 请采集完整故障信息返回研发分析 所需信息如下 Page33 总结篇 续 1 T2000当前告警和历史告警 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四上数学家长会发言稿
- 时间管理法则培训课件
- 美术项链艺术创作全解析
- 中考美术状元课件
- 二零二五年度服装厂临时职工劳动合同解除条件及责任
- 梁宜2025版离婚协议书针对子女未来职业规划及辅导安排b
- 二零二五版婚礼场地租赁合同含婚礼现场礼品赠送
- 2025版化妆品经销商区域总代理合同范本
- 2025版大数据资源共享技术服务合同TFJEMIA10
- 2025版高速公路紧急通道护栏采购协议
- GB/T 16886.12-2023医疗器械生物学评价第12部分:样品制备与参照材料
- 发泡模具验收报告
- 全国各气象台站区站号及经纬度
- 深圳市劳动法律法规参考手册
- 现金流游戏课件
- HCCDP 云迁移认证理论题库
- 无线电技术设施运行维护定期巡检项目总表
- 深远海智能养殖装备平台
- 义务教育英语课程标准(2022年版)
- 钢结构与已建建筑的衔接
- 社会组织规范化建设评价指标体系解读
评论
0/150
提交评论