QC成果汇报3.ppt_第1页
QC成果汇报3.ppt_第2页
QC成果汇报3.ppt_第3页
QC成果汇报3.ppt_第4页
QC成果汇报3.ppt_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

降低ADC故障时长率 集团新业务部QC小组 2010年3月 小组概况 专业术语解释 ADC 月故障时长率 英文全称 ApplicationDataCenter 中文名为数据应用中心 是指中国移动为集团客户 主要为中小企业客户 按需提供基于移动终端的托管式的信息化应用服务 指每月发生故障的小时数除以每月的总小时数再乘以100 例如 1月发生故障的小时数为76小时 1月的总小时数为744小时 则1月的故障时长率为76 744 100 10 2 经过维护月报统计 发现所管理的几个业务平台中 ADC平台故障较多 二 选题理由 经调查发现ADC的故障时长率较高 为尽快改进ADC的维护支撑状况 支持业务发展 我们选择课题如下 课题名称 降低ADC故障时长率 2009年1 6月ADC平台故障时长率较高 月均达到5 23 三 活动计划 三 现状调查 本小组于2009年7月对2009年1 2 3 4 5 6月ADC平台的故障时长率进行了统计 如下表 该统计表显示 此六个月的平均月故障率达到5 23 三 现状调查 小组又对故障时长的具体情况进行了分类统计 得出各种故障类型所占总故障时长的比例 如下表 三 现状调查 根据以上数据我们制作了饼图 69 7 9 8 5 3 13 69 7 9 8 13 2 2 业务无法使用 用户无法登陆平台 5 3 2 2 计费故障 企业归属地出错 其它故障 四 目标确定 通过对业内情况的了解 ADC月平均故障时长率一般不高于3 小组成员通过计算发现 如果能解决 业务无法使用 这个主要问题 占69 7 就可以将故障时长率从5 23 降低到3 以下 即 5 23 69 7 5 23 1 58 所以QC小组成员认为ADC月平均故障时长率达到3 的平均水平是可能的 目标值 现值 五 原因分析 小组成员应用头脑风暴法 得出以下树图 五 原因分析 小组对 业务无法使用 的问题进行了分析 共得出十一条末端原因 1 产品业务流程不熟悉 7 BOSS与平台链路连接不合理 2 SI侧无鉴权 8 CPU处理和内存处理能力不足 3 不能及时发现SI侧产品故障 9 F5配置不合理 4 用户账户密码忘记 10 并发进程冲突 5 用户帐号被锁 11 外网攻击 6 SI与ADC跨网连接 这对上述十一条末端原因 我们用要因确认表进行逐条的分析 六 要因确认 六 要因确认 六 要因确认 确认一 客户经理对产品和业务流程不熟悉 目前 我省ADC平台的产品共计13个 各个产品的业务开通的流程不尽相同 而且业务开通的整个过程涉及BOSS ADC和SI三方 需要客户经理具备比较丰富的业务知识和操作经验 QC小组专门查阅了 用户订购失败 故障解决的记录 经过对此类故障原因的分析发现 从2009年1月1日至6月30日 因客户经理不熟悉业务造成用户订购失败的情况共计发生85次 占造成此类故障原因的82 52 具体数据见下表 2009年1月至6月 用户订购产品失败 故障原因统计表 六 要因确认 确认一 客户经理对产品和业务流程不熟悉 在发现上述问题后 我们又采用问卷和现场访谈的形式对50个客户经理的相关业务知识和电脑操作能力进行了抽样调查 以便再次确认该项要因 调查显示 抽查人员中有56 的人对产品和业务流程不熟悉 而仅有7 的人电脑操作能力较差 具体数据如下 2009年7月业务能力情况调查表 结论 客户经理对产品和业务流程不熟悉是要因 六 要因确认 确认二 SI侧未鉴权 QC小组通过对ADC平台和SI平台接口进行调查 发现SI侧未鉴权的次数为2次 占用户订购失败次数103次的1 9 因此不是要因 QC小组通过对ADC平台用户帐号管理情况进行调查 并访谈ADC平台帐号管理人员 发现要求重置密码的情况每月不超过2次 按照全省用户比例 不到1 所以用户帐号密码忘记不是要因 QC小组通过对ADC平台帐号登陆的设置进行查阅 发现现ADC平台未将三次登陆失败锁定用户的选项打开 不会发生用户帐号被锁的情况 所以用户帐号被锁不是要因 确认三 用户帐号密码忘记 确认四 用户帐号被锁 六 要因确认 确认五 不能及时发现SI侧产品故障 1月至6月由客户经理反馈的SI业务平台故障次数31次 而平台维护人员仅在3月份发现一次SI业务平台故障 详细情况如下表 通过上表可以看出ADC业务用户投诉平均值为5 17条 远远高于主动发现的次数 因此不能及时发现SI侧产品故障是要因 六 要因确认 确认六 SI使用其它运营商的网络 通过对ADC平台与SI网络详细 彻底的调查 发现各家SI厂商采用不同运营商的网络通过INTERNET与ADC平台进行连接 具体拓扑图如下 六 要因确认 确认六 SI使用其它运营商的网络 从以上网络拓扑图可以看出部分SI系统通过其它运营商的互联网络与ADC平台进行数据接口交换 由于其它运营商互联网络与中国移动互联网存在网络瓶颈问题 网络传输得不到保障 对用户的业务使用会造成一定的影响 为了测试SI与ADC平台跨网连接是否存在影响 我们采用两家接入在不同运营商网络的相似SI业务进行摸拟对比实验 实验方法如下 编写测试脚本 模拟用户连续订购 移动CRM 业务和 移动OA 订购操作 在每一台ADC服务器上各选取5个区间 在每个区间内执行一次测试脚本 获得ADC与 移动CRM 移动OA SI服务器的交换接口的平均时间 经过实验 统计出如下数据 经过上面的测试可以得出 移动CRM 比 移动OA 接口交换网速快了5倍左右 网络访问的延时会影响用户定购产品的成功率 增加故障率 因此SI使用其它运营商的网络是要因 六 要因确认 确认七 BOSS与平台链路不合理 通过右方网络拓扑图可以看出 BOSS计费库和BOSSAGENT服务器本来在同一地理位置金阳 但网络传输确经过了黑马和新华苑的交换机等中间网络传输设备再绕回到金阳ADC机房 网络链路环节过多 故障原因查找耗时比较长 影响业务故障的及时发现和排处 故BOSS与平台链路不合理也是要因 通过对ADC平台的BOSSAGENT与BOSS计费库的网络进行详细 彻底的调查 发现BOSSAGENT与BOSS计费库的网络链路较长 故障点太多 发生故障时不能及时排查修复 维护比较困难 具体拓扑图如下 21 QC小组经过现场登陆监控软件取得2009年上半年任意三个月的CPU和内存数据 以中国移动集团公司设备运行标准 70 以上作为告警线 发现CPU和内存的平均使用率都在45 以下 未达到告警线 所以不是要因 六 要因确认 确认八 CPU和内存处理能力不足情况 六 要因确认 F5是负载均衡四层交换机 QC小组经过现场登入负载均衡设备查看设备配置 检查F5日志是否分配到各台Portal服务器的连接数不均衡 登入后发现F5的配置是按照 空闲接入 的设置 进入的所有连接都分配给空闲的服务器 各台Portal服务器的接入量基本相同 所以F5配置不合理 不是要因 QC小组对各台服务器和网络设备及架构进行检查 在网络设备上检查发现 连接至外网的Portal服务器是单独划立的Vlan 且在Liunx操作系统的Portal服务器前端有华为的Eudemon500防火墙和AURORA200 NIP200等入侵检测设备 未发现有外网攻击服务器的情况 其余设备均在内网也不可能遭到外网攻击 所以外网攻击不是要因 QC小组对各台服务器的进程进行对比整理 现场观察 发现除业务必须进程外 并无其它垃圾进程 所以并发进程冲突不是要因 确认九 F5配置不合理 确认十 并发进程过多 确认十一 外网攻击 六 要因确认 小组通过对十一条末端因素的逐条确认 因此找到了四项主要原因 1 产品业务流程不熟悉 4 BOSS与平台链路连接不合理 2 不能及时发现SI侧产品故障 3 SI与ADC跨网连接 七 制定对策 针对要因 QC小组经过充分思考和讨论 制定了相应的对策实施表 八 对策实施 对策实施一 开展内部培训 印发业务手册 QC小组邀请了ADC的专业技术人员对客户经理进行分批培训 并强化实际操作的练习 熟悉各产品的开通办理流程 QC小组成员编写ADC平台的业务手册 印发到客户经理的手中 2009年6月至8月 用户订购产品失败 故障原因统计表 2009年7月业务能力情况调查表 效果 1 因客户经理不熟悉业务造成用户订购失败的情况由对策实施前的82 52 的占比下降到34 78 2 经过第二次对客户经理的的抽样调查显示 对产品和业务流程不熟悉的人员由对策实施前的56 下降到1 八 对策实施 对策实施二 引入应用监控系统 AMS 的业务拨测子系统 QT 拨测功能解决 不能及时发现SI侧产品故障 问题 通过对ADC业务投诉的用户电话回访 QC小组发现在ADC平台长期的运营过程中存在对SI侧故障发生后处理不及时的情况 当 SI 业务提供商不能向用户提供产品支撑或中断业务服务时故障信息无法及时的反馈给SI方 进行迅速排故 从而造成用户无法使用该业务的严重后果 具体情况如下 1 无有力的监控手段 2 定位故障方不准确 3 故障延续时间较长 4 用户使用业务投诉增多 5 人工值守缺乏灵活性 八 对策实施 效果 从2009年8月1日该对策实施后至2010年3月1日 用户使用产品故障投诉率有明显下降 由原先的单业务每月平均故障投诉5 17条降低至现在单业务每月平均故障投诉1 67条 每月主动的发现的故障次数由原来的0 16条增加3 17条 通过QT数据业务主动拨打测试SI系统 由QT模拟拨测前端机和QT服务器 实现对SI的产品探测 QT服务器平台端可以进行整个系统的探测和监控 通过IE浏览器即可访问平台端实现系统监听 对策实施二 引入应用监控系统 AMS 的业务拨测子系统 QT 拨测功能解决 不能及时发现SI侧产品故障 问题 八 对策实施 对策实施三 解决SI跨网联接的问题 效果 从2009年8月12日该对策实施后至2009年12月31日 SI系统与ADC系统接口交换明显加快 比原先的连接速度提高了约17倍 实施前网络连接图 实施后网络连接图 八 对策实施 对策实施四 BOSS与平台链路不合理 措施 对网络链接进行改造 将原有多级链接改为直联链路 实施前网络连接图 实施后网络连接图 效果 从2009年7月26日该对策实施后至2010年2月1日 BOSS计费库和BOSSAGENT之间没有再出现过网络传输故障 九 效果检查 一 目标值检查 九 效果检查 一 目标值检查 ADC平台月平均故障时长率由项目实施前的5 3 下降至2 2 达到了QC小组的预定目标 九 效果检查 二 经济效益 对策实施后 大大降低了ADC平台故障时长 各业务等的订购量和使用量也得到大幅提高 ADC客户数09年底到达15839家 较08年底7504家增长111 C类集团客户数09年底到达33880家 较08年底16825家增长101 统计数据表明 QC活动前2009年1月至6月系统无故障时间为94 77 所运营所得的费用约为1000万 平均每1 的无故障时间产生的信息费约为1000万 94 77 100 10 55万元 经过小组活动无故障时间提升了3 1个百分点 故QC活动期间共产生经济效益10 55万 3 1 32 7万 九 效果检查 三 社会效益 用户订购和使用ADC业务更加顺畅快捷提高了客户的使用感知 提升了客户满意度 增加了对中小型集团客户的粘性 有效促进了目标市场的稳定4 彰显移动信息专家的价值 十 巩固措施 为了保障活动成果持续有效 小组针对对策实施的效果 进行了巩固 修订 ADC维护管理办法 并组织维护人员和系统厂商认真学习 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论