




已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
IT运维工作交流,2010.7,交流内容,用ITIL指导运维工作中心机房运维介绍应急体系与演练2009年技术故障总结营业部运维工作建议,用ITIL指导运维工作,IT运维的困惑,目标是什么?为什么老是出错?什么问题都要电脑人员负责。无过便是功,功在哪里?价值在哪里?,应该怎么做?,自创道路?不用自己杀开一条血路,借用别人现成的经验:-ITIL(最佳实践),什么是ITIL,ITIL信息技术基础设施库-Information Technology Infrastructure Library的缩写;20 世纪 80 年代末期,英国商务部发布发展历史ITSM 19861999 基于职能 ITIL V2 19992006 基于流程 -ISO20000认证ITIL V3 20042007 基于服务生命周期,什么是IT服务,V2:由IT服务提供商支持的、利用一组IT和非IT的资源,以让客户感觉协调一致的方式,满足客户的一种或多种需求的可用系统或功能。V3:IT服务提供者提供一个或更多客户的一种服务。IT服务基于使用IT并且支持客户企业流程。IT服务是从人员、流程和技术的结合,且应订定服务等级协议。,ITIL带来的好处,更加以客户为中心,同时在服务质量上的协商一致改进了双方的关系。可以对服务质量、可用性、可靠性和服务成本进行更好的管理。改进业务部门与IT部门的沟通。IT部门形成了一个更为明晰的架构,从而变得更为有效率和更为关注公司目标。IT部门更加对其负责的基础架构和服务实施控制,同时变更也的更易于管理,组成,10个流程和1项职能 服务提供:事故管理、问题管理、配置管理、变更管理、发布管理服务交付:服务级别管理、IT服务财务管理、能力管理、IT服务持续性管理、可用性管理。服务台,ITIL V2-服务提供,ITIL V2-服务交付,服务级别管理,为签订服务级别协议(SLA)而进行的计划、协商、监控和报告以及签订服务级别协议后对服务绩效的评价等一系列活动所组成的一个服务管理流程。旨在确保组织所需的IT服务质量在成本合理的范围内得以维持并逐渐提高。 意义:IT服务目标、业务底线、妥协我们现在:没有书面的,服务台,服务台服务台是IT部门和IT服务用户之间的单一联系点。服务台的主要目标是协调客户(用户)和IT部门之间的联系,为IT服务运作提供支持,从而提高客户的满意度。我们现在:电脑经理就是服务台,没有做好:1、首接处理率2、分类问题,形成异常报告、需求3、跟踪与结束事件与需求4、实现简单IT请求(服务请求)5、客户满意度,事故管理,事故(事件)管理负责记录、归类和安排专家处理事故并监督整个处理过程直至事故得到解决和终止。事故管理的目的是在尽可能最小地影响客户和用户业务的情况下使IT系统恢复到服务级别协议所定义的服务级别。我们现在:异常报告、应急处理,配置管理,配置管理是识别和确认系统的配置项,记录和报告配置项状态和变更请求,检验配置项的正确性和完整性等活动构成的过程,其目的是提供IT基础架构的逻辑模型,支持其它服务管理流程特别是变更管理和发布管理的运作。配置库:软件、硬件、机房、版本、流程、文档;已知问题库;知识库我们现在:BBS;台账与技术资料,涉及硬件、软件、机房、布线、UPS,变更管理,变更管理的目标是确保在变更实施过程中使用标准的方法和步骤,尽快地实施变更,以将由变更所导致的业务中断对业务的影响减小到最低。只为得到一个变更许可。变更=风险我们现在:电脑工作联系单、工作手册、中心机房工单,发布管理,发布管理是指对经过测试后导入实际应用的新增或修改后的配置项进行分发和宣传的管理流程。发布管理以前又称为软件控制与分发,它由变更管理流程控制。我们现在:软件变更:电脑工作联系单硬件变更:设备投入运行(新买、换或下线),各种制度与工作手册机房:机房建设或改造-工作手册,IT服务持续性管理,IT服务持续性管理是指确保发生灾难后有足够的技术、财务和管理资源来确保IT服务持续性的管理流程。IT服务持续性管理关注的焦点是在发生服务故障后仍然能够提供预定级别的IT服务,从而支持组织的业务持续运作的能力。指标:MTTR平均修复时间我们现在:应急预案、演练与操作,能力管理,能力管理是在成本和业务需求的双重约束下,通过配置合理的服务能力使组织IT资源发挥最大效能的服务管理流程。对系统性能的掌握对业务量的掌握与估计我们现在:机房巡检、设备更换、配置优化、异常报告,可用性管理,可用性管理是通过分析用户和业务方的可用性需求并据以优化和设计IT基础架构的可用性,从而确保以合理的成本满足不断增长的可用性需求的管理流程。指标:MTBF平均无故障时间,串行、并行的计算可靠性:MTBSI平均系统事故间隔我们现在:架构、检查、保养、强制更换,各个流程的关系,学习与培训,ITIL Foundation V2与V32-2.5天培训,考试1小时,机考与书面考(40个单选)V2可选中英文,V3只有英语V2实用,但现在只有学V3了学习资料:中国IT服务管理指南ISO 20000 近期公司争取认证取得ITIL Foundation证书,民兵变正规军,中心机房运维介绍,中心机房运维特色,规范操作加强检查严控变更强化应急,机房环境,独立监控(实时),加强检查,加强检查,7*24小时检查,1小时/次,加强检查,日志与记录查了不记=没查!书面(仅外高桥26页/天)机房总管复核与检查每天形成机房日报(电子化),严控变更,监控与操作分离,严控变更,指令与操作分离工单日常操作表日常检查表机房日志保操间录像录音,KVM全回溯双岗操作-四班二运转,交易时段白班加强值班小组:人,8:00-22:00,严控变更,机房出入审批手续全程陪同,强化应急,应急计划制定版本管理XLS简单易行易维护预设应急时间,强化应急,应急演练:每三个月一次计划与记录每月一次培训检查热备系统总结与提高,强化应急,应急操作:判断先重启(应用、DB、主机)再执行应急预案恢复功能为主查找问题根源举一反三根据类似问题最终形成故障总结报告,应急体系与演练,公司级应急预案,重大突发事件应急预案目的、范围、处理原则、应急组织、应急处置、处置要求等应急指挥部总裁 技术分中心信息安全办公室 业务分中心经纪总部公关安保后勤分中心办公室,应急组织体系,公关安保后勤,技术分中心,应急预案,应急计划,业务分中心,应急预案,应急计划,应急预案,应急计划,应急指挥部,总裁,应急预案,应急指挥部启动,对外报告,行业应急预案报告规定详细,个人总结了5点:集中交易一断就要报(总公司);其它系统(包括营业部)断30分钟要报;故障未解决,每30分钟报一次;重大故障2小时、一般故障12小时后报总结;营业部报告辖区证监局与交易所别忘记,网络犯罪要报公安。,技术分中心应急预案,应急预案组成技术应急指挥分中心突发事件应急处置预案中心机房应急计划+中心机房应急流程营业部信息系统应急规范技术分中心应急联系手册,技术故障分级,I级(特别重大)交易类:交易2小时,盘后作业8小时非交易类:对外服务8小时,对内服务24小时级(重大)交易类:交易30分钟,盘后作业4小时非交易类:对外服务4小时,对内服务8小时级(较大)、交易类:交易10分钟(30%),盘后作业2小时非交易类:对外服务1小时,对内服务2小时级(一般)交易类:盘后作业1小时非交易类:对外服务15分钟,对内服务30分钟V级(轻微)交易在盘中发生故障但预计不对公司业务造成影响,或在非开盘时间发生故障;,I-III级应急流程,中心机房应急,一线应急小组(值班组),中心机房应急,二线应急小组 1、现场指挥: 主岗:陆中兵, 备岗:邵斌。2、组长:(指定) 张浩、潘敏翌、 王飞、田勇。3、组员:,应急策略,应急原则业务恢复应急策略:原因定位的故障原因不明的故障应急方案失效或超时交易系统切换策略灾备机房切换策略,应急位置,中心机房应急流程,操作定型,报告规程快速定位:二分钟速查(关键系统) 中心机房应急预案 -113个已知故障点的应对措施,技术应急演练中心机房,每个周二收盘16:00-18:00,每次进行1次流程+10左右技术故障,三至四个月完成一轮应急演练.,09年按计划进行290个故障点的常规演练(三轮), 8次修订应急计划2010年上半所完成一轮,技术应急演练重大演练,2010年春节交易系统应急演练 2010年3月16日上海证监局应急演练检查2010年6月26日全行业应急演练,技术应急演练营业部,每周四17:30组织各营业部进行通讯线路应急演练09年参测率95%,技术应急演练营业部,问题:只有技术演练,没有流程演练角色分工不明(发现、报告、判断、批准、执行、总结)事后书面总结不详(时间、操作人、结果)缺乏改进与提高,技术应急演练修订完善,定期应急演练,发现计划漏洞,修订应急计划,应急计划需要不断修订完善,每次技术变更都要重新审视应急计划,应急演练的事后总结分析,是发现应急计划漏洞的重要手段,绝不能轻视,定期开展应急演练,尽可能熟练操作、熟悉环境过程,平时多流汗、战时少流血.,2009年故障总结,故障数量,II级:2次级:22次级、V级:700多个。,分布,新意系统有7次故障集中交易系统5次;Itrade系统4次;短信平台2次邮件1次深交所的深圳通平台与报盘程序各1次其它2次。,原因,软件问题:10次,是由于软件BUG引发的技术故障,其中我公司软件BUG8次,交易所软件2次。设置问题:4次,其中3次是应用参数设置问题,1次是操作系统参数设置问题。用户操作不当:3次,分别是业务部门联网测试不力、清算中心新意数据批量发送时机不当与个别总部滥发邮件。误操作:2次,11月6日14:30-57开放式基金不能委托是机房操作员误操作;11月19日至12月7日一些客户收不到短信是研究所人员误删除短信群组。硬件故障:1次,1月12日Itrade故障是由于DS8300存贮光纤通道卡故障引发的。内部管理不当:1次,10月8日新意重启工作未落实到位,是电脑中心技术保障部内部工作安排不当。技术方案考虑不周:1次,故障解剖,20100330trans1故障,经验教训总结,依靠自己,加强责任意识,转变工作作风,确保安全运行。平时多花功夫,用好权利,履行职责 熟练掌握系统 制定好应急预案 用好自己的权利 以恢复业务为第一要务,事中处理运维仍是主角,营业部运维工作建议,工作关键点,意识交易与行情通路异常与需求管理应急预案与演练,电脑经理的意识,责任重大:“信息技术是证券期货行业各机构的生存基础和核心竞争力” 运行主体、责任主体、应急主体不出故障是硬道理!自己的命自己掌握!职业生涯要关注,交易与行情通路,要点:行情源按要求配-londcd主备有序地面行情网络风暴第三网安全,交易与行情通路,要点:连公司主备有序防火墙E通,异常与需求管理,一个接口,及时响应与处理问题对问题分类服务请求培训、解释、安装异常异常报告需求需求报告注意跟踪与结束所提报告满意度调查很重要工作目标客户(用户)满意度,应急预案与演练,应急预案的制定根据实情修改与补充提出建议一定要有“
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东管理学原理中级自考试题及答案
- 了解中医考试题及答案
- 广东法律自考试题及答案
- 控制原理考试题及答案
- 客舱清洁考试题及答案
- 铝电解综合工主管竞选考核试卷及答案
- 带式球团焙烧工入职考核试卷及答案
- 中药合剂工专项考核试卷及答案
- 押题宝典教师招聘之《小学教师招聘》通关考试题库1套附答案详解
- 钽钠还原火法冶炼工理论知识考核试卷及答案
- 风电场运行管理课件(改)
- 医院医用耗材SPD服务项目投标方案
- 债务重组合同协议书样本
- 杜绝“死亡游戏”(梦回大唐)学生安全主题班会课件
- 人教版七上《峥嵘岁月-美术中的历史》教案
- 《妇产科学》课件-9.2产力异常
- 职工食堂服务(技术方案)
- 金融领域反腐
- 《机械制图(多学时)》中职完整全套教学课件
- 西安交通大学出版小学信息技术五年级上册教案
- 心理问题与心理障碍
评论
0/150
提交评论