系统运维方案.docx_第1页
系统运维方案.docx_第2页
系统运维方案.docx_第3页
系统运维方案.docx_第4页
系统运维方案.docx_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

运维技术方案陕西思宇信息技术有限公司1运维服务目标及服务范围通过购买专业运维服务,进一步加强未央区城市管理监督指挥系统运行维护,对指挥系统维护流程提供先进的管理理念与流程,并通过专业的技术支持为数据中心运行维 护工作提供专业的技术平台,满足未央区城市管理监督指挥系统大数据量安全存储的要求,可以满足多种 应用运行环境稳定的要求,可以满足系统及数据高效、可靠和安全运行的要求, 可以满足运行设备统一管理、及时的故障恢复的要求,可以保证在应用系统和硬件设备平台正常运行,满足省本级数据库和应用系统的建设需要,达到高效、稳定、安全和高扩展性的要求,为实现信息化建设的可持续发展奠定集中统一的设施基础。设备及软件清单:一、系统软硬件维护序号内容制造商数量单位说明1工程投影机(SONY)上海SONY中国有限公司1 台维护设备正常运行2高级投影金属硬屏幕(三星)江苏张家港市电教器材厂1 台维护设备正常运行3液晶监视器、MYWAY西安英特安防设备有限公司6 台维护设备正常运行4双基色LED屏西安1 台维护设备正常运行5会议室用投影仪(SONY)上海SONY中国有限公司1 台维护设备正常运行6会议室用电动伸缩幕布江苏张家港市电教器材厂1 台维护设备正常运行7核心汇聚网络交换机/博达上海博达数据通信有限公司2 台维护设备正常运行8接入网络交换机-指挥中心/博达上海博达数据通信有限公司1 台维护设备正常运行9接入网络交换机-执法中队端/博达上海博达数据通信有限公司11 台维护设备正常运行10配套光模块/博达上海博达数据通信有限公司22 个维护设备正常运行11高端服务器IBM4 台维护设备正常运行12中端服务器IBM5 台维护设备正常运行13IPSAN存储设备北京邦诺存储科技有限公司1 台维护设备正常运行14防火墙/博达上海博达数据通信有限公司1 台维护设备正常运行15UPS艾默生1 台维护设备正常运行16蓄电池冠军60 块维护设备正常运行17电池柜艾默森2 台维护设备正常运行18配电柜国产3 台维护设备正常运行19专业型笔记本电脑 THINKPAD2 台维护设备正常运行20执法票据打印专用笔记本电脑THINKPAD3 台维护设备正常运行21指挥中心办公工作站联想10台维护设备正常运行22各执法中队/督查室监控指挥工作站联想16台维护设备正常运行23针式票据打印机爱普生15 台维护设备正常运行24KVMRaritan 2 台维护设备正常运行25机柜42U华为3 台除尘保养26机柜-6U国产11 台除尘保养27矩阵输入输出箱美国/派尔高1 台维护设备正常运行28带线缆输入后面板扩展板美国/派尔高6 块维护设备正常运行29视频输入卡美国/派尔高6 块维护设备正常运行30视频输出卡美国/派尔高2 块维护设备正常运行31带BNC接头后面板输出板美国/派尔高2 块维护设备正常运行32串口通讯卡美国/派尔高1 块维护设备正常运行33128*32矩阵美国/派尔高1 台维护设备正常运行34控制键盘美国/派尔高1 台维护设备正常运行35工作台、椅国产10 套保养维修36彩色多功能激光一体机惠普1 台维护设备正常运行37路由器华为1台维护设备正常运行38光模块H3C2个维护设备正常运行39交换机H3C2台维护设备正常运行40防火墙H3C2台维护设备正常运行41空调5P格力1台维护设备正常运行42空调2P格力3台维护设备正常运行43防静电地板100平米1组保养维修44电源柜国产4台除尘保养45风机、新风1台保养维修46卡巴斯基杀毒软件北京卡巴斯基科技有限公司50套更新、升级47赛门铁克备份软件赛门铁克软件北京有限公司1套更新、升级48Windows Server 2008操作系统微软9套补丁升级,系统检测49数据库Oracle2套补丁升级,备份,渗透测试50中间件Oracle1套51工程师日常巡检维修12月硬件及系统软件的运维,驻场工程师一名二、外设硬件维护序号内容数量单位说明1前端摄像机、视频信号线路、摄像机云台控制线路、接电的故障排除、设备维修100点维护设备正常运行2监控主机的设备检测、系统维护、扩容、故障排除100点维护设备正常运行3立杆、设备箱、防雷设施维护100点维护设备正常运行4设备清洁(每半年一次)200台次摄像机除尘5固定摄像机拆除10点 预估拆除监控点6固定摄像机安装10点 预估安装监控点7移动监控车运行及维护3辆保证车辆正常运行三、移动摄像头迁移序号内容数量单位说明1移动摄像机拆除16点预估拆除监控点2移动摄像机安装16点预估安装监控点四、设备意外损坏更换序号内容数量单位说明1设备意外损坏更换1批预估监控点设备意外损坏更换五、外设设备运行序号内容数量单位说明1摄像头电费交纳100点100个摄像头,每个摄像头功率100W2监控点取电位置意外变更10点预估变更取电监控点10个2服务内容2.1 运维类别乙方为甲方提供的运行维护服务,主要包括以下以下四个方面内容: 网络设备(交换机、防火墙等) 主机设备(服务器) 基础软件(数据库、中间件) 其他硬件(视频监控设备) 桌面设备(打印机、笔记本、台式机、投影仪)2.2运维内容2.2.1交换机服务描述服务内容例行巡检1.检查设备的运行状态是否正常,接口状态是否正常,有无报警。2.设备系统版本: 查看设备的软件版本是否是最新版本,是否存在已知的可能导致运行不正常的问题。3.检查设备电源状态信息:查看系统电源工作情况是否正常,要求电源都工作正常。4.检查设备风扇状态信息: 查看系统风扇工作情况是否正常,要求风扇都工作正常。5.检查设备板卡运行状态信息:查看系统板卡工作情况是否正常,要求板卡都工作正常。6.检查设备的温度状态:查看设备的温度是否正常,要求设备工作温度在5-70度之间。7.检查设备flash信息:查看系统flash空间使用情况是否正常,要求Flash空间利用率低于80%。8.检查内存信息: 查看系统内存使用情况是否正常,要求“Mem”占用率要低于80%。9.检查CPU信息:查看系统内存使用情况是否正常,要求“CPU”占用率要低于70%。10.检查设备运行时间:查看设备的运行时长,要求连续运行时间应在1个月以上(4周)。11.检查设备系统时钟信息:查看设备进时钟信息,要求设备的系统时钟偏差在5分钟以内。12.检查光模块输入功率信息:要求设备可插拔模块的输入光功率不超过正常范围。13.检查光模块工作温度信息:要求设备可插拔模块的温度保持在温度上下限之间。14.登录用户口令安全性:为保证设备的安全性,要求设备登录用户的口令采用加密方式显示。15.VRRP状态:运行VRRP协议的接口在稳定时组状态为Master、Slave或是Backup。16.OSPF邻居状态:基于OSPF协议正常运行的考虑,要求OSPF协议的邻居必须稳定处于FULL状态。17.事件日志告警信息:是否有错误或告警日志,观察设备运行参数。18.对设备系统配置及系统更改信息进行归档。20.每季度到现场对维保设备进行巡检,对硬件设备运行状态进行检查和分析,及时发现故障隐患,并排除系统故障或调整系统性能,必要时更换故障部件,完成巡检和故障处理报告。响应支持远程:1、网络架构标准化、可扩展性、可用性、可靠性、高性能性、安全性及可管理性等检查; 2、系统日志分析;3、网络系统通讯状态检查;4、检查网络流量、通讯流量控制、网络访问安全、通讯数据类型的转发、VLAN划分等;现场:1.查看设备运行参数;2.提供重要事件的现场支持服务(例如网络割接、设备搬迁、设备升级、网络拓扑调整等)。3.对设备系统配置及系统更改信息进行归档。4.完成在巡检发现的隐患、故障的解决;5.处理日常的网络故障;响应时间:一级:10分钟(交换机宕机、网络中断等造成严重后果)二级:30分钟(交换机告警、不影响正常使用)三级:60分钟(巡检、业务咨询等)优化改善1.CPU、内存等系统运行瓶颈分析; 2.结合系统软硬件的系统运行状况,进行网络整体拓扑结构化分析; 3.IOS 设备微码的使用管理支持及相关升级服务;服务时间日常运维5x9;应急响应7x24交付方式现场/远程交付成果巡检报告、服务报告2.2.2服务器服务描述服务内容例行巡检检查硬件设备日常的物理安全维护主机的系统主板、CPU(含CPU板)、内存条或内存板等关键部件维护系统电源及附属设备维护各种存储设备,包括内置磁盘或外置磁盘阵列、磁带库、光驱等设备维护各种适配器卡和显示设备、磁盘RAID卡等设备维护系统和I/O卡、SCSI背板等设备维护所有连接设备的各种线缆响应支持远程:1、数据备份与恢复服务2、配置维护服务3、数据清理服务现场:1、硬件故障修复服务;2、技术支持服务;3、辅助故障定位服务;4、应急方案设计与预演服务;5、完成在巡检过程发现的隐患、潜在的故障;响应时间一级:10分钟(服务器宕机、应用瘫痪等造成严重后果)二级:30分钟(服务器告警、不影响正常使用)三级:60分钟(巡检、业务咨询等)优化改善1.系统健康检查服务2.性能分析与调优巡检频度巡查:1次/天,巡检:1次/季(具体可以根据客户需求提供)服务时间日常运维5x9;应急响应7x24交付方式现场/远程交付成果巡检报告、服务报告2.2.3数据库服务描述服务内容例行巡检检查操作系统cpu空闲率检查磁盘空间是否不足检查操作系统错误日志检测数据库是否启动,侦听是否正常(客户端)检查和启动实例(服务器端)检测和启动侦听(服务器端)检查状态不是“online”的数据文件检查数据缓冲区命中率检查数据字典缓冲区命中率检查LIBRARYCACHE命中率检测使用率大于80%的表空间检查Job是否正常了解数据库备份情况检查阅读oracle的报警日志(服务器端)检查当前数据库中表和索引最大可能的数据量检查当前所有用户名和是否锁定检查当前具有dba权限的用户名检查当前用户的所有角色检查当前用户使用空间的信息检查所有表空间的大小和当前使用率查出最大读的热点文件查出最大写的热点文件检查最近的归档日志生成信息检查当前重做日志的信息备份的数据库所有文件(物理全备)检查mount点的数据大小分布检查无效的trigger检查不起作用的约束检查主键失效的表检查没有主键的表获得当前重建数据库所需要的ddl和用户信息当运维的数据库发生故障或存在异常问题时,工程师提供7*24小时的热线响应及电话指导支持,必要时赶到客户现场,进行故障(或问题)的修复,并在承诺时间内排除故障或解决问题或恢复客户业务系统的正常运行。响应支持远程:1、数据库日常监控服务2、数据库补丁与升级服务3、数据库主动巡检服务4、数据库备份与恢复服务现场:1、数据库故障修复服务2、数据库迁移及数据清理服务3、重大事件现场顾问支持服务响应时间:一级:10分钟(数据库宕机等造成严重后果)二级:30分钟(数据库告警、不影响正常使用)三级:60分钟(巡检、业务咨询等)优化改善1、数据库性能优化服务巡检频度按客户的实际需求双方商定(具体可以根据客户需求提供)服务时间日常运维5x9;应急响应7x24交付方式现场/远程交付成果巡检报告、服务报告2.2.4 中间件服务描述服务内容例行巡检检查JDK版本信息检查weblogic版本信息检查web应用包配置和运行状态检查EJB包配置和运行状态检查JDBC连接池配置和运行状态检查日志信息状态当运维的系统发生故障或存在异常问题时,工程师提供7*24小时的热线响应及电话指导支持,必要时赶到客户现场,进行故障(或问题)的修复,并在承诺时间内排除故障或解决问题或恢复客户业务系统的正常运行。响应支持远程:1、主动巡检服务2、应用中间件启、停服务现场:1、中间件故障修复服务2、中间件技术支持服务3、辅助故障定位服务响应时间:一级:10分钟(中间件不可用等造成严重后果)二级:30分钟(中间件告警、不影响正常使用)三级:60分钟(巡检、业务咨询等)优化改善1、中间件升级服务2、中间件配置调优服务3、中间件架构调优巡检频度巡检1次/季,出现故障按合同约定时间内到达现场(具体可以根据客户需求提供)服务时间日常运维5x9;应急响应7x24交付方式现场/远程交付成果巡检报告、服务报告2.2.5 操作系统服务描述服务内容例行巡检1)系统空间使用情况,文件系统是否有“满”.2)查看卷组信息,有没有stale状态的逻辑卷3)检查内存交换区(paging space)使用率是否超过70%4)当前操作系统版本5)系统性能检查:CPU性能、内存使用情况、检查IO平衡使用情况、交换空间使用情况6)网络检查7)检查系统合法/非法登陆情况8) 检查系统是否有巨大的Core文件生成 9)网卡的状态、IP地址、路由表等10) snap -a来搜索AIX系统的大部分配置信息11) 查看错误报告12)有否发给root用户的错误报告(mail) 13)查看系统信息 14)检查hacmp.out,smit.log,boot.log 15)查看卷组信息,有没有stale状态的逻辑卷 16)使用iostat命令监控I/O 17)查看系统定时备份情况18)HACMP响应支持远程:1、操作系统日常监控服务2、操作系统补丁与升级服务3、操作系统主动巡检服务4、操作系统备份与恢复服务5、操作系统日志清理服务现场:1、操作系统故障修复服务2、操作系统主动巡检服务3、重大事件现场顾问支持服务响应时间:一级:10分钟(操作系统不可用等造成严重后果)二级:30分钟(操作系统告警、不影响正常使用)三级:60分钟(巡检、业务咨询等)优化改善1、操作系统参数配置及优化服务巡检频度1次/季(具体可以根据客户需求提供)服务时间日常运维5x9;应急响应7x24交付方式现场/远程交付成果巡检报告、服务报告2.2.6视频监控服务描述服务内容检查网络架构的可用性、可靠性、高性能性、安全性及可管理性等;提供设备使用管理支持及相关升级服务;分析系统日志;检查网络系统通讯状态;检查录像运行;调整及清洁云台、固定式枪机;及时排除发现的有隐患的系统问题;提供重要事件现场支持服务(例如割接、设备搬迁、现网测试、组网方案等);巡检频度根据客户报修及年度巡检(具体可以根据客户需求提供)服务时间日常运维5x9响应时间30分钟交付方式现场交付成果服务报告2.3系统软件运维乙方为甲方提供的运行环境保障工作,提供三线技术支持服务。编号服务项目服务内容服务时间1远程支持1、在维护协议有效期限内,客户将获得电话支持,由陕西思宇信息技术有限公司公司资深工程师提供技术服务,进行技术咨询,故障分析,远程诊断,并对严重问题迅速升级,包括将问题升级到专家组或派遣当原厂工程师迅速到达现场。电话支持服务为每周7天,每天24小时。2、陕西思宇信息技术有限公司公司会通过邮件系统为客户提供技术支持服务:定期发放系统检查报告,提供技术文档等。3、通过指定电话、邮箱提供远程故障诊断和解决方案的远程支持服务。7天24小时2现场支持1、对于客户IT系统突发性的故障或突发性的性能下降,陕西思宇信息技术有限公司公司工程师将根据与客户协商确认的服务级别和故障紧急程度,在规定时间内到达现场,排除故障,响应支持服务时间为每周7天,每天24小时。2、对于客户报告的各类问题,我方工程师将本着最小化故障时间,采用现场服务、邮件支持、远程等形式进行指导和解决。陕西思宇信息技术有限公司公司会对客户反映的技术问题进行问题级别划分,对严重程度进行级管理,应用户请求,我们可提供不限次数和时间的现场服务。7天24小时3系统巡检1、根据客户需求,陕西思宇信息技术有限公司公司将定期对客户的系统软件进行健康检查。并提交相应的系统健康检查报告,巡检报告将评估该IT系统的可用性、安全性、稳定性和性能现状,并就发现的问题或隐患提出我方建议的解决方案。2、对可能会产生其他一些影响的问题,或者优化方案需要用户增加资源(如性能瓶颈可能是缺乏某硬件资源)我们将在提交的报告中详细描述问题的成因,影响范围,建议的解决方案,以及解决问题的风险,交予用户评估。3、指定专人按月到场例行巡检,提供系统健康检查,配合信息安全加固工作进行补丁升级服务,提供软硬件平台升级的测试环境。每月4性能诊断与性能调优此服务指对用户的IT系统进行性能方面的分析、评估、调整,以提高该系统的整体性能。按需2.4硬件产品维护硬件产品维护服务内容如下:编号服务项目服务范围服务内容服务时间1远程支持网络设备应用软件通过指定电话、邮箱提供远程故障诊断和解决方案的远程支持服务7天24小时2现场支持设备清单对不能通过远程支持方式解决或紧急事件,指定专人提供2小时到达现场服务7天24小时3系统巡检网络设备、主机设备指定专人按月到场例行巡检,提供硬件健康检查和系统补丁升级服务。每季4备品备件服务硬件设备针对客户现有硬件产品范围建立备件库,提供备件服务。7天24小时3运维人员组织架构3. 1运维组织结构介绍我公司将在此运维项目中投入业务水平高、技术能力强的运维人员和质量控制人员,采用陕西思宇信息技术有限公司严格规范的运维管理模式,进行全方位管理。为了进一步确保运维项目的进度与质量,陕西思宇信息技术有限公司公司在项目运维阶段、质量管理、 技术文档等方面进行严密规范的部署。陕西思宇信息技术有限公司公司的运维队伍组成包括:运维项目总负责人(常务总经理兼任);运维管理委员会(项目经理、甲方代表、监理代表);运维驻点服务小组;技术支持专家组;备品备件供应小组;文档管理小组3. 2运维成员职责项目经理职责:1) 项目经理受公司总经理任命和委托,全权负责运维项目合同的各项条款的履行。2) 对运维项目的优质、高效、安全负全责。驻场工程师职责:1) 负责对小型机、服务器、存储设备相关的申报事件进行处理和解决。2) 负责对小型机、服务器、存储设备提供日常性能和运行状况监控,对故障进行分析处理及建立完善预警机制。3) 负责保障机房服务器正常运行,遵循用户的安全保障管理要求。4) 接受用户对服务器维护事件的督办、检查,协助服务台完成对用户、意见进行回访和事件统计、分析。对服务过程和反馈的意见进行改进,同时接受服务台的绩效考评工作。5) 及时提供服务器运行和问题处理情况,并向用户负责,并按周、月、季、年提交运维运维服务工作进度总结和计划。6) 负责整理和归纳服务器日常维护知识库,提交至运维服务平台。7) 负责整理和提交服务器运维过程资料和相关配套维护文档。技术支持专家职责:1) 为客户提供7X24小时的故障响应电话支持。2) 接听客户服务热线电话和接收(电话/Email/Fax等)客户服务请求;3) 通过网络或电话为客户提供即时的远程技术支持,包括软硬 件故障的诊断和排除,客户端软件的安装和设置。4) 协调多方服务团队,及时跟进未完成的服务请求并及时更新系统信 息和状态;备品备件管理员职责:1) 组织实施备品备件的订购、运输及入库工作;2) 负责汇总待料备件,及时采购或调拨,并主动向项目经理说明待料 原因、追踪处理。3.3运维成员组织结构针对本次维保项目我公司配备了 5名专职人员具体如下表:4运维质量保证措施4. 1质量控制管理按照相应的ITSS质量体系标准及国家规定进行质量控制,还以相应的规范要求对设计质量,施工质量、材料和设备质量进行管理、要求、控制。公司的施工阶段性内部验收制度,是质量控制管理的有利保证。工程的每一个 阶段完成时,公司技术支持部门都要按有关部门规范和要求进行严格的内部验收。 验收标准整体上高于用户验收标准。4.2进度控制管理针对本次项目我公司结合客户要求做出如下运维计划:序号名称人员周期1存储系统巡检报告驻点工程师/技术支持专家每周2PC服务器驻点工程师每周3网络设备驻点工程师/技术支持专家每周4机房空调巡检报告驻点工程师每周5UPS巡检报告驻点工程师每季6数据库系统运维驻点工程师/技术支持专家每周7中间件系统运维驻点工程师/技术支持专家每周8问题报告驻点工程师/技术支持专家问题解决后9月总结报告驻点工程师每月10季度总结报告驻点工程师/技术支持专家每季度11年总结报告驻点工程师/技术支持专家/项目经理每半年12定期培训技术支持专家每季度5运维流程及服务方式5.1服务方式针对本次项目我公司为保证各系统的稳定可靠的运行我公司根据该项目的具体要求提供三种方式的技术支持服务,分别为:现场服务、远程技术支持服务、 针对甲方运维人员的技术培训服务。现场服务对客户的系统进行现场维护和巡检,驻点工程师对各个应用系统完成定期巡检, 同时输出巡检报告提交给客户,驻点工程是还应对客户的故障设备进行维修和更 换备件服务。为了让客户得到更及时和更快的服务,驻点工程师还提供7X24小 时的故障响应电话支持。远程技术支持服务远程技术服务主要是通过电话或其他方式受理客户和驻点工程师的疑难问题, 通过沟通来指导客户或驻点工程师解决问题,同时远程技术服务工程师还通过电 话或者其他方式与客户主动沟通来提高客户管理和运维能力。技术培训服务为提高客户的运维人员的技术水平及运维管理能力,我公司将派遣具有丰富实 施经验的技术专家定期对客户进行相关专业(主机、存储、数通、网络、安全、 机房环境等)的培训。培训可以采用灵活多样的方式如面对面交流、课堂授课、邮件沟通等。5.2运维流程我公司除培训服务外,为本项目提供两种服务方式:一种为技术人员现场值守,另一种是定期巡检结合故障现场服务。1.技术人员现场值守运行维护服务的基本操作流程如下图所示:2.定期巡检结合故障现场运行维护服务的基本操作流程如下图所示:6具体服务项目及输出文档6.1小型机、pc服务器、网络设备及存储系统小型机、pc服务器、网络设备及存储系统运维部分主要分为三部分,分别为 小型机存储系统运维、pc服务器运维、网络设备运维。小机存储系统运维内容主要包含小型机设备、光纤交换机、存储设备三部分 主要从以下几个方面进行维护:1、检查设备各部件的状态灯;2、检查并处理设备的错误日志;3、硬件设备的全面检查;4、网络配置的检查及测试;5、操作系统性能分析;6、核对各小型机配置信息,根据需要调整配置;7、检查设备的微码版本;8、检查存储设备运行情况;针对如上要求输出如下检测报告:小型机系统巡检报告设备名:设备型号:广品序列号:检测项目检测方式说明电源风扇检查主电源灯状态指示灯常绿表示系统正在运行检查直流电源指示灯 状态指示灯常绿表示电源供电正常正常 不正常检查直流电源风扇状态检查风扇是否散热正常 不正常处理器执行命令:lsdev - Cc processor检查CPU的数量及状态。CPU状态为Available,表示 CPU使用正常正常 不正常内存执行命令: lsattr - El memO检查内存数量及状态。size与goodsize的数量相等表 示内存使用正常正常 不正常磁盘执行命令: lsdev - Cc disk检查磁盘的数量及状态。磁盘状态为Available,表示 磁盘使用正常正常 不正常适配器执行命令:lsdev - Cc adapter检查系统中配置了哪些适配器及使用状态。各个适配器 的状态为Available,表示各个适配器目前工作正常。若适配器状态为Define,则表示该设备已经被配置但是 未被当前系统使用。正常 不正常分页空间执行命令: lsps -a检查分页空间的分配数量及利用率。Size为已分配的分页空间数量;%Used为目前系统的分页空间使用率,该值若超过70%,表示系统内存不足。正常 不正常系统镜像执行命令: lsvg - 1 rootvg检查系统卷组的镜像状态。各个逻辑卷的PPs数量应该为LPs数量的整数倍,倍数 大于1并且能被PVs整除,表示卷组已经作镜像。各个 逻辑卷的LV STATE应该为syncd,否则表示镜像不同步。正常 不正常文件系统执行命令: df -k检查已经挂载的文件系统的使用状态。重点检查/(根) /tmp (临时)/var (日志文件)这些动态文件系统的使用 率最好保持在70%以下。正常 不正常错误日志执行命令: errpt检查系统日志是否有硬件或软件方面的永久错误。若发 现错误类型为P的信息,则需要注意。正常 不正常网卡配置 情况执行命令: ifconfig - a检查各个网卡的配置情况,状态是否为UP,检查ip地 址和子网掩码等配置是否正确。正常 不正常系统备份执行命令:lsmksysb -V -f /dev/rmtO检查磁带备份的可读性。若没有错误显示,则表示备份 磁带的数据是有效可恢复的。正常 不正常客户确认:巡检结论:用户签字工程师签字存储系统设备巡检:设备名称:检查时间:年月日时本年度第次检查检査项目:检查结果:1.检查存储硬件情况:设备故障灯是否有亮SAN交换机端口 LE:D状态有 无正常 不正常2.存储系统故障报告(Problem Log):口正常 不正常Problem Log/Serviceable Event正常 口不正常有否硬件故障3.存储系统运行状态:View Storage Facility State /正常 不正常CdaPreverify / View RIO Topology正常 口不正常4.通信:口正常 口不正常/Master Console/SMC/HMC和存储设备的通信Good Degraded OfflinedRebuilding6.存储设备内部状态:正常 不正常7.存储系统硬件状态:正常 不正常双控制器同时正常工作口正常 不正常电池、电源和风扇模块是 否物理硬盘和逻辑盘是 否8.微码(Microcode)是否满足最低要求口是 口否9.是否启用了 Call Home是 否10.收集存储设备基本信息存档是 否目前存在的问题:改进措施或建议:检查结论:客户签字:工程师签字:日期:年月日日期:年月日服务器设备巡检:一、硬件情况设备型号设备P/NIP:机柜及设备温度正常 不正常 设备面板正常 不正常设备连线正常 不正常设备电源正常 不正常设备风扇正常 不正常Kvm正常 不正常系统板正常 不正常CPU正常 不正常MEM正常 不正常I/O板正常 不正常RAID卡正常 不正常以太网卡正常 不正常SCSI卡正常 不正常HBA卡正常 不正常本地盘及逻辑盘正常 不正常设备使用磁阵PV正常 不正常系统其它扩展卡正常 不正常设备故障灯正常 不正常机柜及设备温度正常 不正常 二、系统基本运行情况检查方式本周期的检查情况备注检查系统日志系统日志备份及清理win: eventvwr或管理事件查看器系统linux:检查以下日志等正常 不正常message系统日志中注意:warning、error等特征的日志信息/var/log/boot.log正常 不正常/var/log/messages正常 不正常/var/log/wtmp (last)正常 不正常/var/log/secure正常 不正常主机上磁阵PV或分区配置及状态win:磁盘管理diskmgmt.msceventvwrlinux:fdisk -l正常 不正常系统日志中也可以看到相关提示或异常信息CPU平均使用率(命令或网管采集)win:任务管理器 linux: #top,vmstat,sarcat /proc/cpuinfocpu占用率除数据库外不建议超过90%内存平均使用率(命令或网管采集)win:任务管理器 或 Memlinux:#free、topcat /proc/meminfo内存占用率除数据库外不建议超过80%文件系统或磁盘使用情况(OS及应用)win:磁盘管理linux: #df -k 、-hcat /etc/fstab系统卷不要出现任何占满;交换区使用情况win:任务管理器linux:#freecat /proc/swapsDisk I/O负载情况win:perfmonlinux:# iostat -d 2IO等待一般不超过40%系统进程情况占用内存的10个占用cpu的10个ps -aux | sort -k4nr | head -n 10 或 top -Mps -aux | sort -k3nr | head -n 10 或 top -P注意过度占用资源的进程,是否为正常应用检查双机运行情况clustat cat /var/log/messagesifconfig a正常 不正常检查其他管理软件如多路径软件操作系统概览win: winmsd、systeminfo系统 devmgmt.msc设备信息netstat -r ipconfig /all arp -alinux:export LANG=en 环境变量指定dmesg详细信息hostname 主机名 cat /etc/hosts 名字解析uname -a、-r OS版本 ifconfig -a , ifenslave -a 网络信息 netstat -rn 路由信息 rpm -a 软件安装sfdisk -g , fdisk -l主机所挂磁盘信息客户确认:巡检结论:用户签字工程师签字网络设备巡检:设备名称:设备型号:1、检查设备面板指示灯状态,看是否有红灯报警观察面板指示灯有(无)红灯2、从本网络中的某台PC机上ping下属的分支机构和部局的某台服务器Ping对方IP地址通不通3.管理级用户控制:远程登录用户必须设置密码。检查是否需要密码才能进入管理级别用户。完善不完善4. Telnet登录控制:Telnet口令和Super口令的设置要不同,使用密文格式。 完善不完善5. 接口配置:不使用端口置为shutdown状态。Display current-configuration完善不完善6. FE/GE口配置:端口模式(包括速率、双工模式)配置对接双方必须一致;端口实际工作模式必须与对端一致。Displaycurrent-configurationDisplay interface完善不完善7. telnet和串口登录:telnet和串口两种方式能正常登录。完善不完善8. 端口统计数据:查看各个使用的端口收发统计数据是否正常,异常报文是否有增长。Display interface完善不完善09.电源状态查看:各电源模块工作状态正常。Display system device完善不完善10. CPU占有率:CPU占有率应正常,与当前开展的业务类型和转发流量相符。Display system cpu完善不完善11.系统当前正在发生的告警信息:有告警及时处理。Display alarm完善不完善12.内存使用情况:内存占有率。Display memory完善不完善客户确认:巡检结论:用户签字工程师签字6.2空调巡检、机房、监控巡检一、设备档案信息室内机型号:室内机机身编号二、设备运行信息场地电压情况:Vab_ Vcb_ Vac_接触器、空开状态!正常 !不正常电压波动情况!正常 !不正常最高波动范围_V电源进线紧固!是 !否部件电源线已紧固!是 !否控制显示部分:控制板输入电压_V屏幕显示状况!正常 !不正常参数设定及控制动作!正常 !不正常系统功能及告警功能设定!正常 !不正常冷凝器部分:底座固定情况电控(电气、控制)性能!正常 !不正常冷凝器运行电流A对应冷凝压力_PSIG冷凝翅片清洁情况!正常 !不正常室内风机组件:风机运行电流1=_A 2=_A皮带磨损情况!正常 !不正常风机轴承工作情况!正常 !不正常皮带轮固定情况!正常 !不正常风筒叶轮固定情况!正常 !不正常空气滤网洁净度!正常 !不正常保温部分:设备内部保温部分!正常 !不正常风帽保温部分!正常 !不正常制冷管路保温部分!正常 !不正常水管路保温部分!正常 !不正常加湿工作及排水状况:加湿工作电流 A加湿水盘清洁状况!正常 !不正常加湿控制功能!正常 !不正常加湿水盘的排水!正常 !不正常供水电压!正常 !不正常蒸发器集水槽排水!正常 !不正常压缩机运行检查:压缩机工作电流1#_A 2#_A运行声音!正常 !不正常高压1#_PSIG 1#_PSIG低压1#_PSIG 1#_PSIG压缩机发热情况!正常 !不正常回气过热度!正常 !不正常液镜指示状态!正常 !不正常干燥过滤器指示状态!正常 !不正常除湿状态检查:湿度控制设定!绝对湿度 !相对湿度除湿控制功能!正常 !不正常解热状态检查:加热电流I1_A I2_A I3_A加热保护功能动作!正常 !不正常水冷机组和冷冻水机检查:进水温度T1出水温度T2进出水压力差阀门控制功能!正常 !不正常客户确认:巡检结论:用户签字工程师签字安全监测监控系统巡检单位名称巡检地点巡检日期巡检人员负责人巡检内容1监控机房通风、散热、净尘、供电等设施。2每季度进行一次设备的除尘、清理,扫净监控设备显露的尘土。3监控设备运行正常,信号传输正常、外壳有可靠接地。4检测其各项技术参数及监控系统传输线路质量,处理故障隐患,确保设备各项功能良好,能够正常运行。5对容易老化的监控系统部件每个季度进行一次全面检查,一旦发现老化现象应及时维修或更换等。6每个月进行一次对监控系统的检测、维护、数据备份、故障排除等并制作报表报告用户。7对长时间工作的安防监控设备每个季度定期维护一次。8对监控系统设备的运行情况进行监控,分析运行情况,及时发现并排除故障。9根据用户的监控系统经常出现的故障或者有可能出现的故障及时提出日常维护和日常使用建议。10在设备使用过程中存在的使用上的问题应解释清楚指导正确使用,并提出合理化建议。巡检结果处理情况客户确认:巡检结论:用户签字工程师签字机房巡检表:巡检人:巡检时间:确认人:(一)定期常规维护维护内容检查结果周日周一周二周三周四周五1.检查服务器UPS、空调电源电压是否正常。 2.检查机器设备的开关、连线、插头插座等是否正常,有无错位、松动。 3.检查网络设备的各种指示灯和运行状况是否正常。4.查看服务器硬件是否告警。5.检查IBM P750小机是否有硬件告警。6.检查存储设备的运行状态、是否有硬件告警。7.记录室内温度8.查看IMC平台所有办公网络运行情况9.查看VMware的运行情况,是否有告警报错10.查看数据的备份情况11.查看机房的动力环境监测平台运行情况,是否有告警。(二)是否完成定期常规维护,如果存在问题,请进行问题描述及处理记录(如果没有,可以填写无)No.问题及现象描述问题产生原因处理方法处理结果1无236.3 数据库系统运维服务6.3.1 ORACLE DB维护方法数据库启动:1、以oracle用户用户登录,sqlplus /as sysdba sqlplus startup2、以oracle用户或ora816用户登录 sqlplus /as sysdba sqlplusstartup nomunt sqlplus alter database mount; sqlplus alter database open;3、第一种启动方式是最常用的手工启动方式,第二种启动方式是数据库有故障时常用的逐步启动方式,可以观察故障点。因为startup nomount语句只读取spfile (server parameter file 数据库参数文件),启动 instance,启动 SGA 和后台进程;alter database mount语句打开控制文件,确认数据文件和联机日志文件的位置,但此时不对数据文件和日志文件进行校验检查;alter database open打开包括Redo log文件在内的所有数据库文件,这种方式下可访问数据库中的数据。Startup完成功能是上述三条语句的之和。数据库停止:1、sqlplus /as sysdbasqlplusshutdown normal 正常方式关闭数据库。2、shutdown immediate立即方式关闭数据库,在SQLPLUS中执行shutdown immediate,数据库并不 立即关闭,而是在所有事务执行完毕并提交工作后才关闭,所以可能会等待,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论