




免费预览已结束,剩余9页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
IDC运维可视化前言近两年,互联网相关产业发展非常迅速,互联网业务发展也是非常快。业务的增长也对数据中心IT设备需求量也急剧增加。数据中心的运维和设备的运维是一件非常烦琐的事情,需要工程师进行大量手工工作。 在快速扩张的过程中也遇到了诸多问题,我们在这方面做了很多的努力,本文将会就这一主题与大家分享 的一些经验。一、 IDC发展过程 业务近几年发展迅猛, 四年前的设备量、IT设施相关设备不多,直到四年前 在移动端、方案端开始发力,业务拓展非常迅速,对设备增加的需求也日趋迫切。 现在整个的设备规模是以万来统计。设备增加,数据中心Rack的需求势必增加。 的Rack已经达到以千来统计的规模。对于IDC来说,机会的增加不可能把所有的业务放在同一个IDC, 的IDC从最初的一个主要数据中心,迅速增加到两个、三个,我们数据中心之间也进行了这样的一个互联。 的IDC建设经历了一下几个阶段:第一阶段: 自建IDC为主。 从2000年开始,自建IDC,但自建IDC存在不少问题: 投入大、建设周期长:因为要拿IDC、要审批,要申请电力资源,因为IDC是一个高耗电项目。然后再建楼,建设备,一般来说,一个IDC的建设周期需要23年,这还是速度比较快的,有的需要五、六年。 可扩展能力受限制: IDC建设初期的需求是预估的,随着业务的扩展,对IDC的规模要求也就逐渐增加,需要进行弹性扩展。第二阶段: 自建自有 + 供应商IDC现代互联网要行业要求轻资产,花重资建IDC已经不适应市场规律,所以 在业务快速发展过程中,在自建自有IDC的同时,也向供应商或者是运营商借用他们已经建好的数据中心。但租用IDC存在各种不同于自建IDC的管理差异:机房情况不能及时获取,包括机房的一些UTS的监控,温度、湿度的监控都在g供应商的管理之下。而且一般运营商监控的系统是不对外开放和对接的。监控粒度粗,供应商的监控相对来说粗一些。他们只对某一个通道和角度,或者是某一个机柜、机组传感器进行监管。响应实效差,当出现故障和问题时,响应速度慢,他对你设备不了解,你对他环境不了解等,在协作方面也会有信息的不通畅。我们在做数据中心时遇到的这些问题需要解决,但我们不能通过无限制的增加人力来应对数据中心快速扩张,运维人员做的事情太基础对运维的效率、对运维工程师的发展都存在很大的弊端。如何以有限的人力资源去应对快速增长的数据中心的运维?如何实现运维的精细化管理?我们怎样努力地花好每一分钱,怎样高效地响应运维的需求?针对以上的目标,我们提出了一个IDC管理可视化的想法。二、IDC管理可视化数据中心快速发展,我们也碰到了很多解决亟待解决的问题。举个例子来说,如何快速知悉数据中心空间使用情况? 已经存在多少设备 设备都在哪些机柜 有多少个机柜 还能放多少机柜 与哪些网络设备连接在传统的方式里面,可能你要去拿一个一个去拉,或者一单个字母为索引来查询一个数据记录系统,如此,根本没办法地直观地看到数据中心的情况。再看一个例子,如果机房出现了故障,我如何能够有效、及时地去评估这个故障对我的影响?按照以前的方式我会打电话问我的供应商,你机房是不是出问题了?你是哪个空调、风机出问题了?还是UPS掉电了,影响多少个机柜,我怎么知道这些机柜有哪些网络服务器、设备,我要不要做优化、做流程?所以我们希望有一个系统或平台可以直接看到我们IDC的一些情况: 机房空间使用情况 机房供电情况 机房环境温度 机柜的布局展示, 设备信息, 硬件状态 设备警报处理知道了这些指标,设备一旦掉线,就很容易被发现。并且,可以大大提升运维工程师的工作效率。基于这些指标要求我们做了IDC可视化系统 ,如上图所示。查看IDC状态告警,系统中可以查看机房的温度范围,查看每个机柜的温度范围。后面我们还可以看到它设备定点产生的问题,比如说这个是不是A路电或者是B路电掉了。可以查看整个机房的布局,整个机房功能的安排,比如:机房通道,机柜位置,及其功能标识(是存储类、还是网络类或其他功能)。还可以查看机柜供电、网络设备布局,以及整个机柜里面某一个设备的状态情况以及这个机柜的温度、功耗的历史情况。在这个基础上,我们还对IDC运维工程师经常要做的工作进行了可视化。如上图所示,我们可以对设备进基于行各种参数的查询:可以查看某个机房里面某些设备的情况。也可以对单台设备进行操纵并可以查询基本情况,可以看到子系统的状态,比如CPU、硬盘指标。也可以看到这个设备曾经做过的历史的操作,比如说变更,比如说一些不良的数据。更能看到一些设备内部子系统的详情,比如当有设备报警发生,典型的类似于ECC交元错误,在可视化系统中可以直接看到它的内存、容量等指标,这样在保修的时候,就有针对性,不让厂商的工程师二次上门服务;可以看到设备历史的日志、状态,比如:功耗变化、温度变化。可以通过可视化界面对设备进行硬重启。同时也提供了一些标准化的操作: 当设备维修完成以后,我们可以进行标准化设置,可以把一些设备从出场时候的技能模式扩展成高性能运行模式。实现上面的可视化,我们是基于结构设计上的两大关键点:基于CMDB的信息展示:CMDB是整个运维用来配置数据的地方,我们所有的分享信息都用到CMDB,它是我们的基础,是我们基本的信息。基于设备监控的状态展示:我们前面看到的机房、温度都是基于设备的状态信息。 拥有完善的监控系统,可以对线上每一台开机状态的服务器硬件状态,运营的状态进行发现,然后进行聚合和计算,最终得到机房温度、电的布局。基于设备商IPMI、SNMP、以及SOAP的接口对设备进行操作和日常维护。同时我们也对外提供了一些API,从服务器资源的准备到最后运维大部分都实现了自动化,在一些事件的处理上,可以利用API对设备进行操作。IDC的可视展示,给 的IDC管理带来了丰厚回报。IDC的可视化管理提高了效率IDC的入口不像以前一样拿一个表格去统计资源情况,使用情况,效率大大提高。IDC状态的监控更加可视化完成,不需要等到IDC人员通知我们,或者是等到服务器报警才去查验机房或者机房温度、电的问题。空间管理、设备维护效率提高我们曾遇到机房里的空调、风机出现故障,供应商通过他的系统去看温度是正常的23度,但是我们这里看到的是超温报警。其实机房温度不是一个很平衡的状态,它各空调开启的位置不一定能够满足全方位要求。比如说冷风道,或者是某一个设备的散热系统。这个时候就我们需要跟机房进行交涉协调:放一些小风扇,或改善地面的出风地板等来调整机房里的温度分布,可以避免后续问题。应急响应的有效性IDC可视化当中,一个是信息的展示,一个是设备监控状态信息展示,在我们数据中心,需要采集数以万台的设备的基本信息,才能做到IDC可视化展示,如何保证CMDB的信息是准确的呢?设备的自动化监控,保证了信息采集的高效、准确,而不是靠人工。三、设备接收自动化数据中心有数万台设备,但每个月又要接收大量的设备,并且对它进行安装上架交付。对于用户来说,申请资源,都希望资源快速到达手上。但是一般来说当有一个很大的项目,需要申请上百台或者是上千台的服务器,肯定会涉及到这样的过程。先申请、走商务采购,设备到位后的初始化配置、要收货、上架、连线、标准化操作系统,随后部署应用,去配置、监控。除去资源申请和商务采购的商务流程,一般花费时间最长的是收货、上架和系统部署的环节,在传统的手工模式下,准备几百台服务器的时间很难想像,除非你有大量的工程师在机房做这个事情,这是造成收货与部署时间长的原因。设备多,准备时间长,正如上述所说,手工模式下,随着 规模越来越大,对IT设备的需求越来越多,每次要购买的服务器也就越来越多,人工收货上架准备时间会越来越长。此外,服务器数量增加后,如果人工处理,需要掌握的技能就非常多。品牌型号的差异都需要人工处理,针对不同品牌、不同型号、处理方式不一样,需要的技能也有差别。因此在做收货、上架、部署的过程中,我们需要大量的手工录入。于是又增加了出错频率比如说装操作系统,要安装,数据需要采集、录入到CMDB、要装上序列号,要人员装标签等等。但人工录入的出错率高。此外,设备验证也需要很大的工作量:这个机器是不是我买的机器?我买的128GB内存,会不会给我少几个硬盘,所以要做验证,这个验证的工作量很巨大,我们不可能每台机器代码打开,看看里面是不是差。所以验证的工作量非常大,而且问题发现晚。如何避免大量的人工操作的问题,我们分别从流程和技术两个方面来讲。先来看流程的优化:首先是梳理分工,把我们所做的工作,供应商所做的工作,以及IDC的供应商所做的工作进行梳理,把工作定义清楚,第二个我们必须要做标准化工作。标准化工作分三块,自己的标准化、供应商标准化,IDC的标准化。自己的标准化:即,机房温度的标准化、布线的标准化、收集信息的标准化。我们把顺序的工作并行,把工作梳理好了,让一些工作并行起来,把手工工作能够后置的就后置。边布线边上网络设备,并行工序提高了效率。再来看技术方面的改进:为了避免人工出错,我们采用了二维码或条码的方式。现在开发的手机客户比较强大,拿手机扫一扫,就能知道设备的情况。我们还做了硬件自动核对;设备的安装和部署的自动化。系统的模块设计如下图所示:这里面最重要的是Baremetal, 它和物理机打交道,并且需要高效网络处理来进行交互。SRM来协调和验证,配置信息最终录入到CMDB里面。系统设计的流程,设备的收集、信息的收集、应用的标准化,然后OS安装,配置的验证都是(英文)的事情。BareMetar是整个自动化接受和配置过程中最关键的方向,实现了设备自动化的接收以及设备的自动部署,避免了人工大量重复机械的操作。整个实现了服务器的发现,从服务器到网络,网络端Baremetal引导起来,然后这台服务器硬件信息获取上传到CMDB里面,和采购的信息进行比对,验证是否准确,然后就落到CMDB里面去了。这个验证完了,设备没有异样才可以运行,对它的管理卡等进行一次标准化。这些都做完了我们可以进行操作系统的部署,这是交付前的最后一个环节。我们现在很多都是多种操作系统,因为现在我们的应用环境相对来说还是比较复杂,我们有以前用的一些Windows之类的,我们希望利用这个系统把之前的所有覆盖掉。然后底层是用PXE和IPXE引导,用IPMI进行网络发现。由于Baremetal的重要性,我们对整个Baremetal整个的运行进行了监控,可以定期分析它运行的情况,中间是否出现了问题。因为硬件设备原有的操作不一定兼容新的设备,需要定期优化。做了这些事情以后,整个设备的接收过程就变得比以前好很多。以前接收设备可能要一个星期、两个星期。现在我们在接四、五百台设备的情况下,我们只需要1+1Days,第一天接受设备上架,第二天配置验证部署。我们需要多少人呢?我们现在如果是到一个数据中心接受设备只需要一个,而且只有收货那天会去一趟。四、展望IDC可视化系统在现阶段解决了我们的很多困难,但是与我们期待的长远目标还是有很大差距。如果要将工作能够做得更好,效率更高?我们今后将在以下方向进行改进和努力:1. 在服务器的管理上不断地进行技术迭代- 例如设备管理中的Redfish2. 充分发挥监控数据的作用,使其在满足运维需要的基础上,可以用来结合应用的情况去做一些分享,去做机房的温度、环境分析,结合应用数据,优化机房利用率,节省成本。3. 也希望根据应用情况,根据五花八门的用户需求,动态调整备用资源。4. 更希望做到减少人员,常见的报警能够实现自动化处理;5. 希望运维人员能够随时随地处理运维工作,实现移动办公除此之外,还有更多的工作等着我们IDC的工程师
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 车辆购置补贴贷款借条样本
- 医疗机构场地租赁行政合同
- 车辆保险理赔全权委托合同范本
- 肿瘤患者大出血的急救
- 中医药大健康产业创新创业路径探索
- 中学心理健康教育教案
- 2025学前班教育发展
- 2024年光导纤维导光环项目投资申请报告代可行性研究报告
- 2024年AFC售检票系统项目投资申请报告代可行性研究报告
- 工商外勤技能培训
- 70岁以上的换领驾驶证三力测试题答案
- 药品售后服务承诺书
- 露天矿防火安全知识讲座
- 2024年山东烟台财金集团招聘笔试参考题库含答案解析
- GB/T 43234-2023成型模斜导柱
- 马工程版《中国经济史》各章思考题答题要点及详解
- 中建公路工程10T龙门吊安拆方案
- 2023年石狮市国企招聘考试基础题库
- OBE理念下的一流专业和课程建设
- 游戏俱乐部群公告范本
- 国家玩具安全技术规范
评论
0/150
提交评论