greenplum维护_第1页
greenplum维护_第2页
greenplum维护_第3页
greenplum维护_第4页
greenplum维护_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、V0.2GREEN PLUM 数据库日常维护手册第一章GP服务器每日例行检查1.1、检查时间0)早上起床后(建议值班人员操作,如果无值班条件可以省略,有条件的可以适当提前)1)早上上班后2)中午午休前3)中午午休后4)晚上下班前5)晚上休息前(建议值班人员操作,如果无值班条件可以省略)1.2、检查方法运行gm监控程序,运行方式为 ./gm主监控界面如下,如果出现非正常显示在日检查表“GM程序运行正常”一栏填写实际情况,否则打勾即可。1.3、检查内容1.3.1各服务器硬盘使用情况主要看硬盘使用占比boot、data、dev、shm、root。对于ETL服务器,建议不要超过硬盘空间的85%;对于g

2、reenplum节点,建议不要超过硬盘空间的75%,以免影响greenplum数据库的效率。将数据盘中占用最高的数值填写在日检查表“数据盘最高占用“一栏。超限时要及时处理或向总部系统集成求助。1.3.2各服务器硬盘读写情况主要看各个segment数据节点读写情况R1K/S、W1K/S、R2K/S、W2K/S应该大致相同,如不同,需要检测不同的原因,一般可能是数据倾斜的问题。对于其他原因,需要根据具体情况进行检测。硬盘读写速度的大致平均数(前读后写中间加符)填写在日检查表“IO速度率”一栏。1.3.3各服务器内存使用情况需要根据具体情况,如发现内存使用异常(MemIdl明显低于其他机器),则需执

3、行top命令找出异常进程进行分析。SWAP平均空闲值填写在日检查表“swap空闲”一栏;内存空闲值的大致平均数填写在日检查表“MemIdl”一栏。1.3.4各服务器CPU使用情况需要根据具体情况,如发现CPU使用异常(CpuIdl明显低于其他机器),则需执行top命令找出异常进程进行分析。CPU空闲的大致平均数填写在日检查表“CpuIdl”一栏。1.3.5各服务器IOWAIT情况需要根据具体情况,如发现IOWAIT异常(IOWait明显高于其他机器,或所有机器都很高超过15%),则需执行top命令找出异常进程进行分析。IOWAIT的大致平均数填写在日检查表“IOWait”一栏。1.3.6查看R

4、AID硬盘的状态即Write Policy参数,正常状态显示为WB即Write Back状态。全部为WB时在日检查表“WritePolicy”一栏打勾,有其他值时标注机器名和状态。1.3.7查看RAID卡电池属性即BATTS属性,正常状态显示为Ready状态。全部为Ready时在日检查表“Batts”一栏打勾,有其他值时标注机器名和状态。1.3.8查看greenplum镜像状态即Mirror alert状态。如果正常则没有显示,这时可在日检查表“Mirror Alert”一栏打勾,否则按实际界面报告情况填写。如果出现镜像丢失,则会出现异常状态。需要根据实际情况,对丢失的镜像及时进行修复,修复时

5、记得要填写维护日志,一旦涉及到修改系统参数,务必先备份并在维护日志中记载备份文件名。一般修复镜像需要在系统较空闲时进行,最好是没有任务时进行,必要时可以将/data/master/gpseg-1/pg_hba.conf中的相应行注释掉禁止可能连接数据库的终端连接数据库,修改后执行gpstop u使临时配置生效,但一定要记得在修复后恢复配置,并运行gpstop u使原配置生效。修复指令根据镜像告警不同也有所不同,当告警信息如图所示时需要执行gprecoverseg修复。如果告警信息如下图所示,需要执行先gprecoverseg修复,完成后一定要先重启数据库,再执gprecoverseg r修复,

6、目前已有三套数据库因为没有重启后再-r修复而报废,请务必注意。如果告警信息如下图所示,需要执行gpinitstandby -n修复,注意修复过程会重启数据库,务必确认数据库中没有数据加工任务在运行,确实可以重启时运行此指令, 这个指令花费时间根据数据库的系统表大小会有很大差别。可以进入到如下目录查看:只有base和global的大小是相关的,其他无所谓1.3.9查看是否存在WAITING操作在running c Sql区域有一个列正常是空白的,如图所示的第4个列,如果这个列不是空白而是出现WAITING,就要及时与总部技术支持联系查找原因了。空白时在日检查表“WAITING”一栏打勾,否则打X

7、。1.3.10查看硬件告警正常情况下这告警区域(在最下方区域)是空白的,日检查表“System Alertlog”一栏打勾,否则将告警摘抄在这一栏。如果出现告警需要确认故障,并及时报修。如果不能确认或不会确认可以申请公司总部的技术支持。或者告警很多时,可以请总部支持清除日志。下图所示的故障发生在一次重启机器后,故障信息是电池充电由于温度过高的原因而中止。这是一个可以忽略的故障,清除日志即可。硬件出现紧急告警(Critical)的处理流程:1、 机器失联处理流程:1)发现方法:gm运行时,出现以下信息或者列表中缺少一台机器。确认办法可以再开一个SSH窗口,运行gpssh f host_all出现

8、以上信息时表示ftp2这台机器已经无法连接上了,处于失联状态,需要到机房处理或远程idrac方式处理。马上联系局方运维部门紧急联系人通知其处理。如果联系不上通知公司项目经理或直接领导,进行紧急协调。2)恢复联系ssh连接成功后,一般要进行镜像修复处理,参照镜像处理相关章节处理。2、 超温告警处理流程:1)发现方法:3、 硬盘告警处理流程:4、 CPU告警处理流程:5、 内存告警处理流程:硬件出现非紧急告警(Non-Critical)的处理流程:第二章GP服务器每周例行检查2.1、检查时间每周二下午(可根据实际情况调整)2.2、检查方法进入机房目测体感记录2.2.1观察告警灯如果发现告警灯亮起,

9、可以运行omreport system alertlog查看所有告警信息。如果找不到故障,查看DESET日志,方法是运行./dell-dset-00_x86-64.bin,注意要先登录到故障机器,经常有人在主控机上就运行检查指令,结果找不到问题,这种错误很常见,需要特别注意。2.2.2测量机位温度,电源情况要求项目组购买便携式电子温湿度计,测试相应机位的温湿度,并记录在案,因为GP数据库集群往往安装密度较高温度明显高于机房整体温度。查看机架上的电流电压表,记录在案。一旦发现局部温湿度超标或电源异常报局方处理。指标要求机器面板一侧的温度在18-25之间,湿度在40-60%之间。电压

10、在210-230V之间,电流无指标要求,但要记录每次电流数值,波动在20%以上,并且没有设备增减的情况下,需要引起注意。2.2.3检查设备情况检查电缆及标签是否规整,护板是否齐全,如果发现异常记录在案并通知局方处理。第三章GP服务器每月例行检查3.1、检查时间每月25日前,下午3.2、检查方法3.2.1检查DESET日志运行DESET日志收集过程运行后先是提示一些帮助信息,一屏显示不全是会出如下提示,可打空格跳过,再提示版权信息,回答y并且回车,在如下菜单中选择2 回车接下来回答8次y加回车,注意是y回车y回车。y回车,共8次然后在如下提示下,输入root用户的密码,一定要输入正

11、确。并回车然后需要等大约10分钟左右。下图中最长的那一行,提示了日志文件存放位置及文件名。查看DESET日志将生成的ZIP文件下载到客户端,解压缩,密码是dell双击打开hat文件打开System下的Hardware Log找到打红X的行。下边这张图最后一行表示CPU1出现故障需要维修,上数几行可以发现CPU2也发生了故障,参照16小时以下硬件维修流程进行3.2.2检查重启时间及定期重启在这里我们注意到sdw16、sdw14两台机器的资源占用较高,经反复查询居高不下,此种情况需要对此集群全体数据节点重启。具体操作步骤如下定期重启流程由于系统长时间运行后会产生资源泄露

12、等问题,建议每月硬重启一次。1)根据实际情况确定重启时间窗口。业务部门、维护部门会同联通维护方协商确定时间窗口,建议以下午跑完数据即可开始,以免如此大量机器生启时发生故障没有预留处理时间,影响使用。2)将以上时间窗确定后,发业务、维护部门及联通运维信息化相关人员。3)执行前通知运维屏蔽相关机器的监控短信告警。3)确认业务停止,后开始下达关闭数据库指令。4)确认数据正常关闭后,与运维沟通确认短信已停好。4)以集群为单位,确认停库后,关闭双号节点。5)启动双号节点,确认无误后,关闭单号节点。6)启动单号节点,确认无误后,启动数据库。7)通知运维部门恢复相关机器的监控短信告警。8)通知业务使用部门测

13、试是否正常。9)离场。第四章 系统及硬件维护流程4.1硬件维护一般流程4.1.1硬盘故障维修流程:请将以下标签完善联系方式后打印并永久性放置于每台机器前部醒目位置注 意:1、禁止同时更换同一RAID组内两块(含)以上硬盘,否则必然会丢失数据。2、务必在第一块硬盘更换完毕,确认数据同步结束后(约两小时),再更换下一块硬盘。3、操作前请将双手在机架金属裸露部分充分抚摸释放静电,必要时使用防静电手腕。4、进行任何操作前,请与维护总管联系:电话号,姓名1) 硬盘故障维护实际操作比较简单,支持热插拔,找到故障盘(有故障灯亮起)取下,然后插入新盘。务必详细阅读以下注意事项后方可操作。2) 禁止同时更换同一

14、RAID组内两块(含)以上硬盘,否则必然会丢失数据。必须在第一块硬盘更换完毕,并且同步数据结束后,再更换下一块硬盘。3) 硬盘出现故障后须及时更换,以免造成数据丢失。更换时限暂定72小时。4) 更换硬盘必须有局方随工人员随同,并注意操作前将手在机架金属裸露部分充分抚摸释放静电,如果在静电高发地区应参照当地机房规定使用防静电手腕。5) 监控实例:执行指令:omreport system alertlog这是河南联通的一次主动维护,从下往上看,第一块标注为硬盘出现紧急告警,第二块标注为旧硬盘被取下,第三块标注为新的硬盘被插入,第四块标注为新硬盘再次下线进行数据同步,第五块标注为新硬盘数据同步结束正

15、式上线。数据同步时间大约为2小时。第一次告警到取下故障硬盘中间这段时间,每24小时系统重复告警一次,这个在下边的告警信息中也可以看得出来。755 : Severity : Ok756 : ID : 2121757 : Date and Time : 2013-06-26 12:31:43758 : Category : Storage Service759 : Description : Device returned to normal: Virtual Disk 2 (Virtual Disk 2) Controller 0 (PERC H710P Mini)761 : Severity

16、: Non-Critical762 : ID : 2050763 : Date and Time : 2013-06-26 10:33:45764 : Category : Storage Service765 : Description : Physical disk offline: Physical Disk 0:1:6 Controller 0, Connector 0773 : Severity : Ok774 : ID : 2121775 : Date and Time : 2013-06-26 10:33:45776 : Category : Storage Service777

17、 : Description : Device returned to normal: Physical Disk 0:1:6 Controller 0, Connector 0785 : Severity : Ok786 : ID : 2121787 : Date and Time : 2013-06-26 10:33:44788 : Category : Storage Service789 : Description : Device returned to normal: Physical Disk 0:1:6 Controller 0, Connector 0791 : Severi

18、ty : Non-Critical792 : ID : 2049793 : Date and Time : 2013-06-26 10:31:59794 : Category : Storage Service795 : Description : Physical device removed: Physical Disk 0:1:6 Controller 0, Connector 0797 : Severity : Non-Critical798 : ID : 2094799 : Date and Time : 2013-06-26 03:29:23800 : Category : Sto

19、rage Service801 : Description : Predictive Failure reported: Physical Disk 0:1:6 Controller 0, Connector 0809 : Severity : Non-Critical810 : ID : 2094811 : Date and Time : 2013-06-25 03:21:29812 : Category : Storage Service813 : Description : Predictive Failure reported: Physical Disk 0:1:6 Controll

20、er 0, Connector 0815 : Severity : Non-Critical816 : ID : 2094817 : Date and Time : 2013-06-24 03:13:33818 : Category : Storage Service819 : Description : Predictive Failure reported: Physical Disk 0:1:6 Controller 0, Connector 0821 : Severity : Non-Critical822 : ID : 2057823 : Date and Time : 2013-0

21、6-23 03:05:30824 : Category : Storage Service825 : Description : Virtual disk degraded: Virtual Disk 2 (Virtual Disk 2) Controller 0 (PERC H710P Mini)833 : Severity : Non-Critical834 : ID : 2346835 : Date and Time : 2013-06-23 03:05:29836 : Category : Storage Service837 : Description : Error occurre

22、d: Error on PD 06(e0x20/s6) (Error 02).: Physical Disk 0:1:6 Controller 0, Connector 0839 : Severity : Critical840 : ID : 2048841 : Date and Time : 2013-06-23 03:05:29842 : Category : Storage Service843 : Description : Device failed: Physical Disk 0:1:6 Controller 0, Connector 0845 : Severity : Non-

23、Critical846 : ID : 2123847 : Date and Time : 2013-06-23 03:05:29848 : Category : Storage Service849 : Description : Redundancy lost: Virtual Disk 2 (Virtual Disk 2) Controller 0 (PERC H710P Mini)1001 : Severity : Non-Critical1002 : ID : 20941003 : Date and Time : 2013-06-23 02:55:381004 : Category :

24、 Storage Service1005 : Description : Predictive Failure reported: Physical Disk 0:1:6 Controller 0, Connector 04.1.2主机硬件故障(不包含硬盘故障)下电维修流程。1) 判断维护时长,16小时以下维护转到3,16小时以上维护,转到2。2) 局方业务部门与上级主管部门协调可以开始维护,并报备。3) 制定维护方案,并设置紧急应对措施和回退方案。4) 局方系统维护人员与国信负责人确认可以开始维护。5) 通知使用人员停止使用。6) 停库。7) 关机(如果已故障关机此步骤可以省略)8) 实施维护。如果发生超时风险,及时与局方业务部门协调启动紧急应对措施和回退方案。9) 开机。10) 启库。11) 确认功能正常。12) 通知人员离场。4.2镜像维护流程4.2.1 确认

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论