




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于因机房温度过高导致HP小型机宕机的说明和建议中国惠普有限公司1 HP小型机的降温和感温工作机制1.1工作原理惠普Superdome 、rp8400、N、L系列小型机降温部件是大功率风扇,其中Superdome有六个风扇,rp8400前后共有21个风扇,N、L系列主机本身都有8个风扇,前后各两个,侧面有四个。另外,机器的每个电源都各自带有一个风扇。Superdome、rp8400、N、L系列的感温和控温原理是相同的,所以我们以N系列为例来阐述其工作机制。惠普N系列小型机感温部件及风扇控制部件都是一块叫做“Platform Monitor board”的监控卡。图1是这块卡的实物照片,它还负责监控和记录系统各部件的运行状况,包括系统电源,处理器,内存等等。 图 1 Platform Monitor board实物图图2是它的电路连接图,可以看到Platform Monitor board是 图2 Platform Monitor board电路连接图块功能强大的卡。其中它的U15就是一个温度感应器,专门感应环境温度(机房温度)。通过这个温度感应器,Platform Monitor board可以通过改变机器自带8个风扇的转速,来调整机器的温度。电源的风扇转速不被其控制,但一旦电源风扇出问题,Platform Monitor board可以及时监控到,并作出相应的动作。图3是N系列主机的俯视图,图中红色的部分是Platform Monitor boar。 图3 N系列主机的俯视图1.2HP小型机的数据保护功能 当室温在31摄氏度以下,感应器认为机房温度处于Normal(正常)状态。当室温超过31摄氏度,Platform Monitor board就会通过提高风扇转速来提高机器散热能力保持机器正常运行。同时它会发出一个OVERTEMP_CRIT的信号给系统板的“Ralf”芯片,“Ralf”就会将“Dillon”芯片的错误寄存器中的一位置位。“Dillon”会发一个中断行给一个叫“Elroy”的IO芯片。最后“Elroy”会发一个中断请求给操作系统。当操作系统受到这个中断请求(或者每隔10秒它会去检查“Dillon”寄存器的状态),它会通过PDC(processor dependency code)去访问“Dillon”寄存器并得到错误状态。然后操作系统会把这个出错消息发给一个叫做“envd”的守护进程。(“envd”这个守护进程主要监控室温和机器的风扇运行状况,通过改变它的配置文件“/etc/envd.conf”,可以对其进行一定的控制)再由“envd”做出相应的动作。当发出OVERTEMP_CRIT信号(超过31摄氏度)时,“envd”的缺省反应是不做动作,但可以通过改变“/etc/envd.conf”来执行用户所需用的动作。 当室温超过35摄氏度,Platform Monitor board会发出一个OVERTEMP_EMERG的信号,通过以上相似的过程最后发给“envd”。这时“envd”的缺省反应是执行“/usr/sbin/reboot qh”来关闭机器。我们也可以通过改变“/etc/envd.conf”来执行用户所需用的动作。 当室温超过40摄氏度,Platform Monitor 就会直接关闭系统的电源。同时发出log给系统的错误寄存器。 综上所述,HP这样设计的目的在于万一因意外事故导致机房温度过高,小型机能够保护用户的数据不至于丢失,保证数据安全性,而且具有用户参与控制的灵活性。实际上,不仅仅HP,业界其他UNIX服务器生产商也遵循这一设计思想。在具体实施过程中,用户可以通过改变“envd” 的配置文件“/etc/envd.conf”,来控制系统超过31摄氏度和35摄氏度的动作。2HP小型机同类产品的比较 惠普小型机秉着惠普公司一向所追求高标准,高要求的宗旨,在出厂前全都经过严格测试,在性能指标的各个方面达到或者超过业界标准。在业界受到一致好评,在电信、金融、制造业等等各个重要行业得到了广泛应用。借此,惠普公司保持了其在小型机市场上的优势。 SuperDome,Rp8400, N,L系列小型机在温度方面的性能如表一: 表1 SD,rp8400,N,L系列小型机温度指标和业界其他的著名厂家的同类产品比较处于同类标准,表2是业界同类产品的温度指标比较:运行温度(摄氏度)非运行温度(摄氏度)温度最大变化率HP公司SD,rp8400,N系列5 - 35-40 - 7020 摄氏度/每小时IBM RS6000 M8010 - 40没有数据没有数据SUN 10000 10 - 31没有数据没有数据 表2 业界同类产品温度指标比较从上表可以看出,各UNIX服务器主要厂家的主流产品的指标没有显著差别,所以惠普公司小型机在温度指标方面是完全符合业界公认标准的。详细的各厂商性能参数请查阅下列网址:HP rp8400: /prodserv/server/unix/rp8400/guige.htmSun 10000: /servers/highend/10000/spec.htmlIBM RS6000 M80: /cgi-bin/master?request=salesmanual&parms=SMS&xh=HOwifi5J6H1wci1USenGnN9332&xhi=salesmanual%5E&type=HARDWARE&search=M80&title=T&product=3对机房环境的建议机房通风设计的最佳方案是采用机房专用空调,地板下送风,天棚上抽风,形成空气循环。由于HP小型机均是从前面吸入冷空气,从后部排风散热的方式,所以最好在每排机柜前开设送风口。且前后排设备之间必须拉开足够距离。切忌两排设备间距过小导致后排设备吸如前排设备排出的热空气。请参阅后图:4环境变化监控预警措施上面已经提到温度变化超出一定范围时,HP小型机会做出一系列反应,包括发出告警信息等等,但系统缺省的告警信息只显示在系统控制台上,这样不能满足用户的要求,因此我们建议:1在envd.conf中调用shell脚本,把预警信息显示在系统管理员的呼机上,这种方案简便易行。2HP Operview IT/Operation提供全面的系统和网络管理、监控、预警解决方案。4.1shell脚本预警ITO可以全面监控硬件、操作系统、 数据库、 中间件及应用,并可以与envd配合监控环境情况。如果不采用ITO,也可使用预先编好的script程序与envd结合, 实现通过modem呼叫值班人员的呼叫进行报警的功能。需要准备的设备是一个外接modem、 电话线和自动询呼机。将modem连到惠普服务器上,并将电话线连接到modem上。预先编好script程序以实现通过modem拨打自动询呼机。例如 /etc/envd.conf配置修改如下:OVERTEMP_CRIT:y/tmp/pager.shOVERTEMP_EMERG:y/usr/sbin/reboot -qhFANFAIL_CRIT:y/tmp/pager.shFANFAIL_EMERG:y/usr/sbin/reboot -qh在/tmp目录下编写名为pager.sh的script程序,该程序具有可执行权限。其内容是通过modem拨打指定的自动询呼机。当温度超过摄氏31度时或几个风扇坏掉时,envd会将告警信息写到/var/adm/syslog/syslog.log系统日志中,同时envd会自动调用程序/tmp/pager.sh拨打值班人员的询呼机发出告警信息。值班人员接到告警信号后就可快速行动,以防止环境温度继续恶化。此方法实施成本较小,但报警功能单一,只能拨打自动询呼机并以数字信号表示错误内容,但仍然是一种有效的预防方法。4.2HP Openview IT/Operation预警方案4.2.1 ITO 产 品 简 介 HP Openview IT/Operation是惠普公司在 HP Openview 平台上开发的一套用于铺助系统管理的工具软件包,它的其中一个主要功能是根据用户的设置、自动地对系统的运行情况进行监测,发现故障时能自动报警并可以根据设定进行相应的故障处理。4.2.2. envd 对环境的监控惠普UNIX服务器是专为企业级客户设计的,其强大的功能、可扩展外设、冗余的设计可以保证系统满足企业客户的各种要求。对于企业级客户而言, 宝贵的数据即是企业的生命。如同其他厂商一样,为了保证客户数据的完整性、一致性,惠普UNIX硬件及操作系统也设置了环境状态检查,保证外界环境的严重恶化前,系统即可主动采取措施,而不会对数据造成损坏。惠普UNIX硬件系统设有温度传感器,可以实时监测环境温度。尽管惠普服务器的风扇是多冗余和热插拔的,如果坏掉一个也不影响使用,但对于服务器的风扇也同样进行监控。以保证在多个风扇故障时,系统可以主动采取措施,保障数据的一致性。惠普操作系统中envd就是监测外界环境状态的后台进程。Envd后台进程可以检查环境温度和风扇运转状态。当温度传感器感应到环境温度超过告警范围,或发现风扇故障时,envd后台进程就会根据状态级别,发出相应告警信息给syslogd后台进程。Syslogd后台进程负责将告警信息写入到系统日志外界“/var/adm/syslog/syslog.log”中,以记录系统异常状态。如果envd不能把告警信息传给syslogd, envd就会直接将该告警信息发到系统控制台console上进行显示,以提醒系统管理员。如果状态继续恶化,环境温度超过危险范围,或多个风扇同时故障时,envd后台进程将直接关闭服务器,以保护系统,防止文件系统或数据库损坏。请参考惠普服务器的性能指标以确定温度范围。系统配置文件/etc/rc.config.d/envd 是控制envd后台进程是否在系统起机时自动启动的参数文件。如果文件中参数ENVD=1,则每次系统起机时envd会自动启动。如果参数ENVD=0,则系统起机后envd进程不会启动。缺省是ENVD=1自动起envd后台进程。参数配置文件/etc/envd.conf是控制envd如何作用的。基本格式如下:event : message_indicatoraction上一行包含“事件:是否记录到日志文件”。可以识别的事件event包括OVERTEMP_CRIT,OVERTEMP_EMERG,FANFAIL_CRIT,FANFAIL_EMERG。Message_indicator只能是“y”或“n”,即是否记录该事件到系统日志文件/var/adm/syslog/syslog.log 中。Action则为如果发生该事件系统将采取的动作。参数描述NORMAL环境温度在正常范围内。OVERTEMP_CRIT环境温度超过正常运行范围,但硬件系统仍然可以承受。OVERTEMP_EMERG环境温度超过硬件系统可以承受的最大范围,系统即将掉电。系统至少在60秒后才会进入overtemp_powerloss状态。OVERTEMP_POWERLOSS 机柜里的硬件自动掉电保护。FAN_NORMAL所有的风扇都运转正常。FANFAIL_CRIT一个或多个风扇坏掉,但其他冗余风扇仍能保障系统正常运行。FANFAIL_EMERG损坏的风扇个数过多,系统无法正常运行,系统即将自动掉电保护。FANFAIL_POWERLOSS机柜里的硬件自动掉电保护。/etc/envd.conf缺省配置如下:OVERTEMP_CRIT:yOVERTEMP_EMERG:y/usr/sbin/reboot -qhFANFAIL_CRIT:yFANFAIL_EMERG:y/usr/sbin/reboot -qh即温度告警或风扇告警时将在系统日志文件中进行记录,但不采取措施。如果温度或风扇超过系统限度,系统将执行“/usr/sbin/reboot -qh” ,快速关闭系统。对于惠普L系列和N系列服务器,环境温度小于摄氏31度为NORMAL,温度大于31度为OVERTEMP_CRIT,这时系统报警但可以继续运行。温度大于35度进入OVERTEMP_EMERG状态,系统执行action,缺省action为“/usr/sbin/reboot qh”快速关机。温度大于40度时进入OVERTEMP_POWERLOSS状态,系统不记录任何日志文件,直接自动掉电保护。4.2.3 ITO与envd配合自动监测报
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 低血糖昏迷病人的护理查房
- 物流成本管理配乐课件
- 陶行知语文教育思想在课堂教学中的具体应用
- 装修公司培训内容
- 主动脉瘤破裂超声诊断
- 如何开展讲师培训
- 永远的好朋友
- 智慧体育的理论与实践研究
- 重庆电讯职业学院《食品微生物学微生物的分离、纯化》2023-2024学年第一学期期末试卷
- 中国消防救援学院《口腔医学人文》2023-2024学年第一学期期末试卷
- 富士康职工档案管理制度
- 7数沪科版期末考试卷-2024-2025学年七年级(初一)数学下册期末考试模拟卷04
- 胃管置入术考试题及答案
- 郑州大学cad期末考试试题及答案
- 中国共产主义青年团纪律处分条例试行解读学习
- 国家能源集团陆上风电项目通 用造价指标(2024年)
- 2024北京海淀区三年级(下)期末语文试题及答案
- MOOC 国际商务-暨南大学 中国大学慕课答案
- 密封条范文模板(A4打印版)
- 三维激光扫描技术与应用实例-PPT课件
- 铁路货物装载常用计算公式
评论
0/150
提交评论