HP服务器技术白皮书1_第1页
HP服务器技术白皮书1_第2页
HP服务器技术白皮书1_第3页
HP服务器技术白皮书1_第4页
HP服务器技术白皮书1_第5页
已阅读5页,还剩1页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HP服务器技术白皮书1随着关键业务应用对系统资源提出了越来越高的要求,提高系统带宽差不多成为一个至关重要的问题。在分析和评估了现有的系统结构之后,惠普公司确定了一种新的系统结构,它具有更好的性能、较高的处理器、高效的内存技术和I/O扩展性及更高的带宽,能够满足日益复杂的事务处理、数据库、互联网/企业内部互联网和文件/打印应用的要求。

HP最新的内存爱护技术

由于互联网在诸如电信、金融等对储备要求专门高的行业上的应用越来越广泛,增大服务器容量差不多成为必需满足的要求。以后,互联网的使用将渗透到各个行业,因此提高数据中心(datacenter)的运算能力成了生产商和服务商都关怀的问题。目前,服务器厂商在他们生产的服务器上采纳了更快的处理器和更大的内存,这带动了相关技术的不断进展变化。当前有专门多企业都通过裁减IT部门职员的方法来缩减开支。在此情形下,服务器必须具备更高的容错能力,以减少设备检修所需的时刻和花费。

要满足大规模应用的要求,服务器的制造商面临的问题确实是在扩展内存的密度、增大内存的容量的同时,保证系统内存的可靠性。惠普也面临同样的问题,解决的方法是利用3种容错内存爱护技术(fault-tolerantmemoryprotectiontechnologies):在线备份内存、热插拔镜像内存和热插拔RAID内存。

以上提到的惠普AMP技术是系统可靠性的保证,用户能够依照自己对内存可靠性的要求自由选择系统配置,这将为其工作取得成功提供必要的基础。

介绍

目前运行在工业标准服务器上的重要的商用软件所需的内存空间越来越大。从趋势上看,新的操作系统能够支持更大的内存,同时服务器内存的容量也在不断扩大。这些年来系统内存的可靠性越来越高,要紧缘故是有了更好的制作工艺和更新的内存爱护技术例如ECC-它是由惠普第一在工业标准的服务器上采纳的一项技术。然而,随着储备元件密度的增加、服务器容量的加大,内存发生错误的几率也跟着增大了。而内存一旦显现错误会导致数据无法使用,甚至系统死机,这会给商业活动带来专门大缺失。

为了确保内存的可靠性,惠普开发了3级AMP技术,它能够增加内存的容错能力,能够满足那些对实效性要求专门高的应用软件的要求:用户能够依照自己对内存可靠性的要求自由选择系统配置-在线备份内存、热插拔镜像内存和惠普热插拔RAID内存(工业标准DIMM的冗余阵列)。

在这篇文章中,第一说明服务器发生内存错误的缘故并说明什么缘故显现内存错误的可能性会增加。接着详细介绍惠普采纳的检查内存错误的方法的原理和局限性。最后,介绍惠普ProLiant300,500和700系列服务器采纳的容错AMP技术。

内存错误

服务器中使用的内存模块是电子储备设备;因此专门容易显现储备错误。运算机中使用的储备设备有两种类型-静态随机储备器(SRAM)和动态RAM(DRAM)。其中SRAM做为缓存使用,这是因为它的速度快同时能够在关闭电源前一直储存其中的数据。DRAM芯片装在168脚的DIMM(dualinlinememorymodules)上。每一个DRAM芯片以电容行或电容列储备数据(即储备单元),这些储备单元必须不停地进行充电或者更新,否则其中的数据会丢失。一个充电的电容器表示数据"1",一个放电的电容器表示数据"0"。充电和放电是由储备设备的电压决定的。

在进行读操作的时候,电容器的电荷水平决定数据是被读出为“1”依旧读出为“0”。例如,在电压为5伏的系统中,传感器将电压为+5伏特的电容器读出为“1”,将电压为0伏特的电容器读出为“0”。只要电压更接近+5V而不是0V,传感器就能够正确读数。然而,假如电容器中的电荷受到外界的阻碍发生变化的话,读数就会不准确。当服务器上运行的是重要的商用程序时,此类内存错误将导致运行中断,商业数据的丢失。内存错误依照被阻碍的比特位数不同分成单比特错误和多比特错误。

HP防止显现内存错误的方法

有两条途径能够防止显现内存错误:测试(testing)和使用错误检查/纠正技术。一直以来,惠普是工业标准服务器内存品质测试方面的专家(惠普为其产品提供质量保证就能够证明这一点),同时它还在工业标准服务器内存的错误检查/纠正技术方面处于领先地位,并在AMP技术领域连续保持了这种地位。

先进的测试方法能够提高内存的可靠性

内存芯片速度更快、设计更复杂,这使得对芯片进行测试变得越来越困难,花费也跟着变大了。内存设备的生产商在测试系统上投入了专门多的资金,并不断地改进其测试的方法、步骤从而确保设备的质量。惠一般过不断改进内存的设计和制作工艺,将发生硬错误的可能性降到最低。除了在制作上严格把关外,惠普更是对服务器上使用的每一个内存都做了完全的测试。而且测试范畴不仅包括目前正在惠普服务器上使用的各个生产商生产的各种型号的内存,还包括每一款惠普新研制出的服务器内存,在惠普服务器采纳新的处理器时,惠普也会对原有的内存进行重新评估。只有通过严格的测试才能保证内存可靠性的不断提高。

有了对其产品质量的信心,惠普为它生产的内存提供3年的质量保证。有了那个保证,只要是显现问题的惠普DIMM(其错误值超过了预先设定的错误极限),用户都能够向惠普要求更换。服务器会记录DIMM显现的错误,而且惠普的治理软件(HpInsightManager)和诊断程序都能够对发生的错误进行确认。

错误检查/纠正技术

惠一般过严格治理内存的加工制作过程和不断地对其内存产品进行测试,最大程度地降低了由于产品质量而导致内存发生错误的可能性。但由于内存容量的扩大,发生内存错误的几率也在增加。错误检查/纠正技术专门重要,没有它,正在运行的重要商业程序会在没有任何告警的情形下显现中断。这尽管是偶然现象但后果却专门严峻。

尽管采取各种方法幸免硬件显现问题,但由于一些和内存不直截了当相关的错误的存在,内存错误仍旧不可幸免。唯独能够真正改变这一状况的方法是:使用内存检查/纠正协议。有一些协议只能够检查到错误,另一些却能够在检查到错误的同时把错误改正过来。

ECC内存

惠普1993把带纠错编码技术(ECC)的内存首次应用到工业标准的服务器中,大大降低了内存发生“致命”错误的几率,惠普是第一个如此做的公司。ECC内存差不多成为所有惠普ProLiant系列服务器的标配。ECC技术优于奇偶校验(paritychecking)。奇偶校验只能做到单比特错误的检查,不能对检查到的错误进行纠正,且无法处理多比特错误。但ECC技术不仅能够检查到单比特错误,也能够检查到发生的多比特错误并能对单比特错误进行纠正。它的原理如下:

ECC将信息进行8比特位的编码,采纳这种方式能够复原1比特的错误。每一次数据写入内存的时候,ECC使用一种专门的算法对数据进行运算,其结果称为校验位(checkbits)。将所有校验位加在一起的和是校验和(checksum),校验和与数据一起存放。当这些数据从内存中读出时,采纳同一算法再次运算校验和,并和前面的运算结果相比较,假如结果相同,说明数据是正确的,反之说明有错误,ECC能够从逻辑上分离错误并通知系统。当只显现单比特错误的时候,ECC能够把错误改正过来不阻碍系统运行(图1).

图1:ECC检查并改正单比特错误的原理示意图

除了能够检查到并改正单比特错误之外,ECC能检查到(但不改正)单DRAM芯片上发生的任意2个随机错误,并最多能够检查到4比特的错误。当有多比特错误发生的时候,ECC内存会生成一个不可隐藏(non-maskableinterrupt)的中断(NMI),系统会中止运行以幸免显现数据恶化。

ECC技术为专门多应用软件都提供了有效的爱护。但如图2所示,随着内存容量的增加,ECC的有效性在降低。(服务器的损耗从3%上升到48%)有两个因素促使工业标准服务器不断提高其内存的容量:操作系统能够支持更大的内存;低价、高容量的内存越来越普遍。

图2:一年内因为内存故障造成的服务器宕机故障

新的ECC内存

为了加强对内存数据的爱护,惠普于1996年引入了新的ECC技术(AdvancedECCtechnology)。目前惠普和其它的服务器制造商的生成线上生产的仍旧是带有此类技术的产品。标准的带有ECC技术的设备在从DIMM中读数据的时候能够同时纠正数据中显现的单比特错误,新的ECC技术能够纠正DRAM中发生的多比特错误,保证DRAM芯片上的数据全部有效。在带有新的的4-bit(X4)ECC技术的内存中,每一个芯片“奉献”4个比特的数据给数据字。从每个芯片中出来的这4比特数据被平均分配给4个带有ECC技术的设备,每个设备一个比特,如此一来,每个芯片上发生的错误能够分解为4个独立的单比特错误。图3是这种技术实现的示意图。

图3:在新的ECC技术中每个DRAM芯片输出4比特数据分配给4个ECC驱动器。

每一个ECC设备能够纠正单比特错误,改进后的ECC设备能够纠正一个DRAM芯片中发生的多比特错误,因此新的ECC技术为整个设备提供故障爱护。(表1).

表1

尽管改进后的ECC能够爱护数据幸免显现错误,然而它只能纠正发生在单个DRAM芯片中的数据错误,而不支持故障复原和热插拔能力,关于长时刻不间断运行的商用软件而言,要实现其软件功能,就要求系统具备这两种能力。否则,当内存显现了问题的时候,系统只能关机,等待更换新的内存。最新一代的惠普ProLiant服务器提供3级AMP技术,拥有更强的容错能力,能够满足应用软件对高可靠性的要求。

惠普新的内存爱护技术

惠普致力于开发内存爱护技术,并将这些技术应用到ProLiant系列服务器中,以提高系统的容错性,增加系统的可信度。(参看图4)。惠普ProLiant300,500,和700系列服务器都具备一项或多项AMP技术:在线备份内存(OnlineSpareMemory),热插拔镜像内存(HotPlugMirroredMemory),和热插拔RAID内存(HotPlugRAIDMemory)。

图4惠普最新一代ProLiant服务器中的高级内存爱护技术

惠普AMP技术支持工业标准的256-MB,512-MB,1-GBDIMM和2-GBDDRDIMM。

惠普ProLiant300系列服务器采纳的内存爱护技术

在线备份内存模式

相对标准内存模式而言,在线备份内存模式能够提供更高级别的内存爱护。它专门适用于没有足够运算机系统爱护人员或者手头没有余外的内存能够方便的替换的场所。

惠普ProLiantML370G2和DL380G2服务器的主板上有6个DIMM插槽。这些插槽分成3个储备区(memorybanks)A、B和C。

启用在线备份内存模式的方法是使用安装工具将储备区C设置成在线备份内存。储备区C必须在系统设置成在线备份模式之前安装好。储备区A和B作为系统内存,它们的总容量是4GB(假如每个DIMMS是1GB),储备区B也能够不必安装。储备区C所使用的DIMM容量必须大于或者等于其它储备区的容量。例如,假如储备区A使用的是512-MBDIMM,储备区B使用的是1-GBDIMM,那么储备区C至少要采纳1-GBDIMM。

惠普ProLiant500系列服务器采纳的内存爱护技术

在线备份内存模式

相对标准内存模式而言,在线备份内存模式能够提供更高级别的内存爱护。它专门适用于没有足够运算机系统爱护人员或者手头没有余外的内存能够方便的替换的场所。

镜像内存方式

镜像内存方式是容错内存(fault-tolerantmemory)的一个选项,它能够提供比在线备份内存更高的可信度。在线备份内存模式只能对发生单比特错误的数据提供爱护,但镜像内存方式还能够用来爱护发生多比特错误的数据。正因为如此,镜像内存方式专门适合于商用,因为它除了正常爱护之外,不需要花额外的时刻在内存的检修问题上。

惠普ProLiant700系列服务器采纳的内存爱护技术

惠普热插拔RAID内存

惠普热插拔RAID内存能够为长时刻不间断运行的应用程序提供极高的有用性、灵活性和容错能力。即使是内存设备完全故障,内存仍旧能够正常工作。RAID的含义是工业标准的DIMM容错阵列(RedundantArray)(参看图5).

图5:惠普热插拔RAID内存通过数据缓存线将数据存放在4个内存盒中,RAID引擎运算奇偶信息,并将其存放在第5个内存盒中。

惠普热插拔RAID内存(HpHotPlugRAIDmemory)在概念上和RAID4磁盘储备技术是相似的,但在一些关键的性能上会有所不同,实现方式上也不一样。和磁盘阵列不同,惠普热插拔RAID内存(HpHotPlugRAIDMemory)不存在延时(mechanicaldelay)。惠普热插拔RAID内存使用的是并行的点对点的连接方式写数据,而不是通过连接多块磁盘的串行总线,这种方式的优点是数据能够同时被写入多个储备区(内存盒),惠普热插拔RAID内存排除了因为储备系统使用RAID技术处理而带来的写数据的瓶颈问题。在一个储备阵列中,通常情形下RAID操纵器在写数据之前会先读现有的奇偶信息,假如有专门奇偶校验驱动器做这项工作,那么就会带来瓶颈。但惠普不是如此做的,惠普热插拔RAID内存将运行在整个的数据缓存线上,因此在写数据前没有必要读现有的奇偶信息。

采纳惠普热插拔RAID内存方式的服务器使用5个内存操纵器来操纵5个内存盒(memorycartridges)。每个盒能够安装最多8个工业标准DIMM(参看图6)。当内存操纵器要向内存中写数据的时候,它们会把数据分成4块写入4个内存盒,并运算奇偶信息存放在第5个内存盒。利用4个内存盒中的数据和第5个内存盒中奇偶信息,数据能够完全复原,即使是任何DIMM工作故障,或任何一个内存盒被拆掉了,也能够做到不丢失数据。

在读操作中,每个从内存盒中读出的数据都会通过内存操纵器和一个ECC设备进行错误检查,另外,其余4个内存操纵器会重新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论