版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 券商集中交易系统小型机升级和选型实践 【摘要】本文描述了某券商集中交易系统浪潮 K1 Power 小型机升级过程的前前后后,从机器选型到压力测试,直至升级完成。重点分享了机器选型的过程以及选型考虑的因素。还分享了上线过程中遇到的一些实际问题。一、集中交易系统概述券商的交易系统很多,最核心的系统就是集中交易系统,又叫订单系统。有的券商将订单系统和清算系统进行分离。我们公司的集中交易系统是订单和清算合在一起的。除了在集中交易系统产生的订单,还有一些子系统也会产生订单,在清算时通过数据上下场,同步到集中交易系统,然后一起做清算。所以集中交易系统对性能和可用性要求有两个最重要的时段,一个是白天的交易
2、时间,一个是晚上的清算时间。在其它时间一般都是有维护窗口的。二、升级到Power9 的背景公司原来使用的服务器是IBM Power系统小型机,关键服务器是P780,辅助服务器是P750和S824等低端机器。Power7系列服务器是2014年上线的,Power8系列是2015年上线的,在上线时同时购买了五年的维保服务。首先P780的单机处理能力,出现性能瓶颈,已经不能满足业务需要。在2019年CPU的最高使用率曾经达到过70%,为了减轻主机压力,我们已经做了分布式的部署,将部分查询,登录的业务分到其它的机器上。其次,由于机器已经购买了五年,厂家已经停止生产该机型,购买硬件维保成本较高,简单的比较
3、一台32C P780的五年维保价格,就已经超过一台32C E980服务器的新购买价格。如果换算成机器的处理能力,那么这个价差会更大。当然价格的事情由于弹性很大,不是很有说服力,这里权当做为一个参考。再次,我们使用的数据库软件DB2 10.1已经EOS(End of Service),现在的aix操作系统版本按照计划也会在2022年EOS,从长远考虑,都需要进行升级。在这个背景下,我们启动了小型机升级计划。三、服务器选型考虑服务器选型我们考虑的最重要因素是单机的处理能力,响应时间,系统可靠性以及与应用的匹配度。1、服务器型号的选择目前 K1 Power 系统服务器是由浪潮商用机器有限公司生产的,
4、主要型号有浪潮K1 Power E980,E950,S924,S922,S914几种型号。根据厂家的介绍,E980专为支持最重要的关键应用而设计,是最强大、可靠、安全且可扩展的Power9服务器。E950专为动态的企业计算需求而设计,紧凑的4路系统可提供卓越的性能、极高的敏捷性和业界领先的可靠性。S924 面向关键应用数据的适应未来需求的4U2路服务器基础设备,为关键应用负载提供行业领先的性价比优势。根据我们的业务特点,重点考察浪潮K1 Power E980和浪潮K1 Power E950这两种机型。从测试结果看,这两种机型都能满足我们的需要。我个人觉得E980的优势在于扩展性,可以从单柜,最
5、多扩展到4个柜,CPU数量最多可以是E950的4倍。在选用多柜服务器的时候,一定要对应用进行压力测试,确保增加CPU数量可以提高性能。最终我们选择了E980 44C为主服务器,E950 44C做为高可用服务器,S924 20C做为非关键应用设备和备机。2、服务器CPU数量选择POWER9 CPU 的内核数是可变的,有8核,10核,11核。以满配的E950为例,CPU数量可以是32,40,44。随着核数的增加,CPU主频会降低,参考图1。8核的CPU提供了最强的单核性能,11核的CPU提供了最大的吞吐量。从表格中可以看到随着核数增加,主频的范围会变大,实际运行的最高频率也会降低。我们根据测试结果
6、,选择了11核的CPU,即单机44C。图1 CPU核数与主频的关系3、扩展柜的选择我们在以前的服务器选型中,经常会选用扩展柜,这次经过对服务器的分析,发现利用服务器现有的插槽,就能满足要求。以E980为例,该服务器共有8个PCIE4插槽,一般配置2块HBA卡连接存储,2块万兆网卡,2块千兆网卡,就可以满足需要了,还有2个PCIE4插槽用于其他需求。图2 E980插槽4、启动盘的选择浪潮 K1 Power 服务器支持使用NVME盘做为启动盘,图2中部的四个槽位就是NVME盘插槽,NVME盘做为服务器的启动盘属于首次采用,而且 NVME盘无法做RAID,与传统的启动盘有较大差异。我们最终选用了NV
7、ME盘做为启动盘,通过主机LVM来对磁盘进行高可用保护。使用NVME做为启动盘,也节约了PCIE4插槽。5、板卡位置调整从图3可以看出,每颗CPU对应着自己的槽位。我们对CPU进行了绑定,0、1号CPU绑定给数据库使用,2、3号CPU绑定给应用使用。因为数据库对IO要求最高,所以把HBA卡安装到在0、1号CPU对应的槽位中;把网卡安装到2、3号CPU对应的槽位中,经过实际的测试,经过调整后的最大性能可以提高3%左右。图3 E980系统拓扑图四、机器选型测试在购买机器前,进行了选型测试。主要目的是选择机器的配置以及对系统进行优化,发现隐藏的问题,这里主要介绍一下选择机型的依据。测试方法使用我们集
8、中交易系统,按照委托查询1:5的压力测试模型,对系统进行压力测试,应用和数据库部署在同一台机器上,CPU按照1:1进行了绑定,即一半的CPU绑定给数据库,一半的CPU绑定给应用。以数据库每秒执行的sql语句数做为性能衡量指标。从测试结果中,我们得到以下一些结论:1. 机器的性能和rPerf值正相关。2. 对于单柜服务器,44C服务器吞吐量大于32C3. CPU数量相同的情况下,E980机器略好与E950,符合机器的rPerf值对比4. 对于双柜的E980,64C服务器由于CPU过多,无法充分利用CPU,实际测试的时候,经常会出现kernel升高的现象。5. 性能最好的服务器是44C的E980五
9、、升级方案1、升级方案本次升级是对原有系统进行整体的替换,所以实施起来比较简单,按照原来的系统架构重新部署一份即可,然后进行数据迁移,系统切换。2、整体架构整体架构如图4所示。两地三中心的部署模式,适当利旧了部分Power8系列服务器。图4 部署架构图六、实施中遇到的问题及处理办法1、CPU绑定问题根据厂商专家的说法,POWER9 的CPU架构设计非常合理,使用中是不需要进行CPU绑定的,然而根据我们实际的测试结果,对CPU进行绑定是有利的。这里有个很重要的原因是当CPU数量过多时,不是CPU自己通讯有问题,而是应用对CPU的调度会出现问题。所以建议在实际使用时,至少要测试一下绑定的效果,然后
10、选择性能最好模式。2、 CPU运行主频低我们共有4台E950机器,其中三台的CPU主频为3.5GHz,一台机器主频为3.2GHz。都开启了最大性能模式,后来发现是HMC里面配置的参数不一样导致的。正确的参数如下:通过HMC,勾选E950,登录ASMI ,进入菜单Power Management-Tuning ParametersEnable/Disable workload optimized frequencyCurrent value:Enablenew value: Enable3、CPU线程数的选择根据厂商的说明,POWER9 CPU建议使用8线程。由于以前的服务器是使用的4线程,所以
11、对这个还是有疑虑的。从官方材料看,从AIX 7.2 TL3开始,SMT8是POWER9平台的默认设置,性能比SMT4有26%提升。我们经过实际测试,符合预期,所以最终选择了SMT8模式。4、AIX 版本选择对于AIX 版本选择,我们一般是按照最佳实践来选的,我们测试的第一个版本是7200-03-02,但在测试过程中发现了缺陷IV12633:J2GT THREAD PERFORMANCE ISSUES APPLIES TO AIX 7200-0319/05/10 PTF PECHANGE,该缺陷会导致CPUkernel使用率变高,该缺陷是在7200-03-03中被修复的,所以最后选择7200-0
12、3-03版本。5、LVM遇到存储故障时,IO中断时间过长我们在测试双存储LVMMirror的时候,发现当一个存储发生故障时,会产生IO中断,需要经过5分钟才能恢复正常。经过与实验室沟通,这个问题在aix 7.2TL3中就是这样设计的,当FC链路故障时(如link down),DiskDriver尝试LUN Reset,如果在限定时间内LUNReset不成功,则认为IO失败。如果LUN Reset等待时间过短,在高IO压力的情况下(同一个block在同一时刻发生多次写IO),发生FC路径切换时,有较低概率造成data loss/corruption。为保证数据完整性,AIX7200-03-03
13、中延长了 LUN resetretries的等待时间。在aix7.2 TL4中,增加了一个新参数,rw_max_time,最小可以设置为60,当发生单存储故障时,IO中断时间为60秒。且没有数据丢失风险。6、机器时钟不准在机器运行一段时间后,发现机器时间误差较大,咨询厂家得知,Power8以后的机器系统时间误差会比Power7以及以前的服务器大一些,这个是为了适应更高主频的总线导致的,一天偏差正负三秒以内属于正常现象。如果对系统时间准确性较为敏感,一般建议配置NTP。7、netstat -an输出显示错误在运行netstat -an的时候,输出会有“dropped due to memory
14、allocation failure”。经查,这是一个已知APAR,IJ16586-NETSTAT PRINTS SOME MESSAGES INCORRECTLY。安装对应补丁即可。七、实际使用效果及实践经验总结1、升级后的效果升级后系统CPU使用率大幅度下降,系统响应时间变快,吞吐量大幅提升。这里放了两张系统运行图,图5是P780的一天的CPU和IO使用情况,图6双E980一天的CPU和IO使用情况,这两天的业务量差不多。CPU的平均使用率从7.9%下降到2.%,CPU的最高使用率从63.3%下降到22.1%,可以说,通过硬件升级,现在系统完全可以满足性能要求。另外一个重要指标就是升级后,清算时间缩短了25%。图5 P780一天运行情况图6 E980一天运行情况2、实践经验总结在进行机器升级的时候,一定要对新机器有充分的了解,如果有条件的话,要进行充分的测试。就本次升级而已,测试起到了非常重要的作用,机器型号
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年南京城市职业学院单招职业倾向性测试题库及参考答案详解一套
- 2026年重庆公共运输职业学院单招职业技能考试题库带答案详解
- 2026年黑龙江冰雪体育职业学院单招综合素质考试题库及参考答案详解一套
- 2026年上海建桥学院单招职业适应性考试题库及参考答案详解
- 2026年甘肃林业职业技术学院单招职业技能考试题库及完整答案详解1套
- 2026年厦门安防科技职业学院单招职业适应性考试题库含答案详解
- 2026年浙江经济职业技术学院单招职业适应性测试题库及参考答案详解
- 2026年青海省玉树藏族自治州单招职业倾向性考试题库含答案详解
- 2026年杭州科技职业技术学院单招职业倾向性测试题库附答案详解
- 2026年山东外国语职业技术大学单招职业技能考试题库含答案详解
- 【新】国开2024年秋《经济法学》1234形考任务答案
- 2026届甘肃省兰州市一中生物高一第一学期期末检测模拟试题含解析
- 托福真题试卷含答案(2025年)
- TCECS10270-2023混凝土抑温抗裂防水剂
- 【语 文】第19课《大雁归来》课件 2025-2026学年统编版语文七年级上册
- 计算机网络施工工艺【实用文档】doc
- 广东省建筑施工项目安全生产标准化考评结果告知书
- 落地式钢管脚手架卸料平台施工方案39559
- 宝安区房屋临时使用(出租)人证明
- 《食品安全风险评估》课程教学大纲(本科)
- 陶瓷工艺中的釉料制备及应用
评论
0/150
提交评论