中科曙光基因数据分析及存储平台方案.docx_第1页
中科曙光基因数据分析及存储平台方案.docx_第2页
中科曙光基因数据分析及存储平台方案.docx_第3页
中科曙光基因数据分析及存储平台方案.docx_第4页
中科曙光基因数据分析及存储平台方案.docx_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因数据分析与存储平台建设方案目录1 平台建设需求分析31.1 平台组成31.2 系统应用分析42 系统方案设计72.1 系统配置表72.2 系统拓扑图102.3 系统方案说明113 系统技术参数123.1 总体指标123.2 刀片机箱123.3 计算刀片123.4 四路节点123.5 管理登录节点123.6 存储节点133.7 集群网络133.8 机柜配电133.9 集群软件133.10 系统集成实施与售后服务151 平台建设需求分析1.1 平台组成生物信息学研究平台可分为测序平台和分析平台两部分,测序平台以基因测序仪为核心,完成基因测序,获得原始数据;分析平台以高性能计算软硬件系统为核心,完成数据的分析处理,获得分析结果。其中,基因数据存储与分析平台即生物信息高性能计算系统通常包括: 计算子系统(刀片节点、胖计算节点、管理登陆节点) 存储子系统(在线存储系统、备份存储系统) 网络子系统(高速计算存储网络、低速管理网络) 管理调度系统(操作系统、集群管理系统、作业调度系统、KVM) 基础软件环境(编译器、数学库、并行环境等) 应用软件环境(生物信息平台软件、应用软件与基因组数据资源) 集群基础设施(机柜、配电系统) 机房环境(机房、制冷、监控、消防、隔音、供电等)1.2 系统应用分析生命科学做为21世纪最重要的科学分支之一,高性能计算在生命科学的研究和发展中起来非常重要的作用。由于测序技术的飞速发展,人类发现的基因序列数目按照指数级增长,那么对于如此数量庞大的基因进行同源性搜寻,比对,分析,遗传发育分析等等,往往伴随着巨大的数据处理量和并行计算量。同时,由于生命科学的研究对象往往是蛋白质和DNA的大分子,对这些分子的三维结构的预测,动力学特性、热力学特性、在生命过程中如何发生作用,这些科学问题也要借助于高性能计算机。所以高性能计算机在生命科学研究中,应用非常广泛,扮演着及其重要的角色。生物信息学研究平台应用包括测序仪离线处理、序列搜寻比对分析、质谱仪原始资料处理、分子对接(药物设计)、电子显微镜图象处理等等,其中最为主要的仍是测序仪离线处理和序列搜寻比对分析,也是基因数据存储与分析平台承担的主要任务。基因数据存储与分析平台应用的主要特点为:1.计算量大,序列比对等大部分任务在双路节点上可以获得较高的计算效率;2.序列拼接等部分应用需要大内存的节点,部分应用需要单节点1TB以上的内存;3.数据访问量巨大,对存储性能、容量要求高,数据增长速度非常快;4.开源软件众多,安装复杂,需要相应的基因组数据资源;5.部分应用的工作流程较为复杂,自动化较低。2 系统方案设计2.1 系统配置表方案思想:在当前预算下,结合平台应用的特点和对软硬件的需求,搭建符合应用特点的、满足使用需求、并且尽可能完整的基因组分析和存储平台。序号名称技术规格单位数量计算峰值(TFLOPS)存储容量(裸容量TB)功率(kw)高度(U)1硬件部分5.2992965.45171.1计算子系统刀片平台TC4600E5U机架式刀片机箱,可以支持10个计算刀片;管理模块,集成远程KVM和远程虚拟媒体;千兆网络交换模块,提供6个RJ45千兆接口和2个万兆上联接口;56Gb/s FDR IB网络模块,对外提供10个FDR IB接口;4*电源模块(冗余);台1-5计算刀片CB60-G202IntelXeonE5-2640v3 8核处理器(2.6GHz);128GBDDR42133MHz;1300G 2.5寸10000转SAS硬盘;156GbInfiniband端口;21000M以太网接口; 片53.3282.25-四路大内存节点I840-G254U机架式;4Intel Xeon E7-4850v3 14核处理器(2.2GHz);2TBDDR3 1600MHz内存;2GB Cache SAS RAID;2600GBSAS 10K热插拔硬盘;2千兆以太网接口;156Gb InfinibandHCA卡;冗余电源;上架导轨;台11.97121.24管理登录节点I620-G202U机架式;2IntelXeonE5-2620v3 6核处理器(2.4GHz);48GBDDR42133MHz内存;2300G 2.5寸10000转SAS硬盘;21000M以太网接口;156Gb InfinibandHCA卡;冗余电源;上架导轨;台1-0.421.2存储子系统存储节点I640-G154U机架式存储,24盘位,2颗处理器,32GB内存,2*300G 10K SAS系统盘,配置24块4TB SATA数据硬盘,提供96TB存储裸容量;对外配置2个千兆网口、1个FDR IB网口。台196141.3网络子系统计算网络FDR IB 交换机36口FDR Infiniband交换机台10.41IB线缆3米FDR Infiniband线缆条8管理网络 24口千兆交换机 24 个 10/100/1000BASE-T (RJ45)台1-0.211.4机柜子系统机柜系统曙光C200标配2个PDU、双侧门,温湿度监控。个1-2软件部分操作系统LinuxCentOS 用户指定版本套1-集群管理与作业调度系统GridviewGridview HPC版集群管理与作业调度系统;集群自动部署工具、运维管理软件、在线运维软件与服务、计费软件模块;套1-应用开发环境编译器GNU编译器,支持C/C+Fortran77/90Intel 编译器,支持C/C+ Fortran套1-数学库MKL,BLAS、LAPACK、ScaLAPACK、FFTW套1-MPI并行环境OpenMPI(支持Infiniband和以太网的MPI环境)套1-MPICH2(支持千兆以太网的MPI环境)套1-应用软件与数据环境基因组数据与软件提供常用生物信息软件安装与基因组数据资源套1-2.2 系统拓扑图2.3 系统方案说明l 系统配置Intel 2600v3与4800v3 CPU,刀片节点80个计算核心、胖节点56个计算核心,双精度浮点峰值 5.2992万亿次;l 配置1台2TB大内存节点与5台128GB双路节点;l 配置1台FDR IB接口的存储节点,提供96TB存储裸容量;l 配置FDR IB计算存储网络和千兆以太网管理网络;l 系统配置一套Gridview集群管理软件,提供管理、监控、告警和作业调度等功能,方便集群使用和管理;l 提供生物信息应用程序运行所必需的常用编译器、数学库等基础软件环境的安装调试服务,保证应用程序的稳定、高效运行;l 提供生物信息应用软件平台,部署行业应用软件和基因组数据资源;l 软硬件3年质保与售后服务,提供对生物信息分析的应用支持。3 系统技术参数3.1 总体指标提供完整的基因数据存储与分析软硬件平台,包含计算、存储、网络、集群管理与作业调度软件、应用开发环境、运维管理软件、应用软件系统、基础基因组数据资源以及机柜配电等基础设施。3.2 刀片机箱1. 机架式刀片机箱,高度5U,支持10个双路计算刀片2. 配置支持N+1或N+N冗余热拔插的电源和风扇模块;3. 配置以太网交换模块,对外提供6个千兆端口和2个万兆上联端口;4. 配置IB网络直通模块,对外提供10个FDR IB接口;5. 配置管理模块,可实现远程虚拟介质、远程 KVM、刀片状态、故障定位、开关机等全方位管理控制监视功能。3.3 计算刀片提供5个双路计算刀片,每节点配置2颗E5-2640v3 8核 2.6GHz处理器,128GB DDR4 2133内存,1块 300GB 10K 2.5英寸热插拔SAS硬盘,2个千兆以太网端口,1个FDR IB端口。3.4 四路节点4U机架式四路服务器系统,配置4颗E7-4850v3 14核 2.2GHz处理器;支持96个内存插槽,配置2TB DDR3 1600或以上内存;24个2.5寸SATA/SAS/SSD硬盘,2G Cache SAS RAID,配置2块 600GB 2.5英寸10K SAS硬盘;支持11个PCI-E扩展槽,配置2个万兆以太网口,1个FDR IB端口;配置4个电源模块(可实现N+N或N+1冗余),上架导轨。3.5 管理登录节点2U机架式服务器,配置2颗Intel Xeon E5-2620v3 6核处理器 (2.4GHz),32GB DDR4 2133MHz内存;2300G 2.5寸10000转SAS硬盘;21000M以太网接口;156Gb Infiniband HCA卡;1+1冗余电源;上架导轨。3.6 存储节点4U机架式存储,24盘位,2颗处理器,32GB内存,2*300G 10K SAS内置系统盘,配置24块4TB SATA数据硬盘,提供96TB存储裸容量;对外配置2个千兆网口、1个FDR IB网口。3.7 集群网络提供1台36口FDR IB交换机、至少8条FDR IB线缆;提供1台24口千兆以太网交换机及相应千兆电缆。3.8 机柜配电提供1套42U 19寸标准机柜,采用铝镁合金型材框架,机柜自带温湿度液监控显示功能;机柜配置2个PDU,每PDU含12位32A C19插口、15位32A C13 插口,3个32A单相空开。3.9 集群软件1. 提供1套商业版集群管理软件(具备软件著作权证书),至少包含以下软件模块:集群管理系统、作业调度系统、计费系统、集群自动部署工具、运维管理工具;集群管理与作业调度系统需为商业版成熟软件,提供在国内1000节点规模以上实际使用的证明文件;2. 提供集群基础软件环境,包括:GNU 编译器,支持C/C+ Fortran77/90;Intel 编译器,支持C/C+ Fortran;数学库,包括但不限于MKL,BLAS、LAPACK、ScaLAPACK、FFTWMPI并行环境:OpenMPI、MPICH23. 部署在线运维管理软件并可提供在线运维服务;4. 部署生物信息平台软件、行业应用软件与基因组数据资源,提供最新生物信息分析应用软件包。附件:生物信息软件资源列表SoftwareTypeVersiontophatRNA-seqv2.0.9bowtie2RNA-seq2.1.0.0cufflinksRNA-seq2.1.1DEGseqR packageRNA-seqLatestDEseqR packageRNA-seqLatestsamtoolsRNA-seq0.1.19.0vcftoolsRNA-seqLatestpicardRNA-seqRseQCRNA-seqLatesthtseqRNA-seqLatesttrinityassembleLatestcap3assembleLatestcdhitassembleLatestALLPATHS-LGassembleLatestIDBAassembleLatestncbi-blastmapping2.2.26wu-blastmappingblatmappingLatestDjangoLatestabyssassembleLatestbwamappingLatestGEMmappingLatestGSNAPmappingLatestGATKmappingLatestCASAVAbase callingLatestFastQCQCLatestembosstoolkitLatestRepeatMaskertoolkitLatestAngsdSNP CallingLatestExoneratemappingLatestGbrowsertoolkitLatestjellyfishtoolkitLatestsnpEfftoolkitLatestTrimmomaticQCLatestgplotsRNA-seqLatestbedtoolsmappingLatestbedopsmappingLatestMaSuRCAassembleLatestNewblerassemble2.7TGICLLatestsoap.coverageLatestMummermappingLatestHmmermappingLatestRapSearchmappingLatestFastx-toolkittoolkitLatestedgeRR packageRNA-seqLatestmememappingLatestOasesassembleLatesttra

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论