智慧医疗 城市医疗非结构化数据混合云服务平台建设方案V2_第1页
智慧医疗 城市医疗非结构化数据混合云服务平台建设方案V2_第2页
智慧医疗 城市医疗非结构化数据混合云服务平台建设方案V2_第3页
智慧医疗 城市医疗非结构化数据混合云服务平台建设方案V2_第4页
智慧医疗 城市医疗非结构化数据混合云服务平台建设方案V2_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

城市医疗非结构化数据混合

云服务平台建设方案文件编号202XQK011/BT-ZTA-QK011文件状态[]草稿[J]正式发布[]正在修改当前版本拟制日期审核日期目录TOC\o"1-5"\h\z\o"CurrentDocument"第一章项目背景 3\o"CurrentDocument"第二章需求分析 5\o"CurrentDocument"第三章解决方案 71.存储技术分析 7\o"CurrentDocument"3.1.1.块存储、文件存储、对象存储几种方式的对比 7\o"CurrentDocument"3.1.2.对象存储简介 143.1.3.对象存储选型对比 153.2.系统现状 18\o"CurrentDocument"3.3. IBMGPFS解决方案 19\o"CurrentDocument"3.3.1. GPFSServer集群 20\o"CurrentDocument"3.3.2.系统基本结构 21\o"CurrentDocument"3.3.3. GPFS系统优势 23\o"CurrentDocument"3.3.4.GPFS典型配置举例 25\o"CurrentDocument"3.4. IBMCleversafe对象存储解决方案 25\o"CurrentDocument"3.4.1. IBMCleversafe对象存储 25\o"CurrentDocument"3.4.2.IBMCleversafe对象存储与传统存储髙可用性对比 27\o"CurrentDocument"3.4.3. IBMCleversafe对象存储纠删(擦除)码技术 29\o"CurrentDocument"3.4.4. IBMCleversafe对象存储软硬件配置 31\o"CurrentDocument"3.4.5. IBMCleversafe对象存储扩容 34\o"CurrentDocument"3.4.6. Cleversafe对象存储实现PACS系统的灾备建设 355.大数据分析 36第四章总结 391.采用Cleversafe对象存储技术的新架构用户取得的收益错误!未定义书签。第一章项目背景医院是集医疗、教学、科研、预防为一体的现代化国家三级甲等综合医院。医院现有A、B、C三个主体院区,编制床位1500张,开放病床3000张。在领导班子的带领下,医院全面实施“数字化医院”建设,首创医疗质量管理信息系统、建立城乡协同医疗服务网络。医院作为某市的龙头医院,其整体业务呈现快速增长的态势,当前医院正在扩建新的住院病区,随着住院床位数的增加,医院的业务必然会有一个明显的增长,而医院的存储基础架构已经相对老化,其现有的EMC系列存储已经表现出性能瓶颈,医院当前的核心数据库存在性能不均衡的情况,如果要求应用软件开发商进行软件和数据库性能调优,可能需要花费大量人力物力,但却不能保证调优的效果。医院业务量的增涨带来了数据量的增张,PACS系统海量的非结构化数据安全高效的存储是目前亟需解决的问题,在做好非结构化数据存储的基础上,结合结构化数据存储与ApacheSpark数据分析处理引擎对接实现临床操作和研发两个方向的大数据分析,从而更好的服务于病人并且促进医疗行业从业人员专业技能的提升,实现数字化医院为全民健康奠定基础。综合比较不同的传统存储技术与云存储技术后,选择IBMGPFS+Cleversafe对象存储实现了PACS系统海量的非结构化数据的存储和容灾备份。医院综合各方面因素,提出了构建医院“大数据云存储”平台的建设目标。1) 构建一套安全、稳固的大数据云存储平台,集中统一承载医院所有业务数据;2) 为医院数据交换平台提供高性能、稳定可霏,并具有足够弹性的存储平台;3) 为PACS影像类数据提供大量低成本的存储空间并具有足够的扩展能力;4) 未来扩容应该可以基本做到不停机(停机时间在可接受范围内);5) 提高业务系统的可靠性和可用性,实现容灾备份,保障业务连续性。

第二章需求分析医院的核心业务系统是医院数据交换平台(包括PACS系统、HIS系统、RIS系统、LIS系统等)。HISttiaregistration审人借息patentmfonnabonEdREplAcnd诊喺笊吿report诊斷工作诂diagnosticworkstationreportreposforyV认Ofdermodsttftn

puc«dui«PACSimagesretrievedEB■存储imagestored图*17印HISttiaregistration审人借息patentmfonnabonEdREplAcnd诊喺笊吿report诊斷工作诂diagnosticworkstationreportreposforyV认Ofdermodsttftn

puc«dui«PACSimagesretrievedEB■存储imagestored图*17印printedBBlt呆■充成acquisitioncompleted图与归信Inuigvrnaoag^fundaictiive设■工件列衮"设备modabtyv/orikstrnodaMyBDK采玄凳成acquisitioncompiled该系统具有以下特点:负载特点:业务峰值在每日上午9点至笛点,并发用户的访问量要求高,每天不定时存在大数据量分析负载,但产生分析负载的用户数量不多。月末统计数据量增大,需要产生大量数据报表。数据特点:每天新增数据量500G,数据类型复杂,有数字、文字等结构化的数据占总数据量31%,还有大量的图像和影像等非结构化的数据占总数据量69%o系统痛点:医院数据交换平台用于汇总医院各类信息应用系统数据,子应用程序接口复杂,数据量大,需要保证业务科室的访问速度,对系统的稳定性要求极高。原有的NAS系统已经无法满足数据增量的要求,需要提供切实的解决方案,满足未来五年数据增长与业务发展的要求。随着数据量的增加,数据备份的周期在不断增加,已经影响到生产系统的业务响应时间,业务连续性无法得到保障,因此要求提高业务系统的可靠性和可用性,保障业务连续性。随着数据量的增加,新的存储设备不断上线,使运维人员的工作压力越来越大,因此要求解决方案需要降低运维管理的复杂度。第三章解决方案根据用户的需求我公司提出以下解决方案:POWER小型机釆用POWERVM虚拟化,X86服务器采用VMWARE虚拟化,采用IBMSVC对存储资源进行整合,实现存储资源池,提高存储管理和利用效率,满足核心应用系统在交易髙峰时段、日终、计息,年节时间段对主机资源和存储资源的需求,建设同城数据中心,两中心通过SVC的Hyperswap+MetroMirror实现双活,同时配置第三站点的硬盘级仲裁防止出现脑裂,采用IBM的云管平台实现POWER和X86虚拟资源的统一管理,把金融产品的查询,各种业务的咨询等没有任何保密性可言的系统迁到公有云平台。存储技术分析块存储、文件存储、对象存储几种方式的对比块存储块存储指在一个RAID(独立磁盘冗余阵列)集中,一个控制器加入一组磁盘驱动器,然后提供固定大小的RAID块作为LUN(逻辑单元号)的卷。接着块存储会采用映射的方式将这几个逻辑盘映射给主机,主机上面的操作系统会识别到有5块硬盘,但是操作系统是区分不出到底是逻辑还是物理的,它一概就认为只是5块裸的物理硬盘而已,跟直接拿一块物理硬盘挂载到操作系统没有区别的,至少操作系统感知上没有区别。具备优势:此种方式下,操作系统还需要对挂载的裸硬盘进行分区、格式化后,才能使用,与平常主机内置硬盘的方式完全无异。1) 这种方式的好处当然是因为通过了Raid与LVM等手段,对数据提供了保护。2) 另外也可以将多块廉价的硬盘组合起来,成为一个大容量的逻辑盘对外提供服务,提高了容量。3) 写入数据的时候,由于是多块磁盘组合出来的逻辑盘,所以几块磁盘可以并行写入的,提升了读写效率。4) 很多时候块存储釆用SAN架构组网,传输速率以及封装协议的原因,使得传输速度与读写速率得到提升。具有缺点:1) 采用SAN架构组网时,需要额外为主机购买光纤通道卡,还要买光纤交换机,造价成本高。2) 主机之间的数据无法共享,在服务器不做集群的情况下,块存储裸盘映射给主机,再格式化使用后,对于主机来说相当于本地盘,那么主机A的本地盘根本不能给主机B去使用,无法共享数据。3) 不利于不同操作系统主机间的数据共享:另外一个原因是因为操作系统使用不同的文件系统,格式化完之后,不同文件系统间的数据是共享不了的。例如一台装了WIN7/XP,文件系统是FAT32/NTFS,而Linux是EXT4,EXT4是无法识别NTFS的文件系统的。就像一只NTFS格式的U盘,插进Linux的笔记本,根本无法识别出来。所以不利于文件共享。文帏储为了克服块存储文件无法共享的问题,所以有了文件存储。文件存储也有软硬一体化的设备,但是其实普通拿一台服务器/笔记本,只要装上合适的操作系统与软件,就可以架设FTP与NFS服务了,架上该类服务之后的服务器,就是文件存储的一种了。主机A可以直接对文件存储进行文件的上传下载,与块存储不同,主机A是不需要再对文件存储进行格式化的,因为文件管理功能已经由文件存储自己搞定了。优点:1) 造价交低:随便一台机器就可以了,另外普通以太网就可以,根本不需要专用的SAN网络,所以造价低。2) 方便文件共享:例如主机A(WIN7,NTFS文件系统),主机B(Linux,EXT4文件系统),想互拷一部电影,本来不行。加了个主机C(NFS服务器),然后可以先A拷到C,再C拷到B就OKTo缺点:读写速率低,传输速率慢:以太网,上传下载速度较慢,另外所有读写都要1台服务器里面的硬盘来承担,相比起磁盘阵列动不动就几十上百块硬盘同时读写,速率慢了许多。企业级的NAS存储采用RAID技术提升了数据的可靠性和读写

速率,同时采用万兆光纤接口提升了网络传输速率,适合于中小规模的医院用于PACS系统非结构化数据的存取,当数据量达到PB级别时NAS机头会出现瓶颈。下图是块存储与文件存储的对比图:Application

ServerApplication

ServerApplication

ServerApplication

ServerFileSystemRAIDRAID□□FileSystemRAIDRAID□□Ethernet•jSwitchesFileSystemRAIDFileSystemRAIDBe对象存储内置大容量硬盘的分布式服务器是对象存储的典型设备,对象存储最常用的方案,就是多台服务器内置大容量硬盘,再装上对象存储软件,然后再额外配置几台服务作为管理节点,安装上对象存储管理软件。管理节点可以管理其他服务器对外提供读写访问功能。之所以出现了对象存储这种东西,是为了克服块存储与文件存储各自的缺点,发扬它俩各自的优点。简单来说块存储读写快,不利于共享,文件存储读写慢,利于共享。能否实现即读写快又利于共享的目的呢?于是就有了对象存储。首先,一个文件包含了属性(术语叫metadata,元数据,例如该文件的大小、修改时间、存储路径等)以及内容(以下简称数据)。以往像FAT32这种文件系统,是直接将一份文件的数据与metadata一起存储的,存储过程先将文件按照文件系统的最小块大小来打散(如4M的文件,假设文件系统要求一个块4K,那么就将文件打散成为1000个小块),再写进硬盘里面,过程中没有区分数据/metadata的。而每个块最后会告知你下一个要读取的块的地址,然后一直这样顺序地按图索骥,最后完成整份文件的所有块的读取。这种情况下读写速率很慢,因为就算你有100个机械手臂在读写,但是由于你只有读取到第一个块,才能知道下一个块在哪里,其实相当于只能有1个机械手臂在实际工作。而对象存储则将元数据独立了出来,控制节点叫元数据服务器(服务器+对象存储管理软件),里面主要负责存储对象的属性(主要是对象的数据被打散存放到了那几台分布式服务器中的信息),而其他负责存储数据的分布式服务器叫做OSD,主要负责存储文件的数据部分。当用户访问对象,会先访问元数据服务器,元数据服务器只负责反馈对象存储在哪些OSD,假设反馈文件A存储在B、C、D三台OSD,那么用户就会再次直接访问3台OSD服务器去读取数据。这时候由于是3台OSD同时对外传输数据,所以传输的速度就加快了。当OSD服务器数量越多,这种读写速度的提升就越大,通过此种方式,实现了读写快的目的。另一方面,对象存储软件是有专门的文件系统的,所以OSD对外又相当于文件服务器,那么就不存在文件共享方面的困难了,也解决了文件共享方面的问题。所以对象存储的出现,很好地结合了块存储与文件存储的优点。为什么对象存储兼具块存储与文件存储的好处,还要使用块存储或文件存储呢?有一类应用是需要存储直接裸盘映射的,例如数据库。因为数据库需要存储裸盘映射给自己后,再根据自己的数据库文件系统来对裸盘进行格式化的,所以是不能够采用其他已经被格式化为某种文件系统的存储的。此类应用更适合使用块存储。对象存储的成本比起普通的文件存储还是较高,需要购买专门的对象存储软件以及大容量硬盘。如果对数据量要求不是海量,只是为了做文件共享的时候,直接用文件存储的形式好了,性价比高。3.1.2.对象存储简介对象存储的出现就是为解决了存储海量大数据的问题。比如存储万亿的视频、图片,照片等。比如进行海量的数据归档,数据备份等。对象存储可以存储海量非结构化数据,然后进行大数据分析。对象存储其釆用key-volume的扁平化存储架构设计,使用简单,调用API就能进行数据存储和读取。可以存储海量数据,这点传统存储和NAS就没辙。在海量数据场景中你只能选择对象存储。如果传

统SAN存储是跑车,NAS是货车,那么对象存储就是万亿吨海上集装箱大油轮。对象存储的定位-适合海■非结构化数据STRUCTURCOUMTAUCTUREORLfSWheredoesObjectStoragefit?STRUCTURCOUMTAUCTUREORLfS3.1.3.对象存储选型对比企业自行开发一套对象存储行不行。个人认为,专业的事情交给专业的团队去做是最好的,对象存储技术虽然不算高科技,很多开源软件也可以拿来借鉴,但是专业公司提供的对象存储产品除了能够满足稳定性、高效性、灵活性要求之外,更重要的其实是后期的产品技术支持。自研产品有一定的局限性,同时需要投入大量人力物力,有时候做出的对象存储产品在安全性,稳定性方面不一定能够完全满足生产的需求。如果公司想自研,得有相当层次的开发团队,对大规模并行系统,存储底层,网络,操作系统都有点经验的,并且后续有二次开发的思想准备,时间周期也不会太短,还要处理社区版本迭代和你自选分支的冲突或者渐行渐远的问题。Ceph“对象存储”Ceph并不是开源对象存储最好的选择,Ceph是个统一存储,有分布式块,文件,对象三种存储接口,比较全,这是它比较受关注的原因。单独来看底层的对象存储Rados,在开发者社区中口碑并不是很好,存在着诸多问题。如果是选择厂商的SDS方案,如果是基于Ceph做的(国内不少厂商),其实这个阶段成熟与否还不好说,毕竟这项目社区里参与者很多,时间也不长,所谓成熟也就是有一部分坑能填上吧。前面说的社区版本迭代跟不跟的问题也还是一样存在的。一个开源项目能不能生产使用很多时候并不取决于项目本身,同时使用者对于整个生产系统和开源项目的理解占了相当大比例。当然,也跟项目的阶段以及整个生态息息相关。就使用Ceph而言,如果是一些无害环境,基本上也不会发现啥问题。当只要是需要保证性能和可用性的情况下,用户通常都要经历长时间的运维和解决问题的磨练。特别是眼下Ceph迭代较快,问题解决方式有限,很多时候都要依赖开发者才能解决。当然,如果没碰到问题当然万事大吉。好一些的做法是在一些开发测试环境先使用某一个版本至少半年以上,尝试在保证一些性能以及数据可用性基础上运维。半年之后,自然会对这个问题有更深理解。我们如果把对象存储部署在一个相对快的局域网环境内,那么这个对象存储也就兼具了NAS的高速基因,这时,一个对象存储也就在某种程度上,可以演变为一个相对快速的存储,这也是为什么ceph可以兼具对象存储、块存储、文件存储的原因。当然,这种“变味”的对象存储也就不具备全国乃至全球分布式带来的超高可靠性了。32系统现状医院于五年前按分级存储的原则重新规划了PACS存储系统,PACS数据除了少部分PACS索引、日志数据外,绝大部分为医学影像图片数据。存储通常釆用三级模式:第一级为在线数据,保存最近半年的病人影像数据;第二级为近线数据,保存半年以上、2年以内的影像数据(PACS系统软件可以配置保存周期);第三级为离线数据,保存15年内的影像数据。同时,还有考虑异地容灾。对于一个三甲医院,PACS半年数据量约35T,1年数据量约为70T,因此:在线数据:35T近线数据:105T离线数据:1050To随着医院的业务量的增加,PACS系统的数据也在快速增涨,PACS系统的数据是图像或影像的非结构化数据,采用NAS存储方式,随着数据量的增涨NAS存储已经达到了性能的瓶颈,希望能找到一种更好的存储方式满足未来五年的数据存储和业务发展需求。采用IBMGPFS实现原有NAS系统中的数据到IBMCleversafe对象存储的迁移,最终实现PACS系统海量非结构化数据的对象存储,满足未来五年数据增长与业务发展的要求。3.3.IBMGPFS解决方案随着数据量的增加,通过NFS协议实现客户端节点对存储空间的共享访问的NAS解决方案出现了性能上的瓶颈,因此采用GPFS并行文件系统来实现客户端对存储空间的共享访问,这样对性能会有很大的提升。GPFS(GeneralParallelFileSystem,GPFS)是IBM公司第一个共享文件系统,起源于IBMSP系统上使用的虚拟共享磁盘技术(VSD)O作为这项技术的核心,GPFS是一个并行的磁盘文件系统,它保证在资源组内的所有节点可以并行访问整个文件系统;而且针对此文件系统的服务操作,可以同时安全地在使用此文件系统的多个节点上实现。GPFS允许客户共享文件,而这些文件可能分布在不同节点的不同硬盘上;它提供了许多标准的UNIX文件系统接口,允许应用不需修改或者重新编辑就可以在其上运行。3.3.1.GPFSServer幕¥从架构上GPFSServe「是底层通过网络连接识别了后端NAS存

储的服务器,在这些服务器上创建了GPFS集群,并构建了不同的GPFS文件系统,形成了统一的GPFS存储平台,可以为前端应用提供统一的并行共享的文件系统空间,实现数据的共享访问;因为GPFSServer统一为前端所有应用提供I/O数据访问,在设备选型上建议使用计算能力较好的UnixPower服务器,是因为GPFS与AIX操作系统的集成度相比较对其他系统平台更好,同时也可以充分利用Power小机的计算能力。3.3.2.系统基本结构Server1ServerNServer1ServerN将GPFS磁盘设备挂载到集群中节点的文件系咗中GPFS文件设备GPFSFilesystemdeviceGPFS文件设备GPFSFilesystemdevice磁盘GPFS文件系统最底层的是物理磁盘设备。原则上可以采用系统上任何块设备,包括磁盘,磁盘分区,逻辑卷。从物理连接上来看,GPFS支持使用所有方式连接的磁盘。包括本地IDE磁盘,本地SCSI磁盘,光纤SAN磁盘,iSCSI磁盘,等等。网络共享磁盘(NSD)NSD是由磁盘映射出来的虚拟设备,NSD与磁盘是一一对应的关系。NSD被标记了不同属性来区分其用途,我们可以将磁盘标记为4种用途:DescOnly:只存储GPFS文件系统描述信息的磁盘。ataOnly:只存储文件系统中的数据信息。Metadataonly:只存储文件系统中的目录结构inode信息。Metaanddata:存储所有信息(默认)。3323GPFS文件设备GPFS设备是一个可被系统挂载的文件设备,由NSD创建而成,可以并行的同时挂载在多个节点上。GPFS系统优势高性能:GPFS允许在同一节点内的多进程或者应用使用标准文件系统调用,同时访问(并发,读写)同一个文件。通过将节点内读写操作分布到多个磁盘上,大大增加了文件系统的带宽,通过整个系统的负载均衡避免了某个磁盘过大的读写。跨平台设计:GPFS支持在一个集群内加入异构的平台,支持异构的硬件环境:Systemp,Systemx,支持异构的操作系统:AlX.LinuXo数据一致性:GPFS通过一套复杂的信令管理机制提供数据一致性。通过这套机制允许任意节点通过各自独立的路径到达同一个文件。即使节点无法正常工作,GPFS也可以找到其它的路径。数据安全性:GPFS是一种日志文件系统,为不同节点建立各自独立的日志。日志中记录metadata的分布,一旦节点发生故障后,可以保证快速恢复数据。GPFS的fail-over功能通过规划,将数据分布到不同failuregroup内达到高可用性,减少单点故障的影响。为了保证数据可用性,GPFS在多个failuregroup内为每个数据实例做备份,即使创建文件系统时没有要求复制,GPFS也会自动在不同的failuregroup内复制恢复日志。系统可扩展性:通过GPFS,系统资源可以动态调整,可以在文件系统挂载情况下添加或者删除硬盘。系统处于相对空闲时,用户可以在已配置的硬盘上重新均衡文件系统以提高吞吐量。可以在不重新启动GPFS服务情况下添加新节点。管理简单:GPFS自动在各个节点间同步配置文件和文件系统信息,而且在同一个节点内,对GPFS的管理可以在任一个节点上进行。3.3.4.GPFS典型配置举例"j'« fciaw 安興取仟,円络展外) *知IMSystcsZ^lntelXcc^rocestor<2.5XHx133»kFSB. Kit«14GB)1.5VCOOMDIV1內存IP1<•300GB血2.5"SASBARrWO!•GleeEthernetPC:-BtardLlnui1B1ClusterSytteolanateoen!(CSI)KiCATMIS/W/JT$/WCP/THP4m>/1B4Directortervtr1W节AIMSy«te. ~2«tntelXM)ProceB«ar<X?Or1333MXFSB.1€CBKit(4x«B)1.5VDOOIM^JOOGB1QK SASBAtMO1>GigBthemctFG・IcardWith2•筋bHUCardLlnmIMGeneralP«rall«lFlleSystm<CPFS)eerwrversion3INIClutttr$)r*tc»lonuenent(CSB/xCAT)client・!BfDirectorClient4衣AlIM0500"8GBPC主机整口SBdewithTGoLicerue48^300GBIX25"SASttft4涨1TB7.2K15"MLSAS**Unut/UtelHottKH.4・StoratePartiticrwIMStwclanxcoentGFTSfvp^ort4IPIMW2个24口千Jttt卯交襪机FJTMKM?2ftOTSUcete^^SerwWCllintRltlUew,眉・対以一Hurter,>少鬲W—itCPfSServer®干和GPFSnicntCffSServerlOCHenttfWW力单仪.«Rlt较身.T0PW/Corw.采用IBMGPFS的AFM功能,可以有效迁移原有NAS系统中存储的数据,在迁移过程中对应用透明,不影响应用的正常运行。3.4.IBMCleversafe对象存储解决方案根据医院PACS系统现在存在的问题和建设目标,采用IBMCleversafe对象存储技术实现海量的非结构化数据的存储和容灾备份。3.4.1.IBMCleversafe对象存储IBMCleversafe对象存储由三部分组成,包括CSManager管

理节点、Accesser访问节点和Silcestor存储节点,其中管理节点安装Cleversafe软件实现对Cleversafe对象存储系统的监控和管理,访问节点提供对外的用户访问,存储节点用于代替原有的NAS系统保存海量的数据。CSManager・切片r健CSManager・切片r健■8畑彩畑・f:曲淀价・审址切片Slice$torx・續时蹲•IA''A-■怜昨神■件*aenIBMCleversafe具有以下特性:IBMCloudObjectStorage.5.可扩議性安却可S9tt可用性・多家100PB以上・*斥蝕•wmRumr・勺可H性・,瞬*制.的宮户■运丽毀别W25PBtt*-6个HMS80%・rmsEBo上的-内童・欢件解决方弼・巧旨泅间在代何畑同的x86*n±«t71)可扩展性,多家100PB以上的客户,扩展至EB以上的无共享架构。2)安全性,零接触、运营商级别的安全性且内置加密功能。3) 可管理性,每名管理员可管理25PB数据,零宕机时间。4) 可用性,提供9个9的可靠性,6个9的可用性。5) 经济效益,消除复制、镜像和DR成本,成本降低80%,软件解决方案可在任何供应商的x86硬件上运行。3.4.2.IBMCleversafe对象存储与传统存储高可用T刪比采用传统的存储在RAID6架构下1PB的原始数据要占用1.2PB的存储空间,为了实现数据安全做本地镜像和同城复本后数据要占用3.6PB(1.2*3)的存储空间,那么膨胀因子就是3倍,采用IBMCIeversafe对象存储1PB的原始数据要占用1.7PB的存储空间,Cleversafe对象存储使用1.7倍的膨胀因子就可以实现建设与RAID6相同或是还要高可靠的存储系统,Cleversafe对象存储占用更少的磁盘,占用更少的机架,节约机房空间,降低了运营成本,降低了运维管理的难度,无需其它软件就可以实现高可靠性和高可用性。3.4.3.IBMCleversafe对象存储纠删(擦除)码技术Cleversafe软件加密、应用值患舅敵■法IDA(即搀除码)对数幄切片5鸟分布在他中以蚯于环帧位M行业Mx86昨之中.Cleversafe软件加密、应用值患舅敵■法IDA(即搀除码)对数幄切片5鸟分布在他中以蚯于环帧位M行业Mx86昨之中.Sra»r.要疳c苻建义的切片子q.与RAID和變制方法不同・无需副本・自带容灾Splitafileintokpieces(7)IDA=7/12Encodethepieceston(12)IDA=7/12AnykofnpiecescanbeusedtogetbackthefileIBMCleversafe对象存储使用纠删码技术实现存储系统的高可靠和高可用,纠删码技术首先对原始数据进行分段(每段4M),之后对一个分段进行切片,例如一个分段切7片,之后通过ECC校验算法变换为12片,这样膨胀因子就是1.7,1PB的原始数据就占用了1.7PB的存储空间,这1.7PB的存储空间由12个切片组成,把这12个切片均匀的部署在多个站点的每一台服务器中,例如在三个站点每个站点部署4台服务器,这样在这三个站点中只要有7台服务器是正常运行的,数据就是完好的可以正常读取,可以避免服务器硬件故障或断电,网络故障,甚至1个站点故障都不会影响数据的可靠性和可用性,任何一个站点的任意一台服务器硬盘损坏后,只需插入一块新硬盘而无需做RAID就可以正常使用了。可借助可借助12个切片中的任何7个执行读取操作写入时创建的切片效■称为夷度(此处为12)读取时能要的切片《(■称为读取阈值(业处为7)该示例为-12个”tSMttM法(IDA)中的7个在该IDA在该IDA中,仍可借助任何5个无效的存储节点执行读取。即使整个站点中断(外加另一个存储节点中断)也无影响.IBMCleversafe对象存储软硬件配置CSManager管理节点和Accesser访问节点可以选用1U或是2U的X86服务器,配置大内存如128GB,256GB,对其它硬件没有特殊要求。Silcestor存储节点服务器可以选用4U高密度x86服务器,该服务器满配48块硬盘,每块硬盘配置8Tb,这样一台服务器的裸容量就是384Tb,12台服务器可以提供4.5Pb的裸容量,冗余系数是1.7,那么可用容量有2.6Pbo下图是硬件配置建议清单:入M 可用/・窖・IM1飙节点1UX86服务魁1NA1NA1NA2访节点(Accessor)1UX86眼务鵲2NA3NA3NA3点⑸逛變)务鶉3(12*4TB)72TB/144TB6(12*10TB)520TB/720TB12(48*8TB)2.6PB/4.5PB4网猜交换机电□x2♦10GEX162NA2NA2NAS磧件负戏均代设笛F5或司尊功能设备1NA1NA1NA下图是Cleversafe的管理界面:^deversofef鳌视卑・安全性|维护tspHelp|SignOutQ GOSurwnary IC*pec«yOoptaiOOomAI“go,4 csMeuar^gerLVkjMMil Dtvtotd$N«tCapacitySwngtF⑴AOMtP00ll(2)| g(2)Dtvk«t(2D(Aaasser?D*roMIt$KM90f€Dmm41VM 叶血 35.65TB5MJTB 571MTBgiW 心*3 心*3 加3°>2AansPoaH CmAcwmW2Sfl»4Qbrtts G>witUb<MOpenInddiHtB(1)Sits:Chicaao.OCICibtnttCortSitHtortDrrict:cscN^s^pOe@ApOMTM)^*to«pQ«VOrhMtM 201$0«-»1»38O1COT基于Web的访问 莎黑譎通过Cleversafe管理界面可以实现对Accesser访问节点和Silcestor存储节点的运行状态进行监控和维护管理。IBMCleversafe对象存储扩容当用户的访问量很大时无需关心存储节点,只需关心访问节点就可以了,增加访问节点的数量就可以提升用户的访问速度。当存储节点的容量不足时,去除购买并加电服务器的时间只需要十几分钟就可以实现存储的扩容。访问Cleversafe对象存储有如下三种方式:访问方式-RESTfulAPI-TCP/IP•Objects可UUKLSm式.・RESTAPIs®用HTTP呦议对対仙厅出作Create・Tur.Read・"GeC.Update*■*PUT*,Ddeie・.DELETE.-Objects®|yjfi?Econtainer* (艾叫ASbucke诚fiv.uh)-名劇倆ttfprefixes-用于HUQ文件夹炳构-写入JK気:'PUThnpV/servername/containername/prefix/filename*-读IGmK'GEThttp//$efvername/contamername/prefix/fitename'■在对箴存筒系妮中哥个沏lUrc—NItTOURL-http$V/dalO5objectstorage.softlayernet/vl/AUTH7c79cb0262/example/Smiley.pdfAmazonS3OpenStackSwiftSimpleObjectAmazonS3OpenStackSwiftSimpleObject兼容三种主流API格式3.4.6.Cleversafe对象存储实现PACS系统的灾备建设灾备建设正是Cleversafe的强项所在,对比传统存储,因为纠删码的算法,从而无需副本、RAID方式,就能够在配置合理的情况下,允许对应40%的节点失效,这40%的节点数会大于我一个站点所包含的节点,这样的失效场景也不会影响业务系统的正常工作。同时,可以做到纠删码算法后的切片能够分发到异地,因此Cleversafe如果多站点的部署情况下,不需要做任何数据同步备份即可实现灾备系统的建设,(多站点的部署可以根据医院的实际情况选择是同城多站点还是异地多站点的部署)灾备架构图如下:上海上海3.5.大数据分析医疗行业大数据分析包括临床操作和研发两个大方向,临床操作包括医疗数据的透明度、远程病人监控、临床决策支持系统,比较效果研究等;研究方面包括预测建模、疾病模式的分析和提高临床试验设计的统计工具和算法等。本方案在做好非结构化数据存储的基础上,结合结构化数据存储与ApacheSpark数据分析处理引擎对接实现临床操作和研发两个方向的大数据分析,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载,Spar

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论