大数据时代存储系统若干变化的思考-中国大数据技术大会_第1页
大数据时代存储系统若干变化的思考-中国大数据技术大会_第2页
大数据时代存储系统若干变化的思考-中国大数据技术大会_第3页
大数据时代存储系统若干变化的思考-中国大数据技术大会_第4页
大数据时代存储系统若干变化的思考-中国大数据技术大会_第5页
已阅读5页,还剩126页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

舒继武清华大学计算机系shujw@/~jiwu-shu/主要内容 势势VolumeVolumeVelocity大容量高变化 4VVarietyVeracity多样性高价值Source:IDC2012,IDC2014.存统面临严峻挑战存计算密集型负载>数据密集型负载:如何支持越来越高的数据存储和处理需求?如如何构建面向大数据的高效率存储系统?固态盘和持久性内存等应用越来越广:如何高效地发挥这些新型高速存储介质的优势?持久性持久性内文件系统进程通信操作系统(内核态)设备驱动S文件系统进程通信操作系统(内核态)设备驱动SSD硬件设备CPU网卡磁盘HDD应用程序(用户态)系统调用存存储通信计算n在计算机系统的三大基石(计算、存储、通信)中,唯有存储仍包含机械式部件操作n电子式存储器件-闪存/持久性内存-是计算机发展的趋势图片来源:FAST’10Tutorial6带宽(MB/s)延迟(ms)87654320y带宽(MB/s)延迟(ms)87654320yü带宽、延迟198519901995200020052010n能耗与体积局限性磁磁盘存储:5,000,000块图片来源:Storage-classmemory:thenextstoragesystemtechnology,IBMJournal30X20X1/1001/10030X20X1/1001/100n读写性能:带宽与延迟设备型号读带宽写带宽读延迟写延迟磁盘SeagateSavvio2.0002.000SATA态盘IntelX25-E0.0750.085PCIe固态盘FusionIOioDriveOctal6,0004,4000.0300.0305,000,0005,000,000块8,000个模块1+平方米主要内容 2.2系统软件的变革 五展望用闪存构建大数据存储的优势(1)2.2.n以目前广泛应用的闪存为例ü低延迟、高带宽、随机读写性能高:设备设备随机读随机写读带宽写带宽Fusion-IOioDrive2480KIOPS490KIOPS3GB/s2.5GB/sSamsung840100KIOPS78KIOPS540MB/s450MB/sSeagateBarracuda52IOPS47IOPS156MB/s156MB/sü成本“优势”RMBRMB/IOPS0.015Samsung840SeagateBarracudaRMB/GB5.860.26容量256GBTB用闪存构建大数据存储的优势(2)2.2.n以目前广泛应用的闪存为例ü可靠性高:HDDMTTF=500KHours.SSDMTTF=2MHours.source:SanDiskSSD:AMoreReliableAlternativetotheLaptopHDD,2007用闪存构建大数据存储的优势(3)2.2.n用于大数据存储的闪存与HDD的综合对比DRAMPCMNANDFlashHDDReadEnergyWriteEnergy0.8J/GB6J/GBJGB65J/GB65J/GBIdlePower~100mW/GB~1mW/GBEndurance∞106-108104-105∞PageSize64B64B4KB512BReadLatency20-50ns(64B)~1-3us(4kB)~50ns(64B)~3us(4KB)~25us(4KB)~5ms(512B)~40ms(4KB)WriteLatency20-50ns(64B)~1-3us(4kB)~1us(64B)~64us(4KB)~500us(4KB)~5ms(512B)~40ms(4KB)EraseLatencyN/AN/A~2msN/ASource:“RethinkingDatabaseAlgorithmsforPhaseChangeMemory”,CIDR2011,Intel12l存储结构MBsü体积更小、耗电更低、发热更少(0.068wVS8.77w)l系统软件l分布式协议1:CORFU:ASharedLogDesignforFlashClusters.NSDI’12,Microsoft主要内容 2.2系统软件的变革 五展望2.1存储结构的变革(1)n闪存存储的分类Source:DesginTradeoffsforSSDPerformance.USENIX’08,UWM1.1.固态盘的形式限制了闪存优势的发挥,SATA接口成为存储速度的瓶颈。2.以文件系统为代表的系统软件,大多以磁盘为假设进行优化,较少考虑闪存特性,其优势难以得到充分发挥。3.在等待闪存读写时,不能利用主机空闲的计算和内存资源。2.1存储结构的变革(2)n闪存存储的分类力Source:SurveyonFlash-BasedStorageSystems.JCRD’13,2.1存储结构的变革(3)n闪存存储的分类基于传统存储阵列的演进式设计SSD>HDD优化的存储控制器基于全闪存阵列的革新式设计闪存芯片>HDD全新的阵列控制器2.1存储结构的变革(4)n闪存存储的分类FAWN1:从集群整体设计的角度考虑闪存与处理器的匹配,以降低整体低频率CPU普通CPU364query/J>>1.96query/JGordon2:发挥闪存芯片间的并发特性,匹配处理器和内存芯片的性能与能耗。已经应用到SanDiego超算中心:300TB容量,340Tfps1:FAWN:AFastArrayofWimpyNodes.SOSP’09,CMU2:Gordon:Usingflashmemorytobuildfast,power-efficientclustersfordata-intensiveapplications.ASPLOS’09,UCSD主要内容 2.2系统软件的变革 五展望2.2系统软件的变革(1)随着存储介质访问延迟的越来越低,软件开销所占比例越来越高。报告1指出,传统磁盘存储系统中,软件开销所占比例为0.3%,PCIe闪存卡系统中软件开销占21.9%,随着NVM的发展,预计软件开销比例将高达94.09%。1:Redrawingtheboundarybetweensoftwareandstorageforfastnon-volatilememories.[OL]2012-9-1,UCSD2.2系统软件的变革(2)n通知机制低访问延迟低访问延迟n存取路径频频繁中断上下文切换代价超过循环等待的代价ü在块设备层,基于磁盘的IO调度策略,并不适用于闪存的特性。ü在文件系统层,通过文件系统与闪存设备间的新软件接口,由闪存设再通知文件系统更新记录,减少了n软件接口üTRIM:提供了数据显示删除的语义。üatomic-write:提供原子写操作。üPTRIM:提供持久性删除语义。üEXIST:检查数据页存在性。n事务闪存接口üAtomicWrite/TxWrite事务接口21-FAST’13-FAST’14-FAST’15--FAST’13-FAST’14-FAST’15-DATE’14-Eurosys’14-FAST’16-ASPLOS’14-ATC’15-FAST’17-CODE’17-DATE’14l基于闪存的文件系统-FAST’10-FAST’12-FAST’16-ATC’16l基于闪存的事务管理-SOSP’09-HPCA’11-ICCD’13-TC’16l分布式闪存的研究-NSDI’12-SOSP’13-ICCD’13-IPDPS’14222.2系统软件的变革之文件系统(1)闪存介质的访问,呈现低延迟、读写不对称的特点,随机读写性能较硬盘提升很高。传统针对硬盘优化设计的软件系统直接用于闪存时,一方面带来了不必要的冗余功能,另一方面隐藏了闪存可能带来势。1.冗余工作:文件系统中从文件逻辑块到设备物理块的映射,与FTL中逻辑地址到物理地址的映射>双层映射2.语义缺失:设备不能理解数据页面间的关系,难以优化数据分布和感知文件系统的操作>数据删除3.特性缺失:闪存设备的异地更新与文件系统的原子性操作>两次写2.2系统软件的变革之文件系统(2)nSSD文件系统的潜在问题一:优化错配n文件系统对磁盘读写等优化并不适用于闪存存储n闪存在读写特性等方面与传统磁盘存在较大差异ü闪存的随机读性能较好,但随机写性能较差ü闪存的边界不对齐读写对性能影响较大ü……n传统的顺序写入方法也不完全适用n文件系统的写入还影响垃圾回收效率,以及闪存写入寿命n……文件系统缓存 ABC 2.2文件系统缓存 ABC nSSD文件系统的潜在问题二:功能冗余n文件系统的存储管理与FTL存储管理存在冗余ü地址映射关系的冗余ü空闲空间管理的冗余ü……命名空间存储管理SSSD2.2系统软件的变革之文件系统(4)nSSD文件系统的潜在问题三:维度缺失ü随着写入次数增加,闪存单元可靠性降低ü寿命次数:SLC(100,000)->MLC(10,000)->TLC(1,000)图片来源:TheBleakFutureofNANDFlashMemory,FAST’12n文件系统管理是否引入额外的数据量的写入?n如何控制文件系统自身的写入数据量?文件系统缓存文件系统缓存嵌入式系统SSD文件系统文件系统(命名空间+存储管理)嵌入式文件系统(命名空间+存储管理)读/写/擦除文件系统缓存文件系统缓存嵌入式系统SSD文件系统文件系统(命名空间+存储管理)嵌入式文件系统(命名空间+存储管理)读/写/擦除 友好的数据布局读/写SSSDn如何根据SSD特性设计适用于SSD的文件系统?文件系统缓存文件系统缓存嵌入式系统 SSD文件系统软件驱动级 文件系统缓存文件系统缓存嵌入式系统 SSD文件系统软件驱动级 读/写/擦除嵌入式文件系统(命名空间+存储管理)n如何利用FTL的功能以简化文件系统设计?文件系统(命名空间+存储管理)读/写SSSD简化的存储管理文简化的存储管理(命名空间+存储管理)读/写文件系统缓存文件系统缓存文件系统缓存嵌入式系统 SSD文件系统 闪存文件系统对象式文件系统命名空间(命名空间)对象接口文件系统(命名空间+文件系统缓存文件系统缓存文件系统缓存嵌入式系统 SSD文件系统 闪存文件系统对象式文件系统命名空间(命名空间)对象接口文件系统(命名空间+存储管理)对象式FTL裸闪存设备 芯片芯片芯片芯片 读/写/擦除n优化错配ReconFS(清华大学,FAST’14) n如何利用闪存特性设计新目录树管理?n维度缺失OFSS(清华大学,FAST’13) n如何在文件系统中考虑耐久性?n义隔离ParaFS(清华大学,ATC’16)n如何充分发挥闪存的内部并发特性?嵌入式文件系统(命名空间+存储管理)文件系统(命名空间+存储管理)读/写SSSD读/写/擦除读/写2.2系统软件的变革之文件系统(8)n大数据存储系统对闪存的使用寿命要求更高ü采用开放通道闪存可以有效提升闪存的使用寿命l使用寿命提升20%至6.7倍2.2系统软件的变革之文件系统(9)n大数据应用场景对存储性能的稳定性要求更高ü采用开放通道闪存可以更好地保证稳定的存储性能2.2系统软件的变革之KV数据库(1)nLOCS—基于裸闪存的KV数据库(Eurosys’14)ü数据库直接管理裸闪存,绕过文件系统ü并发感知的请求调度ü发挥设备的内部并发特性cKey2.2系统软件的变革之KV数据库(2)cKeynWiscKey—KeyValue分离存储的LSM-Tree(FAST’16)üLSM-tree的压缩操作会产生üKeyValue分隔存储。使用ü发挥闪存设备,随机读的性NVMKV2.2系统软件的变革之KV数据库(3)NVMKVnNVMKV—基于闪存扩展接口的KV缓存系统(ATC’15)ü闪存的FTL与KV存储系统存在着功ü通过扩展FTL的接口,将与FTL冗余2.2系统软件的变革之KV数据库(4)nFlashKV—基于开放通道闪存的KV系统(CODES+ISSS’17)ü减少KV存储系统、文件系统与闪存的FTL三者之间功能上的冗余,消ü利用KV系统和闪存的特性,优化了数据布局,提出了自适应的压缩策略、压缩感知的缓存算法和基于优主要内容 3.2持久性内存系统软件 五展望2017年双11天猫整体交易再创新高3.背景—大数据处理时效性越来越高2017年双11天猫整体交易再创新高双双11支付总数大幅增长数据来源:天猫-2017.11.12;每天超过30亿次搜索陈海波-CCFADL;Google371.Gartner’s“WeeklyMemoryPricingIndex,21December2012”,G002476282.Gartner’s“MarketGuideforIn-MemoryComputingTechnologies”,201538n内存代价的降低(每12个月降低32%1)n支持数据的近实时计算与分析内存计算技术市场的快速发展2(inillions数据来源:金海-2017云栖大会的PPT数据来源:金海-2017云栖大会的PPT3.背景—持久性内存带来巨大机遇ü零泄露功耗n非易失、高可靠性、抗振动ü掉电数据保持ü抵抗软错误与物理振动n能ü更大容量高性能片上存储ü更快的外存读写速度解决传统存储系统面临的挑战,新型存储器件提供了重要途径和机遇。在Gartner发布的2011年十大战略技术中,SCM是唯一位列其中的存储技术!3.背景传传统存储架构、软件及各层次都是针对传统器件设计的,难以发挥新型存储器件的特性;同时新型存储器件本身也有写性能和器件寿命等不足,这些都是需要解决的问题!413.背景—持久性内存器件研发进展nIntel&Micron:3DXpointn2017Q1:OptaneSSDDCP4800X(PCI-E3.0/NVMe)n2018年(预期):3DXPointDIMM板卡基于技术打造尔)处理器存储易失|持久性边界Load/Store处理器存储易失|持久性边界Load/Storen易失性-持久性边界的变化n对存储介质的利用方式发生变化ü文件?对象?MemoryManagement3.背景—持久性内存存储系统研究现状MemoryManagementApplicationApplicationdatastructure,…)持久性内存编程模型SOSP’09ASPLOS’11MSST’15ASPLOS’12ASPLOS’16MICRO’13MICRO’16ICCD’14Eurosys’17TOS’14ASPLOS’17持久性内存空间管理Eurosys’16-ASPLOS’17OOSPLA’16-ATC’17持久性内存文件系统SOSP’09-FAST’16SC’11-Eurosys’16Eurosys’14-MSST’16DATE主要内容 3.2持久性内存系统软件 五展望Source:AndyRudoff,Source:AndyRudoff,IntelCorporation.TheSNIANVMProgrammingModel:LatestDevelopmentsandChallenges.3.1n新型编程模型涉及的内容:ü软件访问硬件接口:以访问内存的方式访问NVM(cachecoherent).üInstructionSetArchitecture(ISA):Store操作数据需从CPUCache中刷出,全局可见性→数据持久化3.1持久性内存编程模型面临的挑战(2)3.1n新型编程模型涉及的内容:ü暴露给应用程序的方式:lSNIANVM编程模型(Block/File/Memory)lMemory-MappedFile:DirectAccess(DAX)ü编程复杂度:更安全、更不易出错、熟悉的编程范式(常见编程语3.1NVM才3.1NVM才riteback用lflushn新型编程模型面临的问题:ü程序执行空间的数据已经持久化,如何提供应用程序自管理的持久化的功能?ü需要确保程序数据在异常掉电和系统崩溃之后能够被正确地恢复,如何实现低开销的一致性机制?STORESTOREdata[0]=0xFOODSTOREdata[1]=0xBEEFSTOREvalid=1VVDD1Load/StoreDD1VVSNIANVMPAtlasIntel提供开源库组件包括:SNIANVMPAtlasIntel提供开源库组件包括:LibpmemobjLibpmemblkLibpmemlogLibpmemLibvmemmempoolatomic区分持久性和临时性数据HP开源__n存储层次变革,需要定义新的内存编程模型:ü基于单级持久性存储系统的非易失性编程接口l如:Mnemosyne[ASPLOS’11],NV-Heaps[ASPLOS’11],NVMLü新型编程模型的一致性开销的优化l如:Epoch[SOSP’09],WSP[ASPLOS’12],Kiln[MICRO’13],StrandConsistency[ISCA’14],LOC[ICCD’14],BPPM[MSST’15],EagerSync[ASPLOS’16],SyncOrdering/DelegatedOrdering[MICRO’16],DUDETM[ASPLOS’17],Kamino-TX[Eurosys’17]NNVML成成立时间:2012.6主导厂商:intel旨在定义新的内存访问模型定义软件的行为规范,不定义真正的APInelSTMCompilerfileVFSmmumappingsnelSTMCompilerfileVFSmmumappingsPM(regionmanager)PersistentMemoryn基于内存映射文件的持久性堆结构ü通过持久性内存文件系统(如PMFS、EXT4-DAX)和内存映射文件导出load/store访问接口lMnemosyne[ASPLOS’11]、NV-Heaps[ASPLOS’11]lNVMLibrary[Intel]ü提供持久化事务支持,保证数据的一致性ApApplicationsIOmmapmmapPMPM-awareFSbeginbegin_transaction();stm_store(&R.value,0xC0F);stm_store(&R.valid,1);commit_transaction();geAgeAgeAgeAheapo_malloc()heapo_free()LibarayHEAPO基于原生堆的持久性堆结构实现heapo_seg_free()Kernelheapo_seg_alloc()STT-MRAMRegion基于内存映射文件的持久性堆的实现libln基于原生堆(Nativeheap)的持久性堆结构ü内在进程虚拟地址空间中预留一段持久性堆空间l如:Heapo:基于堆的持久性对象存储[TOS’2014]DRAMDRAMRegionllibProcessADAFBCGFEDABCGDEFABCDBCDFFBCAFBCAAEEDEGACDBEDFACBFG3.1新型编程模型一致性机制优化DAFBCGFEDABCGDEFABCDBCDFFBCAFBCAAEEDEGACDBEDFACBFGn在内存级维护持久性数据结构带来一致性问题n持久性内存的一致性机制ü顺序性:处理器数据需要按照数据依赖关系顺序写回持久性内存ü持久性:处理器数据从L1、L2等多级易失性缓存中替换到持久性内存n一致性机制引起额外的性能开销例:Tx1:(A,B,C,D)->Tx2:(A,F)->Tx3:(B,C,E)->Tx4:(D,E,F,G)严格的顺序约束易严格的顺序约束EE持久性内存EEstence[ASPLOS’17]•Kamino-TX[Eurosys’17]•HOPS[ASPLOS’17]stence[ASPLOS’17]•Kamino-TX[Eurosys’17]•HOPS[ASPLOS’17]OrderingSupportCommitw/ocommitrecordn持久性内存的一致性机制优化ü维度:软件和硬件×降低持久化和降低顺序化开销l如:非易失CPU缓存、CPU硬件功能扩展、软件层放松一致性等•BPPM[MSST’15]•DUDETM•Mnemosyne(TornBit)[ASPLOS’11]•HOPS[ASPLOS’17]•Kiln[MICRO’13]•WSP[ASPLOS’12]•Epoch[SOSP’09]•StrandConsistency[ISCA’14]•LOC[ICCD’14]•EagerSync[ASPLOS’16]/SyncOrdering[MICRO’16]•DelegatedOrdering[MICRO’16]53通过RAMDISK模拟块设备的形式兼容传统文件系统fileVFSmmPagecacheBlockdeviceu3.2持久性内存文件系统(1)通过RAMDISK模拟块设备的形式兼容传统文件系统fileVFSmmPagecacheBlockdeviceu基基于持久性内存重新构建字节粒度的持久性文件系统fileIO3.2持久性内存文件系统(2)fileIOn通过RAMDISK模拟块设备兼容传统文件系统ü传统文件系统无需修改,可直接构建于以持久性内存模拟的üRAMDISK形式使得传统文件系统快速受益于内存级的数据持久化,ü不足:软件层的开销巨大,无法充分利用持久性存储介质优势VFSVFSNVMNVM3.2持久性内存文件系统(3)n改造传统的文件系统ü提升经过时间考验的(成熟)的传统文件系统性能[NVMW’17]l移除PageCache中同步数据更新:异步I/O隐藏pagecacheflush开销l将PageCache作为multi-versioning区域l优化文件系统一致性机制:轻量级的VFS层的元数据日志机制MeLo@VSource:HyunsubSong,etal."TransformingLegacyFileSystemsintoPersistentMemoryExploitingFileSystemswithMeLo@V.“NVMW201756mappings3.2持久性内存文件系统(4)mappingsn基于持久性内存重新构建字节粒度文件系统ü细粒度的数据访问ü融合内外存管理方式üNVM直写,避免双重拷贝和块层开销代表性工作:存文件系统BPFS[SOSP’09]2.融合虚拟内存管理技术的持久

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论