版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
并行数据库技术分析及未来展望Agenda并行数据库技术要点分析未来展望Paralleldatabasesystemseekstoimproveperformancethroughparallelizationofvariousoperationssuchasloadingdata,buildingindexes,andevaluatingqueriesbyusingmultipleCPUsandDisksinParallel.[1]MotivationParallelmachinesarebecomingquitecommonandaffordablePricesofmicroprocessors,memoryanddiskshavedroppedsharplyDatabasesaregrowingincreasinglylargelargevolumesoftransactiondataarecollectedandstoredforlateranalysis.multimediaobjectslikeimagesareincreasinglystoredindatabases并行数据库
ImprovesResponseTime.
INTERQUERYPARALLELISM
Itispossibletoprocessanumberoftransactionsinparallelwitheachother.
ImprovesThroughput.
INTRAQUERYPARALLELISMItispossibletoprocess‘sub-tasks’ofatransaction
inparallelwitheachother.并行数据库–目标(1)
Speed-UpAddingmoreresourcesresultsinproportionallylessrunningtimeforafixedamountofdata.10secondstoscanaDBof10,000recordsusing1CPU1secondtoscanaDBof10,000recordsusing10CPUs
Scale-Up(transaction/data)Ifresourcesareincreasedinproportiontoanincreaseindata/problemsize,theoveralltimeshouldremainconstant1secondtoscanaDBof1,000recordsusing1CPU
1secondtoscanaDBof10,000recordsusing10CPUs并行数据库–目标(2)Shared-MemoryandShared-DiskArchitecturesShared-Memory:allprocessorsshareacommonmainmemoryandsecondarymemoryLoadbalancingisrelativelyeasytoachieve,butsufferfrommemoryandbuscontentionShared-Disk:allprocessors,eachofwhichhasitsownlocalmainmemory,sharethedisks并行数据库-体系结构(1)Shared-NothingArchitectureEachprocessorhasitsownlocalmainmemoryanddisksLoadbalancingbecomesdifficult并行数据库-体系结构(2)Shared-SomethingArchitectureAmixtureofshared-memoryandshared-nothingarchitecturesEachnodeisashared-memoryarchitectureconnectedtoaninterconnectionnetworkalashared-nothingarchitecture并行数据库-体系结构(3)元数据管理查询分析和执行器分布式事务分布式锁并发控制副本数据同步并行数据库–功能模块Agenda架构特点技术要点分析未来展望2/5/2023111.ParallelDB/D.S.Jagli111.ParallelDB/D.S.Jagli技术要点–层次结构MasterServer:外部App访问入口集群元数据管理SQLParser生成执行计划和任务调度2/5/2023121.ParallelDB/D.S.Jagli12Range
HashRoundRobinA...EF...JK...NO...ST...ZA...EF...JK...NO...ST...ZA...EF...JK...NO...ST...ZGoodforequijoins,exact-matchqueries,andrangequeriesGoodforequijoins,exactmatchqueriesGoodtospreadload1.ParallelDB/D.S.Jagli技术要点–数据分区2/5/2023131.ParallelDB/D.S.Jagli131.ParallelDB/D.S.Jagli技术要点–存储和索引(1)列存储(columnstore)数据按列存储,每一列单独存放只访问查询涉及的列,大量降低I/O数据类型一致,方便压缩数据包建索引,数据即索引行存储(rowstore)数据是按行存储的 没有索引的查询使用大量I/O建立索引和物化视图需要花费大量时间和资源面对查询的需求,数据库必须被大量膨胀才能满足性能要求。技术要点–存储和索引(2)混合存储(hybridstore)在大尺度上数据是按行存储,在小尺度上数据是按列存储在大尺度上以行作为任务切分,在小尺度上以列进行I/O优化技术要点–存储和索引(3)模糊索引精确索引
B+树
LSM
COLA3.列存索引(Projection)
技术要点–查询引擎技术要点–分布式事务(1)技术要点–分布式事务(2)技术要点–任务调度与资源管理技术要点–高可用技术要点–集群扩展数据库对一致性的天然要求数据库元数据管理数据分布的再平衡技术要点–备份和灾难恢复在线增量备份。支持HDFS作为备份存储介质,HDFS上的备份数据可通过Hadoop平台直接进行分析。以异地灾备替代常规备份操作。异地数据中心之间实现同步/异步操作。备份和恢复两个过程,以及异地灾备中的主从集群可实现异构恢复。技术要点–SSD应用场景数据量大,热点数据无法全部在缓存中。用户访问I/O量大,造成系统响应慢系统整体压力低,QPS值无法提高系统切换后,预热时间长等于故障Agenda并行数据库技术要点分析未来展望未来展望–并行数据库在大数据基础设置中的定位(1)适应已有的数据库生态,平滑替代无法跟上快速增长的数据量的传统EDW,连接BI工具。EDW工具的复杂性和对复杂SQL的支持程度,超过了目前Hadoop的能力。IngestLandingandAnalyticsSandboxZoneIndexes,facetsHive/HBaseColStoresDocumentsInVarietyofFormatsAnalyticsMapReduceIngestionandReal-timeAnalyticZoneDataSinksFilter,TransformIngestCorrelate,ClassifyExtract,AnnotateWarehousingZoneEnterpriseWarehouseDataMartsQueryEnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearchAnalyticsandReportingZoneMetadataandGovernanceZoneConnectors未来展望–并行数据库与Hadoop未来展望–并行数据库与Hadoop集成(SQL-on-HadoopGoogle,Mega,Spanner和F1向我们展现了跨数据中心数据库的可能。Cloudera开源了大数据查询分析引擎。ImpalaHortonworks开源了StingerFackbook开源了Presto类似Pregel,UCBerkeleyAMPLAB实验室开发了Spark图计算框架,并以Spark为核心开源了大数据查询分析引擎Shark。EMC的PivotalHAWQHadapt的HybridStorageEngine未来展望–并行数据库与Hadoop集成(Connector)未来展望–并行数据库与Hadoop集成(Hybrid)未来展望–IT基础设施的变化新的IT基础设置,如企业云环境,一体机,存储平台SDS(SoftwareDefineStorage)都解决了传统MPP数据库中的存储高可用问题。新一代的MPP数据库,将不再需要在MPP内部进行存储层副本的管理和高可用机制,这将极大简化MPP实现的复杂度。MPP数据库将更倾向于具有事务能力的SQLSuperComputer,以及通过对存储层的适配,达到最高性能。
Figure5.Tenant-relatedfactorsandhowtheyaffect“
isolatedversusshared"dataarchitecturedecisions未来展望–IT基础设施的变化(多租户)未来展望–并行数据库技术的发展实现跨不同地理位置数据中心数据库。例如,Google的Mega加强数据库内部的资源管理机制和任务的优先级调用实现完整的事务和并发控制能力。扩展支持应用类型的范围,逐渐模糊NOSQL与SQL的不同。例如,Vertica中的FlexEngine支持类似MongoDB可动态调整的基于非循环有向图的具有容错
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年村级水管员职业道德题库
- 2026年制造业技术支持工程师招聘面试题集
- 2026年初中物理教师招聘面试实验题攻略
- 2026年体育竞赛中的兴奋剂预防与控制
- 2026年乡镇环卫工人录用考试环卫作业扬尘控制措施题
- 2026年环境监测与治理技术考试题
- 2026年教育行业教师培训题库
- 2026年财政暂付款项及清理规范测试题
- 2026年工会送清凉活动组织规范及防暑降温措施监督试题
- 2026年汽车电池技术及维护知识
- 2025第二届卫生健康行业网络与数据安全技能大赛备赛试题库资料500题(含答案)
- 湖南省长沙市湖南师大附中教育集团2022-2023学年七下期中数学试题(原卷版)
- 《结肠癌病例讨论》课件
- 洞箫曲谱200首带目录
- 装载机司机专项培训课件
- DB41∕T 2540-2023 公路桥梁伸缩缝锚固区混凝土快速维修技术规程
- DB3607-T 012-2024《三角梅园林种植与管护技术规程》
- GB/T 44585.1-2024风险管理在接入IT网络的医疗器械中的应用第1部分:联网医疗器械或健康软件在其实施和使用中的安全、有效性和网络安全
- PAS 2050:2011-商品和服务在生命周期内的温室气体排放评价规范(英文)
- 23J916-1 住宅排气道(一)
- 【基于西门子PLC的机械手控制系统设计12000字(论文)】
评论
0/150
提交评论