




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据数据库及其分类胡经国本文根据有关文献和资料编写而成,供读者参考。本文在篇章结构、内容 和文字上对原文献作了一些修改和补充,并且添加了一些小标题,特此说明。一、大数据生态1大数据生态的概念大数据生态圈技术,或称大数据技术生态圈,简称大数据生态( Big Data Ecology),由多领域、众多的大数据技术构成。详见大数据全景图,其通称大 数据(产业)生态图(Big Data Landscape。下图为大数据全景图 3.0版(Big Data Landscape Version 3.0)。虽然大数据行业在不断发生巨变,然而目前这 张图应该还算是比较新的。DIG DATAlANO5CA?r,
2、 VERSION 3.0汎叫耳忡r臺kt ? d4 »±j .h.1fiscal .lihriWSg B 庄!iljt.« AcumiEJ'M*'taMkMfli*tt再1 J''i/Laiptm iU:I H cw TftfAML h *<hrwhi*i "irifWVitKfi2" 口门-teirH.*1 * fc<"CVM* 3 G:&Mhi甲十< w!*»i*. Inch ' i :<fi/fh>A LA" iKt - s
3、9;I " if知阳如*f 3耐工 4w«»4 » t,h4-r;- 叫曲曲 1gild11 讥 WacfYM*t7$、tn«JU富气;"怜Til*Wl lEMft0 *;OP WFR2 戈41.H &cnsCkwKJ1PJP音Ej hUl rf杆硏W<dLjffl|)由大数据生态图(上图)可知,大数据生态系统包括基础设施(Infrastruction)、分析(Analytics)、应用(Applications)三大领域,以及交 互基础设施 / 分析(Cross-Infrastruction/Analytics)、开源
4、(Open Source)、数 据源(Data Sources和应用程序接口( APIs)等几大部分。另外,由大数据生态系统图(下图)可知,大数据生态系包括大数据收 集、大数据管理和大数据应用三大领域。其中,大数据收集包括数据采集、数8据源等;大数据管理包括数据仓库、数据平台等;大数据应用包括数据挖掘、 商业智能、数据可视化、垂直化应用、行业化应用等。【犬数据生态杀统日瓊完善 !SFH讪旳疫41 « » »逅;曾:諱eas *V kw tJ ”L1nrerTK*i_J* « M-BRA 锲也*s* Hfek « * nsMXCKW* :Vpi*
5、"價饰da STf- *Df5 upu肿K-Iwqgictwxjv ES严°仏誇护竺丘丘鼻F " i=w * U 0 hi hl eBtan 的gflf1 泊 缩iH spiun/k2、大数据生态系统的关键部分Hadoop似乎已经奠定了它作为整个大数据生态系统的关键部分。 Spark是 另一个基于内存计算的开源分布式计算框架。它试图填补Hadoop的弱项,提供更快的数据分析和良好的编程接口。3、从大数据数据库说起分析工具领域变得异常活跃。数据应用领域正如预测的一样逐渐成为重 心。一些类别,如数据库(无论是NoSQL还是NewSQL)和社交数据分析,正日趋成熟。在上
6、述大数据技术众多领域当中,我门先从大数据数据库说起 吧。二、传统与新型数据库及其主要区别从大的角度讲,可以简单地将数据库分为两类:1传统SMP架构的数据库传统SMP架构的数据库,主要是指传统的关系型数据库,例如DB2,Postgrel, MySQL 等。2、新型数据库新型数据库,主要是指支持大规模数据集、高并发要求、高可扩展性等孕 育而生的新型数据库。它包括目前大数据生态当中的主流 MPP, NoSQL,NewSQL等。传统数据库和新型数据库的一个主要区别是 SMP架构VS分布式/并行。三、数据库理论基础1服务器系统架构、SMPSMP (Symmetric Multi-Processor,对称
7、多处理器结构),是指多个 CPU对 称工作,其间无主次或从属关系。各个 CPU共享相同的物理内存;每个 CPU 访问内存中的任何地址的路径是相同的(访问的时间是相同的)。因此 SMP也 被称为UMA (Uniform Memory Access,一致存储器访问结构)。、NUMANUMA ( Non-Uniform Memory Access,非对称多处理结构),刚好与 SMP 相对。多个CPU工作时,对内存的访问路径不同。NUMA架构的提出,主要 是解决SMP架构下多CPU扩展的问题。、MPPMPP( Massive Parallel Processing 和 NUMA 不同,MPP 提供了另
8、一种进 行系统扩展的方式。它由多个 SMP服务器,通过一定的节点互联网络进行连 接,协同工作,完成相同的任务。从用户的角度来看,是一个服务器系统。SMP和NUMA都主要指向单一的计算机系统;而 MPP则有点集群的意思 了。2、ACID基本理论ACID 是原子性(Atomic)、一致性(Con siste nt)、独立性(Isolated)、 持久性(Durable)四个英文单词词首字母的组合。、原子性(Atomic)整个事务要么成功,要么失败,杜绝部分成功。(2)、一致性(Consistent事务的运行并不改变数据库中数据的一致性。例如,完整约束了a+b=10,一个事务改变了 a,那么b也应该
9、随之改变。、独立性(Isolated也称为隔离性,是指两个以上的事务不会出现交错执行的状态。因为,这 样不可能会导致数据不一致。、持久性(Durable)在事务执行成功以后,该事务所对数据库做的更改便持久保存在数据库之 中,不会无缘无故地回滚。传统的、基于关系模型的数据库,遵从ACID基本理论;而新型分布式数据库则并不完全遵从该理论。3、分布式CAP理论CAP是一致性(Consistent)、可用性(Availability )、分区容错性 (Tolera nc三个英文单词词首字母的组合。、一致性(Consistent这里,一致性是指数据的一致性。简单地说,就是数据复制到N台机器;如果有更新,
10、那么要N台机器的数据一起更新。(2)、可用性(Availability)可用性是指在集群中一部分节点发生故障后,集群整体还能响应客户端的 读写请求。、分区容错性(Tolerance)分区容错性是指错误分区发生,但是不影响整个系统的运行。四、数据库分类与对比分析1按体系架构分类按照数据库的体系架构,数据库可分为:、SMP Database (SMP 数据库)这类数据大多是指基于传统关系型数据库模型的数据库,比如IBM的DB2,Postgres MySQL 等。(2)、MPP Database (MPP 数据库)它是指基于 MPP体系架构的数据库,例如 Teradata, Greenplum, N
11、etezza(3)、Distribute Database (分布式数据库)严格来讲,MPP数据库也应该属于分布式数据库。但是,这里更多指的是 新型 NoSQL 和 NewSQL 数据库,例如 Hbase, Cassandrq Hive, mongoDB2、按对SQL支持情况分类按照数据库对SQL的支持情况,可以将数据库分为:、SQL Database (SQL 数据库)SQL数据库又可以细分为:Old SQL传统SQL数据库;New SQL 新型 SQL 数据库;MPP; SQL on Hadoopo、NoSQL Database ( NoSQL 数据库)NoSQL数据库本身是非常宽泛的,可
12、以分为以下多种类型:Key-ValueDatabase Document Database Column family Stores; Graph Database3、OldSQL,NewSQL and NoSQL无论是OldSQL、NewSQL,还是NoSQL,都是大数据解决方案中经常提 及的名词。那么面对传统的 SQL数据库、NoSQL数据库和NewSQL数据库, 我们该如何进行选择呢?其实,没有任何一款可以应对所有的应用场景,应该 根据应用场景选择适合的数据库。4、传统SQL数据库对比分析、传统SQL数据库的优势对于传统SQL数据库来说,它已经被使用了多年,成为很多应用服务过程 中依赖的
13、核心组件。如果对于自身的应用来说,它的运行和性能表现是可以接 受的,那么其实是不需要考虑替换的。没有必要的替换或更新,只会引入更多 的工作量,更大的风险。对于传统 SQL数据库而言,其优势主要体现在: 、提供了系统运行多年的稳定性和可靠性,对标准SQL的支持能力; 、与ORM的兼容度; 、拥有更加丰富的事务处理功能; 、即席查询的能力; 、成熟而稳定的商业生态。、传统SQL数据库的劣势传统SQL数据库在过去一直处于市场的垄断地位。但是,随着存储,处理 和分析的数据量以指数倍地快速增长,对传统SQL数据库形成了非常大的挑战。其劣势主要体现在: 、设计架构决定了很难进行扩展,性能瓶颈往往局限在单机
14、的处理能力上; 、传统SQL数据库系统设计遵循的往往是通用标准“ one size fits all,意 即:一刀切”,因此在很多专用场景下也不是最优的; 、复杂的性能调优参数,需要在性能、数据安全、资源使用等多方面平 衡,调优成本非常高。5、NoSQL数据库对比分析、NoSQL数据库的优势对于NoSQL数据库来说,它在目前的大数据生态和真实应用场景中,已 经越来越多地被广泛应用。它对非结构化、半结构化数据的支持,使得在很多 特定场景下的开发非常简单。对于对 SQL弱依赖的业务,NoSQL数据库的引 入,不但降低了本身的成本,而且增加了系统的扩展性和性能。其优势主要体 现在以下几个方面: 、由
15、于大多NoSQL设计遵从最终一致性,因而具有更高的可用性; 、同时基于最终一致性的系统,相比于传统的OLAP关系型数据库,具有更好的负载扩展性,支持更大的数据集; 、很多NoSQL系统对于非关系性数据进行了更多的优化。、NoSQL数据库的局限性尽管NoSQL数据库技术目前发展非常迅速,应用也越来越广范;但是其还是有自身的局限性: 、NoSQL数据库基本上不支持事务,也不遵从 ACID。因此,对于严格 依赖ACID的应用并不适用; 、对OLAP-style的查询,并不能直接进行很好的支持,需要更多应用开/八曰 发量。6、NewSQL数据库对比分析、NewSQL数据库的优势NewSQL也是目前比较
16、流行的术语,与NoSQL相比还比较新。NewSQL系统基本上是基于关系数据库模型的,对 SQL的支持非常好,与此同时尝试解 决传统SQL数据库面临的问题。NewSQL数据库的设计目的,不仅具有NoSQL对海量数据的存储能力,还保持了传统数据库支持ACID和SQL等特征。NewSQL的主要优势是: 、减少了应用研发和设计的复杂度,提供了强一致性和全事务支持; 、对SQL的支持以及相应的标准工具; 、丰富的数据分析SQL支持和扩展; 、无需应用层面大的改进,便可以在数据和查询模型的基础上,提供类 似NoSQLstyle集群方案的扩展性和性能。、NewSQL数据库的劣势于此同时,NewSQL也存在其
17、自身的劣势: 、目前还没有 NewSQL系统具备像传统 SQL数据库系统那样的通用 性; 、由于NewSQL自身in-memory (内存中)的系统架构设计,在海量数 据的支持上还是面临很多技术和成本的挑战。五、MPP数据库与 Hadoop对比分析对于MPP (大规模并行处理)数据库和 Hadoop而言,很多人都会把两者 放在一起进行比较;可是实际上,这两者本身应该不太具有可比性。因为,它 们并不完全是同类的产品。之所以会比较,可能是因为在特定的应用场景下, 我们不知道也不清楚该如何从他们之中进行选择。无论是 MPP数据库还是 Hadoop,其基础架构都是以分布式为基础的。 MPP数据库本质上
18、是分布式并行关系型数据库系统;而 Hadoop并不是一个简 单的单一系统或技术,而是一个生态系统,是由多个组件和不同的功能构建起 来的。链接:MPPMPP(Massively Parallel Processing大规模并行处理),是在数据库非共 享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据 库模型和应用特点划分到各个节点上,每个数据节点通过专用网络或者商业通 用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集 群有完全的可伸缩性、高可用性、高性能、优秀的性价比、资源共享等优势。简单来说,MPP是将任务并行地分散到多个服务器和节点上,在每个节点 上计算
19、完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。1、MPP数据库的主要架构特点MPP数据库的主要架构特点是: 、分布式,基于网格计算技术; 、Shared-nothing 、DAS ( Direct-Attached Storage 存储特质; 、数据分区以及本地处理; 、数据压缩; 、高性能网络链接。2、MPP数据库擅长点对于MPP数据库,它比较擅长的是: 、关系型数据; 、批处理; 、即席数据查询分析; 、低并发场景; 、ANSI SQL支持度高。内容MPPHadoop结构分布式拝行关系聖数据库系是一亍生态系统,并不是单 -系统或组件开发度大部分闭源开源硬件依赖专门
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国新生儿棉裤数据监测报告
- 2025年中国数字车用万用表市场调查研究报告
- 2025-2030年中国乳膏行业前景趋势展望及投资发展方向研究报告
- 2025-2030年中国LNG行业发展现状及前景趋势研究报告
- 2025-2030年中国SBS行业市场发展现状及未来规划研究报告
- 2025年班组三级安全培训考试试题综合题
- 2025班组安全培训考试试题审定
- 2024-2025公司安全管理员安全培训考试试题附参考答案(夺分金卷)
- 2025年公司安全培训考试试题及答案标准卷
- 2024-2025企业级安全培训考试试题及参考答案【夺分金卷】
- 《广西壮族自治区基层工会经费收支管理实施办法》修订解读
- 2024北京朝阳城市发展集团有限公司社会化招聘专场笔试参考题库附带答案详解
- 中职语文教学大赛教学实施报告范文与解析
- 北京市朝阳区2025届高三下学期一模试题 数学 含答案
- 食品工厂5S管理
- 大数据在展览中的应用-全面剖析
- 食品企业危机应对措施
- 低空经济产业园的战略意义
- T-FJZYC 10-2024 金线莲规范化生产技术规程
- 2025年四川省成都市“蓉漂”人才荟武候区招聘23人历年自考难、易点模拟试卷(共500题附带答案详解)
- 2025新疆交投集团所属子公司招56人笔试参考题库附带答案详解
评论
0/150
提交评论