版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Word———大数据时代数据管理技术研究综述论文大数据时代数据管理技术讨论综述论文
随着计算机技术和网络的快速进展,半结构化和非结构化等类型数据成几何倍增长,学习和使用大数据管理技术顺应时代进展潮流。本文从数据管理技术的进展进程动身,介绍了人工管理方式、文件系统管理方式、数据库管理方式三种阶段的管理方式。然后具体介绍了关系数据库和NoSQL非关系数据库,并且将两者从三种角度进行了对比。最终对将来大数据时代信息管理方式作出了展望。
引言
随着计算机和网络技术的快速进展,移动互联、社交网络、电子商务、云计算等各种新兴服务的兴起,极大拓展了互联网的疆界和应用领域,随之产生的是海量的数据,这些数据不仅来源的渠道多样,并且数据规模和数据种类也是快速的增长,大数据时代已经来临。大数据时代,无法将海量数据存储和管理在一台或者有限数目的服务器内,更无法借助有限的计算机去处理和管理大数据。因此,如何利用现有的资源应对当前数据量的快速增长,实现对大数据的有效、便捷、平安的管理,是当前国内外关于数据管理和数据分析亟需解决的问题。
.数据管理技术的进展
数据管理是指对各种类型的数据进行采集、存储、分类、计算、加工、检索和传输的过程。随着计算机和网络技术的不断进展和改进,数据库管理技术也在不断的更新换代。到目前阶段为止,数据管理技术主要进展历程经受了以下阶段:人工数据管理方式、文件系统管理方式和数据库系统管理方式。
1.1人工数据管理方式
20世纪50年月中期,计算机初期被应用于科学计算方面,因此,早期的数据处理都是手工完成的。数据存储只有磁带、卡片和纸带等低速存储设备。既没有操作系统,也没有管理数据的特地软件,此阶段管理的数据,不能进行共享,且没有自立性,数据纯粹面对应用,服务于应用。
1.2文件系统管理方式
20世纪60年月中期,随着计算机进一步的进展,不仅用于科学计算,而且更多地用于信息处理。对于数据存储,有了磁盘、磁鼓等存储设备。操作系统和高级语言的消失为文件系统管理供应了可能。此阶段的文件系统,是根据相应的规章将数据组织成一个自立的命名文件。这一时期的数据特点是:数据可以长期存储在磁盘上、有特地的软件进行管理维护、数据不再自立存在,数据不止服务于应用,在肯定程度上,数据的共享性得到了提高。
1.3数据库系统管理方式
20世纪60年月后期,数据库系统管理方式渐渐形成并具有肯定的规模。由于磁盘技术的不断进步和进展,低成本、高速的硬盘占据了市场,为新的数据管理技术供应了产生的必要条件。对应的软件技术也有肯定的进展。数据库系统是由计算机的软硬件资源共同组成,实现了数据的动态、有规章、自立存储。如图1所示。
2大数据管理技术
大数据是指无法在可承受的时间范围内用常规软件工具进行捕获、管理和处理的数据集合。归结为四个特点就是四“V”,即大量(Volume)、高速(Velocity)和多样性(Variety)和价值(Value)。大数据首先体现在数据量上:全球闻名询问机构IDC(国际文献资料中心)在2022年估量全世界产生的数据量是0.18ZB(1ZB=100万PB),而截至2022年这个数字已经提升了一个数量级,达到1.8ZB。这种数据产生的速度仍在增长,估计2022年将达到8ZB。随着数据量的增长,得到浩大的数据源和样本数据后,人们并不能容忍对于这些浩大的数据处理响应时间。因此,大数据需要在数据量提高的前提下,数据的处理和响应力量进行提高,从而确保数据延迟可以在人们的接受范围之内。因此数据处理要得到有效的保证,那如何存储和组织管理这些海量数据,值得我们去探究和讨论。
2.1关系型数据库(RDBMS)
2.1.1关系数据库的提出
20世纪70年月初,IBM工程师Codd发表了一篇论文“ARelationalModelofLargeSharedDataBanks”,随之关系数据库时代宣告到来。关系数据库管理系统(RelationalDatabaseManagementSystem,简称RDBMS)就是基于上述的论文而被设计出来的。在关系数据库之前的系统主要有基于层次模型的层次数据库、基于网状模型的网状数据库等。以上几种数据库的主要不足是数据模型是很难被用户所理解,并且编写的软件与数据模式依靠性比较高。Codd提出的关系数据模型是基于表格、行、列、属性等基本概念,将现实世界中的各类实体及其关系映射到表格上,并且还为关系模型建立了关系代数运算。
2.1.2关系数据库的应用
关系数据库系统最初主要是应用于事务处理领域。随着数据的不断积累增长,人们需要对数据进行分析操作,提取出有用的信息以支持决策等等。这些分析操作主要包括简洁汇总、联机分析处理(onlineanalyticalprocessing,简称OLAP,主要是多维分析)、统计分析、数据挖掘等。有些分析处理需要对数据集进行多次的扫描,分析查询执行的时间以分钟或者小时计。与一般行存储模式不同,一些学者提出了列存储模式(columnarstoragemodel)。列存储模型有行存储没有的优势特征,当查询只涉及关系的某些数据列时,不会造成无关数据的提取,削减I/O操作,提高了查询的效率。围绕RDBMS,形成了一个完整的生态体系(厂家、技术、产品、服务等),供应了包括数据采集、数据管理、数据查询与分析、数据呈现(即可视化)等技术和产品,制造了巨大的数据库产业,为社会进展做出了巨大贡献。
2.1.3关系数据库的不足
大数据时代的到来,关系型数据库并未做好全面的预备,消失了诸多问题,主要问题有以下几个方面:
(1)关系模型不简单组织和管理全部类型多样的数据,例如在关系数据库里,管理大规模的高维时空数据、大规模的图像数据等都显得力不从心。
(2)如何才能通过大量节点的并行操作实现大规模数据的高速处理,仍旧值得我们去探究。在关系数据库上进行大规模的事物处理,不但需要解决查询的性能问题,更需要解决修改操作的性能问题,大量的事物处理,需要高效完成,才能保证数据的长久性和牢靠性。
(3)在关系数据库上进行数据的简单分析,能够使用的是统计分析和数据挖掘软件包;现有的统计分析、数据挖掘软件包能够处理的数据量受限于内存开销,并行化程度不高。从数据库中提取数据,注入到分析软件中进行分析,在大数据时代,这样的数据移动以及不合适了。通过数据的划分和并行计算,实现高性能的数据分析成为必定选择。
从中可以得出,现如今的数据管理已经不是简洁的关系型数据库可以解决的,关系型数据库在肯定程度上只能解决初期的大数据管理。
2.2NoSQL数据库管理技术
随着时代的进展,传统的关系型数据库已经无法满意人们对于更高的并发读写、海量数据的高效存储和访问以及高扩展性和可用性等需求,消失了NoSQL数据技术。
对于NoSQL技术,学术界有两种对其的解释:(1)“Non-Relational”,也就是非关系型数据库;(2)“NotOnlySQL”,即数据库不仅仅是SQL。当前其次种解释比较流行。NoSQL数据库是指数据模型定义不明确的非关系型数据库。NoSQL数据库具有敏捷的数据模型、高可扩展性和美妙的进展前景。下面主要介绍NoSQL的几种管理技术。
NoSQL数据库普遍采纳的数据管理方式有四种:Key-Value存储方式、BigTable存储方式、Document存储方式以及Graph存储方式。2022年RickCattell对各种典型NoSQL系统从各个方面做了比较系统的分析。
2.2.1基于Key-Value存储的NoSQL技术
Key-Value是NoSQL系统比较常用的数据存储方式,每个Key值对应每一个任意类的数据值,对应的对象可以是结构化数据,也可以是文档。Key-Value存储的.思想是将抽取唯一可以确定数据的特征属性,作为key,并将作为value对象。基于Key-Value模型组织数据,需要将数据根据Key-Value形式存储,而后可以通过对Key-Value进行序列化排序操作继而存储、将Key-Value存储为字符串或者字节数据,并且对key建立索引以便进行快速查询。Key-Value存储方式的NoSQL系统有的采纳的DISK方式存储实现同步数据复制(例如Membase等),有的采纳RAM存储数据实现异步数据复制(例如Redis等)。
JingHan等人基于Key-Value存储提出了CDSA(CloudDataStorageArchitecture),体系结构可以较好优化云计算过程中的数据查询,同时也保证了海量数据的存储。CSDA包括三层:DCL(DataCacheLayer)、MDL(MemoryDatabaseLayer)、DDL(DiskDatabaseLayer)。
2.2.2基于BigTable存储的NoSQL技术
BigTable管理方式是Google提出来并广泛采纳的存储方式,而且也被HBase、HyperTabley以及Cassandra等系统借鉴使用。在BigTable存储中,同样是通过Key-Value基础模型对数据进行建模,不一样的是Value具有了比较精致的结构,即一个Value包含多个列,这些列还能进行分组(columnfamily),表现出了多层嵌套映射的数据结构特点。HBase是受BigTable启发而开发的基于ColumnFamily存储的NoSQL技术。Hbase供应系统的SQL查询接口,用户可以轻松的对数据进行管理工作。Cassandra技术也是受到BigTable的启发,只不过Cassandra做了大幅度的修改。Cassandra在ColumnFamily下加入了超级列(supercolumn)概念层次的映射关系,便利对数据进行建模。Cassandra还可以将多个ColumnFamily在磁盘存储在一起,这样就可以在同时访问时提高效率。
2.2.3基于Document存储的NoSQL技术
基于Document(文档)存储的技术以及进展很久了,例如IBM的LotusNotes。这里所说的基于Document存储的NoSQL技术是基于传统文档存储技术的新进展、新技术。基于Document存储技术仍是以Key-Value存储模型为基本模型,此模型可以对文档的历史版本进行追踪,单个文档又是一个Key-Value的列表,形成循环嵌套的结构,对于某些特定的查询方式来说,Document存储的效率更高。由于其数据的循环嵌套的结构特点,应用程序可能会越来越简单并且难以维护和理解。主要的技术和产品有CouchDB,MongoDB和Dynamo。
2.2.4基于Graph存储的NoSQL技术
基于Graph存储的系统包括Ne04J,InfoGrid,HyperGraphDB等。有些图数据库是基于面对对象数据库创建的,例如InfniteGraph,在节点的遍历等图数据的操作中,呈现出了高效的性能。Graph存储方式是将整个数据集建模成一个大型的网络结构,之后再采纳一系列图操作实现对数据的操作。由于图由结点和边构成,对于海量数据不能完全装入内存,因此,Graph存储方式一般是基于DISK的,NoSQL系统实现图索引,完成图的调入调出。
从数据管理的角度来看,使用非结构化Key-Value存储管理结构化大数据仍旧是顺应应用需求的。由于基于Key-Value存储的Hadoop数据仓库实现技术尚处于起步阶段,需要其他数据库技术来加速器进展进程。
2.2.5NoSQL的不足
与传统的关系型数据库相比,NoSQL非关系型数据库在并行处理方面有肯定优势,但也是存在一些问题,主要体现在:
(1)NoSQL很难实现数据的完整性
由于NoSQL项目中很难实现数据的完整性,而在企业中数据完整性又是必不行少的。因此,在企业中,NoSQL的应用还不是很广泛。
(2)成熟度不高
大部分的NoSQL数据库都是开源项目,没有世界级的数据库厂商供应完整的服务,消失问题,都是自己解决,风险较大。
(3)关系数据库比NoSQL在设计时更能够体现实际,而NoSQL数据库缺乏这种关系,难以体现业务的实际状况,对于数据库的设计与维护都增加了难度。
2.3关系数据库和NoSQL数据库的区分
传统的关系数据库与NoSQL数据库在数据管理系统进展不同的时间段里都体现出了自己的可用性和有用性,能够解决的肯定的问题。表格l将两者进行了对比。
3数据管理方式的展望
通过上述讨论分析可以看出,关系数据库已经无法满意现阶段即大数据时代人们对于数据存储和管理的需求,更高的存储效率和更快的查询速度等一系列高要求,促使数据管理方式不断向前进展。NoSQL技术在肯定程度上解决了大数据时代的数据管理需求,但仍需采纳新技术提高数据库的全都性和可用性。关系数据库主要优点表现在其属性值之间可以通过SQL操作进行关联操作,体现出了数据的完整性,NoSQL数据库将数据进行分布式存储,为之后的大数据处理作铺垫。关系数据库的ACID强调数据全都性通常指的是关联数据之间的规律关系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网版印刷员创新实践模拟考核试卷含答案
- 白酒发酵工变更管理模拟考核试卷含答案
- 玻纤编织制品生产工岗前进度管理考核试卷含答案
- 兽用中药制剂工道德考核试卷含答案
- 创新饲料加工:未来发展方向-技术专家演讲
- 财务数据分析题目及答案
- 雅礼教育集团2024-2025学年九年级下期中考试 数学试卷(含答案)
- 古代十大有趣题目及答案
- 2021届中建铁投笔试裸考必过真题及答案速记
- 2026年tcp网际互联测试题及答案
- 历史文化街区保护规划
- 2023年专利代理人专利法律知识考试试卷及参考答案
- 胆汁淤积性肝病课件
- 《电气控制与PLC》考试复习题库(含答案)
- 美军装备试验人员培养主要做法、特点及借鉴,军事技术论文
- GB/T 26559-2021机械式停车设备分类
- GB/T 19274-2003土工合成材料塑料土工格室
- 通用的决策树算法CARTClassificati课件
- 安全爬梯受力计算正文
- DB37-T 4401-2021养老机构分级护理服务规范
- 化工投料试车方案一
评论
0/150
提交评论