版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章大数据技术概述
提纲1.1大数据时代1.2大数据关键技术1.3大数据软件1.4内容安排1.1大数据时代1.2大数据关键技术表1-1大数据技术的不同层面及其功能技术层面功能数据采集利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析数据存储和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据数据隐私和安全在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全1.2大数据关键技术分布式存储分布式处理GFS\HDFSBigTable\HBaseNoSQL(键值、列族、图形、文档数据库)NewSQL(如:SQLAzure)MapReduce大数据两大核心技术1.2大数据关键技术大数据计算模式解决问题代表产品批处理计算针对大规模数据的批量处理MapReduce、Spark等流计算针对流数据的实时计算Flink、Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台等图计算针对大规模图结构数据的处理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查询分析计算大规模数据的存储管理和查询分析Dremel、Hive、Cassandra、Impala等表1-2大数据计算模式及其代表产品1.3大数据软件大数据技术大数据软件数据采集Kafka数据存储与管理HDFS、HBase、Redis、MongoDB数据处理与分析MapReduce、Spark、Hive、Flink数据可视化D3、ECharts表1-3本教程所涉及的大数据软件1.3.1Hadoop1.3.2Spark图1-2BDAS架构1.3.4NoSQL数据库NoSQL数据库是一种不同于关系数据库的数据库管理系统,是对一大类非关系型数据库的统称,它所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。NoSQL数据库没有固定的表结构,通常也不存在连接操作,也没有严格遵守ACID约束,因此,与关系数据库相比,NoSQL具有灵活的水平可扩展性,可以支持海量数据存储。此外,NoSQL数据库支持MapReduce风格的编程,可以较好地应用于大数据时代的各种数据管理。NoSQL数据库的出现,一方面弥补了关系数据库在当前商业应用中存在的各种缺陷,另一方面也撼动了关系数据库的传统垄断地位。NoSQL数据库虽然数量众多,但是,归结起来,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图数据库。本教程将介绍两种流行的NoSQL数据库产品的安装和使用方法,即键值数据库Redis和文档数据库MongoDB。1.4内容安排图1-3本教程中涉及的相关大数据软件1.4内容安排图1-4本教程中大数据软件之间的相互关系1.5本章小结大数据技术是一个庞杂的知识体系,包含了大量相关技术和软件。在具体学习相关技术及其软件之前,非常有必要建立对大数据技术体系的整体性认识。因此,本章首先从总体上介绍了大数据关键技术和各类大数据软件。鉴于不同的大数据学习者有着不同的学习需求,为了方便读者迅速找到对应的学习章节,本章给出了本教程的整体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第12章 珍惜体会教学设计-2025-2026学年中职心理健康第四版高教版(大学)
- 人教部编版八年级下册望洞庭湖赠张丞相教学设计
- 第16课 集字临摹练习(四)教学设计小学书法西泠版四年级下册-西泠版
- 人教部编版五年级下册5 草船借箭教案及反思
- 2026广东广州市花都建筑设计院有限公司第一次招聘项目用工人员2人笔试历年参考题库附带答案详解
- 2026中核大唐庄河核电有限公司校园招聘笔试历年参考题库附带答案详解
- 2025海南港航控股有限公司招聘1人笔试历年参考题库附带答案详解
- 2025浙江景宁玛酷少儿编程培训有限公司招聘笔试历年参考题库附带答案详解
- 2025四川泸州市民卡科技有限公司社会招聘笔试历年参考题库附带答案详解
- 2025中国化学工程集团有限公司校园招聘100人笔试历年参考题库附带答案详解
- 小学生保护身体隐私课件
- DB51-T 3251-2025 煤矿井下应急广播系统使用管理规范
- 会计研究方法论 第4版 课件全套 吴溪 第1-20章 导论- 中国会计学术研究成果的国际发表
- 智慧树知到《形势与政策(北京大学)》2025春期末答案
- DB22-T 389.4-2025 用水定额 第4部分:居民生活
- 曲妥珠单抗心脏毒性的管理
- 贵州中医药大学时珍学院《C#程序语言设计》2023-2024学年第一学期期末试卷
- 法院委托评估价格异议申请书
- 卫生事业管理学:第十一章 社会健康资源管理
- 电工二级技师试题及答案
- DL-T5706-2014火力发电工程施工组织设计导则
评论
0/150
提交评论