大数据技术核心技术_第1页
大数据技术核心技术_第2页
大数据技术核心技术_第3页
大数据技术核心技术_第4页
大数据技术核心技术_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据和云计算是什么关系?大数据关键技术有哪些?课程指导第1页大数据与云计算关系第2页大数据处理基本流程第3页大数据处理关键技术hadoop第4页hadoop组成部分第5页hadoop HDFS体系结构第6页hadoop MapReduce处理流程第7页给定一个巨大文本(如1TB),怎样计算单词出现数目?MapReduce实例第8页使用MapReduce求解该问题定义Map和Reduce函数MapReduce实例第9页使用MapReduce求解该问题Step 1: 自动对文本进行分割,形成初始对MapReduce实例第10页使用MapReduce求解该问题Step 2:在分割之后每一对进行用户

2、定义Map进行处理,再生成新对MapReduce实例第11页使用MapReduce求解该问题Step 3:对输出结果集归拢、排序(系统自动完成)MapReduce实例第12页使用MapReduce求解该问题Step 4:经过Reduce操作生成最终结果MapReduce实例第13页什么是NoSQL?NoSQL主要特征是什么?MongoDB有什么作用?课程指导第14页大数据关键技术NoSQLNoSQL是Not Only SQL缩写,而不是Not SQL,它不一定遵照传统数据库一些基本要求,如SQL标准、ACID属性、表结构等。相比传统数据库,叫它分布式数据管理系统更贴切,数据存放被简化更灵活,重

3、点被放在了分布式数据管理上。第15页关系数据库表结构(学生、地址、成绩、科目):StudentsaddressidnamestudentidAddressaddressidaddresscitystatepostalcodeScoresscoreidstudentidcourseidgradeCoursescourseidname什么是NoSQL第16页NoSQL表结构(学生、地址、成绩、科目):Students_id : 007name : Janeaddress : address : 123 Main St. city : New York state : NY postalcode :

4、 10014scores : Biolgy : 4.0 English : 3.0什么是NoSQL第17页为何要用NoSQL?大数据特征Volume - 数据量巨大,对TB、PB数据级处理,已经成为基本要求。Variety - 数据多样性,能处理结构化、非结构化数据,能处理Web数据,甚至语音、图像、视频数据。Velocity - 数据实时性,在客户每次浏览页面,下订单过程中,都会对用户进行实时产品推荐,购置决议已经变得非常实时。第18页为何要用NoSQL?大数据性能要求High performance - 高并发读写,高并发、实时动态数据查询和修改。Huge Storage - 海量数据高效

5、存放和访问,类似SNS网站,海量用户信息高效、实时存放和查询。High Scalability & High Availability - 高可扩展性和高可用性,需要拥有快速横向扩展能力、提供7*二十四小时不间断服务。第19页为何要用NoSQL?关系数据库处理大数据弱势面对高并发读写需求,数据库读写压力巨大,硬盘IO无法承受。面对海量数据,数据库能存放统计数量有限,SQL查询效率极低。横向扩展艰难,无法经过快速增加服务器节点实现,系统升级和维护造成服务不可用。第20页为何要用NoSQL?NoSQL处理大数据优势数据库结构简单,数据间无关系性,这自然就带来了很高读写性能,且易扩展。灵活数据模型,

6、能够随时存放自定义数据格式。而在关系数据库里,增删字段是件麻烦事。尤其大数据量表,增加字段简直就是一个噩梦。经过复制模型可实现高可用性,能够分布布署在低廉PC集群上。支持动态增加、删除服务器节点,随时控制硬件投入成本。第21页NoSQL类型key-value存放第22页NoSQL类型列式存放第23页NoSQL类型文档型存放第24页NoSQL类型图结构存放第25页MongoDB介绍一个分布式文件存放数据库。功效最丰富、最像关系数据库产品。数据结构采取JSON格式,所以能够存放比较复杂数据模型。查询语言强大,支持索引、MapReduce等功效。面向文档,以K/V形式存放数据。支持主/从服务器间数据复制和故障恢复。支持自动分片。第26页谁在用MongoDB?第27页MongoDB布署方式(一)PrimarySecondary-1Secondary-2Replica Sets架构Primary服务器:将数据同时到多个 Secondary 上。Secondary服务器:热机备份主服务器上数据,分担主机读压力,当主机发生故障不能工作,随时接管主机工作。第28页MongoDB布署方式(二)Sharding是什么?分片是指将数据拆分,将其分散到不一样服务器上过程。经过分片能够增加更多服务器,来应对不停增加负载和数据。MongoDB何时需要分片?

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论