版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据技术基础介绍技术创新,变革未来2提纲大数据背景大数据行业应用123大数据基础技术3大数据(Big Data)时代来临移动互联网Mobile Internet物联网Internet of Things新量级、新处理模式、新企业智能4大数据的性质 4VVolume海量的数据规模Variety多样的数据类型ValueVelocity快速的数据流转巨大的数据价值5提纲大数据背景大数据行业应用123大数据基础技术6“在大数据领域,不能充分形成大数据使用能力的 竞争者将被淘汰” McKinsey Global Institute大数据应用的行业分类7提纲大数据背景大数据行业应用123大数据基础技术8
2、High performance 高并发读写的需求高并发、实时动态获取和更新数据Huge Storage 海量数据的高效率存储和访问的需求类似SNS网站,海量用户信息的高效率实时存储和查询High Scalability & High Availability 高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务大数据的系统需求9MPP- Massively Parallel Processing任务并行执行数据分布式存储(本地化)分布式计算私有资源横向扩展Shared Nothing架构10MPP数据库与Hadoop对比11Hadoop是Apache基金会的一个项目
3、总称,主要由HDFS、MapReduce和HBase等组成。HDFS是对Google GFS的开源实现, MapReduce是对Google MapReduce的开源实现,HBase是Google BigTable的开源实现。Hadoop 来源于其创始人Doug Cutting的儿子给一头黄色大象 取的名字。Hadoop最初只与网页索引有关,迅速发展成为分析大数据的 领先平台。Hadoop12HDFS主要特点:存储大文件将大文件分割成很多小块存储流式数据读取,“ write one read many”本身是分布式的,具备良好的可扩展性通过放开POSIX要求,极大改善数据读写性能HDFS不适用
4、于:存储大量小文件( 1MB)实时数据读取需经常修改数据的场景HDFS- 分布式文件系统13HBase- 分布式数据库14Apache MapReduce是google MapReduce的开源实现。是对并行计算的封 装,使用户通过一些简单的逻辑即可完成复杂的并行计算。其核心理念是将一个大的运算任务分解到集群每个节点上,充分运用集 群资源,缩短运行时间。MapReduce- 分布式计算架构15Spark是UC Berkeley AMP 实验室基于map reduce算法实现的 分布式计算框架, 输出和结果保存在内存中,不需要频繁 读写HDFS,数据处理效率更高Spark适用于近线或准实时、数据
5、挖掘与机器学习应用场景Spark迭代计算框架:重构M-R, 优于Hadoop16Storm处理原理流式数据处理框架,实时的HadoopStorm广泛应用于实时分析,在线机器学习, 持续计算、分布式远程调用等领域。17提供分布式锁的服务。例如,多个Master进程竞争主Master角色时, 怎么样保证仅有一个Active角色存在?这就 需要一个分布式的锁机制来保证。多个Master进程都尝试着去ZooKeeper中写入一个 对应的节点,该节点只能被一个Master进程 创建成功,创建成功的Master进程就是Active 角色。提供了事件侦听机制。例如,主Master进程宕掉之后,其它的备Master如何能够快速的接管?这个过程中, 备Master在侦听那个对应的ZooKeeper节点。 主Master进程宕掉之后,该节点会被删除, 那么,其它的备Master就可以收到相应的消 息。个别场景,可充当一个微型数据库角色。例如,在Zoo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年绿色能源行业创新报告及太阳能技术发展报告
- 2025年文化创意行业数字艺术创作与元宇宙创新报告
- 2026年统一招聘笔试题库及答案
- 2026年再生材料制造行业环保报告及未来五至十年可持续发展报告
- 网路安全应急预案(3篇)
- 除尘防腐施工方案(3篇)
- 师德培训讲座材料课件
- 2026年港澳台联考常考知识点练习题附详细解析
- 安全生产培训直播课件教学
- 广西南宁市2026届九年级上学期期末综合训练道德与法治试卷(含答案)
- GB/Z 21437.4-2025道路车辆电气/电子部件对传导和耦合引起的电骚扰试验方法第4部分:沿高压屏蔽电源线的电瞬态传导发射和抗扰性
- 安徽省六校联考2025-2026学年高三上学期素质检测语文试题及参考答案
- 气性坏疽隔离护理
- 四川省眉山市东坡区苏祠共同体2024-2025学年七年级上学期期末英语试题(含答案)
- 2025年大学大一(法学)法理学基础试题及答案
- 2026年高考物理二轮复习策略讲座
- 2025杭州市市级机关事业单位编外招聘10人(公共基础知识)测试题附答案
- 通往2026:中国消费零售市场十大关键趋势-尼尔森iq-202512
- 6.3 哪个团队收益大 教学设计 2025-2026学年数学北师大版八年级上册
- 影院映前广告方案
- IE七大工具培训
评论
0/150
提交评论