




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据的4V特性,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍,大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,Value价值,挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.价值密度低,是大数据的一个典型特征.,Variety多样性,企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源.能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.,Velocity速度,1s是临界点.对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一.,Volume数据量,PB是大数据层次的临界点.KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB,Hadoop:大数据分析的利器,ApacheHadoop是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。设计理念:可靠、高效、扩展可靠:假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。高效:因为它以并行的方式工作,通过并行处理加快处理速度。扩展:容易扩展,能够处理PB级数据。,HadoopHadoop的核心子项目,提供了一个分布式文件系统(HDFS)和支持MapReduce的分布式计算。HBase建立在Hadoop内核之上,提供可靠的,可扩展的分布式数据库。ZooKeeper一个分布式的、高可用的协调服务。Zookeeper提供分布式锁之类的基本服务用于构建分布式应用。Hive分布式数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言用以查询数据。,Hadoop核心,大数据涉及的关键技术,需求,技术描述,关键技术,海量数据分布式处理,Hadoop生态系统,针对大量数据进行分布式处理的系统框架,实时数据处理,StreamingData,流计算引擎,非结构化数据处理,文本处理技术;自然语言理解;多媒体处理技术,文本内容分词与分析;图像、音视频分析,可视化交互界面,通过交互式可视化界面辅助用户进行分析,交互式可视化探索分析技术,智能数据分析,大规模机器学习技术,计算机模拟人类学习行为,包括特征提取、图形生成等,保护隐私数据与信息个体的对应关系等安全技术,高效存储和管理大规模数据,数据存储备份技术、数据放置和调度技术、数据溯源,存储、放置、调度大规模的数据,数据隐私保护,数据隐私防范保护措施与数据安全技术,大数据采集处理,大数据分析,存储、组织、管理,从各种媒体表示的信息中,根据不同的需求获得知识。知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。也有的说法是,知识发现是数据挖掘的别名。,知识发现、数据挖掘、机器学习,数据挖掘的描述有很多,个人倾向于这个版本:一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。,机器学习(MachineLearning,ML)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业设备管理概述
- 年度安全培训计划范例课件
- 年度安全培训计划样板课件
- 婴幼安全照护培训内容课件
- 年度安全培训制度课件
- 年底安全培训工作计划课件
- 工业水处理安全培训内容课件
- 工业气体安全培训材料课件
- 广东公务员真题2025
- 工业废水处理课件
- 乙型肝炎护理查房
- GB/T 17554.1-2006识别卡测试方法第1部分:一般特性测试
- 电力客户的分级和分类及管理讲解课件
- 小学家长会校长发言课件
- 肾功能检查和电解质检测课件
- 基于AI的智能运维解决方案
- 智能IT运维监控平台解决方案
- 常用职业病危害风险告知卡102张
- 朋友圈里的地理--冬季南北温差大 夏季普遍高温
- 原油电脱水处理技术(行业知识)
- 金属结构制造与安装-第七章平板钢闸门的安装ppt课件
评论
0/150
提交评论