




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1大数据的4V特性体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效2Value 价值挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.价值密度低价值密度低,是大数据的一个典型特征是
2、大数据的一个典型特征.3Variety 多样性企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源. 能够在不同的数据类型中能够在不同的数据类型中,进行交叉分析的技术进行交叉分析的技术,是大数据的核心技术之一是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.4Velocity 速度1s 是临界点.对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.实时处理的要求实时处理的要求,是区别大数据引用和传统数据仓库技术是区别大数据引用和传统数据仓库技术,BI技术的
3、关键差别技术的关键差别之一之一.5Volume 数据量PB是大数据层次的临界点是大数据层次的临界点. KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB6Hadoop:大数据分析的利器:大数据分析的利器 Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。 设计理念:可靠、高效、扩展 可靠可靠:假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。 高效高效:因为它以并行的方式工作,通过并行处理加快处 理速度。 扩展扩展:容易扩展,能够处理
4、 PB 级数据。nHadoopHadoop的核心子项目,提供了一个分布式文件系统(HDFS)和支持MapReduce的分布式计算。nHBase建立在Hadoop内核之上,提供可靠的,可扩展的分布式数据库。 nZooKeeper一 个 分 布 式 的 、 高 可 用 的 协 调 服 务 。Zookeeper提供分布式锁之类的基本服务用于构建分布式应用。nHive分布式数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言用以查询数据。Hadoop核心核心7大数据涉及的关键技术需求需求技术描述技术描述关键技术关键技术海量数据分布式处理海量数据分布式处理Hadoop 生态系统生态系统
5、针对大量数据进行分布式处理的系统框架实时数据处理实时数据处理Streaming Data流计算引擎非结构化数据处理非结构化数据处理文本处理技术;自然文本处理技术;自然语言理解;语言理解; 多媒体处多媒体处理技术理技术文本内容分词与分析;图像、音视频分析可视化交互界面可视化交互界面通过交互式可视化界面辅助用户进行分析交互式可视化探交互式可视化探索分析技术索分析技术智能数据分析智能数据分析大规模机器学习大规模机器学习技术技术计算机模拟人类学习行为,包括特征提取、图形生成等保护隐私数据与信息个体的对应关系等安全技术高效存储和管理大规高效存储和管理大规模数据模数据数据存储备份技术、数据存储备份技术、数
6、据放置和调度技术、数据放置和调度技术、数据溯源数据溯源存储、放置、调度大规模的数据数据隐私保护数据隐私保护数据隐私防范保数据隐私防范保护措施与数据安护措施与数据安全技术全技术大数据采集处理大数据分析存储、组织、管理8从各种媒体表示的信息中,根据不同的需求获得知识。知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。也有的说法是,知识发现是数据挖掘的别名。知识发现、数据挖掘、机器学习数据挖掘的描述有很多,个人倾向于这个版本:一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。机器学习(Machine
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 影像麻醉眼外伤培训课件
- 企业工业设计合同标准文本
- 2025届吉林省白城市通榆一中高考英语一模试卷含答案
- 吴忠市重点中学2025年高考仿真卷英语试题含解析
- 山东省潍坊寿光市2025年高三第二次诊断性检测英语试卷含解析
- 四川省广安市广安中学2025年高考全国统考预测密卷英语试卷含解析
- 新能源汽车驱动电机在新能源汽车产业中的市场前景研究报告
- 二手奢侈品市场2025年交易规范与行业规范执行现状调查与分析及对策
- 老龄化社会背景下2025年老年教育课程体系构建与教学策略分析
- 2025年中国轴承加热器行业市场运行格局及投资前景预测分析报告
- 2023年科技特长生招生考试试卷word
- GB/T 6283-2008化工产品中水分含量的测定卡尔·费休法(通用方法)
- 液化天然气接收站安全管理规定
- GB/T 23468-2009坠落防护装备安全使用规范
- 影像诊断与手术后符合率统计表
- 2023年北京亦庄国际投资发展有限公司招聘笔试题库及答案解析
- ansys电磁场分析经典教程
- 美国数学竞赛AMC8讲座课件
- 2020年国家义务教育质量测查德育科目模块一模拟试题含参考答案
- 导管固定-PPT课件
- 服务器、存储、网络及安全设备visio图标系列PPT课件
评论
0/150
提交评论