版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目二供应链大数据技术基础CONTENTS目录01
数据采集02
数据存储03
Hadoop生态04
数据开发数据采集01
数据的形态数据是信息的原始材料,需加工解释后成为信息,形式包括数字、文字、图像等。结构化数据以二维表存储,遵循格式规范,查询修改方便但扩展性差,如关系型数据库数据。半结构化数据具有一定结构性,自描述且模式灵活,适合数据库集成与Web信息共享,如XML、HTML。非结构化数据无固定结构,包括文档、图片等,需智能技术处理,存储为二进制格式。数据采集的方法
基于物联网采集通过传感器、摄像头等采集定位、视频等数据,如智能交通中的GPS与卡口图像采集
系统日志采集采集日志的时间、类型、异常等信息,工具如Flume、Scribe,支持高并发传输
网络数据采集利用爬虫技术从网页提取非结构化数据,支持文件采集与关联,如Nutch爬虫结合Splunk检索小贴士企业数据采集
对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。数据存储02数据存储的概念
大数据存储特点数据量大、查询复杂,传统存储无法满足,需分布式与云存储技术。
存储技术方案通过ETL转换数据格式,使用NoSQL数据库管理,利用分布式文件系统降低成本。
数据存储的方式
关系型数据库以表格存储,如MySQL、Oracle,数据一致性强,但大规模存储性能有限。非关系型数据库采用键值对、文档等形式,如MongoDB,高可扩展但一致性较弱。文件系统它以文件和目录的形式组织数据,并使用文件系统的命令和接口来访问和操作数据。分布式文件系统自动处理故障恢复和负载均衡等问题,并支持分布式计算和存储。内存数据库内存数据库将数据存储在内存中,以提供高速的数据访问和处理能力。小案例大型企业都用哪些数据存储方式
一个成功的大数据分析项目的关键在于对数据的正确存储。Hadoop、Spark和NoSQL等技术是当前最流行的大数据存储方案之一。
例如,Uber使用Hadoop存储和处理其庞大的司机和乘客数据;Twitter使用Hadoop来存储和分析其海量的推文信息;Netflix则使用NoSQL来管理其电影和电视节目库。常见的数据源类型
文本类型包括Excel、TXT、CSV,Excel用于数据处理,CSV适用于跨程序数据转移。
数据库类型如MySQL、SQLServer,关系型数据库支持结构化数据管理,各有适用场景。
数据集群类型Hive将结构化数据映射为表,Spark基于内存处理,提升迭代计算效率。Hadoop生态03Hadoop概述
Hadoop基础Apache开发的分布式架构,用户无需了解底层细节即可开发分布式程序。
HDFS与MapReduceHDFS高容错、高吞吐量,适合超大数据集;MapReduce负责并行计算,分解任务并汇总结果。HBase数据库
HBase特点分布式、可扩展,基于列存储,支持实时查询与批处理,数据多版本且类型单一。
应用场景适用于非结构化数据存储,表可动态增加列,无表间关联查询。
MapReduce编程模型核心思想将大规模数据任务分解到节点处理,再整合结果,适用于TB级数据并行运算。处理流程map阶段转换输入为中间键值对,reduce阶段汇总结果,每个任务分为map和reduce阶段。
Hive数据仓库Hive功能建立在Hadoop上的数据仓库工具,将结构化数据映射为表,提供SQL查询能力。应用价值简化大数据分析,适合非编程人员通过SQL处理Hadoop中的数据。小贴士
Hadoop是最早的一批大数据技术框架,在市面上拥有极高的占有率和庞大的用户群体。Hadoop在大数据体系内,技术难度相对较低,非常适合作为大数据学习的入门技术。小案例Facebook对Hadoop的运用
在《数据大爆炸一分钟=60秒=海量数据》一文中,我们了解到在短短的60秒内,Facebook的用户会分享684478条信息,如此庞大的业务量时刻考验着Facebook的数据处理能力,稍有不慎,随时会宕机。那Facebook面临这一挑战是如何做的呢?我们发现Facebook使用Hadoop存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。它所运用的Hadoop集群机器节点超过1400台,超过15PB原始存储容量,每个商用机器节点配置了8核CPU,12TB数据存储,主要使用StreamingAPI和JavaAPI编程接口。数据开发04维度建模开发维度建模概述
Kimball提出的方法,将数据分为度量与维度,维度表存客观事实,事实表存业务数据。总线矩阵设计
划分数据域与业务过程,明确维度与业务的关联,如某服装公司的交易域、商品域。维度表与事实表
维度表属性需丰富且通用,事实表存储业务度量,粒度需统一,占据主要存储空间。设计步骤
需求调研→数据探查→识别维度与业务→设计总线矩阵→模型设计→命名规范→文档归档→审查验证。Python开发
Python概述解释型、面向对象语言,语法简洁,支持快速开发,拥有丰富库与框架。
Python的优点易于学习、跨平台、支持多编程范式,第三方库如NumPy、Pandas适用于数据科学。
应用案例NASA用Python处理科学数据,YouTube分析视频数据,Netflix开发推荐算法。小案例Python在数据分析中的使用场景
NASA是美国宇航局,他们使用Python来进行科学计算和数据分析。Python的科学计算库和数据分析库使得NASA能够快速地处理和分析大量的科学数据,帮助他们在航天领域做出决策。
YouTube是全球最大的视频分享网站,他们使用Python来处理和分析海量的视频数据。Python的数据分析库和机器学习库使得YouTube能够从海量的视频数据中挖掘出有价值的信息,并为用户提供更好的视频推荐。Netflix是一家提供在线流媒体服务的公司,他们使用Python来开发他们的推荐算法。Python的数据分析和机器学习库使得Netfl
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 收银员安全责任制度
- 政治安全责任制制度
- 教师办公室组长责任制度
- 教育局校园安全责任制度
- 文体中心巡逻员责任制度
- 文物局安全责任制度
- 新闻三审责任制度
- 施工现场卫生责任制度
- 旅游市场安全责任制度
- 春运工作责任制度
- 雷达信号处理基础第二版答案
- 2025至2030中国高纯SiCl4行业产业运行态势及投资规划深度研究报告
- 结肠透析病人护理查房
- 网页设计与开发(HTML5+CSS3) 课件 项目3 利用CSS美化网页文字
- 部编版语文六年级下册 《阅读理解》专项练习题含答案
- GB/T 45613-2025皮革物理和机械试验吸湿性的测定
- 医院运营助理员管理制度
- 统编版语文五年级下册第二单元教材解读 课件
- 厂区环卫清扫管理制度
- DZ/T 0033-1992固体矿产勘查报告编写规定
- 小吃技术传授协议书
评论
0/150
提交评论