




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,数据采集与清洗,2019|02|15,周乐,.,什么是大数据,大数据处理流程,大数据的主要特征,大数据采集的概念,大数据采集应用,.,1,什么是大数据,.,.,.,.,淘宝推荐,依据购物行为偏好引荐,依据你最近的阅读行为和消费行为进行引荐,依据你用的设备往来不断猜特征.,依据时节改变进行引荐,.,2014-03,2015-08,2017-10,2016-03,2018,大数据工作首先写入政府工作报告,十三五规划纲要提出实施国家大数据战略,2018年政府工作报告提出:实施大数据发展行动,注重用互联网、大数据等提升监管效能,国务院发布促进大数据发展的行动纲要,十九大提出推动大数据战略,与实体经济深度融合,行业现状与前景,.,.,2019年人社部拟最新发布15项新职业,1.大数据工程技术人员2.云计算工程技术人员3.人工智能工程技术人员4.物联网工程技术人员5.,.,.,.,什么是大数据,大数据(BigData)是指无法使用传统和常用的软件技术和工具在一定时间内完成获取、管理和处理的数据集,.,大数据的主要特征,.,大数据主要特征,Volume,Velocity,Variety,Veracity,真实性(Veracity),即追求高质量的数据。,容量大(Volume),指大规模的数据量,并且数据量呈持续增长趋势。,速度快(Velocity),指的是数据被创建和移动的速度。,种类多(Variety),指数据来自多种数据源,数据种类和格式。,Value,价值密度低(Value),指随着数据量的增长,数据中有意义的信息却没有成相应比例增长。,.,3,大数据处理流程,.,大数据处理流程,数据预处理就是将采集来的数据从多种数据库导入到大型的分布式数据库中(目前主要是hfds或hive),并同时做一些简单的清洗和预处理工作。,数据统计分析就是对上面已经完成的存储在大型分布式数据库中的数据进行归类统计,可以满足一般场景的分析需求。,数据挖掘是对数据进行基于各种算法的分析计算,从而起到预测的效果,实现一些高级别数据分析的需求。,数据采集就是利用多种数据库(关系型,NOSQL)去存储不同来源的数据。,数据展示就是对以上处理完的结果进行分析,或者形成报表。,.,大数据采集的概念,.,大数据采集的概念,3、大数据采集技术方法大数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值。ETL指的是Extract-Transform-Load,也就是抽取、转换、加载。抽取-从各种数据源获取数据转换-按需求格式将源数据转换为目标数据加载-把目标数据加载到数据仓库中,2、数据采集与大数据采集的区别传统数据采集:来源单一,数据量相当小;结构单一;关系数据库和并行数据库大数据的数据采集:来源广泛,数量巨大;数据类型丰富;分布式数据库,1、什么是数据采集数据采集就是数据获取,数据源主要分为线上数据和内容数据,.,大数据采集系统,1.日志采集系统(ApacheFlume、Scribe),3.数据库采集系统(关系型、nosql等各种数据库),2.网络数据采集系统(Scrapy框架、ApacheNutch),.,5,大数据采集应用,.,.,技能准备,Python基础,Linux操作系统基本操作,数据库基础(SQL语句操作),.,环境准备,Python,Jdk(java环境),数据库(mysql),.,Thanks,.,YOURTITLE,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,.,YOURTITLE,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,.,OKPPT工作室,.,YOURTITLE,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,.,YOURTITLE,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,.,YOURTITLE,21%,9%,28%,42%,.,3,OKPPT工作室,.,YOURTITLE,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,.,YOURTITLE,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.,Nothingisdifficulttothemanwhowilltry.,.,YOURTITLE,Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.Nothingisdifficulttothemanwhowilltry.,Nothin
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离婚协议补充协议:财产分割及子女抚养费用调整范本
- 专利权质押担保合同设计要点与执行细则
- 矿山合作协议与承包权投资合作及风险控制协议
- 社区党组织书记选拔任用事业编制合同范本
- 班组本质安全培训教程课件
- 油气行业安全培训
- 光纤光栅传感课件
- 开叉车技术考试题及答案
- 文化旅游资金申请2025年政策环境与市场分析报告
- 建设银行2025文山壮族苗族自治州秋招笔试价值观测评题专练及答案
- 肝硬化伴胃底静脉曲张的护理查房
- 2024年低压电工考试题库低压电工证考试内容
- 5 国行公祭为佑世界和平
- 食堂员工防鼠知识培训
- 工程伦理 课件全套 李正风 第1-9章 工程与伦理、如何理解伦理- 全球化视野下的工程伦理
- 和大人一起读
- 2023届高考统编版历史三轮冲刺复习:中国赋税制度的演变-选择题刷题练习题(含答案解析)
- 婴幼儿发展高职全套教学课件
- 重污染天气应急减排措施“一厂一策”实施方案
- 【课件】二十四节气和日晷(人教版2019选择性必修1)
- 2023年广东外语外贸大学考研英语练习题100道(附答案解析)
评论
0/150
提交评论