版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
绪论单元概述本单元介绍了大数据概念、由来及产业发展。其次介绍了大数据采集技术,由于大数据来源宽泛,针对不同的大数据,提出了分类采集的概念。最后为了有效利用大数据,避免影响分析结果,介绍了如何对数据进行清洗、去脏等概念和技术。本学习单元以编写一篇调查报告《您所了解的数据采集和处理技术》为例,通过编写报告的要求,达到了解数据采集的概念和当前数据处理的最新技术的目的。教学目标了解大数据的概念,掌握大数据采集数据的概念及常用的采集技术,掌握大数据预处理的概念及基本流程。了解大数据技术的社会需求,树立服务社会、服务区域经济的理念。技能目标:通过常用的大数据采集技术,了解大数据的预处理技术及社会应用。任务1了解大数据概念及发展在进行数据采集学习之前,首先了解什么是大数据、大数据应用和发展,以加深认识,明确学习目的,更有针对性地学习
本任务的目标是编写一篇调查报告《您所了解的数据采集和处理技术》,内容要求:1.采集数据来源不限,但有一定的代表性。2.所用技术是目前主流技术,内容详实,1500字左右,通过深入学习可用于实战。3.调查方式不限,可深入生产、生活一线调查,也可网络搜索。任务描述一、
了解大数据概念及发展
1.概念:大数据(bigdata)是人类在日常生产、生活中产生、累积的数据。这些数据的规模非常庞大,庞大到不能用G或T来衡量,至少是P(1000个T)、E(100万个T)或Z(10亿个T)来描述。
大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征
大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有某些意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的“处理能力”,通过“处理”达到数据的“增值”任务实施
任务实施1.2、产业发展涵盖以下几个方面:
(1)现阶段分析:不断地进行架构演化、技术提升、概念明晰的反复迭代的过程,最终从IaaS(设施及服务)发展到PaaS(平台及服务),发展到当前从PaaS向SaaS(软件及服务)的过渡阶段
(2)行业差异化:数据产业必须满足服务对象的需求。分析发现,即使同一行业的数据业务需求也有巨大的不同,这就意味着针对某一行业的SaaS服务未必能够充分满足同一行业的全部业务需求。(3)架构差异化:数据存储的架构差距,导致了目前大数据IaaS平台和PaaS平台巨大不同,同时也导致了SaaS的巨大差异。且各种架构之间很难进行统一。(4)概念差异化:是指对大数据实质理解的差异化。这种差异化表现在大数据行业的全部。尤其大数据行业流程步骤的焦点,也是构成概念差异化的主要原因(5)未来需求分析:未来大数据PaaS层的核心会从存储和数据转换接口转向“数据处理”,算法是整个PaaS的重要组成部分。没有算法支撑的PaaS平台不是未来的主流。(6)人才需求:未来3至5年,中国需要180万数据人才,但截至目前,中国大数据从业人员只有约30万人二、数据采集技术数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值。然后提供给用户解决方案或者决策参考。ETL,是英文Extract-Transform-Load的缩写,数据从数据来源端经过抽取(extract)、转换(transform)、加载(load)到目的端,然后进行处理分析的过程。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中去,最后对数据仓库中的数据进行数据分析和处理。任务实施2.1数据采集技术分类1.与产业相关的数据采集技术
指工业、农业、医疗等生产、生活或工作过程中产生的应用数据,这部分数据特点是直接由数据源产生数据,经过自动化仪器采集,上传至计算机完成数据的存储和应用。
特点:通过传感器自动采集,经过微处理器(MCU--MicroControllerUnit)处理,最后得到系统数据并通过数据传输技术(UART、I2C、SPI)上传至计算机保存。任务实施2.与系统运行过程相关的数据采集技术
指大型系统或业务平台在一定的时间段内都会产生大量中间过程性数据。对于这些数据进行分析,我们可以得到出很多有价值的数据。
特点:使用开源日志收集系统来进行,其中包括Flume、Scribe等。ApacheFlume是一个分布式、可靠、可用的服务,用于高效地收集、聚合和移动大量的日志数据,它具有基于流式数据流的简单灵活的架构。Scribe是Facebook开源的日志采集系统。Scribe实际上是一个分布式共享队列,它可以从各种数据源上收集日志数据,然后放入它上面的共享队列中,通过队列将数据Push到分布式存储系统中存储。任务实施3.与网络相关的数据采集技术
网络是一个信息的大平台,纷繁杂乱的数据应有尽有,取之不尽,这些数据一般通过网络爬虫和一些网站平台提供的公共API方式从网站上获取。这部分数据特点是数据一般是非结构化数据和半结构化数据为主。
特点:一般使用网页爬虫来进行,其中包括ApacheNutch、Crawler4j、Scrapy等框架。任务实施4.与数据库相关的数据采集技术一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。企业每时每刻产生的业务数据,通过数据库采集系统直接与企业业务后台服务器结合,将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中,最后由特定的处理分许系统进行系统分析。
特点:常使用以下工具1.使用Kettle这个ETL工具,可以管理来自不同数据库的数据。2.使用Sqoop,可以将来自外部系统的数据配置到HDFS上,并将表填入Hive和HBase中。
3.使用flume进行日志采集和汇总。任务实施2.2常用的数据采集系统
1.自动采集系统使用数据传感器经过微处理器处理、转换、过滤,最后转换成系统有用的数据任务实施2.DigSpider数据采集系统
DigSpider数据采集平台可以根据用户提供的关键字和网络地址进行深度及广度采集。自定义存储格式,可以在线采集也可以离线采集。方便用户获得互联网任何信息任务实施三、数据预处理技术
指在进行主要处理数据之前,首先对已有的原始数据进行的一些基本处理。去除一些数据挖掘无法使用的脏数或错误数据,以减轻系统处理数据的负担。如处理重复数据、残缺数据等。
主要包括:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。任务实施3.1数据预处理内容
1.数据审核预处理首先审核数据,剔除脏数。由于数据来源复杂,形式多种多样,因此,审核的方式也有所不同.
(1)准确性审核
(2)适用性审核
(3)及时性审核
(4)一致性审核任务实施3.1数据预处理内容
2.数据筛选筛选是在审核的基础上进一步进行的操作,主要对审核过程中发现的错误予以纠正。数据的筛选在市场调查、经济分析、管理决策中是十分重要的。3.数据排序
按照一定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。在某些场合,排序本身就是分析的目的之一。排序可借助于计算机很容易的完成。
任务实施3.2数据预处理方法
1.数据清洗:填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清洗”数据
。2.数据集成:将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 哮喘持续状态患者的护理团队建设
- GBT 41970-2022《智能工厂数控机床互联接口规范》(2026年)宣贯培训
- GBT 3286.7-2014石灰石及白云石化学分析方法 第7部分:硫含量的测定 管式炉燃烧-碘酸钾滴定法、高频燃烧红外吸收法和硫酸钡重量法专题研究报告
- 《JBT20204-2022熔点测定仪》专题研究报告
- 防刺材料设计及防护机理研究
- 2026年AI风控模型的可解释性技术实践指南
- 《山西博物院-“晋魂”基本陈列》模拟直播口译实践报告
- 进行曲说课稿2025年小学音乐三年级下册人音版(主编:曹理)
- 基于游客满意度的石家庄县域旅游发展对策研究
- 加味右归丸治疗膝骨关节炎的临床疗效及机制研究
- MH-T 5059-2022民用机场公共信息标识系统设置规范
- 企业行政管理实务(含活页实训手册) 课件 9建立工作程序
- MOOC 颈肩腰腿痛中医防治-暨南大学 中国大学慕课答案
- 思皓E10X保养手册
- 安全监理考试题库
- 市政道路改造管网施工组织设计
- 海外项目科技技术管理探讨汇报材料
- 2022年菏泽职业学院教师招聘考试真题
- 超声波清洗机的系统设计(plc)大学论文
- 轧钢厂安全检查表
- 尿素-化学品安全技术说明书(MSDS)
评论
0/150
提交评论