版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章数据流与大数据
11.1数据产生数据源头分类数据埋点2数据流(dataflow)是在20世纪70年代提出的一种计算机体系架构,这在当时是很大胆的想法。相对于数据流,传统的体系结构被归为控制流(controlflow)一类。与控制流相比,数据流计算有天然的并行性,这使得它在早期超级计算机的发展历史上产生了重要的影响。虽然数据流计算机至今没有成为主流,但是在大数据时代,计算机有史以来的“以计算为中心”真正转变成“以数据为中心”。数据本无大小,运用数据的用途决定数据的大小;数据表示的是过去,但是表达的是未来,运用数据可以预知未来。大数据是指那些超过传统数据库处理能力的数据。它的数据规模和传输速度要求很高,或者其数据结构不适合原本的数据库系统。大数据中隐藏的模式和信息,用传统的数据挖掘方式需要相当多的时间和相当大的成本才能提取出来,而采用面向大数据的开源架构则相对容易。目前,业界对大数据还没有一个统一的定义,但是大家普遍认为,大数据具备Volume、Velocity、Variety和Value4个特征,简称“4V”,即数据体量巨大、数据速度快、数据类型繁多和数据价值密度低。4
1.1.1数据产生近年来,信息技术迅猛发展,尤其以互联网、物联网、信息获取、社交网络等为代表的技术日新月异,促使手机、平板电脑等各式各样的信息传感器随处可见,虚拟网络快速发展,伴随着云计算、大数据、物联网、人工智能等信息技术的快速发展和传统产业数字化的转型,数据量呈现几何级增长,根据市场研究资料显示,全球数据总量将从2016年的16.1ZB增长到2025年的163ZB,十年内将有10倍的增长。这是一个数据和信息爆炸的时代,数据已经无处不在,人们无时无刻不在产生数据。数据产生的渠道有很多种:应用系统、移动终端、外部系统等等。数据源头分类在传统数据体系和新数据体系中,数据共分为以下5种:(1)业务数据:消费者数据、客户关系数据、库存数据、账目数据等;(2)行业数据:车流量数据、能耗数据、PM2.5数据等;(3)内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等;(4)线上行为数据:页面数据、交互数据、表单数据、会话数据、反馈数据等;(5)线下行为数据:车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹等。随着硬件扩容,应用系统性能提升,大数据时代下的数据主要来源如下:(1)企业系统:客户关系管理系统、企业资源计划系统、库存系统、销售系统等。(2)机器系统:通过智能仪表和传感器获取行业数据,例如:公路卡口设备获取车流量数据,智能电表获取用电量等;通过各类监控设备获取人、动物和物体的位置和轨迹信息。(3)互联网系统:电商系统、服务行业业务系统、政府监管系统等;互联网系统会产生相关的业务数据和线上行为数据,例如,用户的反馈和评价信息,用户购买的产品和品牌信息等。(4)社交系统:微信、QQ、微博、博客、新闻网站、朋友圈等;社交系统会产生大量的內容数据,如博客与照片等,以及线上行为数据。
数据埋点传统的应用系统中的后台数据库和日志文件只能满足常规的统计分析,对于具体的产品和项目来说,一般还需要根据项目的目标和分析需求进行针对性的“数据埋点”工作。所谓埋点,就是在正常功能逻辑的基础上额外添加的针对性的统计逻辑,即期望的事件是否发生了,发生后应该记录哪些信息,比如用户在当前页面是否使用鼠标滚动,有关的页面区域是否展示了,用户在当前页面停留了多久,页面中相应的链接是否被点击了等等,这些都需要前端工程师进行针对性的埋点才能满足有关的需求分析。随着数据驱动产品理念和数据化运营理念的日益深入,数据埋点已经深入项目的各个方面,成为项目开发中不可或缺的一环。
1.1.2数据采集大数据包括RFID数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。不但数据源的种类多,数据的类型繁杂,数据量大,并且产生的速度快,传统的数据采集方法完全无法胜任。所以,大数据采集技术面临着许多技术挑战,一方面需要保证数据采集的可靠性和高效性,同时还要避免重复数据。大数据采集与传统数据采集有很大的区别:(1)从数据源方面来看,传统数据采集的数据源单一,就是从传统企业的客户关系管理系统、企业资源计划系统及相关业务系统中获取数据,而大数据采集系统还需要从社交系统、互联网系统及各种类型的机器设备上获取数据。(2)从数据量方面来看,互联网系统和机器系统产生的数据量要远远大于企业系统的数据量。(3)从数据结构方面来看,传统数据采集的数据都是结构化的数据,而大数据采集系统需要采集大量的视频、音频、照片等非结构化数据,以及网页、博客、日志等半结构化数据。(4)从数据产生速度来看,传统数据采集的数据几乎都是由人操作生成的,远远慢于机器生成数据的效率。因此,传统数据采集的方法和大数据釆集的方法也有根本区别。大数据采集过程的主要特点是高并发。例如,火车票售票网站和淘宝的并发访问量在峰值时可达到上百万,平时同时也有可能会有成千上万的用户在进行访问和操作。所以采集端需要部署大量数据库才能对其支撑,并且在这些数据库之间进行负载均衡和分片是需要深入的思考和设计的。根据数据源的不同,大数据采集方法也不相同。但是为了能够满足数据采集的需要,采集时都使用了大数据的处理模式,即MapReduce分布式并行处理模式或基于内存的流式处理模式。
数据采集方法针对如下四种不同的数据源,采集方法可以分为以下几大类:1.数据库采集传统企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。随着大数据时代的到来,Redis、MongoDB和HBase等NoSQL数据库也常用于数据的采集。企业通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡和分片,来完成大数据采集工作。2.系统日志采集系统日志采集主要是收集公司业务平台日常产生的大量日志数据,供离线和在线的大数据分析系统使用。高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。系统日志采集工具均采用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求。3.网络数据采集网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。网络爬虫会从一个或若干初始网页的URL开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足设置的停止条件为止。这样可将非结构化数据、半结构化数据从网页中提取出来,存储在本地的存储系统中。4.感知设备数据采集感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。1.1.3数据存储数据存储及管理的主要目的是用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。在大数据存储中,从多渠道获得的原始数据常常缺乏一致性,数据结构混杂,并且数据不断增长,这造成了单机系统的性能不断下降,即使不断提升硬件配置也难以跟上数据增长的速度,这导致传统的处理和存储技术失去可行性。这就需要重点研究复杂结构化、半结构化和非结构化大数据管理与处理技术,解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。具体来讲需要解决以下几个问题:海量文件的存储与管理,海量小文件的存储、索引和管理,海量大文件的分块与存储,系统可扩展性与可靠性。
1.1.4数据应用从宏观上看,由于大数据革命的系统性影响和深远意义,主要大国快速做出战略响应,将大数据置于非常核心的位置,推出国家级创新战略计划。美国2012年发布了《大数据研究和发展计划》,并成立“大数据高级指导小组”,2013年又推出“数据一知识一行动”计划,2014年进一步发布《大数据:把握机遇,维护价值》政策报告,启动“公开数据行动”,陆续公开50个门类的政府数据,鼓励商业部门进行开发和创新。欧盟正在力推《数据价值链战略计划》;英国发布了《英国数据能力发展战略规划》;日本发布了《创建最尖端
IT国家宣言》;韩国提出了“大数据中心战略”。中国多个省市发布了大数据发展战略,国家层面的《关于促进大数据发展的行动纲要》也于2015年8月正式通过。从微观上看,大数据重塑了企业的发展战略和转型方向。美国的企业以GE提出的“工业互联网”为代表,提出智能机器、智能生产系统、智能决策系统,将逐渐取代原有的生产体系,构成一个“以数据为核心”的智能化产业生态系统。德国的企业以“工业4.0”为代表,要通过信息物理系统把一切机器、物品、人、服务、建筑统统连接起来,形成一个高度整合的生产系统。中国的企业认为未来驱动发展的不再是石油、钢铁,而是数据。这三种新的发展理念可谓异曲同工、如出一辙,共同宣告“数据驱动发展”成为时代主题。
1.2数据平台与技术在实际的应用中,根据数据进入云平台后对数据进行处理并对外提供服务的时问周期,我们一般将业务场景分为三类:离线业务、准实时业务和实时业务。实时业务对实时性要求比较高,在数据进入云平台后,需要在秒级别对数据进行处理,并响应服务请求,该类型业务有滑动窗口概念,计算结果随着时间的推移,每秒钟都在发生变化,例如电商行业的商品实时推荐业务,广告行业的点击率实时统计业务等;离线业务的主要特点就是,先提前收集好待处理数据,然后在云平台启动设计好的算法任务对这些数据进行计算,通常这种方式的计算,由于数据的离线处理以及算法的复杂性,会使得完成数据的处理时间比较长,需要几个小时甚至几天。例如客户行为分析业务、搜索引擎的反向索引计算业务等;准实时业务对时间的要求介于实时业务和离线业务之间,数据进入云平台后,需要在数分钟内完成数据处理并响应服务请求,例如交通行业的公交到站时间准实时预测业务,电信行业对伪基站的准实时监测业务等。离线数据平台的相关技术离线计算1)HBaseHBase是一种面向列存储、可伸缩的分布式数据库,基于HDFS做底层存储,可以存储按Rowkey检索的数据,有着高可靠的容灾容错能力。2)HiveHive是基于Hadoop的一个数据仓库工具,以结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。3)HDFSHDFS是一种分布式的文件系统,主要用来存储非结构化数据,可以自动做数据备份,具有较好的容灾能力。虽然支持对任何类型数据的存储,但建议只存储原始数据和处理的中间结果,而对于结构化和半结构化数据,建议保存在上面两种存储框架中。离线数据平台的相关技术离线计算1)MapReduce通过实现Mapper和Reducer来实现分而治之,将大量的计算任务进行拆解和合并。如果需要简单的云平台环境,建议使用该框架,因为MapReduce直接依托原生Hadoop平台,无须搭建更加复杂的计算框架;如果需要采用行业内比较成熟稳定的计算框架,首选该计算框架,因为Hadoop从诞生至今,已经广泛地应用,技术非常成熟。2)SparkSpark是一种与Hadoop相似的开源分布式计算框架,使用了内存计算技术,能在数据尚未写入硬盘时在内存中做内分析运算,有比Hadoop更快的计算速度。该计算框架是离线计算中最流行的框架,主要在于Spark不但具有比MapReduce更快的计算速度,而且还有多种服务组件,例如SparkStreaming和SparkSQL等,能够满足更多的应用场景需求。实时数据平台的相关技术1.Kafka十SparkStreaming架构1)架构介绍在大数据的实时处理业务中,该架构为使用最广泛的架构。Kafka是一个分布式的、高吞吐量、可扩展的基于主题的消息发布/订阅系统,既可以作为消息的接收方,也可以作为消息的提供方,对实时和非实时数据都能够完全容纳,同时Kafka有非常好的数据容灾机制,能够很好地支撑业务需求。SparkStreaming是一种构建在Spark上的实时计算框架,是对Spark计算框架的扩展,能够很好地对接KafkaFlume等数据源。2)使用建议如果云平台中需要做离线业务或者机器学习建议使用该架构,因为SparkStreaming是依附于Spark计算框架,对上述应用场景有更好的支持;如果云平台中已经搭建了Spark,建议使用该架构,这样可以达到统一技术栈的效果实时数据平台的相关技术2.Kafka十Flink架构1)架构介绍该架构
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 邢台应用技术职业学院《国际物流》2025-2026学年期末试卷
- 福建幼儿师范高等专科学校《中西医结合内科学》2025-2026学年期末试卷
- 长春光华学院《中国历史文选》2025-2026学年期末试卷
- 福州工商学院《中国当代文学史》2025-2026学年期末试卷
- 福建华南女子职业学院《教师职业道德》2025-2026学年期末试卷
- 福建生物工程职业技术学院《Cpa税法》2025-2026学年期末试卷
- 福建理工大学《中西医结合妇科》2025-2026学年期末试卷
- 景德镇学院《市场调查》2025-2026学年期末试卷
- 马鞍山师范高等专科学校《动画概论》2025-2026学年期末试卷
- 福建医科大学《小学班队原理与实践》2025-2026学年期末试卷
- 果树修剪培训课件
- 精神科叙事护理案例分享
- 2025版幼儿园章程幼儿园办园章程
- 《物流经济地理》课件(共十二章)-下
- 《大学英语》课程说课说课
- 2025年事业单位招聘考试职业能力倾向测验试卷(造价工程师类)
- 煤矿安全学习平台
- 推掌防御反击技术课件
- 外科ICU职业防护课件
- DB31/T 1339-2021医院多学科诊疗管理规范
- 浙江奇斌钢管科技有限公司年加工3万吨无缝钢管生产线项目环境影响报告表
评论
0/150
提交评论