版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据8.3大数据关键技术本章内容8.2大数据定义与特征8.1大数据发展历程8.4大数据典型应用
掌握大数据的定义及特点了解大数据的发展历程
理解大数据的主要处理环节及技术教学目标
熟悉大数据的典型应用场景8.1大数据发展历程8.1大数据发展历程
第八章
8.1.1计数时代动物和人都具有某种“原始数觉”鸟会发现蛋少了吗?8.1大数据发展历程
第八章
8.1.1计数时代人们利用自己的手指或身体其他部位来帮助计数digit:手指、脚趾、数字十进制8.1大数据发展历程
第八章
8.1.1计数时代计数工具结绳记数算筹算盘8.1大数据发展历程
第八章
8.1.2数据文明时代当数值这样的数据已经不足以记录文明时,文字、图片等形式的数据“应运而生”。8.1大数据发展历程
第八章
8.1.3数字系统时代随着第一台计算机的出现,数据逐渐的“数字化”8.1大数据发展历程
第八章
8.1.3数字系统时代数据库系统,导致大量运营式系统的出现如:超市销售管理系统、交易管理系统等此阶段的数据,是被动产生的,是为运营或研究而服务的。数据:是描述事物的符号记录8.1大数据发展历程
第八章
8.1.4互联网时代互联网的发展,让人们产生了强烈的“分享、展示自己”的意愿。以智能手机、平板电脑为代表的新型移动设备的出现,提供了更便捷的信息发布途径。数据开始主动产生如何通过数据,挖掘出更多潜藏的价值成了众多企业、研究机构关心的重点话题8.1大数据发展历程
第八章
8.1.5感知系统时代电子技术的发展,各种传感设备的出现,源源不断地产生新的数据(自动的)。大数据终于初具规模。面向大数据市场的新技术、新服务、新业态不断涌现各行各业的决策逐步从“业务驱动”向“数据驱动”转变8.1大数据发展历程
第八章
8.1.6大数据时代2012年3月,美国奥巴马政府宣布启动“大数据研究与开发计划”,投入2亿美元进行大数据相关技术研发。2013年,英国政府发布《英国数据能力发展战略规划》,并建立世界首个“开放数据研究所”。2014年,大数据首次写入我国政府工作报告。2015年8月,国务院发布《促进大数据发展行动纲要》。2017年1月,工信部发布《大数据产业发展规划(2016-2020)》,全国各地相应推出大数据发展政策。8.2大数据定义与特征8.2大数据定义与特征
第八章
2011年5月,麦肯锡研究院发布报告,给出了大数据最早的定义:“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征”。研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。8.2
大数据定义与特征
第八章
8.2.1海量性(Volume)“摩尔定律”:集成电路上可容纳的元器件的数目,约每隔18~24个月便增加一倍,性能也将提升一倍。2020年,南加州大学(USC)的科研人员经过研究得到数据:2007年后每一年的数据都将在上一年的基础上翻倍增加。因特尔公司首席执行官BrianKrzanich表示,2020年互联网用户每天产生1.5GB的数据。HIS数据预测,到2025年,全球互联网(IoT)连接设备的总安装量预计将达到754.4亿8.2
大数据定义与特征
第八章
8.2.1海量性(Volume)8.2
大数据定义与特征
第八章
8.2.2多样性(Variety)数据的形式是多种多样的数字(比如:价格、交易数据、人的体重、人数等)文本(比如:邮件、网页信息等)图像、音频、视频、位置信息(经纬度、海拔等)在这些数据中,又分为结构化数据和非结构化数据。8.2
大数据定义与特征
第八章
8.2.2多样性(Variety)企业中80%的数据都是非结构化数据,并且每年会按指数增长60%。在非结构化数据中蕴藏着庞大的信息宝库,这才是大数据时代需要着重挖掘的“黄金”。8.2
大数据定义与特征
第八章
8.2.3高速性(Velocity)在刚刚过去的一分钟时间内,数据世界可能已经瞬息万变:谁的速度更快,谁就有优势8.2
大数据定义与特征
第八章
8.2.4价值度(Value)数据价值密度的高低和数据总量的大小成反比。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据。真实性(Veracity)被认为是大数据的第五个特征。如果数据本身是虚假的,那么分析研究它就失去了存在的意义8.3大数据关键技术8.3
大数据关键技术
第八章
数据科学:从数据中提取有用知识的一系列技能和知识数据工程:利用工程的观点进行数据管理、分析及系统研发与应用。大数据技术:数据科学与数据工程之间的桥梁,即如何在数据工程中的每一个步骤中使用某种技术实现数据科学的思维方法。一般包括大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据可视化等。8.3
大数据关键技术
第八章
8.3.1大数据采集技术公开数据:如:国家开放数据、个人共享数据等,可直接通过公开平台下载。企业内部数据:数据资产可通过企业洽谈、购买的方式获取。内部隐私数据则不能直接获取。传感器数据:直接获取或商务购买。网络数据:网络爬虫。8.3
大数据关键技术
第八章
8.3.1大数据采集技术政府数据开放性弱,成本高独立性强,集成难多样性重,整合难自有系统数据维度不同,互补不易数据孤岛,不愿分享形式不同,整合不易互联网数据网站结构不同,批量获取不易爬虫监管,技术要求多形式多样,整合不易(5)网络数据采集(1)数据库采集(2)系统日志采集(3)接口导入(4)DPI采集重点:全过程8.3
大数据关键技术
第八章
8.3.1大数据采集技术(1)数据库数据采集按难易程度分为:全表删除插入、增量字段、时间戳、触发器8.3
大数据关键技术
第八章
8.3.1大数据采集技术(2)系统日志采集通过采集日志把已经提交的事务数据抽取出来,对没有提交的事务则不做任何操作。8.3
大数据关键技术
第八章
8.3.1大数据采集技术(3)网络数据采集主要有:网络爬虫、分词系统、任务与索引系统等8.3
大数据关键技术
第八章
8.3.2大数据预处理技术在数据收集过程中,必须考虑数据的如下问题:(1)准确性:与期望值之间的匹配度。人为错误、计算机错误、格式错误等都会影响数据的准确性。(2)完整性:数据的精准性和可靠性。(3)一致性:不同数据平台获得的数据是否一致。8.3
大数据关键技术
第八章
8.3.2大数据预处理技术
源数据数据清理/清洗数据集成数据转换数据归约分析模型解决现实世界数据不完整、有噪声、不一致问题。解决多个数据源数据合并问题。解决数据挖掘所需数据形式的问题解决数据集体量问题8.3
大数据关键技术
第八章
8.3.3大数据存储技术古代壁画图书馆PC机数据中心服务器数据存储的发展之路8.3
大数据关键技术
第八章
8.3.3大数据存储技术(1)单机系统:更多的指PC或个人计算机系统(一个控制器+硬盘)软盘8.3
大数据关键技术
第八章
8.3.3大数据存储技术(2)服务器系统:服务器是计算机的一种,它比普通计算机运行更快、负载更高、价格更贵。服务器在网络中为其它客户机(如PC机、智能手机、ATM等终端甚至是火车系统等大型设备)提供计算或者应用服务。塔式服务器
机架式服务器
刀片服务器8.3
大数据关键技术
第八章
8.3.3大数据存储技术
数据中心据“百度百科”定义:数据中心是全球协作的特定设备网络,用来在因特网络基础设施上传递、加速、展示、计算、存储数据信息。据“知乎”解释:IDC(InternetDataCenter)是互联网数据中心的简称。IDC通常可以被定义为一种拥有完善的设备(包括高速互联网接入带宽、高性能局域网络、安全可靠的机房环境等)、专业化的管理、完善的应用级服务的服务平台8.3
大数据关键技术
第八章
8.3.3大数据存储技术8.3
大数据关键技术
第八章
8.3.3大数据存储技术云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。基础设施即服务(IaaS)平台即服务(PaaS)软件即服务(SaaS)数据即服务(DaaS)8.3
大数据关键技术
第八章
8.3.3大数据存储技术(3)分布式系统
由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。用更多的机器,处理更多的数据分为:分布式存储(storage)分布式计算(computation)8.3
大数据关键技术
第八章
8.3.3大数据存储技术分布式存储(storage)分布式文件系统(DistributedFileSystem,DFS)物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点(可简单的理解为一台计算机)相连;或是若干不同的逻辑磁盘分区或卷标组合在一起而形成的完整的有层次的文件系统。主要有:FastDFS、MogileFS、HDFS、TFS、MooseFS、KFS、Ceph8.3
大数据关键技术
第八章
分布式存储(storage)分布式数据库系统(distributeddatabase,DDBS)一群分布在计算机网络上、逻辑上相互关联的数据库。分布式数据库是一种设计理念,不是数据库产品Oracle、SQLServer均有分布式部署功能国产:TiDB、OceanBase、TDSQL2021年5月国产数据库流行度排行
8.3.3大数据存储技术8.3
大数据关键技术
第八章
分布式计算(computation)把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算,然后再进行结果汇总。目的在于分析计算海量的数据MapReduce:批处理模式Spark:基于内存的分布式计算Flink:可以处理批处理任务的流处理框架Storm:流处理模式
8.3.3大数据存储技术Nutch项目:开源搜索引擎系统,始于2002年。但开发者认为,这一架构可扩展度不够,不能解决数十亿网页的搜索问题2004年,开源实现GFS,即Nutch的分布式文件系统NDFS。2005年,实现MapReduce编程模型。2006年,NDFS和MR移出Nutch,成为ApacheLucene的子项目,称为Hadoop。Lucene是一个广泛使用的文本搜索系统8.3
大数据关键技术
第八章
Hadoop:
8.3.3大数据存储技术随着处理任务不同,各种组件相继出现,丰富了Hadoop生态圈8.3
大数据关键技术
第八章
数据分析:用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。描述性统计分析探索性数据分析验证性数据分析
8.3.4大数据分析技术8.3
大数据关键技术
第八章
描述性统计分析:展示数据长的什么样,使用几个关键数据来描述整体的情况。最小值/最大值:所有数据的最小值/最大值,可用来检验数据是否存在异常情况;平均值:所有数据的平均值/加权平均值,用来描述数据的集中趋势;中位数:将所有数据排序后,位于最中间的数据。方差/标准差:用来计算每个变量(观察值)与总体平均值之间差异,通常用于描述数据的离散趋势。其中方差为标准差的平方值。分位数:将所有的值由小到大排列并分成几个等份,常用的有中位数(即二分位数)、四分位数、百分位数。四分位数也用于箱型图的绘制。峰度:反映数据分析的平坦度,通常用于判断数据正态性情况,峰度的绝对值越大,说明数据越陡峭。偏度:反映数据分布偏斜的方向和程度,偏度的绝对值越大,说明数据偏斜程度越高。
8.3.4大数据分析技术8.3
大数据关键技术
第八章
8.3.4大数据分析技术描述性分析结果8.3
大数据关键技术
第八章
8.3.4大数据分析技术探索性数据分析:对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。例如:案例“啤酒与尿布”8.3
大数据关键技术
第八章
8.3.4大数据分析技术8.3
大数据关键技术
第八章
8.3.4大数据分析技术探索性数据分析在构建数据产品与支持决策方面的作用8.3
大数据关键技术
第八章
8.3.4大数据分析技术验证数据分析:是传统统计学的内容。所谓验证,就是要根据研究的问题提出假设,再用统计的方法进行判断提出的假设是否正确。按照是否进行抽样而分为:描述性分析(探索性分析也有该部分内容)推断性分析(如参数估计和假设检验)8.3
大数据关键技术
第八章
8.3.5大数据挖掘技术数据挖掘:又称数据库中的知识发现(KnowledgeDiscoverinDatabase,KDD),是目前人工智能和数据库领域研究的热点问题。它是指从数据库的大量数据中揭示隐含的、先前未知的并有潜在价值的信息的非平凡过程。顾名思义,数据挖掘就是试图从海量数据中找出有用知识的过程。常用方法主要有:分类、回归、聚类、关联规则、偏差分析等8.3
大数据关键技术
第八章
8.3.6大数据可视化技术大数据可视化的目的是准确而高效、精简而全面地传递信息和知识。图表展示数据,实际上比传统的统计分析法更加精确和有启发性。我们可以借助可视化的图表寻找数据规律、分析推理、预测未来趋势。8.3
大数据关键技术
第八章
8.3.6大数据可视化技术8.3
大数据关键技术
第八章
8.3.6大数据可视化技术要正确的理解数据,必须要清楚数据的背景信息。主要如下:何人(who):谁收集的数据?数据是关于谁的?如何(how):数据是如何收集的?何事(what):数据是关于什么的?围绕在数字周围的信息是什么?何时(when):数据是什么时候采集的?何地(where):数据是来自什么地方?8.3
大数据关键技术
第八章
8.3.6大数据可视化技术8.3
大数据关键技术
第八章
8.3.6大数据可视化技术数据可视化的一般步骤:从基本的可视化着手,思考最终试图绘制什么样的变量,X轴和Y轴分别代表什么意思等。确定最能提供信息的指标(信息或变量),对选中的指标选择准确的图表类型(比如:散点图、柱状图等)。在绘制出的可视化图表中,利用颜色、对比值等方式将读者的注意力引向关键信息。8.3
大数据关键技术
第八章
8.3.6大数据可视化技术数据可视化常用图表8.3
大数据关键技术
第八章
8.3.6大数据可视化技术数据可视化常用工具ExcelTableauRPythonD3EchartsIcharts8.4大数据典型应用8.4
大数据典型应用
第八章
8.4.1医疗大数据8.4
大数据典型应用
第八章
8.4.1医疗大数据医疗大数据的典型特点:全生命周期:从婴儿时期的出生医学证明、疫苗接种记录,到儿童时期的体验数据、在校行为数据,再到青年时期的体验数据、孕产妇数据,老年时期的养老数据等,贯穿了人的整个生命周期。多维度
:这些数据包含了个人数据、社会数据、药企数据、险企数据等多个维度数据。跨地域:人口的流动导致相应的医疗数据产生了地域的变化,多人的流动甚至导致了更多的群体医疗数据的产生,比如一些大范围的传染性疾病,就与地域与极大的关系。8.4
大数据典型应用
第八章
8.4.1医疗大数据医疗大数据的价值体现:数据收集、整合,形成数据资产:医疗行业拥有大量的病例、病理报告、治愈方案、药物报告等,这些都是宝贵的资产,经过后续的分析、应用,可辅助病人快
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 蓝色卡通风世界读书日主题
- 注册会计师审计中风险评估重大错报风险的识别技巧
- 某服装厂质量控制管理制度
- 电器厂生产安全条例
- 下篇 模块五 工业机器人标准及性能指标
- 2026广东东莞厚街社区招聘社区网格员2人备考题库附参考答案详解(培优b卷)
- 2026江西赣州市政公用集团社会招聘39人备考题库及答案详解【网校专用】
- 2026四川宜宾汇发产业新空间投资有限公司第一批员工招聘5人备考题库附参考答案详解(培优a卷)
- 某玻璃制造厂产品质量控制要求
- 2026洞头海霞青年营度假酒店招聘5人备考题库(浙江)及答案详解【典优】
- 中国智·惠世界(2025)案例集-中国人工智能产品和技术在亚洲、非洲、南美洲、欧洲等国家和地区赋能发展的生动实践
- 2025年春节后家具制造行业复工复产安全技术措施
- 中国历史常识吕思勉课件
- 中国玫瑰痤疮诊疗指南(2025版)解读
- 2024-2025学年福建省三明市宁化县九年级上学期期中考试数学试卷
- 纺织品生产流程:从棉花到成衣的完整旅程
- 《建筑图纸的尺寸标注》课件
- 铣刀具刃磨培训
- 甲亢危象观察及护理
- 《地下硐室爆破技术》课件
- DBJ33T 1294-2023 建设工程造价指标采集分析标准
评论
0/150
提交评论