数据处理方式PPT课件_第1页
数据处理方式PPT课件_第2页
数据处理方式PPT课件_第3页
数据处理方式PPT课件_第4页
数据处理方式PPT课件_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,1.1大数据技术概述1.2大数据技术构架1.3大数据的整体技术和关键技术1.4大数据分析的五种典型工具简介1.5大数据未来发展趋势,娄岩教授,第1章大数据概论,要点,熟悉大数据的基本概念、特点和技术架构。熟悉大数据整体技术和关键技术。熟悉大数据处理分析的五种典型工具。了解大数据的应用案例和在医疗邻域中的应用。了解大数据未来的发展趋势。,本章教学设计,教学设计,一、学习知识点制作幻灯片(参考教材、课件、网络检索)二、网络检索医学大数据国内外最新发展动态,制作演讲幻灯片。(提升能力,学生自由选作),1、大数据概念、数据来源、数据产生的阶段;2、大数据特点、数据格式特点、应用领域;3、大数据的技术构架、整体技术和关键技术;4、大数据分析的典型工具;5、大数据未来发展趋势、隐私和安全问题。,1、大数据的基本概念,大数据(BigData),顾名思义就是数量极其庞大的数据资料。通俗地讲大数据就是貌似毫无意义,但存在着的数据,其中包括结构化,半结构化和非结构化的所有数据。经过处理后的大数据就是大数据信息。,1ZB=1024EB=1024PB=1024TB=1024GB,2014年,每天会有2.3ZB量的数据产生(IBM,2015)。,这是一个什么概念?定义:新一代的技术和架构,具有高效率的的分析,捕捉,发现和分析能力,能够经济地从类型繁杂数据庞大的数据中挖掘出出色的价值。,1.1大数据技术概述概念,2、大数据的数据来源,1,管理信息系统:企业内部使用的信息系统,如办公自动化、业务管理系统等。主要是通过用户输入和系统的二次加工的方式生成的数据,多为结构化数据。,2,网络信息系统:基于网络运行的信息系统是大数据产生的重要方式。如电子商务系统、社交网络、社会媒体等。这类系统多为半结构化或无结构化数据,与前者的区别在于,内部使用不接入外部公共网络。,3,物联网络系统:通过传感器获取外界的物理、化学、生物等数据信息,4,科学实验系统:主要用于学术科学研究,其环境是预先设定的,数据既可以是由真实实验产生,也可以通过模拟方式获取仿真的。,3、生产数据的三个阶段,被动式生成数据:采用数据库技术阶段数据的产生是被动的,数据时随着业务系统的运行产生的。,主动式生成数据:Web2.0、移动互联网的发展使人们可以随时随地通过移动终端生成数据,人们开始主动地生成数据。,感知式生成数据:感知技术的发展促进了数据生成方式发生了根本性的变化,如遍布城市各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据。,1,2,3,4、大数据的特点,5、大数据的特性(四V一O),6、大数据时代的数据格式特性,结构化信息,数据格式特性,半结构化信息,非结构化信息,传统的关系型数据库、可用二维表结构表示。,类似XML、HTML之类,自描述,数据结构和内容混杂在一起。,各种文档、图片、视频/音频等。,6、大数据时代的数据格式特性,可以在关系数据库中找到,结构化信息,是联机事务处理系统(OLTPOn-LineTransactionProcessing)所依赖的信息,可对结构数据库信息进行排序和查询,6、大数据时代的数据格式特性,它是结构化的数据,但是结构变化很大。如电子邮件,文字处理文件以及大量保存和发布在网络上的信息。,半结构化信息,以内容为基础,可以用于搜索。因为要了解数据细节,所以不能将数据简单的组织成一个文件。另外按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。,6、大数据时代的数据格式特性,该信息在本质形式上主要是位映射数据,非结构化信息,数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看),其庞大规模和复杂性需要高级分析工具来创建或利用一种易于人们感知和交互的结构,7、大数据的应用领域,Complexity,RFID传感器,军事侦察,社会网络、数据,天文学,摄影档案馆视频档案,医疗记录,互联网搜索索引,网络日志,生物、基因组学,大规模的电子商务,8、主要的大数据处理系统,1.数据查询分析计算系统:需要具备对大规模数据进行实时或准实时查询的能力。数据规模远超出传统关系型数据库的承载和处理能力。,2.批处理系统:MapReduce是被广泛应用的批处理计算模式具有简单的数据关系;易于划分将数据处理分为Map和Reduce两个简单抽象操作,并提供一个统一的并行计算框架。是目前大数据处理最主流的平台。,3.流式计算系统:主要用于不断产生的数据实时进行处理。,4.迭代计算系统:针对MapReduce不支持迭代计算的缺陷而推出计算模式。,5.图计算系统:用于社交网络、网络连接等包含具有复杂关系的图数据。,6.内存计算系统:常用的有分布式内存计算系统、全内存式分布式数据库系统、可扩展的交互式查询系统。,9、大数据处理的基本流程,大数据处理流程可以定义为,在适合工具的辅助下对于广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展示给终端用户。,9、大数据处理的基本流程,数据抽取与集成:从中提取出关系和实体,经过关联和聚合等操作,按照统一定义的格式对数据进行存储。,数据分析:通过数据抽取和集成环节已从异构的数据源中获取了用于大数据处理的原始数据,根据需求对这些数据进行分析处理。如挖掘、机器学习、数据统计等,可用于决策支持、商业智能、推荐系统等。,数据解释:数据处理结果只有通过合适的展示方式才能被用户正确理解,可视化和人机交互是数据解释主要技术,第一步,核心步骤,结果,10、大数据三个重要的技术问题,利用信息技术等手段处理非结构化和半结构化数据大数据中,结构化数据只占15%左右,其余的85%都是非结构化的数据。由于大数据所具有的半结构化和非结构化特点,寻求“智能知识”反映了大数据研究的核心价值。,探索大数据复杂性、不确定性特征描述的方法及大数据的系统建模已知的最优化、数据包络分析、期望理论、管理科学中的效用理论,应用到研究将主观知识融合到数据挖掘产生的粗糙知识的“二次挖掘”过程中。,数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响决策结构的变化要求人们去探讨如何为支持更高层次的决策而去做“二次挖掘”。通过寻找“二次挖掘”产生的“智能知识”来作为数据异构性和决策异构性之间的桥梁是十分必要的。,1,2,3,高可靠性,高扩展性,高效性,容错性,(1)Hadoop传统数据库对非结构化数据的特征提取(指纹、图像、语音自动识别、基因数据比对等),以及半结构化数据的内容检索(搜索)、理解(语义分析)等的需求和应用无论在技术上还是功能上都束手无策。这样其实就给类似Hadoop的技术和平台提供了很好的发展机会和空间。Hadoop被看成大数据分析的神器,其作为大数据平台的标准,主要有以下几个优点:,(2)阅读Hadoop源代码Hadoop是基于linux开发的,采用JAVA作为主要开发语言,对其他平台的支持不够友好。如对WINDOWS仅可作为开发环境,不可作为生产环境。,分布式文件系统(HDFS),实现和分布式计算框架(MapReduce),Hadoop,构建在HDFS之上,对其数据进行分布式计算,用于搜索领域,由两部分组成:编程模型和运行环境,底层的分布式文件系统是独立模块,用户按照约定的一套接口实现自己的分布式文件系统,也采用master/slave架构,经过简单的配置后,存储在该文件系统上的数据便可被处理,Hadoop是一个基础平台,存储有HDFS、资源调度有YARN、计算引擎有内置的MapReduce(跑在YARN上),Hadoop的HDFS、YARN是大数据系统的底层组件。,1,高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;,2,先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;,3,国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;,4,基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材。,5,信息基础结构技术和应用(IITA),目的在于保证美国在先进信息技术开发方面的领先地位。,(2)HPCC:HighPerformanceComputingandCommunications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目。该项目主要由五部分组成:,(3)Storm:一种开源软件,一个分布式的、容错的实时计算系统,可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm有许多应用领域:,实时分析,在线机器学习,不停顿的计算,分布式RPC(RemoteProcedureCall,远程过程调用),1.2大数据技术构架,大数据的四层堆栈式技术架构,1.3大数据整体技术和关键技术,1整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。,2.大数据关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。,1.4大数据分析的五种典型工具简介,1HadoopHadoop是一个能够对大量数据进行分布式处理的软件框架,是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。,2HPCCHPCC(高性能计算与通信)是美国实施信息高速公路而实施的计划,该计划的实施将耗资百亿美元,其主要目标是开发可扩展的计算系统及相关软件,以支持太位级网络传输性能;开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。,1.4大数据分析的五种典型工具简介,3StormStorm是一种开源软件,一个分布式、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言。,4ApacheDrill为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为Drill的开源项目。ApacheDrill实现了GooglesDremel。,5RapidMinerRapidMiner是世界领先的数据挖掘解决方案,其数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。,1.5大数据未来发展趋势,1数据资源化资源化是指大数据成为企业和社会关注的重要战略资源,并已成为大家争抢的新焦点,数据将逐渐成为最有价值的资产。,2数据科学和数据联盟的成立大数据将催生一些新的学科和行业,成为一门专门的学科,越来越多的高校开设了与大数据相关的学科课程,为市场和企业培养人才。大数据联盟是由厦门艾普凯尔信息科技有限公司发起的联合各方资源、促进多方合作,并由中国互联网协会反垃圾信息中心等作为支持单位的组织,成立开始,逐步吸收全国各地的大型企业单位加入,强效联合各企业资源,最终形成强大的“数据共享联盟”。,1.5大数据未来发展趋势,大数据隐私和安全问题大数据引发个人隐私、企业和国家安全问题正确合理利用大数据,促进大数据产业的健康发展开源软件成为推动大数据发展的动力,精品课资源网站,内容小结,本章主要介绍了大数据的基本概念、特点和技术架构,针对大数据整体技术和关键技术也进行了较为详尽的阐述,对大数据处理分析中常用的五种典型工具做了简介,最后就大数据的应用案例以及大数据在未来的发展趋势也一并做了概述。大数据技术的发展必将对人类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论