版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据“新一代信息技术系列丛书信息技术(电子信息类)第二章01大数据概述大数据概述一、数据大数据是互联网时代的产物,用于海量的、各种类型的数据存储、处理与分析,这些数据根据结构分类可划分为3种:结构化数据(如RDD、SOL、JSON、NoSQL、表格数据等)、半结构化数据(如日志文件、XML文档、JSON文档、E-mail等)和非结构化数据(如办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等)。半结构化数据半结构化数据是一种弱化的结构化数据形式,它并不符合用关系数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,该标记用来分隔语义元素及对记录和字段进行分层,数据的结构和内容混在一起,没有明显的区分。结构化数据非结构化数据结构化数据也称为行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系数据库进行存储和管理。这类数据的本质是“先有结构,后有数据”。是没有固定结构的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。相较于结构化数据有比较成熟的分析工具,用来挖掘和分析非结构化数据的工具正处于萌芽和发展阶段。4v大数据的特征大数据概述二、大数据的内涵和外延2011年,IDC将大数据重新定义为:在大数据原有的三维特征--数量、多样、速度基础上,增加了另一个新的特征--价值。IDC强调:“目前,对于庞大的数据量。通过经济的方式,极速发掘、获取和分析处理的技术,进而提炼获取价值,这是大数据新时代的专属。”1234具备超出典型数据库软件收集、存储、管理和分析能力的数据集容量大(Volume)具备快速、实时的数据处理能力;大数据的采集、处理和计算速度要快速度快(Velocity)具备从稀疏的数据中挖掘高价值内容的意义价值高(Value)具备多样性的结构化、半结构化、非结构化等多种类型的数据形式多样性(Variety)4V大数据概述二、大数据的内涵和外延大数据、云计算、物联网之间的关系大数据、云计算、物联网三者的概念一直保持着密不可分的联系,伴随着三者技术的日臻成熟与应用的遍地开花,以及伴生的新一代信息技术的快速发展,我们已经由IT时代逐步过渡到DT(DataTechnology)时代。云计算应用为大数据技术的发展提供了一定的数据处理平台和技术支持,也为物联网提供了海量数据存储的保障。大数据为云计算应用提供了数据环境,也为物联网产生的数据提供了强大的分析助力。物联网为云计算应用平台提供了无限的应用空间,也极大地推动了大数据技术的广泛应用。(1)(2)(3)大数据概述三、大数据处理的一般流程和面临的挑战1大数据处理的一般流程是指通过对互联网、系统运行日志、文件系统、移动端用户、传感器等不同渠道获取各类大规模、异构、多源的数据。数据预处理是指对采集到的同构、异构数据进行预处理,包括消除噪声数据、缺失值数据、冲突数据等的影响。是指人们对数据进行收集、组织、存储、加工、传播和利用的一系列活动总和。数据管理经历人工管理、文件管理、数据库管理3个阶段。数据分析是大数据处理与应用的关键环节,决定了大数据的潜在价值,以及分析预测结果的应用准确性。是指将大数据分析与预测结果以图形、图像等直观方式显示给用户,并可与用户进行交互处理。是指将经过分析、处理后挖掘得到的结果应用于管理决策、战略规划等过程,它是对大数据分析结果的检验与验证。数据采集数据预处理数据管理数据分析数据可视化数据应用大数据概述三、大数据处理的一般流程和面临的挑战2大数据面临的挑战大数据规模带来的挑战通过数据采集获取的大量数据经过预处理后,需要被存储、管理起来,并根据数据查询、分析任务的需求进行数据加工和计算,并满足高时效性特征,这样对数据存储就带来了较大的压力。应对规模性问题,可以采用分布式系统来解决,通过使用多台计算机来分担存储和计算任务,将数据存储在不同节点,并将计算任务分解到不同的计算节点并发执行,这些相互协作的存储和计算节点通过高速网络互联起来,进一步通过管理有效调度存储和计算任务。大数据安全面临的挑战大数据所存储的数据量非常巨大,往往采用分布式的方式进行存储,而由于分布式存储的路径视图相对清晰、数据量过大,所以数据保护机制相对简单,黑客容易利用相关漏洞实施不法操作,造成安全问题。由于APT攻击具有强针对性,且攻击时间长,所以一旦攻击成功,大数据分析平台输出的最终数据均会被获取,容易造成较大的信息安全隐患。02数据采集与治理数据采集与治理一、大数据来源与多源数据采集方式大数据采集技术通过RFID数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化、非结构化的海量数据。这些海量数据的种类多、类型繁杂、数据量大、产生的速度快,对数据的可靠性和高效性要求高,同时要避免数据的重复。大数据的采集从数据源上可以分为以下4类:123Web数据(包括网页、视频、音频、动画、图片等)日志数据数据库数据4其他数据(感知设备数据等)数据采集与治理二、数据的预处理数据清理数据集成数据变换数据规约删除无关数据、重复数据、平滑噪声数据筛选掉与主题无关的数据,处理缺失值、异常值等。将多个数据源合并存放在一个一致的数据存储中。将数据转换成“适当的形式,以适用于分析任务及算法的需要。尽可能保持数据原貌的前提下,最大限度地精简数据量。03数据管理数据管理一、分布式文件系统分布式文件系统(DistributedFileSystem,DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连;或是若干不同的逻辑磁盘分区或卷标组合在一起而形成的完整的、有层次的文件系统。分布式文件系统的定义1分布式文件系统的特点2分布式文件系统把大量数据分散到不同的节点上进行存储,大大降低了数据丢失的风险。分布式文件系统具有冗余性,部分节点的故障并不影响整体的正常运行。安全性是分布式文件系统最主要的特征。分布式文件系统具有极强的可扩展能力。HDFS3HDFS是Hadoop的分布式文件系统,是一种典型的分布式文件系统,目前应用比较广泛是Hadoop的数据存储基础。HDFS源于谷歌公司在2003年10月发表的GFS(GoogleFileSystem)论文。特点高容错流式数据访问支持超大文件高数据吞吐量构建在廉价机器上数据管理1关系数据库的定义所谓的关系数据库(RelationalDatabase,RDB),就是指基于关系模型的数据库,在计算机中,关系数据库是数据和数据库对象的集合,而管理关系数据库的计算机软件称为关系数据库管理系统。关系数据库优点:二、关系数据库关系数据库可以理解为关系表的集合,所有数据信息都存放在二维表格结构的表中,个关系数据库包含多个数据表,每一个表包含行和列。一般来说,数据库都有多个表。数据库不仅包含表,还包含其他数据库对象。节省存储空间有效防止输入错误方便数据修改数据管理二、关系数据库关系数据库中的一些基本术语2基本术语关系数据库的特点在于它将每个具有相同属性的对象独立地存放在一个表中。对任何一个表而言,用户可以新增、删除和修改表中的数据,而不会影响表中的其他数据。3关系完整性实体完整性数据管理二、关系数据库关系模型的完整性规则是对数据的约束。关系模型提供了3类完整性规则:实体完整性规则、参照完整性规则和用户定义完整性规则。其中实体完整性规则和参照完整性规则是关系模型必须满足的完整性约束条件,称为关系完整性规则,关系模型中有以下3类完整性约束。实体完整性指关系的主属性(主键的组成部分)不能是空值。参照完整性如果关系R1的外键与关系R2中的主键相符,那么外键的每个值必须在关系R2中主键的值中找到,或者是空值。用户定义完整性用户定义完整性是指针对某一具体数据库的约束条件。它由应用环境所决定,反映某一具体应用所涉及的数据必须满足的要求。常见的关系数据库管理系统有SOLServer、Oracle、MySOL等。微软公司推出的关系数据库管理系统;具有使用方便,可伸缩性好和相关软件集成度高等优点;可以跨越从台式计算机到大型多处理器的服务器等多种平台使用。1.SOLServer是甲骨文公司发的一款关系数据库管理系统;Oracle是目前世界上流行的关系数据库管理系统;系统可移植性好,使用方便,功能强;适用于各类大、中、小、微机环境。2.0racleDatabase是一个关系数据库管理系统;由瑞典MySOLAB公司开发,目前是最流行的关系数据库管理系统;在Web应用方面,MSOL是最好的关系数据库管理系统应用软件之一。3.MySOL数据管理二、关系数据库4常见的关系数据库三、NoSQL数据库数据管理NoSQL,泛指非关系型的数据库。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。01020304键值存储数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。键值(Key-Value)存储数据库文档型数据库与键值存储数据库类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,如JSON。文档型数据库图形数据库同其他行列以及刚性结构的SOL数据库不同,它是使用灵活的图形模型,并且能够扩展到多台服务器上。图形(Graph)数据库列存储数据库通常用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。列存储数据库四、多模态数据管理数据管理从狭义上讲从广义上讲多模态数据指的是多媒体数据,如文本、音频、视频;多模态数据是对原始数据集采用不同的特征提取方法得到的不同特征组合。多模态数据是指在多种不同设备或场景下采集到的数据。现实世界中的数据集往往是多模态的。AbutionDB是一个多模态数据库,支持动/静态知识图谱、时序事件数据、空间数据、机器学习特征、关系型数据、文本数据的存储;其中动态知识图谱平台AbutionGraph是一套包含数据采集、存储、计算、分析、监控的闭环大数据解决方案多模态数据库AbutionDB04数据分析概述数据分析概述一方面需要对体量庞大的结构化和半结构化数据进行精准、高效、深度分析,挖掘潜藏的隐性信息(例如从网页信息中获知语义、情感、意向等)。相关性及回归性的统计分析方法分类、聚类等典型的基于机器学习的分析方法数据分析的典型方法包括另一方面,越来越多的非结构化数据同样需要深入分析,将海量、复杂、多源的声音、图形、图像信息转化为机器能够识别的、具有明确语义的信息,进而提取有用的知识。大数据分析技术面向自然语言、网络数据等的典型分析模型及应用可以说,数据分析是将各类数据转化为知识和价值的最关键的一步。05数据可视化一、数据可视化的主要技术数据可视化数据可视化是将抽象的“数据”以可视化的形式显示出来,以帮助人们理解数据。现在的数据可视化都是应用计算机技术将数据转换成图形或动态图像进行显示,并且可以进行交互处理。数据可视化不仅涉及计算机辅助设计,还包括计算机图形学、图像处理、计算机视觉等多个方面,是研究数据处理、数据表示、决策分析等一系列问题的综合技术。数据可视化3个分支123科学可视化科学可视化主要涉及气象学、生物学、物理学、农学等,主要是对客观事物的体、面及光源等的渲染。信息可视化信息可视化是一个将计算机技术和图形相结合的跨学科领域,主要是利用图形图像方面的技术与方法帮助人们理解和分析数据。可视化分析可视化分析在科学可视化和信息可视化的基础上,更加注重分析推理与交互,是科学可视化与信息可视化领域发展的产物。二、大数据可视化与可视分析案例数据可视化通常在分析大数据可视化及其案例的时候,一定会提到“南丁格尔玫瑰图”,下面就这一著名的可视化图进行分析。南丁格尔玫瑰图(NightingaleRoseDiagram)又名鸡冠花图(CoxcombChart)或极坐标区域图(PolarAreaDiagram)。南丁格尔玫瑰图南丁格尔玫瑰图是将柱状图转化为更美观的饼状图形式,是极坐标化的柱状图。不同于饼状图用角度表现数值或占比,南丁格尔玫瑰图使用扇形的半径表示数据的大小,各扇形的角度则保持一致。南丁格尔玫瑰图是统计学家利用图形来展示数据进行的早期探索,南丁格尔所作的贡献,充分说明了数据可视化的价值,特别是在公共领域中的价值。三、数据可视化工具和软件数据可视化目前数据可视化工具有很多,大部分都是免费的,能够满足用户的各种可视化需求。数据可视化工具从入门到高级分析,主要有入门级工具(Excel)、信息图表工具(D3、Flot、ECharts、Tableau)和高级分析工具(Processing、R、Python和Gephi)等。入门级工具Excel是微软公司的办公软件Office系列组件之一,该软件的工作簿用来存储数据,可以进行各种数据的处理、统计分析和辅助决策操作,被广泛应用于管理、统计、金融等领域。信息图表工具信息图表是信息、数据、知识等的可视化表达工具,它能更高效、直观、清晰地分析和传递信息,在计算机科学、数学和统计学领域有着广泛的应用。高级分析工具Processing是一门适合设计师和数据艺术家的开源语言。R是用于统计分析、绘图的语言和操作环境。Python是一种面向对象的解释型计算机程序设计语言。Gephi是网络分析领域的数据可视化处理软件06数据安全与隐私保护一、数据安全与传统信息安全的关系数据安全与隐私保护信息安全或数据安全有对立的两方面的含义一方面是数据本身的安全,主要是指采用现代密码算法对数据进行主动保护,如数据保密、数据完整性、双向强身份认证等;另一方面是数据防护的安全,主要是采用现代信息存储手段对数据进行主动防护,如通过磁盘阵列、数据备份、异地容灾等手段保证数据的安全。数据安全是一种主动的保护措施,数据本身的安全必须基于可靠的加密算法与安全体系对称算法公开密钥密码体系包括二、数据安全及隐私保护支撑技术数据安全与隐私保护构建大数据全生命周期的数据安全防护体系和支撑该体系的关键技术(包括授权、加密、脱敏、密钥共享等数据安全及隐私保护技术),是确保大数据在采集、传输、存储、挖掘、分析、处理、交互、共享及服务各环节,特别是在移动计算、物联网、云计算环境下安全管理和使用面临的巨大挑战。1234数据加密是指通过加密算法和加密密钥将明文转变为密文,而数据解密则是通过解密算法和解密密钥将密文恢复为明文。数据加密技术数据脱敏也称为数据的脱隐私化,指的是在数据交互、共享与服务的过程中,通过某种脱敏规则将数据包含的敏感隐私信息如手机号、身份证号、姓名、银行卡号等进行转换或修改的安全保护技术。数据交互安全与脱敏技术区块链是一种去中心化的分布式账本,是一种互联网数据库技术,具有开放性、不可撤销、不可篡改、加密安全性的特点区块链技术数字签名(又称公钥数字签名)是只有信息的发送者才能产生的、其他人无法伪造的一段数字串。数据签名技术07大数据处理平台大数据处理平台从数据在信息系统中的生命周期来看,大数据从数据源经过分析挖掘到最终获得价值一般需要经过5个主要环节数据准备数据存储与管理计算处理数据分析知识展现大数据解决方案从结构上分为数据获取层、数据存储层、数据分析层(含数据集市、经营分析、决策支持、数据分析与挖掘)、数据管控及数据可视化层5个层次架构。大数据解决方案08社会网络大数据社会网络大数据一、社会网络大数据面临的挑战社会网络在产生海量数据给社会生产和人们生活带来诸多便利的同时,伴随产生了全新的巨大挑战。数据的语义理解与分析的挑战社会网络大数据主要以文本、图像、音频和视频等形式为主,大部分的数据缺乏文本描述,无法自动分析并理解一些图像与音、视频内容。数据的群体行为分析与挖掘的挑战社会
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深度解析(2026)《GBT 30099-2013实验室离心机通 用技术条件》
- 深度解析(2026)《GBT 30262-2013空冷式热交换器火用效率评价方法》
- 2026年佛山二模地理试题及答案
- 深度解析(2026)《GBT 29910.2-2013工业通信网络 现场总线规范 类型20:HART规范 第2部分:HART有线网络数据链路层服务定义和协议规范》
- 腰椎间盘突出症运动康复专家共识总结2026
- 《FZT 07037-2024纺织企业水重复利用率计算方法》(2026年)合规红线与避坑实操手册
- 《CHT 4018-2013基础地理信息应急制图规范》(2026年)合规红线与避坑实操手册
- 北师大版一年级数学《100以内数加与减(一)》教案
- 广东省深圳市南山外国语集团2026年中考一模英语试题(含答案)
- 年产1200t溴代吡咯腈项目可行性研究报告模板-立项备案
- 2026中国中医药出版社招聘10人笔试参考试题及答案详解
- 2026年广东广州市高三二模高考语文试卷试题(含答案详解)
- 2026年上海市徐汇区初三语文二模试卷及答案(详解版)
- 2026年眉山小升初招生考试冲刺题库
- 2026中航西安飞机工业集团股份有限公司校园招聘笔试历年难易错考点试卷带答案解析
- 2026届黑龙江省齐齐哈尔市中考押题化学预测卷(含答案解析)
- 司法鉴定内部复核制度
- 普通高中语文课程标准2025年版解读
- 护理专业学生实习带教质量评价体系构建
- 化工安全设计课件
- CJT 546-2023 生活垃圾焚烧烟气净化用粉状活性炭
评论
0/150
提交评论