大数据与云计算简答题资料讲解_第1页
大数据与云计算简答题资料讲解_第2页
大数据与云计算简答题资料讲解_第3页
大数据与云计算简答题资料讲解_第4页
大数据与云计算简答题资料讲解_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据与云计算简答题精品文档一、云计算与大数据的定义、特征1、云计算的定义:是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息 服务。(维基百科)一种基于互联网的计算方式,通过这种方式,共享软硬件 资源和信息,可以按需提供给计算机和其他设备。云计算能够给用户提供可靠 的、自定义的、最大化资源利用的服务,是一种崭新的分布式计算模式。云计算的类型可以分为基础设施即服务(Iaas)、平台即服务(Pas§、软 件即服务(SaaS 。2、云计算的特征:超大规模、虚拟化、高可靠性、高可伸缩性、按需服 务、极其廉价。(1)服务资源池

2、化:通过虚拟化技术,对存储、计算、内存、网络等资源化,按用户需求动态地分配。(2)可扩展性:用户随时随地可以根据实际需要,快速弹性地请求和购买 服务资源,扩展处理能力。(3)宽带网络调用:用户使用各种客户端软件,通过网络调用云计算资 源。(4)可度量性:服务资源的使用可以被监控、报告给用户和服务商,并可 以根据具体使用类型收取费用。(5)可靠性:自动检测失效节点,通过数据的冗余能够继续正常工作,提 供高质量的服务,达到服务等级协议要求。3、大数据的定义:(维基百科)指利用常用软件工具捕获、管理和处理数 据所耗时间超过科容忍时间的数据集,即大数据泛指大规模、超大规模的数据 集,因可从中挖掘出有价

3、值的信息而备受关注。4、大数据的特征(5V特征):(1)数据体量(Volume)巨大,指收集和分析的数据量非常大,从 TB级 别跃升至PB级别;(2)处理速度(Velocity)快,需要对数据进行近实时的分析;(3)数据类别(Variety)大,大数据来自多种数据源,数据种类和格式日 渐丰富,包括结构化、半结构化和非结构化等多种数据形式;(4)数据真实性(Veracity),大数据中的内容是与真实世界中的发生息 息相关的,研究大数据就是从庞大的网络数据中提取能够解释和预测现实事件 的过程。(5)价值密度低,商业价值(Value)高,通过分析数据可以得出如何抓 住机遇及收获价值。二、云计算安全,

4、可信云以及用户对云计算信任的预期?由于云服务的“外包”特性,用户对云提供商是否能够对其数据安全提供保 障,对其应用程序是否按照约定的方式安全执行产生了怀疑,亦即云服务的可 信性问题。云服务的可信问题不仅指服务计算环境受其开放、共享等特点而导 致服务结果可能受云服务提供商的主观意志等因素导致的不可信。用户对云服务的安全怀疑主要集中在客观与主观两个方面:客观来说,云 计算的集中服务模式使其更容易成为安全攻击的目标,而云计算技术的大规模 分布式处理也大大增加了安全管理的难度,因此服务商是否具有足够的安全管 理能力来保证用户信息安全值得怀疑;主观方面,由于云计算模式下,用户信 息的存储、管理以及应用处

5、理都在云服务方完成,用户丧失控制权,此时如何 保证服务方忠实履行自己的服务协议,保证服务质量,并且不会通过自己的特 权来违规使用用户资源获利成为必须要解决的问题。如果云服务的行为和结果总是与用户预期的行为和结果一致,那么就可以说云服务是可信的。要讨论云服务的可信性,需要明确3个方面的问题:1)用户的界定。不同用户拥有的信息安全敏感度不同,对于云安全性认定 也不同。2)服务行为的区分。不同类型服务涉及到的可信问题也不同。云上运行开 放性服务,云的便利性使其更具有竞争性;但是内部业务,涉及企业机密对服 务环境的安全要求就会很高。3)信任预期的度量。不同用户针对不同类型的服务,具安全诉求也不同。用户

6、对云服务的信任预期可分为 3类:1)完全信任,用户完全信任云服务方茴负责保护用户的利益,此假设下, 服务是否可信取决于云服务方是否能够具有足够的能力保障系统的安全性,维 护用户利益不被侵犯。2)条件信任,用户对云服务方有所怀疑,但是信任经过某种手段验证的云 服务。3)最低信任,用户怀疑云服务方的动机与能力,因此对服务方的信任为最 低水平,仅信任服务的可用性、性能、容错等最低保障,其余安全问题靠用户 自己解决。三、大数据来源、处理基本流程和处理模式?1、大数据的来源:传感器,气候信息,公开信息如杂志、报纸、文章,还 包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电 子商务等。

7、根据来源不同,大致分为如下几种类型:(1)人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等 活动过程所产生的各类数据;(2)计算机:给类计算机信息系统产生的数据,以文件、数据库、多媒体 等形式存在,也包括审计、日志等自动生成的信息;(3)物理世界:各类数字设备、科学实验与观察所采集的数据,如摄像 头、医疗物联网、气象业务系统等。2、大数据的处理基本流程:大数据的技术体系涉及大数据的采集与预处理、 大数据存储与管理、大数据计算模式与系统、大数据分析与挖掘、大数据可视 化分析及大数据隐私与安全等几个方面。从层次的观点,大数据系统可分解成 3层:基础设施层、计算层和应用 层。3、大数据的

8、处理模式:大数据分析是在强大的支撑平台上运行分析算法发 现隐藏在大数据中的潜在价值的过程,根据处理时间的需求,大数据的分析处 理可以分为两类:(1)流式处理:流式处理假设数据的潜在价值是数据的新鲜度,因此流式 处理方式应尽可能快地处理数据并得到结果。在这种方式下,数据以流的方式 到达。在数据连续到达的过程中,由于流携带了大量数据,只有小部分的流数 据被保存在有限的内存中。流处理理论和技术已研究多年,代表性的开源系统 包括Storm, S4和Kafka。流处理方式用于在线应用,通常工作在秒或毫秒级 别。(2)批处理:在批处理方式中,数据首先被存储,随后被分析。 MapReduce是非常重要的批处

9、理模型。它的核心思想是,数据首先被分成若干 小数据块chunks,随后这些数据块被并行处理并以分布的方式产生中间结果, 最后这些中间结果被合并并产生最终结果。MapReduce分配与数据存储位置距离较近的计算资源,以避免数据传输的通信开销。由于简单高效,MapReduce被广泛应用于生物信息、wed挖掘和机器学习中。四、大数据安全与隐私?计算机使得越来越多的数据以数字化的形式存储在电脑中,互联网技术的 发展使数据的传输、共享更加便利,而数据隐私问题则越来越严重。大数据在 存储、处理、传输等过程中面临安全风险,具有数据安全和隐私保护需求。呈 现出的安全隐私问题主要有:1)大数据时代的安全与传统安

10、全相比,变得更加复杂;2)使用过程中的安全问题;3)对大数据分析较高的企业和团体,面临更多的安全挑战;4)基于位置的隐私数据暴露严重;5)缺乏相关的法律法规保证;6)大数据的共享问题;7)数据动态性;8)多元数据的融合挑战;目前针对上述问题,主要研究解决方法有:文件访问控制技术、基础设备 加密、匿名化保护技术、加密保护技术、数据水印技术、数据溯源技术、基于 数据失真的技术、基于可逆的置换算法。五、云计算与大数据的关系?大数据产生主要归结于互联网、移动设备、物联网和云计算等快速崛起,全球数据量大幅提升。大数据与云计算两者是相辅相成的,云计算和大数据实 际上是工具与用途的关系,即云计算为大数据提供了有力的工具和途径,大数据为云计算提供了很有用武之地。大数据着眼于“数据”,关注实际业务,云计算着眼于“计算”,关注丁基础架构,着重数据处理能力。相同点:1)目的相同,都是为数据存储和处理服务,需要占用大量的存储 和计算资源;2)技术相似,大数据根植于云计算,云计算关键技术中的海量数 据存储技术、海量数据管理技术、 MapReduce编程模型,都是大数据技术的基 础。不同点:1)背景,大数据不能胜任社交网络和物联网产生的大量异构但有 价值数据,云计算基于互联网服务日益丰富和频繁;2)目标,大数据充分挖掘海量数据中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论