《大数据基础与应用》习题答案_第1页
《大数据基础与应用》习题答案_第2页
《大数据基础与应用》习题答案_第3页
《大数据基础与应用》习题答案_第4页
《大数据基础与应用》习题答案_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模块一思考与练习一、填空题1.数据的类型有很多种,主要分为三种,即___结构化数据和_、半结构化数据_和_非结构化数据___。2.大数据的三个明显特征分别是:__数据量大、数据实时性与数据多样性_。3.魔镜现在有五个版本,即企业基础版、企业标准版、企业高级版、_云平台版和Hadoop版。二、简答题1.简述大数据的定义。大数据(bigdata,megadata),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。2.大数据的价值表现在哪几个方面?1)大数据是新时代信息技术的关键支撑2)大数据是促进现代社会经济发展的推动力3)大数据将成为科技创新的引擎3.大数据的特点有哪些?大数据具有四大特点,即volume(容量),代表海量的数据规模;variety(种类),代表数据类型的多样性;value(价值),代表深度的数据价值;velocity(速度),代表数据流转的迅速与体系的动态性4.大数据的分析工具主要有哪些?InfoSphereBigInsights;BigQuery;魔镜模块2思考与练习一、选择题BCBBD二、简答题1.列举Hadoop的功能作用,以及Hadoop的优势是什么?答:作用:hadoop是通过分布式集群技术,将多个物理机或虚拟机当作一台机器运行,简单说就是做大数据的分布式计算。优点:(1)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖;

(2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

(3)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

(4)高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。2.Hadoop的体系结构是怎样的,请举例说明。答:如上所示,在一个典型的HDFS集群中,有一个NameNode、一个SecondaryNameNode和至少一个DataNode,而HDFS客户端数量并没有限制。所有的数据均存放在运行DataNode进程的节点的块(block)里。3.Hadoop与大数据、云计算之间的关系是什么,主要起什么作用?答:用一句话概括就是云计算因大数据问题而生,大数据驱动了云计算的发展,而Hadoop在大数据和云计算之间建起了一座坚实可靠的桥梁。4.HDFS中数据副本的存放策略是什么?答:

在大多数情况下,副本系数是3,HDFS的存放策略是将一个副本存放在本地机架节点上,一个副本存放在同一个机架的另一个节点上,最后一个副本放在不同机架的节点上。这种策略减少了机架间的数据传输,提高了写操作的效率。机架的错误远远比节点的错误少,所以这种策略不会影响到数据的可靠性和可用性。与此同时,因为数据块只存放在两个不同的机架上,所以此策略减少了读取数据时需要的网络传输总带宽。5.NameNode和DataNode的功能分别是什么?答:NameNode是HDFS的大脑,它维护着整个文件系统的目录树,及目录树里所有的文件和目录;DataNode被称为数据节点,它是HDFS的主从架构的从角色的扮演者,它在NameNode的指导下完成I/O任务。模块3思考与练习一、选择题BCBDDD二、填空题1、read()、write()2、硬盘、HA三、简答题1.根据自己的理解画出HDFS文件系统中文件读取的流程,并解释其中的各个步骤。答:如上图所示,HDFS客户端首先要访问NameNode,并告诉它所要读取的文件,在这之前,HDFS会对客户的身份信息进行验证。验证的方式有两种:一种是通过信任的客户端,由其指定用户名;第二种方式是通过诸如Kerberos等强制验证机制来完成。接下来还需要检查文件的所有者及其设置的访问权限。当文件确实存在,且该用户对其有访问权限时,NameNode会告诉HDFS客户端这个文件的第一个数据块的标号及保存有该数据块的DataNode列表。这个列表是DataNode与HDFS客户端间的距离进行的排序。有了数据块标号和DataNode的主机名,HDFS客户端便可以直接访问最合适的DataNode,读取所需要的数据块。这个过程会一直重复直到该文件的所有数据块读取完成或HDFS客户端主动关闭了文件流。2.根据自己的理解画出HDFS文件系统中文件写入的流程,并解释其中的各个步骤。答:如上图所示,首先HDFS客户端通过HDFS相关API发送请求,打开一个要写入的文件,如果该用户有写入文件的权限,那么这一请求将被送达NameNode,并建立该文件的元数据。但此时新建立的文件元数据并未和任何数据块相关联,这时HDFS客户端会收到“打开文件成功”的响应,接着就可以写入数据了。当客户端将数据写入流时,数据会被自动拆分成数据包,并将数据包保存在内存队列中。客户端有一个独立的线程,它从队列中读取数据包,并向NameNode请求一组DataNode列表,以便写入下一个数据块的多个副本。接着,HDFS客户端将直接连接到列表中的第一个DataNode,而该DataNode又连接到第二个DataNode,第二个又连接第三个,如此就建立了数据块的复制管道。复制管道中的每一个DataNode都会确认所收到的数据包已经成功写入磁盘。HDFS客户端应用程序维护着一个列表,记录着哪些数据包尚未收到确认信息。每收到一个响应,客户端便知道数据已经成功写入管道中的一个DataNode。当数据块被写入列表中的DataNode中时,HDFS客户端将重新向NameNode申请下一组DataNode。最终,客户端将剩余数据包写入全部磁盘,关闭数据管道并通知NameNode文件写操作已经完成。模块4思考与练习一、填空题1.客户端、JobTracker、TaskTracker、分布式文件系统2.Client、JobTracker、TaskTracker、Task二、简答题1.答:MapReduce的执行过程如下:(1)数据预处理:在任务开始前,首先调用类库,将输入文件分为多个分片。(2)任务分配:JobTracker为集群中空闲的节点分配Map任务或者Reduce任务。设集群中有M个Map任务和R个Reduce任务(Reduce任务数通常小于Map任务数)。(3)Map任务:Mapper读取自己所属的文件分片,将每一条输入数据转换为<key,value>键值对,使用Map函数对每一个键值对进行处理,得到一个新的<key,value>键值对,作为中间结果缓存在当前节点。(4)缓存文件定位:Map任务得到的中间结果被周期性地写入Mapper所在的本地硬盘中,并把文件的存储位置信息经由JobTracker传递给Reducer。(5)Reducer拉取文件:Reducer通过位置信息到相应的Mapper处拉取这些文件,将同一key对应的所有取值合并,得到<key,list(value)>键值组。(6)Reduce任务:Reducer将所读取到的<key,list(value)>键值组使用Reduce函数进行计算,得到最终结果并将其输出。(7)结束:当所有的Map任务和Reduce任务运行完毕后,系统会自动结束各个节点上的对应进程并将任务的执行情况反馈给用户。2.答:MapReduce的作业周期分为五个阶段:(1)作业提交与初始化:用户在提交完作业之后,JobClient将程序jar程序包、作业配置文件、分片元信息文件等作业相关信息上传至分布式文件系统上,分片元信息文件的作用是记录每个输入分片的逻辑位置信息。当JobTracker接受到JobClient的请求后,就会立即进行初始化,之后在运行过程中需要监控作业运行情况,这就需要建立JobInProgress对象,而且可以同时监控多个任务的运行状况。(2)任务调度与监控:JobTracker是用来对任务进行调度和监控的。TaskTracker通过Heartbeat周期性的向JobTracker发送本节点资源的使用情况,在有空闲资源的情况下,任务调度命令JobTracker按照一定的计划来选择合适的空闲资源。任务调度器是具有双层架构、比较独立的结构,可以完成对任务的选择,选择任务需要充分考虑数据的本地性。此外,JobTracker的作用保证任务运行可以成功,并且可以跟踪作业的整个运行过程。如果TaskTracker或者Task运行失败,则重新进行任务运行时间的计算;如果运行进度落后,也会重新进行计算;如果其他运行结束,就重新启动一个相同Task;最终选取计算最快的Task结果作为最终结果。(3)任务运行环境准备:通过启动JVM,将资源进行隔离,这就基本准备好了运行环境,都是通过TaskTracker来实现的。TaskTracker为每个Task启动一个独立的JVM,它为了防止Task滥用资源,采用了操作系统进程来实现隔离。(4)任务执行:TaskTracker准备好了任务的执行环境之后,就可以执行任务。在运行过程中,每个任务都汇报给TaskTracker之后再给JobTracker。(5)作业完成:如果其中的所有任务都执行完成,作业就完成了。3.答:MapReduce与Spark的异同点:MapReduce是一种高效的适用于分布式处理的并行计算模型,但是和Spark对化,MapReduce存在如下一些缺点:(1)抽象层次低,需要手工编写代码来完成;(2)只提供两个操作:Map和Reduce;(3)一个MapReduceJob只有Map和Reduce两个阶段,复杂的计算需要由大量的job完成,并且各个job之间的依赖关系由开发者自己管理;(4)处理逻辑隐藏在代码细节中,没有整体逻辑;(5)中间结果需要放在HDFS文件系统中;(6)延时高,只适用于处理离线批量数据,对交互式数据处理、实时数据处理等不支持;(7)对迭代式数据处理性能不高。Spark从多个不同角度弥补了MapReduce的不足,具有以下优点:(1)基于RDD的抽象,实际数据处理逻辑的代码非常简短;(2)提供了除Map、Reduce之外的多种操作,例如join、intersection、union等,对数据处理的方式更加灵活;(3)一个job可以包含RDD的多个转换操作,任务调度时可以生成多个stage,而且如果map操作的RDD分区不变,可放在一个任务中完成;(4)在scala中,通过匿名函数和高阶函数,RDD的转换支持流式API,可提供处理逻辑的整体DAG视图,代码不包含具体操作的实现细节,逻辑更清晰;(5)中间结果放在内存中,内存不足时写入本地磁盘,而不是HDFS;(6)延时低,通过RDD实现分布式内存的抽象使用,支持多种不同的大数据处理场景;(7)通过在内存中缓存数据,进行迭代式数据处理时,性能很高。模块5思考与练习一、选择题1.搜索引擎中用户查询所得的信息是(B)。A.直接在互联网中获取的B.存储在网络数据库中的C.来自某个网站的D.与网页连接显示的2.对于搜索引擎蜘蛛(Google称之为机器人)程序来讲有三种页面非常重要,以下哪种页面不属于其中?(B)A.从未抓取过的新页面B.页面内容之前被采集过但有所改动的页面C.已被删除掉的之前被采集过的页面D.搜索引擎蜘蛛的起始页面3.以下不属于搜索引擎评价指标的是(D)。A.查全率B.查准率C.响应速度D.下载速度二、填空题1.搜索引擎的组成大致可划分为4个部分,第一部分是_搜索引擎蜘蛛程序__,第二部分是_数据分析系统___,第三部分是__索引系统_____,第四部分是__用户查询系统___。2.搜索引擎工作工程主要包括三个阶段,分别是网页搜集阶段,检索信息生成阶段和用户查询服务阶段。3.垂直网站通常指的是为满足用户在某些特定的领域或某种特定的需求提供有关这个领域或需求的全部深度信息和相关服务的专业性网站。三、简答题1.搜索引擎的产生和发展经历了哪几个阶段?试简述各阶段的特点。答:早期出现的搜索引擎只是检索FTP网站文件的程序,随后的搜索引擎开始收录网络地址形成分类目录,后续的发展中搜索引擎开始收录标题,目前的搜索引擎,已经发展到抓取网页全文阶段。2.简述搜索引擎索引系统的形成过程。答:1)提取关键词:通过结构化、消噪去除掉网页中所有的格式代码,同时去除非正文关键词或停用词,网页的主文字内容后应用自身的分词系统,将此文分成一个分词列表,然后存储在数据库中,并与此文的URL进行一一对应2)倒排文件建立索引:在不同索引词组成的索引表中记录索引词ID号,表明匹配该索引词的文档数量,并匹配文档在记录文件内的偏移量,通过这偏移量就可以读取记录文件对应区域的信息。3)对网页完成重要度分析并完成排名3.私有化的Web化数据所指代的含义是什么?它的产生有何背景?答:私有化的Web化数据是指垂直网站在达到一定规模后,拥有与搜索引擎同比竞争的能力时,会特意屏蔽搜索引擎的爬虫,将自己的数据私有化。它的产生一方面由于互联网中部分信息并未Web化,另一方面Web化的网页中的信息,搜索引擎也不可能实现完全抓取。模块六思考与练习一、选择题1.不属于大数据主要的存储模型的是(D)。A.关系型数据库B.列式数据库C.键值存储D.视频数据库2.不属于关系型数据库的是(B)。A.OracleB.

SybaseC.DB2D.MicrosoftSQLServer3.数据存储方式有(D)。A.在线存储B.近线存储C.异地备份D.以上皆对二、填空题1.云存储系统的结构模型由4层组成:存储层、基础管理层、应用接口层和访问层。2.在一个图形数据库中,最主要的组成有两种:结点集和连接结点的关系。3.分布式存储系统具有如下几个特性:可扩展。(2)低成本自动运维。(3)高性能(4)易用。三、简答题1.简述大数据存储的概念。数据存储是指数据流在加工过程中产生的临时文件或需要查找的信息的存储。数据以某种格式记录在计算机内部或外部存储介质上。数据存储要命名,这种命名要反映信息特征的组成含义。数据流反映了系统中流动的数据,表现出动态数据的特征;数据存储反映系统中静止的数据,表现出静态数据的特征。2.大数据存储的常见问题是什么?1.容量2.延迟3.安全问题4.成本5.数据保存6.灵活性7.应用感知8.小用户3.大数据存储的方式有哪几种?关系型数据库、列式数据库、键值存储、文档存储、图形数据库模块7思考与练习一、选择题1.以下不属于大数据基本特征的是(D)。A.数据规模庞大B.数据的形式多样化C.数据的获取及处理速度快D.数据的处理具有实时性2.数据挖掘中关联规则分析最典型的算法是(D)。A.KNN算法B.NaïveBayes算法C.k-means算法D.Aprior算法3.大数据处理流程中的第二个步骤是(A)。A.数据的导入和预处理B.数据的统计与分析C.数据清洗D.数据的采集二、填空题1.数据仓库是一组支持决策过程的、面向主题的、集成的、随时间而变的持久的数据集合。2.数据挖掘的最终目标是获取数据的有效价值,其具体的实际应用功能可分为三大类、六分项来说明:___分类___和__聚类___属于分类区隔类;__回归分析__和___时间序列_属于推算预测类;______关联规则____和_____序列模式______属于关联分析类。3.在数据挖掘的分类算法中比较典型的算法是___NaïveBayes____算法和__KNN______算法。三、简答题1.大数据时代数据的存储与管理与传统数据存储方式有何区别?答:传统数据管理方法的局限性及大数据的现实条件促使新的数据库设计的出现,在新的数据库设计中,原本数据库模式中存在的记录和预设场域(成规数据的整齐排列)的规律被替代。大数据为适应信息发展的需要,运用非关系型数据库作为一种新型数据库设,它不需要预先设定记录结构,同时允许处理规模庞大、结构复杂的数据。2.数据挖掘中典型的聚类算法有哪些?答:为了找到效率高、通用性强的聚类方法,根据划分条件的不同有多种聚类算法,典型的有K-means方法、K-medoids方法、CLARANS方法、BIRCH方法等。3.大数据分析中重要的五个方面分别指什么?它们各自完成的任务有哪些?答:1)可视化分析:运用一些数据分析的工具将数据转化为图的形式,达到“看图说话”的效果。2)数据挖掘算法:运用挖掘算法处理海量的数据并更加科学地呈现出数据本身具备的特点。3)预测性分析能力:作用是让数据分析员可以根据数据可视化分析和数据挖掘计算所得结果对未来的相关事物做出一些预测性的判断。4)语义引擎:借助语义引擎,可从用户的搜索关键词、标签关键词或其他输入语义,分析、判断用户需求5)数据质量和数据管理:高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。模块八思考与练习一、选择题1.不属于数据可视化技术的主题是(D)。A.数据的显示B.连接的显示

C.网站的显示D.信息可视化

2.不属于数据可视化展现方式(c)。A.鱼骨图B.柏拉图C.回归图D.直方图3.大数据可视化分析工具有(c)。A.WordB.PPTC.ExcelD.GooglePinyin二、填空题1统计学领域有一组统计量是用来描述样本的集中趋势的,它们就是:平均数、和中数众数2.正态分布:也称常态分布,正态分布是一种概率分布。3.直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。三、简答题1.常用的数据整理技术有哪些?回退模型可视化相关性变化分析差异分析预测群集技术决策树神经网络2.使用分析Excel和GoogleSpreadsheets,分析它们之间的优缺点、Excel功能更加完善,能完成的分析更多,GoogleSpreadsheets基于网络的,更好的在线实时编辑,更好的网络交互。3.发展大数据可视化,那么传统的数据和信息的表示方式是否还有意义?答:当然有意义。模块9思考与练习一、填空题1.机密性(Confidentiality)、完整性(Integrity)、可用性(Availability)2.物理安全、网络安全、应用安全、数据隐私3.网络黑客和病毒攻击威胁、信息资源泄露威胁、网络漏洞威胁二、简答题1.答:数据处理的安全是指如何有效的防止数据在录入、处理、统计或打印中由于硬件故障、断电、死机、人为的误操作、程序缺陷、病毒或黑客等造成的数据库损坏或数据丢失现象,某些敏感或保密的数据可能被不具备资格的人员或操作员阅读,而造成数据泄密等后果。2.答:数据存储的安全是指数据库在系统运行之外的可读性。一旦数据库被盗,即使没有原来的系统程序,照样可以另外编写程序对盗取的数据库进行查看或修改。3.答:大数据的安全机制可从网络安全、数据安全、应用安全、终端安全等各个管理角度加强大数据的安全防范。(1)网络安全网络是输送大数据资源的主要途径,通过强化网络基础设施安全保障,可以提高大数据环境的安全。可从如下四个方面加强网络安全的保障措施:一是通过访问控制,以用户身份认证为前提,实施各种策略来控制和规范用户在系统中的行为,从而达到维护系统安全和保护网络资源的目的;二是通过链路加密,建立虚拟专用网络,隔离公用网络上的其他数据,防止数据被截取;三是通过隔离技术,对数据中心内、外网络区域之间的数据流量进行分析、检测、管理和控制,从而保护目标数据源免受外部非法用户的侵入访问;四是通过网络审计,监听捕获并分析网络数据包,准确记录网络访问的关键信息,通过统一的策略设置的规则,智能地判断出网络异常行为,并对异常行为进行记录、报警和阻断,保护业务的正常运行。(2)虚拟化安全虚拟化技术是大数据概念的一个基础组成部分,它加强了基础设施、软件平台、业务系统的扩展能力,同时也使得传统物理安全边界逐渐缺失。加强虚拟环境中的安全机制与传统物理环境中的安全措施,才能更好地保障在虚拟化基础之上为大数据提供的各类应用和服务的安全。可从如下两个方面加强虚拟化安全的保障措施:一是在虚拟化软件层面建立必要的安全控制措施,限制对虚拟化软件的物理和逻辑访问控制;二是在虚拟化硬件方面建立基于虚拟主机的专业的防火墙系统、杀毒软件、日志系统和恢复系统,同时对于每台虚拟化服务器设置独立的硬盘分区,用以系统和日常数据的备份。(3)数据安全基于数据层面的保护最直接的安全技术包括两方面的内容:一是数据加密,深入数据层保护数据安全,针对不同的数据采用不同的加密算法,实施不同等级的加密控制策略,有效地杜绝机密信息泄漏和窃取事件;二是数据备份,将系统中的数据进行复制,当数据存储系统由于系统崩溃、黑客入侵以及管理员的误操作等导致数据丢失和损坏时,能够方便且及时地恢复系统中的有效数据,以保证系统正常运行。通过以上措施可以保障大数据在数据方面的安全性。(4)应用安全由于大数据环境的灵活性、开放性以及公众可用性等特性,部署应用程序时应提高应用方面的安全意识,充分考虑应用可能引发的各类安全风险。加强各类程序接口在功能设计、开发、测试、上线等覆盖生命周期过程的安全实践,广泛采用更加全面的安全测试用例,在处理敏感数据的应用程序与服务器之间通信时采用加密技术,通过以上措施可以保障大数据在应用方面的安全性。(5)终端安全随着云计算、移动互联网等技术的发展,用户终端种类不断增加,很多应用程序被攻击者利用收集隐私和重要数据。用户终端上应部署安全软件,包括反恶意软件、防病毒、个人防火墙以及入侵防御系统(IPS:IntrusionPreventionSystem)类型的软件,并及时完成应用安全更新,注重自身账号密码的安全保护,尽量不在陌生的终端上使用公共服务;同时还应采用屏蔽、抗干扰等技术防止电磁泄漏,可从一定程度上降低大数据失窃的风险,增强大数据在终端方面的安全性。4.答:大数据的安全防护技术可从以下五方面进行相应技术的研究:(1)数据发布匿名保护技术对于非结构化数据要有效地实现用户数据安全和隐私保护,数据发布匿名保护技术是关键点,但是这一技术还需要不断发掘和完善。现有的大部分数据发布匿名保护技术的基本理论,设定环境大多是用户一次性、静态地发布数据。如通过元组泛化和抑制处理方式分组标识符,用k匿名模式对有共同属性的集合进行匿名处理,但这样容易漏掉某个特殊的属性。通常情况下现实生活中的数据发布普遍是连续、多次的,在大数据复杂的环境中,要实现数据发布匿名保护技术较为困难。攻击者可以从不同的发布点、不同的渠道获取各类信息,所获得的信息将帮助攻击者确定攻击目标的用户信息。因此数据发布匿名保护技术还需要信息领域的研究人员投入更多的精力多加研究。(2)社交网络匿名保护技术包含了大量用户隐私的非结构化数据大多产生于社交网络,这类数据最显著的特征就是图结构,因而数据发布保护技术无法满足这类数据的安全隐私保护需求。一般攻击者都会利用点和边的相关属性,通过分析整合,重新鉴定出用户的身份信息。因此在社交网络中实现数据安全与隐私保护技术,需要结合其图结构的特点,进行用户标识匿名以及属性匿名(点匿名),即在数据发布时对用户标识和属性信息进行隐藏处理;同时对用户间关系匿名(边匿名),即在数据发布时对用户之间的关系连接进行隐藏处理。这是社交网络数据安全与隐私保护的要点,可以防止攻击者通过用户在不同渠道发布的数据,或者是用户之间的边联系推测出原本受匿名保护的用户,破解匿名保护。研究表明,社交网络的集聚特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论