雨课堂学堂在线学堂云《大数据分析（北京理工）》单元测试考核答案

上传人：z*** IP属地：贵州上传时间：2026-02-06 格式：DOCX 页数：46 大小：104.48KB 积分：15 举报 版权申诉

已阅读5页，还剩41页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第1题为什么我们说数据像未加工的原油?以下哪一个不是合理的原因?()A数据有价值B需要被加工才能使用C一个数据集可以应用到不同的分析目的D可以被出售第2题产生和消费数据的模式已经转变为以下哪种情况()A少数公司产生数据,其他公司消费数据.B我们所有人都在产生数据,同时我们所有人也在消费数据.C一些公司在产生数据,一些公司在消费数据.D我们中的一些人在产生数据,我们中的一些人在消费数据.第3题关于大数据术语,哪个描述不合适()A可以分析大数据以获得更好的决策和战略业务举措的见解B只是规模大C包括结构化和非结构化数据D难以管理的数据量第4题关于数据生成阶段,哪个顺序是正确的()A运营与业务系统、感知阶段、用户生成内容B运营与业务系统,用户生成内容,感知阶段C感知阶段,运营与业务系统,用户生成内容D感知阶段,用户生成内容,运营与业务系统第5题以下哪个阶段是大数据的主要原因?()A运营与业务系统B用户生成内容C感知阶段D社交媒体第1题据Gartner称,估计有20%的组织数据是()数据,其他多数是()数据.()A结构化,非结构化B非结构,结构化C结构化,半结构化D非结构,半结构化第2题关于结构化数据,与非结构化数据相比,哪个描述不对?()A它通常采用行和列的表格形式B易于加工C它以预定义的格式组织数据D需要更多的存储空间第3题关于非结构化数据,与结构化数据相比,哪个描述不对?()A不能显示在行、列和关系数据库中.B它们通常是图像、音频、视频、文字处理文件、电子邮件、电子表格.C它们需要更多存储空间,因为它们数量庞大且组织不当.D可以轻松地使用传统方式用遗留解决方案管理和保护.第4题对比数据库和大数据,哪个先有schema,再根据schema组织数据.A数据库

B数据仓库C大数据D数据库和大数据都不是第5题数据规模递增的正确顺序是()AKBMBGBPBTBEBBKBMBGBTBPBEBCKBMBTBGBPBEBDKBMBGBTBEBPB第6题我们可以找到一种工具来处理大数据的所有数据管理问题.()第7题我们可以找到一种工具来处理数据库的所有数据管理问题.()1.3科学研究第四范式第1题那个关于JimGray的描述不能确定()A关系型数据库创始人B航海运动爱好者C将科学研究分为四种范式D大数据科学家第2题四个范式的正确时间顺序是()A实证–理论–计算–数据探索B理论-实证-计算-数据探索C实证-计算-理论-数据探索D实证-理论-数据探索-计算1.4大数据特征第1题在大数据的特征当中,哪一个是最重要的特征.()A规模&速度B多样性C真实性D价值第2题下面哪一个大数据的特征最好的描述了DataatRest?()A规模B速度C真实性D价值第3题下面哪一个大数据的特征最好的描述了DatainMotion?()A规模B多样性C真实性D速度第4题下面哪一个大数据的特征最好的描述了DatainManyForms?()A规模B多样性C真实性D速度第5题下面哪一个大数据的特征最好的描述了DatainDoubt(这意味着由于数据不一致和不完整、歧义、延迟、欺骗、模型近似而导致的不确定性)?()A规模B多样性C真实性D速度第6题下面哪一个大数据的特征最好的描述了“沙中淘金”?()A价值B多样性C真实性D速度1.5大数据生命周期第1题正确的大数据生命周期是()A数据治理数据采集,数据存储和数据分析B数据采集,数据治理,数据存储和数据分析C数据采集,数据存储,数据治理和数据分析D数据采集,数据存储,数据分析和数据治理第2题提取信息时,支持制定决策的风险降低顺序是()A数据,信息,智慧,知识B信息,数据,知识,智慧C数据,信息,知识,智慧D信息,数据,智慧,知识第3题以下哪一个是关于个别事实、数字、信号、测量?()A数据B信息C智慧D知识第4题以下哪一个是关于有组织的,结构化的分类的,有用的,凝练的,计算过的数据?()A数据B信息C智慧D知识第5题以下哪一个是关于想法、学习、符号、概念、综合、比较、思考、讨论?()A数据B信息C智慧D知识第6题以下哪一项是关于理解、整合、应用、反思、可操作、积累、原则、模式、决策过程?()A数据B信息C智慧D知识第7题利用数据的历史技术发展顺序是()1)()可以对历史数据进行报告和人工分析2)()可以分析当前数据以改善业务交易3)()实时分析处理以做出实时决策并改进实时业务响应AOLAP:在线分析处理;OLTP:在线交易处理;RTAP:实时分析处理;BOLTP:在线交易处理;OLAP:在线分析处理;RTAP:实时分析处理;COLAP:在线分析处理;RTAP:实时分析处理;OLTP:在线交易处理;DOLTP:在线交易处理;RTAP:实时分析处理;OLAP:在线分析处理;第8题商务智能在规模和速度上都不断发展,下图中1234号方框中的技术分别是什么.(

)A1-数据仓库,2-内存关系型数据库管理系统,3-分布式数据存储,4-实时&单一数据视图B

1-内存关系型数据库管理系统,2-数据仓库,3-分布式数据存储,4-实时&单一数据视图C1-数据仓库,2-分布式数据存储,3-内存关系型数据库管理系统,4-实时&单一数据视图D1-数据仓库,2-内存关系型数据库管理系统,3-实时&单一数据视图,4-分布式数据存储1.6大数据处理流程第1题在下图中,每个数字的正确术语是什么?()A数据来源、数据存储、数据采集、数据处理、数据可视化、报表监控B数据来源、数据采集、数据存储、数据可视化、数据处理、报表监控C数据来源、数据采集、数据存储、数据处理、数据可视化、报表监控D数据来源、数据采集、数据存储、数据处理、报表监控、数据可视化1.7大数据分析总体框架第1题当数据量越来越大时,任何单一的传统高性能服务器都无法满足需求,需要更多的服务器.这叫做()扩展A垂直B水平C集中式D分布式第2题分布式计算的思想是使用()来取得()()A冗余性,可靠性;B可靠性,冗余性;C冗余性,性能;D可靠性,性能;第3题大数据的两个主要的组件是()和().()A分布式存储,分布式处理B分布式采集,分布式处理C分布式采集,分布式存储D分布式采集,分布式应用第4题在大数据通用架构中,从下到上,大数据计算系统的三个基本层是()A数据处理系统;数据存储系统;数据应用系统;B数据存储系统;数据处理系统;数据应用系统;C数据采集系统;数据处理系统;数据存储系统;D数据存储系统;数据处理系统;数据可视化系统;第5题在大数据通用架构中,数据存储系统分为四个部分,哪一个最能描述数据存储系统的四个部分?()A数据采集,数据建模,数据存储(分布式文件系统和分布式数据库),统一数据访问接口B数据采集,数据预处理,数据存储(分布式文件系统和分布式数据库),统一数据访问接口C数据预处理,数据建模,数据存储(分布式文件系统和分布式数据库),统一数据访问接口D数据预处理,数据建模,分布式文件系统,分布式数据库第6题在大数据通用架构中,数据处理系统分为三个部分,哪一个最恰当地描述了它们?()A数据存储,数据处理算法,计算引擎和计算平台B数据存储,计算模型,计算引擎和计算平台C数据处理算法,计算模型,计算引擎和计算平台D数据处理算法,计算引擎,计算平台第7题在大数据通用架构中,UDAI-统一数据访问接口不能解决的问题是.()A跨平台问题B异构问题C分布式计算问题D数据不一致问题第8题Hadoop是唯一的大数据架构.()2.1数据源第1题根据组织边界,数据资源可分为两类.()A在线数据和离线数据.B组织数据和政府数据.C内部数据和外部数据.D系统数据和IoT物联网数据第2题当您从互联网上采集数据时,您应该注意一些问题,哪一项不包括在内()A不同网站具有不同的IT水平和结构—没有一个统一的采集方法;B不同的网站对网络爬虫有不同的控制策略;C数据的权威性和数据的质量要比其他的数据源的数据差D我们平均地采集各种形式的数据.2.2内部数据获取第1题最常用的内部数据采集是()A数据仓库BETL(Extract提取,Transform转换,load加载)C数据触发器D增量数据提取第2题()是简单直观的数据提取方式,每次提取整个源数据存储中的所有数据.()A增量提取B全量提取C时间戳提取D触发器提取第3题以下哪种方法是在数据库中提取自上次提取以来的新的或修改的数据,同时,它通常不会对运行的业务系统产生很大影响.()A增量提取B全量提取C时间戳提取D触发器提取第4题以下哪种方法是在数据提取时通过数据库自带的日志评估变化了的数据.()A日志比较方法B时间戳方法C触发器方法D全表比较方法第5题以下哪种方法在更新相应的记录数据时添加和修改时间戳字段值。通过比较系统时间和时间戳时间来决定是否进行本次数据提取。()A日志比较方法B时间戳方法C触发器方法D全表比较方法第6题以下哪种方法每次在源数据库表发生变化时在数据表上创建一个触发器,变化了的数据通过相应的触发器被写到临时表中,数据提取线程从临时表中提取数据。()A日志比较方法B时间戳方法C触发器方法D全表比较方法第7题以下哪种数据提取方法中,ETL工具事先创建一个与待提取的数据库表具有相似结构的MD5临时表。临时表记录源表的主键和基于所有字段数据计算的MD5值()A日志比较方法B时间戳方法C触发器方法D全表比较方法第8题下列哪项不是进行数据抽取时的数据转换组件?()A字段映射B数据计算C数据拆分D去重第9题以下哪一个不是数据加载的方法?()A用SQL语句进行插入,更新和删除数据B数据全量提取C批量复制程序D通过API应用程序接口进行数据加载2.3外部数据获取第1题以下哪一个不是网络大数据的特征?()A多源异构B高噪声C交互性D结构化第2题网络爬虫的过程以下描述的正确顺序是()a)一个称为种子URL的统一资源地址列表并将其用作爬行的链接的入口。当爬虫程序访问这些种子URL时,它识别出在种子URL上的所有需要的链接并将这些链接添加到待爬取队列.b)把已经下载完的URL放到已爬取URL列表c)提取新的URL,按照既定策略把这些URL放到待爬取URL队列中等待爬取d)从待爬取队列中取出网页的链接,然后读取URL,进行DNS解析,并且把网页放在已经下载的网页库中.e)当爬取队列空了的时候,所有的爬取过程将终止.AabcdeBadbce

Cacbde

Dadcbe第3题如何处理种子URL中的扇出URL,也就是链接的链接,这涉及到网络爬虫的爬取策略.以下哪一个不是常用的爬虫爬取策略()A深度优先B广度优先C先进先出D部分PageRank策略第4题在下图中使用广度优先爬取策略,以下哪一个是正确的爬取顺序?()AM1-M2-M5-M8-M6-M3-S7-S4BM1-M2-M3--S4-M5-M6-S7-M8CM1-M2-M5-M6-M8-M3-S7-S4DM1-M2-M5-M6-M3-S7-M8-S4第5题以下哪一个爬取策略给每一个网页分配同样的金币。每当一个网页P被下载,P所拥有的金币就平均分配给网页P所包含的链接页面。在队列中的链接按照所拥有的金币的数量从多到少顺序进行爬取()APageRankBOPICC深度优先D广度优先第6题爬虫的任务通常是很繁重的,很难由一个单独的网络爬虫爬取,所以需要分布式网络爬虫。有三张基本的网络爬虫分布式架构,以下哪一种不属于常用的分布式网络爬虫架构。()AMaster-slaveBPeertopeerCMixedstructureDHybrid2.4深网数据获取第1题传统搜索引擎由于技术限制无法索引或经过仔细考虑后不愿意索引的那些网页、文件或其他高质量、权威的信息,这些互联网内容属于以下哪一种。()A浅网B深网C暗网D以上都不是第2题以下哪一项不是深网信息的特征?()A与信息需求、市场和领域高度相关.B互联网上增长最快的新型信息.C其中一半以上储存在专题数据库中.D可以通过搜索引擎进行搜索.第3题深网内容包括以下哪些()1由于缺乏定向链接而不被搜索引擎引用的页面2网页上可访问的非网页文件,如图片文件、Pdf及word文件等.3通过填写表单查询后端在线数据库获得的动态页面.4需要注册或其他访问限制的内容。A1234B124C123D234第4题下面关于深网搜索接口的描述哪一个是不正确的()A深网有复杂的搜索接口B支持对多个属性的查询C从数据库中提取内容D接口容易找到第5题哪一个完整地描述了深网数据采集方法的内容()A自动查询接口标识并填写表单B解析HTML表单或对HTML表单执行语法分析,以自动发现深网数据资源C将HTML表单与特定字段关联,实现表单的自动填充D域无关检测:基于样本从查询结果中迭代获取查询关键字,以较少的查询获得尽可能多的查询结果3.1数据预处理概述第1题以下哪个不能有助于防止脏数据出现?()A统一多个数据源的属性值编码B尽可能清楚地给出属性名和属性值C键值尽量使用选项D手动填写条目第2题数据预处理的任务不包含以下的哪一项()A数据清洗B数据转换C数据规约D数据定义第3题数据清洗技术不包含以下的哪一项()A数据转换B缺失数据的清洗C数据去重D在数据集上执行异常检测第4题数据规约技术不包含以下的哪一项()A高维数据的降维处理B减少数据的量C随机删除一些数据D数据离散化技术3.2数据质量第1题完整性约束属于以下哪个数据质量范畴()A单一数据源,模型层面B单一数据源,实例层C多数据源,模型层面D多数据源,实例层第2题唯一性属于以下哪个数据质量的范畴()A单一数据源,模型层面B单一数据源,实例层C多数据源,模型层面D多数据源,实例层第3题属性依赖属于以下哪个数据质量的范畴()A单一数据源,模型层面B单一数据源,实例层C多数据源,模型层面D多数据源,实例层第4题拼写错误属于以下哪个数据质量的范畴()A单一数据源,模型层面B单一数据源,实例层C多数据源,模型层面D多数据源,实例层第5题冗余和重复记录属于以下哪个数据质量的范畴()A单一数据源,模型层面B单一数据源,实例层C多数据源,模型层面D多数据源,实例层第6题属性值冲突属于以下哪个数据质量的范畴()A单一数据源,模型层面B单一数据源,实例层C多数据源,模型层面D多数据源,实例层第7题命名冲突(对不同的数据对象使用同一个名字或者对同一个数据对象使用不同的名字)属于以下哪个数据质量的范畴()A单一数据源,模型层面B单一数据源,实例层C多数据源,模型层面D多数据源,实例层第8题结构冲突(指用不同的方式表示在不同的数据源中的同一数据对象)属于以下哪个数据质量的范畴()A单一数据源,模型层面B单一数据源,实例层C多数据源,模型层面D多数据源,实例层第9题相同值的不同表达属于以下哪个数据质量的范畴()A单一数据源,模型层面B单一数据源,实例层C多数据源,模型层面D多数据源,实例层3.3数据清洗技术第1题以下哪项不是主要的数据清理任务之一?()A重复数据清洗B缺失值清洗C剔除噪声数据D当合并不同的表时删除一些冗余属性第2题如何判断两条记录是否重复?()A根据每个属性的相似度和属性的权重,比较两条记录的相关属性值B由技术人员手工比较C通过数据库支持进行比较D以上都不是第3题

缺失值必须被找出并且通过以下哪些手段进行补充()1)忽略这条记录2)使用默认值3)使用属性平均值4)使用相似样本的平均值

5）预测最有可能的值A1234B2345C12345D1345第4题以下哪一项不是消除数据噪声的主要方法之一?()Abin/splitbin分箱算法B聚类算法C回归算法D功能算法第5题当平滑有噪声的数据时,哪一个不是常用的方法?()A用平均值来平滑B用随机值来平滑C根据边界值来平滑D根据中位数来平滑3.4数据转换第1题当将多个数据源的数据整合到一个一致的存储中,以下哪项数据预处理任务不能起到保证数据质量的作用()A模式匹配B数据冗余处理C数据值冲突解决D数据计算第2题为了方便高效的分析,以下哪些是可以采用的数据转换方法()?1)数据平滑2)数据聚合3)数据泛化4)数据规范化5)属性构造A1234B2345C12345D13453.5数据规约第1题以下哪一种数据规约的说法是不正确的?()A使用数据规约(减法)技术,帮助从原始庞大的数据集中获得一个压缩的数据集,并使这个压缩的数据集保持原始数据集的完整性B对压缩后的数据集进行数据分析效率明显更高,分析结果与使用原始数据集得到的结果基本一致C花在数据缩减上的时间可以超过或“抵消”分析减少的数据所节省的时间.D数据规约得到的数据比原始数据小很多,但可以产生相同或几乎相同的分析结果.第2题以下哪项不是降维的方法?()A小波变换B属性子集选择CPCA主成分分析法D聚类第3题下列哪个选项不是数据分析中数据规模减少的方法?()APCA主成分分析法B数据立方体聚合C聚类D采样第4题1.

以下哪一种是属性子集选择技术的属性子集选择的方法?

(

)1)向前逐步选择属性子集2)向后逐步选择属性子集3)向前选择和向后删除方法相结合4)PCA主成分分析法5)基于统计分析的减少属性

6）决策树(decisiontree)归纳A12346B12345C12356D123456第5题下图中显示了什么属性子集选择方法?(

)A向前逐步选择属性子集B向后逐步选择属性子集C向前选择和向后删除方法相结合D决策树(decision

tree)归纳第6题下图中显示了什么属性子集选择方法?(

)A向前逐步选择属性子集B向后逐步选择属性子集C向前选择和向后删除方法相结合D决策树(decisiontree)归纳第7题关于主成分分析-PCA,以下哪一个描述是错的?()A主成分分析搜索得到最能代表数据的c维正交向量B主成分分析是数量Numerosity约简方法。C将原始数据投影到更小的空间,实现数据压缩.D主成分分析是有损压缩.4.1数据建模第1题数据建模可以包含定义以下的哪些（）.

1)元数据2)数据结构3)属性4)值的范围5)关联关系6)一致性7)时效性A12345B1234567C134567D123567第2题在数据存储系统中，可分为4个部分，从下至上合理的处理顺序是(A)

1)数据收集与建模2)统一数据访问接口3)分布式文件系统

4）分布式数据库和数据仓库A1342B1234C1324D1423第3题为什么对收集来的数据进行数据建模,以下不正确的是（）A数据存储结构设计B数据库设计C计算模型D应用设计第4题基于需求，我们可以构建业务模型,业务模型包含()和().A概念模型,逻辑模型B逻辑模型,物理模型C过程模型,数据模型D过程模型,逻辑模型第5题关于数据建模设计层次的描述:哪一个匹配是正确的?()1)基于用户的数据功能需求，获取功能和关联关系,以及与业务元素和功能相关的实体类.2)数据实体的更多细节,包括主键，外键，属性，索引，关系，关系，约束甚至是视图和数据表，数据列，取值范围，面向对象的类，XML标签和其他描述形式。

3）数据存储实现包括数据分区，数据表空间和数据集成.A1-概念模型设计2-物理模型设计3-逻辑模型设计B1-逻辑模型设计2-物理模型设计3-概念模型设计C1-概念模型设计2-逻辑模型设计3-物理模型设计D1-物理模型设计2-概念模型设计

3-逻辑模型设计4.2分布式文件系统第1题在HDFS中，name节点和data节点有各自的职责，请分别选择Namenodes和Datanodes的职责.Namenodes(),

Datanodes()

(B)1)实现数据块到数据节点本地文件系统的映射2)管理文件系统命名空间3)存储文件到数据块4)存储文件到数据块到数据节点的映射关系5)调度客户端的文件访问6)存储数据块到本地磁盘

7)在内存中存储元数据方便快速访问A1237,456B2457,136C1245,367D2456,137第2题在HDFS中写数据到DataNodes的正确的顺序是()a)分布式文件系统向NameNode发起一个RPCcall要在文件系统的命名空间中创建一个新的文件，该新文件当前没有数据块与之关联；b)客户端Client通过在分布式文件系统上调用create()方法创建文件；c)DataNode的列表组成一个管道Pipeline，默认的复制级别是3，因此管道Pipeline中有3个节点。DataStreamer将数据包以流的形式发送到管道中的第一个datanode，该datanode存储数据包并将其转发给管道中的第二个datanode。d)NameNode执行各种检查以确保文件不存在，并且客户端有正确的权限创建文件。如果这些检查都通过了，namenode会记录新文件。否则，文件创建失败，客户端会抛出IOException异常.e)分布式文件系统返回一个FSDataOutputStream，让客户端开始向DataNode写入数据。FSDataOutputStream封装了一个DFSOutputStream，用于处理与DataNode和NameNode的通信.f)当客户端写入数据时，DFSOutputStream将其拆分为数据包，并将其写入一个内部队列，称为数据队列。数据队列由DataStreamer使用，DataStreamer负责通过选择一组合适的datanode让namenode分配新数据块来存储数据副本g)类似地，第二个datanode存储数据包并将其转发给管道中的第三个(也是最后一个)datanodeh)DFSOutputStream还维护一个内部队列，用于等待datanode的确认，称为ack队列(ackqueue)。只有在数据包得到管道Pipeline中所有datanode的确认后，它才会从ack队列移除。i)

Whentheclienthasfinishedwritingdata,itcallsclose()onthestream.Itflushesalltheremainingpacketstothedatanodepipelineandwaitsforacknowledgmentsbeforecontactingthenamenodetosignalthatthefileiscomplete.当客户端完成数据写入时，它对数据流调用close()函数。它将所有剩余的数据包发送到DataNode管道Pipeline，并在与NameNode联系以表明文件已完成之前等待确认。

j)Namenode已经知道文件由哪些块组成，所以它只需要等待块被最小限度地复制就可以返回成功消息AbadefcghijBabdefcghijCbadefchgijDbadefcgihj第3题在HDFS中读数据的正确的顺序是

(

)a)分布式文件系统向Namenode发出RPC调用，以确定Datanode中文件以块的形式存储的位置。对于每个数据块，Namenode返回有数据块副本的Datanode的地址(数据块和Datanode的元数据)。Datanode根据邻近程度(取决于网络拓扑信息)进行排序。b)客户端通过调用分布式文件系统上的open()方法打开文件.c)客户端然后对数据流调用read()方法。存储了文件中前几个数据块的Datanode地址的DFSInputStream，然后连接到第一个(最近的)Datanode来获取文件中的第一个数据块d)分布式文件系统返回一个FSDataInputStream(一个支持文件查找的输入流)给客户端，以便从中读取数据。FSDataInputStream又封装了一个DFSInputStream，用于管理datanode和namenode的I/O。e)数据以数据流的形式从Datanode返回客户端(以数据包的形式)，客户端在数据流上反复调用read()方法.f)当客户端Client完成数据读取后,它对FSDataInputStream调用close()方法g)当到达数据块的末尾时，DFSInputStream将关闭与Datanode的连接，然后找到下一个数据块的最合适的Datanode。AABDCEGFBBADCEGFCBADCEFGDBACDEGF4.3NoSQL数据库第1题以下哪项不是RDBMS的挑战?()A灵活性和易于在分布式环境中扩展B按索引快速查询C存储非结构化或半结构化数据D支持分治策略等上层计算模式第2题下列对NoSQL数据库的描述哪项是错误的?()ANoSQL是无模式的B使用哈希和键空间进行分区CNoSQL去掉了代价较大的关系维护,可以很好地扩展DNoSQL具有强一致性第3题下列哪项关于NoSQL数据库结构特征的描述是不正确的?()A不需要预定义数据格式;B灵活可扩展;C应用共享存储架构;D异步复制;第4题下列哪项不是关系型数据库的优点?()A基于完美的关系代数理论,具有严格的标准B支持交易酸的四个特性ACIDC易于伸缩D利用索引机制可以实现高效的查询第5题以下哪项不是NoSQL数据库的优势?()A能支持超大规模数据存储B灵活的数据模型可以很好地支持Web2.0应用C水平扩展能力强D数学理论基础第6题关系数据库和NoSQL数据库各有优缺点,无法相互替代,()应用场景:电信、银行等领域的关键业务系统需要保证强事务一致性()应用场景:互联网企业、传统企业的非关键业务(如数据分析)。()ANoSQL数据库,关系数据库;B关系数据库;NoSQL数据库CNoSQL数据库,NoSQL数据库;D关系数据库;关系数据库4.4NoSQL数据库特征第1题根据CAP定理,一个分布式系统在进行数据读写操作时,只能满足CAP特性其中的两个,RDBMS可以满足哪两个特性?()A一致性(C)和可用性(A)B一致性(C)和分区容忍性(P)C可用性(A)和分区容忍性(P)D以上都不对第2题根据CAP定理,分布式系统在运行中的数据读写操作中只能满足CAP三个特性中的两个,MongoDB可以满足哪两个特性()A一致性(C)和可用性(A)B一致性(C)和分区容忍性(P)C可用性(A)和分区容忍性(P)D以上都不对第3题根据CAP定理,分布式系统在运行中的数据读写操作中只能满足CAP三个特性中的两个,Cassandra可以满足哪两个特性?()A一致性(C)和可用性(A)B一致性(C)和分区容忍性(P)C可用性(A)和分区容忍性(P)D以上都不对第4题下列哪一个不是NoSQL数据库事务模型-BASE的特征?()A基本可用性B最终一致性C软状态D原子性第5题下列哪一个不是RDBMS数据库事务模型–ACID的特征?()A可用性B隔离C一致性D持久性NoSQL数据库类型第1题以下哪一种NoSQL数据库提供高性能的聚合查询,如SUM,COUNT,AVG,MIN等.()A键值数据库B列数据库C面向文档的数据库D图数据库第2题以下哪一种NoSQL数据库中,关系直接定义并存储在数据库中,遍历关系是快速的,因为它们已经被捕获到数据库中,不需要计算它们。()A键值数据库B列数据库C面向文档的数据库D图数据库第3题以下哪一种NoSQL数据库中,记录可以“自描述”所包含数据的类型和内容。包含的数据记录是一系列数据项的集合。每个数据项都有一个名称和一个对应的值。值可以是简单的数据类型,如字符串、数字和日期,也可以是复杂的类型,如有有序的列表和关联对象。()A键值数据库B列数据库C面向文档的数据库D图数据库第4题以下哪一种NoSQL数据库中,基本思想是通过键来查询数据值,键可以是字符串类型,值可以是任何类型的数据,如整数、字符、数组、列表、集合、JSON、BLOB(二进制大对象)等。它不支持基于数据值的查询。它帮助开发人员存储无模式数据。它们最适合处理购物车里的东西。()A键值数据库B列数据库C面向文档的数据库D图数据库第5题文档数据库、键值数据库、列数据库和图数据库的代表数据库平台()AMongoDB,Redis,Cassandra和Neo4j;BMongoDB,Cassandra,Redis和Neo4j;CRedis,MongoDB,Cassandra和Neo4j;DMongoDB,Redis,Neo4j和Cassandra;4.6统一数据访问接口UDAI第1题在数据存储系统中,哪一部分是在分布式环境中支持跨平台异构数据,并向上层数据处理系统提供数据。()A数据采集和建模B分布式文件系统C分布式数据库D统一数据访问接口第2题(

)等数据库连接编程接口可以支持应用程序对数据库的SQL访问,但不能提供分布式计算环境中事务管理、并发调度、缓冲区管理、异构数据转换和继承等复杂功能。这就引入了()。它是在数据库之上提供数据交换功能的一层软件。当系统扩展需要访问跨平台异构数据库时,操作系统可以是UNIX、Linux或Windows,表单可以是邮件、XML文档、EJB组件、Web服务、图像、音频/视频文件或其他非结构化数据,大数据应用层的技术也多样化和各种标准。(

)的设计需要与各种标准技术和产品兼容,这就引入了()。()AODBC和JDBC;数据访问层DAL;统一数据访问接口;统一数据访问接口;BODBC和JDBC;数据访问层DAL;数据访问层DAL;统一数据访问接口;CDALdataaccesslayer;ODBC和JDBC;数据访问层DAL;统一数据访问接口;DODBC和JDBC;数据访问层DAL;统一数据访问接口;数据访问层DAL;第3题1.

以下哪些是统一数据访问接口Unifieddataaccessinterface的功能?

(

)1)事务管理;2)并发调度;3)缓冲区管理;4)数据转换5)统一数据展示,存储和管理;6)数据建模7)访问接口与实现代码分离，底层数据库连接的改变不影响统一的数据访问接口;8)屏蔽数据源差异和数据库操作细节，使应用层专注于数据应用;9)提供统一的访问接口和统一的查询语言;A123456789B1345789C1235789D1235678第4题数据库提供物理存储结构;()第5题DFS分布式文件系统提供了数据的逻辑存储结构.()第6题HDFS支持批量读取、写入和更新操作.()第7题在HDFS中,每个存储文件首先被划分为多个长度可以根据数据的大小进行调整的数据块.()第8题HDFS中的数据是不可修改的.()5.1数据处理系统架构第1题下列哪项不是数据处理系统的一部分?()A计算算法B计算模型.C计算平台和引擎.D数据采集与建模.第2题有代表性的批处理计算平台,流处理计算平台。大规模并行处理MPP计算平台,内存计算平台,图并行处理计算平台是()AHadoop,Greenplum,Storm,Spark,PregelBHadoop,Storm,Greenplum,Spark,PregelCHadoop,Storm,Pregel,Spark,GreenplumDHadoop,Spark,Greenplum,Storm,Pregel第3题在下面的内容中,哪一个是共享一切架构.()ASMPBNUMACMPPD以上都不是第4题以下哪一个是无共享架构.()ASMPBNUMACMPPD以上都不是第5题当CPU增加时,哪种方法可以实现近似线性的性能扩展?()ASMPBNUMACMPPD以上都不能第6题在OLTP,用户访问中心数据库,并且如果采用()系统架构,会更加高效.从()架构的角度,可以在一个物理服务器中集成很多CPU,因此系统有更高的事务处理能力.由于远程访问的延迟时间比本地内存访问时间长,必须减少不同CPU模块之间的交互,显然,()架构更加适合OLTP业务处理的环境.在数据仓库环境中,由于大量的复杂数据处理不可避免的导致大量的数据交互,这将明显降低CPU的利用率,所以()架构是一个比较好的解决方案.()ASMP,NUMA,NUMA,MPPBMPP,NUMA,NUMA,SMPCSMP,SMP,NUMA,MPPDSMP,NUMA,MPP,MPP5.2数据处理算法第1题机器学习和深度学习之间的区别,机器学习算法使用()进行模式识别,深度学习使用()建模,两者都可以以有监督或无监督的方式学习.()A统计分析技术,神经网络B神经网络,统计分析技术C统计分析技术,统计分析技术D神经网络,神经网络第2题分类属于()算法类别.()A监督学习B无监督学习C半监督学习D增强学习第3题聚类属于()算法类别.()A监督学习B无监督学习C半监督学习D增强学习第4题Self-training属于()算法类别.()A监督学习B无监督学习C半监督学习D增强学习第5题蒙特卡洛方法MonteCarlo属于()算法类别.()A监督学习B无监督学习C半监督学习D增强学习5.3批处理系统第1题用户编写的MapReduce程序通过(

)提交给()。用户可以通过()提供的一些接口查看作业的运行状态.()AJobTracker,Client,TasktrackerBClient,

JobTracker,ClientCJobTracker,Tasktracker,ClientDTasktracker,Client,JobTracker第2题()负责资源监控和作业调度,()监控所有()和作业的健康状态,如果发现故障,会将相应的任务转移到其他节点。()将跟踪任务执行进度、资源使用情况和其他信息,并通知(),而()将在资源变为空闲时选择使用这些资源的适当任务。()AJobTracker,JobTracker,TaskTrackers,JobTracker,TaskScheduler,TaskSchedulerBJobTracker,TaskTrackers,JobTracker,JobTracker,TaskScheduler,TaskSchedulerCJobTracker,JobTracker,JobTracker,TaskTrackers,TaskScheduler,TaskSchedulerDJobTracker,JobTracker,TaskTrackers,TaskScheduler,JobTracker,TaskScheduler第3题()会通过“心跳”周期性地向()报告节点上的资源使用情况和任务的进度,同时接收()发送的命令并执行相应的操作(如启动新任务、终止任务等)。()AJobTracker,TaskTracker,JobTrackerBTaskTracker,TaskTracker,JobTrackerCTaskTracker,JobTracker,JobTrackerDJobTracker,JobTracker,TaskTracker第4题()使用()来划分该节点上的资源数量(CPU、内存等)。任务在获得()后有机会运行,()的作用是在每个()上为任务分配idle()。()AJobTracker,slot,slot,Hadoopscheduler,slots,TaskTracker;BTaskTracker,slot,slot,Hadoopscheduler,slots,TaskTracker;CTaskTracker,slot,slot,Taskscheduler,slots,TaskTracker;DTaskTracker,slot,slot,Hadoopscheduler,task,TaskTracker;5.4流处理系统第1题1.

对流计算特性和需求的正确描述包括(B)1)数据不再是分批到达，而是动态地连续到达2)计算分析需要实时、快速响应和低延迟3)数据量大，不重视数据的存储，但强调对数据的即时处理和分析4)注重整体数据的计算和分析结果，而不注重个别数据5)数据元素到达的顺序和时间无法预测或控制，计算程序必须能够响应6)动态连续数据流的实时分析计算7)得到计算结果后，数据要么导入静态数据库，要么丢弃，即一次性使用A12347B1234567C124567D123567第2题Storm是一个原生的流处理系统,即流数据的处理是基于每条数据进行的,其并行计算是基于有向拓扑图实现的。由数据源-()和处理单元-()组成的拓扑结构。Topology定义了并行计算的(),即从功能和结构的角度设计计算步骤和过程。()ABolt,Spout,物理模型BSpout,Bolt,物理模型CBolt,Spout,逻辑模型DSpout,Bolt,逻辑模型第3题在Storm中,()通过一组()来管理许多工作节点,每个工作节点运行一个()守护进程,监控本地节点的状态,并在必要时根据()指令启动和关闭该节点的()进程。InStorm,()managesmanyworkernodesthroughagroupof(),Eachworkernoderunsa()daemon,monitorsthestatusofthelocalnode,andstartsandshutsdownthe()processofthenodewhennecessaryaccordingto()instructions.()AZookeeper,Nimbus,Supervisor,worker,NimbusBNimbus,Zookeeper,Supervisor,worker,ZookeeperCNimbus,Zookeeper,Supervisor,Nimbus,workerDSupervisor,Zookeeper,Supervisor,worker,Nimbus5.5大规模并行处理第1题MPP数据库过程从()开始,发出一个查询,然后传递给()。()包含数据字典和会话信息等信息,用于生成一个(),以便从每个底层节点检索所需的信息。并行执行表示通过节点1到节点n的并行计算实现(),查询结果返回到主节点。()AClient,MasterNode,MasterNode,

执行计划executionplan,执行计划executionplanBMasterNode,Client,MasterNode,执行计划

executionplan,存储计划storingplanCClient,MasterNode,Client,

执行计划executionplan,执行计划executionplanDMasterNode,Client,MasterNode,

执行计划executionplan,存储计划storingplan第2题大规模并行处理MPP(MassivelyParallelProcessing)通过()的并行来提升性能.()与()合作,()与一个或者多个()合作。()并行处理查询.()在无共享架构下有自己的CPU,硬盘,内存。为持续的数据处理流水线高速进行交互。()Asegmenthosts,Master,segmenthost,Segmenthost,segmentinstances,Segmentinstances,SegmenthostsBsegmentinstance,Master,segmenthost,Segmenthost,segmentinstances,Segmentinstances,SegmenthostsCsegmentinstance,Master,segmenthost,Segmenthost,segmentinstances,Segmentinstances,SegmentinstancesDsegmenthosts,Master,segmenthost,Segmenthost,segmentinstances,Segmenthosts,Segmenthosts5.6内存计算Spark第1题基于内存计算模型的并行处理框架spark可以构建在Hadoop平台上,并使用HDFS文件系统存储数据,但为了支持高效的分布式内存计算,在文件系统之上构建了()()ADatachunkBResilientDistributeddataset(RDD)CDataBlockDdataset第2题RDD(ResilientDistributedDataset)只有两种操作()。在()中可以对数据进行filter、join、map、reduce等操作,但不进行计算,只有在()才能进行计算,并生成结果值.()Amapandreduce,map,reduceBtransformationsandaction,action,transformationCtransformationsandaction,transformation,actionDmapandreduce,reduce,map第3题()返回给驱动程序或者存储在文件中的返回值,是从RDD到result的转换过程,而()是从RDD到RDD的转换过程。只有当()被执行时,RDD才会被计算和生成,这是RDD延迟执行的根源。()AAction,Transformation,ActionBTransformation,Action,ActionCTransformation,Transformation,ActionDAction,Transformation,Transformation第4题在Spark中,()负责将应用的计算任务转换为()。()负责在工作节点上完成计算和数据存储。在每个worker上,()为分配给它的每个数据分区生成任务线程,以完成并行计算。()AExecutor,topology,Executor,DriverBDriver,Directedacyclicgraph(DAG),Executor,ExecutorCExecutor,Directedacyclicgraph(DAG),Executor,DriverDDriver,topology,Executor,Executor第5题Spark的特征包括以下哪些()1)内存计算2)硬盘中计算3)延迟评估LazyEvaluation4)立即评估ImmediatelyEvaluation5)容错FaultTolerant6)不可修改Immutability7)分区Partitioning8)持久性Persistence9)粗力度操作Coarse-GrainedOperation10)细粒度操作Fine-GrainedOperationA2346789B1356789C135678,10D235678,10第6题Spark的组件可以方便地处理不同类型的计算任务，比如机器学习、流计算、图计算等，这些组件包括(

)1)SparkCoreAPI2)Resilientdistributeddataset

(RDD),

3）

SparkSQL

4）Sparktopology5）

SparkStreaming6）MLlib(MachineLearningLibrary)7）

GraphX

8）SklearnA12345B13456C13567D13578第7题以下哪些属于Spark的优势(

)1)快速处理

2)灵活性

3)内存计算

4)实时处理

5)更好的分析

6)容错7)需要额外的持久化存储A123567B123456C134567D2345675.7内存数据库HANA第1题内存数据库HANA可以快速地处理数据,主要因为()AHANA的多核架构BHANA部署在高性能服务器上CHANA设计了快速索引机制DHANA把主要的数据存储在内存中第2题HANA在数据仓库中提升了数据分析的性能,以下哪一个不是性能提升的原因()AHANA消除了不必要的复杂结构和延迟B通过简化进行加速C由于内存计算的优势,支持HANA把OLTP业务处理,和OLAP数据分析,集成在一个数据库中。D用于报告和分析的专用数据仓库需要对事务性数据进行移动、转换和预处理,这带来了巨大的复杂性:有时一个企业可能拥有相同数据的三个不同副本5.8分布式图并行计算第1题在图计算中最基本的计算单元是节点，节点包含（）A节点属性,外弧outwardarcs及其属性,一个来接受发来的所有消息的逻辑收件箱B节点属性,外弧outwardarcs及其属性,外弧所指向的节点IDC节点属性,外弧outwardarcs及其属性,外弧所指向的节点ID,一个来接受发来的所有消息的逻辑收件箱D外弧outwardarcs及其属性,外弧所指向的节点ID,一个来接受发来的所有消息的逻辑收件箱第2题下面哪项关于图并行计算架构的描述是不正确的()A整个图被分解为多个“分区”B每个分区包含大量的节点C分区是一个执行单元并且通常有一个执行线程与之关联D一个"worker"机器上运行一个"partitions"第3题超步Superstep执行过程是下面哪个顺序(

)1)向其他节点发送消息,使它们处于活动状态;

2)修改节点和弧的属性;

3)去掉现在的弧或者创建一个新的弧;

4)从收件箱接收消息;

5)自我停止直到收到新的信息;A42513B12345C42135D42351第4题执行模型基于BSP(BulkSynchronousProcessing)模型。在该模型中，多个处理单元在一系列“superstep”中并行进行。在每个“Superstep”中，处理序列应该是(

)a)每个处

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

雨课堂学堂在线学堂云《大数据分析（北京理工）》单元测试考核答案

文档简介

温馨提示

最新文档

评论

雨课堂学堂在线学堂云《大数据分析（北京理工）》单元测试考核答案

文档简介

温馨提示

最新文档

评论

相关文档