大数据架构、高性能、数据治理题目_第1页
大数据架构、高性能、数据治理题目_第2页
大数据架构、高性能、数据治理题目_第3页
大数据架构、高性能、数据治理题目_第4页
大数据架构、高性能、数据治理题目_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a.大数据的高级处理技术(占比5%)

单选题目:

1.以下—不属于大数据的关键技术

A.数据技术

B.大数据安全技术和大数据质量技术

C.虚拟化技术和云计算平台技术

D.海量数据的存储技术

答案:C

2.Spark比Hadoop的MR计算高效,主要原因不包含下面_

A.Spark支持DAG

B.Spark中间数据不存储磁盘,进行缓存处理。

C.Spark采用MPP架构,并发处理

D.高度抽象API

答案:C

3.下面对流式计算理解错误的是—

A.流式计算满足高效实时的场景

B.实时计算是更快的批量计算,更快的交付数据

C.流式计算需要先提交流式计算作业、等待数据流触发操作

D.流式计算连续计算,计算完数据丢弃

答案B

4.BloomFilter(BF)是一种空间效率很高的随机数据结构,下面描述错误的是

A.它是一个判断元素是否存在集合的概率算法

B.判断如果不在集合肯定不在,如果在集合有一定的概率判错

C.它支持从集合中删除一个元素

D.Hash函数的选择会影响到算法的效果

答案:C

多选题目

5.问:大数据引擎的性能优化手段,包含下面—

A:计算引擎的任务调度时,尽量本地化计算,减少数据网络输出。

B:数据以流的方式在不同stage传输,减少物化到磁盘。

C:采取数据列式存储,包括轻量级压缩数据、延迟解压、向量化引擎技术。

D:MPP架构采取细粒度容错,解决落后节点影响整个查询性能。

答案:ABC

b.大数据架构设计方法论概述(占比3%)

单选题:

6.分布式系统的ID生成系统,不包含的是一

A.生成的ID必须考虑主机的差异性

B.ID必须全局唯一性,不会出现重复

C.ID是没有规律的,处于信息安全考虑

D.高QPS,性能强劲,低延迟交付

答案A

7.CAP理论理解错误的是一

A.CAP的背景是同一份数据多个副本场景

B.大数据场景下对A/P要求较高,对C反而要求较低

C.AP既适用于NoSQL数据库,也适用于关系型数据库

D.关系型数据库是为了保证P、A而牺牲C

答案:D

多选题:

8.用户行为数据处理的注意点有一

A.埋点数据一定要符合业务数据信息流才能保证数据处理的完整性

和确保数据的可用性

B.行为数据要与其他数据源做一致性关联,确保数据的一致性和关

联性

C.行为数据的元数据尽可能从源头字段化保存到数据文件中

D.埋点数据可以是可视化埋点和非可视化埋点

答案:ABCD

c.大数据之常见场景下的架构设计(占比5%)

单选题:

9.RBAC权限模型的架构描述错误的是—

A.用于将需要做权限验证的定义为角色

B.大数据引擎Hive权限模型依赖RBAC

C.角色之间可以有继承关系

D.RBAC基于责任分离原则和数据抽象原则

答案:B

10.大数据监控平台不包括的是一

A.服务的SLA的体系监控

B.线上功能的状态监控

C.服务调用链跟踪和问题发掘

D.提供基础的高性能RPC服务

答案:D

H.高吞吐架构的三要素不包含下面哪个—

A.消息中间件

B.服务高可用

C.配置管理

D.服务组件化

答案:B

12.不属于服务伸缩性的架构的是一

A.服务可以通过服务器加入进来,应对不断上升的并发访问压力

B.集群服务器不能存储数据,之间是对等的架构

C.不同的产品业务之间的耦合度很小,一个产品或业务的改动不会对其他

造成影响

D.上游可使用合适的负载均衡设备发现新服务或者退出的服务

答案:C

多选题

13.处理大数据常用的徘序有:

A.快速排序

B.堆排序

C.归并排序

D.桶排序

答案:ABCD

d.大数据存储及并行处理(占比2%)

单选题

14.下面不属于大数据存储和计算一体数据库管理系统的是?

A.ClickHouse

B.PrestoDB

C.Hive

B.减少预申请资源和存储的预读功能

C.防止数据倾斜

D.减少shuffle算子的大量使用

答案:B

多选题

20.实时的流式计算特征包含:

A.无边界,数据源头不间断有数据提供

B.延迟性能小

C.触发的机制包括数据流触发和定时任务调度

D.离线大数据修正,优先考虑实时计算

答案:ABC

g.数据治理概述、大数据类型(占比2%)

21.下面不属于大数据治理范畴的是一

A.数据管理体系建设好,能够快速识别数据

B.提供监控和快速发现问题的体系

C.业务性能高吞吐和高可用的架构设计

D.数据应用体系,可以共享和高效实用数据

答案:C

22.时序数据库特征不包括:_

A.底层存储LSMTree性能优于BTree

B.强调随机读功能

C.时序数据库采取分片方式有哈希分片、一致性哈希、范围划分

D.可以选择的支持列设置为tag属性

答案:B

h.元数据管理、数据标准(占比3%)

单选题目

23.关于元数据的描述错误的是:

A.元数据可以直接提升数据查询性能

B.元数据是大数据治理的核心

C.元数据支持企业级别的数据资产管理

D.元数据能够协助了解企业数据情况,针对数据问题可以快速定位

答案:A

24.数据质量的管理不包含的是

A.数据的完整性

B.数据交付准确性

C.数据命名规范性

D.数据计算的性能优化

答案D

多选题

25.大数据治理标准涵盖的方面包括

A.大数据管理

B.大数据存储

C.大数据质量

D.数据的共享与开放

答案:ABCD

i.大数据隐私、安全、立法知识(占比3%)

单选题

26.1.大数据的隐私不包含下面的—

A.业务数据的信息

B.用户访问的IP信息

C.数据存储采取列存储,按需交付数据

D.用户的行为浏览记录,停留和提交动作

答案:C

27.不属于大数据安全面临的技术问题和挑战的是.

A.大数据平台安全问题和挑战

B.大数据平台服务用户众多、场景多样、传统安全机制性能难以满

C.大数据平台的大规模分布式存储和计算模式导致安全配置难度城

北增长

D.数据在离线计算面临周期长,回溯成本高

答案D

多选题目

28.欧盟《通用数据保护法案》覆盖的内容有:

A.数据的彻底遗忘全

B.默认隐私保护

C.并就数据许可

D.个人数据引人假名数据

答案:ABCD

j.数据质量管理(占比3%)

单选题

29.数据质量校验的方式错误的是

A.加大内存在shuffle的容量,加快计算

B.根据数据整体批次比对,查看数据有无遗漏

C.根据数据的某些进行聚合,查看整体数据有无偏差

D.抽样明细数据比对完整列能否对其

答案:A

30.下面不可以纳入到服务质量体系的是?

A.大数据引擎查询的响应时间

B.数据中脏数据的抽样比例

C.元数据从顶层进行设计

D.数据存储的可用性

答案:C

多选题

31.能够支撑数据质量的有:

A.数据ETL工具统一

B.数据的冗余性要求数据具备一致性

C.在实践中提炼数据需求,数据使用有目标性

D.提供规范、流程的系统,便于统一、协作

答案:ABCD

k.数据生命周期管理(占比2%)

32.大数据热度的应用不包含

A.热点数据进行差异化存储,提高效率

B.热点数据可以有针对性的做缓存机制,提高吞吐

C.热数据便于数据质量的管理

D.热数据便于分析用户的分析行为

答案C

33.过期数据的服务动作不包含:

A.历史数据归档、打包

B.无人关注的报表数据可以停止计算

C.数据没有访问的分区可以考虑删除

D.过期数据作为数据资产长期保存

答案:D

1.数据服务(占比2%)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论