数据工程师培训题库(四)_第1页
数据工程师培训题库(四)_第2页
数据工程师培训题库(四)_第3页
数据工程师培训题库(四)_第4页
数据工程师培训题库(四)_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、。描述A) 30道客观题,每道2分,共60分B) 4道主观题,每道10分,共40分c)满分100分。不定多项选择题(每题2分,共60分)1、下列与HDFS有关的说法是正确的()A.HDFS数据节点上的磁盘需要RAID1来确保数据的可靠性B.HDFS可以通过平衡操作来平衡磁盘之间的负载C.HDFS建议数据节点之间的数据磁盘数量和容量不一致,以反映HDFS的负载平衡能力D.规划HDFS群集时,建议将活动名称节点和备用名称节点分配到不同的机架上2.以下哪项服务可作为HDFS高可靠性协调服务的共享存储?()A.动物园管理员B.日志节点C.名称节点D.ZKFailoverController3.在集群中

2、,HDFS的拷贝数被配置为3,数据块的大小被设置为128米。此时,我们上传一个64米的数据文件,它占用了()的HDFS空间a .64Mb .128米c .384米d .192米4.纱线服务中不包括以下哪个角色()a .资源管理器b .节点管理器c .ApplicationMasterd .连续器5.资源管理器是纱线的主要组成部分,对其功能的错误描述是()A.它根据需要将集群拥有的资源直接分配给运行在纱上的应用程序B.它负责集群中所有资源的统一管理和分配C.它接收每个节点的资源报告信息D.它根据策略向应用程序分配资源TDH数据平台认证工程师考试试题名称:_ _ _ _ _ _ _ _ _ _ _

3、 _ _ _ _分数:_ _ _ _ _ _ _ _ _ _ _ _ _ _ _。6.当前用户提交了一个字数统计词频的任务,最后任务执行失败。可能的原因是什么()A.当前群集中没有足够的资源来满足当前字数统计任务的需要B.执行此任务的用户无权访问HDFS的数据文件C.用户在执行任务之前,在HDFS的相应目录中创建提交任务时指定的输出目录D.所有上述原因都是可能的7.以下关于外观和托管表的描述是正确的()外部数据存储在本地,托管表数据存储在hdfs上B.删除托管表只会删除启动器上的元数据,而不会删除数据文件,如果外观被删除,两者都将被删除删除外观只会删除启动器上的元数据,而不会删除数据文件,删除

4、托管表也会同时被删除d .删除被管理的表或外观,incepotr上的元数据和数据文件将被删除8.如果在SQL操作中有大量的maptask数据,并且执行时间很短,可以通过合并小文件来优化。以下合并参数是()A.自动合并=真;B.SET ng Mr . partition . merge size=n;C.SET ng Mr . partition . merge size . MB=m;D.任务=否;9.以下对接收方日志信息的描述是正确的()A.启动器服务器日志存储在每个节点的/var/log/initiator SQLx/hive-server . log中B.您可以通过启动器服务器4040查

5、看SQL错误日志C.执行程序日志存储在执行程序节点的/var/log/exceptor SQLx/spark-executor . log中执行程序日志存储在执行程序节点上的10.tableA有10G的数据,tableB有100G的数据,这两个表通过公共id列查询名称列。以下方法可以优化计算效率()A.从a.id=b.id上的表A a连接表B b中选择/* MAPJOIN(a)*/,B.从a.id=b.id上的表A a连接表B b中选择/* MAPJOIN(b)*/,C.创建表时,根据id字段将tableA和tableB分成相同数量的存储桶D.创

6、建表时,根据名称字段将tableA和tableB分成相同数量的存储桶11、下列属于HMaster的功能是()A.为区域服务器分配区域存储数据元信息C.压缩区域D.管理用户添加、删除和修改表格的操作12、Hyperbase和启动器之间的关系,描述是正确的()A.这两者都是不可或缺的,而接收方保证了超基地服务的正常运行B.两者之间没有关系C.煽动者可以进入超级基地D.这两者相辅相成13、以下语句创建一个全局索引,正确的是()A.add_index t1,index_name , COMPONENT _ INDEX | INDEX=f 1: q 1:9 | row key : row key :10

7、,UPDATE=trueB.add_global_index t1,index_name ,COMPONENT _ INDEX | INDEX=f 1: q 1:9 | row key : row key :10,UPDATE=trueC.add_fulltext_index t1,index_name ,COMPONENT _ INDEX | INDEX=f 1: q 1:9 | row key : row key :10,UPDATE=trueD.create_global_index t1,index_name ,COMPONENT _ INDEX | INDEX=f 1: q 1:9

8、| row key : row key :10,UPDATE=true14.对流处理计算框架的以下描述不正确()A.火花流基于微批处理处理数据B.阿帕奇风暴根据事件处理数据C.Transwarp StreamSQL可以基于微批处理或事件处理数据D.以上陈述都不正确15.一个交通部门用这个数据流监控整个城市过去24小时内每个刺刀的数据,并要求每分钟更新一次。原始流是org_stream,下面的实现是正确的()A.创建流窗口流量_流AS选择*从原始_流流w1 AS(长度1分钟幻灯片24小时);B.创建流流量_流AS选择*从原始_流流窗口w1 AS(长度1分钟幻灯片24小时);C.创建流流量_流AS

9、选择*从原始_流流窗口w1 AS(长度24小时幻灯片1分钟);D.创建流流量_流AS选择*从原始流AS(长度24秒幻灯片1分钟);16.动物园管理员服务描述正确为()A.动物园管理员中的每个服务器都是彼此的领导者。B.动物园管理员中只有一个领导者,这是由后备机制产生的。C.动物园管理员中没有领导者,所有服务器一起提供服务。动物园管理员通过选举机制决定领导者,而且只有一个领导者。17.通过色相修改HDFS目录或文件的权限可以通过以下方式实现()A.HDFS的相应权限B.通过色相超级用户色相登录C.以hdfs用户身份登录D.以上所有这些都可以做到18.要通过ozie使用ssh,必须满足以下条件()

10、A.以root用户身份登录到每个节点B.用户可以不用钥匙登录C.ozie用户必须拥有bash权限D.被访问的节点必须是群集节点19.使用sqoop提取数据的原理描述不正确()A.sqoop可以在提取数据时指定映射的数量,映射的数量决定了在hdfs中生成的数据文件的数量B.sqoop数据提取是一个多节点并行提取过程,因此设置的映射数量越多,性能越好C.sqoop任务的分段基于拆分字段的(最大-最小)/映射数D.当SQOOP提取数据时,需要确保当前用户有权限执行相应的操作20.当使用sqoop连接关系数据时,下列哪个命令可以查看关系数据库中的哪些表?()A.sqoop列表-数据库-用户名根-密码1

11、11111-连接JDBC : MySQL :/192 . 168 . 16433366666B.sqoop列表-数据库-用户名根-P-连接JDBC : MySQL :/192 . 168 . 16433366666C.sqoop列表-数据库-用户名根-密码-文件file:/root/。pwd-连接JDBC : MySQL :/192 . 168 . 16433366666D.sqoop列表-表-用户名根-密码111111-连接JDBC : MySQL :/192 . 168 . 164/test。33366 . 1636363636621.要将收集到的测井数据用作卡夫卡的数据源,应设置以下哪些

12、参数()?a .hdfsb .卡夫卡c .org.apache .水槽. sink.kafka.KafkaSinkd .topicname22.以下是水槽和sqoop之间的比较描述,这是不正确的()A.水槽主要用于收集日志,而sqoop主要用于数据迁移B.水槽主要收集流数据,sqoop主要用于迁移标准化数据C.水槽和sqoop都是分布式处理任务D.水槽主要用于从多个数据源收集小数据,而sqoop用于迁移单个数据源数据23、关于弹性搜索的描述是错误的一个是()A.它将使用多播来发现节点。B.主节点通过选举产生。C.主节点管理集群,只负责添加和删除集群节点。主节点将读取集群状态信息,并在必要时进行

13、恢复。24、下列措施,不能保证卡夫卡数据的可靠性的是()A.kafka会将所有消息保存到硬盘上,以确保数据的可靠性B.卡夫卡通过主题分区设置复制,以确保其数据的可靠性C.kafka通过建立消息重传机制来保证其数据的可靠性D.卡夫卡不能保证数据的可靠性25.TDH提供哪些认证模式?()A.所有服务都使用简单身份验证模式。所有服务都可以相互访问,无需身份验证B.所有服务都启用了Kerberos身份验证,用户应该提供Kerberos主体和密码(或keytab)来访问每个服务C.所有服务都启用了Kerberos,启动器启用了LDAP身份验证D.所有服务都启用了LDAP身份验证26.打开LDAP后,应该使用哪个命令来连接启动器()A.transwarp -t -h $ip .B.直线-u JDBC : hive 2:/$ IP :10000-n $ username-p $ password .C.beeline-u JDBC : hive 2:/$ IP :10000/default;principal=hive/node1TDH .D.beeline-u JDBC : hive 2:/$ IP :10000/default;委托人=用户1TDH .27.当启动器服务器服务无法启动时,如何查看日志是()A.检查配置

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论