大数据分析师（高级）试题

上传人：飞*** IP属地：河北上传时间：2026-05-19 格式：PDF 页数：13 大小：2.61MB 积分：7.19 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据分析师(高级)试题

姓名:分数：

1、按下()键能终止当前运行的命令

A.Ctrl-C

B.Ctrl-F

C.Ctrl-B

D.Ctrl-D

【答案】A

【难度】一般

2、Is命令有很多的参数，显示所有文件，包括隐藏文件的参数是()

A.-a

B.-I

C.-r

D.-help

【答案】A

【难度】一般

3、若要将鼠标从VM中释放出来，可按()键来实现

A.Ctrl+Alt

B.Ctrl+Alt+Del

C.Ctrl+Alt+Enter

D.Ctrl+Enter

【答案】A

【难度】一般

4、除非特别指定，cp假定耍拷贝的文件在下面哪个目录下()

A.用户目录

B.home目录

C.root目录

D.当前目录

【答案】D

【难度】一般

5、用"rm牝系统会提示什么来让你确认()

A.命令行的每个选项

B.是否真的删除

C.是否有写的权限

D.文件的位置

【答案】B

【难度】一般

6、几位学生的某门课成绩分别是67分、78分、88分、89分、96分，则“成绩”是()

A.品质标志

B.数量标志

C.标志值

D.数量指标

【答案】B

【难度】一般

7、抽样调查与重点调查的主要区别是()

A.作用不同

B.组织方式不同

C.灵活程度不同

D.选取调查单位的方法不同

【答案】D

【难度】一般

8、先对总体中的个体按主要标志加以分类，再以随机原则从各类中抽取一定的单位进行调查，这种抽样调查形式属于

()

A.简单随机抽样

B.等距抽样

C.整群拍样

D.类型拍样

【答案】D

【难度】一般

9、统计指标按所反映的数量特征不同可以分为数量指标和质量指标两种。其中数量指标的表现形式是（）

A.绝对数

B.相对数

C.平均翻

D.小数

【答案】A

【难度】一般

10、HDfS中的block默认保存几份？（）

A.1份

B.2份

C.3份

D.不确定

【答案】C

【难度】一般

11、对某市全部商业企业职工的生活状况进行调查，调查对象是O

A.该市全部商业企业

B.该市全部商业企业的职工

C.该市每一个商业企业

D.该市商业企业的每一名职工

【答案】B

【难度】一般

12、在抽样推断中，可计算和控制的误差是（）

A.登记误差

B.系统性误差（偏差）

C.抽样实际误差

D.抽样平均误差

【答案】D

【难度】一•般

13、下面偏度系数的值表明数据分布形态是右偏的是（）

A.1.429

B.0

C.-3.412

D.-1

【答案】A

【难度】一般

14、（）可以刻画离中趋势。

A.均值

B.全距

C.众数

D.中位数

【答案】B

【难度】一般

15、正态分布有两个参数5与5（），分布越集中，正态曲线的形状越‘扁平"。

A.p越大

B.p越小

C.6越大

DJ5越小

【答案】C

【难度】一般

16、HBase依赖（）提供强大的计算能力

A.Zookeeper

B.Chubby

C.RPC

D.MapReduce

【答案】D

【难度】一般

17、HFile数据格式中的Data字段用于（）

A,存储实际的KeyValue数据

B.存储数据的起点

C.指定字段的长度

D.存储数据块的起点

【答案】A

【难度】一般

18、HFile数据格式中的Magic字段用于()

A.存储随机数，防止数据损坏

B.存储数据的起点

C.存储数据块的起点

D.指定字段的长度

【答案】A

【难度】一般

19、默认情况下，YARN支持下面哪个调度器。()

A.Fairscheduler

B.Capacityscheduler

C.CFO调度器

D.DRT调度器

【答案】C

【难度】一般

20、HBase虚拟分布式模式需要()个节点？

A.1

B.2

C.3

D.最少3个

【答案】A

【难度】一般

21、HBase分布式模式最好需要()个节点？

A.1

B.2

C.3

D.最少

【答案】C

【难度】一般

22、SQL语句中的条件用以下哪一项来表达()

A.THEN

B.WHILE

C.WHERE

D.IF

【答案】C

【难度】一般

23、下直哪项工作场炭不是MapReduce计算框架擅长处理的？()

A.分析web日志记录，分析用户的行为

B.实时分析微博热词

C.分析气象数据，找出有历史记录以来每年的最高气温

D.购物篮分析，分析用户购买商品的关联度

【答案】B

【难度】一般

24、在Hadoop客户端提交数据到HDFS上时，数据文件会被分片(split),最佳的分片策略是()

A.等于两个HDFS的block块大小

B.等于一个HDFS的block块大小

C.等于操作系统的文件块大小

D.大小无所谓

【答案】B

【难度】一般

25、SELECT语句的完整语法较复杂，但至少包括的部分是()

A.仅SELECT

B.SELECT,FROM

C.SELECT,GROUP

D.SELECT,INTO

【答案】B

【难度】一•般

C.网络

D.内存

【答案】B

【难度】一般

34、linux中，哪个目录存放用户密码信息（）

A./boot

B./etc

C./var

D./dev

【答案】B

【难度】一般

35、考虑如下场景：在WR系统中，-HDFS块的大小是128MB-输入数据格式是FilelnputFormat-我们有2个文件,

大小分别为64Mb和200Mb问：Hadoop框架将启动几个mapper进程进行处理？（）

A.2个

B.3个

C.4个

D.5个

【答案】B

【难度】一般

36、在大数据的单位中,PB称为“拍字节"，其中1PB指的是:（）

A.1024KB

B.1024MB

C.1024GB

D.1024TB

【答案】D

【难度】一般

37、hdfs-site.xml中哪个主要属性决定数据存储的路径？（）

A..dir

B.dfs.data.dir

C.fs.checkpoint.dir

D.dfs.url

【答案】B

【难度】一般

38、以下哪项用于左连接（）

A.JOIN

B.RIGHTJOIN

0.LEFTJOIN

D.INNERJOIN

【答案】C

【难度】一般

39、SQL是一种（）语言。

A.函数型

B.高级算法

C.关系数据库

D.人工智能

【答案】C

【难度】一般

40、一张表的主键个数为（）

A.至多a个

B.没有限制

C.至多1个

D.至多2个

【答案】C

【难度】一般

41、在Hadoopv2丫ARN中，负贲管理一个单独节点内资源的服务是（）

A.NodeManager

B.ResourceManager

C.NameNode

D.DataNode

【答案】A

【难度】一般

42、向数据表中插入一条记录用以下哪一项（）

A.CREATE

B.INSERT

C.SAVE

D.UPDATE

【答案】B

【难度】一般

43、Hadoopfs中的-get和-put命令操作对象是：（）

A.文件

B.目录

C.两者都是

D.两者都不是

【答案】C

【难度】一般

44、创建一个数据库表用以下哪一项（）

A.UPDATE

B.CREATE

C.UPDATED

D.ALTER

【答案】B

【难度】一般

45、HDFS是一个分布式文件系统，它允许用户使用shell命令操作文件系统。其中读取/user/hduser/file1.txt文件并打

印到屏幕上的命令是：O

A.hdfsdfs-Is/user/hduser/file1.txt

B.hdfsdfs-mkdir/user/hduser/file1.txt

C.hdfsdls-cat/user/hduser/file1.txt

D.hdfsdls-put/user/hduser/file1.txt

【答案】C

【难度】一般

46、LSM更能保证哪种操作的性能？（）

A.读

B.写

C.随机读

D.合并

【答案】B

【难度】一般

47、HDFS文件系统有•个/作为根目录。运行如下哪个命令来列出在HDFS口新创建的目录的内容：（）

A.hdfsdfs-Istest

B.hdfsdfs-mkdirtest

C.hdfsdls-cattest

D.hdfsdls-puttest

【答案】A

【难度】一般

48、运行如下的命令，将本地readme.txt文件拷贝到test目录中：（）

A.hdfsdfs-cattest/readme.txt

B.hdfsdfs-puttest/readme.txt

C.hdfsdls-rm-Rtest/readme.txt

D.hdfsdls-copyFromLocalreadme.txttest

【答案】D

【难度】一般

49、关于MapReduce计算框架，以下说法正确的是：()

A.MapReduce是一个离线的批处理计算框架

B.MapReduce是一个实时的流处理计算框架

C.MapReduce是•个内存计算框架

D.以上说法都正确

【答案】A

【难度】一般

50、在MapReduce的Shuffle阶段，每个Reducer使用HTTP协议来从Mapper节点获取自己的partition,,默认每个

Reducer使用几个线程来获取Maper节点数据？()

A.3个

B.4个

C.5个

D.6个

【答案】C

【难度】一般

51、HadoopMapReduce应用程序可以运行在YARN上，使用一个()来协调每个job以及一系列资源容器(resource

container)来运行Map和Reduce任务。

A.NodeManager

B.ResourceManager

C.JobTracker

D.ApplicationMaster

【答案】D

【难度】一般

52、以下哪个命令可以终止一个用户的所有进程()

A.skillall

B.skill

0.kill

D.killall

【答案】D

【难度】一般

53、在基本K均值算法里，当邻近度函数采用()的时候，合适的质心是簇中各点的中位数

A.曼哈顿距离

B.平力欧几里德距离

0.余弦距离

D.Bregman散度

【答案】A

【难度】一般

54、关于SecondaryNameNode哪项是正确的？()

A.它是NameNode的热备

B.它对内存没有要求

C.它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间

D.SecondaryNameNode应NameNode部署到一个节点

【答案】C

【难度】一般

55、以HDFS上master:9000/graphdata.txt中的数据创建图graphhdfs,其中graphdata.txt文本格式：121256

132156o现将graphhdfs中每个节点的属性值变为原值的3倍，并查看其中的10个顶点，则以卜.选项正确的是()

A.valtemp=graphhdfs.mapVertices((x1,x2)=>x2.tolnt*3).vertices.take(10)

B.valtemp=graphhdfs.mapEdges((x1,x2)=>x2.tolnt*3).vertices.take(10)

C.valtemp=graphhdfs.mapVertices(x=>x._2.tolnt*3).vertices.take(10)

D.valtemp=graphhdfs.map(x=>x._1.tolnt*3).vertices.take(10)

【答案】A

【难度】一般

56、Mahout中实现的ALS-WR算法计算()后，就可以进行推荐了

A.评分矩阵(userXitem)A

B.用户特征矩阵U

C.物品特征矩阵M

D.U与M'的乘积A_k矩阵

【答案】D

【难度】一般

57、HBwse依赖()提供消息通信机制

A.Zookeeper

B.Chubby

C.RPC

D.Socket

【答案】A

【难度】一般

58、Client端上传文件的时候下列哪项正确

A.数据经过NameNode传递给DataNode

B.Client端将文件切分为Block,依次上传

C.Client只上传数据到一台DataNode.然后由NameNode负贡Block复制工作

D.以上都不对

【答案】B

【难度】一般

59、下面与Zookeeper类似的框架是()

A.Protobuf

B.Java

C.Kafka

D.Chubby

【答案】D

【难度】一般

60、下面与HDFS类似的框架是()

A.NTFS

B.FAT32

C.GFS

D.EXT3

【答案】C

【难度】一般

61、在Hbase中删除表t1的命令是()

A.droptablet1

B.truncatet1

C.drop*t1'

D.truncatetablet1

【答案】C

【难度】一般

62、使用Pig的优势在于()

A.Pig可以使用一个类SQL的语言，降低了学习成本

B.Pig的语言编辑器可以把类SQL语言转换为一系列经过优化处理的MapReduce运算

C.目前Pig主要由开源社区维护

D.Pig是一种数据流语言

【答案】A

【难度】一般

63、Spark中的task分别是以()方式维护的

A.进程

B.线程

C.流水线

D.以上都不是

【答案】B

【难度】一般

64、MapReduce中的task是以()方式维护的

A.进程

B.线程

C.流水线

D.以上都不是

【答案】A

【难度】一般

65、配置Standalone模式下的Spark集群，Worker节点需要在conf文件夹式的哪个文件中指明()

A.regionserver

B.spark-env.sh

C.spark-defaults.conf

D.slaves

【答案】D

【难度】一般

66、valrdd=sc.parallelize(List(('Tom",2),(*Lee",5),("Lee",6)l('*Tom,7)))rdd.reduceByKey((x,y)=>x+y).collect上述代

码的执行结果为()

A.Array((1,2),(3,10))

B.Array((9,Tom"),(11,"Lee"))

C.Array((HTom",9),("Lee",11))

D.Array((“Tom”,2,7),(“Lee”,5,6))

【答案】C

【难度】一般

67、valrdd=sc.parallelize(1to10).filter(_%2==O)rdd.collect上述代码的执行结果为()

A.Array(1,2,3,4,5,67,8,9,10)

B.Array(1,3,5,7,9)

C.Array(2,4,6,8,10)

D.Array(1,10)

【答案】C

【难度】一般

68、基于密集向量(1.0,0。3.0)创建一个1_3%€^。山3设其标识值为1.0，以下正确的选项为()

A.valpos=LabeledPoint(1.0,Vectors.dense(1.0,0.0,3.0))

B.valpos=LabeledPoint(1.0,(1.0,0.0,3.0))

C.valpos=LabeledPoint(Vectors.dense(1.0,0.0,3.0),1.0)

D.valpos=LabeledPoint((1.0,0.0,3.0),1.G)

【答案】A

【难度】一般

69、MLlib中创建稀疏矩阵((0。2.0),(3。0.0),。0,6.0))的语句是()

A.valdm:Matrix=Matrices.dense(3,2,Array(O.O,3.0,0.0,2.0,0.0,6.0))

B.valdm:Matrix=Matrices.sparse(3,2,Array(O.O,2.0,3.0,0.0,0.0,6.0))

C.valsm:Matrix=Matrices.sparse(3,2,Array(0,1,2),Array(1,0,1),Array(2,3,6))

D.valsm:Matrix=Matrices.dense(3,2,Array(0,1,2),Array(1,0,1),Array(2,3,6))

【答案】C

【难度】一般

70、MLlib提供的分布式矩阵中，不包含行、列索引信息的炬件类型是()

A.RowMatrix

B.IndexedRowMatrix

C.Matrix

D.CoordinateMatrix

【答案】A

【难度】一般

71、Spark支持的分布式部署方式中哪个是错误的()

A.standalone

B.sparkonmesos

C.sparkonYARN

D.Sparkonlocal

【答案】D

【难度】一般

72、下列哪个操作能够实现"基于窗口将DStream［（K,V）］中的值V按键K使用聚合函数tunc聚合得到新的DStream”（）

A.count

B.reduceByKeyAndWidow

C.countByValue

D.reduceByKey

【答案】B

【难度】一般

73、在SparkStreaming中批处理时间间隔是指（）

A.系统将获取到的数据流封装成•个RDD的时间间隔

B.系统对数据流进行统计分析的时间问隔

C.系统对数据流进行统计分析的频率

D.系统作业处理的周期

【答案】A

【难度】一般

74、DataFrame和RDD最大的区别（）

A.科学统计支持

B.多了schema

C,存储方式不一样

D.外部数据源支持

【答案】B

【难度】一般

75、在使用mkdir命令创建新的目录时，在其父目录不存在时先创建父目录的选项是（）

A.-m

B.-d

C.-f

D.-p

【答案】D

【难度】一般

76、在Spark中，DAGScheduler的输出形式为（）

A.DAG图

B.Stage

C.TaskSet

D.Task

【答案】C

【难度】一般

77、Stage的Task的数量由什么决定（）

A.Partition

B.Job

C.Stage

D.TaskScheduler

【答案】A

【难度】一般

78、下面哪个操作是窄依赖（）

A.join

B.filter

C.group

D.sort

【答案】B

【难度】一般

79、卜面哪个操作肯定是宽依赖（）

A.map

B.flatMap

C.reduceByKey

D.sample

【答案】C

【难度】一•般

80、hive的元数据存储在derby和mysql中有什么区别()

A.没区别

B.多会话

C.支持网络环境

D.数据库的区别

【答案】B

【难度】一•般

81、SparkSQL组件的主要功能是()

A.海量数据的交互式杳询

B.机器学习与数据挖掘

C.图计算

D.实时数据流处理

【答案】A

【难度】一•般

82、SparkStreaming组件的主要功能是()

A.海量数据的交互式查询

B.机器学习与数据挖掘

C.图计算

D.实时数据流处理

【答案】D

【难度】一般

83、与MapReduce相比，Spark更适合处理以下哪种类型的任务()

A.较多迭代次数的长任务

B.较多迭代次数的短任务

C.较少迭代次数的长任务

D.较少迭代次数的短任务

【答案】B

【难度】一•般

84、对于SparkStreaming与Storm.系列叙述错误的是()

A.二者同为大数据流式数据处理框架

B.SparkStreaming在吞吐量与集成性方面要优于Storm

C.SparkStreaming在数据处理的实时性要优于Storm

D.SparkStreming又称为准实时处理框架，对数据的处理延迟能够达到秒级别

【答案】C

【难度】一•般

85、当HRegion中的StoreFile数目达到一定阈值时，就会触发HRegion的()

A.compact操作

B.split操作

C.flushC作

D.write操作

【答案】A

【难度】一般

86、spark的master和worker通过什么方式进行通信的？()

A.http

B.nio

C.netty

D.Akka

【答案】D

【难度】i般

87、MLlib提供的分布式矩阵中，既有行索引，又有列索引的是（）

A.RowMatrix

B.IndexedRowMatrix

C.Matrix

D.CoordinateMatrix

【答案】D

【难度】一•般

88、Standalone模式下配置Spark集群时，master节点的工作端口号需要在conf文件夹下的哪个文件指明（）

A.regionserver

B.spark-env.sh

C.spark-defaults.conf

D.slaves

【答案】R

【难度】一般

89、执行如下哪个命令，用来初始化name目录和data目录（）

A.hadoopnamenode-jar

B.hadoopnamenode-format

C.hadoopdatanode-jar

D.hadoopdatanode-format

【答案】D

【难度】一般

90、以下哪个命令用来启动HDFS系统：•）

A.start-dfs.sh

B.stop-dfs.sh

C.sbin/mr-jobhistory-daemon.shstarthistcryserver

D.jps

【答案】A

【难度】一般

91、HDFS有一个gzip文件大小75MB,客户端设置Block大小为64M,当运行MapReduce任务读取该文件时input

split大小为多少（）

A.64M

B.75M

C.一个map读取64M,另夕I、一个map读取11M

D.一个map读取11M,另外一个map读取64M

【答案】B

【难度】一般

92、SparkJob默认的调度模式（）

A.FIFO

B.FAIR

C无

D.运行时指定

【答案】A

【难度】一般

93、以下关于SPARK中的sparkcontext,描述错误的是：（）

A.控制整个application的生益周期

B.可以控制dagsheduler组件

C.可以控制taskscheduler组件

D.SparkContext为Spark的主要入口点

【答案】A

【难度】一般

94、以下对Spark中Work的主要工作描述错误的是（）

A.管理当前节点内存

B.不会运行业务逻辑代码

C.会运行业务逻辑代码

D.接收master分配过来的资源指令

【答案】C

【难度】一般

95、SPARK默认的存储级别是()

A.MEMORYONLY

B.MEMORY_ONLY_SER

C.MEMORY_AND_DISK

D.MEMORY_AND_DISK_SER

【答案】A

【难度】一般

96、Mahout中进行大数据分析时，需要对数据进行聚类，其所使用的命令是()

A.seq2sparse

D.kmeans

C.trainnb

D.testnt

【答案】B

【难度】一般

97、使片sparkMLib进行K-means算法分析时，我们会调用KMeans.train方法时数据集进行聚类训练，该函数的返

回值是O

A.K_MEANS_PARALLEL

B.KMeansModel类实例

C.kmeans.epsilon

D.kmeans.test实例

【答案】B

【难度】一般

98、卞数据的起源是以下哪个领域()

A.金融

B.电信

C.互联网

D.公共管理

【答案】C

【难度】一般

99、如果你面对的大数据都是结构化的数据，使用传统的数据库进行数据库查询和分析时，数据库的反应速度很慢，在

这种大数据应用场景下，正确的大数据技术解决方案是＜)

A.Hadoop+oracle+spark

B.Hadoop+sqoop+hive+spark

C.oracle+mahout

D.sqlserver+oracle+mahout

【答案】B

【难度】一般

100,假设需要对某个数据集使用mahout进行聚类,数据集共有6类数据，需要迭代7次,拟使用mahout连行聚类,

假设输入文件为input/part-m-0000,输出目录为output,初始聚类中心点文件路径为clusters.下列聚类语句正魂的是

()

A.mahoutkmenas-iinput/part-m-0000-ooutput-cclusters-k6-x7

B.mahoutkmenas-iinput/part-m-0000-ooutput-cclusters-k7-x6

C.mahoutkmenas-iinput/part-m-0000-ooutput-cclusters-x6

D.mahoutkmenas-iinput/part-m-0000-ooutput-cclusters-k7

【答案】A

【难度】一般

二、问答题

1.一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂

度分析。

答:解决方案：方案1：这题是考虑时间效率。用trie树统计每个词出现的次数，时间复杂度是O（n*le）（le表示单词的平

准长度）。然后是找出出现最频繁的前10个词，可以用堆来实现，前面的题中已经讲到了，时间复杂度是O（n*lg10）。

所以总的时间复杂度，是O（n*le）与O（n*lg10）中较大的哪一个。

2.给40亿个不重复的unsignedint的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当

中。

答：解决方案：申请512M的内存，一个bit位代表一•个unsignedint值。读入40亿个数，设置相应的bit位，谈入要

查询的数，查看相应bit位是否为1,为1表示存在，为0表示不存在。dizengrong：方案2：因为2A32为40亿多，

所以给定一个数可能在，也可能不在其中;这里我们把40亿个数中的每一个用32位的：进制来表示假设这40亿个数开

始放在一个文件中。然后将这40亿个数分成两类：1.最高位为02.最高位为1并将这两类分别写入到两个文件中，其中

一个文件中数的个数＜=20亿，而另一个＞=20亿（这相当于折半了）;与要查找的数的最高位比较并接着进入相应的文件再

查找再然后把这个文件为又分成两类：1.次最高位为02.次最高位为1并将这两类分别写入到两个文件中，其中•个文

件中数的个数＜=10亿，而另一个＞=10亿（这相当于折半了）;与要查找的数的次最高位比较并接着进入相应的文件再杳

找。.……以此类推，就可以找到了，而且时间复杂度为O（logn）,方案2完。

3.在2.52个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

答：解决方案：方案1：采用2-Bitmap（每个数分配2bit,00表示不存在，01表示出现一次，10表示多次，11无意义）

进行，共需内存内存，还可以接受

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据分析师（高级）试题

文档简介

温馨提示

最新文档

评论

大数据分析师（高级）试题

文档简介

温馨提示

最新文档

评论

相关文档