版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
思考与练习一、判断题
1、云主机和物理机的寿命都是永久性的。()
2、对于实时性要求高的应用,需要应用实时处理架构。()
3、数据仓库是用来存储数据的而不是分析数据的。()
4、在DWS层中,用户行为日志数据分为公共字段和事件字段。()
二、单选题
1、项目实施流程中没有哪一步()
A.下载数据
B.数据仓库设计开发
C.数据导出D.数据访问
2、数据分析在企业中的作用()
A.帮助企业经营者平衡企业的收益
B.干预经营者的决策
C.直接的获取经营的利润
D.帮助企业经营者减少投入
3、数据结构中哪项不是页面入口的来源()
A.应用首页
B.登录页
C.push
D.详情页
三、多选题
1、Hadoop的三大发行版本是()
A.Apache
B.CDH
C.HDP
D.Java
2、流量分析常见指标有哪些方面()
A.来源分析
B.受访分析
C.访客分析
D.转化路径分析3、网站流量数据分析的意义有哪些()
A.帮助网站运营人员获取网站流量信息
B.从多方面提供网站分析的数据依据
C.帮助提高网站流量
D.提升网站用户体验
参考答案:一、判断题
1.错2.对3.错4.对
二、单选题
1.A2.C3.B
三、多选题
1.ABC2.ABCD3.ABCD思考与练习一、判断题
1、Hadoop是一种分布式系统基础架构,主要解决海量数据存储和海量数据计算两大
问题。()2、在HDFS配置文件中,主要配置的就是hdfs-site.xml配置文件。()
3、在Hadoop分布式集群中,不需要对集群中的每一个节点都进行ip规划。()
4、利用HDFS操作命令可以将数据文件从本地上传到HDFS上,也可以将数据文件
从HDFS下载到本地。()
5、在HDFSAPI操作中,closeFileSystem方法的功能是释放文件系统对象的资源。
()
6、MapReduce词频统计案例中,执行map任务的最后阶段,会将缓冲区的数据全部
写入到磁盘。()
7、Flume是Cloudera公司提供的一款高可用、高可靠、分布式的系统,可用于海量
日志采集、聚合和传输。()
二、单选题
1、能在网络中安全传输文件的软件是()。
A.VMware
B.Xshell
C.IDEA
D.Xftp
2、创建了bigdata用户的命令是()。
A.subigdata
B.bigdataALL
C.useraddbigdata
D.Sudoers
3、论文(),主要论证的核心是如何采用分布式的架构对海量数据进行分布式计算。A.GFS
B.BigTable
C.MapReduce
D.HDFS
4、假如我们设定HDFS块的大小是128M,那么,一个大小为500M的数据文件,将会被
拆分成()个分片
A.2
B.3
C.4
D.5
5、在Linux命令行中,使用()命令格式化hive元数据库
A.format
B.schematool
C.clear
D.del
6、在Hive中给表添加数据,使用()方式给表添加数据效率更高。
A.insertinto
B.Load
C.append
D.Add
7、关系型数据库与HDFS之间相互数据迁移的工具是()。
A.distcpB.fsck
C.fastcopy
D.sqoop
三、多选题
1、Notepad++功能有()。
A.制作一般的纯文字说明文件
B.编写计算机程序代码
C.语法高亮度显示、语法折叠功能、支持宏、扩充基本功能的外挂模组
D.可以连接虚拟机,对虚拟机中的文件进行编辑。
2、Hadoop主要包含()三大功能组件。
A.YARN
B.Hadoop
C.MapReduce
D.HDFS
3、Hadoop具有()优势。
A.高可靠性
B.高效性
C.高容错性
D.高扩展性
4、下面说法正确的是()。
A.JDK是Java语言的开发环境
B.JDK包含JRE和JVMC.JRE是java运行时的类库
D.Java编程的核心就是JVM,JVM是JRE的一部分,它是一个虚拟出来的计算机。
5、在分布式文件系统HDFS当中提供了两种操作命令,是()。
A.hadoopfs
B.Hadoopdfs
C.hdfsdfs
D.hdfsfs
6、Hive是基于Hadoop技术的数据仓库工具,用来对数据进行()。
A.提取
B.转化
C.加载
D.分析
7、使用beeline客户端远程访问Hive之前,需要启动的两个服务是()。
A.hive--servicemetastore
B.hive--servermetastore
C.hive--servicehiveserver2
D.hive--servicehiveserver
8、Hive的复杂数据类型有()三种
A.ARRAY
B.MAP
C.STRUCT
D.Char9、成功安装Zookeeper集群后,查看各节点的角色信息时,会看到1个、多个()。
A.leader
B.follower
C.zookeeper
D.zkServer
10、Kafka是一种高吞吐量的分布式发布订阅消息系统,是Apache基金会开源的消息队列,
该框架由()编写而成。
A.C++
B.Java
C.Scala
D.Python
参考答案:一、判断题
1.对2.对3.错4.对5.对6.对7.对
二、单选题
1.D2.C3.C4.C5.B6.B7.D
三、多选题1.ABCD 2.ACD 3.ABCD 4.ABCD 5.AC 6.ABCD 7.BC 8.ABC 9.AB 10.BC思考与练习
一、判断题
1、业务字段指的是每个移动端固定的、共有的字段;公共字段代表的是用户在app中
执行过的所有操作。()
2、在Flume过程中,Flume对接本地磁盘文件,通过tailDir类型实时监控当前数据文
件中数据内容的变化。()
3、ETL拦截器主要用于过滤时间戳不合法和json数据不完整的日志。()
4、Flume分流标记拦截器主要是用于区分启动日志和事件日志。()
二、单选题
1、以下关于Flume的说法正确的是____。()
A.Event是Flume数据传输的基本单元
B.Sink是Flume数据传输的基本单元
C.Channel是Flume数据传输的基本单元
D.Source是Flume数据传输的基本单元
2、Flume通过内部的采集数据传输机制进行快速的数据传输,传输完之后会将数据就
存储到____中。()
A.Source
B.Channel
C.Kafka
D.HDFS
3、可以使用____命令,启动Kafka的一个消费者。()。
A.kafka-console-consumer.shB.kafka-server-start.sh
C.kafka-topics.sh
D.kafka-console-producer.sh
4、在Flume消费的整体流程中,第一部分是别名配置,在别名配置的过程当中,配置了两
个数据流用来处理()。
A.ETL和分流标记拦截器
B.启动日志数据和事件日志数据
C.Flume环境变量
D.Flume数据消费脚本
三、多选题
1、在Flume数据传输的过程中,当source将数据传递给channel时,数据会先后经过
()两个拦截器。
A.ETL拦截器
B.时间戳拦截器
C.Flume分流标记拦截器
D.UUID拦截器
2、Flume的安装与部署可以分为下列哪三个步骤()。
A.将Flume安装包上传至Linux操作系统
B.解压到指定目录,进行环境变量的配置
C.在Flume的配置文件中修改指定配置
D.启动Flume数据消费脚本参考答案:
一、判断题
1.错2.对3.对4.对
二、单选题
1.A2.C3.A4.B
三、多选题
1.AC2.ABC思考与练习
一、判断题
1、在数据仓库中,ODS层的作用是保持数据原貌,不做任何修改,起到备份数据的作
用()
2、在数据仓库中,DWD层的作用是对数据进行清洗()
3、在ADS层中,通过在启动日志中统计不同设备ID出现的次数来分析用户活跃?
()
4、在ADS层中,按照设备ID对日活表分组,登录次数为1,且在一周前登录的这种分析方式,分析沉默用户?()
5、DWS层统计各个主题对象的当天行为,服务于DWT层的主题宽表。DWS层的宽
表字段,是站在不同维度的角度去看事实表,重点关注事实表的度量值,通过与之关联的事
实表,获得不同的事实表的度量值()
二、单选题
1、在数据仓库项目中,我们在DWD层使用()手段清洗数据
A.RDD
B.Kettle
C.SQL
D.Python
2、在数据仓库中,用于数据清洗的是哪个层()
A.ODS
B.DWD
C.DWS
D.DWT
三、多选题
1、数据仓库一般分为()
A.ODS
B.DWD
C.DWS
D.DWT
E.ADS2、在数据仓库DWD层中,需要清洗哪些数据()
A.空值的去除
B.过滤核心字段
C.将用户行为宽表和业务表进行数据一致处理
D.创建分区表
3、在数据仓库中,ODS层做了什么业务()
A.保持数据原貌
B.采用LZO压缩
C.创建分区表
D.空去除
参考答案:
一、判断题
1.对2.对3.对4.对5.对
二、单选题
1.C2.B
三、多选题1.ABCDE2.ABC3.ABC思考与练习一、判断题
1、使用pyecharts工具绘图时,可直接进行图表的绘制,无需在程序中导入对应的
图表类。()
2、使用pyecharts工具绘图时,可以通过设置初始化配置项中的图表ID,设置图表
的唯一标识,以此来区分多个图表。()
3、饼图常用于表示不同分类的占比情况,通过弧度大小来对比各种分类。()
二、单选题
1、MySQL中,用于创建数据库的命令是()。
A.dropdatabase数据库名
B.use数据库名
C.createtable数据库名
D.createdatabase数据库名
2、使用sqoop进行从Hive到MySQL数据库的数据迁移时,其命令为()。125
第1章
A.sqoopimport
B.sqoopexport
C.sqoopjob
D.sqoopmerge
3、pyecharts中,柱状图类是()。
A.Bar
B.Line
C.Pie
D.Liquid
4、pyecharts中,饼图类是()。
A.Bar
B.Line
C.Pie
D.Liquid
5、全局配置项可通过()方法设置。
A.add_yaxis
B.set_global_opts
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗数据安全事件区块链存证与法律效力
- 福建省平和一中、南靖一中等四校2026届高一上数学期末达标检测试题含解析
- 2026届广西贵港市桂平市生物高一第一学期期末预测试题含解析
- 医疗数据备份的区块链数据备份策略
- 医疗数据区块链防护的体系建设
- 肿瘤放疗科护理进修课件
- 河南省林州一中2026届数学高一上期末质量跟踪监视模拟试题含解析
- 医疗数据共享的安全风险评估
- 医疗数据共享的分级诊疗协同
- 肾上腺疾病患者的健康教育
- 2025年无人机航拍理论题库(含答案)
- 安阳学院期末考试原题及答案
- 校园广播站每日提醒培训课件
- 2025年长者教育与培训项目可行性研究报告
- 2025年秋季学期国家开放大学《理工英语4》形考任务综合测试完整答案(不含听力部分)
- 中层竞聘面试必-备技能与策略实战模拟与案例分析
- 政银合作融资模式-洞察与解读
- 服装打版制作合同范本
- 购油茶苗合同
- 小学语文经典课文说课稿集锦(三年级适用)
- 装修公司和中介合作协议5篇
评论
0/150
提交评论