大数据分析师(互联网行业)岗位招聘考试试卷及答案_第1页
大数据分析师(互联网行业)岗位招聘考试试卷及答案_第2页
大数据分析师(互联网行业)岗位招聘考试试卷及答案_第3页
大数据分析师(互联网行业)岗位招聘考试试卷及答案_第4页
大数据分析师(互联网行业)岗位招聘考试试卷及答案_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析师(互联网行业)岗位招聘考试试卷及答案填空题(10题,每题1分)1.Hadoop分布式文件系统的英文缩写是______。2.SQL中用于计算分组内排名的窗口函数是______(写出一个即可)。3.互联网行业中,每日活跃用户的英文缩写是______。4.Spark的核心不可变分布式数据集抽象是______。5.ETL过程中,从源系统抽取数据的环节是______。6.描述用户属性、行为的标签集合称为______。7.A/B测试中用户分配的核心原则是______。8.Python中常用的数据可视化库是______(写出一个即可)。9.机器学习分类任务的经典算法是______(写出一个即可)。10.数据仓库的核心特性之一是______(面向主题/集成/非易失/时变)。答案:1.HDFS;2.RANK();3.DAU;4.RDD;5.抽取;6.用户画像;7.随机化;8.Matplotlib;9.逻辑回归;10.面向主题单项选择题(10题,每题2分)1.HDFS默认文件块大小是()A.64MBB.128MBC.256MBD.512MB答案:B2.Spark资源调度组件是()A.DriverB.ExecutorC.ClusterManagerD.Worker答案:C3.SQL计算总和的函数是()A.COUNT()B.SUM()C.AVG()D.MAX()答案:B4.互联网转化率公式中,分母是()A.访问用户数B.下单用户数C.支付用户数D.注册用户数答案:A5.数据仓库最底层是()A.ODSB.DWDC.DWSD.ADS答案:A6.A/B测试样本量不足会导致()A.统计显著性降低B.结果更准确C.周期缩短D.无影响答案:A7.用户生命周期价值(LTV)指()A.单次消费B.终身总价值C.注册时长D.复购次数答案:B8.处理缺失值属于数据清洗的()A.抽取B.转换C.预处理D.加载答案:C9.MapReduce不包含的阶段是()A.MapB.ShuffleC.ReduceD.SparkSQL答案:D10.实时流处理框架是()A.FlinkB.HiveC.HBaseD.MySQL答案:A多项选择题(10题,每题2分)1.Hadoop生态组件包括()A.HDFSB.MapReduceC.SparkD.YARN答案:ABD2.SQL窗口函数有()A.RANK()B.SUM()OVER()C.GROUPBYD.PARTITIONBY答案:AB3.互联网核心指标包括()A.DAUB.MAUC.GMVD.CTR答案:ABCD4.数据仓库分层有()A.ODSB.DWDC.DWSD.ADS答案:ABCD5.实时计算框架有()A.FlinkB.StormC.SparkStreamingD.Hive答案:ABC6.用户画像标签类型包括()A.静态标签B.行为标签C.偏好标签D.实时标签答案:ABCD7.A/B测试注意事项()A.随机分配B.单一变量C.样本足够D.避免偏差答案:ABCD8.数据可视化工具()A.TableauB.PowerBIC.MatplotlibD.Excel答案:ABCD9.机器学习分类算法()A.逻辑回归B.决策树C.随机森林D.K-Means答案:ABC10.ETL工具包括()A.SqoopB.DataXC.FlumeD.SparkSQL答案:ABC判断题(10题,每题2分)1.HDFS默认副本数是3。()答案:对2.SparkRDD是可变的。()答案:错3.GROUPBY后只能用分组字段+聚合函数。()答案:对4.GMV等于实际收入。()答案:错5.A/B测试需随机分配用户。()答案:对6.数据仓库面向主题、集成。()答案:对7.用户画像标签静态不变。()答案:错8.实时计算核心是低延迟。()答案:对9.MapReduce适合实时处理。()答案:错10.LTV越高用户价值越大。()答案:对简答题(4题,每题5分)1.简述Hadoop核心组件及作用答案:Hadoop核心组件含HDFS、MapReduce、YARN。HDFS是分布式文件系统,分块存储海量数据,副本机制保障可靠性;MapReduce是批处理框架,拆分任务为Map(映射)和Reduce(归约),实现并行计算;YARN是资源调度器,统一管理集群CPU、内存,为应用分配资源。三者协同支撑海量数据存储与计算。2.DAU与MAU的区别及业务意义答案:DAU是单日活跃用户,MAU是月内活跃用户。区别:DAU反映短期活跃度,MAU反映长期规模。意义:DAU观察日级运营效果(如活动引流),MAU评估市场渗透;DAU/MAU比值(活跃度)衡量用户粘性,比值越高粘性越强。3.数据仓库分层的目的及结构答案:目的:解耦数据与业务,提升复用性;减少冗余,降低维护成本;隔离原始与分析数据,保障安全。结构:①ODS(原始层):存储源系统数据;②DWD(明细层):清洗整合后的明细;③DWS(汇总层):主题汇总宽表;④ADS(应用层):面向业务的结果数据(报表、看板)。4.A/B测试基本流程答案:①明确目标:确定测试指标(如转化率);②设计方案:生成实验组(新策略)和对照组(原策略);③随机分配:用户分组保证同质性;④执行实验:收集行为数据;⑤统计分析:验证指标差异的显著性;⑥决策落地:效果显著则全量上线,否则迭代。讨论题(2题,每题5分)1.如何通过用户数据提升产品留存率?答案:①用户分层:按行为(登录频率、时长)分为新用户、活跃用户、流失风险用户,针对性运营(新用户引导、活跃用户激励);②个性化运营:基于用户画像(偏好、行为标签)推送定制内容(如电商推荐、资讯个性化);③流失预警:分析流失特征(近期未活跃),提前触达(短信提醒、专属福利)挽回高价值用户;④A/B测试验证策略效果,持续优化。2.大数据分析在电商推荐系统中的价值答案:①精

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论